“実践”システム障害対応:11週目:関係者を交えたシステム障害対応訓練

12週にわたり「”実践”システム障害対応」と題して、システム障害対応の改善のプロセスを約3か月で実行できるように、各週ごとに何を実践すればよいか?を考えていきたいと思います。

10週目に明確化されたアクション、判断情報/基準をもとに実際の訓練を実施し”実践”できるところまで是非持っていきましょう。

じっくりいくら考えても実際やってみると…って、ところはありますよね。
しかも社内の営業やカスタマーサポート部門を交えたり、お客様を交えるとまた見えてくるものがあります。
しっかり訓練していきましょう!

訓練の種類

訓練といってもいくつか種類・分類方法があります。
今回は目的別に分けて考えてみましょう。

ルールの周知・浸透を目的にした訓練

まずは存在しているルールの周知や浸透を目的にした訓練です。ルールが存在していても緊急時の対応のルール・手順・マニュアルなどはなかなか身に付きません。
緊急時に急ぎ使うことになるので、まずは知ってもらい、浅くてもいいので広く知らせて最低限の知識をつけるというものです。

学校や会社で行われている避難訓練はこちらに近いと思っています。
この時は「おかし(おさない・はしらない・しゃべらない)」とか、逃げる先だけを知っているとか、最低限の内容だけを理解するのに向いていると思います。

実践で活躍できることを目的にした訓練

次は実践で活躍できることを目的にした訓練です。ルールや手順はある程度わかった上で実践に準じたような事象を起こして対応をしていく手法です。

開発環境で障害を起こして復旧する訓練や、サイバー防御演習のようなものがこれに当たります。
(参考)実践的サイバー防御演習「CYDER」 のここがスゴい! – 総務省

「ルール」や「やり方」を学んだ人が実際に使える力をつけるのに向いていると思っています。

訓練の実施内容での分け方

もう1つ訓練の切り方で前提として記載しておくことがあります。それは「部分訓練」と「総合訓練」というものです。消防で使われる用語です。
(参考)自衛消防訓練 – 東京消防庁

「消化訓練」など、文字通り一業務を切り取って訓練するのが「部分訓練」で、警報機、管内放送から避難誘導、消火活動などの一連の「総合訓練」があります。

システム障害対応ではどのようにすべきか?

広範囲な障害→ルールの周知・浸透×部分訓練

共通基盤や共通ネットワークなど広範囲に影響が出て、関係者が多数となる場合にはルールの周知・浸透を目的に、部分訓練をすべきだと考えています。

例えば500人の保守運用開発を行う組織で、共通基盤/ネットワークが障害になると現場は大混乱になります。それを少しでも緩和することを目指すとなると、「復旧の優先順位」「共通基盤Tへの依頼方法」など、システム障害の内容によってしまうので難しいのですが、最低限全体で共通認識を合わせる点を設定して、そのルールの浸透に向けた訓練を実施すべきです。

重大影響が出る障害→実践活躍×部分訓練→総合訓練

金融のオンラインシステムの停止/異常や日次バッチ処理の停止/異常や、高PVのあるECサイトなど、一度起きてしまうとニュースになったり、被害額が大きいものについては、実践で活躍することを目的にした訓練を実施すべきだと考えています。
その中でも前の10週目で整理したアクションを絞った「部分訓練」をメンバーの一部が行い、その後、マネージャー・管理職は総合訓練をするのがおすすめです。

重大影響が出る障害といっても対応するのは多くて15名ほどのため、その人でいかに少数精鋭で最短距離で被害を抑えるところに向かう必要があります。
そのためには絞ったアクションを確実にこなせる部分訓練とその後も含めたフォローをできる総合訓練の両方を実践活躍できるところまで訓練をします。

訓練参加者の選定

訓練参加者の選定も重要です。関係する人をきわめて少なくしがちです。
本当に必要な人が誰なのか?を目的に合致した形で決めましょう。

BtoC事業

開発・保守・運用担当だけで実施しがちですが、カスタマーサクセスなど顧客対応を行っている担当や広報などを必ず参加させるべきです。
実際に重大な故障の復旧に当たる際にはシステムを直す以外に社外への通知をWebサイトへ公表などをすることがあります。その場合は間違いなく広報も連携をすることになります。事前にこういう関係者を明確にしていて例えば広報内容を事前に文章を作っておくことで格段に速くなります。

BtoB事業

こちらは必ず「顧客」を巻き込んだ訓練にしましょう。
前回までに決めたようにアクションは「顧客の運用設計」を反映すべきものです。もちろん顧客との関係性もあるので必ずしもできないかもしれませんが、是非勇気をもって「万が一の障害の際にエンドユーザーへの影響を極小化したい」旨を伝えれば協力してもらえると思います。

事前に一度顧客を巻き込んで一緒に実践して、その時の内容を残しておくだけで十分に次に実際使える障害対応になるはずです。

ここまでご覧いただきありがとうございました!
次回はついに最終週「訓練後の振り返りについて」です!!

野村 浩司

金融系システムを中心に開発・保守・運用を6年実施、その後、事業部・社内改善を5年しており、大規模障害時は300人ほどの障害対応の統括を実施、事業部の故障数を30%削減などに取り組んだ。 他にも、原価削減はBPRで8000万/年、システム監視改善で3600万/年、申込運用改善で2500万/年など実績あり。

The following two tabs change content below.

野村 浩司

金融系システムを中心に開発・保守・運用を6年実施、その後、事業部・社内改善を5年しており、大規模障害時は300人ほどの障害対応の統括を実施、事業部の故障数を30%削減などに取り組んだ。 他にも、原価削減はBPRで8000万/年、システム監視改善で3600万/年、申込運用改善で2500万/年など実績あり。
是非フォローお願いしますm(_ _)m
NO IMAGE