“実践”システム障害対応:10週目:アクション、判断情報/基準の簡易化

12週にわたり「”実践”システム障害対応」と題して、システム障害対応の改善のプロセスを約3か月で実行できるように、各週ごとに何を実践すればよいか?を考えていきたいと思います。

9週目に第一歩目として絞ったアクション、判断情報/判断基準が決まりました。
アクションをもうちょっとだけ詳細化、判断情報/判断基準を簡単に集められるようにしていきましょう。

ここができれば現場で使えてシステム障害対応が一歩良くなるはずです!

アクションの定義を詳細化

前回アクションのうちでも頻度が高いものを選びました。現場によりますがここ数か月以内に使ったことがあるものだと思います。
そのアクションは実行する人の間で明確化できておりますでしょうか?

  • だいたいざっくりみんなの意識があっているけど、微妙にずれているところがある
  • 認識が合っている人が限られている
  • わかってもらえていない

などありませんでしょうか?

例えば「お客様への第一報のご連絡」というアクションを定めていた時に、「誰に」「どんな手段で」「何と連絡するか」が意識あっていますでしょうか?
連絡が遅くなる原因の1つがこれです。

何度も実施して慣れていると不幸中の幸いでだんだん意識が合っていきますが、頻度が低かったり、慣れてない人とは合ってないかも知れません。

慣れによる習得のため実施できる人が偏る

前述で「慣れてない」と書きましたが、慣れている人≒有識者となり連絡する人が偏ってしまっていないでしょうか?
本当は管理職が連絡すべきなのですが、本人もやりたいと思っているけどなかなか入っていけないとか、ベテラン・有識者のメンバーに集中するのを緩和するために回りのメンバーで補いたいけどなかなかやれない、となってないでしょうか。

判断情報・判断基準の収集簡易化

同様に判断情報・判断基準もずれがないでしょうか?
特に判断情報・判断基準の場合「この人じゃないと判断できない、この人じゃないとアカウント権限上できない」などになっていないでしょうか?

例えば「復旧見込み時間」となった時に「15分以内」か「否」かだけは最低限判断したい。

もし技術にあまり明るくない管理者”だけ”で対応せざるを得ない場合には、復旧することはできないので、サービスの状態を確認して、サービスが正常だったら「15分以内」(回復済み)、そうじゃなければ「15分以上」(障害中)とは判断できます。
「いや~、担当者か有識者に依頼しないとわからないんだよね…」とか「まだ現場に着任して浅くてよくわかってなくて…」とかなってませんでしょうか。

”平時”での意識合わせ

是非一度関係者集めてこんな話をしてみましょう!

  • アクションってどんな内容?(5W1H)
  • このアクションは誰までできるべき?
  • 判断基準これであっている?
  • 判断情報って誰が得られるようにすべき?
  • 判断情報ってどうやれば集められる?
  • 判断情報の取得って簡易にできない?

おそらく関係者が集まって1時間あれば十分で、はじめはドキュメント化なんていりません!

だって、システム障害時ってもっと限られたメンバー・短い時間でこんなことを決めていませんか…?それに比べれば皆さんが冷静な平時にこういうことを決めておいて、議事メモをその場で作ってみんなシステム障害時に目に入る場所に置いておくだけで絶大な効果があります!

システム障害対応実施要領をしっかり描くとか、管理者の承認をしっかり得るみたいなことを目標にすると、お忙しい皆様の現場ではなかなか一歩が踏み出せないのでは…?と思っています。
まずは一歩踏み出して、次につなげることを目標にしましょう!

具体例:「お客様への第一報のご連絡」

例えば「お客様への第一報のご連絡」は

「株式会社XXの担当者XX様へ、電話(090-xxxx-xxxx)でご連絡。XX業務で取引数が低下、XX業務は問題無いように現時点では見えています。詳細調べますので30分以内に再度ご連絡差し上げます。」

そうするときっといろいろ疑問が生まれてきます

  • つながらなかったら他の人にかけるべき?メールに切り替えるべき?
  • 夜間にも電話かけていいの?
  • XX業務が問題ない、ってどこを基準に言うの?
  • 30分では詳細わからないけど30分って言っていいの?など

この辺を詳細化をいきなりするのは難しいですが、疑問がわいて意識ができて、仮にでも基準が決まることが重要です。

追加で「XX業務」だけは重要だから、きっとお客様に聞かれるし伝えてあげたいよね…というのがわかっています。これも次に記載する判断情報にあげていきましょう。

システム障害対応はその場その場で違ってくる、定型化は難しいと言われこういう内容のディスカッションさえできておらず、実際のシステム障害対応の現場になるとこんな会話が飛び交う。というのが良くあるパターンです。
せっかくなら平時に是非こういう話を一度しましょう!!

具体例:「復旧見込み時間15分以内」

前述のお客様連絡の内容にあったように「XX業務で取引数が低下、XX業務は問題無い」というのにもいろいろ疑問が生まれます。

  • 見るべき業務はドレとドレ?webは見るけどバッチ処理は見る?
  • 取引の定義って何?正常だけ?エラーも含む?
  • 取引って取引ログから見る?外形監視から見る?
  • エラー率とか見なくてよい?リトライ回数とか見なくてよい?
  • 「XX業務は問題無い」って何をもって問題無いっていえばよい?
  • そもそも”正常”の定義って何?
  • それ見れるのは誰?どうアクセスすればよい?どう集計すればよい?

などなど…これも同様で仮決めはできますが正解を作るのは難しいですし、例外は無限にあるし…
でも、平時にみんなが集まってある一定の基準・共通認識ができるだけでシステム障害対応は格段に良くなるんです!

もう全部見るのは無理だからXX業務だけ見ない?とか
正常の取引数が前日に比べて±30%ならば一旦よくね?みたいな。

もちろんこれで完璧だとは言いませんし意識違いも起きてしまいますが、この曖昧なレベルすら意識合ってない現場のほうが多いのではないでしょうか?

是非今回のをきっかけにベースとなる基準へ第一歩を踏み出して、よりよい方向へ行きましょう!

次回は「関係者を交えたシステム障害対応訓練」です。
ここまでご覧いただきありがとうございました!

野村 浩司

金融系システムを中心に開発・保守・運用を6年実施、その後、事業部・社内改善を5年しており、大規模障害時は300人ほどの障害対応の統括を実施、事業部の故障数を30%削減などに取り組んだ。 他にも、原価削減はBPRで8000万/年、システム監視改善で3600万/年、申込運用改善で2500万/年など実績あり。

The following two tabs change content below.

野村 浩司

金融系システムを中心に開発・保守・運用を6年実施、その後、事業部・社内改善を5年しており、大規模障害時は300人ほどの障害対応の統括を実施、事業部の故障数を30%削減などに取り組んだ。 他にも、原価削減はBPRで8000万/年、システム監視改善で3600万/年、申込運用改善で2500万/年など実績あり。
是非フォローお願いしますm(_ _)m
NO IMAGE