12週にわたり「”実践”システム障害対応」と題して、システム障害対応の改善のプロセスを約3か月で実行できるように、各週ごとに何を実践すればよいか?を考えていきたいと思います。
8週にわたりかなり綿密な準備をしてきました!
ついにここからは実践に向けたシステム障害対応訓練に向かいます!!
と言いたいところではありますが、あと2週はもう少しだけ準備をしましょう。
8週と9週では、今まで準備したものが絵にかいた餅にならないように現実的にできる範囲を定義して、詳細化をもう1度やりましょう。
何故絞り込みをするのか?
今まで一生懸命整理をして「ルール上や思想は、良い」状態になったと思います。
ただ、ここで最後の罠が待ち受けています。それが「ルールを作ったら満足してしまうこと」です。
ここでもうひと踏ん張りして、実際に故障対応で使えるように詳細化をしていきましょう。
ただ、すべてをやりきるのは難しいため、対象を絞り込み、数個でいいので使えるレベルまでブラッシュアップをしましょう!
どのようなアクションに絞り込むべきか?
経営者や管理者からすると自分が怒られたり、よく覚えている「大規模障害を選択すること」が多いですが、これはお勧めしません。
では、同様なアクションに絞り込むべきなのでしょうか?
それは、高頻度なアクションにするべきだと考えます。
この後の11週、12週にシステム障害訓練・振り返りを実施する中で、「あー確かにそれってよくあるよね」みたいな共感を得られ、かつ「あの時のアクションが役に立った」と効果が感じられると今回絞り込んだ数個だけではなく、次のさらなる改善につながると思うからです。
はじめは頻度高く役に立つことでメンバーのモチベーションが上げることを重点に置き、自発的に改善が進むようなサイクルを作ることで、「この間の役にたった、もう1個詳細化してみよう」となることを目指すべきです。
ただ、会社の事情でどうしても「大規模障害に焦点をあてなければいけない」となった時には、「事象」ではなく「アクション」に注目しましょう。
例えば、大規模障害で「気づいた後のお客様への一方が遅れた」という課題であれば、そこだけを切り取って「お客様への第一報のご連絡」に絞るとよいでしょう。これであれば大規模障害の1つの問題解決にもなり、今後の障害でも似たようなものとして汎用的に使えて考える時間が増えるため、もう1個詳細化してみようという流れにつなげられるためです。
ここで重要なのは「欲張らない」ことです。
私も過去何度も何度もこういう整理は行ってきましたが、べき論に則り「これもこれもやりたい!」となって結局1つもチームに身につかないということがありました。
残念ながらシステム障害対応というのは「頻度が低く、効果が見えづらい」業務です。
ここで欲張ってしまうと「時間をかけて取り組んだのにあんまり使えない」とネガティブなイメージを持たれてしまい、数年間塩漬けで誰も使わなくなり次の障害の時に「何故誰もこれを使わないんだ!」みたいな不毛なループに陥りがちです。
「頻度が低く、効果が見えづらい」ものだからこそ、使えるものを小さく作り、よいサイクルを作るというのを心がけましょう!!
アクションに関連する判断情報、判断基準の作成難易度の確認と絞り込み
もう1つ確認したいのが「判断情報」「判断基準」の作成難易度です。
事前に6週目でアクションに関連して決めたとは思うのですが「実際に作れない or 作るのが大変」な判断情報や判断基準はないでしょうか?
現実的に実行できることが重要なため、ぜひ確認していきましょう。
絶対に必要な情報・基準は何か?
第一歩目としては「絶対に必要な情報」が何かを意識合わせしましょう。
アクションを決定する情報として「これも、これも、これも必要…」とか「こんな場合もあるから、これも取っておいたほうがよいよね」という感じに多くの情報が考えられたと思います。
最初は発信・ブレストで多くの情報が集まるのがとても大事でしたが、ここでは絞ることが必要で、「絶対に毎回必ず必要な情報・基準」に絞っていきましょう。
場合によって必要なものやたまに必要なものなどがあると思っています。その中でも「絶対いる!」と誰しもが思うものがあると思います。それだけは合意して決めていきましょう。
絶対に必要な情報・基準なのに作るのが難しい場合は?
「絶対に必要!」と経営者・管理職はいうけど、現場的には作るの難しいんですよ…というものがあります。
例えば「復旧見込み時間」という場合に2つの考え方を是非話してみましょう。
1.基準はどのぐらいの粒度で必要か?
私の実体験として、たとえば「お客様への第一報のご連絡」の判断情報の1つに「復旧見込み時間」があるとします。
この時に現場としては「何もわからない状況で見込み時間なんてわからない」かもしれませんが
もしかしたら経営者・管理者は、判断基準として「15分以内に復旧見込みがあるか」「それ以上か」だけしか求めていないかもしれません。
「お客様は15分以内の短い障害の時に連絡されると、インシデント管理として厳格に管理しなければいけないので、お客様業務に支障が出てしまう」という事情があったりします。
ただ、現場は「復旧見込みの時間を±10%程度の精度で出さなければいけない」と思ってしまうものなので、15分か、30分か、1時間、3時間か…みたいな頭になってしまいがちです。
ここの基準を明確にするだけでもだいぶ楽になります。
「15分以内」か「否か」であれば、発生後すぐに気づいて動き出せたとしても自然復旧をしているかの正常性確認だけしか時間的にできない場合が多いと思います。「気づく」「正常確認」をして正常ではなかったら「復旧見込みは15分以上」と判定してよいのではないでしょうか?
このようなことを経営者・管理者と事前に合意しておくことが重要です。
2.基準はどのぐらいの質(精度)で必要か?
同様に「お客様への第一報のご連絡」の判断情報の1つに「復旧見込み時間」があるとします。
お客様は「復旧見込みを時間を知りたい」という方の場合は、質(精度)をどれほど高めるべきかを探ってみましょう。
実際に復旧する予定時間が15分か、30分か、1時間、3時間か、それ以上のどれかを選ぶときに「1度伝えたら絶対引っ込められないため、正確なものが必要」なのか「短くなるのはOKだが長くなるのはダメ」なのか「訂正してもよくて50%ぐらいの精度でもいいから、だいたいの目安をすぐに知りたい」なのかでかなり変わってきます。
経営者・管理者からすると「お客様へ伝えた時に何をするか」で決まることではありますが、伝えたことを「経営報告して、社外にも公表するんです」となると正確なものが必要です。
大抵の場合「担当者としての感覚をつかみたい」だけだったりしませんでしょうか。社内に共有するのでどんどん伸びていくのは避けたい…多少長く手もいいので確実に直せそうで、伸びない時間を決めてほしくて、質は50%程度でもOK、みたいな場合もあると思います。
その場合は「伸びるのはNG、精度は50%程度でOK」と質を決めるだけで担当者はだいぶ情報を出しやすくなるのではないでしょうか?
これをいわれたら、たいていのものは有識者のXXさんに連絡がついて、駆けつけてもらえれば解決できるから、移動時間を含めて3時間あればだいたい何とかなる。「有識者の方に連絡を付けて動けるかの確認をしさえすれば3時間って言えるな」となります。
このように事前に決めたアクション・判断情報・判断基準をもう少し絞り込むことで十分に使えるレベルになると思います。
ここまで読んでいただきありがとうございました!
引き続き毎週書いていきますので、是非引き続きお願いします!
野村 浩司
最新記事 by 野村 浩司 (全て見る)
- “実践”システム障害対応:12週目:関係者を交えた振り返り - 2022-10-02
- “実践”システム障害対応:11週目:関係者を交えたシステム障害対応訓練 - 2022-10-01
- “実践”システム障害対応:10週目:アクション、判断情報/基準の簡易化 - 2022-09-26