システム障害対応の改善は、何故進まないのか?(第一部)

「何から始めたら良いのかわからない」「改善を進めているが結果が出ない」と
改善が進まないことが多いです。

自己紹介のページでも記載している通り、社会人の約11年間、システム障害対応の改善をどうにか進めたいと頑張ってきました。
もちろん最初からうまく行っていたわけではなく、なかなか進まない状況もありましたが、
ある時「顧客視点で運用設計ができていないこと」に気づいてからは、ぐんぐん進むようになりました。

本記事では、「システム障害対応の改善が必要と考えている」皆様へ
改善方法が進まない理由から実際にどう改善すべきかを提案しています。 

そもそもシステム障害対応の改善は必要なのか?

「そんなの当たり前じゃん!」とは思うが、なぜ必要なのかと言われると…
少なからず答えられない人もいるのではないでしょうか。
では、なぜ必要なのかを一緒に考えてみましょう。

1.エンドユーザーが困らないため

1点目は、BtoB企業なのかBtoC企業なのかでちょっと考え方は変わってきますが、私は最終的にBtoC企業がエンドユーザーを困らせないためにシステム障害の影響を減らすことが必要だと考えています。
BtoC企業からすると、システム障害の影響によりサービスが利用できないことで、エンドユーザーに対して「機会損失」と「印象悪化」を避けたいのだと思います。

企業における「機会損失」「印象悪化」の具体例としては、次のものが挙げられます。

  • 機会損失:エンドユーザーが商品を購入しようと思ったのに購入できなかったから
  • 印象悪化:エンドユーザーが不満を持ち、企業が嫌いになったから

「機会損失」により本来売れる予定のものが売れず、利益が減少する。さらに「印象悪化」により企業からエンドユーザが離れることで、さらに利益が減少する問題が発生します。
また、商品の在庫が余ることでの保管費用などの損失も発生します。

企業は、なぜ「機会損失」「印象悪化」を止めることができなかったのでしょうか。

  • 必要な情報がないため、自己解決ができなかったから
  • 必要な情報がないため、アクション決定ができなかったから
  • リアルタイムで情報が得られないため、自己解決ができなかったから

企業は、なぜ「必要な時に必要な情報」が得られなかったのでしょうか。

  • サービス提供元から必要な情報を顧客へ送っていなかったから
  • サービス提供元から情報提供が遅かったから

サービス提供元は、なぜ「情報提供」できなかったのでしょうか。

  • 顧客が必要としている情報が収取できていなかったから
  • アクション決定が遅く、情報が取得できていなかったから
  • 顧客が求める情報を事前に蓄積していなかったから
  • そもそもシステム障害を検知できていなかったから

上記の問題により、サービス提供元からの情報提供に時間がかかることで、適切なアクションが取れなかったため、エンドユーザからはBtoC企業にてシステムで問題が発生しているととらえられ、サービスへの影響が続くことでエンドユーザーへの「機会損失」と「印象悪化」が拡大する。

サービスへの影響を0にするのは難しいですが、エンドユーザーへの被害を最小限に抑えるための改善が必要なのです。

2.予定外のコストを抑えるため

2点目は、サービス提供元の社内の話しで、システム障害が起きるとコストがかかります。システム障害を想定してコストを組む企業は少なく特に日本は発生したら追加コストと考える傾向にあります。
(海外は事前にコストを積んでおく文化らしいです。)

予定外のコストの具体例としては、次のものが挙げられます。

  • 対応稼働:システム障害が起きたので調査・連絡・復旧の対応をする、情報還元する
  • 損害賠償:相手に与えた損害を補填するために払う

システム障害の「対応稼働」が多いと想定していた運用コストより高くなり、イニシャルコストの回収がいつまでたっても終わらない。
また、システム障害のサービスまでの時間が長いと「損害賠償」が発生します。

なぜ、「対応稼働」「損害賠償」がかかるのでしょうか。

  • 調査する手順が確立していないため、有識者へ確認するための時間がかかるから
  • 連絡先が整理されていないことで、顧客影響範囲から対象の顧客を割り出すのに時間がかかるから
  • サービス復旧よりもトラブルの原因を追究することに時間をかけてしまうから
  • 顧客が必要としてる情報が不足していたため、商用環境へ何回も入室して作業が必要となるから

なぜ、「システム障害の対応時間」がかかるのでしょうか。

  • システム障害を想定した運用設計ができていないから
  • 関係者全員がエンドユーザーの影響を極小化しようと動いていないから

上記の問題により、システム障害対応に時間がかかればかかるほど「対応稼働」が増加し、サービスへの影響が長ければ長いほど「損害賠償」を支払う金額が高くなる。

システム障害発生時は迅速にかつ、短時間でサービスを復旧させるための改善が必要なのです。

これらを削減するために皆様は「システム障害対応を改善すべき!」と、思っているのではないでしょうか。

また、システム障害対応の運用・保守フェーズの課題はほとんど変わっておらず、お客様のAP故障・ハード故障への理解が進む一方、顧客からのシステム障害発生後の対応における不満は募る一方だと感じており、お客様からシステム障害対応に対する不満の声が挙がっています。

では、この問題の解決が何故進まないのか…?第二部に続く!

野村 浩司

金融系システムを中心に開発・保守・運用を6年実施、その後、事業部・社内改善を5年しており、大規模障害時は300人ほどの障害対応の統括を実施、事業部の故障数を30%削減などに取り組んだ。 他にも、原価削減はBPRで8000万/年、システム監視改善で3600万/年、申込運用改善で2500万/年など実績あり。

The following two tabs change content below.

野村 浩司

金融系システムを中心に開発・保守・運用を6年実施、その後、事業部・社内改善を5年しており、大規模障害時は300人ほどの障害対応の統括を実施、事業部の故障数を30%削減などに取り組んだ。 他にも、原価削減はBPRで8000万/年、システム監視改善で3600万/年、申込運用改善で2500万/年など実績あり。
是非フォローお願いしますm(_ _)m
NO IMAGE