- 2022-07-19
- 2022-07-19
“実践”システム障害対応:2週目:アラート・故障申告の分類
12週にわたり「”実践”システム障害対応」と題して、システム障害対応の改善のプロセスを約3か月で実行できるように、各週ごとに何を実践すればよいか?を考えていきたいと思います。 1週目では、「アラート・故障申告」の棚卸がなぜ大事なのかについて、以下3つの考えをご説明させていただきました。 ■なぜ棚卸が […]
12週にわたり「”実践”システム障害対応」と題して、システム障害対応の改善のプロセスを約3か月で実行できるように、各週ごとに何を実践すればよいか?を考えていきたいと思います。 1週目では、「アラート・故障申告」の棚卸がなぜ大事なのかについて、以下3つの考えをご説明させていただきました。 ■なぜ棚卸が […]
今週から12週にわたり「”実践”システム障害対応」と題して記事を書かせていただきます。 システム障害対応の改善のプロセスを約3か月で実行できるように、各週ごとに何を実践すればよいか?を考えていきたいと思います。 それを実行した結果として、顧客との関係がより良いものになり、顧客にとっての成功(顧客の利 […]
システム障害対応の参考になる書籍や最新の考え方を教えて!と思っている方も多いのではないでしょうか。 今回は、私が仮に「システム障害対応のプロセスをゼロから作りたいと考えているんですが、参考になるものを教えてほしい。」と聞かれた際に、簡易的なプロセスならば前回ご紹介した「PagerDuty Incid […]
第二部「システム障害対応の改善は何故進まないのか?」では、私がシステム障害対応の改善を始める際、他部署を含めた部長層や保守・運用のリーダー層にヒアリングした結果から導き出した仮説をお話させていただきました。 ■野村が考える仮説 システム障害をみんながすぐに忘れてしまう 関連システムが増えて改善が進み […]
第一部の「そもそもシステム障害対応の改善は必要なのか?」では、システム障害の対応が長引くことで、以下の問題が発生することがわかりました。 BtoC企業は、システム障害の影響によりサービスが利用できないことで、「機会損失」が発生する。 BtoC企業への「印象悪化」によりエンドユーザーが離れることで、さ […]
インシデント管理ツール 何を基準に選びますか? システム運用されている方ならば、インシデント管理ツールを使われていると思います。上司などから「こんな感じに選ぶといいよ」とご指示があったかと思いますが、さらに一歩上の課題解決ができるメリットがあればと願って記載いたします。社内システム運用の責任者や、改 […]
社内の保守運用界隈で話しているときに、以下のようなお話を聞いたことがあります。 「保守運用をやっているがメンバーのモチベーションが上がらない「単純作業ばかりで将来が見えない」 システムの保守運用をしている方からする「あるある・・・」となる内容で、チームメンバーの方や、もしかしたらご自身が当てはまると […]
本日はシステム保守運用のおすすめツールを紹介いたします。 私自身は金融システムの保守運用の改善を11年やっており、その中で多くのサービス・ツールにチャレンジしてきました。 今回は特に自分が良かったなと思えたもので、システム保守運用に役立ったもの・役立ちそうなものを紹介いたします。 今回は特に「最初無 […]
システム障害対応の参考になる書籍や最新の考え方を教えて!と思っている方も多いのではないでしょうか。 本記事では、システム障害対応の改善を進めるにあたり、参考になった書籍や考え方などをご紹介いたします。 今回は2016年頃に話題となったSRE(Site Reliability Engineering) […]
今回はインシデントレスポンスサービスをご紹介させていただこうと思います。あまり聞きなじみがない方もいらっしゃるかもしれませんが、私の解釈ですと「インシデント発生から暫定対処まで」に着目したサービスです。ただ、インシデントレスポンスという言葉が出回り始めたことはセキュリティ方面からだったみたいです。 […]