- 2022-05-22
- 2022-05-22
システム障害対応の改善は、何故進まないのか?(第三部)
第二部「システム障害対応の改善は何故進まないのか?」では、私がシステム障害対応の改善を始める際、他部署を含めた部長層や保守・運用のリーダー層にヒアリングした結果から導き出した仮説をお話させていただきました。 ■野村が考える仮説 システム障害をみんながすぐに忘れてしまう 関連システムが増えて改善が進み […]
第二部「システム障害対応の改善は何故進まないのか?」では、私がシステム障害対応の改善を始める際、他部署を含めた部長層や保守・運用のリーダー層にヒアリングした結果から導き出した仮説をお話させていただきました。 ■野村が考える仮説 システム障害をみんながすぐに忘れてしまう 関連システムが増えて改善が進み […]
第一部の「そもそもシステム障害対応の改善は必要なのか?」では、システム障害の対応が長引くことで、以下の問題が発生することがわかりました。 BtoC企業は、システム障害の影響によりサービスが利用できないことで、「機会損失」が発生する。 BtoC企業への「印象悪化」によりエンドユーザーが離れることで、さ […]
インシデント管理ツール 何を基準に選びますか? システム運用されている方ならば、インシデント管理ツールを使われていると思います。上司などから「こんな感じに選ぶといいよ」とご指示があったかと思いますが、さらに一歩上の課題解決ができるメリットがあればと願って記載いたします。社内システム運用の責任者や、改 […]
社内の保守運用界隈で話しているときに、以下のようなお話を聞いたことがあります。 「保守運用をやっているがメンバーのモチベーションが上がらない「単純作業ばかりで将来が見えない」 システムの保守運用をしている方からする「あるある・・・」となる内容で、チームメンバーの方や、もしかしたらご自身が当てはまると […]
本日はシステム保守運用のおすすめツールを紹介いたします。 私自身は金融システムの保守運用の改善を11年やっており、その中で多くのサービス・ツールにチャレンジしてきました。 今回は特に自分が良かったなと思えたもので、システム保守運用に役立ったもの・役立ちそうなものを紹介いたします。 今回は特に「最初無 […]
システム障害対応の参考になる書籍や最新の考え方を教えて!と思っている方も多いのではないでしょうか。 本記事では、システム障害対応の改善を進めるにあたり、参考になった書籍や考え方などをご紹介いたします。 今回は2016年頃に話題となったSRE(Site Reliability Engineering) […]
今回はインシデントレスポンスサービスをご紹介させていただこうと思います。あまり聞きなじみがない方もいらっしゃるかもしれませんが、私の解釈ですと「インシデント発生から暫定対処まで」に着目したサービスです。ただ、インシデントレスポンスという言葉が出回り始めたことはセキュリティ方面からだったみたいです。 […]
システム障害対応の参考になる書籍や最新の考え方を教えて!と思っている方も多いのではないでしょうか。 システム障害対応の改善を進めるにあたり、世の中のシステム障害対応の考え方や進め方についていろいろ調べることをしました。その中でも参考になった書籍や考え方などをご紹介いたします。 本記事では、「システム […]
今回はシステム監視のサービスをご紹介させていただこうと思います。どのシステムでも監視は行われていると思っていて、サーバと近しい製品を選ばれる方が多いかと思っています。それ以外にもいろいろジャンルがあるのでご紹介できればと考えています。 「システム監視はほぼデフォルトでやってきちゃったけどアラーム数が […]
今回はオライリーから出ている「入門 監視 モダンなモニタリングのためのデザインパターン」です。 入門 と題名に入っていて、本自体も薄いのですが、内容はしっかりしています。監視を設計を見直したいという方は、これを読んでみると全体像が頭に入りやすくなると思います。 どんな本? 題名にある通り監視の考え方 […]