今回はインシデントレスポンスサービスをご紹介させていただこうと思います。
あまり聞きなじみがない方もいらっしゃるかもしれませんが、私の解釈ですと「インシデント発生から暫定対処まで」に着目したサービスです。
ただ、インシデントレスポンスという言葉が出回り始めたことはセキュリティ方面からだったみたいです。
IT alerting software とか IT operation managementとか、いろんな言われ方をしますが、「インシデント発生から暫定対処まで」という概念は、セキュリティでもシステム障害でも一緒かなとは思っています。
以下に紹介するのは英語ばかりですが、そんなものもあるんだーということを知っていただけると幸いです。
インシデントレスポンスサービスどんなことができるの?
さっくりは「エラーメッセージを受け取って、それをシステムに登録して、メールや電話を飛ばしたり、1stアクションを行ったり、発生から暫定対処までに誰がどのタイミングで何をしたかを可視化する。その後ダッシュボードでエラーの具合も分析できる」というものです。
エラーメッセージをたくさんのサービスとインテグレーションがしやすくなっていたり、画面インタフェースが見やすかったり、、、
若干特長はありますが、基本的にはこんな機能群を持っています。
pagerduty:急成長・AIOpsが得意
PagerDuty(ペイジャーデューティ)はシステムのインシデント対応を一元化するプラットフォームです。DX時代における…
2019年4月にニューヨークに上場して、急成長をしている会社。
B2B Saas業界では有名で、成長具合がSalesforceと並んで紹介されるほど。
売上が2億ドルぐらいに達している大企業になってきています。
特長は、AIOpsが得意なところかなと思います。受け取ったエラーの分析やポストモーテムをするようなプロセスがうまく組まれているなぁという印象です。
基本プランではシンプルにエラーを受けてエスカレ電話・メールが基本で、オンコールのスケジュールがかなり柔軟に選べます。使ってみると最初にエラーメッセージが出てこないなど、ちょっと私たちが普段接している感覚とは違うものですが、そういうノウハウもあるんだな、というのをわかっていただけるものかなと思います。
AWSの3人のエンジニアが起業。オンコールローテーションの自動化から始まったものは、あらゆる規模の企業がデジタル運用をプロアクティブに管理できるプラットフォームに進化しました。これにより、チームはインシデントへの対応に費やす時間を減らし、将来のために時間をかけることができます。
https://www-pagerduty-com.translate.goog/company/?_x_tr_sl=en&_x_tr_tl=ja&_x_tr_hl=ja
Opsgenie:見やすいIF/jiraとの連携
Opsgenie は、最大の人気を誇るアラートとインシデント対応ツールです。ダウンタイムをなくし、チームの連携を強化し、…
2018年にAtlassianが買収。プロジェクト管理ツール「jira」と組み合わせて、オペレーションを改善を狙ったものかなと思っています。
Atlassianは他にwikiであるconflenceを持っていて、買収を繰り返しながらサービス群を増やしていっていて、その一部になっています。
特長は、見やすいIFとjiraとの連携かなと思います。
画面を見てもらうと、私としては一番親しみやすく見やすいIFとなっていました。
また、もしjiraを既に利用済みならば、連携上は優れていく(今後優れる?)と思われるため、一緒に使うのが良いのかなともいます。
サービスやシステムの運用に関わるチームがより短時間で障害を解決し、時間の経過とともに発生するインシデントが少なくなるよう支援するインシデント管理ソリューション
https://prtimes.jp/main/html/rd/p/000000009.000028142.html
Splunk On-Call(Victor ops):データ分析との連携
Splunk On-Callはインシデント対応と管理をスピードアップできるツールです。自動スケジューリング、インテリジェ…
2018年にSplunkが買収。ログ分析を得意とする「splunk」と組み合わせて、オペレーションを改善を狙ったものかなと思っています。こちらも買収を繰り返しながらサービスラインナップを広げている段階なように見えています。
特長は、データ分析との連携かと思っています。もともと高度なログ分析を得意としていますが、そこで検知したアラートをsplunk on-callにつないで一時対処までをスムーズに。
かつsplunkはアラーム後のオペレーションにも着目しているとうたっており、人の動きの支援を目指しているように見えます。
データ分析のミドルウェアであるSplunkが買収。機械学習(ML)と人工知能(AI)をVictorOpsのインシデント管理ソフトウェアで活用し、イベントの管理や監視、支援要請管理、ChatOpsを組み合わせた「エンゲージメントに向けたプラットフォーム」を提供する計画だという。
https://japan.zdnet.com/article/35120671/
野村 浩司
最新記事 by 野村 浩司 (全て見る)
- “実践”システム障害対応:12週目:関係者を交えた振り返り - 2022-10-02
- “実践”システム障害対応:11週目:関係者を交えたシステム障害対応訓練 - 2022-10-01
- “実践”システム障害対応:10週目:アクション、判断情報/基準の簡易化 - 2022-09-26