ざっと見!!インシデントレスポンスサービス

今回はインシデントレスポンスサービスをご紹介させていただこうと思います。
あまり聞きなじみがない方もいらっしゃるかもしれませんが、私の解釈ですと「インシデント発生から暫定対処まで」に着目したサービスです。
ただ、インシデントレスポンスという言葉が出回り始めたことはセキュリティ方面からだったみたいです。

IT alerting software とか IT operation managementとか、いろんな言われ方をしますが、「インシデント発生から暫定対処まで」という概念は、セキュリティでもシステム障害でも一緒かなとは思っています。
以下に紹介するのは英語ばかりですが、そんなものもあるんだーということを知っていただけると幸いです。

インシデントレスポンスサービスどんなことができるの?

さっくりは「エラーメッセージを受け取って、それをシステムに登録して、メールや電話を飛ばしたり、1stアクションを行ったり、発生から暫定対処までに誰がどのタイミングで何をしたかを可視化する。その後ダッシュボードでエラーの具合も分析できる」というものです。
エラーメッセージをたくさんのサービスとインテグレーションがしやすくなっていたり、画面インタフェースが見やすかったり、、、
若干特長はありますが、基本的にはこんな機能群を持っています。

pagerduty:急成長・AIOpsが得意

インシデント管理プラットフォーム│PagerDuty

PagerDuty(ペイジャーデューティ)はシステムのインシデント対応を一元化するプラットフォームです。DX時代における…

2019年4月にニューヨークに上場して、急成長をしている会社。
B2B Saas業界では有名で、成長具合がSalesforceと並んで紹介されるほど。
売上が2億ドルぐらいに達している大企業になってきています。

特長は、AIOpsが得意なところかなと思います。受け取ったエラーの分析やポストモーテムをするようなプロセスがうまく組まれているなぁという印象です。
 基本プランではシンプルにエラーを受けてエスカレ電話・メールが基本で、オンコールのスケジュールがかなり柔軟に選べます。使ってみると最初にエラーメッセージが出てこないなど、ちょっと私たちが普段接している感覚とは違うものですが、そういうノウハウもあるんだな、というのをわかっていただけるものかなと思います。

AWSの3人のエンジニアが起業。オンコールローテーションの自動化から始まったものは、あらゆる規模の企業がデジタル運用をプロアクティブに管理できるプラットフォームに進化しました。これにより、チームはインシデントへの対応に費やす時間を減らし、将来のために時間をかけることができます。

https://www-pagerduty-com.translate.goog/company/?_x_tr_sl=en&_x_tr_tl=ja&_x_tr_hl=ja

Opsgenie:見やすいIF/jiraとの連携

Atlassian

Opsgenie は、最大の人気を誇るアラートとインシデント対応ツールです。ダウンタイムをなくし、チームの連携を強化し、…

2018年にAtlassianが買収。プロジェクト管理ツール「jira」と組み合わせて、オペレーションを改善を狙ったものかなと思っています。
Atlassianは他にwikiであるconflenceを持っていて、買収を繰り返しながらサービス群を増やしていっていて、その一部になっています。

特長は、見やすいIFとjiraとの連携かなと思います。
画面を見てもらうと、私としては一番親しみやすく見やすいIFとなっていました。
また、もしjiraを既に利用済みならば、連携上は優れていく(今後優れる?)と思われるため、一緒に使うのが良いのかなともいます。

サービスやシステムの運用に関わるチームがより短時間で障害を解決し、時間の経過とともに発生するインシデントが少なくなるよう支援するインシデント管理ソリューション

https://prtimes.jp/main/html/rd/p/000000009.000028142.html

Splunk On-Call(Victor ops):データ分析との連携

Splunk

Splunk On-Callはインシデント対応と管理をスピードアップできるツールです。自動スケジューリング、インテリジェ…

2018年にSplunkが買収。ログ分析を得意とする「splunk」と組み合わせて、オペレーションを改善を狙ったものかなと思っています。こちらも買収を繰り返しながらサービスラインナップを広げている段階なように見えています。

特長は、データ分析との連携かと思っています。もともと高度なログ分析を得意としていますが、そこで検知したアラートをsplunk on-callにつないで一時対処までをスムーズに。
かつsplunkはアラーム後のオペレーションにも着目しているとうたっており、人の動きの支援を目指しているように見えます。

データ分析のミドルウェアであるSplunkが買収。機械学習(ML)と人工知能(AI)をVictorOpsのインシデント管理ソフトウェアで活用し、イベントの管理や監視、支援要請管理、ChatOpsを組み合わせた「エンゲージメントに向けたプラットフォーム」を提供する計画だという。

https://japan.zdnet.com/article/35120671/
野村 浩司

金融系システムを中心に開発・保守・運用を6年実施、その後、事業部・社内改善を5年しており、大規模障害時は300人ほどの障害対応の統括を実施、事業部の故障数を30%削減などに取り組んだ。 他にも、原価削減はBPRで8000万/年、システム監視改善で3600万/年、申込運用改善で2500万/年など実績あり。

The following two tabs change content below.

野村 浩司

金融系システムを中心に開発・保守・運用を6年実施、その後、事業部・社内改善を5年しており、大規模障害時は300人ほどの障害対応の統括を実施、事業部の故障数を30%削減などに取り組んだ。 他にも、原価削減はBPRで8000万/年、システム監視改善で3600万/年、申込運用改善で2500万/年など実績あり。
是非フォローお願いしますm(_ _)m
NO IMAGE