筆者は数年前に協力した調査で、サービスのインシデントや速度低下を最初にどのようにして知ったかをITマネージャーに尋ねた。最も多かったのは、ユーザーや顧客からの電話または電子メールという回答だ。次に多かったのは、(驚いたことに)最高幹部からの電話または電子メールだった。
このような障害に対処するため、「Information Technology Infrastructure Library」(ITIL)のような方法論や認定プログラムが登場し、ITチームが実績ある標準化されたロードマップに沿って、アプリケーションや機能を信頼できるサービスとして提供できるようになっている。だが、外部のクラウドサービスの使用が拡大したことで、オンプレミスの時代に設計されたITILは、限界を超えてしまったのかもしれない。
Constellation Researchの新しいレポートによると、クラウドの利用が拡大したために、円滑でサービスのようなIT運用を実現する際の複雑さが増しているという。「多くの企業のITチームは、需要に応じたスケーリング、クラウドネイティブの監視、可観測性、インシデント管理など、新しいクラウド運用への対応に苦慮している」。Constellationのアナリストで同レポートの執筆者であるAndy Thurai氏はこのように述べた。「現在の大半の企業は、IT関連のすべてのインシデントや危機にリアルタイムで対処できる体制がまだ整っていない。従来のレガシー企業はITインシデントに昔ながらの方法で対応する体制になっており、クラウドやSaaSのニュアンス、ソーシャルメディアでの感情の表出、かつてない速さでのインシデント解決を求める顧客からのプレッシャーは考慮されていない」
昔ながらの方法は、「チケットを発行してから、さまざまなサポートレベルを通過して、そのインシデントを解決できる適切な分野の専門家に到達するまで待つ、というものなので、大きな障害が起きるのを待つことになる可能性がある」と同氏は警告する。
Thurai氏は、多くの企業でみられるハイブリッド環境に対応できそうな新世代のツールベンダーとして、以下の企業を挙げた。
- AlertOps
- Blameless
- Everbridge(xMatters, inc.)
- FireHydrant
- Freshworks(Freshservice)
- PagerDuty
- ServiceNow(Lightstep)
- Salesforce(Slack)
- Splunk(Splunk On-Call/VictorOps)
Thurai氏は以下のようなインシデント対応ガイドラインを提示している。
- インシデントは可能な限り避ける。
- 予期せぬ計画外の障害に備える。
- インシデントを顧客よりも先に特定する。
- 迅速かつ果断に行動し、問題を即座に解決する。
- インシデントに責任を持つ。効果的かつ詳細なコミュニケーションをとる。デジタルチャネルでインシデントを共有する。
- インシデントに関するすべての情報を収集する。
- 責任追及にならないように注意しながら、詳細な事後分析を実施する。
- 適切な可観測性ツールに投資する。
- 一元化されたインシデント管理システムに投資する。
- AIOpsツールに投資する
- 定期的に状況を見直して、自分の理論が正しいかどうか確認する。
「デジタル経済において、思い込みは危険なものだ」とThurai氏は警告する。「企業は1回の重大なインシデントで災難に見舞われてしまう。そのような事態はいつでも起こり得る。すべてのビジネスリーダーや取締役が、ITエグゼクティブに次のような質問をしなければならない。重大なインシデントが発生したら、どのように対処するのか。うまく処理して、当社は信頼に値する企業だと顧客に証明できるのか。それとも、失敗して倒産に追い込まれてしまうのか。今、備えができていないのなら、どうすれば備えることができるのか。行動計画と証拠を要求しよう。これを実現するのに必要なものには、積極的に資金を投入してほしい」
Constellation Researchの新しいレポートによると、クラウドの利用が拡大したために、円滑でサービスのようなIT運用を実現する際の複雑さが増しているという。
提供:Joe McKendrick
この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。