クラウド障害はよくない。障害の最中もしくはその後に十分な情報提供がなければ、問題に輪をかけることになる。Microsoftの関係者はこれを承知しており、「Microsoft Azure」の障害に関する同社のコミュニケーション方法を改善しようと計画している。
提供: TechRepublic
筆者はしばらくの間、Microsoftがユーザーにクラウド障害を知らせる手段として、「Azureの状態」ページを使用する頻度を減らしていることに気づいていた。3月に、同社の最も活発なリージョンの1つである米国東部(East US)で、何時間にもわたる障害が発生した時も、Azureの状態ページには問題について何も表示されなかった。また(クラウド障害のもう1つのバロメーターである)Twitterでも、ほんのわずかな抗議しか見られなかった。
実はこのような状態が、計画的なものであることが分かった。Microsoftはクラウドユーザーに、公開されているAzureの状態ページの代わりに、個別の「Azure Service Health」ページを利用するように働きかけている。そしてTwitterの「Azure Support」アカウントも、障害に関する最新情報が必要な場合は、これらのページを見たり、アカウントにダイレクトメッセージを送るように案内している。
米国時間8月17日のブログ記事で、Azureの障害に関するコミュニケーションプロセスを統括するプリンシパルプログラムマネジャーのSami Kubba氏は、障害に関する情報提供について、Microsoftの現状と今後目指す方向を概説した。同氏の投稿は、Microsoftが2019年にスタートした、Azureの信頼性やパフォーマンスなどを向上させようとする手段を概説しているブログ集の記事だ。
Kubba氏によれば、Microsoftは影響を受けたすべてのAzureサブスクリプションに、障害発生から15分以内に通知することを目指している。同社はそのために、人間のほか、自動通知を使用する。同社が前四半期に行った障害に関する情報提供のうち、Azure Service Healthを介した自動通知は半数以上を占めた。同氏によると、Microsoftの目標は、障害を通知するまでの時間を今後さらに短縮することだ。
「影響を受けた関連サービスを自動的に特定し、影響を緩和できる場合は、(サポートされている場合)なるべく迅速に解決策を送信できるように、AIベースの運用を拡大している初期段階にある」(同氏)
Kubba氏は、同社が現在、複数の地域やサービスに影響を及ぼす「広範な」障害を通知する場合にのみ、公開されているAzureの状態ページを使用していることを認めた。同社はインシデントの95%以上を、Azure Service Healthより、影響を受けたユーザーと直接やり取りを行っている。同氏はこの割合について、大部分の障害はその影響が、「顧客サブスクリプションの非常に小さな範囲」にしか及ばないからだと説明した。
(Azure Service Healthは、障害や計画メンテナンスを含め、Azureサービスの問題全般について、パーソナライズされた情報とサポートを提供する。Azureの状態、サービスヘルスサービス、Resource Healthから構成される)
Kubba氏によると、同社は障害に関する通知を、「Microsoft 365」や「Power Platform」などを含むクラウド製品全体で一貫したものにするための取り組みを進めている。Twitterの「M365 Status」アカウントでも、問題が発生した際には、各自のポータルを見たり、ダイレクトメッセージを使用したりするように働きかけている。
顧客は小規模な障害のインシデントの事後報告(PIR)を求めている(大規模な障害の場合は公開されるPIRがある)とKubba氏は述べ同氏のチームは透明性を一層向上させ、関連する種類の障害を回避しようと取り組んでいる具体的な対策について、ユーザーに示せるようにしていくとした。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。