「Microsoft Azure」のチームは、米国時間11月19日に世界で多数の顧客に影響を及ぼした多要素認証(MFA)の障害について、その根本的な原因を明らかにした。調査の結果、独立した3つの問題に加え、モニタリングが徹底していない部分があったことが判明した。そうした原因が引き金となり、「Azure」「Office 365」「Microsoft Dynamics」のユーザーは19日のほぼ全日、認証できない状態に陥った。
大勢のユーザーが19日、Microsoftの「Azure Active Directory」のMFAサービスを約14時間利用できなかった。また、Office 365やDynamicsのユーザーも、このサービスを利用して認証を行うため、同様に影響を受けた。
1つ目の根本原因は、MFAのフロントエンドとキャッシュサービス間の通信における遅延の問題だ。2つ目は、MFAのバックエンドサーバからの応答の処理における競合状態だ。Microsoftの関係者によると、これら2つの原因はコードアップデートのロールアウトによるもので、アップデートはいくつかのデータセンターでは13日に開始され、すべてのデータセンターで16日に完了したという。
3つ目の根本原因は、2つめの原因によって引き起こされた。MFAのバックエンドは、Microsoftのモニタリングでは、正常に稼働しているように見えたにも関わらず、フロントエンドからのさらなるリクエストを処理できなくなっていた。
こうした連鎖的な問題の打撃を真っ先に受けたのは、欧州・中東・アフリカ(EMEA)とアジア太平洋(APAC)の顧客だ。時間が経つにつれ、西欧と北米のデータセンターが被害を受けた。エンジニアがホットフィックスを導入し、フロントエンドのサーバがキャッシュをバイパスできるようにした後も問題は続いた。さらに、テレメトリとモニタリングも思ったように動作しなかったと、Microsoftの関係者は認めている。
Microsoftは、MFAサービスを改善するために、アップデート導入プロセスの見直し(完了予定:2018年12月)、モニタリングサービスの見直し(完了予定:2018年12月)、他のデータセンターへの問題拡大を回避するための隔離プロセスの見直し(完了予定:2019年1月)、「Service Health Dashboard」とモニタリングツールへの通信プロセスのアップデート(完了予定:2018年12月)などを行う計画だ。
Microsoftの関係者は、影響を受けた顧客に対し謝罪の意を示したものの、金銭的補償を行う計画については何も言及していない。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。