米国時間9月28~29日にかけて、Microsoftのアプリやサービスにアクセスできなくなる問題が発生し、世界中のユーザーが影響を受けた。Microsoftは10月1日、障害について事後分析を公開し、問題の経緯や、今後こうした問題を回避するための計画について明らかにした。
提供:Microsoft
米国東部標準時9月28日午後5時30分頃から、認証に「Azure Active Directory(Azure AD)」を使用するMicrosoftやサードパーティーのサービス(つまり「Office 365」やMicrosoftのクラウドサービスなど)にログインできない可能性があった。すでにログイン中だったユーザーは、影響を受けた可能性が低い。同社の報告によると、欧州やアジアよりも、米大陸とオーストラリアのユーザーが影響を受けた可能性が高いという。
同社は、内部の検証テストリングを対象にしたサービスアップデートが、Azure ADのバックエンドサービス開始のクラッシュを引き起こしたことを認めている。「Azure Active Directoryのバックエンドサービス『Safe Deployment Process(SDP)』のコードの問題が潜んでいたことがこれを引き起こし、通常の検証プロセスを迂回して、本番環境にデプロイされてしまった」という。
Azure ADは、地理的に分散されたサービスであり、世界各地の複数のデータセンターで、複数のパーティションを備えてデプロイされるように設計されており、隔離境界を持つ形で構築されている。Microsoftは通常、顧客データが含まれない検証リングで変更を適用し、その後、数日かけて4つのリングに展開して、本番環境に反映させる。しかし、今回は問題があり、SDPが正しく検証リングをターゲットにせず、すべてのリングに同時に適用したため、サービスの可用性が低下したとしている。
同社のエンジニアリングチームは障害発生から数分以内に、何らかの問題があったことを把握した。それから30分の間に緩和策を講じようとした。しかし、SDPメタデータの破損が原因で自動ロールバックに失敗した。そして、SDPシステムを迂回し、サービス構成を手動でアップデートするプロセスを開始した。同社によると、こうした作業がすべて完了したのは午後8時頃(米国東部標準時)だったという。それから2時間後に、「影響が残っていたすべてのサービスインスタンスが復旧した」。
Microsoftによれば、 Azure ADのバックエンドSDPシステムのコードの潜在的な問題と、既存のロールバックシステムを修正した。また、ロールバックオペレーションの演習を実施する範囲と頻度を拡大するという。しかし、チームはこの種の問題を防ぐために、さらに多くの保護機能をAzure ADのSDPシステムに適用する必要があるとしている。また、主要なサービス全てに対するAzure ADバックアップ認証システムのロールアウトを効率的にすることや、影響を受けた顧客が15分以内に何が起こっているかを知ることができるような対策も必要だとしている。
同社の報告書は、多くのユーザーがTwitterで指摘したような重要な問題には触れていなかった。それは、Office 365と「Microsoft Azure」の管理者ダッシュボードにログインして情報を見るには、認証が必要な点だ。ログインできずに、閉め出されたままの多くのユーザーは、Microsoftが管理者向けポータルで提供していたアップデートを見ることができなかったようだ。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。