米国時間4月11日にウェブアプリにアクセスできないトラブルに遭遇したとしたら、それはGoogleが提供しているIaaS(サービスとしてのインフラストラクチャ)である「Google Compute Engine」(GCE)の広域障害が原因だった可能性がある。
Googleが直接提供する「Gmail」や「Googleドライブ」などのサービスに影響が出ると、わずかな障害でも注目を集めるが、11日に障害が起こったのは、Googleが企業やアプリ開発者に提供している仮想サーバの基盤となっているGCEだった。
この障害は18分しか続かなかったが、問題は全リージョンのGCEのインスタンスが影響を受けたことだ。これは、Googleが複数のリージョンでデータセンターを持っていることが、ある程度のフェイルオーバー機能を提供すると期待している顧客にとっては悪いニュースだと言える。
11日の障害では、顧客はフェイルオーバーの恩恵を受けることはできなかった。Googleの24x7担当バイスプレジデントであるBenjamin Treynor Sloss氏は、この事態を重視し、13日に通常よりもはるかに詳しく障害の原因について説明している。
「われわれはすべての障害を真剣に受け止めているが、複数のゾーンにまたがる障害については特に重視している。この種の障害は、顧客が影響を緩和することが困難であるためだ」とSloss氏は述べている。
端的に言えば、ルーティングの問題が原因で、全リージョンのGCEのインスタンスと、関係するVPNおよびL3のネットワーク負荷分散装置に障害が発生した。
この障害は「Google Cloud Platform」(GCP)自体には影響を与えなかったが、GCPのアプリケーションは影響を受けた。影響を被ったGCPの顧客は、GCEとVPNの月額料金に対してサービスクレジット(GCEは10%、VPNは25%)を受けることができる。
Sloss氏は、エンジニアが誤った設定を伝播しようとした際に2つの防護手段を無効化してしまうことになった、ネットワーク管理ソフトウェアに存在した2つのバグによる連鎖的な問題について説明している。
一連の問題によって、太平洋標準時午後7時9分には「インターネットからGCEへのインバウンドトラフィックは急速に落ち込み、ロスは95%以上に達した」とSloss氏は述べている。
Googleはその後、午後7時21分に、「全リージョンでネットワーク接続に関する重大な問題」が発生しているという警告を発表した。
Sloss氏によれば、同社は今後数週間で、防護手段を強化するための予防、検知、緩和のためのシステムに取り組むという。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。