原因は2つのバグ--グーグル、全リージョンに発生したGCEの障害について説明

Liam Tung (Special to ZDNET.com) 翻訳校正: 編集部

2016-04-15 10:25

 米国時間4月11日にウェブアプリにアクセスできないトラブルに遭遇したとしたら、それはGoogleが提供しているIaaS(サービスとしてのインフラストラクチャ)である「Google Compute Engine」(GCE)の広域障害が原因だった可能性がある。

 Googleが直接提供する「Gmail」や「Googleドライブ」などのサービスに影響が出ると、わずかな障害でも注目を集めるが、11日に障害が起こったのは、Googleが企業やアプリ開発者に提供している仮想サーバの基盤となっているGCEだった。

 この障害は18分しか続かなかったが、問題は全リージョンのGCEのインスタンスが影響を受けたことだ。これは、Googleが複数のリージョンでデータセンターを持っていることが、ある程度のフェイルオーバー機能を提供すると期待している顧客にとっては悪いニュースだと言える。

 11日の障害では、顧客はフェイルオーバーの恩恵を受けることはできなかった。Googleの24x7担当バイスプレジデントであるBenjamin Treynor Sloss氏は、この事態を重視し、13日に通常よりもはるかに詳しく障害の原因について説明している

 「われわれはすべての障害を真剣に受け止めているが、複数のゾーンにまたがる障害については特に重視している。この種の障害は、顧客が影響を緩和することが困難であるためだ」とSloss氏は述べている。

 端的に言えば、ルーティングの問題が原因で、全リージョンのGCEのインスタンスと、関係するVPNおよびL3のネットワーク負荷分散装置に障害が発生した。

 この障害は「Google Cloud Platform」(GCP)自体には影響を与えなかったが、GCPのアプリケーションは影響を受けた。影響を被ったGCPの顧客は、GCEとVPNの月額料金に対してサービスクレジット(GCEは10%、VPNは25%)を受けることができる。

 Sloss氏は、エンジニアが誤った設定を伝播しようとした際に2つの防護手段を無効化してしまうことになった、ネットワーク管理ソフトウェアに存在した2つのバグによる連鎖的な問題について説明している。

 一連の問題によって、太平洋標準時午後7時9分には「インターネットからGCEへのインバウンドトラフィックは急速に落ち込み、ロスは95%以上に達した」とSloss氏は述べている。

 Googleはその後、午後7時21分に、「全リージョンでネットワーク接続に関する重大な問題」が発生しているという警告を発表した。

 Sloss氏によれば、同社は今後数週間で、防護手段を強化するための予防、検知、緩和のためのシステムに取り組むという。

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]