Facebook、大規模障害の原因など詳細報告--「日常的なメンテナンス作業中」に発生

Liam Tung (ZDNET.com) 翻訳校正: 編集部

2021-10-07 12:29

 Facebookのデータセンターで実施された、一見すると何の変哲もない日常的な作業によって、データセンターへの接続が完全に切り離された。その結果、「Facebook」や「WhatsApp」「Instagram」が利用できなくなるという大規模な障害に発展した。

 米国時間10月4日に発生し、数時間にわたって世界を混乱に陥れた障害は、人々がいかに世界最大規模のソーシャルネットワークであるFacebookのデータセンターに依存するようになっているかという実態を明確に思い知らせる出来事となった。

 Facebookにおいて、インターネットの電話帳に相当する役割を持つDNSが機能しなくなり、FacebookやWhatsApp、Instagramへのアクセスが不能となった結果、20億人のほとんどのユーザーが頭をひねることになった。

 FacebookのDNSが機能しなくなったのは、同社のサイトまでの経路を制御するBGP(Border Gateway Protocol)に問題が生じたためだ。DNSは、「Google」といった可読文字の並びを、数値で構成されたIPアドレスに変換するサーバーだ。そしてBGPは、そのIPアドレスに到達する経路情報をインターネット上で「広告」することで、PCやスマートフォンが該当ウェブサイトにアクセスできるようにする。

 Facebookは5日、世界最大のメッセージングシステムが4日に数時間行方不明のような状態になった原因について、より詳細な報告を公表した。このインシデントによって、Facebookそのものがグローバルなメッセージングサービスの単一障害点となっていることが浮き彫りになった。

 しかし、このインシデント自体の説明はありふれたものだ。迷路のように入り組んだFacebookのネットワークに亀裂が生じたのは、「日常的な」メンテナンス作業が、同社のネットワークやデータセンターで想定していないようなかたちの混乱を引き起こしたためだ。その結果、Facebookのデータセンターとインターネットの間が「完全に分断」され、FacebookとWhatsApp、Instagramがアクセス不能になった。

 Facebookのエンジニアリング担当バイスプレジデントであるSantosh Janardhan氏は、「10月4日の障害に関するさらなる詳細」と題したブログ記事で、「今回の障害は、当社のグローバルなバックボーンネットワークの容量を管理するシステムによって引き起こされた」と説明している。

 「このバックボーンは、Facebookが自社のコンピューティング施設すべてを接続してひとまとめにするためのネットワークであり、世界中に張りめぐらされた数万マイルに及ぶ光ファイバーケーブルで構成され、われわれのデータセンターすべてを接続している」という。

 「そこが4日の障害の発生場所だ。日常的に実施している保守作業の1つとして、グローバルなバックボーン容量の可用性を評価するためのあるコマンドを実行したところ、バックボーンネットワークのすべての接続が意図せず切断され、実質的にFacebookのデータセンター群が世界的な規模で切り離されることになった」(Janardhan氏)

 今回の障害で、人々がいかにFacebookのインフラの信頼性に依存しているかということが明らかになった。FacebookはWhatsApp、Facebook Messenger、Instagramのメッセージングを統合する取り組みを進めている。

 また、Facebookは現在、同社のプラットフォームにおける倫理や誤情報の扱いをめぐって議会の厳しい追及を受けており、その最中に障害が発生した格好となった。

 Janardhan氏は、発生した事象の速度にFacebookのインフラが追随できるようになっていなかったと明かした。

 「これはすべて非常に急速に起こった」と同氏は言う。

 同氏は、「われわれのDNSサーバーは信頼性の高い運用を保証するために、当社のデータセンターと通信できない場合、BGPの広告を無効化するようになっている。こういった状況はネットワーク接続が健全ではないことの表れであるためだ」と説明している。

 「今回の障害において、バックボーン全体が運用から除去された結果、これらのロケーションが自らを不健全な状態であると判断し、BGP広告を停止することになった。結果的に、当社のDNSサーバーは動作していたとしても到達不能になった。これにより、インターネットのほかの部分が当社のサーバーを見つけられなくなった」(Janardhan氏)

この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    「デジタル・フォレンジック」から始まるセキュリティ災禍論--活用したいIT業界の防災マニュアル

  2. 運用管理

    「無線LANがつながらない」という問い合わせにAIで対応、トラブル解決の切り札とは

  3. 運用管理

    Oracle DatabaseのAzure移行時におけるポイント、移行前に確認しておきたい障害対策

  4. 運用管理

    Google Chrome ブラウザ がセキュリティを強化、ゼロトラスト移行で高まるブラウザの重要性

  5. ビジネスアプリケーション

    技術進化でさらに発展するデータサイエンス/アナリティクス、最新の6大トレンドを解説

ZDNET Japan クイックポール

注目している大規模言語モデル(LLM)を教えてください

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]