Facebookのデータセンターで実施された、一見すると何の変哲もない日常的な作業によって、データセンターへの接続が完全に切り離された。その結果、「Facebook」や「WhatsApp」「Instagram」が利用できなくなるという大規模な障害に発展した。
米国時間10月4日に発生し、数時間にわたって世界を混乱に陥れた障害は、人々がいかに世界最大規模のソーシャルネットワークであるFacebookのデータセンターに依存するようになっているかという実態を明確に思い知らせる出来事となった。
Facebookにおいて、インターネットの電話帳に相当する役割を持つDNSが機能しなくなり、FacebookやWhatsApp、Instagramへのアクセスが不能となった結果、20億人のほとんどのユーザーが頭をひねることになった。
FacebookのDNSが機能しなくなったのは、同社のサイトまでの経路を制御するBGP(Border Gateway Protocol)に問題が生じたためだ。DNSは、「Google」といった可読文字の並びを、数値で構成されたIPアドレスに変換するサーバーだ。そしてBGPは、そのIPアドレスに到達する経路情報をインターネット上で「広告」することで、PCやスマートフォンが該当ウェブサイトにアクセスできるようにする。
Facebookは5日、世界最大のメッセージングシステムが4日に数時間行方不明のような状態になった原因について、より詳細な報告を公表した。このインシデントによって、Facebookそのものがグローバルなメッセージングサービスの単一障害点となっていることが浮き彫りになった。
しかし、このインシデント自体の説明はありふれたものだ。迷路のように入り組んだFacebookのネットワークに亀裂が生じたのは、「日常的な」メンテナンス作業が、同社のネットワークやデータセンターで想定していないようなかたちの混乱を引き起こしたためだ。その結果、Facebookのデータセンターとインターネットの間が「完全に分断」され、FacebookとWhatsApp、Instagramがアクセス不能になった。
Facebookのエンジニアリング担当バイスプレジデントであるSantosh Janardhan氏は、「10月4日の障害に関するさらなる詳細」と題したブログ記事で、「今回の障害は、当社のグローバルなバックボーンネットワークの容量を管理するシステムによって引き起こされた」と説明している。
「このバックボーンは、Facebookが自社のコンピューティング施設すべてを接続してひとまとめにするためのネットワークであり、世界中に張りめぐらされた数万マイルに及ぶ光ファイバーケーブルで構成され、われわれのデータセンターすべてを接続している」という。
「そこが4日の障害の発生場所だ。日常的に実施している保守作業の1つとして、グローバルなバックボーン容量の可用性を評価するためのあるコマンドを実行したところ、バックボーンネットワークのすべての接続が意図せず切断され、実質的にFacebookのデータセンター群が世界的な規模で切り離されることになった」(Janardhan氏)
今回の障害で、人々がいかにFacebookのインフラの信頼性に依存しているかということが明らかになった。FacebookはWhatsApp、Facebook Messenger、Instagramのメッセージングを統合する取り組みを進めている。
また、Facebookは現在、同社のプラットフォームにおける倫理や誤情報の扱いをめぐって議会の厳しい追及を受けており、その最中に障害が発生した格好となった。
Janardhan氏は、発生した事象の速度にFacebookのインフラが追随できるようになっていなかったと明かした。
「これはすべて非常に急速に起こった」と同氏は言う。
同氏は、「われわれのDNSサーバーは信頼性の高い運用を保証するために、当社のデータセンターと通信できない場合、BGPの広告を無効化するようになっている。こういった状況はネットワーク接続が健全ではないことの表れであるためだ」と説明している。
「今回の障害において、バックボーン全体が運用から除去された結果、これらのロケーションが自らを不健全な状態であると判断し、BGP広告を停止することになった。結果的に、当社のDNSサーバーは動作していたとしても到達不能になった。これにより、インターネットのほかの部分が当社のサーバーを見つけられなくなった」(Janardhan氏)
この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。