CDNのFastly、世界的な障害の原因は「ソフトウェアのバグ」

Liam Tung (ZDNET.com) 翻訳校正: 編集部

2021-06-10 12:18

 コンテンツ配信ネットワーク(CDN)事業者のFastlyは米国時間6月8日、同日に発生した大規模障害について同社ブログで説明した。この障害によって、Amazonなど世界の大手ウェブサイトの多くがアクセス不能に陥った。

 今回の障害による影響範囲の広さは、世界中に分散された拠点(PoP)からコンテンツをエンドユーザーのもとに送り届けるCDNが、単一障害点にもなり得るという点をあらためて示したと言える。

 Fastlyは、ソリッドステートドライブ(SSD)を活用したPoPを世界各地に配置することで、エンドユーザーにより近い場所に位置したデータセンターからウェブコンテンツを配信するための「エッジクラウド」を実現している。ユーザーはウェブサイトのサーバーに直接アクセスするのではなく、PoP内のキャッシュストレージにキャッシュとして維持されている該当ウェブサイトにアクセスする。

 同日の大規模障害により、The GuardianやFinancial Times、The New York Times、米ZDNet、Reddit、Twitch、Amazon、PayPalのほか、英国政府のサイトであるgov.ukなどへのウェブアクセスが一時的に不能になった。

 Fastlyのエンジニアリング&インフラ担当シニアバイスプレジデントであるNick Rockwell氏によると、今回の約1時間に及ぶ障害は、ソフトウェア内に潜んでいた未発見のバグが、ある顧客の実行した設定変更によって顕在化したために発生したものだという。

 Rockwell氏は、「特定の状況において特殊な顧客設定を実行することで引き起こされる可能性のあるバグが含まれた」ソフトウェアアップデートを同社が5月12日にデプロイしたということ以外、詳細な経緯を説明していない。

 その後、ある顧客が6月8日にこのバグを顕在化させる条件を満たす設定変更を実行した結果、同社ネットワークの85%でエラーが発生することになった。影響を受けたサイトにアクセスしたエンドユーザーは、ブラウザー上で「Error 503 Service Unavailable」(エラー503サービス利用不可)というエラーメッセージを目にすることになった。

 Fastlyは同日、サービス状況のページで、この問題により、顧客は「配信元に対する負荷の増加と、キャッシュヒット率(CHR)の低下」を目にすることになったと説明した。CHRは、キャッシュが受け取るリクエスト数に占める、キャッシュが処理できるリクエスト数の割合だ。

 「直接的な影響を緩和できた時点で、われわれはバグの修正と顧客とのコミュニケーションに取りかかった。われわれはこのバグの恒久的なフィックスを作成し、そのデプロイを17時25分から始めた」(Rockwell氏)

 今回の障害は協定世界時9時47分から始まった。

 CDNの落とし穴は、Cloudflareの2019年の障害で明らかになっているように、障害が発生した際にユーザーは、該当CDNを利用しているウェブサイトのコンテンツにアクセスできなくなるというものだ。

 同氏は「こういった障害を引き起こすような特定の条件があったとしても、われわれはそのことを想定しておくべきだった。われわれはミッションクリティカルなサービスを提供しており、サービスに影響を及ぼし得るすべての行動に対して細心の注意を払うとともに最大限の優先順位を置いている」と記している。

この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]