Amazon Web Services(AWS)は米国時間3月2日、同社のサービスで2月28日に発生した大規模システム障害に関する調査レポートを公開した。クラウドストレージサービス「Amazon Simple Storage Service」(Amazon S3)を利用する数多くの顧客のサービスが数時間にわたって影響を受けたこの障害の原因は、入力ミスだったという。
AWSは同レポートで以下のように説明している。
Amazon S3チームは、S3の課金システムの動作が遅いという問題の原因を修正しようとしていた。太平洋標準時間午前9時37分、権限を有するS3チームメンバーの1人が、S3の課金プロセスによって使用されている、あるS3サブシステム用のサーバのごく一部を切り離すために、確立された手順に従ってあるコマンドを発行した。残念なことに、このコマンドに引き渡す入力の1つが誤っており、想定していたよりも多くのサーバを切り離してしまった。
このミスによって、US-EAST-1(米国東部:バージニア北部)リージョン(Amazonで最も古くから稼働しており、数多くのデータセンターを抱えるリージョン)におけるすべてのS3オブジェクトが必要とする2つのサブシステムが意図せず停止した。いずれのシステムも完全な再起動が必要となった。再起動と、安全面で必要なチェックの実施に「予想以上の時間がかかった」とAWSはレポートに記している。
これらサブシステムの再起動中、S3はサービス要求を処理できなかった。また同リージョンで、ストレージとしてS3を使用しているその他のAWSサービスにも影響が及んだ。影響を受けたなかには「Amazon S3コンソール」や、「Amazon Elastic Compute Cloud」(Amazon EC2)の新規インスタンスのローンチ、「Amazon Elastic Block Store」(Amazon EBS)のボリューム(Amazon S3のスナップショットからデータが必要となった場合)、「AWS Lambda」が含まれている。
AWSによると、インデックスサブシステムは太平洋標準時間午後1時18分に完全に復旧し、プレイスメントサブシステムは同午後1時54分に復旧したという。この時点までに、S3は通常稼働に戻っていた。
AWSは今回の障害発生を教訓として、こういった問題を引き起こすような誤った入力を防ぐための措置も含め、ツールの修正など「複数の変更」を実施するとしている。AWSはこの他にも、インデックスサブシステムをより小さな単位に分割するという対策に向けた作業に着手している。またAWSは、「AWS Service Health Dashboard」の管理コンソールに変更を加え、AWSの複数リージョンをまたがって稼働するようにもした。2月28日の障害ではダッシュボードにも影響が及んだため、AWSは問題に関する情報を顧客に随時伝えるためにTwitterを利用しなければならなかった。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。