AWS東京リージョンの大規模障害--制御システムにバグ、「パージ」移行に失敗

ZDNet Japan Staff 2019年08月26日 13時32分

  • このエントリーをはてなブックマークに追加
  • 印刷

 Amazon Web Services(AWS)の東京リージョンで8月23日に「Elastic Compute Cloud(EC2)」サービスの障害が発生した。同社は障害の発生した経緯と現在の対応状況について明らかにしている。

 AWSによると、東京リージョンの一部のEC2サーバーが停止した原因は、データセンター制御システムに障害を発端に、冷却システムの制御がうまく機能せず、サーバーの温度が許容限度を超えてしまったためだという。

 制御システムには、ファン、冷却装置、温度センサーなどのサードパーティー製のコードが含まれており、直接または組み込みプログラマブルロジックコントローラ(PLC)を介して、実際のデバイスと通信する仕組みになっていた。複数ホストで実行する高可用性設計となっており、今回の障害発生の直前には、制御ホストの1つを外す処理を行っていた。

 新しい制御ホストがデータセンターの最新状況を保持するためには、他の制御システムと制御するデータセンター機器と情報を交換する必要がある。この処理において、サードパーティー製の制御システムにおけるロジックにバグがあり、情報交換が制御システムとデータセンターのデバイス間で過度に発生。最終的には制御システムが応答しなくなってしまったという。

 AWSによると、同社のデータセンターでは、制御システムに障害が発生した場合、機能が回復するまで冷却システムが最大出力になるよう設計されているという。だが、データセンターのごく一部でこの冷却構成に正しく移行できず、冷却システムが停止。追加策として、データセンター制御システムを迂回し、冷却システムを「パージ」モードにすることで熱風を素早く排出しようとしたが、これも失敗した。

 この時点で、データセンターの一部のエリアで温度が上昇し始め、サーバーの温度が許容限度を超え、電源が停止し始める。この状況を改善するためには、オペレーターが影響を受ける全ての機器を手動でリセットし、冷却モードを最大にする必要があった。

 その対応時に一部の空調ユニットを制御するPLCも応答しないことが分かり、またこの障害によりデフォルトの冷却モードと「パージ」モードが正常に動作していないことも確認した。これらのコントローラーがリセットされると、影響のあったデータセンターのエリアへ冷却が行われ、室温が低下し始めたという。

 AWSでは、現在もサードパーティーのベンダーと協力し、制御システムとPLCの不応答を引き起こしたバグと、バグによる影響の詳細な調査を進めている。また、再発防止のため、バグを引き起こした制御システムのフェールオーバーモードを無効にするとともに、オペレーターにこの障害の検知方法と復旧方法のトレーニングを実施した。同様の障害が発生しても、顧客システムに影響が生じる前に、システムのリセットが可能になっているとしている。その他にも、「パージ」モードがPLCを完全にバイパスできるよう、空調ユニットを制御する方法を変更するよう作業を進めているという。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

  • このエントリーをはてなブックマークに追加

SpecialPR

連載

CIO
教育IT“本格始動”
月刊 Windows 10移行の心・技・体
ITアナリストが知る日本企業の「ITの盲点」
シェアリングエコノミーの衝撃
デジタル“失敗学”
コンサルティング現場のカラクリ
Rethink Internet:インターネット再考
インシデントをもたらすヒューマンエラー
トランザクションの今昔物語
エリック松永のデジタルIQ道場
研究現場から見たAI
Fintechの正体
米ZDNet編集長Larryの独り言
大木豊成「仕事で使うアップルのトリセツ」
山本雅史「ハードから読み解くITトレンド放談」
田中克己「展望2020年のIT企業」
松岡功「一言もの申す」
松岡功「今週の明言」
内山悟志「IT部門はどこに向かうのか」
林 雅之「デジタル未来からの手紙」
谷川耕一「エンプラITならこれは知っとけ」
大河原克行「エンプラ徒然」
内製化とユーザー体験の関係
「プロジェクトマネジメント」の解き方
ITは「ひみつ道具」の夢を見る
セキュリティ
セキュリティインシデント対応の現場
エンドポイントセキュリティの4つの「基礎」
企業セキュリティの歩き方
サイバーセキュリティ未来考
ネットワークセキュリティの要諦
セキュリティの論点
スペシャル
エンタープライズAIの隆盛
インシュアテックで変わる保険業界
顧客は勝手に育たない--MAツール導入の心得
「ひとり情シス」の本当のところ
ざっくり解決!SNS担当者お悩み相談室
生産性向上に効くビジネスITツール最前線
ざっくりわかるSNSマーケティング入門
課題解決のためのUI/UX
誰もが開発者になる時代 ~業務システム開発の現場を行く~
「Windows 10」法人導入の手引き
ソフトウェア開発パラダイムの進化
エンタープライズトレンド
10の事情
座談会@ZDNet
Dr.津田のクラウドトップガン対談
Gartner Symposium
IBM World of Watson
de:code
Sapphire Now
VMworld
Microsoft Inspire
Microsoft Connect()
HPE Discover
Oracle OpenWorld
Dell Technologies World
AWS re:Invent
AWS Summit
PTC LiveWorx
吉田行男「より賢く活用するためのOSS最新動向」
古賀政純「Dockerがもたらすビジネス変革」
中国ビジネス四方山話
ベトナムでビジネス
日本株展望
企業決算
このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]