ファーストサーバ担当者がデータ消失事故を振り返る
特別講演では、2012年にシステム障害から5000件以上の顧客のメールやウェブデータを消失する事故を起こしたファーストサーバの担当者が登壇。「その後のファーストサーバ--教訓に学ぶバックアップの落とし穴」と題し、事故当時の状況や事故から得られた教訓、その後の対応策などを明かした。
ファーストサーバからは、Zenlogic事業推進部部長の辻野欣悟氏、事業開発部部長の藤原一泰氏が登壇。そして聞き手を日本仮想化技術CEOの宮原徹氏が担当した。
事故当時、辻野氏は、原因究明と再発防止、サービス復旧を担当。藤原氏は、主にサービス復旧を担当。講演は、前半の辻野氏と藤原氏による事故の振り返りと後半の質疑応答で構成された。
ファーストサーバ
事業開発部部長
藤原一泰氏
まず、振り返りとしては、6月20日の事故当日の状況として、セキュリティパッチを適用するメンテナンスを実施する際、誤って5676件の顧客環境のデータを消失した経緯を解説した。
当日17時48分頃から大量のシステム監視アラートが継続的に発生。当時の状況について「サービス開始以来、前例のない状況。自社メールの送受信もエラーとなり社内が騒然となった」という。17時50分には、運用部門から顧客領域のデータが消失していると第一報が入るが、自社メール、サポートウェブサイトもダウンしたため、カスタマーサポートが障害範囲や内容を把握できないという事態に陥った。自社メールが復旧したのは当日22時頃。ヤフーニュースやNHKニュースにも流れ、通常の50倍のアクセスが殺到した。
2日目の3時30分頃にようやくデータ消失の影響範囲が判明。バックアップHDD上のデータも消失していたことがわかり、約800本のバックアップディスクを物理的に保全する措置をとった。7時からは対象のサーバについて初期化作業を開始。初期設定から再度実施いただくようお願いを継続することになる。
事故当日から24日までは、問い合わせが集中し電話回線がパンク状態に。1時間あたり2000件の入電があり応答率は1%未満で、専門会社へコールセンター開設を依頼したが、本格始動したのは週明けの月曜日の9時からだった。それでも、1日あたりのメール問い合わせは最多で平常の18倍、電話は42倍という規模だ。
藤原氏は「問い合わせに対応できなかった。情報発信手段となる自社ウェブサイトは絶対に停止させてはいけない。想定外の事象が1つ起これば雪崩的に想定外の事象が起こる」と振り返った。
事故原因は大きく2つあった。システム更新プログラムのバグと、システム変更手順の問題だ。「脆弱性対策として実施したメンテナンス作業において、複数のミスが重なり事故が発生」(辻野氏)することになる。事故後の第三者委員会による調査では、さらに、開発・運用管理体制、脆弱なシステム構造、データ消失に対する希薄な危機意識の3点を指摘された。「社内の慣習だったり、意識の慣れがあったりした。今から思えば、間違って当たり前の感覚だった」という。
ファーストサーバ
Zenlogic事業推進部部長
辻野欣悟氏
事故から2年の間、再発防止策を打ち、品質改善につなげ、さきごろ、そうした積み重ねを反映した新しいプラットフォームを立ち上げるに至った。説明を担当したのは辻野氏。
新しいプラットフォームでは、プロビジョニングを完全に自動化し、手作業による人為ミスが介在できないようした。また、バックアップ、監視も自動的に開始する仕組みになっている。運用管理をプロセス化し、改善できる仕組みを作ったことが大きなポイントだという。
バックアップについては、本番システムとバックアップシステムを別系統に分離し、アクセス権と担当者もそれぞれ分けた。またデータは分散ストレージ技術で三冗長保存にし、日次バックアップと3世代保存を行うようにした。また顧客環境へのローカルバックアップを行いやすくした。
最後に「重大な事故が起きないよう、全社員の当事者意識の向上と継続的な日々の改善が重要」と、意識改革と日々の取り組みの大切さを重ねて強調した。