レンタルサーバ事業を運営するファーストサーバがシステム障害を起こし、5698件の顧客のデータを消失した事故について、ファーストサーバが客観的な立場から調べた事故調査報告書を7月31日に公表した。
調査を実施したのは6月28日に発足した外部の専門家で構成する第三者調査委員会。構成メンバーは、TMI総合法律事務所の弁護士、葉玉匡美氏、S&Jコンサルティングの三輪信雄社長、TMI総合法律事務所の弁護士、柴野相雄氏の3人だ。
報告書によると、事故は第1と第2の2つに分けられる。1件目は、サービスで使用されていた特定のサーバ群を対象に実施されたメンテナンスにより、顧客の大量のデータを消去した事故。メールシステムの障害解消が目的だった。
2件目は、1件目によって消失したデータを復元するために、消失データを復元できるプログラムを用いてデータの復元を実行し、その結果を「リカバードファイル」として顧客に提供したところ、想定以上の量のデータが、想定していないデータ領域に復元された事故だとしている。
属人化したプロセスの危険性
全体を通じて、報告書の最も印象的な記述は、第1事故の原因となったシステム変更担当者Aによる「独自のメンテナンス方法」だ。簡単にいえば担当者Aが「マニュアル無視」の運用をしていたことが直接の原因になったとしている。
マニュアルでは、再発防止策も提示。部内ルールの再徹底などの「開発・運用プロセスの見直し」のほか、「牽制を含めた体制の確立」、「システム変更業務の運用移管」、「2次バックアップの取得」などを挙げた。
調査報告書に記述された再発防止策(出典:ファーストサーバ)
「対象外サーバ群についてファイルの削除を行う旨のコマンドを消し忘れる」といったミスなど、詳細な原因は関連記事および調査報告書の要約版を参照いただき、ここでは、調査報告書の内容の評価について、ITR内山悟志氏から得たコメントを紹介したい。
事業者選定のチェックシートと契約雛形を作成すべきだ
内山氏は、事故原因について、運用プロセスが属人化していた点に注目したという。報告書に記述された「再発防止策」について「“プロセスの見直し”にしても“牽制体制の強化”にしても人のミスを人でカバーしようとしているだけ」と指摘。「根本的な対策になっていない」と評価した。
レンタルサーバだけでなく、データセンターなども指した上で「日本のデータセンターは自動化率が低い」とする。予期しないジョブを流したり、スクリプトを書き換えたり、バッチのプロシージャを書き換えたときに、アラートが上がるようになっていないという。
一方で、米国などでは自動化率が高いとする。巨大なサーバ群を数人で運用するなど「無人運転に近い状況をつくろうとしている」(同氏)。運用管理ツールを使い、なるべく人を介さないような体制を構築している。
「ある意味で米国は性悪説の考え方で設計されている」(同)
さらに、米国では「Governance、Risk and Compliance(GRC)」と呼ぶ、リスク管理とコンプライアンスの新たな標準ができつつあることにも触れた。
「米国にはこうしたコンプライアンスの仕組みが業務運用にも入っているが、日本にはあまり入っていない。IT全般のリスク管理体制を整備していかないと、まずいことになると感じている」(同)
今回問題になったレンタルサーバの事業とクラウドコンピューティングを混同すべきではないといった指摘もある中で、やはり共通する「グレーな部分はある」という。
特に「IaaS(Infrastracture as a Service)の領域では、OSより上はユーザーが責任を持つ点では両者は同じ。預けてはいるが、データを含め、アプリケーションもユーザー側が責任を持たなくてはいけない構造になっている」(同)。
そのため、こうした事業者のサービスを使う上で、「ユーザー側がサービスや契約を事前検証する必要がますます増えてきている」とする。
「独立行政法人の情報処理推進機構(IPA)のような機関が雛形を出す必要があるかもしれない。事業者を選ぶ際の“チェックシート”と、契約する際の“契約書雛形”のようなものを、業界全体で整備するべきだ」(内山氏)
Keep up with ZDNet Japan
ZDNet JapanはFacebookページ、Twitter、RSS、Newsletter(メールマガジン)でも情報を配信しています。