環境の影響
この論文では、データセンターを低温(Cool)と高温(Hot)、乾燥(Dry)と多湿(Humid)で分類している。詳細については、同論文から引用した以下の表を参照してほしい。
<表3>ディスクの年間故障率(AFR)。HH1~HH4のAFRが特に高い。「DC Tag」欄のCはCold、DはDry、最初のHはHot、2つ目のHはHumidを表す(つまりHHならば「高温・多湿」)。
以下のグラフは、故障の要因として室温よりも湿度の方が重要だという結論を裏付けている。
<図2>HD1(高温・乾燥)、CD3(低温・乾燥)、HH1(高温・多湿)で発生した故障の種類別割合。HH1はコントローラ/接続の不具合の割合がHD1の約2倍になっている。
データセンターに適したストレージ
ストレージベンダーは、長年の間デバイスの信頼性に関するデータの公表をコントロールしてきた。しかし、ウェブスケールのデータセンターは従来のストレージベンダーとの利害関係を持っておらず、より有利な契約を求める消費者と情報を共有することで利益を得ることができる。
ストレージサイロに高いコストをかけてデータを複製するRAIDのアレイモデルは、大規模なビッグデータのニーズを満たすことができない。この論文では、「Google File System」やその他のウェブスケールオブジェクトストアの設計の背景にあるロジックの意義を証明している。ソフトウェアフレームワークの中に、故障することを前提として信頼性の低いコンポーネントを位置づけることで、従来のRAIDアレイの設計よりもコストと可用性の両面で有利になる。
筆者がこの論文に抱いた唯一の疑問は、著者がディスクドライブが外気に対して密閉されていると想定しているように思えることだ。多くの読者も知っているとおり、これは正しくない。筆者は確認のために第一著者に問い合わせてみた。その結果、筆者の懸念は事実無根であることが分かった。第一著者であるIoannis Manousakis氏からの回答は以下の通りだ。
われわれは通気口の存在については把握しており、論文中の表現に改善の余地があることには同意する。しかしデータ(図2)は、HH1(高温高湿度環境)のディスクでは、低湿度データセンターのディスクよりもコントローラ/接続のエラーがはるかに多いことを示している。同時に、再配置されるセクタの数も劇的に減少する。これらの事実は、機械的な部品はあまり大きな影響を受けない(あるいは、その効果がコントローラに対する影響よりもずっと小さい)ことを示している。同じ現象は、ほかの高湿度データセンターでも観察されている。
著者らに対して、疑問を払拭してくれたことに感謝したい。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。