RAIDやミラーリングでは
障害への対応は不十分
このようにKMPIは、オープンソースを積極採用することで、コストを抑えたシステム構築を目指してきた。だがここに来て、新たな問題が浮かび上がってきた。
同社のオンラインラボのシステム管理担当は、5〜6人。少数精鋭で、システムを保守・運用している。だが前述のように、ピーク時の利用者数の増加により、機器を増やした結果、それに比例して障害が増加。従前の運用形態では捌ききれなくなった。
オンラインラボサービス開始直後のシステム障害の経験から、2002年よりストレージをRAID構成にしていた。データを分散して記録すれば、高速化や安全性の向上が見込めたからだ。たとえば、RAIDを構成するディスクの1つが壊れた場合、故障した物を交換して再構築すれば、RAIDが復活するといった具合だ。
ところが、ここにある誤算があった。RAIDは「複数あるディスクが同時に故障することはない」という前提で組まれていた。確かに同時に壊れることはないが、1つが壊れてそれを再構築する際、復旧対応時間が長いと、その間に次のディスクが壊れてしまうことがある。こうなると、RAID自体が復旧できなくなる。
KMPIは、これらを経験的に学んだため、次の対応として、ソフトを使ったミラーリングを実施した。顧客からもらったデータを2カ所に書き込むことで、その保全性を高めたわけだ。
だが、ミラーリングだけでも対応が不十分なことが分かった。仮にストレージが壊れた際、一方が動いていても、もう一方を復旧させる必要がある。同社はこれをシステム管理担当による手作業に頼っていた。1テラバイト程度だと迅速な対応が可能だが、数テラバイトになると、途端に対応できなくなる。飯塚課長は「復旧のため、メンバーが3日徹夜する現状を考えると、このままでは今後のストレージ容量の増加に対応しきれないと思ったのです」と打ち明ける。
価格と障害復旧対応が
導入の決め手となる
そこで2004年初頭から、ストレージとその管理ツールの導入を検討し始めた。
製品選択のポイントは2つあった。
1つは価格だ。五十嵐氏は「これまで導入してきたストレージは、数百万円でしたが、ハイエンド向けになると桁が2つ、ミドルレンジでも1桁違ってきました」と指摘する。前述のとおり、投資額には限りがあるため、それらのツールの導入は難しかった。
最も重視したのは障害復旧対応だ。確かにハイエンド向けは、障害復旧が自動化されているため、運用管理担当の負担は小さい。だが価格帯の低いツールになると、復旧工数が従来と変わらないため、KMPIの要求に合わなかったのだ。
そこで選択したのが、東京エレクトロンが販売していたストレージ「アイシロン」だ(囲み記事参照)。これは、ノードをスケーラブルに増設できる上、増設にスループットが比例するという特徴を持つ。また、ノード内でRAIDを組むのではなく、ノード間にまたがってRAID構成するため、障害発生時には他のノードにアクセスするだけで運用を継続できる。運用管理のしやすさと復旧工数の少なさが、決め手となった。
また、アイシロンがFreeBSDで動作する点も、採用のポイントとなった。飯塚課長は「当社は、数年前からFreeBSDを採用し、その操作や保守・運用のノウハウを蓄積してきました。導入にも手間がかからない上に、より踏み込んで操作したい時も、SIベンダの力を借りなくても済むので、当社にとってメリットが大きかったのです」と振り返る。
2005年6月のアイシロン導入後のシステム構成は図2のとおりだ。これまでは、単独のNFSサーバーでまかなっていた一部ストレージ系システム(スクリプト管理など)が、アイシロン1台で対応できるようになった。さらに、3台にデータを書き込む三重化の体制を敷くことで、データの保全性を高めている。