日立製作所は9月27日、Hadoopを採用した大量ゲノムデータ分散処理環境を試作し、従来の分散処理システムの約5分の1のコストで同水準のデータ処理能力を実現できたと発表した。
検証は国立遺伝学研究所(遺伝研)五條堀孝教授グループの協力のもと実施した。ゲノム研究分野では次世代DNAシーケンサー分野の進展が著しく、最新の次世代DNAシーケンサーでは、断片配列データと呼ばれるDNAの配列を解析単位に断片化したデータが一回の計測で約60億個(約1.8TB)生成されるという。
解析対象となるデータ量の増大に伴い、コスト効率に優れ、スピードも確保できる大量データ処理システムの開発が求められている。遺伝研の協力のもと、日立は現在遺伝研が使用しているゲノム解析フローを日立が構築したHadoop検証環境に移植し、さまざまな条件設定でゲノム解析を実行し、遺伝研でのゲノムデータ解析環境と処理性能を比較した。
この結果、従来システムの約5分の1のコストで同等のデータ処理性能を実現できたという。今回の検証では、日立エントリーブレードサーバ「HA8000-bd/BD10」でHadoopの特長であるスケールアウトに適した検証環境を構築し、ゲノム解析プログラムはSanger研究所開発の「Burrows-Wheeler Aligner(BWA)」を使用した。
※クリックすると拡大画像が見られます