東大医科研ヒトゲノム解析センター、全ゲノム解析の高速化に向け解析基盤を強化

NO BUDGET

2021-02-26 17:45

　東京大学医科学研究所（東大医科研）ヒトゲノム解析センターは、全ゲノムシークエンスデータ解析の大幅な高速化のため、日立製作所の協力の下、最新型のヒトゲノム解析用スーパーコンピューターシステム「SHIROKANE」に、従来の約40倍の高速化を可能とするゲノムデータ解析ソフトウェア「NVIDIA Clara Parabricks」を全面導入した。

　3月1日の稼動開始後はSHIROKANE環境下において、Parabricksによる処理容量が約6倍となり、さらなる全ゲノム解析の高速化が期待できる。このシステムは、4月1日にユーザーへの提供が開始され、全ゲノムシークエンスに基づく、がんゲノム医療や新型コロナウイルス研究など、産官学民の英知を結集し推進するべき喫緊の課題への取り組みを強力に後押しする。

　ヒトの全ゲノムは約30億塩基対で構成されているが、一般的な次世代シークエンサはその機構上、巨大なゲノムを100〜150塩基対程度の断片に切断しなければ塩基配列情報を読むことができない。そのため、次世代シークエンサからは、数億個の断片に分割された塩基配列情報が出力されることになる。これを意味のある情報に変換するためには、膨大な断片を破綻のない形で本来の姿である30億塩基対のつながりに復元する必要がある。さらにその後リファレンス配列と呼ばれる塩基配列に対し「30億塩基対のどこに変異があるのか」を検出することで初めて有用な情報となる。

　ParabricksはGPUの並列演算性能を活用して実行されるため、GPU環境の強化として、5ペタフロップスのAI（人工知能）性能を備えた世界最先端のGPUサーバー、NVIDIA DGX A100システムを増設するとともに、全国の研究機関など全てのSHIROKANEユーザーが利用できる環境を構築している。併せて、既存システムを含むSHIROKANE全体の最適化も実施し、複数のユーザーが同時に全ゲノムデータ解析を行う場合のボトルネックを解消することで、システム性能を最大限に発揮できるように構成した。

　全88基のGPUサーバーにParabricksを搭載したことで、一般的なCPU環境で1サンプル当たり20時間以上を要する計算処理を30分以内で完結できる、解析基盤の強化を実現した。全面導入に当たり、日立は既存システムとの連携を考慮し、SHIROKANEの一部として最大性能が発揮できるよう構成の最適化を行っている。SHIROKANEユーザーが利用できるParabricks導入ノードが増えることで、日本のさまざまなゲノム研究に対する支援を強化するとともに、ユーザーの利用環境に合わせたサービスのより一層の向上を目指す。

　一人ひとりの体質や病態にあった適切な医療を提供する個別化医療では、全ゲノム解析により取得したパーソナルゲノム情報に基づいた予防・診断・治療法の検討が必要となる。厚生労働省では、国家戦略として2019年12月にがんや難病領域の「全ゲノム解析等実行計画」を策定し、がんと難病の患者計約9万2000人分の検体を対象に最大3年間かけて解析することを発表している。

　また東大医科研ヒトゲノム解析センターは、新型コロナウイルス感染症の研究を加速するため、必要とする研究機関に対して、2020年4月からSHIROKANEの無償提供を行うほか、ヒトゲノム解析センターの研究者自身も7大学・研究機関の異分野の専門家からなる共同研究グループ「コロナ制圧タスクフォース」をはじめさまざまな新型コロナウイルス感染症の研究に参画している。今回のSHIROKANEの基盤強化は新型コロナウイルス感染症の研究にかかる研究者を強力に支援するものになる。