東京工業大学(東工大)は5月18日、最新のスーパーコンピューターシステム「TSUBAME4.0」の構築を開始したと発表した。2024年春の稼働を予定している。
東工大は、初代の「TSUBAME1.0」を2006年4月に稼働させ、現在は3代目の「TSUBAME3.0」を運用している。TSUBAMEシリーズは「TSUBAME1.2」からGPUを積極的に活用しているのが特徴で、TSUBAME1.2では「Tesla」、「TSUBAME2.0」では「Fermi」、「TSUBAME2.5」では「Kepler」、「TSUBAME3.0」では「Pascal」と、NVIDIA製GPUを採用。今回のTSUBAME4.0では、「NVIDIA Hopperアーキテクチャ-」の「NVIDIA H100 Tensor」コアGPUをTSUBAME4.0向けにチューニングして採用する。
「TSUBAME4.0」の完成イメージ(出典:東京工業大学)
GPU数は、TSUBAME3.0の2160台からTSUBAME4.0では960台に減少する一方、高性能GPUの採用と、GPUの論理分割機構によって、TSUBAME3.0を超える性能とユーザビリティーを達成させるとしている。理論演算性能は、科学技術計算で利用される64bitの倍精度で66.8PFlops(TSUBAME3.0比で約5.5倍)、AIなどで利用される16bitの半精度では952PFlops(同約20倍)を計画し、これらの性能は理化学研究所の「富岳」システムに次ぐ国内2位相当になるという。
システム構成は、計算ノード部が「HPE Cray XD6500」シリーズのサーバー240台、各計算ノードで第4世代「AMD EPYC」プロセッサー2基、NVIDIA H100 TensorコアGPUを4基、768GiBの主記憶、「NVIDIA Quantum-2 InfiniBand」ネットワークインターフェース4ポートで、ストレージシステムは「Cray ClusterStor E1000」で構成される。「Lustre」ファイルシステムによるHDDベースの共有ストレージの容量が44.2PB、SSDベースの高速ストレージ容量が327TBで、それぞれ接続され、各計算ノードにも容量1.92TBのNVMe対応高速SSDストレージを搭載する。計算ノードとストレージシステムは、InfiniBandの高速ネットワークに接続され、「SINET6」経由で、100Gbpsの回線でTSUBAME4.0を設置する東工大すずかけ台キャンパスから直接インターネットに接続される。
開発に当たっては政府調達の「TSUBAME4.0スーパーコンピュータ」を実施。日本ヒューレット・パッカード(HPE)が落札し、東工大はHPEやNVIDIA、関連各社と連携して、TSUBAME4.0の構築を進めていくとしている。