NTTコミュニケーションズ(NTT Com)は、次世代情報通信基盤「IOWN構想」の主要技術「オールフォトニクスネットワーク」(APN)で接続した3拠点のデータセンター(DC)にGPUサーバー「NVIDIA H100」を分散配置した環境を構築。この環境下で、「NVIDIA NeMo」を用いた大規模言語モデル(LLM)「tsuzumi」の学習に成功した。世界で初めてとなる。3月19日に発表された。
NTT Comは2024年10月7日、三鷹と秋葉原の2拠点のDC間でAPNによるGPUクラスターの実効性を検証し、その効果性を確認していた(参考記事)。DCの分散を進めることで、余ったGPUサーバーを再利用するような最適なGPUリソースの配置がより実用的になるとする。また、各地域のDCを活用し、複数の拠点でコンピューティングを分散することで、電力コスト削減と持続可能な運用を実現する。
今回の実証では、Point-to-Pointで接続された分散DCの数を2拠点から、川崎を加えた3拠点へと拡張した。これにより、計算基盤の運用に新たな柔軟性が生まれるとしている。NTT Comによれば、A拠点とB拠点に加え、C拠点を活用することで、その土地の電力供給量や価格に応じ、顧客の要望に合わせた複数の運用パターンを選択できるようになる。また、ネットワークの観点からも、距離の近い拠点同士でのより低遅延なワークロードや、遠距離の拠点同士での電力効率を意識したワークロードなど、ユーザーの特性に応じた分散学習や推論などのスケジューリングの可能性を実感できる構成となる。
具体的には、NVIDIAアクセラレーテッドサーバーを、それぞれ約25~50km離れた川崎、三鷹、秋葉原の3拠点のDCに分散配置し、DC間を100Gbps回線のIOWN APNで接続した。NVIDIA NeMoで3拠点のGPUサーバーを連携させ、tsuzumiの軽量モデル「7B」の分散学習を実施した。

3拠点での実証のイメージ(提供:NTTコミュニケーションズ)
単一のDCで学習させる場合の所要時間と比較して、インターネットを想定し帯域制限を実施したTCP通信の分散DCでは9.187倍の時間を要した。しかし、IOWN APN経由の分散DCでは1.105倍となり、単一のDCとほぼ同等の性能を発揮できることが確認された。
NTT Comは、分散DCの拠点数の増加と距離延伸の実証と、分散DCにおける通信方法やGPUリソースの最適化検証の観点から今後も実証を進める。また、国内70拠点以上のDC間や顧客の建物などを接続可能な「APN専用線プラン powered by IOWN」や、液冷方式サーバーに対応した超省エネ型DCサービス「Green Nexcenter」などを組み合わせたGPUクラウドソリューションとして顧客への提供を目指す。