チップメーカーAdvanced Micro Devices(AMD)の「APU」技術は、CPUとハイエンドGPUを同一の基板で統合させたものだ。同社は、新たなレベルのパフォーマンスを実現するためにAPUをゲームコンソールやPCからスーパーコンピュータへと拡大させる取り組みについて、さらなる情報を明らかにした。エクサ級のパフォーマンスを妥当な電力消費量で実現するための最適な方法として、ヘテロジニアスアーキテクチャと新しいメモリ階層を合わせて推進しているという。
このコンセプトは新しいものではない。AMDは、米エネルギー省の助成を受けた「FastFoward」と「FastForward 2」の両プログラムの下、数年前からこのアイデアに取り組んでいる。しかし、論文誌「IEEE Micro」の次号に掲載される論文(原稿が有料で公開されている)では、このシステムがどのようなものかについて、AMDの研究者が詳しく説明している。
1エクサフロップス、つまり1000ペタフロップス以上を達成できるシステムを構築するとしたら、約10テラフロップスの性能を持つサーバを少なくとも10万台以上相互接続する必要があるだろう。さらにそのシステムは、消費電力を20MW以下にする必要がある。この観点から見ると、現在の世界最速のスーパーコンピュータは、最高で33.86ペタフロップスであり、その消費電力は18MWだ。チップのレベルでは、Intelで最速の「Xeon E5-2600v3」(開発コード名:Haswell-EP)プロセッサが0.5テラフロップス強、AMDやNVIDIAのハイエンドGPUは倍精度で約3テラフロップスの性能だ。
別の言い方をすれば、ムーアの法則だけでは、近いうちにエクサ級のスーパーコンピュータが実現することはないということだ。代わりにAMDは、32個のCPUコア(x86かARMのいずれかの命令セットを実行する)と、大型GPU(1ノードあたり10テラフロップスを達成するための力仕事の大半を行う)を組み合わせた、「Exascale Heterogeneous Processor」(EHP)を提案している。
エクサ級システムでは同時に、帯域幅の広いメモリがより多く必要になる。AMDは、同社が最新のハイエンドGPUで先駆けて開発したのと同じ、3D積層の「高帯域幅メモリー」(HBM)を使用することを提案している。このハイエンドGPU「Radeon R9 Fury X」は、1Gバイトのスタックを4つ(1スタックが2Gビットチップ4個からなる)を使用することで、512Gbpsの帯域幅を備えた、合計4GバイトのDRAMを構成している。一方、EHPについては、現在の仕様に基づき、これを8スタック(1スタックは4Gビットチップ4個からなる)に増やし、1Tbpsの帯域幅を備えた、サーバノードあたり合計16Gバイトを実現することを目指す。AMDは、多少の強化を行えば、最終的にはエクサ級の目標を満たす4Tbpsまで帯域幅を高められると考えている。
しかし、それでもまだメモリが十分ではないため、AMDは、最低でもサーバノードあたり1テラバイトという目標を達成するために、別に不揮発性メモリの層を追加している。HBMが、同じパッケージ内のシリコンインターポーザー上でプロセッサの近くにあるのとは異なり、この大型のメモリプールはパッケージの外に置かれている。それはフラッシュメモリになる可能性もあるが、抵抗変化型メモリ(RRAM)や、磁気抵抗メモリ(MRAM)、相変化メモリ、メモリスタといった、新しい形の不揮発性メモリの1つになる可能性もある。これは、IntelとMicronが先頃発表した「3D XPoint」メモリと概念の面で非常に似ている。3D XPointは、高性能コンピューティングにおける高速DRAMと高密度フラッシュメモリの間のギャップを埋めることを意図したものだ。