Amazon Web Services(AWS)は米国時間11月2日、「EC2 UltraClusters」の性能を有する「Amazon EC2 P4d」インスタンスの一般提供(GA)を開始したと発表した。
同社はこれを、クラウド上での機械学習(ML)モデルの訓練やハイパフォーマンスコンピューティング(HPC)で最高の性能を発揮する、GPU搭載インスタンスにおける次世代製品と位置付けている。
そのユースケースとしては、自然言語処理(NLP)や、オブジェクト検出/分類、建物の耐震解析、ゲノム研究などが挙げられている。
このP4dインスタンスは、最新の「Intel Cascade Lake」プロセッサーを搭載しており、最新の「NVIDIA A100 Tensor Core」GPUを8基装備し、それぞれを「NVLink」によって接続し、「NVIDIA GPUDirect」をサポートしているという特徴を有している。
またこれらインスタンスは、混合精度計算で2.5ペタフロップスの性能を実現しており、EC2インスタンス当たり320GBという高いGPUメモリー帯域幅を誇っている。
P4dインスタンスでの性能強化によりMLモデルの訓練時間がおよそ2.5倍高速化され、GPUへのメモリー追加により顧客はより大規模かつ複雑なモデルの訓練が可能になる。
AWSはプレスリリースに「AWSの『Elastic Fabric Adapter』(EFA)とNVIDIAの『GPUDirect RDMA』を用いたP4dインスタンスによって顧客は、EC2 UltraClustersの性能を有したP4dインスタンスを作り出すことができる」と記しており、次のように続けている。
「EC2 UltraClustersにより顧客は、高性能ストレージである『Amazon FSx for Lustre』が統合された、当社の設計による非ブロック型のペタビット規模のネットワークインフラを活用することで、4000基を超えるA100 GPU(中略)を利用するところにまでP4dインスタンスの規模を拡張でき、MLモデルの訓練やHPCを加速できるスーパーコンピューター並みのパフォーマンスにオンデマンドでアクセスできるようになる」(AWS)
P4dインスタンスは「AWS Nitro System」上に構築されている。
顧客は、「AWS Deep Learning Containers」とともに、「Amazon Elastic Kubernetes Service」(Amazon EKS)向けのライブラリーや「Amazon Elastic Container Service」(Amazon ECS)を用いることで、コンテナー化されたアプリケーションをP4dインスタンス上で実行できる。また顧客は、「Amazon SageMaker」を通じてP4dインスタンスの使用を完全な形で管理できるようになる。
利用可能なP4インスタンスのサイズは「p4d.24xlarge」の1種類となっている。米国東部(バージニア北部)、米国西部(オレゴン)リージョンで2日から利用可能になっている。「NVIDIA A100」ドライバーと最新のENAドライバーが必要だ。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。