海外コメンタリー

「世界は途方もないGPUを求めている」--AI分野のリード拡大を目指すNVIDIA - (page 2)

John Morris （Special to ZDNET.com）翻訳校正：石橋啓一郎

2018-04-02 06:30

　この要求に対するNVIDIAの答えが、32GバイトのHBM2メモリを持つ新型Tesla V100を16基搭載し（合計でCUDAコア8万1920基、HSB2メモリ512Gバイト）、新型の高速スイッチで接続した新サーバ「DGX-2」だ。DGX-2は、2基の「Intel Xeon Platinum」と、1.5テラバイトのシステムメモリ、30テラバイトのNVMe SSDストレージ、InfiniBand EDR、100Gbpsのイーサネット接続を備えている。ピーク性能は深層学習（Tensorコアを使用）の場合で2ペタフロップスであり、Pascalベースの初代「DGX-1」の170テラフロップスや、Volta版DGX-1の960テラフロップスに比べ、格段に高速になった。AlexNetのモデルでは、2つの「Geforce GTX 580」を使用して、トレーニングに6日間かかったが、DGX-2では18分しかかからない。別の極端な例としては、機械翻訳のためのFacebookのfairseqモデルはトレーニングに15日を必要としたが、DGX-2を使えば1日半で終了する可能性がある。DGX-2の価格は40万ドル（約4300万円）で、2018年第3四半期に発売される予定だ。

　また、AIのシステムとソフトウェアの複雑さが増大したことで、これらをクラウドでサービスとして提供する必要性が高まっている。「NVIDIA GPU Cloud」（NGC）は、特定のワークロードをオンプレミスのDGXシステムやクラウドで実行するために必要な、ソフトウェアのコンテナを提供するレジストリだ。NVIDIAは今回のGTCで、現在のNGCでは、30種類の最適化されたGPU対応コンテナが利用できるようになっており、AWSだけでなく、「Google Cloud Platform」「AliCloud」「Oracle Cloud」でも利用できるようになったと発表した。

　同社はまた、深層学習の推論をGPUに合わせて最適化し、トレーニングされたモデルをデータセンターのNVIDIA製GPUで実行するためのランタイム「TensorRT」の最新版を発表した。この「TensorRT 4」では、RNN、音声認識フレームワーク「Kaldi」向けの最適化、「Open Neural Network Exchange」（ONNX）（「Caffe」「PyTorch」「MXNet」「Microsoft Cognitive Toolkit」や「WindowsML」などのフレームワーク間の相互運用を可能にするプロジェクト）が新たにサポートされた。NVIDIAによれば、TensorRT 4では画像や映像に関するパフォーマンスを最大190倍、自然言語処理を最大50倍、音声認識を最大60倍、音声合成を最大36倍、協調フィルタリングを用いたレコメンデーションエンジンを最大45倍高速化できるという。

　クラウドに関する発表の中でも、もっとも重要だったかもしれないのが、コンテナ化されたアプリケーションの展開と管理を行うオープンソースソフトウェアである「Kubernetes」のサポートだ。NVIDIAは、花の画像を分類するモデルを使って印象的なデモを行った。CPU 1基だけを使った場合、1秒当たり4輪の花の種類を分類できたが、NVIDIAのGPUクラスタ「Saturn V」を使った場合、1秒当たりに識別できた花の数は873輪だった。ところが、コンテナのレプリカを追加してシステムをスケーリングできる「Kubernetes Load Balancer」を使ったデモでは、1秒当たり7000輪近い花を処理できた。この仕組みは、複数のクラウドをまたいで利用することもできる。デモでは、Saturn V上のいくつかのレプリカをシャットダウンして、それらの処理が自動的にAWSのGPUインスタンスに切り替えられ、高いパフォーマンス水準を保ったまま実行が継続されるところも見ることができた。