Facebookは米国時間3月8日、カリフォルニア州サンタクララで開催中の「OCP U.S. Summit 2017」で、ディープラーニングに特化した最新のGPUサーバ「Big Basin」を披露した。Big Basinの設計は、その前身である「Big Sur」と同様、「Open Compute Project」を通じてオープンソース化される。
Big Basinは、Big Surと比べると機械学習モデルの規模を30%大きなものにできるという。これには、メモリを12Gバイトから16Gバイトに増強した点と、算術演算のスループットを向上させた点が寄与している。
FacebookのテクニカルプログラムマネージャーであるKevin Lee氏は今回のOCP Summitに先立ち、米ZDNetに対して「われわれは現在、写真に写っている人やものを認識するために人工知能(AI)を利用している」と述べたうえで、「Facebookのユーザーであれば、Big Surによって訓練されたAIモデルを使っている可能性が高い」と説明した。また、「より複雑なAIモデルを訓練するためのより優れたコンピューティング性能を提供し、われわれのニーズに適合する新たなサーバを作り上げることが目的だ」とも語った。
これらの取り組みをさらに進めるために、Lee氏のチームはBig Surを強化するためのフィードバックを他のFacebookチーム、すなわちApplied Machine Learning(AML)と、Facebook AI Research(FAIR)、インフラチームに求めた。
機能強化はまず、GPUをよりパワフルなものにするところから始まった。Big Basinは「NVIDIA Tesla P100」GPUアクセラレータを8基搭載している。また、GPU間でより多くのデータをやり取りできるよう、NVIDIAの高速GPUインターコネクト「NVIDIA NVLink」(CPUとGPUの間で高速通信を実現するための仕組み)も採用している。
さらにBig BasinはBig Surとは異なり、モジュール型の分離設計を採用している。これによりさまざまなハードウェアコンポーネントやソフトウェアコンポーネントを個別にスケールアップできるようになる。また、この設計により保守性も向上する。アクセラレータトレイと内部シャーシ、外部シャーシを分割することで、保守作業が容易になり、ダウンタイムも短縮できる。そして、システム内に取り込んだ冷たい空気の通り道近くにGPUを配置し、熱効率の向上も図っている。
Lee氏によると、設計をオープンソース化することで同社は、複雑なAIシステムを構築するうえでのさらなる改善と、より規模の大きなコラボレーションを醸成していきたいと考えているという。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。