日本電信電話株式会社(本社:東京都千代田区、代表取締役社長:島田 明、以下「NTT」)は、IOWN構想の一環として、Red Hat、NVIDIA、および富士通の協力のもと、IOWN技術を用いて郊外型データセンタを活用したリアルタイムArtificial Intelligence(AI)分析を省電力に実現する技術を開発しました。本AI分析基盤では、IOWNオールフォトニクス・ネットワーク(All-Photonics Network、以下、APN)、およびIOWNデータセントリック基盤(Data Centric Infrastructure、以下、DCI)のデータ処理高速化手法を活用しています。本実証実験を通じ、郊外型データセンタによるAI分析において、従来の方式と比べて、遅延時間(センサ設置拠点でデータを受信してから郊外型データセンタでAI分析を完了するまでの時間)を、最大で60%削減できることを確認しました。また、郊外型データセンタにおいてカメラ毎のAI分析に要する消費電力を、最大で40%削減できることを確認しました。これらにより、AIのリアルタイム分析処理の郊外型データセンタ集約およびその省電力化が可能になります。本成果は、2024年2月29日実施予定のMWC BarcelonaでのIOWN Global Forumセッションにおいても紹介されます。
1.背景
近年のセンシング、ネットワーキング、およびAI技術の進展により、リアルタイムに生成される大規模データのAI分析による新たな価値創造が期待されています。しかしながら、大規模データのAI分析では、以下の課題が存在します。
センサ設置拠点におけるAI分析では、維持管理コストが高く、進化し続けるAIモデルやハードウエアに追従することが困難です。
クラウドといった大規模データセンタにおけるAI分析では、大規模データの収集に伴う遅延やCPUオーバヘッドにより、厳しいリアルタイム性能が求められるサービスの提供が困難です。
これらの課題に対し、エッジコンピューティングによる、センサ設置拠点近傍(一般的に、センサ設置拠点から数十km圏内)でのAI分析も議論されています。しかし、土地や電力の不足から、特に大都市圏において、多くのGPUといったアクセラレータを必要とするAI分析処理を収容できるデータセンタを見つけることが難しくなってきています。
2.実証実験の概要
本AI分析基盤では、IOWN Global Forum*1で検討されている、APNによる低遅延・ロスレス通信、ならびに、DCIにおけるデータ処理高速化手法を活用しています。これらにより、大規模データの収集に関するオーバヘッドが最小限に抑えられるため、大都市圏内に設置されたセンサからデータを収集し、郊外型データセンタでAI分析することが可能になります(図1)。特に、郊外型データセンタは、大都市圏内に設置されたデータセンタと異なり、再生可能エネルギーを最大限活用できるという利点があります。本実証実験におけるAI分析基盤の特長は、以下の通りです(図2)。
NTTによるAI推論のデータ処理高速化*2:RDMA over APNを用い、センサ設置拠点におけるセンサデータを、郊外型データセンタに設置されたアクセラレータのメモリ上に直接転送します。これにより、従来ネットワークにおけるプロトコル処理のオーバヘッドを大幅に削減します。また、CPUによる制御オーバヘッドを抑えつつ、アクセラレータ内でAI分析処理を完結させることで、その電力効率を改善しています。
Red Hat OpenShift*3による柔軟なワークロードの配備:Kubernetesベースのハイブリッドクラウド向けアプリケーションプラットフォームRed Hat OpenShiftは、GPUといったアクセラレータの複雑性を隠蔽するためのKubernetes Operator*4 の仕組みを備えます。これにより、データ処理高速化が適用されたワークロードを、郊外型データセンタをはじめとする複数サイトに、柔軟かつ容易に配備できるようになります。
(リンク »)
3.実証実験の結果
本実証実験では、横須賀市におけるセンサ設置拠点と、武蔵野市における郊外データセンタとをAPNで接続して、AI分析基盤を評価しています(図3)。横須賀市と武蔵野市間の光ファイバの距離は、およそ100kmです。センサとして多くのカメラ接続を模擬した状態で、従来のAI分析処理を適用した結果と比較した結果、本AI分析基盤では、その遅延時間(センサ設置拠点でデータを受信してから郊外型データセンタでAI分析を完了するまでの時間)を、最大で60%削減できること確認しました。また、郊外型データセンタにおいてカメラ毎のAI分析に要する消費電力を、最大で40%削減しました。加えて、本AI分析基盤は、GPUの数を増設することで、CPUボトルネックを生じさせることなく、より多くのカメラを収容できます。その結果、1,000台カメラの収容を想定した見積りにおいて、最大で60%の消費電力の削減が見込まれています。本実証実験は、IOWN Global Forumから、Proof of Concept(PoC)Reference*5に準拠したPoCとして認定されています。また、本実証実験の詳細は、IOWN Global Forumの公式サイトに掲載されているIOWN PoCレポートから確認できます。
(リンク »)
4.今後の展開
今後は、本AI分析基盤に、光電融合技術を組み合わせ、更なる電力効率の向上を図り、カーボンニュートラルの実現に向けて貢献します。また、これらの成果は、IOWNコンピューティング*6の一部として、2025年大阪・関西万博におけるNTTパビリオンに適用すると共に、2026年の商用化をめざします。
<用語解説>
*1 Innovative Optical and Wireless Network Global Forum: (リンク »)
*2 本AI分析基盤の郊外型データセンタにおけるAI推論では、NVIDIA A100 Tensor コア GPUとNVIDIA ConnectX-6 NICを搭載したFujitsu PRIMERGY RX2540 M7を利用しています。また、 データ処理高速化として NVIDIA Rivermax、nvJPEG、CV-CUDA、Unified Communication XフレームワークなどのNVIDIAのライブラリも活用しています。
*3 本実証実験では、コンテナオーケストレーションとして Red Hat OpenShift 4.13を利用しています。
*4 (リンク »)
*5 PoC Reference: Reference Implementation Model for the Area Management Security Use Case, August 2022. (リンク »)
*6 (リンク »)
お問い合わせにつきましては発表元企業までお願いいたします。