富士通研究所、ディープラーニングの高速化技術を開発--GPU1台比27倍の実験結果

NO BUDGET

2016-08-10 12:42

 富士通研究所は8月9日、スーパーコンピュータのソフトウェア並列化技術を応用し、複数のGPUを使ってディープラーニングの学習速度を高速化するソフトウェア技術を開発したと発表した。ディープラーニングによる研究開発期間が短縮され、より高品質な学習モデルの開発が可能になるという。富士通のAI技術「Human Centric AI Zinrai(ジンライ)」の一つとして2016年度中の実用化を目指し、ユーザーとともにAIの活用に取り組んでいく予定。また、学習速度のさらなる向上を目指して技術の改善していく。

 ディープラーニングでは大量のデータを何度も学習する必要があるため、学習の際にはCPUより高速な演算に適しているGPUが広く利用されており、さらに短時間で処理できるよう複数のGPUを並列動作させるディープラーニングソフトウェアが開発されてきている。このとき、1台のコンピュータに搭載できるGPU数の制約があることから、より多数のGPUを利用する際には、高速なネットワークで複数のコンピュータを相互接続し、データを共有しながら学習処理を進めることが必要となってくる。

 しかし、ディープラーニングの並列処理では、共有が必要となる処理単位において、共有が必要なデータ量と演算時間にばらつきがあり、加えて前の演算結果を利用しながら順に演算をすることから、並列処理におけるデータ共有が複雑になる。そのため、コンピュータ間の通信時間が余分にかかり、コンピュータの台数を増やしても、高速化の効果が得にくいという課題があった。既存の手法では、10数台を超えると並列化の効果が得られにくくなるとされている。

 これに対し今回、富士通研究所では通信と演算を同時並列に実行するというスーパーコンピュータの技術に加え、ディープラーニングの処理の順序と共有するデータサイズの特徴に合わせて処理方法を変える次の2つの技術を開発、適用した。大小さまざまな共有データサイズが含まれる場合においても、処理と処理の間の待ち時間の増加を抑えて学習処理の高速化を実現した。

 開発した技術の概要は以下の通り。

データ共有のスケジューリング技術

 連続的に続く複数の演算で、次の学習処理の開始に必要となるデータが先にそれぞれのコンピュータで共有されるように転送の優先順序を自動的に制御する。

 具体的には、従来技術(下図の左)では、次の学習処理の最初に必要となる1層のデータ共有処理が最後に行われるため、データ共有処理による遅延が長くなっているのに対し、今回の開発技術(下図の右)では、2層目のデータ共有処理途中に1層目のデータ共有処理を行うことで、次の学習処理の開始までの待ち時間を短縮する動作を実現。


データ共有のスケジューリング技術

データサイズに応じた演算最適化処理技術

 演算結果を全コンピュータで共有する処理において、元となるデータ量が少ない時は各コンピュータでデータを共有して同じ演算を実行し、結果を転送する時間を削減(下図の上段)。データ量が多い時は処理を分割し、他のコンピュータと算出した結果を共有して、後の演算で利用する(下図の下段)。データの量に応じて最適な演算方法を行うよう自動で振り分けることにより、全体の演算時間を最小化。


共有データサイズが小さい場合(上段)と大きい場合(下段)による、処理の違い

 富士通研究所では今回開発した技術を、広く用いられているオープンソースのディープラーニングフレームワーク「Caffe」に実装し、その効果を検証した。ニューラルネットのサンプルとして画像認識用多層ニューラルネット「AlexNet」を用い、GPUをそれぞれ搭載した64台のコンピュータにおける学習時間を計測したところ、GPUを1台だけ使用した場合に比べ27倍の速度を達成、コンピュータ1台では約1か月かかる学習処理を、GPUを64台並列動作させることで1日程度で処理することが可能となった。同社によると、本技術適用前と比較してGPU16台で46%、64台で71%の学習速度の向上を実現したという。

 同社では、本技術を利用することにより、ロボットや自動車などの自動制御や、医療や金融などの分野において病変分類や株価予測に独自のニューラルネットモデルを開発する場合など、ディープラーニングの研究開発時間を短縮することができ、より高品質なモデルの開発が可能になるとしている。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    「デジタル・フォレンジック」から始まるセキュリティ災禍論--活用したいIT業界の防災マニュアル

  2. 運用管理

    「無線LANがつながらない」という問い合わせにAIで対応、トラブル解決の切り札とは

  3. 運用管理

    Oracle DatabaseのAzure移行時におけるポイント、移行前に確認しておきたい障害対策

  4. 運用管理

    Google Chrome ブラウザ がセキュリティを強化、ゼロトラスト移行で高まるブラウザの重要性

  5. ビジネスアプリケーション

    技術進化でさらに発展するデータサイエンス/アナリティクス、最新の6大トレンドを解説

ZDNET Japan クイックポール

注目している大規模言語モデル(LLM)を教えてください

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]