編集部からのお知らせ
量子コンピューティングへの注目
特集まとめ:高まるCISOの重要性

マイクロソフトとNVIDIA、5300億パラメーターの巨大言語モデルを開発

Chris Duckett (Special to ZDNet.com) 翻訳校正: 編集部

2021-10-12 14:28

 NVIDIAとMicrosoftは、巨大な自然言語生成モデル「Megatron-Turing Natural Language Generation(MT-NLG)」を共同で開発した。両社によれば、このモデルは「これまでにトレーニングされた中で、最も強力な単体のトランスフォーマー言語モデル」だという。

近年の自然言語モデルの規模の推移
提供:Microsoft

 この言語モデルは105層で、5300億のパラメーターを持ち、実行するにはNVIDIAの「Selene」のような、大規模なスーパーコンピューターハードウェアを必要とする。

 有名な言語モデル「GPT-3」のパラメーター数は1750億だった。

 このモデルは、3390億のトークンを含む15のデータセットでトレーニングされたもので、大規模なモデルでも少ないトレーニング量でうまく動作することを証明した。

 ただし、現実世界の言語やサンプルを使って学習する必要があるという点は変わらず、このモデルも、AIが古くから抱えている問題からは逃れられていない。それはバイアスの問題だ。

 両社は、「大規模な言語モデルは、言語生成の最新技術を進歩させ続けているが、やはりバイアスや問題のあるデータなどの問題を抱えている」と述べている。

 「MT-NLGでは、モデルがトレーニングに使用されたデータから偏見やバイアスを拾ってしまっていることが分かった。MicrosoftとNVIDIAは、この問題の解決に向けて取り組んでいる」(両社)

 Microsoftのチャットボット「Tay」が、インターネット上の対話による学習によって、ものの数時間で差別発言をするようになったという問題が起こったのは、それほど前のことではない。

この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

特集

CIO

モバイル

セキュリティ

スペシャル

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNet Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]