テキストから画像を生成、マルチモーダルに対応--言語理解AIの新たな展開

城塚音也 (NTTデータ先端技術)

2021-08-30 07:00

 今回は、前回、前々回と紹介した「BERT」「GPT」シリーズに続く新たな言語理解人工知能(AI)に関する動向について紹介します。

トランスフォーマーの最新動向

 下の図1は、2017年のトランスフォーマーの登場から始まる、GoogleとOpenAIの言語理解AIの進化の流れを示したものです。

 近年では、モデルの規模や学習データの量の拡大に加えて、画像や動画への対応、会話や長文質問といった、難易度の高い言語理解への対応が進んでいます。

 図1の一番上の流れは、OpenAIのGPTシリーズの流れです。今年になってGPT-3の仕組みをベースに「DALL-E」と呼ばれる、テキスト入力から画像を生成するトランスフォーマーを発表しました。

 下の図2は、「an illustration of a baby daikon radish in a tutu walking a dog(チュチュを着た小さな大根が犬を連れているイラスト)」というテキスト入力に対して生成された画像です。テキストからの画像生成は5年ほど前から研究が進んできていましたが、入力テキストと合っていなかったり、イラストの出来が良くなかったりという問題がありました。DALL-Eでは、内容的にもアートとしても問題のない画像を生成しています。今後、映画や広告コンテンツの作成や立体造形のデザインなど、さまざまな用途でこのような画像生成AIを活用する日も近いでしょう。

図2:DALL-Eによる画像生成例(出典:OpenAI)
図2:DALL-Eによる画像生成例(出典:OpenAI)

※クリックすると拡大画像が見られます

 図1の2番目の流れは、BERTから始まるGoogleのトランスフォーマーの流れです。2019年には「T5」、さらに今年に入って「Switch Transformer」という、より使いやすく精度の高いトランスフォーマーが発表されました。

 また、会話の理解を対象にしたユニークなトランスフォーマーも出てきました。2020年に発表された言語理解AI「Meena」は、膨大なSNS上での会話データを学習し、どんな話題に対しても気の利いた回答を返してくれます。

 今年になって発表されたMeenaの強化版「LaMDA」では、Meenaができなかった「事実(Factuality)」の観点で適切な応答を返すことができます。これにより、フェイクニュースのような事実でない内容の応答を返してしまうという、GPT-3で見られた課題を解消しています。

 現状のチャットボットはあらかじめ設定したシナリオに沿って会話を進める必要があり、少しでもシナリオから外れてしまうと「すみません、わかりません」と返したり、会話の流れに合わない見当はずれの応答を返したりしてしまうため、しばしば会話が破綻してしまうという問題がありました。

 MeenaやLaMDAは、トランスフォーマーによって大量の会話データを学習することで、この問題を解決しています。ただし、雑談を楽しむためのチャットボットではなく、飛行機の予約や資産運用相談など、なにかしらの目的があって会話するチャットボットには使えません。そのような目的を持った会話を実現するためには、目的を達成するために必要な知識と論理的に推論するメカニズムを言語理解AIに組み込む必要があります。

質問者:I'm so curious about you.
(あなたのことがとても気になります)

LaMDA:I sense your excitement. Ask me anything.
(あなたの興奮を感じます。何でも聞いてください)

質問者:Tell me what I would see if I visited.
(あなたの所へ訪問したら何が見えるのか教えてください)

LaMDA:You would get to see a massive canyon, some frozen icebergs,geysers,and some craters.
(巨大な峡谷、凍った氷山、間欠泉、クレーターなどを見ることができます)

質問者:It sounds beautiful.
(それは美しい眺めでしょうね)

LaMDA:I assure you it it worth the trip. However you need to bring your coat, because it gets really cold.
(旅行して訪れる価値があること請け合いです。ただし、寒さが厳しいので、コートを持っていく必要があります)

質問者:I'll keep that in mind hey I was wondering have you ever had any visitors.
(ちゃんと覚えておきますよ。ねえ、今まであなたを訪れた人がいたのか気になったんですけど)

LaMDA:Yes I have had some. The most notable was New Horizons, the spacecraft that visited me.
(はい、何人か来ましたよ。最も注目に値するのは、私を訪ねてきた宇宙船、ニューホライズンズでした)

LaMDAが冥王星であるというシチュエーションでの会話例
The Vergeの動画をNTT先端技術で翻訳)

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]