NTT、車からの景色を基に雑談する対話AI開発--運転者のパートナーへ

大場みのり（編集部）

2022-05-30 16:10

　NTTは5月30日、移り変わる車からの景色を話題に、パートナーのように知識を提供したり共感したりする対話型の人工知能（AI）技術を開発したと発表した。

　同社によると大半の対話システムでは、話者の発話から得られるテキスト情報のみを入力し、周囲の画像や位置などの情報は取り込めないことが課題になっていたという。今回開発したAIでは、ドライブ中の対話／周辺情報データを用いて、NTTが構築した深層学習に基づく大規模テキスト対話モデルを追加学習する。これにより、景色として見える画像情報とそれに関連する外部知識に基づいて自然な対話が可能になるという。

　同社は今後、このAIをドライブ時のパートナーにすることを目指し、日々繰り返される対話への適用や、居眠り／漫然運転の防止に向けた実証実験を行う。

開発されたAIとの対話例

　NTTは、対話を通して人の興味や思考を引き出したり欲求を満たしたりする「雑談対話AI」の開発に取り組んでいる。だが、従来の対話型AIの課題として、入力できる情報がテキストのみに限られている点がある。AIがコミュニケーションのパートナーになるには、ユーザーを取り巻く状況を理解して対話に取り込むことが求められる。今回同社が開発したAIは、ユーザーの位置が常に変化する状況のもと、周囲の景色やそこにひも付く情報に基づいて雑談を行う。

　同社は、ウェブ上／リアルでの対話データと深層学習技術を組み合わせることで、日本語で最大規模の対話モデルを構築したという。構築された対話モデルは、ルールや統計情報に基づく従来のものと比べ、複雑な文脈の理解や自然な発話の生成が可能で、雑談AIの性能を競うイベント「対話システムライブコンペティション3」でも優勝している。また、対話モデル／データを無償公開し、幅広い場面で検証を進めている。

　同社は、移り変わる景色などの情報をAIとの対話に反映させるため、画像内の物体情報とユーザーの位置周辺のスポット情報を対話モデルに導入する技術を開発した。画像内に写っている物体群は、物体検出という技術で抜き出し、それぞれを対話モデルで扱える数値情報に変換して入力する。スポット情報については、レストランなどユーザーの近くにある物に関する情報をテキスト形式で取り出し、対話の文脈と同様の形式で入力する。対話モデルは、これらの入力情報に基づいて対話AIの発話を出力する。

　このように設計したモデルを、ドライブ対話データ（運転画像を見ながらガイド／ドライバー役の間で行った対話）で学習することで、ユーザーの位置周辺の景色画像やスポット情報に基づく発話生成を可能にした。

　対話型のAIは、ユーザーがどの時点の画像やスポットの情報を話題にしているのかを理解しつつ、新たに入力された情報にも適切なタイミングで触れて対話する必要がある。今回は、対話の文脈を基に話題にしている画像を割り出したり、随時入力される画像に対する発話の話題強度を推定したりする技術を開発し、それらを適切にタイミング制御へ組み込むことで、こうした課題を解決した。ユーザーの発話に自然に応じながら、興味を引きそうな情報を適切なタイミングで提供するという。