人間がするような質問を投げかけられるよう、マシンを教育する
この最新研究の目標は、提示された画像に基づいて、人間との対話を始めるきっかけとなるような質問をコンピュータに生成させることだ。
このためマシンは、画像に表示されている馬が何頭であるかといった単純な質問ではなく、より複雑な質問を尋ねる能力を備えるべきだ。
研究者らは総計1万5000枚の画像からなる3つのデータセットを用意した。次に、複数の契約作業者の手を借りて、これらの画像ごとに5つの質問を作成し、7万5000のエントリからなる質問データベースを構築した。
その後、データセットからの画像と、それに付随した質問をさまざまなニューラルネットワークに入力し、画像に関する質問の生成訓練を実施した。
こういったデータセットを用いた後、ニューラルネットワークは訓練に使用されていない画像を提示され、質問を生成するよう求められた。
マシンによって生成された質問がどれだけ人間の質問に近いのかは、人手によって評価されるとともに、BLEUのような機械翻訳評価アルゴリズムによって人間の質問と、画像ごとに機械が生成した質問の類似点が比較された。
最高の成績を収めたニューラルネットワークは、画像の説明に用いられたマルチモーダル学習を可能にした最新式のリカレントニューラルネットワークに基づいたGated Recurrent Neural Network(GRNN)だった。このシステムの改良版は、実行結果の3分の2において他のモデルよりも群を抜いて優れた成績を収めた。
カーネギーメロン大学やロチェスター大学といった教育機関からの人材を含む研究者チームは画像と質問のデータベースを公開し、人間のような質問を生成できるシステムを開発する作業をさらに推し進められるようにする計画だ。
研究者らによると、画像に写っていない概念に関する一般的知識を導き出せるようなモデルの開発が、さらなる進歩の鍵になるという。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。