グーグルとUCLA、回答までの手順を計画して自律的に調べ物をするAIを開発

Tiernan Ray （Special to ZDNET.com）翻訳校正：石橋啓一郎

2023-09-07 06:30

　人工知能（AI）のプログラムは、どのようなクエリーに対しても答えを生成できることで人々を驚かせてきた。しかし「ChatGPT」のようなプログラムは、単にテキスト入力に反応するだけであり、特にその主題について根拠を持って答えているわけではないため回答の質が低いことも多く、その結果まったくのウソを生み出すこともある。

Googleの「AVIS」は、写真の物体を特定し、それからその物体に関する情報を調べるといった、調べ物のステップを動的に選択することができる。
提供：UCLA、Google

　しかし、カリフォルニア大学とGoogleが最近行った研究プロジェクトでは、ChatGPTのような大規模な言語モデルが、ウェブ検索や光学文字認識（OCR）などのツールを選んで利用し、別の情報源から追加情報を得ながら、いくつかのステップを踏んで答えを出せる仕組みを作った。

　その結果、原始的な形の「計画」と「推論」が可能になった。プログラムがその都度、ある問題にどのように取り組むべきかを決め、その結果が出たら、その解決策が満足できるものだったかどうかを判断していく仕組みだ。

　カリフォルニア大学ロサンゼルス校（UCLA）のZiniu Hu氏らとGoogle Researchの共同研究者が手掛けた「AVIS」（Autonomous Visual Information Seeking with Large Language Models）と呼ばれるこの取り組みに関する論文は、プレプリントサーバーであるarXivに投稿された。

　AVISは、Googleの大規模言語モデルである「PaLM」（Pathways Language Model）をベースに構築されたシステムだ。PaLMからは、生成AIに関するさまざまなアプローチや実験に合わせていろいろなバージョンのモデルが生み出されている。

　最近の研究には、機械学習プログラムを、単に次の単語を予測するだけでなく、より幅広い行為を行うことができる「エージェント」に変えることを目指すものが多いが、AVISもその1つだと言える。同様の研究には、2023年に入って発表された「AIを使用したタスク管理システム」である「BabyAGI」や、Googleの研究者が同年発表した、ロボットに物理空間の中で行う一連の動作を指示できる「PaLM-E」などがある。

　AVISプログラムの画期的な点は、BabyAGIやPaLM-Eとは違って、あらかじめ設定された行動指針に従うわけではないということだ。その代わり、「Planner」と呼ばれるアルゴリズムを使って、状況に応じてその場で行動を選択する。これらの選択肢は、言語モデルがプロンプトとして与えられたテキストを評価して、最初に与えられた問題をサブ問題に分解し、それらのサブ問題を一連の選択可能なアクションと関連付けることによって生成される。