OpenAIの「ChatGPT」は、自然言語でのプロンプトに対して明快なテキストを返すだけでなく、人間とロボットの間のやり取りで役割を担ったり、センサーからのフィードバックを用いてロボットの行動を制御するコードを記述したりすることもできる。
提供:Prostock-Studio/Getty Images
Microsoftは、「ChatGPTがテキストの世界を超えて思考し、物理世界について推論してロボットのタスクを支援できるかどうかを考察する」ためのリサーチを最近実施したと、同社ウェブページで明らかにした。その目的は、プログラミング言語の知識やロボティクスシステムの理解がなくとも、ChatGPTを用いてロボットに指示を与えられるかどうかを見極めるというものだ。
Microsoftの自律システムおよびロボティクスグループ(ASRG)の研究チームは、「ここでの重要な課題はChatGPTに、物理法則や、稼働環境のコンテキスト、ロボットの物理的なアクションによって環境の状態がどのように変化するかを考慮させつつ、問題を解決する方法を教えることだ」と記している。
同社の研究者らは、ChatGPTがアプリケーションインターフェース(API)を介して物体検出機能や物体間の距離データにアクセスできるようにした上で、ゼロショットでの計画(転移学習時に新領域での学習をさせずに計画させること)やコード生成といったロボティクス分野のシナリオにおけるChatGPTのコード生成能力を探求した。なお、コード生成には主にPythonが用いられた。
ChatGPTは大量のコードとテキストを用いて訓練されているため、コードを作り出せる。また、対話に答えたり明確化を求めたりするといった類まれな能力を使って、コーディングにまつわる問題を解決したり、プログラムをデバッグしたりする能力があることを実証している。こういった言語処理能力を有するモデルとして他に、GitHubのペアプログラミングサービスである「GitHub Copilot」の原動力となっている、OpenAIの「GPT-3」をベースにした「OpenAI Codex」もある。Codexもさまざまな言語でコードの自動補完を行える。
Microsoftはこういった対話能力と明確化能力を念頭に置き、技術的な知識のないユーザーがドローンに指示を与える際の、言語ベースのインターフェースとしてのChatGPTを評価した。研究者らが論文に記しているように、GPT-3と「LaMDA」、Codexはロボティクスプランニングとコード生成というタスクにおいて有望であり、特にChatGPTは「自然言語とコード生成というモデルの長所とともに、対話の柔軟性を取り入れている点でロボティクス分野でのより高い汎用性を秘めている」という。
研究者らは、「ChatGPTはユーザーの指示があいまいな場合、明確にするため質問した上で、ドローンが棚に置かれている物体を視認できるようジグザグに飛行するパターンを設定するといった複雑な構造のコードを記述した」とも記している。
またMicrosoftは、対話を通じてChatGPTがロボットアームを制御して色のついたブロックを動かし、Microsoftのロゴ通りに並べるというタスクの評価も実施した。
この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。