海外コメンタリー

DeepMindが作った平凡な性能のAI「Gato」、何がすごいのか

Tiernan Ray (Special to ZDNET.com) 翻訳校正: 石橋啓一郎

2022-05-25 06:30

 最近では、深層学習を使った人工知能(AI)のブレークスルーについてのニュースを頻繁に見かけるようになった。しかし、Alphabet傘下のDeepMindが発表した最新の成果のすごさは分かりにくい。この研究の成果を一言で要約するとすれば、「多くのタスクでそれなり仕事ができるAI」を作ったということになるだろう。

 「Gato」と名付けられた最近発表されたDeepMindのプログラムは、いわゆるマルチモーダルなAIで、テレビゲームをプレイしたり、チャットをしたり、文章を書いたり、写真にキャプションを付けたり、ブロックを積み上げるロボットアームを制御したりすることができる。Gatoは、1つのニューラルネットワークで複数の種類のデータを扱い、複数の種類のタスクを実行する能力を持っている。

Gatoにできるさまざまなタスク
DeepMindが開発したニューラルネットワーク「Gato」は、ロボットアームの操作から、Atari 2600のゲームを遊ぶこと、画像キャプションの生成まで、さまざまな仕事を行うことができる。
提供:DeepMind

 プレプリントの論文を発表するサーバー「Arxiv」に投稿された「A Generalist Agent」と題する論文で、著者のScott Reed氏らは、「Gatoは、1セットの重みで、対話を行ったり、画像にキャプションを付けたり、本物のロボットアームでブロックを積み上げたり、Atariのテレビゲームを人間よりも上手にプレイしたり、シミュレーションされた3D環境でナビゲーションを行ったり、命令に従ったりすることができる」と述べている。

 DeepMindの共同設立者であるDemis Hassabis氏は、ツイートで「私たちが作った中で最も汎用的なエージェントだ!素晴らしい成果だ!」とチームの成果を絶賛した

 残念な点があるとすれば、いくつかのタスクはそれほど得意ではないことだろう。

 Gatoは、協働ロボット「Sawyer」のアームを制御してブロックを積み上げることにかけては、専用の機械学習プログラムよりも優れている。その一方で、生成した画像のキャプションは、かなり低品質なものも多い。人間相手の標準的なチャットでの対話能力も、同様に大したことはなく、矛盾した意味不明の発言をすることもある。

 また、「Atari 2600」のテレビゲームをプレイする機能は、「Archade Learning Environment」と呼ばれるベンチマークプラットフォームで競うために設計された、専用の機械学習プログラムのほとんどに劣っている。

 DeepMindが、非常に得意な作業もあるが、大して上手ではない作業もたくさん行えるプログラムを作ったのはなぜだろうか。論文の著者によれば、先例があり、期待が持てるからだ。

 AIの分野の先例では、より汎用性が高いプログラムを作ることが最先端の取り組みになりつつある一方で、今後は利用できるコンピューティングパワーが増大するため、今ある短所は補えるようになると期待されている。

 AIの分野では、汎用性が高い方が有利になる場合がある。この論文では、AI学者であるRichard Sutton氏の「歴史的に、大規模な計算能力を利用できる汎用的なモデルは、最終的に特定の分野に特化したアプローチをも上回る傾向がある」という言葉を引用している。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

自社にとって最大のセキュリティ脅威は何ですか

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]