最近では、深層学習を使った人工知能(AI)のブレークスルーについてのニュースを頻繁に見かけるようになった。しかし、Alphabet傘下のDeepMindが発表した最新の成果のすごさは分かりにくい。この研究の成果を一言で要約するとすれば、「多くのタスクでそれなり仕事ができるAI」を作ったということになるだろう。
「Gato」と名付けられた最近発表されたDeepMindのプログラムは、いわゆるマルチモーダルなAIで、テレビゲームをプレイしたり、チャットをしたり、文章を書いたり、写真にキャプションを付けたり、ブロックを積み上げるロボットアームを制御したりすることができる。Gatoは、1つのニューラルネットワークで複数の種類のデータを扱い、複数の種類のタスクを実行する能力を持っている。
DeepMindが開発したニューラルネットワーク「Gato」は、ロボットアームの操作から、Atari 2600のゲームを遊ぶこと、画像キャプションの生成まで、さまざまな仕事を行うことができる。
提供:DeepMind
プレプリントの論文を発表するサーバー「Arxiv」に投稿された「A Generalist Agent」と題する論文で、著者のScott Reed氏らは、「Gatoは、1セットの重みで、対話を行ったり、画像にキャプションを付けたり、本物のロボットアームでブロックを積み上げたり、Atariのテレビゲームを人間よりも上手にプレイしたり、シミュレーションされた3D環境でナビゲーションを行ったり、命令に従ったりすることができる」と述べている。
DeepMindの共同設立者であるDemis Hassabis氏は、ツイートで「私たちが作った中で最も汎用的なエージェントだ!素晴らしい成果だ!」とチームの成果を絶賛した。
残念な点があるとすれば、いくつかのタスクはそれほど得意ではないことだろう。
Gatoは、協働ロボット「Sawyer」のアームを制御してブロックを積み上げることにかけては、専用の機械学習プログラムよりも優れている。その一方で、生成した画像のキャプションは、かなり低品質なものも多い。人間相手の標準的なチャットでの対話能力も、同様に大したことはなく、矛盾した意味不明の発言をすることもある。
また、「Atari 2600」のテレビゲームをプレイする機能は、「Archade Learning Environment」と呼ばれるベンチマークプラットフォームで競うために設計された、専用の機械学習プログラムのほとんどに劣っている。
DeepMindが、非常に得意な作業もあるが、大して上手ではない作業もたくさん行えるプログラムを作ったのはなぜだろうか。論文の著者によれば、先例があり、期待が持てるからだ。
AIの分野の先例では、より汎用性が高いプログラムを作ることが最先端の取り組みになりつつある一方で、今後は利用できるコンピューティングパワーが増大するため、今ある短所は補えるようになると期待されている。
AIの分野では、汎用性が高い方が有利になる場合がある。この論文では、AI学者であるRichard Sutton氏の「歴史的に、大規模な計算能力を利用できる汎用的なモデルは、最終的に特定の分野に特化したアプローチをも上回る傾向がある」という言葉を引用している。