海外コメンタリー

「AlphaZero」の先へ--強化学習によるロボット訓練、研究者が示した複雑さと期待

Tiernan Ray （Special to ZDNET.com）翻訳校正：石橋啓一郎

2021-03-29 06:30

　人工知能（AI）の多くは、理想化された環境で開発されている。つまり、現実世界の起伏を省略して表現したコンピューターシミュレーションだ。囲碁やチェス、テレビゲームをプレイさせることを目的として作られたDeepMindの「MuZero」や、文章を生成するために作られたOpenAIの「GPT-3」もそうだが、高度な深層学習プログラムのほとんどは、余分なものを刈り込んだ制約のセットをトレーニングに使用することで大きなメリットを受けている。

　それを考えれば、完全には予期できない現実世界のさまざまな制約を考慮しなければならないロボット工学への深層学習の応用は、この領域ではもっとも困難である一方で、ひょっとするともっとも有望な研究なのかもしれない。

　これが、カリフォルニア大学バークレー校とGoogleの研究者が、強化学習と呼ばれる技術を使って数年間にわたって行ってきたロボットの実験についてまとめたレポートの結論の1つだ。

　バークレー校の電気工学・計算機科学科助教授（Associate Professor）Sergey Levine氏は、米ZDNetとのメールでのやりとりの中で「私は一般論として、強化学習にもっとも大きな課題を突きつけるのは現実世界のタスクだと考えている。しかしそこに最大のチャンスがあるかもしれない」と述べている。

　Google Researchのロボティクス関連のプログラムのメンバーでもあるLevine氏は、2021年2月に、同僚研究者のJulian Ibarz氏、Jie Tan氏、Chelsea Finn氏、Mrinal Kalakrishnan氏、Peter Pastor氏とともに、「How to Train Your Robot with Deep Reinforcement Learning; Lessons We've Learned（ロボットを深層強化学習でトレーニングするには; われわれが学んだこと）」と題した総説論文をarXivのプレプリントサーバーで公開した。

　この論文は、Livine氏らがこの数年の間に強化学習を用いて行った実験について説明し、それらの実験がどのような困難にぶつかったかをまとめたものだ。

　それらの実験は、ロボットアームで物体をつかませて机の上のある場所から別の場所へ移動させるなどの、ロボット工学としては基本的なタスクに関するものだった。その結果、このような非常に単純なタスクにさえ、魅力的な研究課題が含まれていることが明らかになった。

　強化学習は、何十年も前から使われている機械学習のアプローチの1つだ。強化学習が使われたもっとも有名な事例は、GoogleのDeepMind部門が開発した「AlphaZero」だろう。AlphaZeroは、人間の棋譜の情報をまったく使わずに、自己対戦を繰り返すだけで世界でもトップの囲碁棋士やチェスプレイヤー、将棋棋士を破る実力を付けたことで知られている。DeepMindは、AlphaZeroを拡張して、同様のアプローチで「MuZero」を開発した。MuZeroはAtariのゲームをマスターすることもできる。

　強化学習の基本的な考え方は、取れる可能性のある行動とその結果を探索してそれをメモリーに保存しておき、価値関数と方策という2つのアルゴリズムを組み合わせて、任意の時点での次の一手を、探索した履歴の中でどの行動がもっとも有益だったかに基づいて選択するというものだ。すべての計算は、最終的に得られる報酬（例えばチェスであれば対局での勝利）に基づいて行われる。

　Levine氏らは、ロボット工学は強化学習のパラダイムにおけるもっとも基本的な前提の一部を破っていると指摘する。