編集部からのお知らせ
宇宙ビジネスの記事まとめダウンロード
記事まとめ「テレワーク常態化で見えたこと」
海外コメンタリー

「AlphaZero」の先へ--強化学習によるロボット訓練、研究者が示した複雑さと期待

Tiernan Ray (Special to ZDNet.com) 翻訳校正: 石橋啓一郎

2021-03-29 06:30

 人工知能(AI)の多くは、理想化された環境で開発されている。つまり、現実世界の起伏を省略して表現したコンピューターシミュレーションだ。囲碁やチェス、テレビゲームをプレイさせることを目的として作られたDeepMindの「MuZero」や、文章を生成するために作られたOpenAIの「GPT-3」もそうだが、高度な深層学習プログラムのほとんどは、余分なものを刈り込んだ制約のセットをトレーニングに使用することで大きなメリットを受けている。

キャプション

 それを考えれば、完全には予期できない現実世界のさまざまな制約を考慮しなければならないロボット工学への深層学習の応用は、この領域ではもっとも困難である一方で、ひょっとするともっとも有望な研究なのかもしれない。

 これが、カリフォルニア大学バークレー校とGoogleの研究者が、強化学習と呼ばれる技術を使って数年間にわたって行ってきたロボットの実験についてまとめたレポートの結論の1つだ。

 バークレー校の電気工学・計算機科学科助教授(Associate Professor)Sergey Levine氏は、米ZDNetとのメールでのやりとりの中で「私は一般論として、強化学習にもっとも大きな課題を突きつけるのは現実世界のタスクだと考えている。しかしそこに最大のチャンスがあるかもしれない」と述べている。

 Google Researchのロボティクス関連のプログラムのメンバーでもあるLevine氏は、2021年2月に、同僚研究者のJulian Ibarz氏、Jie Tan氏、Chelsea Finn氏、Mrinal Kalakrishnan氏、Peter Pastor氏とともに、「How to Train Your Robot with Deep Reinforcement Learning; Lessons We've Learned(ロボットを深層強化学習でトレーニングするには; われわれが学んだこと)」と題した総説論文をarXivのプレプリントサーバーで公開した

 この論文は、Livine氏らがこの数年の間に強化学習を用いて行った実験について説明し、それらの実験がどのような困難にぶつかったかをまとめたものだ。

 それらの実験は、ロボットアームで物体をつかませて机の上のある場所から別の場所へ移動させるなどの、ロボット工学としては基本的なタスクに関するものだった。その結果、このような非常に単純なタスクにさえ、魅力的な研究課題が含まれていることが明らかになった。

 強化学習は、何十年も前から使われている機械学習のアプローチの1つだ。強化学習が使われたもっとも有名な事例は、GoogleのDeepMind部門が開発した「AlphaZero」だろう。AlphaZeroは、人間の棋譜の情報をまったく使わずに、自己対戦を繰り返すだけで世界でもトップの囲碁棋士やチェスプレイヤー、将棋棋士を破る実力を付けたことで知られている。DeepMindは、AlphaZeroを拡張して、同様のアプローチで「MuZero」を開発した。MuZeroはAtariのゲームをマスターすることもできる。

 強化学習の基本的な考え方は、取れる可能性のある行動とその結果を探索してそれをメモリーに保存しておき、価値関数と方策という2つのアルゴリズムを組み合わせて、任意の時点での次の一手を、探索した履歴の中でどの行動がもっとも有益だったかに基づいて選択するというものだ。すべての計算は、最終的に得られる報酬(例えばチェスであれば対局での勝利)に基づいて行われる。

 Levine氏らは、ロボット工学は強化学習のパラダイムにおけるもっとも基本的な前提の一部を破っていると指摘する。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

特集

CIO

モバイル

セキュリティ

スペシャル

ホワイトペーパー

新着

ランキング

  1. クラウドコンピューティング

    MITスローン編著、経営層向けガイド「AIと機械学習の重要性」日本語版

  2. クラウドコンピューティング

    AWS提供! 機械学習でビジネスの成功を掴むためのエグゼクティブ向けプレイブック

  3. クラウドコンピューティング

    DX実現の鍵は「深層学習を用いたアプリ開発の高度化」 最適な導入アプローチをIDCが提言

  4. セキュリティ

    ランサムウェアを阻止するための10のベストプラクティス、エンドポイント保護編

  5. セキュリティ

    テレワークで急増、リモートデスクトップ経由のサイバー脅威、実態と対策とは

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNet Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]