Googleのロボットアームは、平らな表面に置かれた物であれば、それがどのような形をしていても82%の確率でつかむことができる。
人間にとって、物をつかむという動作は子どもでも簡単にできる。生まれたばかりの赤ん坊であっても、手の平に触れた指を反射的に握る。その能力は時とともに、そして視力の助けを借りて成長し、最終的にはさまざまな物を、その形にあわせて的確につかめるようになる。
Googleは現在、機械学習技術を活用し、人間が手と目を連携させて物をつかむ際のフィードバック過程を模倣することで、複数のロボットアームに日用品をつかむ動作を教え込もうとしている。
人間は、テニスのサーブや、皿洗いといった動作における微妙な筋肉の動きを、こういったフィードバック過程を経て実現しているのだ。
Googleによると、このフィードバック機構を実現した結果、ロボットアームは物をつかむ際に「自らのグリッパー(指に相当するパーツ)を観察」し、自身の動作を補正できるようになっているという。
Googleの科学者であるSergey Levine氏によって率いられた研究チームによると、現代のロボットアームは一般的に、状況を観察し、モデルを作成し、計画を立案し、実行するようになっているが、この手法では現実世界の複雑な環境には対応できないという。
そこでGoogleの研究者らは、より人間に近いフィードバック機構を実現するために、アームの部分にカメラを装備した14台のロボットアームを用意した。それぞれのロボットアームは、自らの失敗事例や成功事例を他のロボットアームと共有するようになっている。
ロボットアームの培った「経験」はその後、畳み込みニューラルネットワーク(CNN)を用いたフィードバックシステムを訓練するために用いられる。CNNは最近脚光を浴びている機械学習の一分野だ。
日々培った経験をCNNに与えていくことで、ロボットアームはつかむという動作が成功する確率を、カメラの映像やグリッパーの動きに基づいてより正確に判断できるようになる。また、成功する可能性を最大限に高めるための調整も行えるようになる。
訓練は2カ月以上にわたり、80万回以上におよぶ試行によって訓練データが収集された。
Google ResearchのLevine氏は主な成果の1つとして、ロボットの動きを最適化するためのプログラミングが不要であった点を挙げている。
「その成果は継続的なフィードバックだ。これは手と目の連携(hand-eye coordination)とも呼べるだろう」(Levine氏)
また同氏は「ロボットは自らのグリッパーの動きを観察し、リアルタイムで動きを補正する。また興味深いことに、重なり合った物体から1つの対象物を特定するために行う、事前動作も見せるようになった。こういった振る舞いはすべて、プログラムとしてシステムに指示しておいたものではなく、学習過程で自然に生み出されたものだ」とも述べている。
Googleは今回のアプローチの効果を検証するために、リアルタイムでの動きの補正を行わない開ループ制御での実験も行った。その結果、失敗の比率は34%となり、今回のアプローチで達成できた18%の失敗率との間に大きな差があることを確認できた。
また同社の研究報告書によると、今回の学習環境とは異なる、平らでない表面や狭い空間に置かれている物体をつかむことは難しいという。
しかし研究者らは、ロボットアームが固い物体と柔らかい物体で異なったつかみ方をする傾向を見せている点に満足している。ロボットアームは、固い物体に対してはつかむという動作を見せた一方で、紙状の薄い物体やスポンジに対してはつまむという動作を見せていたという。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。