マサチューセッツ工科大学(MIT)の研究者らは、写真の中で何が起こっているのかを読み取り、次に何が起こるのかを予測するという深層学習システムを開発した。
MITの機械学習研究者が開発したシステムは、静止画にアニメーションを加えることで近い将来にこうなりそうだという考えを示す。例えば波は最終的にはじける、人が野原で動く、電車が線路を前に進むといったことだ。
この取り組みは、現実の世界でどのようにオブジェクトが動くのかを機械が理解できるようにすることで、今後のコンピュータービジョン研究の新たな方向性を示す可能性がある。
研究チームは、ディープネットワークに数千時間分のラベルのない(タグのない)動画によるトレーニングを行うことで目標に到達した。研究者が述べているように、動画に注釈をつけるには費用がかかるが、ラベルのない動画は無数にあり、機械が世界についてのシグナルを読むトレーニングに利用できる。
機械学習とコンピュータビジョンを専門とするMITの博士課程学生Carl Vondrick氏はNew Scientistに、場面で動きを予測できるようになれば、将来、家庭で使われるヘルパーロボットが人の支障にならないようになるだろうと語っている。例えば、人が椅子に腰掛けようとした時にロボットがその椅子を引っ込めてほしくないはずだ。
このモデルはゴルフコースやビーチ、電車の駅、赤ちゃんのいる病室という4種類のシーンなどFlickrからの200万件の動画を使って訓練されたという。また、敵対的ネットワークという手法が用いられている。
New Scientistが指摘するように、現時点ではモデルが生成する動画は画質が粗く、約1秒程度と短い。しかし、電車が前に動く、赤ちゃんが顔をくしゃくしゃにするといったシーンの適切な動きを示すものとなっているという。
もちろん、モデルは世界がどのように動いているのかについてまだ学習の余地がある。例えば電車はある場面から無限に出発を繰り返すのではなく、その場面から出ていくはずだ。それでも、機械が起こりそうな簡単な未来について考え出すよう教えることが可能だということを示すものとなった。

提供:MIT
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。