提供:DeepMind
Google傘下のDeepMindは米国時間10月18日、囲碁AI「AlphaGo」をさらに進化させた「AlphaGo Zero」を発表した。新たな学習方法により短時間で進化し、わずか3日間の学習で100対0という圧倒的な差で従来のAlphaGoを破るに至ったという。
AlphaGoは2016年、トップ棋士の1人である李世ドル氏に勝利したことで話題となり、2017年5月には「世界最強」とされる中国の囲碁棋士、柯潔氏に3連勝した後、囲碁対局から引退していた。AlphaGoはその後も進化しており、さらに強力となった「Master」バージョンが存在しているが、AlphaGo Zeroは40日後にこのバージョンも追い抜いたという。
DeepMindによると、従来のAlphaGoは、まずアマチュアやプロの棋士による何千もの対局を基に訓練され、囲碁の打ち方を学習する。AlphaGo Zeroはこの手順を飛ばして、自分自身との対局のみで学習するという。最初の段階では完全に行き当たりばったりの対局となるが、この学習方法により、短時間で人間の棋士やAlphaGoを凌駕することが可能になった。
自らが自らの教師になるという斬新な強化学習方法により、これを実現できたとDeepMindは述べている。同社によると、このシステムは、囲碁について何も知らないニューラルネットワークから始まり、その後、強力な検索アルゴリズムと組み合わせることで、自分自身と対局する。対局を通して調整やアップデートを重ね、相手の打つ手、さらに対局の最終的な勝者も予測できるようになるという。
人間の知識の限界によって抑制されないという点で、この手法はAlphaGoの手法より強力だとDeepMindは述べている。