はじめに
前回に続いて、2021年に公開された論文「Acquisition of Chess Knowledge in AlphaZero」を元にして、強化学習を適用したニューラルネットワークの「学習内容」を分析するという研究事例を紹介します。今回は、「学習の過程」に対する分析例を紹介します。
自己対戦による学習
前回までは強化学習による学習処理が終わった状態のニューラルネットワークを分析してきました。今回は、学習の過程において、機械学習モデルが習得した知識がどのように変化するかを分析します。この論文では、第123回の記事の図1に示した機械学習モデルを用いていますが、このモデルには多数のパラメーターが含まれており、学習データを用いてこれらのパラメーターをチューニングしていくことになります。この際、人間のプレイヤーが対戦した際の棋譜データを学習データとすることも可能ですが、AlphaZeroでは、このような棋譜データは使用しません。学習対象の機械学習モデル同士を自動対戦させることで得られた棋譜データを用いて学習を行います。機械学習モデルに含まれるパラメーターは乱数で初期化されるため、学習の初期においてはお互いに出鱈目な手を打ち合うため、まともな棋譜データにはなりませんが、それでも何らかの形で勝敗は決定します。そのようにして得られた棋譜データを用いることで、「何をすれば勝てるのか」「何をすれば負けるのか」ということを少しづつ学んでいきます。学習が進むにつれて徐々に「まともな手」を打てるようになるので、自動対戦で得られる棋譜データの品質がよくなり、さらに学習が進むものと期待ができます。
この続きは以下をご覧ください
(リンク »)
お問い合わせにつきましては発表元企業までお願いいたします。