人手では扱えないパラメータ数とデータ量
冒頭で、機械学習が大量のデータを扱う手段であるとも述べたが、これは6万局の棋譜のことだけではなく、人手では扱いきれない大量のパラメータのことも指している。一般に、機械学習を用いる場合、蓄積しているデータをそのまま使うわけではなく、「特徴抽出」と呼ばれる工程を経る。
将棋の例の場合、盤面は駒の並びの履歴、持ち駒、手番といった項目をデータとして蓄積しており、そこから各駒の枚数や位置関係などを変数として抽出する。抽出する変数の数が多いほど、パラメータの調整が難しくなるのは人手でも機械学習でも同じであり、実際将棋の1億パラメータの中には、データ不足で調整ができていないパラメータも存在すると思われる。また、調整不足以外にも、パラメータを増やしすぎることはさまざまな問題を引き起こす。
しかし一方で、複雑な事象に対処するにはパラメータの数も相応に必要になるのも確かであり、人手よりもはるかに大量のパラメータを扱えることが、機械学習の持っている重要な価値の1つであると言える。
データの価値を考えたとき、そこに溶け込んでいるものも大切であるが、それがなるべく細かい粒度で記録されていることも大切である。人間が見るために、あるいは記憶領域を節約するために、要約してデータを蓄積することもあると思うが、その場合、それによって取り出せなくなるデータの価値があるということを忘れてはならない。
機械学習には手法の区別の他に、いくつかの種類がある。ここでは比較的適用例の多い「教師あり学習」「半教師あり学習」「教師なし学習」を簡単な例とともに紹介したい。
将棋の例のように、正解と結びついたデータから法則を導きだし、正解のわからないデータに対して正解を計算する類のものを「教師あり学習」と呼ぶ。売上金額の予測問題のように、正解が数値の場合は回帰と呼ばれ、病気になるかならないかのように、カテゴリ値の場合は分類と呼ばれて、区別されてはいるが、どちらもおおよそ同じ手法を用いて解くことができる。棋譜のように、正解とデータが結びついた形で蓄積されているデータがある場合は、教師あり学習の応用がしやすいと言える。
正解がわからないデータが大量にある場合でも、人手で正解が付けられるならば、人手でいくつか正解をつけ、残りを機械学習でつけてみて、確度の高い分類結果も学習に使って学習し直していく、というやり方もあり、これは「半教師あり学習」と呼ばれている。例えば、自分に届いた電子メールを今まで1つのフォルダに溜めていただけだが、管理ができなくなってきたのでカテゴリわけすることを考えることだ。
まずはいくつかのメールを自分で分類し、それを元に機械学習で過去のメールを分類してみて、正しく分類されていたものを加えて学習し、再度分類を繰り返す、というのがこの方法である。正解を人手で付けられることという条件がつくが、蓄積したデータに正解がついていない場合でも、半教師あり学習ならば適用できる可能性があるということだ。