正解を予め定めずに、データをグループに分類する「クラスタリング」などの手法もあり、これは「教師なし学習」と呼ばれている。例えば顧客をラベルづけする際に、購買行動の類似した顧客たちをグループにまとめる、というような手法である。どのように正解をつければよいかわからなくても適用できるが、外から正解を与えない分、分類結果を解釈するためには、注意深く読み込む必要がある。
機械学習は手段
最後に、機械学習を用いる際の注意をいくつか述べる。
当たり前のことであるが、機械学習ができるのはデータの価値を引き出すことであって、そこにない価値を生み出すことはできない。将棋の例の成功には、棋譜に対局のほとんど全てが細かく記録されており、そこにプロ棋士の思考が強く反映されていたことに重要なポイントがある。用意したデータの外に大きな要因があったり、データの粒度が荒く、見たいものが取り出せなかったりすると、いくら機械学習を用いてもうまくいかない。
それに関連して、実運用上注意を要するのが、さまざまな面でやってみなくてはわからないところがあることである。データの項目や粒度を見ただけではどのくらいの精度が出るかわからない場合がほとんどであるし、工数をどれだけ割けばどのくらい精度が上がるという見通しも非常に立てづらい。そのため、機械学習を導入するときには、関係者にそのことを理解しておいてもらうことが重要である。
本稿では、機械学習のほんの概要を述べたに過ぎない。最も伝えたかったことは、機械学習はデータの価値を引き出す手段である、ということである。データ活用の目的に対する価値を計るには機械学習をやってみるというのが、導入効果を念入りに検討するよりも良い結果を生むように筆者は感じている。
- 小副川 健(おそえかわ たけし)
- 博士(理学)。専門分野は数学、特に計算機代数学と計算科学。2012年より富士通株式会社にてデータキュレーターとしてデータ分析業務に従事。さまざまな業種業務のデータ分析を手掛けている。Data Visualization Japan運営メンバー。訳書に『とっておきの数学パズル』(共訳、2011年、日本評論社)などがある。