機械学習の基本はパターン認識
「機械学習をさせる」とは一体どういうことでしょうか。機械学習は、ほぼ同義語として「パターン認識」と呼ばれることがあります。学習からアウトプットまでの流れは、概ね以下のようになります。
『(1)膨大なパターンを学習することにより、(2) 新しいインプット・データに対して、(3) 学習から導かれたモデルを利用し、(4)最も妥当なものをアウトプットする』
上記を分解し、要素ごとに簡単な解説をします。(1)では実際に観測されたデータ(学習データ)を使用し、パターンを学習させます。この作業は「モデル作成」などと呼ばれます。(2)では予測に使用するデータを入力します。(3)では学習済みのモデルにインプットされたデータを当てはめます。(4)では予測結果をアウトプットとして出力します。
モデル作成のための手法はさまざまなものが提案されており、最近は入門者向けの書籍も多く刊行されています。また、PythonやRといった言語で、機械学習アルゴリズムに特化したライブラリも活発に開発が続けられています。
そのため、具体的な理論や数式を活用したアルゴリズム、実装方法についての説明は書籍などに譲り、本稿ではデータを中心にして説明します。
提供:iStock
「前処理」は、データを知るところから
事業やサービスを運営していると、さまざまなデータを取得することができます。そのようなデータの中から目的変数や説明変数として用いるものを決めたら、学習に適した形に変換・加工します。
この工程は一般的に「前処理」と呼ばれます。前処理は非常に地味な作業ながら、予測精度を左右する重要な工程です。特に、アルゴリズムを独自に開発しないような場合は、実験や開発の時間の大きな部分を占めます。
前処理はデータを知るところから始まります。次ページに利用するデータについて確認すべき事項を列挙しました。これらの事項は一般的なデータ分析のみならず、機械学習においてもデータの正しい解釈や活用をする上で有効です。
データを正しく知るというプロセスを踏まえ、実際の学習データを作り込んでいきます。