データの確認事項
●【データの出所】取得方法、取得期間 など
●【データの形式】文字コード、改行コード、数字の単位、時刻の基準 など
●【データの分布】データの集中の度合いや裾の長さ、相関性 など
●【基本的な指標】平均値、中央値、四分位範囲、標準偏差 など
●【現象との関係】データが記録される条件や、データ取得時の例外処理 など
まず、データの出所をしっかりと確認しましょう。ここでいう出所とは、どの部署やサービスで生成・取得されたデータかということです。
データを分析していると、想定していなかったデータの欠損や矛盾に遭遇することがあります。そういった場合に、すぐにデータの取得元に確認できるようにしておきます。
データの形式については、分析やデータ加工に使用するツールに合わせて調整する必要があります。正しい形式でデータが準備できていない場合、想定と異なる処理結果が返ってくることになり、当然それらを用いて学習をさせても正しい予測ができません。データの形式変換は容易にできますので、適切な形式でデータが準備できているか確認する癖をつけましょう。
データの分布も把握する必要があります。機械学習を進めていく上で、説明変数(目的変数の予測に使われるその他の変数)の選択は非常に重要です。機械学習の目的は複数の説明変数で表されるパターンから、高い精度で予測を行うことです。
極端な例ですが、常に同じ値をとるような変数は説明変数として機能しません。説明変数として選択しようとしている変数の値が局所的に集中するものなのか、大きな変動幅を持つのかなどの情報はモデル作成の際に重要な参考情報になるため、ヒストグラムやその他のプロットで確認します。
また、目的変数(予測したい数値を示す変数)との相関など、関連する変数との関係性についても散布図などを描くなどして理解します。
基本的な指標として、平均値や標準偏差なども把握しておきます。前処理やデータ分析に慣れてくると、平均や標準偏差などの統計量はすぐに計算できるため、それだけで事前調査を済ませたいという誘惑に駆られます。
しかし、このような要約指標は数値の分布や変数同士の関連性という重要な情報が削ぎ落とされているため、面倒でもグラフを描いて、できるだけ情報量を落とさない形でデータを確認するように心掛けます。
現象との関係も重要です。データを分析する際は必ず「そのデータが現実と、どのように対応しているか」について考察します。集計や分析の結果を鵜呑みにするのではなく、実際の現象を正しく反映しているか常に注意を払うことで、誤った状況判断を避けることができます。
日々、事業やサービスに深く携わっている人ほどデータの不備や不適切な解釈に対する違和感を感じやすいものです。そのため、導入対象となるサービスの運営に携わっている人に分析結果について意見を求めることは有効です。
そのような対策を取ることで、分析者の思い込みによる誤判断を回避することができ、より適切な学習モデルに近づくことができるでしょう。
本稿では、機械学習に用いるデータに着目して説明しました。大きな事業価値を生み出すデータとは、十分な量が存在し、適切な前処理が施されたデータです。機械学習プロジェクトの推進において、関係者への説明や納得感の醸成も重要なファクターになります。
そのため、「自分たちがどういった考えで、何をやろうとしているのか」をしっかりと理解しておくことは大切です。本稿で述べたデータに関する確認事項をしっかり踏まえて機械学習に取り組み、より精度の高いアウトプットを目指しましょう。
- 田中耕太郎(データサイエンティスト)
- 東京工業大学大学院にてMOT(技術経営専門職)を取得。 在学中より研究開発系の大学ベンチャーにて企業戦略の策定、マーケティングに従事。 IT系ベンチャーにて主に事業企画、プロジェクトマネジメントを経験後、 コンサルタントとして大手企業や官公庁のデータ分析案件を担当。 データサイエンス領域では機械学習の活用、統計を用いた事業分析を専門に行い、 組織の立ち上げ、データサイエンティストの採用や育成にも注力。 現在はC2Cの領域で、主に事業状況の可視化やビッグデータ分析を担当している。