3.分析用データセットの作成
分析用データセットの作成について、下の図5で説明する。例えば、線形回帰モデルを適用する場合、目的変数Yと説明変数A、B、C、D、Eに対応するデータを集約したTABLEを作成することになる。これを分析用データセットと言う。
図5
線形回帰モデルを例にとると、分析用データセットは、単純な変数候補一覧TABLEに見えるが、何でも説明変数に採用していいというものでもない(線形回帰モデルであれば、多重共線性に注意するなど)。このように手法によって理論を適用する際に制約条件があり、上記のイメージには見えない注意点や工夫が必要である。
最後に
今回は、データ整理・加工についての基本的なステップと注意点をご紹介した。
これまでのポイントを再掲すると、データを使って何がしたいのか(アナリティクスの目的:構造化仮説と予測モデル)、対象課題をアナリティクスで解決するためにデータがあるのかないのか(データ収集、データ整理・加工)、入手できないデータがある場合、それをどう補うのか、例えば、代替となるデータはあるかないか(再度、データ収集)、そろえたデータがお互いにどんな関係性にあるのか(関係性の探索)など。
アナリティクスの難所を乗り越えるためには、兎にも角にも、常にデータと向き合うことが必要である。
データ整理・加工と関係性探索については、構築するモデルと適用する手法によって難易度が変わるため、その検証に使われる時間や工数は当然ながら変化し、工数の予測はとても難しい。
残念ながら、上記で述べたデータの由来や意味合いを理解せずに簡単な操作で分析できてしまう夢のようなツールは存在しないのが現実である。
次回は、モデル構築における手法をさらに掘り下げつつ、最も知恵と経験が必要となる「アナリティクスにおけるデータモデル」について考察し、「要素の関係性探索(特にモデル構築)」と「シミュレーション」について紹介する。
- 島田 茂
- 日本テラデータ プロフェッショナル・サービス本部 ビッグデータ分析ラボ 部長
- プロフェッショナル・サービス本部ビッグデータ分析ラボを統括。過去には、先進ITソリューション・製品の研究開発を大手IT会社にて国内および国外(主に米国・英国)の研究所で従事。その後、グローバル企業における日本法人の営業経験を通じて、経営に興味が高まりOSSを普及させるベンチャー企業を設立。テラデータの新たなチャレンジに魅せられ日本テラデータに入社、ビッグデータ分析ラボ(通称BAL:バル)を立上げ、今に至る。島田氏のほか、共著者は次の3人。日本テラデータ ソリューション・セールス・スペシャリスト 長谷川 亮氏、プロフェッショナル・サービス本部 ビッグデータ分析ラボ コンサルタント 片瀬 友英氏、同コンサルタント 樫下 茂氏。