データ可視化がもたらした本当の価値
アナリティクスにおいてデータ可視化の目的は、意味合いの抽出であり、それは、仮説の抽出と検証のための道具と言える。
本連載においては、仮説構築の重要性を繰り返し説いてきた。分析担当者たちは、アナリティクスの各過程(データ整理・加工、モデル構築等)でデータ可視化を用いて、仮説の見直しや検証をより直感的に実施している。機械学習やAIのようなデータ処理だけでは導出できないような自由な発想を、人の手によってモデルに取り入れている。
しかし、近年、仮説を立てること自体が困難と言われることが、以下の理由で増えている。
- 市場の細分化、カテゴリの変化が進んでおり、専門家が不在
- 市場の変化が激しく、製品サイクルも短い
- テクノロジの変化が激しく、データ自体の蓄積が不十分
これらに対応するためには、まず、入手したままのデータを蓄積し、必要に応じてデータ整理・加工し、可能な限りデータで市場を理解することが必要である。また新たな可視化技術や分析手法を取込みながら、柔軟かつ低コストにアナリティクスの仕組みを変更することが前提となる。
このように、担当者がいろいろな側面からデータを可視化することで、仮説構築・検証・修正の質をより高めることができることこそが、データ可視化の本当の価値である。
あるテーマにおいて、アナリティクスの各過程を経て整理、加工され、整備が進んだデータや予測モデルが業務の一部に採用されれば、初めてBIツールが運用可能な状態になる。つまり、一般ユーザーと初級ユーザーが、アナリティクスの結果としてのレポーティングの見える化を、活用できるようになる。
それでは、OSSであるRやAnacond(Python)を利用したアナリティクスの見える化について紹介する。
データを理解する際に便利な散布図行列を、R/Pythonにて作成してみた。Rに同梱されているサンプルデータのirisを使用した。