情報量が爆発的に増える中、自社で抱えるデータを経営に生かしたいと考える企業が増えている。いわゆる「ビッグデータの活用」だ。しかし、単にデータを集めて分析するだけでは「活用」にまで至らないのが現状だ。
プロジェクトの大前提は「明確なゴール」
データ分析に限らずどんなプロジェクトにも言えることだが、まずプロジェクトには明確なゴールが必要だ。ゴールをイメージした上で要件を定義し、その要件に沿うようにデータを分析、施策を立案することが重要だと辻氏は述べる。
SAS Institute Japan 辻仁史氏
ソリューションコンサルティング第一本部
分析チーム シニアマネージャー
「単にデータがあるから分析したいといったケースや、現行の分析システムをバージョンアップするので何か新たにいいアウトプットを出せないかといったケースは迷走しやすい」と辻氏。目的と手段が逆転してしまうと、プロジェクトは失敗するというわけだ。「アナリストの仕事は、ここに新たな市場がある、こういう改善がまだできる、という提案を具体的に行うことと、こうすればいいと根拠をもって主張することだ。そして、その主張の軸がゴールと一致していることが大切だ」 と辻氏は指摘する。
相関関係、因果関係とは
では、もう少し細かい観点からデータ分析プロジェクトの注意点を探ってみよう。辻氏はまず、さまざまなデータの変動からその変動の原因を探る際、複数の事象の「相関関係」を探るのではなく、「因果関係」を見い出すことが重要だとしている。
例えば、ある小売店の売上データから、売上が落ちていることがわかったとする。そこで、顧客数、顧客単価、顧客の利用回数などをチェックしたところ、顧客単価が落ちていることが発覚した。ここで、「売上が落ちているのは顧客単価が落ちているためだ。顧客単価を上げるべきだ」という提案が持ち上がる。
このような提案はよくあるケースだというが、辻氏は「これでは真の原因が追及できていない」と指摘する。「売上が下がったことと単価が下がったことには、確かに相関関係がある。この相関関係だけで意志決定が下されることが多いが、実は相関関係が必要なのではなく、因果関係が必要なのだ」と辻氏は言う。
では、相関関係、因果関係とはどのようなものなのか。辻氏は、「左右前後を入れ替えても成り立つ関係が相関関係だ。相関関係には時間軸がないので、どちらが先かは関係ない。一方、因果関係は原因が先にあり、その原因から結果が出てくる」と説明する。つまり、売上が下がれば単価が下がる、単価が下がれば売上も下がるという関係では、「売上」と「単価」の間に相関関係があることはわかっても、必ずしも因果関係があるとは限らないのだ。
また、相関関係があるように見える「疑似相関」にも注意が必要だと辻氏は述べる。例えば、「アイスクリームが売れると水難事故が増える」という関係には相関性があるのだろうか。単に2つの数字の変数だけを見るとあたかも相関関係があるように見えるが、実際にアイスクリームの販売を止めたところで水難事故が減るわけではない。つまりこれは疑似相関に過ぎないのだ。
「アイスクリームと水難事故という極端な例であれば疑似相関であることがわかりやすいが、企業が持つ数字の中には疑似相関であると判別しにくいものがあり、疑似相関であるにも関わらず相関関係や因果関係があると報告されているケースもある」と辻氏は警告する。
真の因果関係にたどり着くには、「数字同士のメカニズムを探り出すことが必要だ」と辻氏は言う。そのためには、膨大なデータを整理し、さまざまな角度で分析して仮説が成り立つかどうか検証しなくてはならないのだ。先ほどのアイスクリームと水難事故の例であれば、アイスクリーム以外の商品の売上を確認することはもちろん、売上と気温の関係や、海水浴客の人数との関係にまでたどり着けることができれば、数字同士のメカニズムが見えてくるだろう。
「主張の軸がぶれないようにするには、さまざまな切り口からその主張を支える根拠が必要になる」(辻氏)というわけだ。