ビッグデータという甘い幻想
データを使うプロ野球監督であった野村克也氏は、「野村ID野球」と称して、野球という競技内での自身の経験だけでなく、そのシーズン内での各選手やポジションごとに分析したデータを利用し、チームを勝利に導く方法論で一世をなびかせた。それまでに蓄積された膨大な経験を無駄にしない姿勢が見て取れる。選手やチーム、試合内容に向けてちょっと釘を刺す「つぶやき」も彼の本質を見抜く鋭い観察眼を伺わせる。
データをとりまく環境も変わりつつある。新しいソフトウェアをインストールするたび、新しいソーシャルメディアネットワークサービスに登録するたび、「情報の送信を許可しますか」という問いかけが繰り返される。取得された情報からサービスの不具合を察知するだけでなく顧客の動向・趣向を調査することで次なる戦略を立てるためだ。
「ビッグデータ」というキーワードが登場してから時代は変わり、取得したデータを、サービスに生かす側とそうではない側に分断してきた印象がある。
しかし、本当にデータ利用に重要なのは方法論ではないか。目の前にしている課題をクリアするための解決策を果たしてもっているのか。ビッグデータを仮に得たとき、あなたなら一体どうするのか。
救世主スパースモデリングの登場
ビッグデータという言葉が一人歩きして、データをとにかく大量にもつことが過大評価されてはいないだろうか。その重要性は認めつつも、大量のデータ、大規模な計算処理技術が必要なのではないかと不安になり、データ分析の二の足を踏んではいけない。数少ない貴重なデータから本当に知りたかったことをえぐり出す技術がある。
むしろ大量のデータに埋もれて見えにくくなってしまうという問題がデータ解析の現場ではある。しかしそこから本質を抜き出せる手法が発展しているのだ。それが少ないデータから意味を見出すための方法論「スパースモデリング」(スパース性)である。
この言葉を新しく目にした読者も多いかもしれないが、今まさに学術の世界から普及が始ろうとしている新しい方法論である。この連載では、具体的な方法も紹介しながら、スパースモデリングで何ができるか、どうように利用したらよいかという不安を解消するような内容を用意する。
スパースモデリングを理解するためにデータを分析し、未来を予測するということはどういうことか考えてみよう。