スモールデータから知見を見出す「スパースモデリング」

スカスカのデータから知見を見出す救世主？--「スパースモデリング」とは何か - (page 2)

大関真之

2015-12-01 07:00

　例えば、バネの伸び縮みに関する「フックの法則」という理科の教科書で登場する事実も、データを解析した結果である。横軸はバネにつけたおもりの個数。縦軸はバネの長さにとると、なるほど確かにバネに引下する力に応じて、バネは伸びる。（図1）。

図1:おもりとバネの関係のデータ解析

　ビジネス分野のデータ分析では、現実社会の“フックの法則”を見つけたいというのが目標の1つといえる。

　こんな顧客がいて、そのときどれくらいの利益をもたらしてくれたかなどの記録から、その法則性や規則性を見いだせれば、次の行動につなげることが可能になる。しかしながら人間の挙動は複雑であり、どんなことがきっかけでその消費行動をとったのか、ただ素朴にデータを眺めているだけで意味を見出すのは困難である。

　ビッグデータと称して、データ分析を押し進めたところで、そのデータの素性は複雑で、どの要素も関係しているという結果が出てはしょうがない。その問題点に解決を与えるのが「スパースモデリング」である。例えば図2にあるようないくつかの入力と出力の関係を与えるデータが得られたとしよう。

図2:データに忠実で無意味な結果

　これにふさわしいグラフの形はどんな形だろうか。コンピュータの計算は賢く、複雑な形をしたデータでも忠実に再現するグラフを提示してくれる。しかし、そのようなグラフがわれわれの知りたい法則たりえるだろうか。知りたいのは、もっと単純な構造であり、本質的な解答である。

　データに忠実すぎる複雑なグラフよりも、図3のようなシンプルな放物線をデータから読み解いた読者もいることだろう。スパースモデリングの方法論を用いると図3に示すように、誰でも想像しやすいグラフの形を自動的に抽出してくれるのだ。

図3:スパース性に基づく推定結果

　われわれがとりあえずデータを手にしたときに、いろんな可能性があることを期待しつつ、「要するに」何が重要な働きをしているのかという結論を聞きたいというのが本音ではないか。

　そんな人間のわがままに「ビッグデータ」で応えるのは簡単ではない。ありとあらゆる角度から分析により、僕らには理解しがたい高度な結論を導いてくれるくらいには機械は賢い、それは事実だ。

　しかし実際は、「あれもこれも重要で、それは微妙にスパイスのように効いていて…」「いやいやそんな御託はいいから…」というどこかの会議で聞いたような会話が機械と人間の間に繰り広げられる。そんな議論の最中に、「要するにどういうことか」と問い直す方法が本連載のタイトルにある「スパースモデリング」と呼ばれる方法論である。