データ分析の現場で起こる2つの問題
どんなことが可能であるかを感じ取る例え話として、筆者が提案した「カンニング」の検出技術を挙げよう。教育現場というのは、実はデータと格闘する世界の身近な例である。
テスト結果から成績を類推することもその例だ。正解と不正解に無味乾燥に○と×がつけられており、その結果をもとにして、教員は学生の能力を推し量り、学生側についても自分の能力を察して、どの問題が自分の弱点であるかを痛感する。これはまさにデータ分析である。さらに学生個人ではなく、学生間の関係性に注目していくと、不都合な事実にも気づくことがある。そう「カンニング」である。誰かと誰かの答案が似通っているという事実が「たまに」ある。
この日常的に起こる事象をわざわざ「ビッグデータ解析」で行うという何ともばかばかしい例を想像してもらいたい。とにかく学生にテストを実施して、膨大なテスト結果を得て、その結果に基づいてデータを解析するのだ。「誰もカンニングの検出のためにわざわざテストを実施しようとは思わないだろう」「そんな大量のデータがなくてもカンニングしているかどうかくらいわかるのでは」――。
この例え話をするとそんな声が聞こえてきそうだが、データ解析の重要な2つの側面を浮かび上がらせるている。ひとつはそんなに都合よくビッグデータは存在しないこと。そしてもうひとつはそんなにデータの数がなくても本質がわかることである。
ビッグデータ時代に迷える貴重な”スモール”なデータ
あらかじめ目的が決まっており、その目的に応じたデータを取得をしていれば、確かに大量のデータが存在して精度のよい分析が可能である。しかし上記のカンニング検出の例では、学校ではそんな大量のデータをわざわざ用意はできない。実はビッグデータ時代といいつつも、迷える”スモール”なデータが存在するのだ。データの量が少ないために分析をしてもはっきりした結論が導きだせず、その分析を諦めてしまうことがある。
極地にある動植物の観察記録、たまに降ってくる隕石の組成、症例の少ない疾病。観測することが難しい稀にしか起こらないイベントから得たデータをなんとかして解析する方法論こそが現代の救世主になるのではないだろうか。手元にある少ないデータから本質的な部分をえぐり出す。それがスパースモデリングの役割である。
ここで重要となる概念が、そのスパースモデリングに冠する「スパース性」である。単語の意味としては、まばら、スカスカであるという意味だ。
例えばカンニングは、健全な学習環境においては「ほとんどない」はずである。そのほとんどないものを捕まえるために、そんな多くの答案データは必要ないはずだ。教員が学生間に存在するカンニングを割とすぐに見つけることができるのは、あらゆる関係性を意識するよりも、基本的には「信じて」、しかしどうしても疑いのはれない回答の重なり具合について注目するからだ。
少ないデータから本質部分を抽出しているのだ。スパースモデリングにおいても、上記のカンニングに対抗する教員と同様に、あらゆる可能性を列挙せず、本当に重要なところだけに焦点をあてた解析を行う。データ解析の現場で、「要するにどういうことか」を問いかけてくれるのだ。重要なところに焦点を当てるため計算処理としても大きな負荷はない。
図3で示したグラフの形を自動的に描き出す技術も同様である。データに合わせるためにあらゆる手段をとるのではなく、自然な必要最低限の手数でデータに合わせるように工夫して分析した結果、単純で美しい放物線を選び出してくれる。
そのような必要のない成分を取り除くデータの解析法を提案したのは、Stanford大学教授のRob Tibshirani氏であろう。彼の最近の著書 ”Statistical Learning with Sparsity: The Lasso and Generalizations” には近年の発展も含めスパース性に注目した多彩な解析手法が紹介されている。同様のアプローチは、異なる文脈でいくつか見られる。いずれも少ないデータからなんとかして本当の姿を知ろうという苦闘の歴史からの登場であることに注目したい。
人工的な爆発により地震を引き起こして、その揺れの反射の様子を調べ、地層の様子を調査する反射法地震探査の際のデータ解析では、まさに同様の手法が古くから採用されている。知りたい情報のためとはいえ、そんなにたくさん爆発を起こすことが許されないからである。