スモールデータから知見を見出す「スパースモデリング」

スカスカのデータから知見を見出す救世主?--「スパースモデリング」とは何か - (page 3)

大関真之 2015年12月01日 07時00分

  • このエントリーをはてなブックマークに追加

データ分析の現場で起こる2つの問題

 どんなことが可能であるかを感じ取る例え話として、筆者が提案した「カンニング」の検出技術を挙げよう。教育現場というのは、実はデータと格闘する世界の身近な例である。

 テスト結果から成績を類推することもその例だ。正解と不正解に無味乾燥に○と×がつけられており、その結果をもとにして、教員は学生の能力を推し量り、学生側についても自分の能力を察して、どの問題が自分の弱点であるかを痛感する。これはまさにデータ分析である。さらに学生個人ではなく、学生間の関係性に注目していくと、不都合な事実にも気づくことがある。そう「カンニング」である。誰かと誰かの答案が似通っているという事実が「たまに」ある。

 この日常的に起こる事象をわざわざ「ビッグデータ解析」で行うという何ともばかばかしい例を想像してもらいたい。とにかく学生にテストを実施して、膨大なテスト結果を得て、その結果に基づいてデータを解析するのだ。「誰もカンニングの検出のためにわざわざテストを実施しようとは思わないだろう」「そんな大量のデータがなくてもカンニングしているかどうかくらいわかるのでは」――。

 この例え話をするとそんな声が聞こえてきそうだが、データ解析の重要な2つの側面を浮かび上がらせるている。ひとつはそんなに都合よくビッグデータは存在しないこと。そしてもうひとつはそんなにデータの数がなくても本質がわかることである。

ビッグデータ時代に迷える貴重な”スモール”なデータ

 あらかじめ目的が決まっており、その目的に応じたデータを取得をしていれば、確かに大量のデータが存在して精度のよい分析が可能である。しかし上記のカンニング検出の例では、学校ではそんな大量のデータをわざわざ用意はできない。実はビッグデータ時代といいつつも、迷える”スモール”なデータが存在するのだ。データの量が少ないために分析をしてもはっきりした結論が導きだせず、その分析を諦めてしまうことがある。

 極地にある動植物の観察記録、たまに降ってくる隕石の組成、症例の少ない疾病。観測することが難しい稀にしか起こらないイベントから得たデータをなんとかして解析する方法論こそが現代の救世主になるのではないだろうか。手元にある少ないデータから本質的な部分をえぐり出す。それがスパースモデリングの役割である。

 ここで重要となる概念が、そのスパースモデリングに冠する「スパース性」である。単語の意味としては、まばら、スカスカであるという意味だ。

 例えばカンニングは、健全な学習環境においては「ほとんどない」はずである。そのほとんどないものを捕まえるために、そんな多くの答案データは必要ないはずだ。教員が学生間に存在するカンニングを割とすぐに見つけることができるのは、あらゆる関係性を意識するよりも、基本的には「信じて」、しかしどうしても疑いのはれない回答の重なり具合について注目するからだ。

 少ないデータから本質部分を抽出しているのだ。スパースモデリングにおいても、上記のカンニングに対抗する教員と同様に、あらゆる可能性を列挙せず、本当に重要なところだけに焦点をあてた解析を行う。データ解析の現場で、「要するにどういうことか」を問いかけてくれるのだ。重要なところに焦点を当てるため計算処理としても大きな負荷はない。

 図3で示したグラフの形を自動的に描き出す技術も同様である。データに合わせるためにあらゆる手段をとるのではなく、自然な必要最低限の手数でデータに合わせるように工夫して分析した結果、単純で美しい放物線を選び出してくれる。

 そのような必要のない成分を取り除くデータの解析法を提案したのは、Stanford大学教授のRob Tibshirani氏であろう。彼の最近の著書 ”Statistical Learning with Sparsity: The Lasso and Generalizations” には近年の発展も含めスパース性に注目した多彩な解析手法が紹介されている。同様のアプローチは、異なる文脈でいくつか見られる。いずれも少ないデータからなんとかして本当の姿を知ろうという苦闘の歴史からの登場であることに注目したい。

 人工的な爆発により地震を引き起こして、その揺れの反射の様子を調べ、地層の様子を調査する反射法地震探査の際のデータ解析では、まさに同様の手法が古くから採用されている。知りたい情報のためとはいえ、そんなにたくさん爆発を起こすことが許されないからである。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

  • このエントリーをはてなブックマークに追加

この記事を読んだ方に

関連ホワイトペーパー

SpecialPR

連載

CIO
トランザクションの今昔物語
研究現場から見たAI
Fintechの正体
米ZDNet編集長Larryの独り言
大木豊成「仕事で使うアップルのトリセツ」
山本雅史「ハードから読み解くITトレンド放談」
田中克己「2020年のIT企業」
松岡功「一言もの申す」
松岡功「今週の明言」
内山悟志「IT部門はどこに向かうのか」
林 雅之「デジタル未来からの手紙」
谷川耕一「エンプラITならこれは知っとけ」
大河原克行「エンプラ徒然」
内製化とユーザー体験の関係
「プロジェクトマネジメント」の解き方
ITは「ひみつ道具」の夢を見る
セキュリティ
「企業セキュリティの歩き方」
「サイバーセキュリティ未来考」
「ネットワークセキュリティの要諦」
「セキュリティの論点」
スペシャル
課題解決のためのUI/UX
誰もが開発者になる時代 ~業務システム開発の現場を行く~
「Windows 10」法人導入の手引き
ソフトウェア開発パラダイムの進化
エンタープライズトレンド
10の事情
座談会@ZDNet
Dr.津田のクラウドトップガン対談
展望2017
Gartner Symposium
IBM World of Watson
de:code
Sapphire Now
VMworld
Microsoft WPC
Microsoft Connect()
HPE Discover
Oracle OpenWorld
Dell EMC World
AWS re:Invent
AWS Summit
PTC LiveWorx
より賢く活用するためのOSS最新動向
古賀政純「Dockerがもたらすビジネス変革」
中国ビジネス四方山話
ベトナムでビジネス
米株式動向
日本株展望
企業決算