スモールデータから知見を見出す「スパースモデリング」

スカスカのデータから知見を見出す救世主?--「スパースモデリング」とは何か - (page 3)

大関真之 2015年12月01日 07時00分

  • このエントリーをはてなブックマークに追加

データ分析の現場で起こる2つの問題

 どんなことが可能であるかを感じ取る例え話として、筆者が提案した「カンニング」の検出技術を挙げよう。教育現場というのは、実はデータと格闘する世界の身近な例である。

 テスト結果から成績を類推することもその例だ。正解と不正解に無味乾燥に○と×がつけられており、その結果をもとにして、教員は学生の能力を推し量り、学生側についても自分の能力を察して、どの問題が自分の弱点であるかを痛感する。これはまさにデータ分析である。さらに学生個人ではなく、学生間の関係性に注目していくと、不都合な事実にも気づくことがある。そう「カンニング」である。誰かと誰かの答案が似通っているという事実が「たまに」ある。

 この日常的に起こる事象をわざわざ「ビッグデータ解析」で行うという何ともばかばかしい例を想像してもらいたい。とにかく学生にテストを実施して、膨大なテスト結果を得て、その結果に基づいてデータを解析するのだ。「誰もカンニングの検出のためにわざわざテストを実施しようとは思わないだろう」「そんな大量のデータがなくてもカンニングしているかどうかくらいわかるのでは」――。

 この例え話をするとそんな声が聞こえてきそうだが、データ解析の重要な2つの側面を浮かび上がらせるている。ひとつはそんなに都合よくビッグデータは存在しないこと。そしてもうひとつはそんなにデータの数がなくても本質がわかることである。

ビッグデータ時代に迷える貴重な”スモール”なデータ

 あらかじめ目的が決まっており、その目的に応じたデータを取得をしていれば、確かに大量のデータが存在して精度のよい分析が可能である。しかし上記のカンニング検出の例では、学校ではそんな大量のデータをわざわざ用意はできない。実はビッグデータ時代といいつつも、迷える”スモール”なデータが存在するのだ。データの量が少ないために分析をしてもはっきりした結論が導きだせず、その分析を諦めてしまうことがある。

 極地にある動植物の観察記録、たまに降ってくる隕石の組成、症例の少ない疾病。観測することが難しい稀にしか起こらないイベントから得たデータをなんとかして解析する方法論こそが現代の救世主になるのではないだろうか。手元にある少ないデータから本質的な部分をえぐり出す。それがスパースモデリングの役割である。

 ここで重要となる概念が、そのスパースモデリングに冠する「スパース性」である。単語の意味としては、まばら、スカスカであるという意味だ。

 例えばカンニングは、健全な学習環境においては「ほとんどない」はずである。そのほとんどないものを捕まえるために、そんな多くの答案データは必要ないはずだ。教員が学生間に存在するカンニングを割とすぐに見つけることができるのは、あらゆる関係性を意識するよりも、基本的には「信じて」、しかしどうしても疑いのはれない回答の重なり具合について注目するからだ。

 少ないデータから本質部分を抽出しているのだ。スパースモデリングにおいても、上記のカンニングに対抗する教員と同様に、あらゆる可能性を列挙せず、本当に重要なところだけに焦点をあてた解析を行う。データ解析の現場で、「要するにどういうことか」を問いかけてくれるのだ。重要なところに焦点を当てるため計算処理としても大きな負荷はない。

 図3で示したグラフの形を自動的に描き出す技術も同様である。データに合わせるためにあらゆる手段をとるのではなく、自然な必要最低限の手数でデータに合わせるように工夫して分析した結果、単純で美しい放物線を選び出してくれる。

 そのような必要のない成分を取り除くデータの解析法を提案したのは、Stanford大学教授のRob Tibshirani氏であろう。彼の最近の著書 ”Statistical Learning with Sparsity: The Lasso and Generalizations” には近年の発展も含めスパース性に注目した多彩な解析手法が紹介されている。同様のアプローチは、異なる文脈でいくつか見られる。いずれも少ないデータからなんとかして本当の姿を知ろうという苦闘の歴史からの登場であることに注目したい。

 人工的な爆発により地震を引き起こして、その揺れの反射の様子を調べ、地層の様子を調査する反射法地震探査の際のデータ解析では、まさに同様の手法が古くから採用されている。知りたい情報のためとはいえ、そんなにたくさん爆発を起こすことが許されないからである。

  • このエントリーをはてなブックマークに追加

関連ホワイトペーパー

SpecialPR

連載

CIO
ハードから読み解くITトレンド放談
大木豊成「仕事で使うアップルのトリセツ」
研究現場から見たAI
ITは「ひみつ道具」の夢を見る
内製化とユーザー体験の関係
米ZDNet編集長Larryの独り言
今週の明言
「プロジェクトマネジメント」の解き方
田中克己「2020年のIT企業」
松岡功「一言もの申す」
林 雅之「デジタル未来からの手紙」
谷川耕一「エンプラITならこれは知っとけ」
Fintechの正体
内山悟志「IT部門はどこに向かうのか」
情報通信技術の新しい使い方
三国大洋のスクラップブック
大河原克行のエンプラ徒然
コミュニケーション
情報系システム最適化
モバイル
通信のゆくえを追う
セキュリティ
企業セキュリティの歩き方
サイバーセキュリティ未来考
セキュリティの論点
ネットワークセキュリティ
スペシャル
Gartner Symposium
企業決算
ソフトウェア開発パラダイムの進化
座談会@ZDNet
Dr.津田のクラウドトップガン対談
CSIRT座談会--バンダイナムコや大成建設、DeNAに聞く
創造的破壊を--次世代SIer座談会
「SD-WAN」の現在
展望2017
IBM World of Watson
de:code
Sapphire Now
VMworld
Microsoft WPC
HPE Discover
Oracle OpenWorld
Dell EMC World
AWS re:Invent
AWS Summit
PTC LiveWorx
古賀政純「Dockerがもたらすビジネス変革」
さとうなおきの「週刊Azureなう」
誰もが開発者になる時代 ~業務システム開発の現場を行く~
中国ビジネス四方山話
より賢く活用するためのOSS最新動向
「Windows 10」法人導入の手引き
Windows Server 2003サポート終了へ秒読み
米株式動向
実践ビッグデータ
日本株展望
ベトナムでビジネス
アジアのIT
10の事情
エンタープライズトレンド
クラウドと仮想化