スモールデータから知見を見出す「スパースモデリング」

スカスカのデータから知見を見出す救世主?--「スパースモデリング」とは何か - (page 3)

大関真之

2015-12-01 07:00

データ分析の現場で起こる2つの問題

 どんなことが可能であるかを感じ取る例え話として、筆者が提案した「カンニング」の検出技術を挙げよう。教育現場というのは、実はデータと格闘する世界の身近な例である。

 テスト結果から成績を類推することもその例だ。正解と不正解に無味乾燥に○と×がつけられており、その結果をもとにして、教員は学生の能力を推し量り、学生側についても自分の能力を察して、どの問題が自分の弱点であるかを痛感する。これはまさにデータ分析である。さらに学生個人ではなく、学生間の関係性に注目していくと、不都合な事実にも気づくことがある。そう「カンニング」である。誰かと誰かの答案が似通っているという事実が「たまに」ある。

 この日常的に起こる事象をわざわざ「ビッグデータ解析」で行うという何ともばかばかしい例を想像してもらいたい。とにかく学生にテストを実施して、膨大なテスト結果を得て、その結果に基づいてデータを解析するのだ。「誰もカンニングの検出のためにわざわざテストを実施しようとは思わないだろう」「そんな大量のデータがなくてもカンニングしているかどうかくらいわかるのでは」――。

 この例え話をするとそんな声が聞こえてきそうだが、データ解析の重要な2つの側面を浮かび上がらせるている。ひとつはそんなに都合よくビッグデータは存在しないこと。そしてもうひとつはそんなにデータの数がなくても本質がわかることである。

ビッグデータ時代に迷える貴重な”スモール”なデータ

 あらかじめ目的が決まっており、その目的に応じたデータを取得をしていれば、確かに大量のデータが存在して精度のよい分析が可能である。しかし上記のカンニング検出の例では、学校ではそんな大量のデータをわざわざ用意はできない。実はビッグデータ時代といいつつも、迷える”スモール”なデータが存在するのだ。データの量が少ないために分析をしてもはっきりした結論が導きだせず、その分析を諦めてしまうことがある。

 極地にある動植物の観察記録、たまに降ってくる隕石の組成、症例の少ない疾病。観測することが難しい稀にしか起こらないイベントから得たデータをなんとかして解析する方法論こそが現代の救世主になるのではないだろうか。手元にある少ないデータから本質的な部分をえぐり出す。それがスパースモデリングの役割である。

 ここで重要となる概念が、そのスパースモデリングに冠する「スパース性」である。単語の意味としては、まばら、スカスカであるという意味だ。

 例えばカンニングは、健全な学習環境においては「ほとんどない」はずである。そのほとんどないものを捕まえるために、そんな多くの答案データは必要ないはずだ。教員が学生間に存在するカンニングを割とすぐに見つけることができるのは、あらゆる関係性を意識するよりも、基本的には「信じて」、しかしどうしても疑いのはれない回答の重なり具合について注目するからだ。

 少ないデータから本質部分を抽出しているのだ。スパースモデリングにおいても、上記のカンニングに対抗する教員と同様に、あらゆる可能性を列挙せず、本当に重要なところだけに焦点をあてた解析を行う。データ解析の現場で、「要するにどういうことか」を問いかけてくれるのだ。重要なところに焦点を当てるため計算処理としても大きな負荷はない。

 図3で示したグラフの形を自動的に描き出す技術も同様である。データに合わせるためにあらゆる手段をとるのではなく、自然な必要最低限の手数でデータに合わせるように工夫して分析した結果、単純で美しい放物線を選び出してくれる。

 そのような必要のない成分を取り除くデータの解析法を提案したのは、Stanford大学教授のRob Tibshirani氏であろう。彼の最近の著書 ”Statistical Learning with Sparsity: The Lasso and Generalizations” には近年の発展も含めスパース性に注目した多彩な解析手法が紹介されている。同様のアプローチは、異なる文脈でいくつか見られる。いずれも少ないデータからなんとかして本当の姿を知ろうという苦闘の歴史からの登場であることに注目したい。

 人工的な爆発により地震を引き起こして、その揺れの反射の様子を調べ、地層の様子を調査する反射法地震探査の際のデータ解析では、まさに同様の手法が古くから採用されている。知りたい情報のためとはいえ、そんなにたくさん爆発を起こすことが許されないからである。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    「デジタル・フォレンジック」から始まるセキュリティ災禍論--活用したいIT業界の防災マニュアル

  2. 運用管理

    「無線LANがつながらない」という問い合わせにAIで対応、トラブル解決の切り札とは

  3. 運用管理

    Oracle DatabaseのAzure移行時におけるポイント、移行前に確認しておきたい障害対策

  4. 運用管理

    Google Chrome ブラウザ がセキュリティを強化、ゼロトラスト移行で高まるブラウザの重要性

  5. ビジネスアプリケーション

    技術進化でさらに発展するデータサイエンス/アナリティクス、最新の6大トレンドを解説

ZDNET Japan クイックポール

自社にとって最大のセキュリティ脅威は何ですか

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]