編集部からのお知らせ
ダウンロード公開中「ITが取り組むべきプライバシー」
最新記事まとめ「医療IT」
スモールデータから知見を見出す「スパースモデリング」

スパースモデリングの実践--データから本質を抜き出す - (page 3)

大関真之

2016-01-20 07:00

 人間が直線だ!と言わずとも、勝手に直線かどうかを判定してくれるような仕組みでなければ意味がない。例えば先ほどのバネの例でも、フックの法則を事前に知らないとして、ただ目の前に実験データのみがあり、それにピッタリ来るようなグラフを探すことを考えてみよう。

 手元にペンを持っている読者は多いだろうが、針金を持っている人は少ないだろう。想像でかまわない。針金をくねくねと曲げてデータ点に合わせるグラフを考えてみよう。これは「多項式回帰」と呼ばれる方法である。こうすると針金は自由に変形可能であるから、どんなデータ点の配置であってもかまわない。ピッタリ合わせることができる。このときにも先ほどと同じように、目でズレを感じ取り、そのズレが最小となるように、針金を変形させる。そしてその変形をやり過ぎると再びズレてしまい、引き戻したり更なる変形を加えたり、そうこうしているうちにズレのない最良の推定結果が得られる。つまり頭の中で考えていることは同じであり、機械にやらせることも同様だ。先ほどの勾配法で解決できる。実際に筆者が3次関数までを利用した多項式回帰を試してみたところ、図4に示すように、やや曲がりながら得られたデータ点にうまく合わせている様子が見て取れる。


図4:多項式へのフィッティング結果

 でも待てよ、と。針金をデータ点に合わせることはわかるが、データ点のないところの形はどうすれば良いのだろうか。もう少しデータ点がないと心配になる。少ないデータから得られた解答を信用することはできないのではないか。ということで時代は多くのデータを求めるようになった。

 幸いにしてビッグデータの時代が到来し、そのような問題はないように思われるかもしれない。しかしながら、待ってもらいたい。本来であれば、直線の関係を持つデータから何も知らずに解析すると、ぐにゃりと曲げられた針金の形が得られる。確かにデータに合わせるという要求には十分対応してくれる程に機械は賢い。一方でそのデータの背後にどんな法則があるのか、という答えを「抽出」するには満足のいく結果とはいえない。

ここでスパースモデリングが登場

 そこで登場するのが、スパースモデリングだ。スパースモデリングの目的として、データの本質部分の抽出がある。そこで用いられるのが「スパース推定」である。今の例では、データ点に合わせるために針金を変形して無理矢理合わせようとしていた。その変形のさせ方の「必要性」に疑問を投げかけながら、慎重にデータと整合させるのがスパース推定による回帰である。

 スパース推定では、パラメータの必要性もできる限り押さえながらズレを最小にしようとする。つまり針金を必要最小限の変形でデータ点に合わせるよう目指すのだ。そうなると、データを合わせようと針金を変形させたときに、そもそもこの変形は必要だったのか、と反省を促されるというわけだ。その結果、必要のない変形は許されず、

「データに合わせつつ、いくつかのパラメータをゼロにする」

 ことが可能となる。これがスパース推定の効果だ。結果がスパースなものになる。つまりスカスカになる。データの素性や本質が、ごくごく単純でスッキリしているものであれば、それを見つけてくれる。逆に多少複雑であっても、重要な部分だけ要点を絞って抽出してくれる効果がある。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

特集

CIO

モバイル

セキュリティ

スペシャル

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNet Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]