スモールデータから知見を見出す「スパースモデリング」

スパースモデリングの実践--データから本質を抜き出す

大関真之 2016年01月20日 07時00分

  • このエントリーをはてなブックマークに追加

今日からできるスパースモデリング

 連載第2回目では実践編といこう。スパースモデリングを駆使することで、データからの本質部分を抽出することができるということを第1回で紹介した。さらにさまざまな要因でデータの取得量が制限されてしまう場合に、少量のデータからでも、その性質を生かして満足のいく精度で知見を得ることが可能であることを説明した。

 スパースモデリングの言葉と物語を知るだけではなく、その威力を実際に試し、「あのデータを使って面白いことができないだろうか」と考えを巡らせてもらいたい。もちろん目的によって、どんな解析手段が適するかは変わってくる。しかし、その根底となるやり方は共通しているというのがスパースモデリングの強みである。今回はその基本部分を紹介することで、更なる追求の出発点にしよう。

従来のデータ追従型の解析法

 実験的にある入力をしたときに、出力が得られたとする。このときにこの入力と出力のセットもいくつか得られた。どうもこれは何かの法則に従っているように思う。その背後にある法則を知りたい(「ビールとおむつが一緒に売れる」のようなデータを法則に落とし込むことこそ、ビジネスの現場で必要だ)。例えば前回あげたフックの法則などがその典型例だ。バネにつけたおもりを増やしていくと、バネの長さが伸びる。このときにバネについけたおもりの個数とバネの長さの関係を知りたいとする。

 それでは表1のようにデータが得られたとしよう。図1のようにグラフに示すと、直線の関係がありそうだな、と見当がつく。それぞれの点に合うように画面にボールペンをかざして探ってみたくなる。これはいわゆる直線によるフィッティング、回帰問題と呼ばれるものである。これはさまざまな直線を当てはめて、どんな傾きが良いか、どんな切片(グラフと座標軸の交点)が良いかを探り、最適なものを選択することに対応している。

表1:バネにつけたおもりの個数とバネの長さの関係
X(おもりの個数)12345
Y(バネの長さ)7.05989.257811.648813.782315.9804

 さて皆さんは、人間だ。機械とは違う。柔軟にボールペンをかざして、何となく気に食わないからと傾けたり、上下左右に動かしたりして、どの点にも近い直線を見つけることが何となくできる。点と直線がちょっとズレて、気に食わないなあと思うかもしれない。このズレの大きさを最も小さくなるようにする計算方法を「最小二乗法」と呼ぶ。

 観測データに対して最も近い数式を求めるには、この観測値と平均の差を最小化した計算式が有効であり、「回帰分析」を利用できるため、これまでのデータ解析の基本として利用されてきた。いわば既存の概念の代表格といえる。この人間ができることを代わりにさせるというのが機械学習の発想の基本であり、データ解析の現場で行われていることだ。


図1:バネの長さ(Y)とおもりの個数(X)の関係

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

  • このエントリーをはてなブックマークに追加

この記事を読んだ方に

関連ホワイトペーパー

SpecialPR

連載

CIO
研究現場から見たAI
Fintechの正体
米ZDNet編集長Larryの独り言
大木豊成「仕事で使うアップルのトリセツ」
山本雅史「ハードから読み解くITトレンド放談」
田中克己「2020年のIT企業」
松岡功「一言もの申す」
松岡功「今週の明言」
内山悟志「IT部門はどこに向かうのか」
林 雅之「デジタル未来からの手紙」
谷川耕一「エンプラITならこれは知っとけ」
大河原克行「エンプラ徒然」
内製化とユーザー体験の関係
「プロジェクトマネジメント」の解き方
ITは「ひみつ道具」の夢を見る
セキュリティ
「企業セキュリティの歩き方」
「サイバーセキュリティ未来考」
「ネットワークセキュリティの要諦」
「セキュリティの論点」
スペシャル
課題解決のためのUI/UX
誰もが開発者になる時代 ~業務システム開発の現場を行く~
「Windows 10」法人導入の手引き
ソフトウェア開発パラダイムの進化
エンタープライズトレンド
10の事情
座談会@ZDNet
Dr.津田のクラウドトップガン対談
展望2017
Gartner Symposium
IBM World of Watson
de:code
Sapphire Now
VMworld
Microsoft WPC
HPE Discover
Oracle OpenWorld
Dell EMC World
AWS re:Invent
AWS Summit
PTC LiveWorx
より賢く活用するためのOSS最新動向
古賀政純「Dockerがもたらすビジネス変革」
中国ビジネス四方山話
ベトナムでビジネス
米株式動向
日本株展望
企業決算