スモールデータから知見を見出す「スパースモデリング」

スパースモデリングの実践--データから本質を抜き出す

大関真之 2016年01月20日 07時00分

  • このエントリーをはてなブックマークに追加

今日からできるスパースモデリング

 連載第2回目では実践編といこう。スパースモデリングを駆使することで、データからの本質部分を抽出することができるということを第1回で紹介した。さらにさまざまな要因でデータの取得量が制限されてしまう場合に、少量のデータからでも、その性質を生かして満足のいく精度で知見を得ることが可能であることを説明した。

 スパースモデリングの言葉と物語を知るだけではなく、その威力を実際に試し、「あのデータを使って面白いことができないだろうか」と考えを巡らせてもらいたい。もちろん目的によって、どんな解析手段が適するかは変わってくる。しかし、その根底となるやり方は共通しているというのがスパースモデリングの強みである。今回はその基本部分を紹介することで、更なる追求の出発点にしよう。

従来のデータ追従型の解析法

 実験的にある入力をしたときに、出力が得られたとする。このときにこの入力と出力のセットもいくつか得られた。どうもこれは何かの法則に従っているように思う。その背後にある法則を知りたい(「ビールとおむつが一緒に売れる」のようなデータを法則に落とし込むことこそ、ビジネスの現場で必要だ)。例えば前回あげたフックの法則などがその典型例だ。バネにつけたおもりを増やしていくと、バネの長さが伸びる。このときにバネについけたおもりの個数とバネの長さの関係を知りたいとする。

 それでは表1のようにデータが得られたとしよう。図1のようにグラフに示すと、直線の関係がありそうだな、と見当がつく。それぞれの点に合うように画面にボールペンをかざして探ってみたくなる。これはいわゆる直線によるフィッティング、回帰問題と呼ばれるものである。これはさまざまな直線を当てはめて、どんな傾きが良いか、どんな切片(グラフと座標軸の交点)が良いかを探り、最適なものを選択することに対応している。

表1:バネにつけたおもりの個数とバネの長さの関係
X(おもりの個数)12345
Y(バネの長さ)7.05989.257811.648813.782315.9804

 さて皆さんは、人間だ。機械とは違う。柔軟にボールペンをかざして、何となく気に食わないからと傾けたり、上下左右に動かしたりして、どの点にも近い直線を見つけることが何となくできる。点と直線がちょっとズレて、気に食わないなあと思うかもしれない。このズレの大きさを最も小さくなるようにする計算方法を「最小二乗法」と呼ぶ。

 観測データに対して最も近い数式を求めるには、この観測値と平均の差を最小化した計算式が有効であり、「回帰分析」を利用できるため、これまでのデータ解析の基本として利用されてきた。いわば既存の概念の代表格といえる。この人間ができることを代わりにさせるというのが機械学習の発想の基本であり、データ解析の現場で行われていることだ。


図1:バネの長さ(Y)とおもりの個数(X)の関係
  • このエントリーをはてなブックマークに追加

関連ホワイトペーパー

SpecialPR

連載

CIO
ハードから読み解くITトレンド放談
研究現場から見たAI
ITは「ひみつ道具」の夢を見る
内製化とユーザー体験の関係
米ZDNet編集長Larryの独り言
今週の明言
「プロジェクトマネジメント」の解き方
田中克己「2020年のIT企業」
松岡功「一言もの申す」
林 雅之「デジタル未来からの手紙」
谷川耕一「エンプラITならこれは知っとけ」
Fintechの正体
内山悟志「IT部門はどこに向かうのか」
情報通信技術の新しい使い方
三国大洋のスクラップブック
大河原克行のエンプラ徒然
コミュニケーション
情報系システム最適化
モバイル
通信のゆくえを追う
セキュリティ
企業セキュリティの歩き方
サイバーセキュリティ未来考
セキュリティの論点
ネットワークセキュリティ
スペシャル
Gartner Symposium
企業決算
ソフトウェア開発パラダイムの進化
座談会@ZDNet
Dr.津田のクラウドトップガン対談
CSIRT座談会--バンダイナムコや大成建設、DeNAに聞く
創造的破壊を--次世代SIer座談会
「SD-WAN」の現在
展望2017
IBM World of Watson
de:code
Sapphire Now
VMworld
Microsoft WPC
HPE Discover
Oracle OpenWorld
Dell EMC World
AWS re:Invent
AWS Summit
PTC LiveWorx
古賀政純「Dockerがもたらすビジネス変革」
さとうなおきの「週刊Azureなう」
誰もが開発者になる時代 ~業務システム開発の現場を行く~
中国ビジネス四方山話
より賢く活用するためのOSS最新動向
「Windows 10」法人導入の手引き
Windows Server 2003サポート終了へ秒読み
米株式動向
実践ビッグデータ
日本株展望
ベトナムでビジネス
アジアのIT
10の事情
エンタープライズトレンド
クラウドと仮想化