スモールデータから知見を見出す「スパースモデリング」

スパースモデリングと機械学習の化学反応--関係性を機械が自動的に発見 - (page 3)

大関真之 2016年03月10日 07時00分

  • このエントリーをはてなブックマークに追加
  • 印刷

データではない、知こそが宝である

 次の日である、新聞を眺めているとこんなニュースが目に飛び込んだ。いまでは普通の言葉と成り果てた機械学習についてのニュースである。

 「京都大学--カンニングの検出に成功

 機械学習でカンニングの検出に成功したそうで、面白いことを考える人もいるものだなと、その瞬間はそう思う程度だった。答案データを出力として、その人がどれだけの能力があり、そして問いた問題がどれだけの難しさがあったのか、さらには他の人の回答結果が反映されているということを入力にすれば、カンニングの推定はできそうだ。なんだ、簡単じゃないか。彼はもはや機械学習のことならすぐに想像できるようになったため、自分の理解を超えるものではないとして軽い気持ちでその新聞をたたんで仕事に向かった。

 昨日の上司の残念そうな顔を思い出す。機械に全て任せているなんて言ったら怒られるかな。正直に言ってしまえば意外に許されるかもしれないな。そんなことを悩みながら、ディスプレイをぼんやりと眺めている。

 「あ、もしかしたら。あの人事評価システムは、どんな比率で、どの入力を大事にしているかを見れば、上司の質問に答えられたかもしれないな」

 そう思い立ってPCのキーボードをたたいて眺めてみると、驚愕の事実に気付く。なんと全ての入力をそれなりに意識して、出力たる評価値を計算していることが分かったのだ。その意識する重みの値を見ると無味乾燥に数値が並んでいるだけで、何が重要なのかよくわからない。

 確かに人の評価というのは微妙なものだ。色々な要素を考慮するのは真実である。しかし、こんなにも微妙にさまざま入力を意識するのか。そこではっと思い出す。カンニングの検出のニュースである。その場合も出て来た出力結果である答案をうまく説明するために、能力や難易度以外の第三者の存在を入力としたら、それらについても微妙に考慮してしまい、誰がカンニングをしたのかなど断定することはできないではないか。

 あわててウェブ版のあのニュースの記事を読む。そこで目に飛び込んだものは「スパース性」である。

 機械は賢く微妙なところもうまく計算をして、なんとかして入力と出力の関係を絶妙に「学習」してくれる。しかし待ってくれ、本当にその要素は必要だったのだろうか。それに答えてくれるのが「スパース性」である。どの要素が必要か不必要か、自動的に判別しながら、データをうまく説明するための入力を絞り出してくれるというのだ。

 彼は早速スパース性について検索しながら、自分のプログラムに組み込むことにした。軟判定しきい値関数など難しいところもあったが、単純な方法をカンニングの検出については行っていることがわかった。

 必要のなさそうな要素、つまりカンニングをしていなさそうな第三者からの影響は従来の計算方法でも、カンニングをしていなさそうだよといわんばかりにその入力を意識する重みが小さいことに気付いた。それを大胆にも切り捨てる。

 これを「デシメーションアルゴリズム」というそうだ。そして切り捨てた入力は、今後一切意識せずに、再び学習を実施するという方法を採用していた。これを続けて行くと次々に必要のない要素を切り捨てて、残ったいくつかの重要な入力だけが残されるというわけだ(図4)。

図4:デシメーションアルゴリズムの様子
図4:デシメーションアルゴリズムの様子
左図では点線で表された弱い関係を右図のようにバッサリと切る

 そのときに全部切り捨てることのないように、データをどれだけうまく説明しているかという数値を見ているのが重要なようだ。その数値が突然減少したら、うまくデータを説明できなくなっているのだ。つまり重要な要素を切り捨ててしまったとして、戻す必要がある。

 そして、「これだ!」という要素にたどり着いたとき、おもわず、声が出た。叫んだ彼に何人かの同僚が視線をやる。上司も気付いたようだ。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

  • このエントリーをはてなブックマークに追加

関連ホワイトペーパー

SpecialPR

連載

CIO
月刊 Windows 10移行の心・技・体
ITアナリストが知る日本企業の「ITの盲点」
シェアリングエコノミーの衝撃
デジタル“失敗学”
コンサルティング現場のカラクリ
Rethink Internet:インターネット再考
インシデントをもたらすヒューマンエラー
トランザクションの今昔物語
エリック松永のデジタルIQ道場
研究現場から見たAI
Fintechの正体
米ZDNet編集長Larryの独り言
大木豊成「仕事で使うアップルのトリセツ」
山本雅史「ハードから読み解くITトレンド放談」
田中克己「展望2020年のIT企業」
松岡功「一言もの申す」
松岡功「今週の明言」
内山悟志「IT部門はどこに向かうのか」
林 雅之「デジタル未来からの手紙」
谷川耕一「エンプラITならこれは知っとけ」
大河原克行「エンプラ徒然」
内製化とユーザー体験の関係
「プロジェクトマネジメント」の解き方
ITは「ひみつ道具」の夢を見る
セキュリティ
セキュリティインシデント対応の現場
エンドポイントセキュリティの4つの「基礎」
企業セキュリティの歩き方
サイバーセキュリティ未来考
ネットワークセキュリティの要諦
セキュリティの論点
スペシャル
エンタープライズAIの隆盛
インシュアテックで変わる保険業界
顧客は勝手に育たない--MAツール導入の心得
「ひとり情シス」の本当のところ
ざっくり解決!SNS担当者お悩み相談室
生産性向上に効くビジネスITツール最前線
ざっくりわかるSNSマーケティング入門
課題解決のためのUI/UX
誰もが開発者になる時代 ~業務システム開発の現場を行く~
「Windows 10」法人導入の手引き
ソフトウェア開発パラダイムの進化
エンタープライズトレンド
10の事情
座談会@ZDNet
Dr.津田のクラウドトップガン対談
Gartner Symposium
IBM World of Watson
de:code
Sapphire Now
VMworld
Microsoft Inspire
Microsoft Connect()
HPE Discover
Oracle OpenWorld
Dell Technologies World
AWS re:Invent
AWS Summit
PTC LiveWorx
吉田行男「より賢く活用するためのOSS最新動向」
古賀政純「Dockerがもたらすビジネス変革」
中国ビジネス四方山話
ベトナムでビジネス
日本株展望
企業決算
このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]