リクルート流ビッグデータ活用術

“ビッグデータ分析”は本当に必要か?

吉永恵一(リクルート住まいカンパニー データサイエンティスト)  2013年06月18日 07時30分

  • このエントリーをはてなブックマークに追加

 前回の寄稿では、リクルートにおけるビッグデータ活用の概要を紹介しました。

 今回は、具体的な事例をお話しする前に、一度、視点をビッグデータそのものに戻して、“ビッグ”であることの意義や価値をビジネス的な視点や統計的な視点からレビューし直してみたいと思います。


 ビッグデータの“ビッグ”とは、そのものずばり「データ量の膨大さ」を意味しますが、ここで一つ考えていただきたいことがあります。それは、何らかビジネスに役立つ知見を得るために、本当に膨大なデータの分析が必要なのか、ということです。

 インターネットが消費者のライフスタイルへ浸透している昨今、企業側に日々ストックされるウェブアクセスログのような消費者の行動データを、ビジネスに生かせないかと思うのは自然なことだと思います。

 しかし、膨大なデータの分析にかかるコスト、工数とその結果から得られるものを天秤にかけたときに、それらに見合った恩恵を受けられるかというと、必ずしもそうではありません。そこで、投資対効果に見合うリーズナブルな分析を実現するために、リクルート住まいカンパニーでも実践している、統計学のある方法論を用いたデータ量の減少方法をご紹介します。

ランダマイズとサンプリングによるデータ分析

 ビッグデータをそのまま分析した結果とデータ量をある法則により減少させたデータを分析した結果がほぼ同じであれば、コストや工数の観点から後者を取った方がいいことは自明です。みなさまの中には、全てのデータを使わないとデータの真の姿がわからず、意思決定を誤るのではないか、と危惧されている方もいらっしゃるかもしれません。

 ここで重要になってくる考え方は、“ほぼ同じ”結果であるという点です。言い方を換えると、間違っているかもしれないリスク(=誤差)を伴って同じ結果であるということを指します。この誤差が50%や60%だとすると、意思決定に用いることはできませんが、1%や5%だったらどうでしょうか? 

 これらの誤差を許容することでデータサイズを小さくすることができれば、データ分析にかけるコストを少なく、かつ、分析結果による意思決定のスピードを上げることができます。統計学の分野の中でも、特に推測統計という分野で語られる“ランダマイズ”と“サンプリング”という考え方を組み合わせた“ランダム・サンプリング”という方法を活用することで、誤差を小さく抑えつつ、小さなデータから全てのデータを用いた分析とほぼ同じ結果を得ることが可能となります。

 ただし、許容する誤差が小さければ小さいほど、扱うデータサイズは大きくなるというトレードオフの関係になっていますので、どの程度の誤差を許容するのかは、ビジネス要件に合わせて決めていく必要があります。たとえば、マーケティングの意思決定に用いる際には、経験的に5%や10%の誤差を許容する形で、データをサンプリングすることが多くなっています。この“ランダム・サンプリング”が古くから用いられている分野が選挙の出口調査です。

 みなさんもよくご存じのことだと思いますが、現在、選挙の当確情報は、投票者全員の票を全て集計し終わる前に選挙速報として放送されています。そして、その情報が誤報となることは滅多にありません。出口調査の対象者をランダムに抽出することで、このことが実現できます。もちろん、全員の投票結果を待って、当確情報をお知らせする方が正確であることは間違いありません。しかしながら、間違う確率をある程度許容することで、サンプリングされたデータでもその情報がいち早く分かるとすれば、ビジネスでも有利に働くと言えます。

 たとえば、商品を消費者に推薦する際に、共に購入されている商品同士の組み合わせから商品の推薦ルールを構築し、クロスセルを促進させたい、というマーケティング課題があったとします。その場合、商品Aが購入されたら、商品Bを推薦する、といった共起ルール(=共に出現する確率を計算して導出されるルール)を作成することになりますが、全てのデータを分析しなくても、ランダムにデータをサンプリングすることで、全ての消費者の購買データを分析したものとほぼ同じ結果をリーズナブルに導出することが可能になります。

 ただし、“ランダムにサンプリングされた”という前提が重要になってきます。ランダム(=無作為)であるということは、その数値から次の数値を予測することができず、なんらかの法則性に則ったもの(=有為)ではないことを意味しています。ランダムではなく、なんらかの抽出バイアスがかかったサンプルデータを用いても偏った結果しか返ってきません。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

  • このエントリーをはてなブックマークに追加

この記事を読んだ方に

関連ホワイトペーパー

連載

CIO
シェアリングエコノミーの衝撃
デジタル“失敗学”
コンサルティング現場のカラクリ
Rethink Internet:インターネット再考
インシデントをもたらすヒューマンエラー
トランザクションの今昔物語
エリック松永のデジタルIQ道場
研究現場から見たAI
Fintechの正体
米ZDNet編集長Larryの独り言
大木豊成「仕事で使うアップルのトリセツ」
山本雅史「ハードから読み解くITトレンド放談」
田中克己「展望2020年のIT企業」
松岡功「一言もの申す」
松岡功「今週の明言」
内山悟志「IT部門はどこに向かうのか」
林 雅之「デジタル未来からの手紙」
谷川耕一「エンプラITならこれは知っとけ」
大河原克行「エンプラ徒然」
内製化とユーザー体験の関係
「プロジェクトマネジメント」の解き方
ITは「ひみつ道具」の夢を見る
セキュリティ
エンドポイントセキュリティの4つの「基礎」
企業セキュリティの歩き方
サイバーセキュリティ未来考
ネットワークセキュリティの要諦
セキュリティの論点
スペシャル
エンタープライズAIの隆盛
インシュアテックで変わる保険業界
顧客は勝手に育たない--MAツール導入の心得
「ひとり情シス」の本当のところ
ざっくり解決!SNS担当者お悩み相談室
生産性向上に効くビジネスITツール最前線
ざっくりわかるSNSマーケティング入門
課題解決のためのUI/UX
誰もが開発者になる時代 ~業務システム開発の現場を行く~
「Windows 10」法人導入の手引き
ソフトウェア開発パラダイムの進化
エンタープライズトレンド
10の事情
座談会@ZDNet
Dr.津田のクラウドトップガン対談
Gartner Symposium
IBM World of Watson
de:code
Sapphire Now
VMworld
Microsoft WPC
Microsoft Connect()
HPE Discover
Oracle OpenWorld
Dell Technologies World
AWS re:Invent
AWS Summit
PTC LiveWorx
吉田行男「より賢く活用するためのOSS最新動向」
古賀政純「Dockerがもたらすビジネス変革」
中国ビジネス四方山話
ベトナムでビジネス
日本株展望
企業決算
このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]