リクルート流ビッグデータ活用術

“ビッグデータ分析”は本当に必要か?

吉永恵一(リクルート住まいカンパニー データサイエンティスト) 

2013-06-18 07:30

 前回の寄稿では、リクルートにおけるビッグデータ活用の概要を紹介しました。

 今回は、具体的な事例をお話しする前に、一度、視点をビッグデータそのものに戻して、“ビッグ”であることの意義や価値をビジネス的な視点や統計的な視点からレビューし直してみたいと思います。


 ビッグデータの“ビッグ”とは、そのものずばり「データ量の膨大さ」を意味しますが、ここで一つ考えていただきたいことがあります。それは、何らかビジネスに役立つ知見を得るために、本当に膨大なデータの分析が必要なのか、ということです。

 インターネットが消費者のライフスタイルへ浸透している昨今、企業側に日々ストックされるウェブアクセスログのような消費者の行動データを、ビジネスに生かせないかと思うのは自然なことだと思います。

 しかし、膨大なデータの分析にかかるコスト、工数とその結果から得られるものを天秤にかけたときに、それらに見合った恩恵を受けられるかというと、必ずしもそうではありません。そこで、投資対効果に見合うリーズナブルな分析を実現するために、リクルート住まいカンパニーでも実践している、統計学のある方法論を用いたデータ量の減少方法をご紹介します。

ランダマイズとサンプリングによるデータ分析

 ビッグデータをそのまま分析した結果とデータ量をある法則により減少させたデータを分析した結果がほぼ同じであれば、コストや工数の観点から後者を取った方がいいことは自明です。みなさまの中には、全てのデータを使わないとデータの真の姿がわからず、意思決定を誤るのではないか、と危惧されている方もいらっしゃるかもしれません。

 ここで重要になってくる考え方は、“ほぼ同じ”結果であるという点です。言い方を換えると、間違っているかもしれないリスク(=誤差)を伴って同じ結果であるということを指します。この誤差が50%や60%だとすると、意思決定に用いることはできませんが、1%や5%だったらどうでしょうか? 

 これらの誤差を許容することでデータサイズを小さくすることができれば、データ分析にかけるコストを少なく、かつ、分析結果による意思決定のスピードを上げることができます。統計学の分野の中でも、特に推測統計という分野で語られる“ランダマイズ”と“サンプリング”という考え方を組み合わせた“ランダム・サンプリング”という方法を活用することで、誤差を小さく抑えつつ、小さなデータから全てのデータを用いた分析とほぼ同じ結果を得ることが可能となります。

 ただし、許容する誤差が小さければ小さいほど、扱うデータサイズは大きくなるというトレードオフの関係になっていますので、どの程度の誤差を許容するのかは、ビジネス要件に合わせて決めていく必要があります。たとえば、マーケティングの意思決定に用いる際には、経験的に5%や10%の誤差を許容する形で、データをサンプリングすることが多くなっています。この“ランダム・サンプリング”が古くから用いられている分野が選挙の出口調査です。

 みなさんもよくご存じのことだと思いますが、現在、選挙の当確情報は、投票者全員の票を全て集計し終わる前に選挙速報として放送されています。そして、その情報が誤報となることは滅多にありません。出口調査の対象者をランダムに抽出することで、このことが実現できます。もちろん、全員の投票結果を待って、当確情報をお知らせする方が正確であることは間違いありません。しかしながら、間違う確率をある程度許容することで、サンプリングされたデータでもその情報がいち早く分かるとすれば、ビジネスでも有利に働くと言えます。

 たとえば、商品を消費者に推薦する際に、共に購入されている商品同士の組み合わせから商品の推薦ルールを構築し、クロスセルを促進させたい、というマーケティング課題があったとします。その場合、商品Aが購入されたら、商品Bを推薦する、といった共起ルール(=共に出現する確率を計算して導出されるルール)を作成することになりますが、全てのデータを分析しなくても、ランダムにデータをサンプリングすることで、全ての消費者の購買データを分析したものとほぼ同じ結果をリーズナブルに導出することが可能になります。

 ただし、“ランダムにサンプリングされた”という前提が重要になってきます。ランダム(=無作為)であるということは、その数値から次の数値を予測することができず、なんらかの法則性に則ったもの(=有為)ではないことを意味しています。ランダムではなく、なんらかの抽出バイアスがかかったサンプルデータを用いても偏った結果しか返ってきません。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    ChatGPTに関連する詐欺が大幅に増加、パロアルトの調査結果に見るマルウェアの現状

  2. セキュリティ

    迫るISMS新規格への移行期限--ISO/IEC27001改訂の意味と求められる対応策とは

  3. セキュリティ

    警察把握分だけで年間4000件発生、IPA10大脅威の常連「標的型攻撃」を正しく知る用語集

  4. セキュリティ

    いま製造業がランサムウェアに狙われている!その被害の実態と実施すべき対策について知る

  5. セキュリティ

    ランサムウェア攻撃に狙われる医療機関、今すぐ実践すべきセキュリティ対策とは?

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]