リクルート流ビッグデータ活用術

“ビッグデータ分析”は本当に必要か? - (page 2)

吉永恵一(リクルート住まいカンパニー データサイエンティスト) 

2013-06-18 07:30

 たとえば、男女で男性40%対女性60%の全件データは、ランダムに抽出すると、サンプルデータでも同様にほぼ40%対60%となりますが、男性を多く抽出するというように、そこに恣意性が入りますと、そのサンプルデータは全件データとは異質なデータとなっていることにご注意ください。図1は、ランダム・サンプリング(1.1)と恣意的なサンプリング(1.2)を対比させたイメージ図です。


図1.ビッグデータからサンプルデータの抽出イメージ ※●男性、○女性1.1_ランダム・サンプリング(=無作為抽出)
図1.ビッグデータからサンプルデータの抽出イメージ ※●男性、○女性1.1_ランダム・サンプリング(=無作為抽出)

1.2_恣意的なサンプリング(=有為抽出)
1.2_恣意的なサンプリング(=有為抽出)

 データサイエンティストとしては、できるだけ多くの情報量を用い、誤差を小さくしたいところですが、マーケターとしては、ROIに見合うところで扱うデータ量に見切りをつけたい、という2つの相反するニーズのせめぎ合いの中で、実際は意思決定していくことになります。

 統計学は誤差の学問であるともいわれます。ある程度間違うリスク(=誤差)を許容しながら、分析から得られる恩恵が、掛けるコストに見合う形でデータを活用したいというビジネスニーズに、ランダム・サンプリングという方法は、大いに役に立つでしょう。私自身、SUUMOの分析業務を行う際にデータ全件を分析しなければいけない状況はそれほど多くはありません。時間とコストの節約のためにもランダム・サンプリングを適宜活用することを推奨します。

 これら全件データとサンプルデータとの関係性や法則をより詳しくお知りになりたい方は、「大数の法則」や「中心極限定理」などが記述されている統計学の入門書をご参照ください。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

マイナンバーカードの利用状況を教えてください

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]