編集部からのお知らせ
記事まとめ「サードパーティークッキー問題」公開
記事まとめ読み:GIGAスクール
リクルート流ビッグデータ活用術

“ビッグデータ分析”は本当に必要か? - (page 2)

吉永恵一(リクルート住まいカンパニー データサイエンティスト) 

2013-06-18 07:30

 たとえば、男女で男性40%対女性60%の全件データは、ランダムに抽出すると、サンプルデータでも同様にほぼ40%対60%となりますが、男性を多く抽出するというように、そこに恣意性が入りますと、そのサンプルデータは全件データとは異質なデータとなっていることにご注意ください。図1は、ランダム・サンプリング(1.1)と恣意的なサンプリング(1.2)を対比させたイメージ図です。


図1.ビッグデータからサンプルデータの抽出イメージ ※●男性、○女性1.1_ランダム・サンプリング(=無作為抽出)
図1.ビッグデータからサンプルデータの抽出イメージ ※●男性、○女性1.1_ランダム・サンプリング(=無作為抽出)

1.2_恣意的なサンプリング(=有為抽出)
1.2_恣意的なサンプリング(=有為抽出)

 データサイエンティストとしては、できるだけ多くの情報量を用い、誤差を小さくしたいところですが、マーケターとしては、ROIに見合うところで扱うデータ量に見切りをつけたい、という2つの相反するニーズのせめぎ合いの中で、実際は意思決定していくことになります。

 統計学は誤差の学問であるともいわれます。ある程度間違うリスク(=誤差)を許容しながら、分析から得られる恩恵が、掛けるコストに見合う形でデータを活用したいというビジネスニーズに、ランダム・サンプリングという方法は、大いに役に立つでしょう。私自身、SUUMOの分析業務を行う際にデータ全件を分析しなければいけない状況はそれほど多くはありません。時間とコストの節約のためにもランダム・サンプリングを適宜活用することを推奨します。

 これら全件データとサンプルデータとの関係性や法則をより詳しくお知りになりたい方は、「大数の法則」や「中心極限定理」などが記述されている統計学の入門書をご参照ください。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

特集

CIO

モバイル

セキュリティ

スペシャル

ホワイトペーパー

新着

ランキング

  1. 運用管理

    最先端のデータサイエンティストでいるための5つのヒント—AIによる高度化でデータの達人であり続ける

  2. ビジネスアプリケーション

    経理部門 554人に聞いた「新しい経理部門の働き方」 その実現に向けた具体的な行動指針を解説

  3. セキュリティ

    パンデミックに乗じたサイバー攻撃に屈しない 最新の脅威分析レポートに見る攻撃パターンと対応策

  4. 運用管理

    DX時代にIBM i は継続利用できるのか? モダナイゼーション実施で考えておくべき5つの視点

  5. セキュリティ

    サイバー攻撃でPCに何が起きている? サイバーディフェンス研究所の名和氏が語るフォレンジックのいま

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNet Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]