編集部からのお知らせ
新着記事まとめPDF「データサイエンティスト」
ZDNet Summit 2021開催のご案内
データサイエンティスト講座

落とし穴を回避する―データの読み方、考え方 - (page 3)

伊藤徹郎(ALBERT)

2014-02-05 07:30

平均の罠

 基本統計量を算出して、分布の形状を把握することの重要性を説明してきました。なぜ、この考え方が重要なのかを平均の罠を例にとって説明しましょう。平均値はビジネスの現場でも多く使われている指標ですが、平均値のみを追ってしまうと思わぬ落とし穴にはまってしまうことがあります。

 あなたが転職活動中だとして、下記の2つの企業を候補とした場合、いずれを選択するでしょうか。

  • A社 平均年齢30.8歳、平均年収807万円
  • B社 平均年齢31.8歳、平均年収620万円

 この条件を提示された場合、おそらくほとんどの人がA社を選択するのではないでしょうか。会社の所在地やその他の事項によってもちろん変わる可能性はありますが、上記の条件だけを考慮するのであれば、平均年齢もさほど変わらないのに、平均年収が高いA社の方が良いはずだと考えるからです。

 ところが、先の条件に加えて、1人ひとりの年齢と年収の分布が下記のような条件に基づいていたらどうでしょうか。


A社とB社の年齢別年収比較(ALBERT提供)

 これは極端な例ですが、先ほどのA社はある1人の上役の存在によって平均値が引き上げられており、B社は平均的な年齢と年収の分布となっています。この分布を見た後では、B社の方が良いと答える人が増加することは容易に想像できます。

 このように、データの一部の統計量の値のみをもって意思決定することには、実はとんでもない落とし穴が存在するのです。

 ビジネスにおいても同じような状況が起き得ます。例えば、あるECサイトの売り上げデータの報告の場合、ある月の平均購買数が3個だったとしても、実は大半のユーザーは1個しか商品を買っておらず、一部の業者のようなユーザーが大量に商品を購入し、平均購買数を引き上げていることがよくあります。

 このような場合、データの頻度分布を実際に見てみたり、先ほど説明した中央値や最頻値などの統計量を算出してみることで、平均の罠を回避できます。特に中央値はいびつな分布の際に、平均値の代替指標として使われることもあります。単純に平均値だけで議論をせずに冷静にデータを考える必要があるでしょう。

伊藤徹郎
金融機関で営業からモバイル開発までの幅広く経験。その後、ALBERTにデータ分析者として参画。レコメンデーションのアルゴリズム開発やECサイト、小売りなどのCRM分析、広告分析など、幅広いデータをあつかう。Tokyo.Rなどの社外コミュニティでも活動中。

Keep up with ZDNet Japan
ZDNet JapanはFacebookTwitterRSSメールマガジンでも情報を配信しています。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

特集

CIO

モバイル

セキュリティ

スペシャル

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNet Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]