データサイエンティスト講座

落とし穴を回避する―データの読み方、考え方 - (page 2)

伊藤徹郎(ALBERT)

2014-02-05 07:30

基本統計量とは何か

 基本統計量とはそのデータの基本的な特性を表すものです。最もポピュラーなものは平均値でしょう。多くの方があまり意識せずに使っていると思いますが、平均も立派な統計量の1つなのです。平均値と比較してどの程度上なのか、下なのかを把握することで、相対的な順位を知ることができます。

 ビジネスの現場でよく利用されているMicrosoft Excelにもこの基本統計量を算出してくれる機能があります。それはデータメニュー内にある分析ツールです(アドインのため、デフォルト設定ではメニューにない場合もあります)。この機能によって対象データを指定すると、出てくる統計量は以下の13個です。

  • 「平均」:言わずと知れた値で、データの中間点を表す統計量です。データの真ん中ではなく、重心であることに注意が必要です。
  • 「標準誤差」:母集団から抽出した標本のばらつきの指標です。
  • 「中央値」(メジアン):中央値とはデータを小さい順から並べたとき、ちょうど真ん中に位置する値のことです。いびつな分布のデータの場合、平均よりも重宝する指標です。
  • 「最頻値」(モード):データの中で最も多くの頻度が現れた値のことです。
  • 「標準偏差」:あるデータ群のばらつきの度合いを表したものです。
  • 「分散」:標準偏差と同様にばらつきの度合いを表したものです。√をつけると標準偏差と同じ値になります。
  • 「尖度」:分布の形の先が尖っているか偏平かを表す値です。
  • 「歪度」:分布の左右対称性の違いを表す値です。
  • 「範囲」:観測データの範囲の値です。
  • 「最小」「最大」:データの最大値、最小値です。
  • 「合計」:データの合計値です。
  • 「標本数」:データの観測個数の値です。

 このうち、よく使われる指標が平均や最大、最小、標準偏差です。ただし、実際に観測されるデータはきれいな分布ではないことが圧倒的に多いので、中央値や最頻値、尖度、歪度などの指標で分布の形状を把握する必要があります。


分布と各指標との関係の例(ALBERT提供)

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]