データサイエンティスト講座

統計学はなぜ重要なのか--推測統計と記述統計からビッグデータを考える - (page 2)

伊藤徹郎(ALBERT)

2014-01-14 07:30

統計学とは何か

 その前に、統計学とはどのような学問なのでしょうか。私たちの身の回りには、無数のデータが存在していることはすでに述べた通りです。そのデータを漠然と眺めたとしても、それは数値や符号の羅列であり、有用することはできません。データはそもそも何かしらの目的のために取得されたまとまった集合体なので、データの数を整え、集計し、平均や分散(ばらつき)を出すなど、何かしらの手を加える必要があります。

 これによりデータの性質や傾向や意味を知ることが可能となり、初めて活用することができるのです。つまり、統計学とはある程度以上の数のばらつきがあるデータの性質を調べ、大きなデータの集団から一部を抽出し、その抽出したデータの性質を調べることで、元の大きなデータの性質を推測するなどの方法論を体系化した学問なのです。統計学は大きく分けると「記述統計」「推測統計」の2つに分類することができます。

 記述統計とは、収集したデータの平均や分散、標準偏差などを計算し、分布を明らかにすることで、データの傾向や性質を把握する分野です。例えば、学校のテストの点数や偏差値などは記述統計の代表的な例と言えるでしょう。

 一方、推測統計とは、収集できたデータを全体のデータ(母集団)から得られた一部の集団と見なし、その得られたサンプルデータから元の母集団の性質や傾向を推測する分野です。主な代表例としては、選挙の出口調査における速報やテレビの視聴率などが挙げられます。

ビッグデータと統計学

 近年のテクノロジの進歩によって、従来は扱うことのできなかった大容量のデータを扱えるようになり、統計学との関係性はどのように変遷してきたのでしょうか。従来では、数量全体のデータ(全数データ)を得ることができなかったために、推測統計を活用して、母集団の特性や傾向を把握し、その結果から知見や示唆を見出してきました。

 しかし、顧客一人ひとりのデータが蓄積され、データが大容量化することで推測統計を実施する必要がなく、すべてが記述統計でまかなえるようになったことが大きな変化と言えるでしょう。推測にはどうしてもばらつきが生じてしまうため、全数調査ができるのであれば、そちらの方がよいのです。


ALBERT提供

 このような観点から、ビッグデータ活用が注目されました。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]