編集部からのお知らせ
「ZDNet Japan Summit」参加登録受付中! 
新着記事集:「負荷分散」
データサイエンティスト講座

落とし穴を回避する―データの読み方、考え方

伊藤徹郎(ALBERT)

2014-02-05 07:30

 第1回第2回では目的を持って分析を実施することの重要性を解説しました。では、実際にデータを分析する際に扱うデータはどのようなものがあるのでしょうか。データはあくまで記号の羅列です。それぞれに意味があり、適切なコンテキスト(背景や意味)を読み取れなければ、正しいデータ分析はできません。そこで、今回はデータの基本的な尺度や統計量などを説明したいと思います。

データの4つの尺度について

 データには主に4つの尺度があります。尺度とは物事の判断における基準のことです。基本的な集計においても、多変量解析や機械学習においても、この尺度が非常に重要です。なぜなら、適切な手法に対して、適切な尺度のデータを選択しなければ正しい分析を実施できないからです。

名義尺度

 名義尺度とは物事を識別するための尺度のことです。例えば、男女や都道府県などが挙げられます。多くの場合、この名義尺度を数値と対応させ、データベースに保存することが一般的です。先ほどの例で言えば、男が1、女が2というような番号が付与されます。

順序尺度

 順序尺度はランキングの1位、2位、3位や兄弟姉妹などのように、大小関係に意味のある尺度のことです。1位と2位の距離などの間隔については、関知せず、順位の大小のみを扱います。

間隔尺度

 数値の差のみに意味のある尺度です。代表例としては気温が挙げられます。例えば、気温が10℃から20℃に上がった場合、気温が10℃上がったとは言いますが、2倍に上がったとは言いません。これは数値の差のみに意味があるためです。

比尺度

 間隔尺度かつゼロに意味のある尺度のことを指します。最も馴染みのある尺度で、金額や人数などの多くの数値がこの尺度です。間隔尺度では差のみでしたが、この尺度では比率が意味を持ちます。

 分析の現場では名義尺度と順序尺度を「質的データ」(カテゴリカルデータ)と呼び、間隔尺度と比尺度を「量的データ」と呼びます。量的データは平均値や標準偏差などを計算することができますが、質的データの場合は度数という形で頻度を定量化し扱うこともあります。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

特集

CIO

モバイル

セキュリティ

スペシャル

ホワイトペーパー

新着

ランキング

  1. クラウドコンピューティング

    Google Cloudセキュリティ基盤ガイド、設計から運用までのポイントを網羅

  2. セキュリティ

    仮想化・自動化を活用して次世代データセンターを構築したJR東日本情報システム

  3. ビジネスアプリケーション

    スモールスタート思考で業務を改善! 「社内DX」推進のためのキホンを知る

  4. セキュリティ

    Emotetへの感染を導く攻撃メールが多数報告!侵入を前提に対応するEDRの導入が有力な解決策に

  5. セキュリティ

    偽装ウイルスを見抜けず水際対策の重要性を痛感!竹中工務店が実施した2万台のPCを守る方法とは

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNet Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]