データサイエンティスト講座

落とし穴を回避する―データの読み方、考え方

伊藤徹郎(ALBERT)

2014-02-05 07:30

 第1回第2回では目的を持って分析を実施することの重要性を解説しました。では、実際にデータを分析する際に扱うデータはどのようなものがあるのでしょうか。データはあくまで記号の羅列です。それぞれに意味があり、適切なコンテキスト(背景や意味)を読み取れなければ、正しいデータ分析はできません。そこで、今回はデータの基本的な尺度や統計量などを説明したいと思います。

データの4つの尺度について

 データには主に4つの尺度があります。尺度とは物事の判断における基準のことです。基本的な集計においても、多変量解析や機械学習においても、この尺度が非常に重要です。なぜなら、適切な手法に対して、適切な尺度のデータを選択しなければ正しい分析を実施できないからです。

名義尺度

 名義尺度とは物事を識別するための尺度のことです。例えば、男女や都道府県などが挙げられます。多くの場合、この名義尺度を数値と対応させ、データベースに保存することが一般的です。先ほどの例で言えば、男が1、女が2というような番号が付与されます。

順序尺度

 順序尺度はランキングの1位、2位、3位や兄弟姉妹などのように、大小関係に意味のある尺度のことです。1位と2位の距離などの間隔については、関知せず、順位の大小のみを扱います。

間隔尺度

 数値の差のみに意味のある尺度です。代表例としては気温が挙げられます。例えば、気温が10℃から20℃に上がった場合、気温が10℃上がったとは言いますが、2倍に上がったとは言いません。これは数値の差のみに意味があるためです。

比尺度

 間隔尺度かつゼロに意味のある尺度のことを指します。最も馴染みのある尺度で、金額や人数などの多くの数値がこの尺度です。間隔尺度では差のみでしたが、この尺度では比率が意味を持ちます。

 分析の現場では名義尺度と順序尺度を「質的データ」(カテゴリカルデータ)と呼び、間隔尺度と比尺度を「量的データ」と呼びます。量的データは平均値や標準偏差などを計算することができますが、質的データの場合は度数という形で頻度を定量化し扱うこともあります。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    「デジタル・フォレンジック」から始まるセキュリティ災禍論--活用したいIT業界の防災マニュアル

  2. 運用管理

    「無線LANがつながらない」という問い合わせにAIで対応、トラブル解決の切り札とは

  3. 運用管理

    Oracle DatabaseのAzure移行時におけるポイント、移行前に確認しておきたい障害対策

  4. 運用管理

    Google Chrome ブラウザ がセキュリティを強化、ゼロトラスト移行で高まるブラウザの重要性

  5. ビジネスアプリケーション

    技術進化でさらに発展するデータサイエンス/アナリティクス、最新の6大トレンドを解説

ZDNET Japan クイックポール

注目している大規模言語モデル(LLM)を教えてください

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]