編集部からのお知らせ
記事まとめ「サードパーティークッキー問題」公開
記事まとめ読み:GIGAスクール
データサイエンティスト講座

何を読み取るのかが重要--統計言語「R」でクラスター分析 - (page 2)

伊藤徹郎(ALBERT)

2014-08-18 07:00

(1)「形状」を基準に分類した場合


 データの「形状」を基準に分類した場合、上記のような分類ができます。

(2)「大きさ」を基準に分類した場合


 データの「大きさ」を基準に分類した場合は、上記のように分類することができます。

 以上のように、すごく簡単な例で示しましたが、クラスター分析とはどのような観点で類似度を設定し、クラスタリングを実施するかでたとえ同じデータだとしても、その分類結果は異なってしまうのです。そのため、クラスター分析には正解はありません。

 先ほどの例のようにあるデータの特徴に基づいて分類すれば、どちらも正解なのです。クラスター分析の際は、過去の連載記事でも指摘したように、データの特性を理解し、どのように分類したいのかをあらかじめ仮説立てておく必要があります。何も仮説設定されていないクラスター分析を実施するくらいであれば、従来のセグメンテーションを設定した方がよいでしょう。この点はあまり理解されていないケースも現場では多く、強く主張しておきたい点でもあります。

 クラスター分析には大きく分けて「階層クラスター分析」と「非階層クラスター分析」の2つの手法があります。階層クラスター分析は“個々のサンプルを1つのクラスターとして、性質が近いものから併合していき、最終的に(全サンプルで表現できる)ひとつの集団にまとめる手法”ですが、本連載では、誌面の都合上扱いません。アンケートデータなどの少数サンプルのデータであれば、ビジネスで有用な知見を導くことができますが、ある程度サンプル数が大きくなってしまうと、なかなか良い結果が得られなくなってしまうためです。

 階層クラスター分析を詳しく知りたい場合は別途、書籍などを推奨します。今回は非階層クラスター分析の中でも最も代表的な手法である「K-means法」について説明し、実際にRを用いて実践してみましょう。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

関連記事

特集

CIO

モバイル

セキュリティ

スペシャル

ホワイトペーパー

新着

ランキング

  1. 運用管理

    最先端のデータサイエンティストでいるための5つのヒント—AIによる高度化でデータの達人であり続ける

  2. ビジネスアプリケーション

    経理部門 554人に聞いた「新しい経理部門の働き方」 その実現に向けた具体的な行動指針を解説

  3. セキュリティ

    パンデミックに乗じたサイバー攻撃に屈しない 最新の脅威分析レポートに見る攻撃パターンと対応策

  4. 運用管理

    DX時代にIBM i は継続利用できるのか? モダナイゼーション実施で考えておくべき5つの視点

  5. セキュリティ

    サイバー攻撃でPCに何が起きている? サイバーディフェンス研究所の名和氏が語るフォレンジックのいま

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNet Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]