データサイエンティスト講座

何を読み取るのかが重要--統計言語「R」でクラスター分析 - (page 2)

伊藤徹郎(ALBERT)

2014-08-18 07:00

(1)「形状」を基準に分類した場合


 データの「形状」を基準に分類した場合、上記のような分類ができます。

(2)「大きさ」を基準に分類した場合


 データの「大きさ」を基準に分類した場合は、上記のように分類することができます。

 以上のように、すごく簡単な例で示しましたが、クラスター分析とはどのような観点で類似度を設定し、クラスタリングを実施するかでたとえ同じデータだとしても、その分類結果は異なってしまうのです。そのため、クラスター分析には正解はありません。

 先ほどの例のようにあるデータの特徴に基づいて分類すれば、どちらも正解なのです。クラスター分析の際は、過去の連載記事でも指摘したように、データの特性を理解し、どのように分類したいのかをあらかじめ仮説立てておく必要があります。何も仮説設定されていないクラスター分析を実施するくらいであれば、従来のセグメンテーションを設定した方がよいでしょう。この点はあまり理解されていないケースも現場では多く、強く主張しておきたい点でもあります。

 クラスター分析には大きく分けて「階層クラスター分析」と「非階層クラスター分析」の2つの手法があります。階層クラスター分析は“個々のサンプルを1つのクラスターとして、性質が近いものから併合していき、最終的に(全サンプルで表現できる)ひとつの集団にまとめる手法”ですが、本連載では、誌面の都合上扱いません。アンケートデータなどの少数サンプルのデータであれば、ビジネスで有用な知見を導くことができますが、ある程度サンプル数が大きくなってしまうと、なかなか良い結果が得られなくなってしまうためです。

 階層クラスター分析を詳しく知りたい場合は別途、書籍などを推奨します。今回は非階層クラスター分析の中でも最も代表的な手法である「K-means法」について説明し、実際にRを用いて実践してみましょう。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

関連記事

ZDNET Japan クイックポール

注目している大規模言語モデル(LLM)を教えてください

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]