(1)「形状」を基準に分類した場合
データの「形状」を基準に分類した場合、上記のような分類ができます。
(2)「大きさ」を基準に分類した場合
データの「大きさ」を基準に分類した場合は、上記のように分類することができます。
以上のように、すごく簡単な例で示しましたが、クラスター分析とはどのような観点で類似度を設定し、クラスタリングを実施するかでたとえ同じデータだとしても、その分類結果は異なってしまうのです。そのため、クラスター分析には正解はありません。
先ほどの例のようにあるデータの特徴に基づいて分類すれば、どちらも正解なのです。クラスター分析の際は、過去の連載記事でも指摘したように、データの特性を理解し、どのように分類したいのかをあらかじめ仮説立てておく必要があります。何も仮説設定されていないクラスター分析を実施するくらいであれば、従来のセグメンテーションを設定した方がよいでしょう。この点はあまり理解されていないケースも現場では多く、強く主張しておきたい点でもあります。
クラスター分析には大きく分けて「階層クラスター分析」と「非階層クラスター分析」の2つの手法があります。階層クラスター分析は“個々のサンプルを1つのクラスターとして、性質が近いものから併合していき、最終的に(全サンプルで表現できる)ひとつの集団にまとめる手法”ですが、本連載では、誌面の都合上扱いません。アンケートデータなどの少数サンプルのデータであれば、ビジネスで有用な知見を導くことができますが、ある程度サンプル数が大きくなってしまうと、なかなか良い結果が得られなくなってしまうためです。
階層クラスター分析を詳しく知りたい場合は別途、書籍などを推奨します。今回は非階層クラスター分析の中でも最も代表的な手法である「K-means法」について説明し、実際にRを用いて実践してみましょう。