では、以上を踏まえて、過去にも登場したサンプルのirisデータ(あやめ)を用いてクラスター分析を実施します。わかりやすい説明のために、irisデータの中でも花弁の長さと幅のデータを使用します。
Rのコンソールに上記のように打ち込んでみましょう。クラスターの数は3、(最終的にそのクラスターに収束するための)繰り返し計算は100、アルゴリズムはHartigan-Wongを使用しています。繰り返し計算をすることで重心を収束させ続けて、変化しない点を求めることで、明確なセグメンテーションができます。この結果を可視化すると、下記の通りになりました。
3種類の異なるセグメントに分けられたので、それぞれに適切なアクションが可能です。この場合はirisデータという答えのあるデータなのですが、本来のデータでクラスタリングを行う際は、こんなにはっきりと違いの出るセグメントはなかなかありません。
以上のように、Rを用いたクラスター分析を実行することは非常に容易です。しかし、重要なことは、この結果からどのような情報を読み取ることができるのかということです。先ほどの結果で言えば、黒のクラスターは離れているため、1つのクラスターを形成していると言えます。しかし、赤と緑のクラスターは分類する必要があるのかどうかをよく咀嚼して判断しなければなりません。
ここがクラスター分析の肝であり、難しいところでもあります。irisデータでは3品種のデータを用いていますので、この分類には意味があります。
これまでも繰り返し、本連載でお伝えしていますが、何をどのように分析するかをじっくり吟味し、どの手法をもって分析し、その結果に対してどのようにアクションを決定するのかという一連の流れがあって初めて、今回ご紹介したクラスター分析が有効に機能してくるのだと筆者は考えています。
- 伊藤徹郎
- 金融機関で営業からモバイル開発までの幅広く経験。その後、ALBERTにデータ分析者として参画。レコメンデーションのアルゴリズム開発やECサイト、小売りなどのCRM分析、広告分析など、幅広いデータをあつかう。Tokyo.Rなどの社外コミュニティでも活動中。