データサイエンティスト講座

何を読み取るのかが重要--統計言語「R」でクラスター分析 - (page 4)

伊藤徹郎(ALBERT)

2014-08-18 07:00

 では、以上を踏まえて、過去にも登場したサンプルのirisデータ(あやめ)を用いてクラスター分析を実施します。わかりやすい説明のために、irisデータの中でも花弁の長さと幅のデータを使用します。


 Rのコンソールに上記のように打ち込んでみましょう。クラスターの数は3、(最終的にそのクラスターに収束するための)繰り返し計算は100、アルゴリズムはHartigan-Wongを使用しています。繰り返し計算をすることで重心を収束させ続けて、変化しない点を求めることで、明確なセグメンテーションができます。この結果を可視化すると、下記の通りになりました。


 3種類の異なるセグメントに分けられたので、それぞれに適切なアクションが可能です。この場合はirisデータという答えのあるデータなのですが、本来のデータでクラスタリングを行う際は、こんなにはっきりと違いの出るセグメントはなかなかありません。

 以上のように、Rを用いたクラスター分析を実行することは非常に容易です。しかし、重要なことは、この結果からどのような情報を読み取ることができるのかということです。先ほどの結果で言えば、黒のクラスターは離れているため、1つのクラスターを形成していると言えます。しかし、赤と緑のクラスターは分類する必要があるのかどうかをよく咀嚼して判断しなければなりません。

 ここがクラスター分析の肝であり、難しいところでもあります。irisデータでは3品種のデータを用いていますので、この分類には意味があります。

 これまでも繰り返し、本連載でお伝えしていますが、何をどのように分析するかをじっくり吟味し、どの手法をもって分析し、その結果に対してどのようにアクションを決定するのかという一連の流れがあって初めて、今回ご紹介したクラスター分析が有効に機能してくるのだと筆者は考えています。

 

伊藤徹郎
金融機関で営業からモバイル開発までの幅広く経験。その後、ALBERTにデータ分析者として参画。レコメンデーションのアルゴリズム開発やECサイト、小売りなどのCRM分析、広告分析など、幅広いデータをあつかう。Tokyo.Rなどの社外コミュニティでも活動中。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

関連記事

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]