編集部からのお知らせ
記事まとめ「サードパーティークッキー問題」公開
記事まとめ読み:GIGAスクール
データサイエンティスト講座

何を読み取るのかが重要--統計言語「R」でクラスター分析 - (page 4)

伊藤徹郎(ALBERT)

2014-08-18 07:00

 では、以上を踏まえて、過去にも登場したサンプルのirisデータ(あやめ)を用いてクラスター分析を実施します。わかりやすい説明のために、irisデータの中でも花弁の長さと幅のデータを使用します。


 Rのコンソールに上記のように打ち込んでみましょう。クラスターの数は3、(最終的にそのクラスターに収束するための)繰り返し計算は100、アルゴリズムはHartigan-Wongを使用しています。繰り返し計算をすることで重心を収束させ続けて、変化しない点を求めることで、明確なセグメンテーションができます。この結果を可視化すると、下記の通りになりました。


 3種類の異なるセグメントに分けられたので、それぞれに適切なアクションが可能です。この場合はirisデータという答えのあるデータなのですが、本来のデータでクラスタリングを行う際は、こんなにはっきりと違いの出るセグメントはなかなかありません。

 以上のように、Rを用いたクラスター分析を実行することは非常に容易です。しかし、重要なことは、この結果からどのような情報を読み取ることができるのかということです。先ほどの結果で言えば、黒のクラスターは離れているため、1つのクラスターを形成していると言えます。しかし、赤と緑のクラスターは分類する必要があるのかどうかをよく咀嚼して判断しなければなりません。

 ここがクラスター分析の肝であり、難しいところでもあります。irisデータでは3品種のデータを用いていますので、この分類には意味があります。

 これまでも繰り返し、本連載でお伝えしていますが、何をどのように分析するかをじっくり吟味し、どの手法をもって分析し、その結果に対してどのようにアクションを決定するのかという一連の流れがあって初めて、今回ご紹介したクラスター分析が有効に機能してくるのだと筆者は考えています。

 

伊藤徹郎
金融機関で営業からモバイル開発までの幅広く経験。その後、ALBERTにデータ分析者として参画。レコメンデーションのアルゴリズム開発やECサイト、小売りなどのCRM分析、広告分析など、幅広いデータをあつかう。Tokyo.Rなどの社外コミュニティでも活動中。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

関連記事

特集

CIO

モバイル

セキュリティ

スペシャル

ホワイトペーパー

新着

ランキング

  1. 運用管理

    最先端のデータサイエンティストでいるための5つのヒント—AIによる高度化でデータの達人であり続ける

  2. ビジネスアプリケーション

    経理部門 554人に聞いた「新しい経理部門の働き方」 その実現に向けた具体的な行動指針を解説

  3. セキュリティ

    パンデミックに乗じたサイバー攻撃に屈しない 最新の脅威分析レポートに見る攻撃パターンと対応策

  4. 運用管理

    DX時代にIBM i は継続利用できるのか? モダナイゼーション実施で考えておくべき5つの視点

  5. セキュリティ

    サイバー攻撃でPCに何が起きている? サイバーディフェンス研究所の名和氏が語るフォレンジックのいま

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNet Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]