データサイエンティスト講座

何を読み取るのかが重要--統計言語「R」でクラスター分析 - (page 4)

伊藤徹郎(ALBERT)

2014-08-18 07:00

 では、以上を踏まえて、過去にも登場したサンプルのirisデータ(あやめ)を用いてクラスター分析を実施します。わかりやすい説明のために、irisデータの中でも花弁の長さと幅のデータを使用します。


 Rのコンソールに上記のように打ち込んでみましょう。クラスターの数は3、(最終的にそのクラスターに収束するための)繰り返し計算は100、アルゴリズムはHartigan-Wongを使用しています。繰り返し計算をすることで重心を収束させ続けて、変化しない点を求めることで、明確なセグメンテーションができます。この結果を可視化すると、下記の通りになりました。


 3種類の異なるセグメントに分けられたので、それぞれに適切なアクションが可能です。この場合はirisデータという答えのあるデータなのですが、本来のデータでクラスタリングを行う際は、こんなにはっきりと違いの出るセグメントはなかなかありません。

 以上のように、Rを用いたクラスター分析を実行することは非常に容易です。しかし、重要なことは、この結果からどのような情報を読み取ることができるのかということです。先ほどの結果で言えば、黒のクラスターは離れているため、1つのクラスターを形成していると言えます。しかし、赤と緑のクラスターは分類する必要があるのかどうかをよく咀嚼して判断しなければなりません。

 ここがクラスター分析の肝であり、難しいところでもあります。irisデータでは3品種のデータを用いていますので、この分類には意味があります。

 これまでも繰り返し、本連載でお伝えしていますが、何をどのように分析するかをじっくり吟味し、どの手法をもって分析し、その結果に対してどのようにアクションを決定するのかという一連の流れがあって初めて、今回ご紹介したクラスター分析が有効に機能してくるのだと筆者は考えています。

 

伊藤徹郎
金融機関で営業からモバイル開発までの幅広く経験。その後、ALBERTにデータ分析者として参画。レコメンデーションのアルゴリズム開発やECサイト、小売りなどのCRM分析、広告分析など、幅広いデータをあつかう。Tokyo.Rなどの社外コミュニティでも活動中。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

関連記事

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    「デジタル・フォレンジック」から始まるセキュリティ災禍論--活用したいIT業界の防災マニュアル

  2. 運用管理

    「無線LANがつながらない」という問い合わせにAIで対応、トラブル解決の切り札とは

  3. 運用管理

    Oracle DatabaseのAzure移行時におけるポイント、移行前に確認しておきたい障害対策

  4. 運用管理

    Google Chrome ブラウザ がセキュリティを強化、ゼロトラスト移行で高まるブラウザの重要性

  5. ビジネスアプリケーション

    技術進化でさらに発展するデータサイエンス/アナリティクス、最新の6大トレンドを解説

ZDNET Japan クイックポール

自社にとって最大のセキュリティ脅威は何ですか

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]