入力データを用意する サンプルデータを確認する 前回はセグメンテーション分析の理論編として、セグメンテーション分析と代表的なクラスタリングアルゴリズムであるK-MeansとCanopyクラスタリングについて解説しました。 今回は、実践編として、K-MeansとCanopyクラスタリングによるセグメンテーション分析をMahoutを用いて実際に行います。 なお、本連載の3回目同様、Mahoutのバージョンは現時点の最新版である0.7を対象とします。 今回利用するサンプルデータは、ARFF形式[1]で顧客のRFMが記載されています。@DATA以降が、実際のデータです。 サンプルデータ 今回のデータは、以下のような構造になっています。 1行が顧客1人のデータを意味する カンマ区切りで、左から「R(最終購買日)」「F(購買頻度)」「M(購入金額)」を表す (省略) @DATA 顧
![第5回 K-MeansとCanopyクラスタリングでセグメンテーション分析を行う | gihyo.jp](https://cdn-ak-scissors.b.st-hatena.com/image/square/01f88260714ddf738a027bdacc56c4a1c81b464b/height=288;version=1;width=512/https%3A%2F%2Ffanyv88.com%3A443%2Fhttps%2Fgihyo.jp%2Fassets%2Fimages%2FICON%2F2013%2F1074_mahout.png)