動機 Python用の機械学習ライブラリscikit-learnは機械学習がさっぱりわからない私のような素人にも機械学習が使えるというすごいライブラリだ。正直大学時代に機械学習概論の単位を落としかけて以来、あまり寄り付かないようにしていたのだけれど、データサイエンティストっていうのは話しによればお金になるらしい。というわけでそういうスケベゴコロ満開で機械学習ライブラリに何かデータを分析させてみようと思う。 今回のモチベーションは http://blog.parosky.net/archives/2212 でツイートの文章クラスタリングを見たので、ここのところを2chのレスに変えてやってみよう、というだけの話。それだけでは華がないので、PaaSサービス上で動かしてみたいな、というところ。つまり今回目指すのは scikit-learnを使っての文章クラスタリング scikit-learnに文章