概要 UDFの入ったjarを置くだけでhiveから機械学習的なことができるたいへんお手軽なライブラリ、hivemall。 perceptronやlogistic regressionなどのベーシックなものや、AROWやSCWのような比較的新しいものなどが入っている。Hiveのクエリのみで分類問題が完結できるので、機械学習が専門でない人でもそれなりに扱えそうに見える。 現状では分類と回帰ができて、クラスタリングはできない模様。今回は回帰をちょこちょこやらせてみる。 テストデータを作る テストデータ生成用の機能も用意されているけど、今回はPythonで生成してtsvファイルにして送ることにする。下記のようなコードで分類しやすそうな点の集まりを生成。 import numpy as np import pylab as pl n0 = np.random.normal(loc=1.0, scal