SlideShare a Scribd company logo
Jubatusの紹介


2011/12/17 @さくさくテキストマイニング
    株式会社Preferred Infrastructure
       海野  裕也 (@unnonouno)
⾃自⼰己紹介

l    海野  裕也 (@unnonouno)
      l    unno/no/uno
      l    プリファードインフラストラクチャー (PFI)
      l    研究開発部
      l    検索索エンジンSedueの会社


l    専⾨門
      l    ⾃自然⾔言語処理理
      l    テキストマイニング


                        2
今⽇日の内容


  l  Jubatusの宣伝をしに来ました  :-)
   l  それ以上のはなしは有りません
    l  読み⽅方は「ゆばたす」です




              3
Big Data !

l    データはこれからも増加し続ける
      l    多いことより増えていくということが重要
      l    データ量量の変化に対応できるスケーラブルなシステムが求めら
            れる


l    データの種類は多様化
      l    定形データのみならず、⾮非定形データも増加
      l    テキスト、⾏行行動履履歴、⾳音声、映像、信号


l    ⽣生成される分野も多様化
      l    PC、モバイル、センサー、⾞車車、⼯工場、EC、病院


                           4
データを活⽤用する

STEP 1. ⼤大量量のデータを捨てずに蓄積できるようになってきた
STEP 2. データを分析することで、現状の把握、理理解ができる
STEP 3. 状況を理理解し、現状の改善、予測ができる

l 世の中的には、蓄積から把握、理理解に向かった段階

                この本が実際        この⼈人は30代
   本の購買情報       に売れている        男性なので、
   を全て記録で       のは意外にも        この本を買う
   きるように        30代のおっさ       のではない
   なった!         ん達だ!          か?


    蓄積           理理解          予測
               より深い解析へ
                  5
Jubatus
l    NTT  PF研とPreferred  Infrastructureによる共同開発
      10/27よりOSSで公開  http://jubat.us/




      リアルタイム  
       ストリーム         分散並列列          深い解析
                          6
開発の経緯(PFI側から⾒見見た)

l    もともと機械学習が得意だった
      l  @hillbig (フェロー)
      l  特にオンライン学習に関しては5年年前くらい(研究

          室に⼀一緒にいた時)からずっと調べてた
l    もともとHadoopが得意だった
      l    @kzk_mover (元CTO)
      l    ⽇日本Hadoopユーザー会


l    Hadoopではできない⼤大規模データ解析をやろ
      う!
                            7
Hadoopとは?


バッチ処理理の分散フレームワーク

l  中⾝身はGoogleのMap/Reduceの実装
l  コモディティマシンを並べて並列列化
l  Mahout/Hive/ZookeeperなどのHadoopファミ
    リーを構成




                  8
Hadoopの特徴

l    速い!
      l    ⼤大量量のデータを⼀一気に処理理
l    分散する!
      l    ⾜足りなかったら継ぎ⾜足そう
l    ロバスト!
      l    サーバーは壊れるもの


l    遅い
      l    結果が帰ってくるまでの時間は遅い

                          9
機械学習とは?

l    ⼤大量量のデータから規則や傾向を解析、分析や予
      測に活⽤用する

l    データがある分野、どこでも活⽤用
      l    ⾃自然⾔言語処理理、パターン認識識、画像、⾳音声、etc.
l    研究ベースのOSSが多い
      l    libsvm/liblinear/Mallet/crf++/R
l    すでに実⽤用化が進んでいる
      l    Gmailの重要ボタン(分類問題)、推薦システム(近傍探索索)、
            バグの有無も予想できるらしいよ
                                 10
オンライン学習は学習⼿手法の⽅方式の⼀一つ

l    バッチ学習
      l  データを全体を⾒見見て重みを調整する

      l  参考書を全部解いてから答え合わせ



                            学習器


l    オンライン学習
      l  1つずつデータを⾒見見て重みの更更新を繰り返す

      l  ⼀一問ずつ解いて答え合わせ


                               学習器


                     11
機械学習・オンライン学習の特徴

l    速い!
      l    データを受け取ったらすぐ学習
l    速い!
      l    5年年前:学習10時間、今:学習10分
l    便便利利!
      l    ルール書くの疲れた


l    分散させる技術がない


                        12
分散かつオンラインの機械学習

l    処理理が速い!
      l    処理理の完了了を待つ時間が少ない
      l    5分前のTV番組の影響を反映した広告推薦ができる
      l    5分前の交通量量から渋滞をさけた経路路を提案できる
l    ⼤大規模!
      l    処理理が間に合わなくなったらスケールアウト
      l    ⽇日本全国からデータが集まる状態でも動かしたい
l    機械学習の深い分析!
      l    単純なカウント以上の精度度を


                       13
こんなことができる?:リアルタイムレコメンド

⾖豆腐が健康にイイ
                      小売	
    ヨー      影響の予測	




        変化の検知	
 ユーザーの購買行動	



                      広告配信	
               14
テキストマイニングとの関係

l    Jubatus⾃自体は基盤よりの技術
      l    分散フレームワーク
      l    機械学習
      l    Hadoop + Mahoutくらいのレイヤー


l    具体的な解析⾃自体はその上に構築

l    ⼤大規模リアルタイムにテキスト分析する⽤用途に
      使えるかも

                          15
技術の視点で⾒見見るとテキストマイニングは複合技術
アプリ	
                                             理論	

              ⾃自然⾔言語                         統計
                処理理
                                機械学習

テキスト           マイニング              ⽂文字列列処理理
マイニング
                       Jubatus
                       はこの辺                  分散

        検索索
                   ストリーム                 乱択
                     処理理               アルゴリズム
                         16
機械学習のような⾼高度度な分析は必要なのか?


l  数を数える以上の処理理はいらないんじゃ
 ない?

l  すでに使われている
 l  レコメンド(近傍探索索)

 l  スパム分類(分類)

l  応⽤用範囲は広い
 l  ⾔言語、画像、⾳音声、センサー、etc.

                 17
研究業界に⾒見見る機械学習と⾃自然⾔言語を振り返る


  90年代 規則を人手でたくさん書く
    正規表現、文法、コスト、重み	

  2000年前後 自然言語処理に機械学習登場
    SVM, ME, CRF

  00年代 機械学習を使わないほうがマイナー
    Chasen、MeCabの成功
    OSSにも深く浸透	

    研究者だけに使わせるのはもったいない
             18
機械学習ライブラリの敷居はまだ⾼高い

l    libsvmフォーマット
      l    +1 1:1 3:1 8:1
      l    何よこれ?  ←普通の⼈人の反応


l    ハイパーパラメータ
      l    「Cはいくつにしましたか?」
      l    Cってなんだよ・・・  ←普通の⼈人の反応

l    研究者向き、エンジニアが広く使えない

                        19
RDBやHadoopから学ぶべきこと

l    わからない
      l    リレーショナル理理論論
      l    クエリオプティマイザ
      l    トランザクション処理理
      l    分散計算モデル


l    わかる
      l    SQL
      l    Map/Reduce
      l    「あとは裏裏でよろしくやってくれるんでしょ?」
                          20
Jubatus裏裏の⽬目標



               全ての⼈人に機械学習を!

l    わからない
      l    オンライン凸最適化
      l    事後確率率率最⼤大化
      l    MCMC、変分ベイズ
      l    特徴抽出、カーネルトリック
l    わかる
      l    ⾃自動分類、推薦
      l    「あとはよろしくやってくれるんでしょ?」
                        21
⽣生データを突っ込めば動くようにしたい

l    Jubatusの⼊入⼒力力はキー・バリュー
      l    最初は任意のJSONだった
      l    twitter APIの⽣生出⼒力力を⼊入⼒力力できるようにしたかった


l    あとは勝⼿手に適当に処理理してくれる
      l    ⾔言語判定して
      l    各キーが何を表すのか⾃自動で推定して
      l    勝⼿手に適切切な特徴抽出を選ばせる
      l    (予定、まだできない)


                            22
雰囲気だけ

l    典型的な特徴抽出は⽤用意しておく
      l    MeCabで分割して単語を特徴に
      l    ⽂文字Nグラムを特徴に
      l    正規表現で部分⽂文字列列の切切り出し


l    弄弄るのは設定だけ
      l    お客さん先でコンパイルし直しとか⾟辛い・・・
      l    パッチを当ててもらうのはリスクが⾼高い



                        23
使い⽅方のイメージ(分類)



key    value
年年齢    28
ID     unnonouno
                                    男性!
コメント   Jubatus動い
       たー
プロ     PFIで働いて
フィール   ます

                      裏裏にある規則
                   PFI à 男性?
                   Jubatus à 男性?

                     24
インストールは⾯面倒くさいよ!

l    Macなら
      l  port install jubatus
      l  でインストールできるようにしてくれた⽅方がいらっ

          しゃいました


l    Linuxなら
      l    ./waf configure & ./waf
      l    sudo ./waf install
      l    だいたいどこかでコンパイルエラー


                           25
今後どうなる?

l    分類以外の機能追加
      l    統計情報
      l    回帰
      l    レコメンド


l    複数のプログラミング⾔言語から使える
      l    今は、C++, Python, Ruby, PHP(外部の⽅方が作って
            くれた)


l    さらに、可視化?管理理画⾯面?
                           26
まとめ

l    Jubatusとは何か?
      l    分散基盤
      l    オンライン学習


l    すべての⼈人に機械学習を
      l    典型的な例例は設定だけで
      l    SQLより簡単に使えるといいね!


l    使いやすさはこれからです

                       27

More Related Content

What's hot (20)

子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得
Yuya Unno
 
ピーFIの研究開発現場
ピーFIの研究開発現場ピーFIの研究開発現場
ピーFIの研究開発現場
Yuya Unno
 
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 ELLA: An Efficient Lifelong Learning AlgorithmICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
Yuya Unno
 
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Yuya Unno
 
深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション
Yuya Unno
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理
Yuya Unno
 
Emnlp読み会資料
Emnlp読み会資料Emnlp読み会資料
Emnlp読み会資料
Jiro Nishitoba
 
子どもの言語獲得のモデル化とNN Language ModelsNN
子どもの言語獲得のモデル化とNN Language ModelsNN 子どもの言語獲得のモデル化とNN Language ModelsNN
子どもの言語獲得のモデル化とNN Language ModelsNN
Chiba Institute of Technology
 
深層学習フレームワークChainerの特徴
深層学習フレームワークChainerの特徴深層学習フレームワークChainerの特徴
深層学習フレームワークChainerの特徴
Yuya Unno
 
全脳アーキテクチャ若手の会20170131
全脳アーキテクチャ若手の会20170131全脳アーキテクチャ若手の会20170131
全脳アーキテクチャ若手の会20170131
Hangyo Masatsugu
 
予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル
Yuya Unno
 
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
Yuya Unno
 
Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会
Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会
Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会
Yuya Unno
 
Jubatusにおける機械学習のテスト@MLCT
Jubatusにおける機械学習のテスト@MLCTJubatusにおける機械学習のテスト@MLCT
Jubatusにおける機械学習のテスト@MLCT
Yuya Unno
 
自然言語処理紹介(就職編)
自然言語処理紹介(就職編)自然言語処理紹介(就職編)
自然言語処理紹介(就職編)
長岡技術科学大学 自然言語処理研究室
 
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみたFacebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
株式会社メタップスホールディングス
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Yuya Unno
 
IPAB2017 深層学習を使った新薬の探索から創造へ
IPAB2017 深層学習を使った新薬の探索から創造へIPAB2017 深層学習を使った新薬の探索から創造へ
IPAB2017 深層学習を使った新薬の探索から創造へ
Preferred Networks
 
NLP2017 NMT Tutorial
NLP2017 NMT TutorialNLP2017 NMT Tutorial
NLP2017 NMT Tutorial
Toshiaki Nakazawa
 
子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得
Yuya Unno
 
ピーFIの研究開発現場
ピーFIの研究開発現場ピーFIの研究開発現場
ピーFIの研究開発現場
Yuya Unno
 
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 ELLA: An Efficient Lifelong Learning AlgorithmICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
Yuya Unno
 
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Yuya Unno
 
深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション
Yuya Unno
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理
Yuya Unno
 
子どもの言語獲得のモデル化とNN Language ModelsNN
子どもの言語獲得のモデル化とNN Language ModelsNN 子どもの言語獲得のモデル化とNN Language ModelsNN
子どもの言語獲得のモデル化とNN Language ModelsNN
Chiba Institute of Technology
 
深層学習フレームワークChainerの特徴
深層学習フレームワークChainerの特徴深層学習フレームワークChainerの特徴
深層学習フレームワークChainerの特徴
Yuya Unno
 
全脳アーキテクチャ若手の会20170131
全脳アーキテクチャ若手の会20170131全脳アーキテクチャ若手の会20170131
全脳アーキテクチャ若手の会20170131
Hangyo Masatsugu
 
予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル
Yuya Unno
 
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
Yuya Unno
 
Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会
Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会
Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会
Yuya Unno
 
Jubatusにおける機械学習のテスト@MLCT
Jubatusにおける機械学習のテスト@MLCTJubatusにおける機械学習のテスト@MLCT
Jubatusにおける機械学習のテスト@MLCT
Yuya Unno
 
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみたFacebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
株式会社メタップスホールディングス
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Yuya Unno
 
IPAB2017 深層学習を使った新薬の探索から創造へ
IPAB2017 深層学習を使った新薬の探索から創造へIPAB2017 深層学習を使った新薬の探索から創造へ
IPAB2017 深層学習を使った新薬の探索から創造へ
Preferred Networks
 

Viewers also liked (20)

企業における自然言語処理技術利用の最先端
企業における自然言語処理技術利用の最先端企業における自然言語処理技術利用の最先端
企業における自然言語処理技術利用の最先端
Yuya Unno
 
ACL2011読み会 Exploiting Web-Derived Selectional Preference to Improve Statistic...
ACL2011読み会 Exploiting Web-Derived Selectional Preference to Improve Statistic...ACL2011読み会 Exploiting Web-Derived Selectional Preference to Improve Statistic...
ACL2011読み会 Exploiting Web-Derived Selectional Preference to Improve Statistic...
Yuya Unno
 
形態素列パターンマッチャー MIURAをつくりました @DSIRNLP#6
形態素列パターンマッチャーMIURAをつくりました @DSIRNLP#6形態素列パターンマッチャーMIURAをつくりました @DSIRNLP#6
形態素列パターンマッチャー MIURAをつくりました @DSIRNLP#6
Yuya Unno
 
N-gram統計量からの係り受け情報の復元 (YANS2011)
N-gram統計量からの係り受け情報の復元 (YANS2011)N-gram統計量からの係り受け情報の復元 (YANS2011)
N-gram統計量からの係り受け情報の復元 (YANS2011)
Yuya Unno
 
KDD2015論文読み会
KDD2015論文読み会KDD2015論文読み会
KDD2015論文読み会
Sotetsu KOYAMADA(小山田創哲)
 
知能型システム論(後半)
知能型システム論(後半)知能型システム論(後半)
知能型システム論(後半)
Sotetsu KOYAMADA(小山田創哲)
 
強化学習勉強会・論文紹介(第22回)
強化学習勉強会・論文紹介(第22回)強化学習勉強会・論文紹介(第22回)
強化学習勉強会・論文紹介(第22回)
Sotetsu KOYAMADA(小山田創哲)
 
2009年4月8日セミナー 2.Sedue新機能
2009年4月8日セミナー 2.Sedue新機能2009年4月8日セミナー 2.Sedue新機能
2009年4月8日セミナー 2.Sedue新機能
Preferred Networks
 
PRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルPRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデル
Shohei Okada
 
匿名化の崩壊
匿名化の崩壊匿名化の崩壊
匿名化の崩壊
Hiroshi Nakagawa
 
KDD2014勉強会 発表資料
KDD2014勉強会 発表資料KDD2014勉強会 発表資料
KDD2014勉強会 発表資料
Sotetsu KOYAMADA(小山田創哲)
 
強化学習勉強会・論文紹介(Kulkarni et al., 2016)
強化学習勉強会・論文紹介(Kulkarni et al., 2016)強化学習勉強会・論文紹介(Kulkarni et al., 2016)
強化学習勉強会・論文紹介(Kulkarni et al., 2016)
Sotetsu KOYAMADA(小山田創哲)
 
Principal Sensitivity Analysis
Principal Sensitivity AnalysisPrincipal Sensitivity Analysis
Principal Sensitivity Analysis
Sotetsu KOYAMADA(小山田創哲)
 
KDD2016論文読み会資料(DeepIntent)
KDD2016論文読み会資料(DeepIntent) KDD2016論文読み会資料(DeepIntent)
KDD2016論文読み会資料(DeepIntent)
Sotetsu KOYAMADA(小山田創哲)
 
PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講
Sotetsu KOYAMADA(小山田創哲)
 
入門パターン認識と機械学習 1章 2章
入門パターン認識と機械学習 1章 2章入門パターン認識と機械学習 1章 2章
入門パターン認識と機械学習 1章 2章
hiro5585
 
【強化学習】Montezuma's Revenge @ NIPS2016
【強化学習】Montezuma's Revenge @ NIPS2016【強化学習】Montezuma's Revenge @ NIPS2016
【強化学習】Montezuma's Revenge @ NIPS2016
Sotetsu KOYAMADA(小山田創哲)
 
機械学習の全般について 4
機械学習の全般について 4機械学習の全般について 4
機械学習の全般について 4
Masato Nakai
 
20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則
koba cky
 
クラシックな機械学習の入門 3. 線形回帰および識別
クラシックな機械学習の入門 3. 線形回帰および識別クラシックな機械学習の入門 3. 線形回帰および識別
クラシックな機械学習の入門 3. 線形回帰および識別
Hiroshi Nakagawa
 
企業における自然言語処理技術利用の最先端
企業における自然言語処理技術利用の最先端企業における自然言語処理技術利用の最先端
企業における自然言語処理技術利用の最先端
Yuya Unno
 
ACL2011読み会 Exploiting Web-Derived Selectional Preference to Improve Statistic...
ACL2011読み会 Exploiting Web-Derived Selectional Preference to Improve Statistic...ACL2011読み会 Exploiting Web-Derived Selectional Preference to Improve Statistic...
ACL2011読み会 Exploiting Web-Derived Selectional Preference to Improve Statistic...
Yuya Unno
 
形態素列パターンマッチャー MIURAをつくりました @DSIRNLP#6
形態素列パターンマッチャーMIURAをつくりました @DSIRNLP#6形態素列パターンマッチャーMIURAをつくりました @DSIRNLP#6
形態素列パターンマッチャー MIURAをつくりました @DSIRNLP#6
Yuya Unno
 
N-gram統計量からの係り受け情報の復元 (YANS2011)
N-gram統計量からの係り受け情報の復元 (YANS2011)N-gram統計量からの係り受け情報の復元 (YANS2011)
N-gram統計量からの係り受け情報の復元 (YANS2011)
Yuya Unno
 
2009年4月8日セミナー 2.Sedue新機能
2009年4月8日セミナー 2.Sedue新機能2009年4月8日セミナー 2.Sedue新機能
2009年4月8日セミナー 2.Sedue新機能
Preferred Networks
 
PRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルPRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデル
Shohei Okada
 
入門パターン認識と機械学習 1章 2章
入門パターン認識と機械学習 1章 2章入門パターン認識と機械学習 1章 2章
入門パターン認識と機械学習 1章 2章
hiro5585
 
機械学習の全般について 4
機械学習の全般について 4機械学習の全般について 4
機械学習の全般について 4
Masato Nakai
 
20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則
koba cky
 
クラシックな機械学習の入門 3. 線形回帰および識別
クラシックな機械学習の入門 3. 線形回帰および識別クラシックな機械学習の入門 3. 線形回帰および識別
クラシックな機械学習の入門 3. 線形回帰および識別
Hiroshi Nakagawa
 

Similar to Jubatusの紹介@第6回さくさくテキストマイニング (20)

Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Yuya Unno
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Preferred Networks
 
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームJubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Preferred Networks
 
研究・企業・生き方について 情報科学若手の会2011
研究・企業・生き方について 情報科学若手の会2011研究・企業・生き方について 情報科学若手の会2011
研究・企業・生き方について 情報科学若手の会2011
Preferred Networks
 
機械学習CROSS 前半資料
機械学習CROSS 前半資料機械学習CROSS 前半資料
機械学習CROSS 前半資料
Shohei Hido
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習
Preferred Networks
 
aiconf2017okanohara
aiconf2017okanoharaaiconf2017okanohara
aiconf2017okanohara
Preferred Networks
 
Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤
Shohei Hido
 
ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」
Masaru Nagaku
 
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
Preferred Networks
 
【Hpcstudy】みんな、ベンチマークどうやってるの?
【Hpcstudy】みんな、ベンチマークどうやってるの?【Hpcstudy】みんな、ベンチマークどうやってるの?
【Hpcstudy】みんな、ベンチマークどうやってるの?
Seiichiro Ishida
 
DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用
Kazuki Fujikawa
 
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase
Tatsuya Shirakawa
 
どたばたかいぎ成果発表
どたばたかいぎ成果発表どたばたかいぎ成果発表
どたばたかいぎ成果発表
Eric Sartre
 
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27
Kensuke Mitsuzawa
 
Perl で自然言語処理
Perl で自然言語処理Perl で自然言語処理
Perl で自然言語処理
Toshinori Sato
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
Yuya Unno
 
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
Webpla LLC.
 
音声認識超比較、各社コグニティブサービス全部入り
音声認識超比較、各社コグニティブサービス全部入り音声認識超比較、各社コグニティブサービス全部入り
音声認識超比較、各社コグニティブサービス全部入り
takuino
 
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Yuya Unno
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Preferred Networks
 
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームJubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Preferred Networks
 
研究・企業・生き方について 情報科学若手の会2011
研究・企業・生き方について 情報科学若手の会2011研究・企業・生き方について 情報科学若手の会2011
研究・企業・生き方について 情報科学若手の会2011
Preferred Networks
 
機械学習CROSS 前半資料
機械学習CROSS 前半資料機械学習CROSS 前半資料
機械学習CROSS 前半資料
Shohei Hido
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習
Preferred Networks
 
Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤
Shohei Hido
 
ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」
Masaru Nagaku
 
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
Preferred Networks
 
【Hpcstudy】みんな、ベンチマークどうやってるの?
【Hpcstudy】みんな、ベンチマークどうやってるの?【Hpcstudy】みんな、ベンチマークどうやってるの?
【Hpcstudy】みんな、ベンチマークどうやってるの?
Seiichiro Ishida
 
DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用
Kazuki Fujikawa
 
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase
Tatsuya Shirakawa
 
どたばたかいぎ成果発表
どたばたかいぎ成果発表どたばたかいぎ成果発表
どたばたかいぎ成果発表
Eric Sartre
 
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27
Kensuke Mitsuzawa
 
Perl で自然言語処理
Perl で自然言語処理Perl で自然言語処理
Perl で自然言語処理
Toshinori Sato
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
Yuya Unno
 
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
Webpla LLC.
 
音声認識超比較、各社コグニティブサービス全部入り
音声認識超比較、各社コグニティブサービス全部入り音声認識超比較、各社コグニティブサービス全部入り
音声認識超比較、各社コグニティブサービス全部入り
takuino
 

More from Yuya Unno (18)

深層学習で切り拓くパーソナルロボットの未来
深層学習で切り拓くパーソナルロボットの未来深層学習で切り拓くパーソナルロボットの未来
深層学習で切り拓くパーソナルロボットの未来
Yuya Unno
 
深層学習時代の 自然言語処理ビジネス
深層学習時代の自然言語処理ビジネス深層学習時代の自然言語処理ビジネス
深層学習時代の 自然言語処理ビジネス
Yuya Unno
 
ベンチャー企業で言葉を扱うロボットの研究開発をする
ベンチャー企業で言葉を扱うロボットの研究開発をするベンチャー企業で言葉を扱うロボットの研究開発をする
ベンチャー企業で言葉を扱うロボットの研究開発をする
Yuya Unno
 
PFNにおける セミナー活動
PFNにおけるセミナー活動PFNにおけるセミナー活動
PFNにおける セミナー活動
Yuya Unno
 
深層学習フレームワーク Chainerとその進化
深層学習フレームワークChainerとその進化深層学習フレームワークChainerとその進化
深層学習フレームワーク Chainerとその進化
Yuya Unno
 
進化するChainer
進化するChainer進化するChainer
進化するChainer
Yuya Unno
 
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
Yuya Unno
 
Chainer, Cupy入門
Chainer, Cupy入門Chainer, Cupy入門
Chainer, Cupy入門
Yuya Unno
 
NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」
Yuya Unno
 
Chainer入門と最近の機能
Chainer入門と最近の機能Chainer入門と最近の機能
Chainer入門と最近の機能
Yuya Unno
 
Chainerの使い方と 自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用
Yuya Unno
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
Yuya Unno
 
「知識」のDeep Learning
「知識」のDeep Learning「知識」のDeep Learning
「知識」のDeep Learning
Yuya Unno
 
自然言語処理@春の情報処理祭
自然言語処理@春の情報処理祭自然言語処理@春の情報処理祭
自然言語処理@春の情報処理祭
Yuya Unno
 
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
Yuya Unno
 
EMNLP2014読み会 "Efficient Non-parametric Estimation of Multiple Embeddings per ...
EMNLP2014読み会 "Efficient Non-parametric Estimation of Multiple Embeddings per ...EMNLP2014読み会 "Efficient Non-parametric Estimation of Multiple Embeddings per ...
EMNLP2014読み会 "Efficient Non-parametric Estimation of Multiple Embeddings per ...
Yuya Unno
 
表現学習時代の生成語彙論ことはじめ
表現学習時代の生成語彙論ことはじめ表現学習時代の生成語彙論ことはじめ
表現学習時代の生成語彙論ことはじめ
Yuya Unno
 
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
Yuya Unno
 
深層学習で切り拓くパーソナルロボットの未来
深層学習で切り拓くパーソナルロボットの未来深層学習で切り拓くパーソナルロボットの未来
深層学習で切り拓くパーソナルロボットの未来
Yuya Unno
 
深層学習時代の 自然言語処理ビジネス
深層学習時代の自然言語処理ビジネス深層学習時代の自然言語処理ビジネス
深層学習時代の 自然言語処理ビジネス
Yuya Unno
 
ベンチャー企業で言葉を扱うロボットの研究開発をする
ベンチャー企業で言葉を扱うロボットの研究開発をするベンチャー企業で言葉を扱うロボットの研究開発をする
ベンチャー企業で言葉を扱うロボットの研究開発をする
Yuya Unno
 
PFNにおける セミナー活動
PFNにおけるセミナー活動PFNにおけるセミナー活動
PFNにおける セミナー活動
Yuya Unno
 
深層学習フレームワーク Chainerとその進化
深層学習フレームワークChainerとその進化深層学習フレームワークChainerとその進化
深層学習フレームワーク Chainerとその進化
Yuya Unno
 
進化するChainer
進化するChainer進化するChainer
進化するChainer
Yuya Unno
 
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
Yuya Unno
 
Chainer, Cupy入門
Chainer, Cupy入門Chainer, Cupy入門
Chainer, Cupy入門
Yuya Unno
 
NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」
Yuya Unno
 
Chainer入門と最近の機能
Chainer入門と最近の機能Chainer入門と最近の機能
Chainer入門と最近の機能
Yuya Unno
 
Chainerの使い方と 自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用
Yuya Unno
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
Yuya Unno
 
「知識」のDeep Learning
「知識」のDeep Learning「知識」のDeep Learning
「知識」のDeep Learning
Yuya Unno
 
自然言語処理@春の情報処理祭
自然言語処理@春の情報処理祭自然言語処理@春の情報処理祭
自然言語処理@春の情報処理祭
Yuya Unno
 
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
Yuya Unno
 
EMNLP2014読み会 "Efficient Non-parametric Estimation of Multiple Embeddings per ...
EMNLP2014読み会 "Efficient Non-parametric Estimation of Multiple Embeddings per ...EMNLP2014読み会 "Efficient Non-parametric Estimation of Multiple Embeddings per ...
EMNLP2014読み会 "Efficient Non-parametric Estimation of Multiple Embeddings per ...
Yuya Unno
 
表現学習時代の生成語彙論ことはじめ
表現学習時代の生成語彙論ことはじめ表現学習時代の生成語彙論ことはじめ
表現学習時代の生成語彙論ことはじめ
Yuya Unno
 
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
Yuya Unno
 

Jubatusの紹介@第6回さくさくテキストマイニング

  • 1. Jubatusの紹介 2011/12/17 @さくさくテキストマイニング 株式会社Preferred Infrastructure 海野  裕也 (@unnonouno)
  • 2. ⾃自⼰己紹介 l  海野  裕也 (@unnonouno) l  unno/no/uno l  プリファードインフラストラクチャー (PFI) l  研究開発部 l  検索索エンジンSedueの会社 l  専⾨門 l  ⾃自然⾔言語処理理 l  テキストマイニング 2
  • 3. 今⽇日の内容 l  Jubatusの宣伝をしに来ました  :-) l  それ以上のはなしは有りません l  読み⽅方は「ゆばたす」です 3
  • 4. Big Data ! l  データはこれからも増加し続ける l  多いことより増えていくということが重要 l  データ量量の変化に対応できるスケーラブルなシステムが求めら れる l  データの種類は多様化 l  定形データのみならず、⾮非定形データも増加 l  テキスト、⾏行行動履履歴、⾳音声、映像、信号 l  ⽣生成される分野も多様化 l  PC、モバイル、センサー、⾞車車、⼯工場、EC、病院 4
  • 5. データを活⽤用する STEP 1. ⼤大量量のデータを捨てずに蓄積できるようになってきた STEP 2. データを分析することで、現状の把握、理理解ができる STEP 3. 状況を理理解し、現状の改善、予測ができる l 世の中的には、蓄積から把握、理理解に向かった段階 この本が実際 この⼈人は30代 本の購買情報 に売れている 男性なので、 を全て記録で のは意外にも この本を買う きるように 30代のおっさ のではない なった! ん達だ! か? 蓄積 理理解 予測 より深い解析へ 5
  • 6. Jubatus l  NTT  PF研とPreferred  Infrastructureによる共同開発 10/27よりOSSで公開  http://jubat.us/ リアルタイム   ストリーム 分散並列列 深い解析 6
  • 7. 開発の経緯(PFI側から⾒見見た) l  もともと機械学習が得意だった l  @hillbig (フェロー) l  特にオンライン学習に関しては5年年前くらい(研究 室に⼀一緒にいた時)からずっと調べてた l  もともとHadoopが得意だった l  @kzk_mover (元CTO) l  ⽇日本Hadoopユーザー会 l  Hadoopではできない⼤大規模データ解析をやろ う! 7
  • 9. Hadoopの特徴 l  速い! l  ⼤大量量のデータを⼀一気に処理理 l  分散する! l  ⾜足りなかったら継ぎ⾜足そう l  ロバスト! l  サーバーは壊れるもの l  遅い l  結果が帰ってくるまでの時間は遅い 9
  • 10. 機械学習とは? l  ⼤大量量のデータから規則や傾向を解析、分析や予 測に活⽤用する l  データがある分野、どこでも活⽤用 l  ⾃自然⾔言語処理理、パターン認識識、画像、⾳音声、etc. l  研究ベースのOSSが多い l  libsvm/liblinear/Mallet/crf++/R l  すでに実⽤用化が進んでいる l  Gmailの重要ボタン(分類問題)、推薦システム(近傍探索索)、 バグの有無も予想できるらしいよ 10
  • 11. オンライン学習は学習⼿手法の⽅方式の⼀一つ l  バッチ学習 l  データを全体を⾒見見て重みを調整する l  参考書を全部解いてから答え合わせ 学習器 l  オンライン学習 l  1つずつデータを⾒見見て重みの更更新を繰り返す l  ⼀一問ずつ解いて答え合わせ 学習器 11
  • 12. 機械学習・オンライン学習の特徴 l  速い! l  データを受け取ったらすぐ学習 l  速い! l  5年年前:学習10時間、今:学習10分 l  便便利利! l  ルール書くの疲れた l  分散させる技術がない 12
  • 13. 分散かつオンラインの機械学習 l  処理理が速い! l  処理理の完了了を待つ時間が少ない l  5分前のTV番組の影響を反映した広告推薦ができる l  5分前の交通量量から渋滞をさけた経路路を提案できる l  ⼤大規模! l  処理理が間に合わなくなったらスケールアウト l  ⽇日本全国からデータが集まる状態でも動かしたい l  機械学習の深い分析! l  単純なカウント以上の精度度を 13
  • 14. こんなことができる?:リアルタイムレコメンド ⾖豆腐が健康にイイ 小売 ヨー 影響の予測 変化の検知 ユーザーの購買行動 広告配信 14
  • 15. テキストマイニングとの関係 l  Jubatus⾃自体は基盤よりの技術 l  分散フレームワーク l  機械学習 l  Hadoop + Mahoutくらいのレイヤー l  具体的な解析⾃自体はその上に構築 l  ⼤大規模リアルタイムにテキスト分析する⽤用途に 使えるかも 15
  • 16. 技術の視点で⾒見見るとテキストマイニングは複合技術 アプリ 理論 ⾃自然⾔言語 統計 処理理 機械学習 テキスト マイニング ⽂文字列列処理理 マイニング Jubatus はこの辺 分散 検索索 ストリーム 乱択 処理理 アルゴリズム 16
  • 17. 機械学習のような⾼高度度な分析は必要なのか? l  数を数える以上の処理理はいらないんじゃ ない? l  すでに使われている l  レコメンド(近傍探索索) l  スパム分類(分類) l  応⽤用範囲は広い l  ⾔言語、画像、⾳音声、センサー、etc. 17
  • 18. 研究業界に⾒見見る機械学習と⾃自然⾔言語を振り返る 90年代 規則を人手でたくさん書く   正規表現、文法、コスト、重み 2000年前後 自然言語処理に機械学習登場   SVM, ME, CRF 00年代 機械学習を使わないほうがマイナー   Chasen、MeCabの成功   OSSにも深く浸透 研究者だけに使わせるのはもったいない 18
  • 19. 機械学習ライブラリの敷居はまだ⾼高い l  libsvmフォーマット l  +1 1:1 3:1 8:1 l  何よこれ?  ←普通の⼈人の反応 l  ハイパーパラメータ l  「Cはいくつにしましたか?」 l  Cってなんだよ・・・  ←普通の⼈人の反応 l  研究者向き、エンジニアが広く使えない 19
  • 20. RDBやHadoopから学ぶべきこと l  わからない l  リレーショナル理理論論 l  クエリオプティマイザ l  トランザクション処理理 l  分散計算モデル l  わかる l  SQL l  Map/Reduce l  「あとは裏裏でよろしくやってくれるんでしょ?」 20
  • 21. Jubatus裏裏の⽬目標 全ての⼈人に機械学習を! l  わからない l  オンライン凸最適化 l  事後確率率率最⼤大化 l  MCMC、変分ベイズ l  特徴抽出、カーネルトリック l  わかる l  ⾃自動分類、推薦 l  「あとはよろしくやってくれるんでしょ?」 21
  • 22. ⽣生データを突っ込めば動くようにしたい l  Jubatusの⼊入⼒力力はキー・バリュー l  最初は任意のJSONだった l  twitter APIの⽣生出⼒力力を⼊入⼒力力できるようにしたかった l  あとは勝⼿手に適当に処理理してくれる l  ⾔言語判定して l  各キーが何を表すのか⾃自動で推定して l  勝⼿手に適切切な特徴抽出を選ばせる l  (予定、まだできない) 22
  • 23. 雰囲気だけ l  典型的な特徴抽出は⽤用意しておく l  MeCabで分割して単語を特徴に l  ⽂文字Nグラムを特徴に l  正規表現で部分⽂文字列列の切切り出し l  弄弄るのは設定だけ l  お客さん先でコンパイルし直しとか⾟辛い・・・ l  パッチを当ててもらうのはリスクが⾼高い 23
  • 24. 使い⽅方のイメージ(分類) key value 年年齢 28 ID unnonouno 男性! コメント Jubatus動い たー プロ PFIで働いて フィール ます 裏裏にある規則 PFI à 男性? Jubatus à 男性? 24
  • 25. インストールは⾯面倒くさいよ! l  Macなら l  port install jubatus l  でインストールできるようにしてくれた⽅方がいらっ しゃいました l  Linuxなら l  ./waf configure & ./waf l  sudo ./waf install l  だいたいどこかでコンパイルエラー 25
  • 26. 今後どうなる? l  分類以外の機能追加 l  統計情報 l  回帰 l  レコメンド l  複数のプログラミング⾔言語から使える l  今は、C++, Python, Ruby, PHP(外部の⽅方が作って くれた) l  さらに、可視化?管理理画⾯面? 26
  • 27. まとめ l  Jubatusとは何か? l  分散基盤 l  オンライン学習 l  すべての⼈人に機械学習を l  典型的な例例は設定だけで l  SQLより簡単に使えるといいね! l  使いやすさはこれからです 27