latent Dirichlet allocation (LDA)† probabilistic latent semantic analysis (pLSA) を改良した,文書集合の生成モデル.各文書は,\(k\)個の話題に応じて発生した語で構成されている. 以下の過程で,文書に含まれる\(N\)個の語を生成する. \(N\sim\mathrm{Poisson}(\xi)\) … Poisson分布で語数を生成 \(\theta\sim\mathrm{Dir}(\alpha)\) … Dirichlet分布で,\(k\)個の話題を生成するモデルのパラメータを生成. \(N\)個のそれぞれの語\(w_n\)について (a) \(z_n\sim\mathrm{Multinomial}(\theta)\) … 多項分布で話題を生成 (b) 語\(w_n\)を,話題\(z_n\)で条件付けした分
Latent Dirichlet allocation This is a C implementation of variational EM for latent Dirichlet allocation (LDA), a topic model for text or other discrete data. LDA allows you to analyze of corpus, and extract the topics that combined to form its documents. For example, click here to see the topics estimated from a small corpus of Associated Press documents. LDA is fully described in Blei et al. (2
NIPS 2009のonline papersがすでにダウンロードできるように*1なってたのでタイトルを眺めていたらGPUでLDAを並列化するという論文があって読んだので少し紹介してみる。 まず、彼らの論文[1]ではLDAの推論アルゴリズムのうち、Collapsed Gibbs sampling(CGS)とCollapsed Variational Bayes(CVB)の2つに関して並列化を試みているがCollapsed Gibbs samplingの方に関してのみ紹介する。また、彼らの論文ではGPGPUの統合開発環境としてCUDAを用いている。 LDAについて LDAは論文[2]で提案された、文章生成モデルでトピック分析などに広く用いられている。 モデルの推論アルゴリズムとしては変分ベイズ[1]、ギブスサンプリング[4]、EP、collapsed 変分ベイズ[5]などが知られている。 こ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く