[B! iir] rin1024のブックマーク

kh.log - Introduction to Information Retrieval を読むのに必要な英単語900

« 2007.12.25のdel.icio.us Main Let'snote R7 買いました » Introduction to Information Retrieval を読むのに必要な英単語900 | たつをさん主催のIIR輪読会に参加することになってます。 IIRのドラフト版のPDFをダウンロードしてみたら、だいたい500ページくらいあるようです。普通は辞書を引き引き読み進んでいくことになるのですが、「本文丸ごと単語にバラして、重複を取り除いたリスト」を用意すれば、あらかじめ必要な単語をチェックできてラクに読めるのではないかと思いつき、試してみました。手順は以下のとおり。 Adobe Reader で PDFを txt に変換 TreeTaggerで各単語の原型と出現頻度を取得出現頻度とSVLのレベル情報を利用して、リストを足きり参考程度に、 Yahoo!検索APIを利

rin1024 2009/11/10

iir
english

リンク

Introduction to Information Retrieval #18 の復習資料 - naoyaのはてなダイアリー

Introduction to Information Retrieval 輪読会 18章の復習資料を以下にアップロードしました。 http://bloghackers.net/~naoya/iir/ppt/iir_18.ppt 18章のテーマは "Matrix decompositions and latent semantic indexing" で、行列の特異値分解と Latent semantic indexing (LSI, 潜在的意味インデキシング) でした。ベクトル空間モデルの核である単語文書行列を特異値分解を用いて低階数近似し、計算量を下げながらも*1適合度を向上させるという LSI についての解説の章です。LSI に関しては http://d.hatena.ne.jp/naoya/20090212/latent_semantic_indexing にて先日少し言及しました

rin1024 2009/11/10

18章のテーマは "Matrix decompositions and latent semantic indexing" で、行列の特異値分解と Latent semantic indexing (LSI, 潜在的意味インデキシング) でした。

リンク

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

rin1024 2009/08/27

iir

リンク

Latent Semantic Indexing - naoyaのはてなダイアリー

情報検索におけるベクトル空間モデルでは、文書をベクトルとみなして線形空間でそれを扱います。この文書ベクトルは、文書に含まれる単語の出現頻度などを成分に取ります。結果、以下のような単語文書行列 (term document matrix) が得られます。 d1 d2 d3 d4 Apple 3 0 0 0 Linux 0 1 0 1 MacOSX 2 0 0 0 Perl 0 1 0 0 Ruby 0 1 0 3 この単語文書行列に対して内積による類似度などの計算を行って、情報要求に適合する文書を探すのがベクトル空間モデルによる検索モデルです。見ての通り、単語文書行列の次元数は索引語の総数です。文書が増えれば増えるほど次元は増加する傾向にあります。例えば索引語が100万語あって検索対象の文書が 1,000万件あると、100万次元 * 1,000万という大きさの行列を扱うことになりますが、単

rin1024 2009/06/24

http://www-tsujii.is.s.u-tokyo.ac.jp/enshu3/lsa.htm ここの説明をもう少し詳しくした感じだった

iir
lsi

リンク

Introduction to Information Retrieval

This is the companion website for the following book. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. You can order this book at CUP, at your local bookstore or on the internet. The best search term to use is the ISBN: 0521865719. The book aims to provide a modern approach to information retrieval from a co

rin1024 2009/06/24

こいつは本物だ・・・。

iir

リンク

18 Matrix decomposition and latent semantic indexing (pp.369-384) - シリコンの谷のゾンビ

ちょっと飛ばして，先にIIR18章を読んでみた．単語文書行列を特異値分解して新しい空間でベクトル空間モデルを使うというLSIの話．ページ数が少なかったので，魔が差して翻訳もしてみた．さらに数式が多いのでTeXで書いてみた．ここまで来たらこだわろうとAB型の悪い癖が出て，数式や演習も全部訳してみた．ついカッとなってやってしまった．今は公開している．でも反省はしていない．まだやっつけの部分があるのでこつこつとバージョンアップしてきます． Introduction to information retrieval: 18 Matrix decomposition and latent semantic indexing（和訳）大体1ページ1時間．こつこつ夜なべをして3日間くらいかかりました．否が応でも精読するので，とても理解が深まりました．じっくり読むのも翻訳作業もとても楽しかったので，なん

rin1024 2009/06/24

IIR18章のLSI及びSVDとかについての話

リンク

RSS を読み込んでランダムな文章を生成する

RSS を読み込んでランダムな文章を生成する 2008-09-07-3 [Programming][NLP][IIR][WebAPI] 今日のIIR輪講[2008-09-07-2]の内容のフォローも兼ねて、ちょっとしたハックを紹介。 bigram language model に基づく、ランダム文生成を行います。って、まあ、単純にある単語の次に現れる単語の分布を用いて、文章を生成していくだけですが。以下、サンプルプログラムと実行例です。サンプルコード rss-lm.pl #!/usr/bin/perl use strict; use warnings; use XML::RSS; use LWP::Simple; use XML::Simple; use URI::Escape; use utf8; binmode STDOUT, ":utf8"; my $appid = "Yaho

rin1024 2009/06/04

"RSS（日本語）を読み込んで、テキストを形態素解析し、単語２連続（bigram）をカウントしています"

リンク

1日で作る全文検索エンジン - Building a full-text search engine in "ONE" day - - とあるはてな社員の日記

最近、「Introduction to Information Retrieval」というStanfordの大学院向け教科書のドラフトを読んでいます。id:naoyaあたりが勉強会で読んでいる教科書です。この教科書には、効率のいい全文検索システムを作るにはどうすればいいか、という(まさに)教科書的手法が網羅的に書いてあり、そのあたりに興味がある人には、非常に興味深く読めるお勧めの本です。ただ、面白い面白いと言っているだけでは、エンジニアとしては価値半減ですので、GW中にrubyで一日かけて実装してみました。さすがに実装は、一日で作ったものですから、非常に素朴です。マルチバイト文字はbi-gramで、シングルバイトはスペースなどの区切り記号で認識しています。インデックスは、rubyの処理系のHashやArrayで保持しており、外部にMarshallで書き出す、というものです。検索エンジン

rin1024 2008/06/22

iir
search

リンク

はてなブックマーク

タグ

関連タグで絞り込む (8)

iirに関するrin1024のブックマーク (8)

お知らせ

今週のはてなブックマーク数ランキング（2025年2月第1週）

今週のはてなブックマーク数ランキング（2025年1月第4週）

【完了】はてなブックマークの計画メンテナンスのお知らせ（2025年1月31日(金) 深夜1:30〜3:00）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス