« 2007.12.25のdel.icio.us Main Let'snote R7 買いました » Introduction to Information Retrieval を読むのに必要な英単語900 | たつをさん主催のIIR輪読会に参加することになってます。 IIRのドラフト版のPDFをダウンロードしてみたら、だいたい500ページくらいあるようです。普通は辞書を引き引き読み進んでいくことになるのですが、「本文丸ごと単語にバラして、重複を取り除いたリスト」を用意すれば、あらかじめ必要な単語をチェックできてラクに読めるのではないかと思いつき、試してみました。 手順は以下のとおり。 Adobe Reader で PDFを txt に変換 TreeTaggerで各単語の原型と出現頻度を取得 出現頻度とSVLのレベル情報を利用して、リストを足きり 参考程度に、 Yahoo!検索APIを利