タグ

luceneに関するyusukesrvのブックマーク (5)

  • Lucandra : MYH

    Apache Lucene という全文検索エンジンがあります。パフォーマンスもよく、 色々なところで使われており、安定しています。Lucene はいろいろな部分が カスタマイズ出来るようになっており、データの保持などに関しても自前のクラスを 使って変更することが出来ます。 このデータの保持に、NoSQL の1つである Cassandra を使うことができます。 Cassandra を使うことで、ボトルネックになりがちなディスクの負荷を分散して しまって、勝手に検索がスケールするようにしよう、というわけです。 この組み合わせは、Lucene + Cassandra で Lucandra と呼ばれています。 今日はこのお話。 まだ安定していないのですが、そのうちよろしくなっていくと思われるので、 先取りしてチェックしておきましょう。 インストール Cassandra, Lucen

  • Luke - Luceneインデックスブラウザ | 関口宏司のLuceneブログ

    一定期間更新がないため広告を表示しています

    Luke - Luceneインデックスブラウザ | 関口宏司のLuceneブログ
  • Lucene/SolrのCJKAnalyzerをカスタマイズして遊んでみる

    概要 全文検索エンジンとして有名なLucene/Solr。 この子を使って日語文書のインデックスを作成したい場合、形態素解析かNgramを用いるのが一般的。 Ngramを選択した場合に良く利用されるのがCJKAnalyzer。日語や英語なんかが混ざった文章を解析する時にはそこそこに便利。 ただ、その仕様や作成されるインデックスのサイズが必ずしも要件に合うとは限らない。これを自前で改変できるようになれば、用途に合った、よりコンパクトなインデックスが作成されるんじゃないだろうか。 そんなことを思ったので、気の向くままに「1文字をインデックスに入れない」とか「カタカナはBi-gramでなくまとめて登録する」とか「顔文字の検索を考慮する」などを試してみた。

  • livedoor Techブログ : 全文検索エンジン lucene(ルシーン) を使ってみた

    こんにちは 。 検索 関連 を 担当 して いる やましー です 。 今回は livedoor で提供しているサービスの中の「検索関連」について書きます。 このブログでも過去に何度か取り上げられていますが、livedoor では検索エンジンとして HyperEstraier、lucene、mysql + senna、Namazu、SUFARY などを利用しています。 その中で lucene の利用方法や機能拡張について説明します。 lucene とは Apache Lucene は、Java で書かれた高性能で高機能な検索エンジンライブラリです。全文検索を(特にクロスプラットフォームで)必要とするほとんどのアプリケーションに適している技術です。※ 公式サイトから抜粋 インデックスの作成 lucene は転置インデックス型の検索エンジンなので、ドキュメントを検索するには、まずインデックスの作

  • Java製形態素解析ライブラリ「lucene-gosen」を試してみる

    概要 Javaの有名な形態素解析器でありながら、長らく「公式サイトどこ?」な状況だったSenとGoSenですが、最近はlucene-gosenなるGoSenベースのライブラリがちゃんと管理された状態で公開されてるとか。 lucene-gosen http://code.google.com/p/lucene-gosen/ しかもこの子は辞書内包なのでjarを落とすだけで使えて、Lucene用AnalyzerやSolr用Toknizerも付いていて、日語の検索用インデックスを貼る時に便利な各種フィルタも用意されているという、至れり尽くせりな構成になっているとか。 これは触ってみねばということで、とりあえず簡単な形態素解析、辞書の追加、Luceneでの利用、Solrでの利用を試してみました。 ちなみに上のURLでCommiterのところに名前が出ているKoji SekiguchiさんはSol

  • 1