タグ

全文検索に関するmsakamoto-sfのブックマーク (18)

  • オープンソース全文検索サーバー Fess

    利用環境 Apache ライセンスで提供 (フリーソフトなので、無料で利用可能) Java環境またはDocker環境で利用(OS非依存) OpenSearchまたはElasticsearchを検索エンジンとして利用 用途に応じて柔軟に対応可能な設計 クロール Web、ファイルシステム、Windows共有フォルダ、データベースをクロール MS Office(Word/Excel/PowerPoint) や PDF など多くのファイル形式に対応 リクエストヘッダーに情報付加、重複ドメインの設定、検索結果のパス変換 OCRなどの外部テキスト抽出対応

    オープンソース全文検索サーバー Fess
  • 知識ゼロからElasticsearchを実践で使えるようになろう! - $shibayu36->blog;

    以前少しだけElasticsearchを触った時に、自分流Elasticsearch入門 - $shibayu36->blog; というElasticsearchに入門した時のメモをまとめていた。しかし、その頃はElasticsearchを使って完全に一人で一つの機能を作るというところまではいけなかった。 最近になってまたElasticsearchを一から導入する仕事をすることになった。この時以前自分がまとめた記事を読みながらやっていたのだが、実践で一から導入するためにはこの記事だけでは知識が足りなかった。 そこで、前の記事の知識をベースに、一から導入するために少しずつ学んでいき、自分のブログにまとめるなどのことをしてきたので、今回はその締めくくりとして、知識ゼロからElasticsearchを使えるようになるために学習したことについて書いておきたいと思う。 今回書くこと・書かないこと 今

    知識ゼロからElasticsearchを実践で使えるようになろう! - $shibayu36->blog;
  • Groonga - カラムストア機能付き全文検索エンジン

    Groongaについて Groongaはオープンソースのカラムストア機能付き全文検索エンジンです。Groongaを使うと全文検索機能付き高性能アプリケーションを開発することができます。 特徴 最新リリース 2024-09-03にリリースされた14.0.7が最新リリースです。 インストール ソース 最新記事 Groonga 14.0.7リリース (2024-09-03) Groonga 14.0.6リリース (2024-07-29) PostgreSQL用高速日語全文検索モジュールPGroonga(ぴーじーるんが) 3.2.1リリース (2024-07-04) Groonga 14.0.5リリース (2024-07-04) Groonga 14.0.4リリース (2024-05-29) Groonga 14.0.3リリース (2024-05-09) Groonga 14.0.2リリース (

    Groonga - カラムストア機能付き全文検索エンジン
  • 隔週連載groonga 記事一覧 | gihyo.jp

    第10回[実録] MySQL向け全文検索エンジン「Tritonn」から「mroonga」への移行ガイド(3) 吉田健太郎 2013-09-03 第9回mroongaを広く使ってもらうために大事なこと - mroongaのパッケージング動向の紹介 HAYASHI Kentaro (kenhys) 2013-08-20

    隔週連載groonga 記事一覧 | gihyo.jp
  • ElasticSearchの運用とか (1) - なんかかきたい

    最近のお仕事的なことですが、ElasticSearchの構築・運用を任されるようになりました。 まかされるというか、実際にはいい感じに全文検索ができる仕組みを作って欲しいといういつもの依頼だったんだけども、全く運用の経験の無いプロダクトだったので色々わからないことだらけ。 最近はKibanaと組み合わせて言い感じのグラフを作るのがWeb屋さんの間で流行っているイメージですが、Kibanaを除いたElasticSearchの細かなところに踏み込んだ情報はあまりない感じで(多分感心があまりないのかも)、結局マニュアルを色々読んでわからないところを補完していった感じです。 同じようにElasticSearchを使って検索機能を作っていきたいような人の参考になればいいなー程度にまとめて行こうと思います。そのうち自分でも見直すことになるだろうし。 一応手元にmarkdownでまとめたものもあるんだけ

    ElasticSearchの運用とか (1) - なんかかきたい
  • ついにベールを脱いだ! 未来検索ブラジルの新検索エンジン『groonga』|ガジェット通信 GetNews

    全文検索エンジンSennaと言えば、未来検索ブラジルの生み出した傑作フリーソフトウェアとしてつとに有名であるが、いよいよその後継プロジェクトであるgroonga(ぐるんが)が、2月20日にテストリリースされた。新しい検索エンジンgroongaはいったいどのようなソフトウェアなのだろうか?正式リリースより一足早く、その特徴をレポートしてみた。 groongaは組み込み型の全文検索エンジンライブラリです。DBMSやスクリプト言語処理系等に組み込むことによって、その全文検索機能を強化することができます。また、リレーショナルモデルに基づくデータストア機能を内包しており、groonga単体でも高速なデータストアサーバとして使用することができます。以下のような特徴を持っています。 ■全文検索方式 転置索引型の全文検索エンジンです。転置索引は圧縮されてファイルに格納され、検索時のディスク読み出し量を小さ

  • 第1回 全文検索エンジンgroongaを紹介します! | gihyo.jp

    今回から始まった隔週連載groongaでは、groongaを使いたくなるような情報を隔週毎にお届けします。 groongaとはGitHubで公開されているオープンソースの全文検索エンジンです。大量にある文書の中から目的のキーワードを持つ文書を高速に見つけることができます。 groongaのロゴ©groongaプロジェクト 第1回目である今回は、この連載についてとgroongaの特徴を紹介します。 この連載について まず、この連載について説明します。 この連載は「読者の皆さんがgroongaを使いたくなる!」ことを目指しています。そのために、次の2点の情報を次回から交互にお届けします。 groongaの利用事例の紹介 利用事例に関連した役立つ情報の紹介 利用事例を紹介することで、「⁠あそこでも使っているなら自分も使ってみようかなぁ」とか「こんな使い方をしているなら自分も使ってみようかなぁ」と

    第1回 全文検索エンジンgroongaを紹介します! | gihyo.jp
  • Elasticsearch入門 pyfes 201207

    I'm learning elasticsearch now. This slide is old, new version is here. -> http://blog.johtani.info/blog/2013/08/30/hold-first-elasticsearch-meetup-in-japan/Read less

    Elasticsearch入門 pyfes 201207
  • ElasticSearch入門

  • elasticsearchでらくらく全文検索 - UNIX的なアレ

    検索エンジン選びは大変です!現時点でnanapiではmroongaを使っていますが、もっと検索エンジンらしい機能がほしくなったりします。 またそれ以外にも今後拡張するだろう機能をカバーしきれないような予感が徐々にしているので、ゆるゆると検索エンジンを検証し始めています。 そんななか、elasticsearchがイケてるらしいという情報をキャッチしたので使ってみました。今回はelasticsearchを簡単に動かすまでのチュートリアル的なものを紹介します。 Free and Open Search: The Creators of Elasticsearch, ELK & Kibana | Elastic elasticsearchとは? Apache Lucene上で稼働する全文検索エンジンです。 特徴としては、REST APIをもちJSONですべてやり取りできるところです。このあたりから

    elasticsearchでらくらく全文検索 - UNIX的なアレ
  • Elastic — The Search AI Company

    Search and analytics, data ingestion, and visualization – all at your fingertips.

    Elastic — The Search AI Company
  • 自社サーバ内で無償利用できる企業向け検索エンジン Microsoft Search Server Express 2010 をインストールしてみました - しあわせモノ

    2013-07-08 自社サーバ内で無償利用できる企業向け検索エンジン Microsoft Search Server Express 2010 をインストールしてみました Microsoft Search Server Express Windows Server Microsoft さんの公式ページはこちら http://technet.microsoft.com/ja-jp/library/dd183108.aspx シソーラス(キーワードや類義語など)の登録もできる、Windows Server 上で動く企業向け無償検索エンジンです。有償版のうち FAST Search Server と呼ばれるものは、検索者に応じた優先付けが出来たり、機能がかなり充実しているようです。"FAST" も "Express" もつかない有償版は、無償版と違いがあまりわかりません(汗)。 今回、ほぼまっ

  • 中学生にもわかるウェーブレット行列 - アスペ日記

    id:echizen_tm さんの記事「ウェーブレット木の効率的で簡単な実装 "The Wavelet Matrix"」から始まったウェーブレット行列ブームから半年以上が過ぎ、すでに枯れた技術として確立されつつある感があります。 …嘘です。 日以外ではあんまり来ていません。 理由としては、やはりアルファベット圏では単語境界が明確であるため、こちらの記事で書かれているような「キーワード分割の難易度」といったことがあまり問題にならないということがあるかもしれません。 まあ、そういうわけで局所的に来ているウェーブレット行列ですが、日語をはじめとする単語境界のない言語圏にとっては重要なネタであると思うため、解説記事を書き直して*1みようと思います。 ウェーブレット行列でできること 主となる操作は、文字列に対する 定数時間の rank() と select()*2 です。 rank() は、「文

  • 「高速文字列解析の世界」を読む前に知っておくと良いこと - EchizenBlog-Zwei

    「高速文字列解析の世界」という大変すばらしいが発売された。わりと敷居が高いではあるので読む前に知っておくとよさそうなことを書いておく。 「高速文字列解析」とは 書でいう高速文字列解析というのは主に2つのことを指している。ひとつはデータを圧縮して小さくしてディスクよりメモリ、メモリよりキャッシュというようにより高速な記憶装置で扱いましょう、という話。もうひとつはデータ構造を工夫することで複雑な操作もそこそこ高速に扱えますよ、という話。つまり「圧縮」の話と「効率的なデータ構造」の話があると考えておくと良い。 キーワードは3つ オビにも書いてあるけれど、書が主に扱うのは「BWT」「簡潔データ構造」「ウェーブレット木」の3つ。具体的には「BWT」が「圧縮」に関わっていて「ウェーブレット木」が「効率的なデータ構造」に関わっている。「簡潔データ構造」は基的な道具として書の色々なところで出て

    「高速文字列解析の世界」を読む前に知っておくと良いこと - EchizenBlog-Zwei
  • 高速文字列解析の"別"世界 - 気ままなブログ

    1月に「高速文字列解析の世界」を購入してから半年が経ちました。以下、文字列と呼びます。 高速文字列解析の世界――データ圧縮・全文検索・テキストマイニング (確率と情報の科学) 作者: 岡野原大輔出版社/メーカー: 岩波書店発売日: 2012/12/27メディア: 単行購入: 15人 クリック: 324回この商品を含むブログ (4件) を見る 全文検索として、「CSA」や「FM-Index」が紹介されていますが、「全文検索システム」を作るには、これらだけでは不十分です。なぜなら、以下のような特徴があるからです。 文書IDの識別が遅い。 各文書IDに出現する頻度を求めるのが遅い。 ちなみに、転置インデックス(or N-gramインデックス)を使った場合、これらの処理は高速ですね。 インデックスを圧縮しているのだからしょうがないとも考えられますが、作りたいですよねぇ、「全文検索システム」。こ

    高速文字列解析の"別"世界 - 気ままなブログ
  • 検索エンジンの常識をApache Solrで身につける

    表のような転置インデックス完成後は、クエリに対する結果を返す処理は簡単です。例えば、ユーザーが「Vim」というクエリを発行すると、検索エンジンは「Vim」を含む文書IDリストを返します。表では文書IDの「2」を返します。 検索エンジンを取り巻く7つの技術 検索エンジンのコア技術は前節で紹介したインデックスです。しかし実際に、検索インデックスだけで構成する検索エンジンから、検索サービスを構築するには多大なコストが掛かります。以下の節で検索エンジンを利用したシステム、検索サービスを構築する際に便利なコンポーネントを紹介します。 これらの機能のいくつかは、多くの検索エンジンが組み込んでいます。一方で、簡素な検索エンジンは、以下で紹介するコンポーネントをサポートしていないため、ユーザーが独自に開発するか、その機能を持つコンポーネントを組み込む必要があるものもあります。 【1】トークナイザ 検索エン

    検索エンジンの常識をApache Solrで身につける
  • 関口宏司のLuceneブログ

    一定期間更新がないため広告を表示しています

    関口宏司のLuceneブログ
  • 全文検索サーバ: これからSolrを始める人のためのApache Solr概要と便利な情報リスト集

    はじめまして。 プロダクト&サービス事業部 リーダーの久保です。 今日は、当社で利用しているOSSの全文検索アプリケーションであるApache Solrについてご紹介したいと思います。 GoogleでSolrを検索しても、日語圏のコンテンツはまだまだ少ないようです。 当社がSolrを使い始めた昨年は現在よりもさらに少なく、結構苦労しました。 今回はやや雑多な内容となりますが、新しくSolrを使う際に必要と考えられる情報をまとめてみました。 エントリーでは、Solr1.3を対象としています。 Solr1.3が現在の安定版で、Solr1.4-devが開発版となります。 目次 Solrとは 機能一覧 実績/事例 Solrを使ったシステムの開発方法 おすすめする方 データ量/性能とハードウェア マルチコア構成 様々な検索 スケールアウト 検索と更新 Solrを始めるための情報リスト 全

  • 1