前回のインタビューで、北山さんが「ハンパなく速いんですよ!」ってこれからお会いする山田さんの作品をベタ褒めしていたのを鮮明に覚えている。ソフトウェアの世界では、自動車のように中心部分をエンジンなんていうが、これは本当にすばらしい表現で、車種の数だけエンジンに特徴があり、この吹けあがりはどうだとか、パワーがあったり、安定性があったりする。ソフトウェアのエンジンも同様で、中にはひたすら速さを追求したF1エンジンみたいなものがあったりするのだ。 VNN1は実は昔、エンジン(車じゃなくってソフト)を作っていたので、外からは見えないが良いエンジンを作る人が本当は気になってしょうがない。ただ最近は、WEBに精通したソフトを作れるほうがかっこいいらしい。すこし悲しい。しかし今日は違うのだ。ソフトウェアの世界で最速ラップをたたき出そうとしてるエンジンビルダーの話が聞けるのだ! VNN1:早速ですが、山田さ
全文検索エンジンgroongaを囲む昼下がり@札幌はたっぷり3時間もあるので、「groongaがどのように動いているか」、「より効率的に検索するためにはどうしたらよいか」などといった話ができるはずです。 この文書は、札幌でのgroonga勉強会で使うための「groongaがどのように動いているか」を説明に使うための文書です。後でgroongaのドキュメントにマージする予定です。 それでは、groongaがどのように全文検索用のインデックスを作成しているかを説明します。まず、全文検索機能で重要なオブジェクトを説明して、その後にそれらを使ってどのようにインデックスを作成しているかを説明します。 主要オブジェクト groongaの全文検索機能で大事なオブジェクトは以下の3つです。 テーブル カラム トークナイザー それぞれ順に説明します。 テーブル groongaでは、ひとまとまりのデータを「レ
Signature files are computer files of some kind of signature data, such as: signature values to be used in signature-based detection of viruses; in document retrieval, a quick and dirty filter that keeps all the documents that match to the query; a signature block automatically appended at the bottom of an email message; a digital signature; an electronic signature. This set index article includes
4月28日から4月30日に開催されたデーターマイニングの国際会議 SIAM Conference on Data Mining (SDM2011)にてwavelet木を用いた大規模グラフデータベースの高速類似度検索手法について発表してきました。 Yasuo Tabei and Koji Tsuda: Kernel-based Similarity Search in Massive Graph Databases with Wavelet Trees, Eleventh SIAM International Conference on Data Mining (SDM), Arizona, USA, 2011. Link to the paper 本研究では大規模グラフデーターの索引による高速な類似度検索手法を提案しました。近年、グラフデータベースに登録されているグラフの数は大規模化してい
Hire the best. At 10x the speed.Hire the best. At 10x the speed.Screen and interview candidates 10x faster with MOPID AI Recruiter that saves upto 80% of your time and resources. Hiring 100+ positions? Try⚡Blitzhiring⚡for a change!Hiring 100+ positions?Try ⚡Blitzhiring⚡ for a changeWe get it. Large scale hiring costs a lot. What if you could hire the perfect talent AND save up to 80% resources? We
2010年末に、3つに勉強会にて「全文検索エンジンgroonga」の紹介をさせていただきました。 第4回Solr勉強会 groongaを囲む夕べ ドワンゴ技術勉強会(2) MySQLについて それぞれの勉強会にて用いた発表資料を公開いたします。 groongaの紹介部分については使いまわしがバレバレですが、それぞれの勉強会の特性に合わせた味付けをしているので、ぜひご覧になっていただければ嬉しいです。勉強会当日のレポートをされている方もいらっしゃるようなので、興味のある方は検索してみるとよいでしょう。 また、groongaを囲む夕べに関しては、他の発表者さんの資料も以下のリンクから見ること...
以前より気になっていた書籍「The Burrows-Wheeler Transform Data Compression, Suffix Arrays, and Pattern matching」を読む機会を得ることができた。それなりに高額な本だったので購入が躊躇っていたのだけど、これは自分用に購入してもいいかも。というくらいの良書だったので紹介しておく。 本書はタイトルのとおりBWT(Burrows-Wheeler変換)に関する書籍。サブタイトルにあるようにデータ圧縮やSuffixArrayによる全文検索についても充実した内容になっている。最後のPattern matchingはテキストから検索キーとexactにマッチした、もしくは類似した箇所を取り出すよ、という話。2008年の本なので比較的新しい話題も扱っていて満足度が高い。 また本書の特色は圧縮ありきで始まり、そこから全文検索可能な
無料で資料をダウンロード SEOサービスのご案内 専門のコンサルタントが貴社サイトのご要望・課題整理から施策の立案を行い、検索エンジンからの流入数向上を支援いたします。 無料ダウンロードする >> SEO by the SeaからSEOマニア涙ものの話題を。検索エンジンが持つ特許に基づき、検索エンジンが順位ランキングを決定する要素を厳選して10紹介。ユニバーサル検索からパーソナライゼーション、情報の重み付けまで検索アルゴリズム技術の総まとめ的な記事で、SEOはもちろん検索エンジンの仕組みを理解する上においてもかなり参考になります。 — SEO Japan 検索エンジンが検索結果を表示する際、表示されたページは、検索エンジンのランキングアルゴリズムを用いて、関連性と重要性を組み合わせた基準をベースに順序づけられている可能性が高い。 しかし、通常、検索エンジンは結果を並べる際にさらに一歩踏み込
This is the companion website for the following book. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. You can order this book at CUP, at your local bookstore or on the internet. The best search term to use is the ISBN: 0521865719. The book aims to provide a modern approach to information retrieval from a compu
4. 検索技術の歴史(2)1970年代~1980年代全文検索システムの実用化と性能向上MEDLINEの全文検索サービスG. SaltonらによるSMARTシステムの研究ベクトル空間法、TFIDF、適合性フィードバックなどテストコレクションによる客観的精度評価新聞記事などが利用された1990年代評価型ワークショップ (新聞記事が主)TREC (Text Retrieval Conference) http://trec.nist.gov/MUC (Message Understanding Conferences)NTCIR@NII http://research.nii.ac.jp/ntcir/
概要 Hyper Estraierは全文検索システムです。たくさんの文書の中から、特定の語句を含むものを探して、該当するものの一覧を表示することができます。Webサイトを運営している方なら、自分のサイト専用の検索エンジンとして利用することができます。メールボックスやファイルサーバを対象とした検索ツールとして利用することもできます。 Hyper Estraierには、次のような特徴があります。 インデックスを使った高速な検索ができます。 大量の文書のインデックスを短時間で作成できます。 N-gram方式による漏れのない検索ができます。 形態素解析とN-gramのハイブリッド機構で検索精度を向上させます。 フレーズ検索や正規表現検索や属性検索や類似検索をサポートします。 世界各国の言語が扱えます。 対象文書の所在や形式に依存しません。 賢いWebクローラが付属しています。 ライブラリとして各種
This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.
更新履歴 2004/01/07 O(N) 構築アルゴリズム三種追加(Ko &Alulu, Kim & al., Karkkainen & Sanders) Suffix Arrayは、最近注目を集めているデータ構造です。その理由として、 (1)大規模なデータに対して、高速に検索、情報抽出を行うことができる (2)BWTとしてデータ圧縮に用いることができる。 ことが挙げられます。(1)に関しては自然言語処理において、膨大な量のコーパスから情報(例えば、単語の出現回数など)を調べるときににSuffix Arrayを用いると非常に高速に求めることができます。 膨大な量のコーパスに基づいた自然言語処理が盛んになってきている今、Suffix Arrayが注目を集めています。 また、ゲノム情報を調べるバイオインフォマティクスにおいても、ここの配列と似ている部分(例えばCCAG)を調べるといった場合
いろいろとありまして去年読んだ論文で面白かったものランキングとか書けなかったのが残念ですが、もしあげるとしたら次の論文は入れると思います(知ったのは年明けだったけど)。 "Space-Efficient Framework for Top-k String Retrieval Problems", FOCS 2009, Wing Kai Hon, Rahul Shah and Jeffrey Scott Vitter (pdf) 扱っているのは次のような問題です(説明のため本来のと言い換えています) n個の葉からなる木が入力として与えられ,各葉には色(1以上d以下の整数とします)が与えられています. この時、木中の任意の節点と正整数kがクエリとして与えられたときに、その節点の子孫の中で出現回数が大きい色を順にk個答えよという問題です。 簡単に思いつくのは,各節点に適当な個数(d)の答えをあ
情報検索の分野において、tf–idf (または、 TF*IDF、TFIDF、TF–IDF、Tf–idf)は、term frequency–inverse document frequencyの略であり、コーパスや収集された文書群において、ある単語がいかに重要なのかを反映させることを意図した統計量(数値)である[1]。また、tf-idfは情報検索や、テキストマイニング、ユーザーモデリング(英語版)における重み係数(英語版)にもよく用いられる。ある単語のtf-idfの値は文書内におけるその単語の出現回数に比例して増加し、また、その単語を含むコーパス内の文書数によってその増加が相殺される。この性質は、一般にいくつかの単語はより出現しやすいという事実をうまく調整することに役立っている。今日、tf-idfはもっとも有名な語の重みづけ(term-weighting)手法である。2015年に行われた研究
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く