tf-idfとは何？わかりやすく解説 Weblio辞書

索引トップ用語の索引ランキング画像一覧カテゴリー

tf-idf

フルスペル：term frequency–inverse document frequency
読み方：てぃーえふあいでぃーえふ

tf-idfとは、情報探索やテキストマイニングなどの分野で利用される、文書中に出現した特定の単語がどのくらい特徴的であるかを識別するための指標のことである。

tf-idfの内、「tf(term frequency)」は、その文書の中で特定の単語が出現した回数を表し、「idf(inverse document frequency)」は、コーパス全体の中でその文書を含む文書数の自然対数を表し、「tf×idf」が、その文書中におけるその単語のtf-idf値となる。

tf-idfによる重み付けを利用したアルゴリズムは広く「tf-idf法」と呼ばれ、キーワード抽出や全文検索エンジンの重み付けなどに応用される。また、ベクトル空間モデルにおいて、文書間の類似度を判定する場合などにも、コサイン類似度を計算する際の、単語の特徴ベクトルとしてtf-idfの値が利用される。

情報と社会のほかの用語一覧

情報工学：

人工生命人工知能 Tay tf-idf 適合率 tf-idf法デコヒーレンス

>>情報工学カテゴリの他の用語

ウィキペディア

索引トップ用語の索引ランキングカテゴリー

tf-idf

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2022/03/28 23:00 UTC 版)

ナビゲーションに移動検索に移動

情報検索の分野において、tf–idf (または、 TF*IDF、TFIDF、TF–IDF、Tf–idf)は、term frequency–inverse document frequencyの略であり、コーパスや収集された文書群において、ある単語がいかに重要なのかを反映させることを意図した統計量（数値）である^[1]。また、tf-idfは情報検索や、テキストマイニング、ユーザーモデリング（英語版）における重み係数（英語版）にもよく用いられる。ある単語のtf-idfの値は文書内におけるその単語の出現回数に比例して増加し、また、その単語を含むコーパス内の文書数によってその増加が相殺される。この性質は、一般にいくつかの単語はより出現しやすいという事実をうまく調整することに役立っている。今日、tf-idfはもっとも有名な語の重みづけ(term-weighting)手法である。2015年に行われた研究では、電子図書館におけるテキストベースのレコメンダシステムのうち83%がtf-idfを利用していたことがわかった^[2]。

tf-idfの重み付け手法を変形したものは、ユーザーのクエリ（検索ワード）から文書の適合性を得点化し、順位づけする際の中心的なツールとして、よく検索エンジンで用いられている。tf-idfは、自動要約や文書分類といった様々な分野において、ストップワード（英語版）によるフィルタリングを行うことでうまく動作できる。

最もシンプルな順位付け関数(ranking function)（英語版）の一つは、クエリに含まれる語ごとのtf-idfの和を計算することで実装される。たくさんのより洗練された順位付け関数はこのシンプルなモデルの変形となっている。

動機

Term frequency (単語頻度)

英語文書の集合を扱っていると仮定し、それらを"the brown cow"というクエリにより関連する順に並べたいとする。問題に取り掛かる上で、シンプルな方法は、"the"、"brown"、"cow"の3つの単語のすべてを含まない文書を除くことであるが、これではたくさん文書がまだ残ってしまう。さらにそれらを区別するために、もしかすると各文書で各単語が何度出現しているかを数えるかもしれない。ある文書内にある単語が何回出現したかという数をその単語のterm frequencyと呼ぶ。しかし、文書の長さにばらつきがある場合、調整が必要となることが多い（詳細は定義を参照）。最初の語の重み付け手法はHans Peter Luhn（英語版）(1957)により、その内容は以下のようにまとめられうる^[3]。

文書内の単語の重みは、その出現頻度に単純に比例する。

Inverse document frequency (逆文書頻度)

"the"という語が非常に普遍であるために、より意味のある単語である"brown"や"cow"に十分な重みを与えず、term frequencyは、"the"という語をより高頻度に含む文書を誤って強調してしまう傾向がある。"the"という語は、普遍的ではない"brown"や"cow"という語とは異なり、文書や単語がクエリに関連している・関連していないと区別するためのキーワードとしてよいものではない。それゆえに、文書集合において非常に出現頻度の高い語の重みを減らし、珍しい語の重みを増加させるため、inverse document frequencyが用いられている。

Karen Spärck Jones（英語版）(1972) はInverse Document Frequency (idf) と呼ばれる単語の特異性の統計的解釈を考案し、その考えは単語の重み付けの基礎概念となっている^[4]。

単語の特異性は、その単語が出現した文書数の逆関数によって定量化できる。

定義

tf-idfは2つの統計量、term frequency (tf)と、inverse document frequency (idf) の積である。双方の統計量には、厳密な値を決定するために様々な手法が存在している。
式は、文書やWebページにおけるキーワードやフレーズの重要性を定義することを目的とする。

term frequency (tf) 重みの計算手法

重み付け手法

tf 重み

binary

(2値)

{0,1}

>> 「tf-idf」を含む用語の索引
tf-idfのページへのリンク

tf-idfとは？わかりやすく解説

tf-idf

tf-idf

目次

動機

Term frequency (単語頻度)

Inverse document frequency (逆文書頻度)

定義

Term frequency–inverse document frequency (tf-idf)

idfの正当化

情報理論との関係

tf–idfの例

単語以外への応用

tf-idfの派生

関連項目

参考文献

外部リンクと推薦図書

「tf-idf」の関連用語


	Copyright © 2005-2025 Weblio 辞書 IT用語辞典バイナリさくいん。この記事は、IT用語辞典バイナリの【tf-idf】の記事を利用しております。
	All text is available under the terms of the GNU Free Documentation License. この記事は、ウィキペディアのtf-idf (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

tf-idfとは？ わかりやすく解説

tf-idf

tf-idf

動機

Term frequency (単語頻度)

Inverse document frequency (逆文書頻度)

定義

Term frequency–inverse document frequency (tf-idf)

idfの正当化

情報理論との関係

tf–idfの例

単語以外への応用

tf-idfの派生

関連項目

参考文献

外部リンクと推薦図書

「tf-idf」の関連用語

tf-idfとは？わかりやすく解説