最終更新:2010-06-13 (日) 04:57:38 (5060d)  

tf-idf
Top / tf-idf

Term Frequency * Inverted Document Frequency

文書内の単語の重要度?を測定する最も簡単な基準。 複数の文書が存在し、それぞれの文書が単語に分かち書きされているのが前提。

文書内でのある単語の重要度 = 文書内の単語の出現回数 / その単語が出現する文書数

IDFの部分を対数にするなど、亜種もたくさんある。単純な割に精度は高い。最近、確率論的な解釈が行われ、その理論的裏付けが分かってきている。

  • TF:対象ドキュメント中の単語数(重複なし)
  • N:世界中に存在するテキストの数
  • DF:対象単語を含むドキュメントの数

WikipediaN-gramIDFデータ