最終更新:2013-03-18 (月) 03:49:24 (4057d)  

N-gram
Top / N-gram

1つのものだけを数えるのでなく、隣接するものの頻度を数える。ある単位の生起が直後 n 個の単位にだけ依存すると考える言語モデル。

共起頻度?

一定区間に n 個の単位が出現(共起)する頻度。二つの単語が一緒に出て来くる共起のしやすさを計る。作成された単語のクラスタは、例えば、統計ベースの言語処理において「データ・スパースネス問題」の対処に用いたり、新聞の関連記事を検索する際に有効である。

  • N-gramモデルでは、隣り合った文字列または単語の組み合わせを「共起関係」と呼ぶ。
  • 「共起関係」がどの程度現れるかを集計した結果を「共起頻度」と呼ぶ。

問題点

種類

Google

Wikipediaから作成したデータ

形態素N-gram

文字N-gram

参考