最終更新:2013-03-18 (月) 03:49:24 (4236d)
N-gram
Top / N-gram
1つのものだけを数えるのでなく、隣接するものの頻度を数える。ある単位の生起が直後 n 個の単位にだけ依存すると考える言語モデル。
共起頻度?
一定区間に n 個の単位が出現(共起)する頻度。二つの単語が一緒に出て来くる共起のしやすさを計る。作成された単語のクラスタは、例えば、統計ベースの言語処理において「データ・スパースネス問題」の対処に用いたり、新聞の関連記事を検索する際に有効である。
- N-gramモデルでは、隣り合った文字列または単語の組み合わせを「共起関係」と呼ぶ。
- 「共起関係」がどの程度現れるかを集計した結果を「共起頻度」と呼ぶ。