最終更新:2011-01-02 (日) 01:03:07 (3551d)  

UniDic
Top / UniDic

http://www.tokuteicorpus.jp/dist/

UniDicとは

  • UniDicは日本語テキストを単語に分割し,形態論情報を付与するための電子化辞書です。
  • 形態素解析器?「茶筌(ChaSen)」,「和布蕪(MeCab)」の辞書として利用できます。

UniDicの特長

  • 国立国語研究所で規定した「短単位?」という揺れがない斉一な単位設計?されています。
  • 語彙素?語形?書字形?発音形?階層構造?を持ち,表記の揺れや語形の変異にかかわらず同一の見出しを与えることができます。(詳しくはこちらのページをご覧ください。)
  • アクセント?や音変化の情報を付与することができ,音声処理の研究に利用することができます。
  • 詳しくは多様な目的に適した形態素解析システム用電子化辞書の開発(PDF)をご覧ください。