最終更新:2016-01-30 (土) 20:45:08 (3001d)  

mecab-unidic-neologd
Top / mecab-unidic-neologd

https://github.com/neologd/mecab-unidic-neologd/blob/master/README.ja.md

概要

  • mecab-unidic-neologd は、UniDic に多数のWeb上の言語資源?から得た新語固有表現?絵文字などのエントリを足して MeCab のシステム辞書としてインストールするためのシードデータとスクリプト群のセットです。

現在使用している資源は以下のとおりです

  • はてなキーワードのダンプデータ
  • 郵便番号データ?ダウンロード
  • 日本全国駅名一覧のコーナー
  • 人名(姓/名)エントリデータ
  • Unicode 6.0? 以下の絵文字に手作業で読み仮名を付与したデータ
  • Web からクロールした大量の文書データ