最終更新:2008-07-12 (土) 22:04:36 (4373d)  

KOTONOHA
Top / KOTONOHA

独立行政法人国立国語研究所では、明治から現代?にいたる日本語の全貌を把握するための言語コーパス?KOTONOHAを構築しています。2006年度から5年間は、現代日本語の書き言葉を対象としたコーパスの構築を進めます。

http://www2.kokken.go.jp/kotonoha/

モニター公開データ

  • 書籍 約1,000万語(4,669サンプル)(プレーンテキスト/XMLファイル)
  • 白書 約500万語(1,500サンプル)(プレーンテキスト/XMLファイル)
  • Yahoo!知恵袋 約500万語(45,725サンプル)(プレーンテキスト)
  • 国会会議録? 約500万語(159サンプル)(プレーンテキスト)