最終更新:2011-01-02 (日) 01:12:01 (3506d)  

日本語ウェブコーパス
Top / 日本語ウェブコーパス

http://s-yata.jp/corpus/

http://s-yata.jp/corpus/nwc2010/

パッケージ

HTML アーカイブ約 1 億件の HTML 文書圧縮時 197GB,展開時 3.25TB
テキストアーカイブHTML アーカイブから抽出されたテキスト圧縮時 69GB,展開時 396GB
形態素解析結果タグなしテキストの形態素解析結果(MeCab圧縮時 115GB,展開時 4.36TB
形態素 N-gram圧縮時 12.1GB,展開時 75.2GB
文字 N-gram圧縮時 11.8GB,展開時 81.7GB
  • タグ使用頻度 - HTML タグの使用頻度(TF・DF)
  • セクションターゲット - セクションターゲット(AdSence?)の用例
  • ツールキット - テキストアーカイブや N-gram コーパスの作成ツール