最終更新:2011-01-02 (日) 01:12:01 (4835d)
日本語ウェブコーパス
Top / 日本語ウェブコーパス
http://s-yata.jp/corpus/nwc2010/
パッケージ
HTML アーカイブ | 約 1 億件の HTML 文書 | 圧縮時 197GB,展開時 3.25TB |
テキストアーカイブ | HTML アーカイブから抽出されたテキスト | 圧縮時 69GB,展開時 396GB |
形態素解析結果 | タグなしテキストの形態素解析結果(MeCab) | 圧縮時 115GB,展開時 4.36TB |
形態素 N-gram | 圧縮時 12.1GB,展開時 75.2GB | |
文字 N-gram | 圧縮時 11.8GB,展開時 81.7GB |
- タグ使用頻度 - HTML タグの使用頻度(TF・DF)
- セクションターゲット - セクションターゲット(AdSence?)の用例
- ツールキット - テキストアーカイブや N-gram コーパスの作成ツール