最終更新:2009-05-04 (月) 01:21:51 (5443d)
Webstemmer
Top / Webstemmer
Webstemmer はニュースサイトから記事本文と記事のタイトルをプレインテキスト形式で 自動的に抽出するソフトウェアです。 サイトのトップページの URL さえ与えれば全自動で解析するため、 人手の介入はほとんど必要ありません。
http://www.unixuser.org/~euske/python/webstemmer/howitworks-j.html
基本的な原理
Webstemmer では、以下のような仮定をもとにして Web ページを分析しています。
- すべての記事には共通した (たかだか数種類の) レイアウトが使われている。
- 各ページにはメインとなる文章がひとつ含まれている。 (従って、この原理は日記や掲示板などのサイトには使えません)
- 記事の文章は毎日変わっても、そのレイアウトは変わらない。
- バナー広告やナビゲーションの HTML タグは同一レイアウトのページで不変。