最終更新:2012-05-08 (火) 23:32:45 (4341d)
xdoc2txt
Top / xdoc2txt
PDF,DOC,XLS,一太郎?などの各種バイナリ文書からテキストを抽出
http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html
- xdoc2txtはPDF,WORD,EXCEL,一太郎などの各種バイナリ文書から、テキスト要素を抽出する汎用テキストコンバータであり、Windowsのコマンドラインで動作します。
- xdoc2txtは各種文書の構造を直接解析しているため、単独で変換できます。WORDや Acrobatなど、作成元のアプリケーションをインストールする必要はありません。
- 高速に動作するので、各種全文検索エンジンのフィルタに最適です。
- ワープロ文書の種類は、拡張子から判別します。次の拡張子のファイルに対応しています。
対応形式
- .rtf? リッチテキスト?
- .docx Microsoft Word 2007(OOXML)
- .xlsx? Microsoft Excel 2007(OOXML)
- .pptx? Microsoft PowerPoint 2007(OOXML)
- .doc Microsoft Word ver5.0/95/97/2000/XP/2003
- .xls Microsoft Excel ver5.0/95/97/2000/XP/2003
- .ppt Microsoft PowerPoint 97/2000/XP/2003
- .sxw?/.sxc?/.sxi?/.sxd? OpenOffice.org
- .odt?/.ods?/.odp?/.odg? OpenDocument Format
- .jaw?/.jtw? 一太郎? ver5
- .jbw?/.juw? 一太郎? ver6
- .jfw?/.jvw? 一太郎? ver7
- .jtd?/.jtt? 一太郎? ver8/9/10/11/12
- .oas?/.oa2?/.oa3? OASYS?/Win
- .bun? 新松?/松5/松6
- .wj2?/.wj3?/.wk3?/.wk4?/.123? Lotus 123
- .wri? Windows3.1 Write
- .pdf? Adobe PDF
- .mht? Webアーカイブ
- .html? HTML
- .eml? Outlook Express?のエクスポート形式