よいまとめ?
http://ubiquitous-learning.jp/labo/downloa...
PDF
xpdfのpdftotextが定番らしい
pdftotext -v
pdftotext version 0.16.4
入ってた
今はpoppler(-utils)っていう名前らしい
http://fiasco.ddo.jp/blog/2009/02/pdf.html
http://www.altus5.co.jp/wordpress/tips/pdf...
PDFBoxっていうApacheプロジェクト(なのでJava)もある。
http://www.clear-code.com/blog/2010/8/2.html
1年前の記事。新しい。
http://opencae.my-sv.net/pctips/?PDF+%A4%F2+HTML+%A4%CB%CA%D1%B4%B9%A4%B9%A4%EB
GMailに送りつける。
これは新しいんじゃないかと思うけど怒られるのでやめよう。
ps2asciiってのも使えるみたい
http://blog.goo.ne.jp/nobody123/e/ea44ba35...
$ ps2ascii -v
GPL Ghostscript 9.01 (2011-02-07)
Copyright (C) 2010 Artifex Software, Inc. All rights reserved.
入ってた
・-----------------------------------
試してみる。
sudo apt-get install poppler-utils
already newer
http://www.mext.go.jp/a_menu/shotou/clarin...
でやると勝手に日本語だけを取ってきた(おそらく中国語を認識できてない)
※失敗するときはcmapなるものを入れるらしい
・-----------------------------------
Word
abiwordってやつがいいらしいけど、CUIでインストールできる気がしない
apt-getで入れれるらしいのでcentでも大丈夫っぽい
Excel
gnumericに入っているssconvertってやつでできるっぽい。
sourceからインストール
https://github.com/Kimtaro/node-abstract-m...
これ風にnodeでwrapper作ったら今後楽かも
また後で。