S 351a1283ebdb3e2fd13e6cefe95ed231 PDF,Wordからテキスト抽出

よいまとめ?
http://ubiquitous-learning.jp/labo/downloa...

PDF

xpdfのpdftotextが定番らしい

pdftotext -v
pdftotext version 0.16.4
入ってた

今はpoppler(-utils)っていう名前らしい
http://fiasco.ddo.jp/blog/2009/02/pdf.html

http://www.altus5.co.jp/wordpress/tips/pdf...
PDFBoxっていうApacheプロジェクト(なのでJava)もある。

http://www.clear-code.com/blog/2010/8/2.html
1年前の記事。新しい。

http://opencae.my-sv.net/pctips/?PDF+%A4%F2+HTML+%A4%CB%CA%D1%B4%B9%A4%B9%A4%EB
GMailに送りつける。
これは新しいんじゃないかと思うけど怒られるのでやめよう。

ps2asciiってのも使えるみたい
http://blog.goo.ne.jp/nobody123/e/ea44ba35...

$ ps2ascii -v
GPL Ghostscript 9.01 (2011-02-07)
Copyright (C) 2010 Artifex Software, Inc. All rights reserved.

入ってた

・-----------------------------------

試してみる。

sudo apt-get install poppler-utils
already newer

http://www.mext.go.jp/a_menu/shotou/clarin...
でやると勝手に日本語だけを取ってきた(おそらく中国語を認識できてない)

※失敗するときはcmapなるものを入れるらしい

・-----------------------------------

Word

abiwordってやつがいいらしいけど、CUIでインストールできる気がしない
apt-getで入れれるらしいのでcentでも大丈夫っぽい

Excel

gnumericに入っているssconvertってやつでできるっぽい。
sourceからインストール

https://github.com/Kimtaro/node-abstract-m...
これ風にnodeでwrapper作ったら今後楽かも

また後で。

もしかして

    他の人の「PDF,Wordからテキスト抽出」

    S 351a1283ebdb3e2fd13e6cefe95ed231

    はじめまして。そして、はじめまして。

    (127words)

    最新

      最新エントリ