pdfからテキスト情報を抜き出すツールを作った(車輪の再発明)

この手のプログラムだとcasualconc さんが公開されているCasualTextractorがde facto standardなのでしょうが,MBA上でのAutomatorの使い方をさらっておきたくなって発作的にでっちあげました。

準備作業として,まずpdftotextというユーティリティを入手する必要があります。何のことはない,Mac的なファイル選択ダイアログでファイルを選んだら,処理自体はこのpdftotextにお任せという実に安直な「ガワだけ君」なので(笑)。
そのために,こちらのページ(Xpdf: Download)から More binaries > MacOS X と進んで xpdf-tools-3.dmg を入手します。DiskImageをマウントしてxpdf-tools.pkgをクリックしてインストール。pdftotextは/usr/local/binの下に入ります。

で,今回のツールはこちらから(zipファイルへの直リンクです)ダウンロードできるようにしました*1。ダブルクリックするとYApdftotext4Macという長ったらしいプログラム(実体はWorkflow)が起動します*2

起動したらテキスト情報を抜き出したいpdfファイルを指定するダイアログが出ます。OSの標準的な選択方法で複数ファイルも選択できます。起動シェルは/bin/shにしています。書き出しオプションはUTF-8決め打ちです。処理が済むと,元ファイルと同じ階層に元ファイル名.txtという名前で変換されたファイルができ上がっているはずです*3

ご興味おありの方はお試しください m(_ _)m。

*1:zipファイルにしたのは,結局package化されてるので,サーバ上でそのまま見せる方法が分からなかったというほんと基本的な理由ですorz

*2:当然ながらMac専用です。あと手元のSnow Leopardの環境では問題なく走りますが,Lionだと最初の起動時に「Lion環境に合わせるよ」的なメッセージが出るかもしれません。手元では挙動について未確認です

*3:英語論文が処理できればいいやというお気楽な方針でよしにしてますので,日本語論文は現状対応してないと思います。pdftotextのオプションで何とかなりますかねぇ