wgetのことも覚えていてあげてください

wgetというプログラムがあります( GNU Wget - Wikipedia http://bit.ly/JdtmW0 )。同Wikipediaの記載によれば,「Wgetの特徴には、再帰的ダウンロード、ローカルに取得したHTMLをオフラインで閲覧するためのリンクの変換、プロキシのサポートその他多くが含まれる」わけです。似た機能を持つプログラムは他にもあるんでしょうが,GNUだし! でも正直オプション指定がいろいろありすぎるのが個人的には玉に瑕なのですが。

その(おいらにとっての)欠点を補う意味でMac上ではCocoaWgetを好んで使っています。

例えば昨日おいらのTLをにぎわしていた某サイトを例にして,簡単な説明をつけてみます。

1. CocoaWgetを立ち上げたらまずはメニューからPreferences...を選択。

2. Downloadタブの[Select...ボタンを押して適当なDownload Folderの保存場所を選びます。[Convert links to relative]にチェックを入れておくとローカルのパスにあわせてよしなに調整されるので,ここはチェックします。

3. これだけの準備をしたらメインウィンドウのURLに,起点にするファイル(一般的には http://.../index.html くらいでしょうか)を入力してAdd。Recursiveのオプションはリンクをどこまでたどるかなので,サーバ・ネットワーク負荷やローカルのディスク容量を考えて,慎ましくしておく方がいいと思います。[Log]ボタンをクリックしておくと進行状況が確認できます。で,[Start]ボタンをポチッとすると手元にリモートホストのhtml文書が複製されることになります。

常にネットワークにつながっている保証がないのと,Macの場合ローカルに置かれたファイルはSpotlightの検索対象になるので,重宝するんですけどね。

pdfからテキスト情報を抜き出すツールを作った(車輪の再発明)

この手のプログラムだとcasualconc さんが公開されているCasualTextractorがde facto standardなのでしょうが,MBA上でのAutomatorの使い方をさらっておきたくなって発作的にでっちあげました。

準備作業として,まずpdftotextというユーティリティを入手する必要があります。何のことはない,Mac的なファイル選択ダイアログでファイルを選んだら,処理自体はこのpdftotextにお任せという実に安直な「ガワだけ君」なので(笑)。
そのために,こちらのページ(Xpdf: Download)から More binaries > MacOS X と進んで xpdf-tools-3.dmg を入手します。DiskImageをマウントしてxpdf-tools.pkgをクリックしてインストール。pdftotextは/usr/local/binの下に入ります。

で,今回のツールはこちらから(zipファイルへの直リンクです)ダウンロードできるようにしました*1。ダブルクリックするとYApdftotext4Macという長ったらしいプログラム(実体はWorkflow)が起動します*2

起動したらテキスト情報を抜き出したいpdfファイルを指定するダイアログが出ます。OSの標準的な選択方法で複数ファイルも選択できます。起動シェルは/bin/shにしています。書き出しオプションはUTF-8決め打ちです。処理が済むと,元ファイルと同じ階層に元ファイル名.txtという名前で変換されたファイルができ上がっているはずです*3

ご興味おありの方はお試しください m(_ _)m。

*1:zipファイルにしたのは,結局package化されてるので,サーバ上でそのまま見せる方法が分からなかったというほんと基本的な理由ですorz

*2:当然ながらMac専用です。あと手元のSnow Leopardの環境では問題なく走りますが,Lionだと最初の起動時に「Lion環境に合わせるよ」的なメッセージが出るかもしれません。手元では挙動について未確認です

*3:英語論文が処理できればいいやというお気楽な方針でよしにしてますので,日本語論文は現状対応してないと思います。pdftotextのオプションで何とかなりますかねぇ

さくらのVPSにRStudioのサーバ版をインストールした (2012年3月バージョン)

環境はVPS512なのでメモリ512MB,HDD 20Gという組み合わせ。カスタムOSでCentOS 6の32bit版を選択しています。仕様について詳しくはこちらをどうぞ。
( VPS(仮想専用サーバ)のさくらインターネット http://bit.ly/mZshh0 )

まず何はなくとも公式情報ということで
RStudio http://bit.ly/xMO9dK
こちらを見ます。

CentOS 6系だとEPELレポジトリの操作は必要ありませんでした。ので,まずはRのインストール。
$sudo yum install R
で入ります。

その後で今回は32-bit版を選択。指示通りに
$wget http://download2.rstudio.org/rstudio-server-0.95.262-i686.rpm
$sudo rpm -Uvh rstudio-server-0.95.262-i686.rpm
の2行を入力。

するとあれこれと「パッケージがないよ〜」と言われるので,この辺を参考に
( Jermdemo Raised to the Law: Installing RStudio Server on Scientific Linux 6: My bash notebook http://bit.ly/wwCRaW )

$sudo yum install libcrypto.so.6
$sudo yum install libgfortran.so.1
$sudo yum install libssl.so.6
と3行分作業。

改めて
$sudo rpm -Uvh rstudio-server-0.95.262-i686.rpm
で無事インストール完了。

標準では8787番ポートを使うので,iptablesで許可すれば
サーバのIPアドレス:8787
でアクセスできます。基本はシステムのログイン情報を見ているので,UsernameとPasswordの組み合わせはシステムのものに合わせます。

オープンベータになったとのことで早速登録してみた。

はてなブログ」をオープンベータに移行。あわせてMacBook Airが当たるキャンペーンを実施 - 会社情報:プレスリリース - 機能変更、お知らせなど http://bit.ly/vyGBwo

Processing周りだと

今日突発的に某所で話題になったのでMy参考文献ってことで。初めの1冊にどうかって感じです。

Processing「を」触りたい,って場合にはこのへんがいいんじゃないかと。

Built with Processing[Ver. 1.x対応版] -デザイン/アートのためのプログラミング入門

Built with Processing[Ver. 1.x対応版] -デザイン/アートのためのプログラミング入門

Processing「で」何かしたい,って場合には方向性によってこのへんか

ビジュアライジング・データ ―Processingによる情報視覚化手法

ビジュアライジング・データ ―Processingによる情報視覚化手法


このへん(Processingの派生言語ですが)。
Prototyping Lab ―「作りながら考える」ためのArduino実践レシピ (Make:PROJECTS)

Prototyping Lab ―「作りながら考える」ためのArduino実践レシピ (Make:PROJECTS)

最初のを選ぶと次に選ぶのはこのへんかなぁ。

ビューティフルデータ (THEORY/IN/PRACTICE)

ビューティフルデータ (THEORY/IN/PRACTICE)


2冊目はこのへんとセットがいいと思う。

って,「初めの1冊」じゃなくなってるし...orz。

ふと我に返って,視覚化に関してはこんなツールも面白いと思うんだけど。
Gephi, an open source graph visualization and manipulation software http://bit.ly/hSvYep

Mac上でのパッケージ管理システム

さっきの記事ではMacPortsを使ったって書きましたが,最近の主流はhomebrewのようです。

たまたま手元ではMacPortsを導入済みで,なおかつJuliusがパッケージ化されていたので,素直に利用させていただきましたが,今からパッケージ管理システムそのものを導入するということでしたら,別の選択肢も検討すべきでしょう。

あえて,MacPortsを入れたいという方にはこちらのページが参考になると思います。
MacPortsでステキなUNIXツールをインストール - はこべにっき#