Raspberry piにword2vec

自然言語処理の分野でword2vecって面白い手法が出てきてるらしい。

unnonouno: Statistical Semantics入門の発表をしました

Python - Perl + Java = ? はてなブログのデータとパソコン工房のPCを使って「word2vec」で遊んでみた - はてなニュース

関連領域でもこんな記事が出てたりします。

word2vecに英辞郎データを放り込んでみた - naoya_t@hatenablog

Web上の記事だけだとなかなかとっつきにくかったのですが,Ebookだけとは言えこんな書籍まで出た

O'Reilly Japan - word2vecによる自然言語処理

ということで,いぢってみました。

上の書籍ではオペレーションシステムとしてapt-getができるものを想定しているそうで借りてるVPSだったら問題なく入りそう(実際後で試したら入った)。でもそれじゃ面白くないよね,ってことでapt-getはできるけどシステム要件的にきびしそうなRaspberry piへのインストールを試してみました。

ソースコードをダウンロードするところまでは何の問題もなかったのですがコンパイルでちょっとてこずりました。

Debian (squeeze)にword2vecをインストール - 森薫の日記

こちらのページにあるようにMakefileに手を入れて再挑戦。まだまだ,ってことで

-march=native

 を削除して make で,何とかコンパイル完了。

 サンプルのtext8の学習にRaspberry piだと4時間以上かかったんじゃないかな。

考えたら乾電池サーバ(Amazon.co.jp: cheero Power Plus DANBOARD version -mini- 6000mAh マルチデバイス対応 モバイルバッテリー: 家電・カメラ なので正確には乾電池じゃないけど)でこんな処理ががしがしとできるご時世になったんですねぇ。

 

word2vecは素人なりの用途としたら学習者の英作文コーパス母語話者の作文コーパスとの比較とかできそうかも。