Raspberry piにword2vec(その弐: 英辞郎の旧版を使って結果を比べてみた)

前回とりあえず word2vec を放り込んでみたRaspberry pi。
こんな記事
word2vecに英辞郎データを放り込んでみた - naoya_t@hatenablog

があったので,たまたま手元にずいぶんと昔の版があることもあって比較してみました。枝番81のバージョンです。Raspberry piには64GBのmicroSDカードをアダプタかまして挿入しています。
前処理から学習までは上の記事に合わせました。なお,どれだけ時間がかかるか不安だったので,前処理はMac mini上で終わらせて,Raspberry piをコンセントにセット。

#本筋から外れますが, homebrew でインストールしていた mecab の挙動が怪しかったので検索したらこんな情報に助けられました。
mecab を使おうとするとエラーが出る - メモ帳

でき上がった eiji-sep.txt をRaspberry piにsftpして学習開始。残したメモだと17:50開始で20:40終了という感じですからこの時点で3時間弱かかっています。

word2vecの集計では
Vocab size: 96656
Words in train file: 13223889
Words/thred/sec: 11.56K
という数値でした。

で,ここからが(ある意味)面白いのですが,同じ問い合わせをします。間引いて,いくつか結果を貼り付けますね。
(1) "find"
$ ./distance eijiro.bin
Enter word or sentence (EXIT to break): find

Word: find Position in vocabulary: 595

Word Cosine distance
------------------------------------------------------------------------
discover 0.593705
devote 0.588240
have 0.572565
commend 0.569735
bothering 0.569357
tells 0.566539
sincerely 0.564717
choose 0.547419
recommend 0.547338
considers 0.546779
scarcely 0.546496

(2) 「決める」
Enter word or sentence (EXIT to break): 決める

Word: 決める Position in vocabulary: 2776

Word Cosine distance
------------------------------------------------------------------------
定める 0.583123
挙げる 0.573505
探す 0.547788
に当たり 0.543472
見いだす 0.542970
選ぶ 0.541947
唱える 0.539804
日取り 0.538196
求める 0.536096
とる 0.534735
済ませる 0.531598
投じる 0.531458

(3) word-analogy: see : 見る = find : X
$ ./word-analogy eijiro.bin
Enter three words (EXIT to break): see 見る find

Word: see Position in vocabulary: 494

Word: 見る Position in vocabulary: 388

Word: find Position in vocabulary: 595

Word Distance
------------------------------------------------------------------------
ちらりと 0.453926
一瞥 0.432471
垣間見る 0.425661
鼻歌 0.424832
特徴付け 0.422913
流し目 0.419370
さげすん 0.418935
じろりと 0.415768

って感じで,バージョンが変わると出てくる結果が結構影響されるように思いました。加筆修正の影響でしょうか。