word2vecを試してみたが・・・の話 - どらちゃんのポッケ

動機

少し前からword2vecの存在は知っていたけど、下記の理由で流していた
- テキストマイニングなんて、結局は、辞書の出来と前処理でしょ？って思っていた
- Ngramとか、共起とか、そういったもので十分なのでは？って思っていた
- デーィブラーニングなんで、ニューラルネットも理解してないので、厳しいなー
けど、下記の理由で触ってみようと思った。
- この前の機械学習ハッカソンでニューラルネットの実装を触ってみて、他の人のディープラーニングの実装の話を聞いて、なんとなく理解できた
- ちょうどその時、このPython - Perl + Java = ？はてなブログのデータとパソコン工房のPCを使って「word2vec」で遊んでみたの記事が観測範囲に入ってきた
  - http://hatenanews.com/articles/201404/20050
- 改めで、考えるとディープラーニングの学習とか、足し算・引き算とか面白いなーって思った

基本的には、公式サイトにある通り

SVNチェックアウト
チェックアウトしたディレクトリで、makeする
- しかし、エラーとなるので、compute-accuracy.c/distance.c/word-analogy.cのファイルを修正
  - #include <malloc.h>を#include <malloc/malloc.h>に変更
  - malloc.hの場所が変わったらしい
    - 参考：http://tottokug.hatenablog.com/entry/2014/04/17/160603
インストール完了
コンソールでword2vecをうって、helpがでれば成功

コンソールでmecabを使って形態素解析しているバージョン

mecabで形態素解析：word2devは空白区切りのテキストデータを学習データとするので、その形式にする
```
  cat {元データ} | mecab  --node-format="%f[6] " --eos-format="\n"　> {mecabedデータ}
```

学習

  word2vec  -train {mecabedデータ}   -output {train_result.bin} -window 10 -binary 1

分析

  #単語間の距離
  word2vec/distance {train_result.bin}

  #AにとってのBは、Cにとっての何か（B - A + C = ?）
  word2vec/word-analogy {train_result.bin}

ちょっとハマった点

ダメ

  Enter three words (EXIT to break): い　い　お
  Only 1 words were entered.. three words are needed at the input to perform the calculation

  Enter three words (EXIT to break): い い お

  Word: い  Position in vocabulary: 0
  Out of dictionary word!

TwitterAPIで取得した100件を学習データとしてやってみたが、全然データが足りない
- Ngramとかよりも、ある程度のデータが必要だなーと思った
analogyをうまく使うには、そもそものデータをどこから持ってくるのかを考えないといけない？
- 足し算・引き算を使えるようにするためには、ある程度、広範囲に言及しているテキストデータが必要な気がするなー