twitteR(OAuth認証)でタイムラインを取得して、MeCabで解析する
自分がなにに興味を持っていたかも忘れてしまうので、
Twitterで自分のタイムラインを取得し、形態素解析で名詞を取り出して、登場回数をカウントするスクリプト。
最近、私が多く発言したものは、「統計」「雪」「Oracle」とかでした。
ソースはこちら。
https://github.com/michitakaiida/TwitterRMeCab_use/blob/master/TwitteRMecab_MytimeLine.R
以下はまった点
1)文字化け
1回ファイルに書き出して、それを読み込めば、文字化けを回避できたので、
1回ファイルに書き出すというダサい実装になってます。
たぶん、TwitteRとMeCabの文字コードの設定がずれてると思う。
本当はメモリ上だけで処理したかったけど、文字化けしてしまってだめでした・・・。
2)SSLエラー
download.file(url="http://curl.haxx.se/ca/cacert.pem", destfile="cacert.pem")
↑この行がないと、下記のようなエラーがでた。
Error in function (type, msg, asError = TRUE) : SSL certificate problem, verify that the CA cert is OK. Details: error:14090086:SSL routines:SSL3_GET_SERVER_CERTIFICATE:certificate verify fail
SSL証明書のエラーみたい。
RCANパッケージを存分に利用したので、黒魔術。。。