どらちゃんのポッケ

R・統計・技術メモなど勉強ログ置き場

twitteR(OAuth認証)でタイムラインを取得して、MeCabで解析する


自分がなにに興味を持っていたかも忘れてしまうので、
Twitterで自分のタイムラインを取得し、形態素解析で名詞を取り出して、登場回数をカウントするスクリプト。
最近、私が多く発言したものは、「統計」「雪」「Oracle」とかでした。

ソースはこちら。
https://github.com/michitakaiida/TwitterRMeCab_use/blob/master/TwitteRMecab_MytimeLine.R

以下はまった点

1)文字化け
1回ファイルに書き出して、それを読み込めば、文字化けを回避できたので、
1回ファイルに書き出すというダサい実装になってます。

たぶん、TwitteRMeCab文字コードの設定がずれてると思う。
本当はメモリ上だけで処理したかったけど、文字化けしてしまってだめでした・・・。


2)SSLエラー
download.file(url="http://curl.haxx.se/ca/cacert.pem", destfile="cacert.pem")

↑この行がないと、下記のようなエラーがでた。

Error in function (type, msg, asError = TRUE) : SSL certificate problem, verify that the CA cert is OK. Details: error:14090086:SSL routines:SSL3_GET_SERVER_CERTIFICATE:certificate verify fail

SSL証明書のエラーみたい。

RCANパッケージを存分に利用したので、黒魔術。。。