NYSOLによる前処理を試してみた話
「データ解析なんて、ほぼ前処理だよね」
NYSOLとは
- http://www.nysol.jp/
- データ分析の前処理等を含めたデータ分析に使えるようなライブラリのOSS?
- TokyoR:39回で知りました。参加はしてませんが、Twitterで資料などが流れていて知りました。くわしくは知りません・・・。
- こちらのスライドを拝見させて頂いて、すごい!と思い、試してみました。
NYSOLを使ってみる
とりあえず、インストール
- ユーザ登録とライセンスに同意をする
- インストーラーのダウンロード
- mac os の場合はdmg形式なので、インストーラーを起動して次へ次へで終了
- 公式ドキュメントに以下のように、書いてあるのだが、私はrbenvだったので、関係なかったです
rvmがインストールされた環境ではうまくインストールできない
- 公式ドキュメントに以下のように、書いてあるのだが、私はrbenvだったので、関係なかったです
とりあえず使ってみる
- TwitterのCSVデータをサンプルにmcutを試してみた
mcutで特定の列を取り出すシェル(fが取り出す列名、iが入力ファイルパス)
mcut f=text i=tweets.csv
結果
text 頭疲れた Install on Mac OS X http://t.co/CjJ8XXRNNa 逆ジオコーディング(住所の逆検索)https://t.co/sNzuHmlxZZ JR東日本のアプリ、入れたけど、ネットワーク通信エラーで動かない。。 RT @markezine_jp: 「JR東日本アプリ」、運行状況から車内温度までわかる全部おまかせアプリ http://t.co/Z9j4ZZrzVF
いい感じ。
感想
- shellでカジュアルに前処理ができるというのは便利だ
- パイプも使えるし便利そう
- 可視化のあたりは、まだドキュメントがそろっていなかったりしているので、今後に注目です!