どらちゃんのポッケ

R・統計・技術メモなど勉強ログ置き場

NYSOLによる前処理を試してみた話

「データ解析なんて、ほぼ前処理だよね」

NYSOLとは

  • http://www.nysol.jp/
  • データ分析の前処理等を含めたデータ分析に使えるようなライブラリのOSS
    • TokyoR:39回で知りました。参加はしてませんが、Twitterで資料などが流れていて知りました。くわしくは知りません・・・。

  • こちらのスライドを拝見させて頂いて、すごい!と思い、試してみました。

NYSOLを使ってみる

とりあえず、インストール

  • ユーザ登録とライセンスに同意をする
  • インストーラーのダウンロード
  • mac os の場合はdmg形式なので、インストーラーを起動して次へ次へで終了
    • 公式ドキュメントに以下のように、書いてあるのだが、私はrbenvだったので、関係なかったです

      rvmがインストールされた環境ではうまくインストールできない

とりあえず使ってみる

  • TwitterCSVデータをサンプルにmcutを試してみた
  • mcutで特定の列を取り出すシェル(fが取り出す列名、iが入力ファイルパス)

      mcut f=text i=tweets.csv
    
  • 結果

      text
      頭疲れた
      Install on Mac OS X http://t.co/CjJ8XXRNNa
      逆ジオコーディング(住所の逆検索)https://t.co/sNzuHmlxZZ
      JR東日本のアプリ、入れたけど、ネットワーク通信エラーで動かない。。
      RT @markezine_jp: 「JR東日本アプリ」、運行状況から車内温度までわかる全部おまかせアプリ http://t.co/Z9j4ZZrzVF
    

いい感じ。

感想

  • shellでカジュアルに前処理ができるというのは便利だ
    • パイプも使えるし便利そう
  • 可視化のあたりは、まだドキュメントがそろっていなかったりしているので、今後に注目です!