どらちゃんのポッケ

R・統計・技術メモなど勉強ログ置き場

Google IO 2017のKeynoteを見て思った事

youtu.be

Google IOのKeynoteを見た。 Google Home / Google Lens/ Google photo book/ Visual Positioning Service / Kotlinあたりで私も観客と一緒に「おーっ」となった。

iPhoneからAndroidに乗り換えようかなと思うぐらいワクワクさせられた。

ちょっと長ったけど・・・w

どのサービスにも機械学習がベースにあって、機械学習によって基本能力が上がっている感じ。

機械学習の使い方も上手い。ユーザのデータが集まったから機械学習しました系の新機能も多かった。

インターネットが登場して世界が変わった時のように、機械学習が進化して世界が変わってきている感を強く感じた。

その機械学習などがソフトウェア企業のGoogleの強みであるし、魅力になっているのは間違いないけれど、機械学習一辺倒なのも少しどうなのかな?とも思った。サービスの新機能を考える上で、「まっさらからユーザのニーズを考えて新機能を作る」のではなく、「ユーザデータを取ってきて機械学習して新機能を作ればいいのでは?」と安易な流れだけには行かないでほしいなーと(個人的な感想)

気になったサービスを2つ

Google Lens

japanese.engadget.com

撮った写真の建物なんだっけ?とか、店のホームページのスクショからtelかけるとかできる。こういうの欲しかった。自分自身WiFiのID/PASSをメモ代わりに写真撮っておくっていう事をよくするので、google LensのユースケースとしてもあのWiFiの例は良かったと思う。

そして、google LensとGoogle photoが連携するのも、さすが。よくわかっている。

Google Photo Books

www.google.com

日本展開がされないから、どのメディアも取り上げないから、あまり注目されてないけど、個人的にはこれが一番「来たかー」感があった発表。

  1. Google photoで気兼ねなく写真を撮ってUPする
  2. → どれがいい写真かよくわからん。写真がたくさんだから、選別も辛い。
  3. Google機械学習で選んであげるよ!

っていうすごく解りやすい流れだし、ソフトウェア以外にも乗り出して一貫サービスをするというのが新しいと思う。Google photoの写真をいい感じに画像処理する機能も入ってきたら、ユーザはただ撮るだけで、いい感じのPhotoBookが送られてくるという凄いサービスが出来上がると思うのです。

「原因と結果」の経済学 ―データから真実を見抜く思考法を読んだ。データと向き合う考え方を教えてもらえる気がする良書。

なぜこの本を手に取ったのか?

2−3年前から因果推論が流行の兆しを見せていて、ずーっと勉強しようとは思っていたが、踏み出せずにいたところに、岩波データサイエンス Vol.3(特集:因果推論)が発売され、因果推論ってこんな感じなんだーと思ったところに、この本が発売されたので読むしかないでしょと。

どんな本だったのか?

今年読んだ本の中で、ベスト5には入るすごく良い本だった。

ランダム化比較試験、差の差分析、回帰不連続デザイン、プロペンシティ・スコア・マッチング(傾向スコア)、回帰分析などなど・・・。因果分析のやり方の概念を具体例を交えながら、分かりやすく説明していた本だった。

概念・考え方に限定し、数式やコードなどは出てこないので、この本だけでは実際に因果統計分析をやろうと思ってもすぐに実践することはできない。けれど、考え方を知っているだけで、誤った解釈を防げたり、データ集めの方針を決めたりする時に参考になる。「入門の入門」にはもってこいだと思う。

因果推論は、 社会心理学会 第3回春の方法論セミナーに参加したり、岩波データサイエンス Vol.3(特集:因果推論)を読んだぐらいで、まだ全然勉強できていないが、俯瞰して分析方法や概念を知れたのは、とてもよかった。

雑多な感想

  • 「おぉ、こんな感じでデータを扱えば因果の方向の考察ができるのか?」という感覚は、大学時代に初めて実験計画法を教わったときのような感覚だった。

  • 現在のビッグデータ時代、データが手に入れやすくなって、データドリブンな判断がされているが・・・。得られた結果は、相関なのか?因果なのか?因果の方向はどっち向きなのか?はたまた、偶然なのか?このあたりのデータを解釈する上でのデータリテラシーは、データに携わる人々は皆が抑えておくべき必須知識だと思う。

  • 因果推論と言っても、唯一無二の方法があるというわけでなく、得られるデータや使い方によって色々な方法を使いこなさないといけない。それぞれの分析方法の前提条件や分析方法のエビデンスの高さなど、分析手法間の違いも、なんとく把握できた。岩波データサイエンス Vol.3(特集:因果推論)を読んだ時には、そこまで理解できていなかったので、とても助かった。

  • 空前のDeepLearningブーム・機械学習ブームの中、「データを大量に集めてDNNにかけたら、なんか知らないけど予測が高精度に出来て良かった!」というのも一つの解としてはアリだとは思う。けれど、統計モデリング派の私としては、その裏側の仕組みやモデリングを行って人間が理解できるようにするという思想は大事にしたいなと思っていて、そういう意味でも因果推論の話は学んでいきたいと思う。そして、最近、機械学習界隈でのDeepLearningに相当するものは、統計モデリング界隈では、因果推論かベイスモデリングMCMCとか)であって、この2つはブームが来程るのではないかと個人的には思っている。

イマイチまだわかっていないこと

教えていただきたい・・・。

  • SEM(構造方程式モデリング)との関係

    • SEMも中途半端な理解しか出来ていないけれども、因果推論の文脈でSEMをどう捉えればいいのかが、ピンとこない。
    • SEMも因子分析+回帰分析なので、やってることは、回帰分析の因果推論と同じ??
  • GoogleCausalImpactというRのパッケージは、因果推論の文脈でいうと何をしているのか?

    • 時系列データから、反事実を推定して穴埋めし、それと実際のデータを比較しているという理解でいいのだろうか・・・。

次は・・・?

この本の著者の津川先生が↓ とおっしゃっているので、

データ分析の力 因果関係に迫る思考法を読もうかと思います

職場の人間科学を読んだ

職場の人間科学: ビッグデータで考える「理想の働き方」

職場の人間科学: ビッグデータで考える「理想の働き方」

きっかけ

最近、HR Techやピープルアナリティクスに興味があって、体系的に書かれた本ないかなーと思って、そういう本を探していて、題名ズバリだし、評価もそこそこだし、勉強しようと思って読んだ。

どんな本だったか?

組織の進化的・歴史的背景知識+データの見えざる手に描かれているような、社員証にセンサーをつけて、コミュニケーションパスを分析して考えてみたという2本立ての内容でした。2013年に書かれた本としては、先進的だったのかな??

感想

  • オプトインや透明性の話、実験参加していない人に対してもダミーのセンサーを配る、ホーソン効果などの話・・・。職場で実験や調査をするときに気をつけないといけないことに言及されていてよかった
  • お互いのことを知ることができる上限の数:ダンバー数
  • 社会ネットワーク分析とかは、分析手法としてRの{igraph}とかを使って触ったことはあるけれど、コミュニケーションとして考えた時に、生産性と社会ネットワーク分析がどう関係していくのか?というのは面白かった
    • 凝集性と多様性というキーワードは覚えておきたい
  • 今、働き方改革などで、リモートワークが推進されているけれども、そうなった時の測定ってどうすればいいんだろうか。数年後、より戻しで、オフィス集中がいいとかなるのだろうか。
  • 直接コミュニケーションによって得られるプラスのメリットをうまく特定できれば、リモートワークでもリアルコミュニケーションと同等の力を発揮できるんだろうか。

「Joy,Inc. 役職も部署もない全員主役のマネジメント」 を読んだ

ジョイ・インク 役職も部署もない全員主役のマネジメント

ジョイ・インク 役職も部署もない全員主役のマネジメント

周りの人が読んでよかったと言っていたので、読んでみた。読み初めは、「タイトルのJoyってなんだろうなー・・・」って半信半疑で読んでいたが、冒頭のこのフレーズが刺さった。

なぜ喜びをあえて取り上げる必要があるのだろう?

(・・中略・・)

チームのうち、半分が喜びを持っていて、半分が喜びを持っていないとしたら、あなたの理想のプロジェクトにはどちらの人を入れたいと思いますか??

喜びとか、そういうものは、なぜか知らないけど、仕事の上では、その価値が低く見られがちだけども、

「喜びがあるチームだから、生産性が高そう」

「喜びがあるチームだから、一緒に働きやすそう」

・・・というように、生産性や働きやすさの土台・1つ上の概念として考えてもいいようなことなんだなと。

考えて改善していくことの大事さ

この本で、XP、スクラム、ラーニングランチ、カンバンなど、メンロー・イノベーション社の色々な取り組みが紹介されていたけれども、その取り組み自体を参考にするというのも、良さそうだけれども、多分本質は「良い方向に向くように考えて、実験して、常に改善していく。そして、それを行える土壌を作っている。」ということなんだろうなと思った。

「喜び」をメインテーマにして、いろんな実験をして、改善していった結果が、本に載っていることなんだろう。

小さなチーム、大きな仕事: 37シグナルズ成功の法則 を読んだ

小さなチーム、大きな仕事――働き方の新スタンダード (ハヤカワ・ノンフィクション文庫)

小さなチーム、大きな仕事――働き方の新スタンダード (ハヤカワ・ノンフィクション文庫)

  • 作者: ジェイソンフリード,デイヴィッドハイネマイヤーハンソン,黒沢健二,松永肇一,美谷広海,祐佳ヤング
  • 出版社/メーカー: 早川書房
  • 発売日: 2016/12/08
  • メディア: 文庫
  • この商品を含むブログを見る

どんな本か?

37signalsが取り組んできた働き方・ビジネスの考え方が描かれている本。

前々から気になっていたけども、今回手に取ったきっかけは、SOFT SKILLS ソフトウェア開発者の人生マニュアルで触れられていたから。あっさり読めるし、読んでよかった。

感想

リーンスタートアップのような考え方がベースにあるように思った。「小さなチーム」というのがあるけれど、小さなチームでなくても、参考になることはたくさんあるし、むしろ今後は大企業でもこう言った考えを持っていないと生き残れないように思っている。

この辺のところは特に印象に残った。

  • 制約を受け入れる
  • 芯から作る
  • 競争相手以下のことしかしない
  • 顧客の声を書き留めてはいけない
  • 競合相手に教える

中でも、「競争相手以下のことしかしない」は、一番印象に残った。 製品開発、新規事業などなどをお手伝いすることがあるけれど、どうしても他社・他社製品よりもより多機能・高機能というところに目が行きがちになってしまう傾向にあると思うので、「なるべく小さく、なるべく無駄をそぎ落とす」とういうことは意識していきたい。

あと、この本の日本語版の初版が2010年(おそらく)というのにも驚いた。 リーンスタートアップの日本語の初版が2012年(おそらく)でそれよりも前だし、2010年の段階でこんな考え方をしていたのはすごいなぁと心から思った。

書評:「運のいい人の法則」自分で鍛えられる運もある

運のいい人の法則 (角川文庫)

運のいい人の法則 (角川文庫)

手に取ったきっかけ

Team Geekを読んだ時に、本の中で引用されていて、知った。タイトルが胡散臭い感じがしたが、Team Geekで引用されているんだから、それなりの本なのではないかと思って、読んでみることにした。読んでみたら、めっちゃよかった。

どういう本だったのか?

ちょっとタイトル胡散臭い感じがしますが、心理学的に基づいて、「運がいい人」に共通する行動・思考パターンを探って、運がいい人になるためにはどうしたらいいのか?を考察した本。

当然、「運」と言っても、それは「宝くじに当たりやすい」とか、「コインの表が出やすい」とか、そういう外的な事象をコントロールする方法ではない。「自分で自分が運がいいと思っている」人に共通することを調査研究した結果がまとめられている。外的な事象自体を制御しようという話ではなく、チャンスを掴みに行く姿勢・物事の捉え方によって、「自分は運がいい人だ」と思えるようになるよという話。(ちなみに、「宝くじに当たりやすい」のような運は、“運がいい人”と“運が悪い人”の間で差がないという実験もしているのが好感的でした)

納得感があって、試してみたくなる

一通り本を読んでみて、自分が運がいいなと思った体験と重ね合わせると、非常に納得感があってよかった。 運がいい人の1つのポイントとして、「たくさんの人とあって、人付き合いを大切にして、外向的」ということがあったので、これは苦手ながらも実践していきたい。

ちょうど今年の目標として、社内・社外の人と仕事で繋がる機会を増やすということを考えていたので、実践していきたい。仕事での繋がりを作る時に、Win-Win/Give&Takeの関係でないと、なかなか維持しづらいと思っている。ようやく、自分ができること・Giveできるものは何なのか?これまでの仕事の実績は何なのか?ということを少しの自信を持って言えるようになってきたので、土俵に立って、繋がりを作っていければいいと思う。

全体的な感想

タイトルの胡散臭さとは違って、非常にいい本だと思う。何か詰まった時にもう一度読みたい本だと思う。本のタイプ的には、河合隼雄先生のこころの処方箋を読んだ時に近い感覚だった。

  • 生きる上で、ちょっと視点を変えると、見え方が全然変わるよ
  • 自分だけの考えの延長にはない、いい意味で“斜め上からの刺激”
  • 考え方を知っているだけで、心に余裕ができる感じ

そんな感じの本でした。

データ・ジャーナリズム・ハンドブック:日々、仕事でデータと関わる人には超絶オススメ

データ・ジャーナリズム・ハンドブックとは?

The Data Journalism Handbook

The Data Journalism Handbook

そもそもデータ・ジャーナリズムとは、以下のようなものです。

データ・ジャーナリズムは、データを統計学的に分析したり、またそれらのデータをビジュアライズしたりすることで、これまでにない角度からの取材活動を可能とし、新しい形で読者に情報を提供する調査報道の手法のひとつです。(http://datajournalismjp.github.io/releases/20161118.html)

データ・ジャーナリズム・ハンドブックは、データ・ジャーナリズムを行う時に参考になる指針や事例が集まっている資料です。 日本語版はオンラインで公開されていて、これがとても素晴らしいものだったので、その感想を書きたいと思います。 datajournalismjp.github.io

データ・ジャーナリズム・ハンドブックには

  • データ・ジャーナリズムがどういうものか?
  • なぜデータ・ジャーナリズムが重要なのか?
  • データジャーナリズムの事例

・・・など、データジャーナリスムについてのことだけでなく

  • データを扱うときに気をつけるべきこと:データリテラシー
  • データを扱うためのツール
  • データからストーリーを展開・考察するときに考えること

・・・など、データジャーナリズムだけでなく、データサイエンス/データマイニングの一般的な話にも展開可能な考え方がいろいろと載っていて、とても参考になります。ジャーナリズムに関係していなくても、データと向き合って仕事をしている人には得るものが多い資料だと思います。

心に刺さった文章とその感想

全部良かったのですが、その中でも印象に残ったことをメモっておきます。

データのリテラシーは、統計的な知識だけでなく、巨大なデータの集まりをどのように扱うか、それがどのように作成されたのか、どうやって複数のデータの集合をつなげるか、それらをどのように読み解くか、を理解することを含んでいる

機械学習ブームの中、最近、私が強く思うこと。データリテラシーが低いまま、機械学習ブラックボックス的に使っていたりすると、危ないケースが出てくる気がしている。データサイエンス・機械学習が流行っている今、数学・統計的な理解も大事だけれども、それよりもまず、データリテラシーを高めることがまず大事な気がする。

数値の信頼性に疑いを持った時は、必ず2重にチェックをする。

一番の質問は、昔からあるものだ。これは本当に大きな数字なのか?この数値はどこから来たのか?あなたは、あなたが思っているこの数値の意義が正しいと確信できるか?こうした質問は、データの周りについて考えるきっかけになる。一つの数値を眺めることでは見えてこない周縁、現実の世界の複雑さ、広い範囲で時を超えて比較されうるもの、属するグループ、地理的な近接性 -つまりコンテキストについてだ。

集計されたデータは妥当な方法で測定されているのか?そもそもの測定方法が間違っていたら、その後のデータ分析が意味ないし、誤った判断をしてしまうので気をつけよう。このデータはどこからやってきたのか?どういうコンテキストで生まれたものか?と言うことを事前に理解しておくことが大事。

データを扱うために一番重要な事は、楽しむということだ。データは近寄りがたいものに見えるかもしれない。しかし、データを恐れていては何もできなくなってしまう。何か楽しむもの、調べがいのあるものとして扱えば、データはいとも簡単にその秘密とストーリーを示してくれる。だから、データを他の証拠と同じように簡単に、公平に扱えば良い。とりわけ、データを扱うことをイマジネーションの練習だと思うと良い。つまり、あるデータと整合し、より説明のつく異なるストーリーをいくつも模索し、より多くの証拠とつきあわせてみるのだ。

このスタンスはとても同意。データから何かを発見すること、データを用いてストーリーテリングすること、そして発見によって何かが変わっていくことの楽しさを伝えたい。仕事をしていると、日々、ログデータ等、新しいデータがたくさん生まれていて、意識していなくても身の回りにデータは溢れている。そのデータに気がつき、そのデータから発見をし、日々の仕事・生活を良くしていくというプロセスは本当に楽しいと思う。

調査とは物語である。つまり、ひとかけらの証拠から他の証拠へと突き進みながら、どうやってものごとを見つけだそうとしたかの物語が素晴らしいジャーナリズムを生む。この事はデータから証拠を掘り起こす際にもあてはまる。一つの数字からは何も見えてこないのだ。異なる情報ソースは新しい観点や新しいアイデア、そしてより豊かな理解をもたらす。我々が、権威的でありたい、人々に答えを与えたいという欲求にあまりに固執すると、調査過程を見せないことでチャンスを逃すことになるのではないだろうか。

データから物語を作るには、1つのデータだけでなく、組み合わせることは大事。ただ、どのデータを組み合わせれば、もっと面白い分析ができるようになるか?新しい観点はどの切り口がいいか?ということは、他の事例を研究したり、などの日々の訓練の積み重ねによって得られるものだと思います。

私はドキュメンテーションこそがプロセスの中で最も重要なステップだと思っている。そして、私たちが最も無視してしまいがちなものでもある。以下の例で見るように、叙述のプロセスは描写やデータ論争を引き起こすものである。過去に作った15の図表を見ることは混乱を招くものであろうし、特に少し時間が経つと尚更である。実際、そういった図表が(あなた自身や、発見を伝える他の人々にとって)価値があるのは、その図表自体が作られた文脈において見せられた場合のみである。よって、以下のような但し書きをするために時間を使うべきである: * なぜ私はこの図表を作ったのか? * それを作るためにデータに何をしたのか? * この図表は何を示しているのか?

グラフを作る時は、1つ1つなぜこのグラフを作って載せているのか?ということを考えないといけない。「とりあえず棒グラフ載せておくか」ではデータの意図は伝わらないし、誤解を招く恐れがある。データ分析において、「わかったことを使えること」と同じくらい、「誤解を与えないこと」も大事かもしれない。