読者です 読者をやめる 読者になる 読者になる

どらちゃんのポッケ

R・統計・技術メモなど勉強ログ置き場

データ・ジャーナリズム・ハンドブック:日々、仕事でデータと関わる人には超絶オススメ

データ・ジャーナリズム・ハンドブックとは?

The Data Journalism Handbook

The Data Journalism Handbook

そもそもデータ・ジャーナリズムとは、以下のようなものです。

データ・ジャーナリズムは、データを統計学的に分析したり、またそれらのデータをビジュアライズしたりすることで、これまでにない角度からの取材活動を可能とし、新しい形で読者に情報を提供する調査報道の手法のひとつです。(http://datajournalismjp.github.io/releases/20161118.html)

データ・ジャーナリズム・ハンドブックは、データ・ジャーナリズムを行う時に参考になる指針や事例が集まっている資料です。 日本語版はオンラインで公開されていて、これがとても素晴らしいものだったので、その感想を書きたいと思います。 datajournalismjp.github.io

データ・ジャーナリズム・ハンドブックには

  • データ・ジャーナリズムがどういうものか?
  • なぜデータ・ジャーナリズムが重要なのか?
  • データジャーナリズムの事例

・・・など、データジャーナリスムについてのことだけでなく

  • データを扱うときに気をつけるべきこと:データリテラシー
  • データを扱うためのツール
  • データからストーリーを展開・考察するときに考えること

・・・など、データジャーナリズムだけでなく、データサイエンス/データマイニングの一般的な話にも展開可能な考え方がいろいろと載っていて、とても参考になります。ジャーナリズムに関係していなくても、データと向き合って仕事をしている人には得るものが多い資料だと思います。

心に刺さった文章とその感想

全部良かったのですが、その中でも印象に残ったことをメモっておきます。

データのリテラシーは、統計的な知識だけでなく、巨大なデータの集まりをどのように扱うか、それがどのように作成されたのか、どうやって複数のデータの集合をつなげるか、それらをどのように読み解くか、を理解することを含んでいる

機械学習ブームの中、最近、私が強く思うこと。データリテラシーが低いまま、機械学習ブラックボックス的に使っていたりすると、危ないケースが出てくる気がしている。データサイエンス・機械学習が流行っている今、数学・統計的な理解も大事だけれども、それよりもまず、データリテラシーを高めることがまず大事な気がする。

数値の信頼性に疑いを持った時は、必ず2重にチェックをする。

一番の質問は、昔からあるものだ。これは本当に大きな数字なのか?この数値はどこから来たのか?あなたは、あなたが思っているこの数値の意義が正しいと確信できるか?こうした質問は、データの周りについて考えるきっかけになる。一つの数値を眺めることでは見えてこない周縁、現実の世界の複雑さ、広い範囲で時を超えて比較されうるもの、属するグループ、地理的な近接性 -つまりコンテキストについてだ。

集計されたデータは妥当な方法で測定されているのか?そもそもの測定方法が間違っていたら、その後のデータ分析が意味ないし、誤った判断をしてしまうので気をつけよう。このデータはどこからやってきたのか?どういうコンテキストで生まれたものか?と言うことを事前に理解しておくことが大事。

データを扱うために一番重要な事は、楽しむということだ。データは近寄りがたいものに見えるかもしれない。しかし、データを恐れていては何もできなくなってしまう。何か楽しむもの、調べがいのあるものとして扱えば、データはいとも簡単にその秘密とストーリーを示してくれる。だから、データを他の証拠と同じように簡単に、公平に扱えば良い。とりわけ、データを扱うことをイマジネーションの練習だと思うと良い。つまり、あるデータと整合し、より説明のつく異なるストーリーをいくつも模索し、より多くの証拠とつきあわせてみるのだ。

このスタンスはとても同意。データから何かを発見すること、データを用いてストーリーテリングすること、そして発見によって何かが変わっていくことの楽しさを伝えたい。仕事をしていると、日々、ログデータ等、新しいデータがたくさん生まれていて、意識していなくても身の回りにデータは溢れている。そのデータに気がつき、そのデータから発見をし、日々の仕事・生活を良くしていくというプロセスは本当に楽しいと思う。

調査とは物語である。つまり、ひとかけらの証拠から他の証拠へと突き進みながら、どうやってものごとを見つけだそうとしたかの物語が素晴らしいジャーナリズムを生む。この事はデータから証拠を掘り起こす際にもあてはまる。一つの数字からは何も見えてこないのだ。異なる情報ソースは新しい観点や新しいアイデア、そしてより豊かな理解をもたらす。我々が、権威的でありたい、人々に答えを与えたいという欲求にあまりに固執すると、調査過程を見せないことでチャンスを逃すことになるのではないだろうか。

データから物語を作るには、1つのデータだけでなく、組み合わせることは大事。ただ、どのデータを組み合わせれば、もっと面白い分析ができるようになるか?新しい観点はどの切り口がいいか?ということは、他の事例を研究したり、などの日々の訓練の積み重ねによって得られるものだと思います。

私はドキュメンテーションこそがプロセスの中で最も重要なステップだと思っている。そして、私たちが最も無視してしまいがちなものでもある。以下の例で見るように、叙述のプロセスは描写やデータ論争を引き起こすものである。過去に作った15の図表を見ることは混乱を招くものであろうし、特に少し時間が経つと尚更である。実際、そういった図表が(あなた自身や、発見を伝える他の人々にとって)価値があるのは、その図表自体が作られた文脈において見せられた場合のみである。よって、以下のような但し書きをするために時間を使うべきである: * なぜ私はこの図表を作ったのか? * それを作るためにデータに何をしたのか? * この図表は何を示しているのか?

グラフを作る時は、1つ1つなぜこのグラフを作って載せているのか?ということを考えないといけない。「とりあえず棒グラフ載せておくか」ではデータの意図は伝わらないし、誤解を招く恐れがある。データ分析において、「わかったことを使えること」と同じくらい、「誤解を与えないこと」も大事かもしれない。