どらちゃんのポッケ

R・統計・技術メモなど勉強ログ置き場

「最寄り駅」と「不動産価格」の関係の可視化:この駅ってどうなのよ?

不動産取引価格情報 - 国土交通省 土地総合情報システム のデータの可視化をした

「不動産取引価格情報 - 国土交通省 土地総合情報システム」という、不動産の取引価格、地価公示都道府県地価調査の価格を検索できるサイトを初めて知った。 

www.land.mlit.go.jp

サイトを色々見てみると、平成17年7月〜27年第4四半期のデータがダウンロード可能で、なかなか面白そうなデータだったので、tableau publicで可視化してみた。

対象データ

ここからダウンロードした、平成17年7月〜27年第4四半期の東京都の取引データ。CSVで何も加工せず、読み込めた。CSVで加工せず、読み込めるオープンデータってやっぱ素晴らしい!

PDFとか、変なヘッダが付いたエクセルは良くあるけれども、そういうフォーマットではなくマシンリーダブルなフォーマットにオープンデータが統一させることを願っている。

データの定義などは、ここに記載されています。

tableau Publicで可視化

結果

可視化されたものから、なんとなく見えてきたことは以下のあたりか?

  • 最寄駅からの距離が遠くなれば、遠くなるほど、m2あたりの取引価格は下がっていっている
  • 同じ市区町村内でも、最寄駅によっては値段が大きく変わることがある(EX:大田区
  • 同じ最寄り駅の場合、違う市区町村になっても値段はあまり変わらない
  • 竹橋、銀座、六本木1丁目などはイメージ通り高い
  • 都立大学荻窪、用賀などは、価格が手頃で人気もあり、良く取引されている(物件の流れがおおい?)
  • 永福町、亀戸、押上などは、同じ駅でも取引価格のバラツキが広い

最寄り駅のベースの分析しかしていないけれど、年度やその他の切り口で分析していっても色々と見えてきそう。 次は、別のデータと合わせて、価格をモデリングしてみたい。

感想

機械学習データマイニングを使わなくても、単純な可視化だけで十分わかることってやっぱり多くて、機械学習・統計分析を学ぶ前に、「なぜ分析をするのか?の分析の切り口を考える力」「データの肌触りがわかるスキル」「適切な可視化ができるスキル」が必要だなと改めて思った。

機械学習ブームに乗っかって、ローデータも見ずに「レコメンドをしたいから協調フィルタリングを実装しよう!」とか、「AIで効率化だ!」とか、そういう機械学習の導入が先行してしまって、によって不幸になる人が増えないといいな。

私は、そういった、データ分析におけるそもそも論や可視化については、このあたりの本を読んで勉強した。

あと、データ分析・可視化は、データをどう整理して、どう分かりやすく見せるのか?という文脈で、 デザインとかIA(情報アーキテクチャ)とも関わりがあるので、この辺の知識もあるといいと思います。