「最寄り駅」と「不動産価格」の関係の可視化:この駅ってどうなのよ?
不動産取引価格情報 - 国土交通省 土地総合情報システム のデータの可視化をした
「不動産取引価格情報 - 国土交通省 土地総合情報システム」という、不動産の取引価格、地価公示・都道府県地価調査の価格を検索できるサイトを初めて知った。
サイトを色々見てみると、平成17年7月〜27年第4四半期のデータがダウンロード可能で、なかなか面白そうなデータだったので、tableau publicで可視化してみた。
対象データ
ここからダウンロードした、平成17年7月〜27年第4四半期の東京都の取引データ。CSVで何も加工せず、読み込めた。CSVで加工せず、読み込めるオープンデータってやっぱ素晴らしい!
PDFとか、変なヘッダが付いたエクセルは良くあるけれども、そういうフォーマットではなくマシンリーダブルなフォーマットにオープンデータが統一させることを願っている。
データの定義などは、ここに記載されています。
tableau Publicで可視化
結果
可視化されたものから、なんとなく見えてきたことは以下のあたりか?
- 最寄駅からの距離が遠くなれば、遠くなるほど、m2あたりの取引価格は下がっていっている
- 同じ市区町村内でも、最寄駅によっては値段が大きく変わることがある(EX:大田区)
- 同じ最寄り駅の場合、違う市区町村になっても値段はあまり変わらない
- 竹橋、銀座、六本木1丁目などはイメージ通り高い
- 都立大学、荻窪、用賀などは、価格が手頃で人気もあり、良く取引されている(物件の流れがおおい?)
- 永福町、亀戸、押上などは、同じ駅でも取引価格のバラツキが広い
最寄り駅のベースの分析しかしていないけれど、年度やその他の切り口で分析していっても色々と見えてきそう。 次は、別のデータと合わせて、価格をモデリングしてみたい。
感想
機械学習やデータマイニングを使わなくても、単純な可視化だけで十分わかることってやっぱり多くて、機械学習・統計分析を学ぶ前に、「なぜ分析をするのか?の分析の切り口を考える力」「データの肌触りがわかるスキル」「適切な可視化ができるスキル」が必要だなと改めて思った。
機械学習ブームに乗っかって、ローデータも見ずに「レコメンドをしたいから協調フィルタリングを実装しよう!」とか、「AIで効率化だ!」とか、そういう機械学習の導入が先行してしまって、によって不幸になる人が増えないといいな。
私は、そういった、データ分析におけるそもそも論や可視化については、このあたりの本を読んで勉強した。
あと、データ分析・可視化は、データをどう整理して、どう分かりやすく見せるのか?という文脈で、 デザインとかIA(情報アーキテクチャ)とも関わりがあるので、この辺の知識もあるといいと思います。