04
- 8月
2018
Posted By : boomin
神奈川県下の中古マンション市場を分析してみる その1

 

Advertisements

0. 神奈川県下の中古マンション市場を分析してみる データ収集編

こんなblogを見つけました。

機械学習を使って東京23区のお買い得賃貸物件を探してみた

なるほど、面白そうだ。。。。。。
よし。最近、不動産テック(ReTech:Real Estate Tech)なんて言葉もあるくらいだし、いっちょ分析してみようじゃありませんか。


しかし同じことをやってもダメです。
ならば、スピンオフという名の下で、似て非なることをやってみようと思い立ちました。

で、思いついたのが

  • 神奈川県下で
  • 中古マンション市場で

お得な物件を分析してみよう、と思ったわけです。自分が賃貸を探すことはなさそうだし、都内は高いし、まぁ職場は都内じゃないし。。。。

ということで、それでは早速、手を動かして見ることにしましょう。

 

1. データの収集

分析するためには、何はともあれデータが必要です。そこで、今回は引用元サイトに倣って、suumoさんを選択させてもらいました。

 

1.1 利用規約を確認

こういうことをやってみる時は、大事なことです。利用規約のページから、一部抜粋した内容を以下に示します。

私的利用には違いないか。ただ、

  • 統計的にどういった物件がお得かどうか、明らかにした場合
  • さらにそれを他の誰かが検索できるように(例えばwebサービス)した場合

黒とはいかなくてもグレーゾーンでしょうか。。。。
(有料サービスは考えていませんが、blogに書いた時点で広告が表示されちゃうし)

少なくとも、前者のお得物件の判断までは個人の見解に過ぎないので、こちらは問題ないと判断させていただくことにします。

後者の検索についても、世の中の誰でも使えるようにするのは問題でしょう。しかし、結果を第三者に評価してもらう目的で、限定された人だけがアクセスできる仕組みを備えていれば、私的利用の範疇だと判断させていただくことにします。

この先どうするかは、まだ何も考えていません。でも、一応はこうしたことを頭に入れておくことにします。

 

Advertisements

1.2 いよいよデータの収集

pythonでスクレイピングすることにします。  

suumoさんのサイトから、「中古マンション」のサイトのリンクをクリックして、神奈川県の物件情報にアクセスします。

 

 

すると、路線を選択する画面に遷移するので、すべての路線を選択することにします。

 

 

路線を選択すると、このような感じで物件が検索されます。

 

 

2018年8月4日現在、神奈川県下で公開されている中古マンション市場では、12,121件の物件が公開されていました。

ここから、スクレイピングで情報を取得していきます。
pythonによるスクレイピングのcodeの一部が以下となります。

 

各物件の詳細は、物件ごとに用意されたページから情報を取得する必要があります。
物件のどれか一つクリックして、 「物件概要」 タブをクリックすると、物件の詳細情報が表示されます。

 

 

すべての物件について、このページの情報を収集することで、分析用のデータとすることにします。

 

1.3 データは前処理が必要

上記のようにデータを収集して、pandasのdataframeにした先頭5件のデータが、以下のような感じになります。

 

 

管理費の部分を見てもらうと分かりますが、このままでは分析するには扱えない形となっています。

2500円/月(自主管理)

欲しいのは、管理費が 2500 円という情報だけです。なので、他の情報は不要です。

また、最も重要な価格についても

550万円

となっています。万円 は不要ですので、除外してint型ないしfloat型に変換しておく必要があります。

こうした情報の前処理をして、最終的に分析に使いやすい形に変えてやる必要があります。最終的には、こんなイメージにしてやることが目的となります。

 

 

前処理については、次の記事で紹介することにします。

Advertisements

コメントを残す