11
- 8月
2018
Posted By : boomin
神奈川県下の中古マンション市場を分析してみる その2
Advertisements

0. 神奈川県下の中古マンション市場を分析してみる 前処理編

前回、スクレイピングによってデータを収集の手順を紹介しました。収集結果をcsvに保存しておいたので、これを読み込むところから始めることにします。

 

1. 収集したデータの概要

早速、データを読み込みから、どんな情報を収集したのかを紹介しましょう。

 

これは骨が折れそうですね。。。。
ちなみに、カラム名はこのようになっています。

 

ここから、なんとかしてデータクレンジングをしていくことにしましょう。

 

2. データのクレンジング開始

 

2.1 マンション名を修正する

必ず、マンション名の後に 【マンション】が付いているので、これを取ります。

 

 

Advertisements

2.2 不要なカラムの削除

個々のマンションの分析には使用しなさそうなカラムを削除しておきます。

 

 

2.3 専有面積

こんな感じに表記されているので、数字部分だけを取り出します。以下の場合、40.04だけを取り出します。

40.04m2(12.11坪)(壁芯)

正規表現で一気に変換することにしましょう。

 

できているようですね。

 

2.4 築年数

築年数を示すカラムは存在しませんでしたが、マンションの完成年月は完成時期(築年月)カラムに格納されています。ここから、データ取得時点の2018/8/1までの年数に変換します。

一部、年だけで月が記載されていなかったりしたので、その場合は1月と仮定することにしました。

1年の日数を一律365日として割り算していますが、厳密なものじゃないし、それでいいことにします。

 

2.5 構造・階建て

こちらも正規表現をつかって一気に処理します。

中古マンションの情報を取得したはずなのですが、構造が木造って。。。。。
気になるのであとで個別にみることにします。

なお、階が取得できなかった場合は、0とするようにしました。  

 

2.6 価格

いよいよ、一番重要な価格です。
基本的な単位は万円、億がついたりつかなかったりします。

さらに、価格幅が記載されている物件もありました。
どういうことでしょうね。同じマンション内の別の部屋など、複数物件の紹介がされているのでしょうか。
詳しく見ていないので分かりませんが、今回分析するにあたって、一つの物件で一つの価格が決まっていないと意味がないので、そうした表記の物件は除外することにします。

 

2.7 所在階

だんだん、処理内容を解説するのが面倒になってきました。
所在階が、地価の物件があったことに驚きました。B○階という表記だったので、地下の場合は負数で表現することにしました。

 

2.8 向き

向きは、方角が記載されていました。
ただ、これまた複数の物件の情報なのか、複数の方角が書かれている場合がありました。
この場合、"-"で方角間が連結されていたので、まずこれを除外。そのあとに、one-hot表現へ変換しました。

 

2.9 交通手段

最寄り駅からの交通手段です。
利用駅が複数ある場合、最大3つまで記載があるようです。3つの最寄り駅の情報は、もとはhtmlなので改行の<br/>で区切られています。

これを改行部分を::へ置換してみます。

すると、このような結果が得られます。

 ブルーライン「上永谷」歩15分::京急本線「上大岡」バス21分水田歩2分::ブルーライン「上大岡」バス21分水田歩2分::

ここから、

  • 路線名
  • 最寄り駅
  • 交通手段(歩/バス/その他)
  • 移動時間

を分解します。さらに、バスを使用する場合はバス停名も含まれます。
これも、正規表現を使って処理していきます。

 

2.10 所在地

物件の住所が取得できています。ただ、住所のままでは、ちょっと使いづらい形です。
そこで、geocodingすることにしちゃいましょう。

これで、住所の一覧から緯度経度の一覧を作り、そのDaraFrameを作ることができました。

 

2.11 その他の項目

駐車場とか権利形態とか、他にもいろいろカラムがあります。
が、ここまで記事を書いていたら、ちょっとしんどくなってしまいましたorz

 

3. before-after

データのクレンジングを行った結果のbefore-afterを、見た目をわかりやすくするためだけにexcelを使用してみてみます。
excelってこういう時しか活躍しませんよね。

before


 

※画像が小さいので、クリックして大きくしてみてください

after

 

※画像が小さいので、クリックして大きくしてみてください

 

4. まとめ

なので、そのほかのカラムの処理は、適当に済ませたということで、次回からは実際の分析に入っていきたいと思います。

Advertisements

コメントを残す