SHOTA YASUI 2014/3/29 TOKYO.R Rでお部屋探し
S H O T A Y A S U I 2 0 1 4 / 3 / 2 9 T O K Y O . R
Rでお部屋探し
自己紹介
安井翔太 / Shota Yasui Twitter: @housecat442 <けーれき>
� 日本のド文系経済学部 � アメリカで計量経済学1年 � ノルウェーで資源・環境経済学修士取得 � SNF研究所でデータ分析(環境税作成)
� サイバーエージェントでデータ分析 ¡ アトリビューション分析 ¡ マス広告評価 ¡ 動画広告評価 ¡ Etc…
実際に行った部屋探しの流れ
1. 住みたい場所を決める 2. 当該エリアの物件情報をスクレイピング 3. 分析モデルを決めて分析 4. モデルを持って不動産屋へ! 5. おすすめの物件情報を片っ端から出してもらい、安め
の物件をモデルで特定して絞る。 6. 安めの物件が幾つか出て来たら内見。 7. 気に入ったら決める。(気に入らなかったら5へ戻る)
今日お話する部分
1. 住みたい場所を決める 2. 当該エリアの物件情報をスクレイピング 3. 分析モデルを決めて分析 4. モデルを持って不動産屋へ! 5. おすすめの物件情報を片っ端から出してもらい、安め
の物件をモデルで特定して絞る。 6. 安めの物件が幾つか出て来たら内見。 7. 気に入ったら決める。(気に入らなかったら5へ戻る)
楽しい部分
1. 住みたい場所を決める 2. 当該エリアの物件情報をスクレイピング 3. 分析モデルを決めて分析 4. モデルを持って不動産屋へ! 5. おすすめの物件情報を片っ端から出してもらい、安め
の物件をモデルで特定して絞る。 6. 安めの物件が幾つか出て来たら内見。 7. 気に入ったら決める。(気に入らなかったら5へ戻る)
1.住みたい場所を決める
� 特に分析は用意しない。
� 皆さん大人なので、住みたい場所くらい自分で決めよう。
� 実際に行った際には会社の家賃補助「二駅ルール」の圏内で限定。
� 一応広いエリアで分析して、割安なエリアを特定するというアプローチもあり得るかも。
2.当該エリア物件データをスクレイピング
� XMLパッケージを利用
� htmlParse()とpaste()とforを組み合わせて使えば検索画面の情報は貴女の物
� Flashのプラグイン切ってブラウジングすればFlash無しバージョンのURLとかも解る。
� 怒られないようにSys.sleep()とかを入れときましょう。
sample library(XML) yatin <- c() name <- c()
for(i in 1:2){ url <- paste(検索画面のURL, i , sep = "") doc <- htmlParse(url, encoding="UTF-8") add_yatin <- xpathSApply(doc, XPATHを入力, xmlValue) add_name <- xpathSApply(doc, “XPATHを入力", xmlValue) yatin <- c(yatin,add_yatin) name <- c(name,add_name) }
sample <- data.frame(name,yatin) sample[,2] <- gsub("万円","",sample[,2]) sample[,2] <- as.numeric(sample[,2]) * 10000
3.分析モデルを決める
� 物件の家賃設定が高いのか低いのかを判断したい。
� Introductory Econometrics(Wooldridge)に例として提示されていた家賃モデルを参考。
� 手法は単純に重回帰分析を選択。 ¡ このお題で高度な分析が必要とされる気がしない ¡ 不動産屋で計算する事を考えると単純なモデルが好ましい
� 変数選択のステップは省略。 ¡ 取って来たデータを取り敢えず突っ込んでみると重複する情報が多く、マ
ルチコとかある。(例:部屋数と面積)
分析!
� 取得したデータを前処理
� 何の変哲も無く lm()してsummary()
� 今回は例として六本木,赤坂,西麻布エリアで分析。
� 被説明変数:二年分の家賃・管理費・礼金の合計 =大家に取っての2年分の収入
� 説明変数:部屋の面積・築年・階・地区・設備 =部屋の価値を創出しそうな要素
Call: lm(formula = log(twoyp) ~ area + mati + kai + year + バス.トイレ + 洗面所独立 + 宅配ボックス + 温水洗浄トイレ + 追い炊き風呂, data = minato) Residuals: Min 1Q Median 3Q Max -1.12666 -0.12738 -0.01471 0.11891 1.22410 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 14.6126865 0.0208835 699.724 < 2e-16 *** 面積 0.0120446 0.0000946 127.323 < 2e-16 *** mati赤坂 0.0778764 0.0103964 7.491 9.09e-14 *** mati六本木 0.0298522 0.0112462 2.654 0.007989 ** kai 0.0146538 0.0007082 20.691 < 2e-16 *** year -0.0096025 0.0004627 -20.751 < 2e-16 *** バス.トイレ 0.0797114 0.0139576 5.711 1.24e-08 *** 洗面所独立 0.0665907 0.0111475 5.974 2.61e-09 *** 宅配ボックス -0.0585588 0.0111705 -5.242 1.70e-07 *** 温水洗浄トイレ -0.0367874 0.0106328 -3.460 0.000549 *** 追い炊き風呂 0.1250519 0.0100339 12.463 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.2148 on 2842 degrees of freedom Multiple R-squared: 0.9036, Adjusted R-squared: 0.9033 F-statistic: 2665 on 10 and 2842 DF, p-value: < 2.2e-16
自分の部屋の家賃を推定
log(twoyp) = 14.6126865 + 0.0120446*面積 + 0.0778764*赤坂 + 0.0298522*六本木 + 0.0146538*階 - 0.0096025 *築年 + 0.0665907*バス.トイレ + 0.0665907*洗面所独立 - 0.0585588*宅配ボックス -0.0367874*温水洗浄トイレ
+ 0.1250519*追い炊き風呂 自分の部屋の推定家賃=
14.6126865 + 0.0120446*27.4 + 0.0778764*0 + 0.0298522*0 + 0.0146538*7 - 0.0096025 *10 + 0.0665907*1+ 0.0665907*1 - 0.0585588*1 -0.0367874*1
+ 0.1250519*1 =15.12526 →exp(15.23526) = 3705274
管理費無しで礼金が1ヶ月分なので 3705274/25=148211
家賃が月12.2万円 148211 – 122000 = 26211
モデルに妥当性があるのであれば、 月2.5万円位お得!?
こんなお部屋探しの方法、 いかがでしょう?
おしまい!