Real price predictor

Post on 19-May-2015

75 Views

Category:

Real Estate

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Introuduce the project we've done. Check out on https://github.com/WemyJu/TOC_proj

Transcript

REAL PRICE PREDICTORTOC PROJECT

WHO ARE WE?

Students from NCKU IIM

WHAT‘S THIS?

Use the real price data from DataGarage

to generate regression function.

WHAT CAN WE DO WITH THIS

1. Knowing market quotation of real estate

2. Predict price of real estate

WHAT CAN WE DO WITH THIS

1. Knowing market quotation of real estate

2. Predict price of real estate

For example,

predict_price( 台北市 , 文山區 , other necessary information…) = 1000000

WHY CHOOSING THIS PROBLEM?

We’ve discussed with student in related department.

WHY CHOOSING THIS PROBLEM?

We’ve discussed with student in related department.

If they concern problem like this,

WHY CHOOSING THIS PROBLEM?

We’ve discussed with student in related department.

If they concern problem like this,

it means we’re dealing with data that the real world really care about!!!

WHY CHOOSING THIS PROBLEM?

We’ve discussed with student in related department.

If they concern problem like this,

it means we’re dealing with data that the real world really care about!!!

or… at least for those real estate appraisers.

HOW DO WE ACHIEVE IT?

HOW DO WE ACHIEVE IT?

Statistics Programming+

HOW DO WE ACHIEVE IT?

1. Parse the real price data

2. Classify the data

3. Generate regression for each region

4. Predict the price

HOW DO WE ACHIEVE IT?

It sounds easy, isn’t’ it?

HOW DO WE ACHIEVE IT?

The devil is in the details!!!

PARSE THE REAL PRICE DATA

PARSE THE REAL PRICE DATA

PARSE THE REAL PRICE DATA

PARSE THE REAL PRICE DATA

We don’t use method like this, instead….

PARSE THE REAL PRICE DATA

PARSE THE REAL PRICE DATA

PARSE THE REAL PRICE DATA

If the tools have already existed,

why should we write it ourselves?

PARSE THE REAL PRICE DATA

This API only deal with URL and parse filtered data instead of raw data

PARSE THE REAL PRICE DATA

Take hw3 for example,

if we want to find 土地區段位置或建物區門牌 contain 文山區

PARSE THE REAL PRICE DATA

Take hw3 for example,

http://www.datagarage.io/api/5365dee31bc6e9d9463a0057

if we want to find 土地區段位置或建物區門牌 contain 文山區

PARSE THE REAL PRICE DATA

Take hw3 for example,

http://www.datagarage.io/api/5365dee31bc6e9d9463a0057?selector= 土地區段位置或建物區門牌 =/ 文山區 /

if we want to find 土地區段位置或建物區門牌 contain 文山區

PARSE THE REAL PRICE DATA

Take hw3 for example,

http://www.datagarage.io/api/5365dee31bc6e9d9463a0057?selector= 土地區段位置或建物區門牌 =/ 文山區 /

if we want to find 土地區段位置或建物區門牌 contain 文山區

It’s just far more easier than filtered data ourselves, isn’t it?

Parsing data from this url and we get what we want!

PARSE THE REAL PRICE DATA

So we only parse necessary data from DataGarage.

By doing so, we can save plenty of processing time.

PARSE THE REAL PRICE DATA

Although, we say that we use this tool…

PARSE THE REAL PRICE DATA

the fact is that…

Although, we say that we use this tool…

PARSE THE REAL PRICE DATA

the fact is that…

we wrote it!!!

Although, we say that we use this tool…

PARSE THE REAL PRICE DATA

PARSE THE REAL PRICE DATA

The author of data garage merge our pull request!!!

CLASSIFY THE DATA

CLASSIFY THE DATA

Well… It’s kind of hard to explain…

CLASSIFY THE DATA

Well… It’s kind of hard to explain…

Let example tells the story

CLASSIFY THE DATA

土地區段位置或建物區門牌 : 桃園縣楊梅市金山街 298 巷 31~60 號 , 鄉鎮市區 : 楊梅市 , 交易年月 : 10302

土地區段位置或建物區門牌 : 桃園縣楊梅市金山街 298 巷 31~60 號 , 鄉鎮市區 : 楊梅市 , 交易年月 : 10302

土地區段位置或建物區門牌 : 臺中市太平區建成街 128 巷 1~30 號 , 鄉鎮市區 : 太平區 , 交易年月 : 10302

土地區段位置或建物區門牌 : 桃園縣八德市銀和街 71 巷 1~30 號 , 鄉鎮市區 : 八德市 , 交易年月 : 10302

土地區段位置或建物區門牌 : 臺中市西屯區臺灣大道四段 1261~1290 號 , 鄉鎮市區 : 西屯區 , 交易年月 : 10301

土地區段位置或建物區門牌 : 桃園縣楊梅市金山街 298 巷 31~60 號 , 鄉鎮市區 : 楊梅市 , 交易年月 : 10302

This is our raw data

CLASSIFY THE DATA

桃園縣

台中市

楊梅市

八德市

西屯區太平區

土地…門牌 : 桃園縣楊梅市金山街 298 巷 31~60 號 , 鄉鎮市區 : 楊梅市 , 交易年月 : 10302

土地…門牌 : 桃園縣楊梅市金山街 298 巷 31~60 號 , 鄉鎮市區 : 楊梅市 , 交易年月 : 10302

土地…門牌 : 桃園縣楊梅市金山街 298 巷 31~60 號 , 鄉鎮市區 : 楊梅市 , 交易年月 : 10302

土地…門牌 : 桃園縣八德市銀和街 71 巷 1~30 號 , 鄉鎮市區 : 八德市 , 交易年月 : 10302

土地…門牌 : 臺中市太平區建成街 128 巷 1~30 號 , 鄉鎮市區 : 太平區 , 交易年月 : 10302

土地…門牌 : 臺中市西屯區臺灣大道四段 1261~1290 號 , 鄉鎮市區 : 西屯區 , 交易年月 : 10301

CLASSIFY THE DATA

桃園縣

台中市

楊梅市

八德市

西屯區太平區

土地…門牌 : 桃園縣楊梅市金山街 298 巷 31~60 號 , 鄉鎮市區 : 楊梅市 , 交易年月 : 10302

土地…門牌 : 桃園縣楊梅市金山街 298 巷 31~60 號 , 鄉鎮市區 : 楊梅市 , 交易年月 : 10302

土地…門牌 : 桃園縣楊梅市金山街 298 巷 31~60 號 , 鄉鎮市區 : 楊梅市 , 交易年月 : 10302

土地…門牌 : 桃園縣八德市銀和街 71 巷 1~30 號 , 鄉鎮市區 : 八德市 , 交易年月 : 10302

土地…門牌 : 臺中市太平區建成街 128 巷 1~30 號 , 鄉鎮市區 : 太平區 , 交易年月 : 10302

土地…門牌 : 臺中市西屯區臺灣大道四段 1261~1290 號 , 鄉鎮市區 : 西屯區 , 交易年月 : 10301

classifiedData[‘ 桃園縣 ][‘’ 楊梅市 ][0] = { 土地…門牌 : 桃園縣楊梅市金山街 298 巷31~60 號 ,

鄉鎮市區 : 楊梅市 ,

交易年月 : 10302 }

CLASSIFY THE DATA

How?

CLASSIFY THE DATA

Regular expression!!!

How?

GENERATE REGRESSION FOR EACH REGION

GENERATE REGRESSION FOR EACH REGION

What is regression?

GENERATE REGRESSION FOR EACH REGION

Statistical approach to forecasting change in a dependent variable (sales revenue, for example) on the basis of change in one or more independent variables (population and income, for example).

Read more: http://www.businessdictionary.com/definition/regression-analysis-RA.html#ixzz36J8AoNeq

According to definition in businessdictionary.com,regression is

What is regression?

GENERATE REGRESSION FOR EACH REGION

This is a regression model with two variables

GENERATE REGRESSION FOR EACH REGION

But…

GENERATE REGRESSION FOR EACH REGION

But…

In this problem, we must consider more than two variables

GENERATE REGRESSION FOR EACH REGION

But…

In this problem, we must consider more than two variables

These are the variable we take into account土地區段位置或建物區門牌 鄉鎮市區總價元 有無管理組織 建物型態土地移轉總面積平方公尺 車位移轉總面積平方公尺建物移轉總面積平方公尺 建物型態建築完成年月 交易年月

GENERATE REGRESSION FOR EACH REGION

Yi ( 各區段 總價元 ) =

This is our model

GENERATE REGRESSION FOR EACH REGION

Yi ( 各區段 總價元 ) =

X1i ( 房物物價指數 ) + X2i ( 有管理員 :1, 沒管理員 :0) + X3i ( 土地移轉面積 ) + X4i( 車位移轉面積 ) + X5i( 建物移轉面積 ) + X6i( 房齡 ) + X7i( 住宅大樓 , 1 為是 , 0 為否 ) + X8i( 套房 ) + X9i( 華夏 ) + X10i( 公寓 ) + x11i( 透天厝 ) + X12i( 店鋪 )

This is our model

GENERATE REGRESSION FOR EACH REGION

Yi ( 各區段 總價元 ) =

X1i ( 房物物價指數 ) + X2i ( 有管理員 :1, 沒管理員 :0) + X3i ( 土地移轉面積 ) + X4i( 車位移轉面積 ) + X5i( 建物移轉面積 ) + X6i( 房齡 ) + X7i( 住宅大樓 , 1 為是 , 0 為否 ) + X8i( 套房 ) + X9i( 華夏 ) + X10i( 公寓 ) + x11i( 透天厝 ) + X12i( 店鋪 )

This is our model

There are 12 variables…

GENERATE REGRESSION FOR EACH REGION

Thanks to the great libraries for statistics in Python

GENERATE REGRESSION FOR EACH REGION

PREDICT THE PRICE

PREDICT THE PRICE

We use the example on previous page

PREDICT THE PRICE

If the user input an address in 台中市西屯區 ,

then we’ll get

this regression

PREDICT THE PRICE

If the user input an address in 台中市西屯區 ,

then we’ll get

this regression

PREDICT THE PRICE

After the user input these data有無管理組織 建物型態土地移轉總面積平方公尺 車位移轉總面積平方公尺 建物移轉總面積平方公尺屋齡 交易年月

PREDICT THE PRICE

After the user input these data有無管理組織 建物型態土地移轉總面積平方公尺 車位移轉總面積平方公尺 建物移轉總面積平方公尺屋齡 交易年月

we’ll quantize these data.

x1 = … x2 = … x3 = … and so on.

PREDICT THE PRICE

Substitue thoes vaule into regression likey = -5 + 2*x1 - 2*x2 + 1.8*x3 ...

PREDICT THE PRICE

Substitue thoes vaule into regression likey = -5 + 2*x1 - 2*x2 + 1.8*x3 ...

Then we’ll get the predicted price

HOW TO USE

PREREQUISITES

1. Python 3

2. Numpy

3. statsmodels

PREREQUISITES

1. Python 3

2. Numpy

3. statsmodels

All the instructions are on github.

PREREQUISITES

Wait a moment…

PREREQUISITES

Where is this repo???

Wait a moment…

PREREQUISITES

https://github.com/WemyJu/TOC_proj/

HOW TO USE

Regression Generator

Price predictor

You can generate regression information and find the result in folder regression_resutlt.

Enter the value as interactive shell ask, and you'll get the predicted price.

If the regression functions have not been generated, it will automatically generate through default data.

FOR FURTHER INFORMATION

https://github.com/WemyJu/TOC_proj

Q & A

top related