1 Om sambandet inte är linjärt? Om sambandet till en variabel inte är linjärt så kan vi inkludera ytterligare en term i regressionsmodellen I en modell med alla förklaringsvariabler inkluderade: y=β 0 + β 1 ·x 1 + β 2 ·x 2 + β 3 ·x 3 + β 4 ·x 4 + β 5 ·x 3 2 + ε Intercept Area Acres Rooms Baths Rooms 2 Felterm Den nya variabeln är alltså antal rum i kvadrat och har ingen praktisk tolkning, men vi kan genomföra en analys där vi förväntar oss ett högt pris om fastigheten har lagom många rum.
Om sambandet inte är linjärt? Om sambandet till en variabel inte är linjärt så kan vi inkludera ytterligare en term i regressionsmodellen I en modell med alla förklaringsvariabler inkluderade: y= β 0 + β 1 · x 1 + β 2 · x 2 + β 3 · x 3 + β 4 · x 4 + β 5 · x 3 2 + ε - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
1
Om sambandet inte är linjärt?Om sambandet till en variabel inte är linjärt så kan vi
inkludera ytterligare en term i regressionsmodellen
I en modell med alla förklaringsvariabler inkluderade:
y=β0 + β1·x1 + β2·x2 + β3·x3 + β4·x4 + β5·x32 + ε
Intercept Area Acres Rooms Baths Rooms2 Felterm
Den nya variabeln är alltså antal rum i kvadrat och har ingen praktisk tolkning, men vi kan genomföra en analys där vi förväntar oss ett högt pris om fastigheten har lagom många rum.
Om parametern b5 är positiv skulle vi istället ha en funktion som visar ett minimum.
Jämfört med en regression där alla termer är linjära är parametrarna i en kvadratisk regression svårare att tolka.
I modellen y=b0 + b3·x3 + ε
kan vi säga att priset för fastigheten ökar med b3 USD för varje ytterligare rum.
I modellen y=b0 + b3·x3 + b5·x32 + ε
ökar priset för fastigheten med varje ytterligare rum, men bara upp till ett visst antal rum, sen minskar priset.
9
Komplexa samband mellan en förklarande variabel och en responsvariabel kan alltså tas med i modellen genom kvadratiska eller även kubiska termer (x3).
Samtidigt måste man fundera på om det verkligen är den här variablen själv som har ett krökt samband till priset eller om det istället är en samspel variabeln ‘antal rum’ och andra förklarande variabler:
en liten fastighet med många rum eller en stor fastighet med få rum.....
10
Interaktionstermer – samspelstermer
Vi bildar då nya variabeln x1·x3 och analyserar modellen
y=β0 + β1·x1 + β3·x3 + β5·x32 + β6 ·x1·x3
+ ε
bostadsyta antal rum (antal rum)2 bostadsyta*antal rum
11
Regression Analysis: Price versus Area; Rooms; Rooms_sq
The regression equation isPrice = - 15812 + 49,3 Area + 22544 Rooms - 1529 Rooms_sq
e1... upp till 5 rum; 2... mellan 6 och 8 rum; 3...mer än 8 rum
15
Regressionslinjen som bekriver sambandet mellan priset och bostadsytan är beroende på hur många rum det finns i huset.
I regressionsanalysen för detta datamaterial kan vi alltså ersätta den kvadratiska termen för antal rum med en samspelsterm (bostadsyta * antal rum).
Modellen är då:
y=β0 + β1·x1 + β3·x3 + β6 ·x1·x3
+ ε
De motsvarande linjära termerna (x1 och x2) behåller vi vanligtvis också i modellen.
16
Kvalitativa variablerKvalitativa variabler
inga numeriskt tolkningsbara värden utan värden som är koder för olika klasser av observationer.
Ett exempel är en variabel för kön, som kan anta värdet man eller kvinnaEn sådan variabel skulle man kunna koda som 0 för män och 1 för kvinnor och därmed använda i en regressionsanlays
Ett annat exempel är en variabel som är 1 för småföretag, 2 för mellanstora företag och 3 för stora företag.
17
För att kunna använda sådana kvalitativa variabler i regressionsanalysen krävs att de görs om till s k indikatorvariabler eller dummyvariabler. (Andra namn är 0/1-variabler resp. dikotoma variabler)
Om vi inför en kodning 0 för män och 1 för kvinnor så har vi redan en indikatorvariabel som direkt kan användas.
I fallet där vi kodar företagen, måste vi skapa flera nya variabler: en som är 1 om företaget är liten och 0 annarsen som är 1 om företaget är mellanstor och 0 annars
Den tredje variabel som vi kunde skapa (1 om stor, 0 annars) får inte vara med i analysen.
18
företag andraför 0företag amellanstorför 1
företag andraför 0företag småför 1
21 DD
Företag Företagstyp Ursprunglig kod D1 D2
1 Liten 1 1 0
2 Mellanstor 2 0 1
3 Stor 3 0 0
4 Liten 1 1 0
5 Stor 3 0 0
Alltså:
Grundregel:
Om den kvalitativa variabeln har m olika koder eller värden (kallas också nivåer) skall m1 indikatorvariabler användas.
19
• Minitab har funktioner för att– manuellt koda om en variabels värden till
andra värden– skapa indikatorvariabler för att ersätta en
kvalitativ variabel
20
I datamaterialet med fastighetspriser skulle vi kunna koda om variabeln ’antal rum’ på följande sätt:
• fastigheter med högst 6 rum
• fastigheter med fler än 6 rum
För att göra detta kan vi skapa en indikatorvariabel som är =0 för fastigheter med högst 6 rum och 1 för övriga, dvs
6 då 06 då 1
3
3
xx
D
21
Nu kan vi använda denna indikatorvariabel (dummy) istället för originalvariabeln.
y=β0 + β1·x1 + β7·D + ε
bostadsyta dummy som är 1 om fastigheten har mer än 6 rum
Regression Analysis: Price versus Area, D
The regression equation isPrice = 65668 + 44.2 Area + 10544 D
Predictor Coef SE Coef T PConstant 65668 8072 8.14 0.000Area 44.157 5.445 8.11 0.000D 10544 7098 1.49 0.140
S = 29824 R-Sq = 49.3% R-Sq(adj) = 48.6%
22
Predictor Coef SE Coef T PConstant 65668 8072 8.14 0.000Area 44.157 5.445 8.11 0.000D 10544 7098 1.49 0.140
Om man ignorerar att dummyvariabeln D inte är signifikant så går det att tolka modellen på följande sätt.
Varje fastighet som har 7 rum eller fler får ett försäljningspris som är 10544 USD högre än jämförbar fastighet med färre rum.Med D=1:
Med D=0:
11
11707110
157.4476212157.44)1054465668()(1ˆ
xxxbbbbxbby
11107110 157.44656680ˆ xxbbbxbby
23
0 1
350025001500500
300000
200000
100000
Area
Pric
e
Parallella linjer, men skillnad i y-nivån
24
Eftersom vi såg förut att en samspelsterm (för interaktioner mellan bostadsyta och antal rum) verkar vara bra, kan vi lägger till en sådan även nu.
Vi måste återigen skilja på de två fallen med D=0 och D=1.
Med D = 1
Med D = 0
1
1
18170187110
4034.86889)94940.0454.7()117259110370(
)()(11ˆ
xx
xbbbbxbbxbby
111087110 454.711037000ˆ xxbbbbxbby
26
I detta fall får vi alltså två regressionslinjer som skiljer sig i både y-nivån (intercept) och lutningen.
Högst 6 rum:
Priset ökar med i genomsnitt 7454 dollar då bostadsytan ökar med 1000 ft2
7 eller fler rum:
Priset ökar med i genomsnitt 8403 dollar då bostadsytan ökar med 1000 ft2
1454.7110370ˆ xy
14034.86889ˆ xy
27
0 1
350025001500500
300000
200000
100000
Area
Pric
e
Det finns ett samband mellan dummyvariabeln (fler än 6 rum eller ej) och bostadsytan. Regressionslinjernas lutningar är olika.
28
Om vi har fler än 2 grupper behöver vi fler dummy variabler.t.ex. grupp 1: 0-4 rum
grupp 2: 5-8 rumgrupp 3: 8:10 rumgrupp 4: 11- rum
Vi skapar 3 dummy variabler: antal rum
D1 D2 D3
3 1 0 06 0 1 010 0 0 18 0 1 03 1 0 013 0 0 0
29
Ibland kan vi även arbeta med en annan kodning:
t.ex. grupp 1: 0-4 rum 1grupp 2: 5-8 rum 2grupp 3: 8-10 rum 3grupp 4: 11- rum 4
men detta är bara möjligt om man kan anta att effekten (prisökningen) är samma när man går över från grupp 1 till grupp 2, som när man går över från grupp 2 till grupp 3, osv.
30
Partiellt F-test
Vi har nu en modell för fastighetspriset som använder sig av följande förklarande variabler:bostadsyta (area)antal rum (rooms)samspelsterm (area*rooms)
Dessutom har vi sett att även tomtyta har betydelse. För den sista förklarande variabeln som är tillgänglig (antal badrum) skulle vi kunna anta att den beter sig som variabeln ‘antal rum’. Vi skulle därför kunna använda oss av själva variabeln, men också inkludera en samspelsterm (area*baths).
F-testet anger att minst en av de ingående x-variablerna har betydelse.
t-testen (på föreg. sida) visar att fyra variabler har det, men inte de två sista.
Räcker det då med 4 förklarande variabler (area, acres, rooms, area*rooms)?
33
Vi kan köra regressionsanalysen en gång till och då lämna bort de två variablerna som inte var signifikanta.The regression equation isPrice = - 12280 + 88.2 Area + 7429 Acres + 10230 Rooms - 5.51 Area*Rooms
där x1=area, x2=acres, x3=rooms, x4=baths och därmed x1x3
samspelet mellan ’area’ och ’rooms’, och x1x4 samspelet mellan ’area’ och ’baths’.
Den reducerade modellen kan skrivas
y= 0 + 1 · x1 2· x2 + 3· x3 + 5· x1x3 +
Det är alltså den modellen, som vi tror kan räcka för att förklara fastighetspriset.
35
Vi vill nu testa om någon av de variabler som vi har tagit bort har (signifikant) betydelse för vilket värde responsvariabeln antar.
Om vi vill testa om någon av x4 och x1x4 skall läggas till blir nollhypotesen:
H0: 4= 6=0
Alternativhyptesen:
H1: minst en av 4, 6 är skild från 0
36
Som testfunktion kan vi använda
där
SSER=Residualkvadratsumman (SSE) i den Reducerade modellen och SSEC=Residualkvadratsumman i den Fullständiga modellen
p-1=Antal förklaringsvariabler i den fullständiga modellen
q-1=Antal förklaringsvariabler i den reducerade modellen
)/()/()(
pnSSEqpSSESSEF
F
FR
Vi testar alltså om minskningen i residualkvadratsumman är så pass stor (när vi lägger till de två variablerna) att vi inte kan ignorera den.
37
Om H0 är sann får F en F-fördelning med k-g och n-k-1 frihetsgrader och vi kan alltså jämföra värdet på F medF[](k-g,n-k-1)
I vårt fall: Den reducerade modellen
Analysis of Variance
Source DF SS MS F PRegression 4 1.75439E+11 43859815727 77.04 0.000Residual Error 145 82549315379 569305623Total 149 2.57989E+11
Den fulla modellen
Analysis of Variance
Source DF SS MS F PRegression 6 1.83020E+11 30503276149 58.18 0.000Residual Error 143 74968921395 524258192Total 149 2.57989E+11
SSER
SSEF
38
F(0.05;2,143) 3.07 < 7.2296 H0 ska förkastas!
Fastän varken antal badrum eller samspelstermen bostadsyta/antal badrum var signifikant, finns det ändå information i minst en av variablerna.
2296.7
715057496892139575749689213998254931537
)/()/()(
pnSSEqpSSESSEF
F
FR
39
Testmetoden kallas Partiellt F-test eftersom vi i ett test testar om en del (partition) av modellen skall uteslutas.
Om vi bara vill testa en enda variabel (om den ska uteslutas eller ej), så är det partiella F-testet ekvivalent med t-testet för denna variabel.
40
Om vi kommer (som i det här fallet) till slutsatsen att det finns information i minst en variabel av alla de vi testade, så får vi gå vidare med att ta reda på vilken variabel det kunde vara.
I vårt fall skulle vi kanske välja att ta bort samspelstermen area*baths och behålla variabeln baths.
The regression equation isPrice = - 9323 + 73.3 Area + 7210 Acres + 9236 Rooms - 5.15