Statistik 1 – Lektion 2 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen
Feb 22, 2016
Statistik 1 – Lektion 2
By, energi & miljø, forår 2010v. Morten Skou Nicolaisen
Sidste kursusgang
o Hvad kan vi bruge statistik til?o Kausalitet.o Datamatricer.o Måleniveau.o Centraltendens og spredning.o Omkodning.o Krydstabulering.o Intro (med øvelser) til statistikprogrammet SPSS.
Denne kursusgang
o Stikprøver.o Vægtning.o Konfidensintervaller.o Spredningsdiagrammer.o Korrelation.o Signifikans.o Ekstreme værdier.
Matematik vs. virkelighed
Not everything that counts can be counted, and not everything that can be counted counts.
- Albert Einstein
Stikprøver
o Repræsentativ stikprøve?
o Udvalgsramme og analysedesign.
o Bortfald og tab.
o Sampling: tilfældig, systematisk, stratificeret, klynge, etc.
Vægtning.o Kan bruges til at udføre analyser på ikke-repræsentative
stikprøver.
o Vægtning løser et problem men skaber nye.
o En simpel vægtning:• Vægt = populationsandel / stikprøveandel.
o Kan også bruges hvis man ikke har adgang til selve data, men kun deskriptiv statistik af data.
Eksempel 1o Datafilerne vi arbejder med er af ret høj kvalitet, og vi vil
derfor bruge et tænkt eksempel i stedet, da der ikke er nogen umiddelbare kandidater til vægtning i vores data.
o Vi antager at 60% af respondenterne i en undersøgelse er mænd (mod ca. 49,6% mænd i hele DK).• Vægtmænd = 49,6/60 = 0,83• Vægtkvinder = 51,4/40 = 1,29
o En ny variabel kan så beregnes med disse vægte og bruges i data>weight.
o Vægtningen bruges i al dataanalyse i SPSS indtil den bliver slået fra igen (ligesom select cases funktionen).
Konfidensintervaller
o Et interval der med en bestemt sandsynlighed (oftest 95%) indeholder en given parameters sande værdi.
o Intervallet ligger ±1,96 gange standardfejlen fra middelværdien (ved 95%).
o Den empiriske regel: 68% - 95% - 99,7%.
Eksempel 2
Eksempel 2 (fortsat)
o Stikprøvestørrelse (n) er 1149 personer.
o 2,86% = fejlmargen (margin of error).o Der er med 95% sandsynlighed flest folk, der er parat til at
betale mere.o Bruges f.eks. ved meningsmålinger til valg, hvor det ofte
fejlagtigt rapporteres, at kandidat A har indhentet kandidat B med 3 procentpoint, men hvor det lige så godt kan skyldes statistisk unøjagtighed.
npp
NnN
nppSE )1(
1)1(
]86,60;14,55[%86,2%581149
)58100(5896,1%58
Krydstabeller
3fmilj.holdninger: Jeg er villig til at betale højere miljøavgifter og skatter * 7uddannelsesslængde: udddannelsens længdeCrosstabulation
12 28 10 3 5313,2 18,8 14,3 6,7 53,0
17 12 11 4 4411,0 15,6 11,9 5,6 44,0
27 28 27 13 9523,7 33,7 25,6 12,0 95,0
5 19 18 11 5313,2 18,8 14,3 6,7 53,0
61 87 66 31 24561,0 87,0 66,0 31,0 245,0
CountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected Count
helt uenig
noe uenig
noe enig
helt enig
3fmilj.holdninger: Jeger villig til at betalehøjere miljøavgifter ogskatter
Total
folkesk/ungdomssk/r
videreg.endeskole
universitet/h.yskol
universitet/h.yskol
7uddannelsesslængde: udddannelsens længde
Total
Krydstabellermiljhold * bilorien Crosstabulation
0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0 0 0,0 ,0 ,1 ,1 ,1 ,1 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,1 ,1 ,1 ,1 ,1 ,1 ,0 ,0 ,00 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0,0 ,0 ,1 ,1 ,1 ,1 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,1 ,1 ,1 ,1 ,1 ,1 ,0 ,0 ,00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0,0 ,0 ,0 ,0 ,0 ,0 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 1 2 0 0 0 0 0,1 ,1 ,1 ,2 ,3 ,3 ,4 ,4 ,4 ,5 ,5 ,4 ,5 ,4 ,4 ,4 ,3 ,3 ,3 ,2 ,2 ,1 ,1 ,1 ,10 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 1 0 1 0 2 0,1 ,1 ,1 ,2 ,3 ,3 ,4 ,4 ,4 ,5 ,5 ,4 ,5 ,4 ,4 ,4 ,3 ,3 ,3 ,2 ,2 ,1 ,1 ,1 ,10 0 0 0 0 0 1 0 1 0 1 0 1 0 1 0 1 1 4 1 1 2 0 0 3,3 ,3 ,4 ,7 ,8 ,8 1,0 1,0 1,1 1,4 1,3 1,2 1,3 1,1 1,2 1,1 ,8 ,9 ,8 ,6 ,6 ,4 ,3 ,2 ,20 0 0 0 0 1 0 1 0 0 0 1 1 0 3 1 1 2 1 0 1 0 2 1 1,3 ,3 ,3 ,7 ,7 ,8 1,0 1,0 1,1 1,3 1,3 1,1 1,2 1,0 1,1 1,1 ,7 ,9 ,7 ,6 ,5 ,4 ,3 ,2 ,10 0 0 0 0 1 0 0 1 2 1 1 0 3 0 2 0 1 1 3 7 3 1 1 0,5 ,5 ,6 1,1 1,2 1,3 1,6 1,7 1,8 2,2 2,1 1,9 2,1 1,7 1,9 1,8 1,2 1,5 1,3 1,0 ,9 ,7 ,5 ,4 ,20 0 0 0 0 0 0 1 0 1 1 0 0 0 3 2 1 4 1 1 3 1 3 0 0,4 ,4 ,4 ,8 ,9 1,0 1,2 1,3 1,3 1,7 1,6 1,4 1,6 1,3 1,4 1,4 ,9 1,1 ,9 ,7 ,7 ,5 ,4 ,3 ,20 0 0 0 0 0 3 0 1 1 2 3 0 3 1 2 0 5 7 5 3 5 1 0 1,7 ,7 ,8 1,5 1,6 1,7 2,2 2,2 2,4 3,0 2,8 2,6 2,8 2,3 2,5 2,4 1,6 2,0 1,7 1,3 1,2 ,9 ,7 ,5 ,30 0 0 0 0 0 1 2 4 3 5 4 2 6 4 1 4 5 4 4 4 6 3 1 1
1,0 1,0 1,2 2,3 2,5 2,6 3,3 3,4 3,7 4,6 4,4 3,9 4,3 3,5 3,8 3,8 2,5 3,0 2,6 2,0 1,9 1,4 1,0 ,8 ,50 0 0 0 1 0 1 0 2 4 1 3 6 6 4 10 3 8 5 3 6 5 3 2 2
1,3 1,3 1,4 2,8 3,0 3,2 4,0 4,2 4,5 5,6 5,3 4,8 5,2 4,2 4,6 4,5 3,0 3,7 3,1 2,4 2,2 1,6 1,3 1,0 ,60 1 0 0 1 1 4 3 2 4 7 8 9 9 7 5 5 7 0 7 6 1 2 1 0
1,4 1,4 1,6 3,2 3,4 3,6 4,5 4,7 5,1 6,3 6,0 5,4 5,9 4,7 5,2 5,1 3,4 4,1 3,5 2,7 2,5 1,8 1,4 1,1 ,71 0 0 0 3 3 0 5 3 4 9 6 11 8 10 12 4 8 7 7 6 3 3 3 0
1,8 1,8 2,0 4,1 4,4 4,6 5,8 6,0 6,5 8,1 7,7 6,9 7,5 6,1 6,7 6,6 4,4 5,3 4,6 3,5 3,3 2,4 1,8 1,4 ,90 0 1 4 2 1 3 5 9 10 12 6 9 7 8 5 6 8 5 3 3 2 1 4 2
1,9 1,9 2,1 4,1 4,5 4,7 5,9 6,2 6,6 8,2 7,8 7,1 7,7 6,2 6,8 6,7 4,5 5,4 4,6 3,6 3,3 2,4 1,9 1,5 ,90 1 1 4 0 2 5 10 4 11 4 12 15 16 15 11 9 7 8 8 1 3 4 3 1
2,5 2,5 2,7 5,4 5,9 6,2 7,8 8,1 8,7 10,8 10,3 9,3 10,1 8,2 9,0 8,8 5,9 7,1 6,1 4,7 4,4 3,2 2,5 1,9 1,21 0 1 0 5 3 6 4 9 11 14 8 10 6 10 11 7 7 13 2 0 1 1 1 1
2,1 2,1 2,3 4,6 5,0 5,3 6,7 6,9 7,4 9,2 8,7 7,9 8,6 7,0 7,7 7,5 5,0 6,0 5,2 4,0 3,7 2,7 2,1 1,6 1,00 2 2 2 3 4 4 8 5 13 9 6 12 10 12 4 4 5 3 2 2 1 0 1 0
1,8 1,8 2,0 4,0 4,3 4,5 5,7 5,9 6,4 7,9 7,5 6,8 7,4 6,0 6,6 6,5 4,3 5,2 4,5 3,5 3,2 2,3 1,8 1,4 ,90 1 4 2 2 10 8 10 11 18 11 12 9 7 2 9 6 6 1 1 0 0 1 0 0
2,1 2,1 2,3 4,6 5,0 5,2 6,6 6,8 7,4 9,1 8,7 7,8 8,5 6,9 7,6 7,4 5,0 6,0 5,1 4,0 3,7 2,7 2,1 1,6 1,02 1 2 1 3 6 12 7 10 7 11 13 4 0 8 3 5 1 2 1 2 1 1 1 0
1,6 1,6 1,8 3,7 4,0 4,1 5,2 5,4 5,8 7,3 6,9 6,2 6,8 5,5 6,0 5,9 4,0 4,8 4,1 3,2 2,9 2,1 1,6 1,3 ,80 2 1 5 3 5 9 2 10 5 6 5 4 2 3 9 2 0 2 0 2 0 0 0 0
1,2 1,2 1,4 2,7 2,9 3,1 3,9 4,0 4,3 5,4 5,1 4,6 5,0 4,1 4,5 4,4 2,9 3,5 3,0 2,3 2,2 1,6 1,2 ,9 ,61 4 3 7 6 7 8 6 6 9 1 4 9 4 1 5 2 0 0 0 0 0 0 0 0
1,3 1,3 1,5 2,9 3,2 3,3 4,2 4,3 4,7 5,8 5,5 5,0 5,4 4,4 4,8 4,7 3,2 3,8 3,3 2,5 2,3 1,7 1,3 1,0 ,64 3 4 7 8 3 5 11 2 6 7 3 4 0 4 1 2 0 0 0 0 0 0 0 1
1,2 1,2 1,3 2,6 2,9 3,0 3,8 3,9 4,2 5,2 5,0 4,5 4,9 4,0 4,3 4,3 2,9 3,4 2,9 2,3 2,1 1,5 1,2 ,9 ,62 3 0 6 3 7 5 5 7 5 2 1 3 0 1 1 1 1 0 0 0 0 1 0 0,9 ,9 ,9 1,9 2,1 2,2 2,7 2,8 3,0 3,8 3,6 3,2 3,5 2,8 3,1 3,1 2,1 2,5 2,1 1,6 1,5 1,1 ,9 ,7 ,45 2 2 6 9 5 5 5 3 3 3 2 1 2 0 0 1 0 0 1 0 0 0 0 0,9 ,9 1,0 1,9 2,1 2,2 2,8 2,9 3,1 3,8 3,6 3,3 3,6 2,9 3,2 3,1 2,1 2,5 2,2 1,7 1,5 1,1 ,9 ,7 ,43 1 3 10 10 5 1 3 0 1 4 2 1 1 1 1 0 0 0 0 0 0 0 0 0,7 ,7 ,8 1,7 1,8 1,9 2,4 2,5 2,6 3,3 3,1 2,8 3,1 2,5 2,7 2,7 1,8 2,1 1,8 1,4 1,3 1,0 ,7 ,6 ,45 2 5 2 3 3 4 1 3 1 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0,5 ,5 ,5 1,1 1,2 1,2 1,6 1,6 1,7 2,2 2,1 1,9 2,0 1,6 1,8 1,8 1,2 1,4 1,2 ,9 ,9 ,6 ,5 ,4 ,23 4 1 4 2 1 1 0 3 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0,3 ,3 ,4 ,7 ,8 ,8 1,0 1,0 1,1 1,4 1,3 1,2 1,3 1,1 1,2 1,1 ,8 ,9 ,8 ,6 ,6 ,4 ,3 ,2 ,2
27 27 30 60 65 68 86 89 96 119 113 102 111 90 99 97 65 78 67 52 48 35 27 21 1327,0 27,0 30,0 60,0 65,0 68,0 86,0 89,0 96,0 119,0 113,0 102,0 111,0 90,0 99,0 97,0 65,0 78,0 67,0 52,0 48,0 35,0 27,0 21,0 13,0
CountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected Count
-17
-15
-14
-13
-12
-11
-10
-9
-8
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
8
9
10
11
miljhold
Total
-17 -16 -15 -14 -13 -12 -11 -10 -9 -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7bilorien
NB: Additive index
Opgave 1
o Datafilen ”Hovedstadsomraadet …” benyttes.o Brug et spredningsdiagram i stedet for en
krydstabel til at undersøge sammenhængen mellem de to variable fra forrige slide (bilorien & miljhold).
o Funktionen findes under graph>scatter.
Spredningsdiagram
Korrelation
Gsn. af y
Gsn. af x
Korrelation
o Pearsons produkt-moment-test (r):• Formel:• Simplificeret fortolkning: Kombinerede afstande
fra gennemsnit divideret med standardafvigelser.Correlations
1 -,588**,000
1832 1707-,588** 1,000
1707 1769
Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N
miljhold
bilorien
miljhold bilorien
Correlation is significant at the 0.01 level(2-tailed).
**.
o Kendalls tau, Spearmans rho.
Korrelationo r-værdien er et udtryk for hvor godt observationerne stemmer overens
med en lineær sammenhæng, men ikke for hvor meget den ene variabel varierer i forhold til den anden (skelner dog mellem positiv/negativ korrelation).
Korrelation
o Gamma.• Er modsat Pearsons r retningsbestemt.• Sammenligner antallet af samstemmende par i en
ordnet krydstabel for to variable med antallet af ikke-samstemmende.
• Kan derfor kun bruges når variable er ordinale (el. binære/dikotome).
oP beregnes ved at multiplicere frekvensen i hver rude i tabellen med summen af frekvenserne i de ruder, der ligger til højre og lavere i tabellen, og summere. For en tabel med 3 rækker og 3 kolonner sker multiplikationen sådan:
o Formlen for Gamma er (P – Q)/(P + Q)
oQ beregnes ved at multiplicere frekvensen i hver rude i tabellen med summen af frekvenserne i de ruder, der ligger til venstre og lavere i tabellen, og summere. For en tabel med 3 rækker og 3 kolonner sker multiplikationen sådan:
Korrelation
Eksempel 33amilj.holdninger: Vi behøver fortsat økonomisk vækst i Norge, også selv om miljøet rammes * 3fmilj.
holdninger: Jeg er villig til at betale højere miljøavgifter og skatter Crosstabulation
Count
7 9 10 19 45
5 9 35 16 65
24 20 37 14 95
19 7 13 4 4355 45 95 53 248
helt uenig
delvist uenig
delvist enig
helt enig
3amilj.holdninger: Vi behøver fortsatøkonomisk vækst iNorge, også selvom miljøet rammesTotal
helt uenig delvist uenig delvist enig helt enig
3fmilj.holdninger: Jeg er villig til at betale højeremiljøavgifter og skatter
Total
Gamma Sammenhæng
±0,1 - ±0,2 Svag
±0,2 - ±0,3 Moderat
±0,3 el. mere Stærk
KorrelationAfhængig variabel
Med flere end 2 værdier
Dikotom (med kun 2 værdier)
Nominalniveau Ordinalniveau Interval- og forholdstals-niveau
Dikotom (med kun 2 værdier)
Proportions-difference
Pearson’s r Odds ratio Risk estimate
Phi Cramér’s V Contingency
coefficient
Kendall’s tau Gamma (samt Phi, Cramér’s V og Conting. coeff.)
Pearson’s r Eta
Nominal-niveau
Phi Cramér’s V Contingency
coeff.
Phi Cramér’s V Contingency
coeff.
Phi Cramér’s V Contingency
coefficient
Eta
Ordinal-niveau
Kendall’s tau-b
Gamma (samt Phi, Cramér’s V og Conting. coeff.)
Phi Cramér’s V Contingency
coeff
Kendall’s tau-b
Gamma Spearman’s
rho
Eta Kendall’s
tau-b Gamma Spearman’s
rho
Uaf-hæn- gig varia-bel
Med flere end 2 værdier
Interval- og forholdstals-niveau
Kendall’s tau-b
R i logistisk regression
Phi Cramér’s V Contingency
coeff
Kendall’s tau-b
Gamma Spearman’s
rho
Pearson’s r
Oversigt over hvilke mål for statistisk samvariation, der er aktuelle at bruge ved forskellige måleniveauer for den uafhængige og den afhængige variabel.
Korrelation
Landets plass i alfabetisk rangering
76543210
Folk
etal
(m
ill. in
db.)
50
40
30
20
10
0
Spania
Romania
Holland
Grekenland
DanmarkAlbania
Korrelation
o Partiel korrelation.• Angiver sammenhængen mellem to variable, når
der kontrolleres for indvirken fra en el. flere andre variable.
• Kræver interval variable.
Indtægt
Tæthed i lo-kalområdet
Rejselæng-de med bil
?
Eksempel 4
o Datafilen ”Hovedstadsomraadet …” benyttes.o Vi undersøger om inddragelsen af indtægt
ændrer på sammenhængen mellem bilkørsel og tæthed i lokalområdet.
o correlate>partial benyttes.
Opgave 2
o Datafilen ”Hovedstadsomraadet …” benyttes.o Undersøg om sammenhængen mellem
respondenternes holdninger til bil (bilorien) og til miljø (miljhold) skyldes forskelle i indkomst (persind2).
o correlate>partial benyttes.
Signifikans
o Betegnes som regel med værdien p (probability), og angiver sandsynlighed for at nul-hypotesen er sand.
o Nul-hypotesen antager, at der ikke er nogen sammenhæng mellem de undersøgte variable.
o Er der dermed en lav sandsynlighed for at den er sand (som regel p<0,05) forkaster vi derfor nul-hypotesen, og der må altså gælde, at der er en sammenhæng.
o Beregnes ofte med Chi2 (ikke-parametrisk) eller T-test (parametrisk).
Signifikans
o Chi2:
miljo2 * transp7 Crosstabulation
196 94 38 29 50 40787,4 96,8 47,9 64,0 110,9 407,0130 211 98 131 172 742
159,4 176,5 87,2 116,6 202,3 742,037 69 49 62 105 322
69,2 76,6 37,9 50,6 87,8 322,028 47 26 50 86 237
50,9 56,4 27,9 37,2 64,6 237,011 24 9 22 97 163
35,0 38,8 19,2 25,6 44,4 163,0402 445 220 294 510 1871
402,0 445,0 220,0 294,0 510,0 1871,0
CountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected CountCountExpected Count
1
2
3
4
5
miljo2
Total
1 2 3 4 5transp7
Total
Eks: 407*402/1871=87,4
Opgave 3
o Datafilen ”Hovedstadsomraadet …” benyttes.o Vi vil undersøge om der er en statistisk
signifikant samvariation mellem yngre og ældre personers (alder2) tendens til at have et kørekort (bilkkort).
o Hvilke korrelationskoefficienter bør vi anvende?
Outliers
o Outliers er observationer, der skiller sig ud fra resten af datasættet ved at have ekstreme værdier.
o Skyldes enten fejl i data (disse bør rettes) eller at population har en tung hale (forsigtig mht. antagelser om normalfordeling).
o SPSS skelner mellem outliers og extremes.o Boxplots giver et hurtigt grafisk overblik.
Outliers
o Boxplots:• Boksen angiver altid 25%, 50% og 75% kvartiler.• De nedre og øvre linjer kan angive forskellige ting i
forskellig statistik-software.• I SPSS angiver de grænserne for outliers (prikker),
der defineres som halvanden kvartilafstand fra øverste og nederste kvartil i hver retning.
• Ekstreme værdier (stjerner) defineres som tre kvartilafstande fra øverste og nederste kvartil i hver retning.
Outliers
Opgave 4
o Datafilen ”Hovedstadsomraadet …” benyttes.o Hvad sker med sammenhængen mellem
tætheden i lokalområdet (loktaet) og rejselængden med bil på hverdage (bilhverd), kontrolleret for personlig indtægt (persind2), hvis vi udelader respondenter med ekstreme rejselængder med bil på hverdage?
Opgave 5
o Datafilen ”Hovedstadsomraadet …” benyttes.o Beregn den partielle korrelation mellem
boligens afstand fra Københavns centrum (centafs) og andelen af ikke-motoriseret transport på hverdage (fcandhv), kontrolleret for alder, personlig indtægt (persind2) og indeks for miljøholdninger (miljhold).
o Hvordan skal resultatet tolkes?