1 Section 7-2: Estimere populasjonsandelen 2 Section 7-4: Estimere μ når σ er ukjent
1 Section 7-2: Estimere populasjonsandelen
2 Section 7-4: Estimere µ når σ er ukjent
Kapittel 7
Nå begynner vi med statistisk inferens!Bruke stikkprøven til å
1 Estimere verdien til en parameter i populasjonen. (Kapittel 7)2 Teste en påstand/hypotese om en parameter i populasjonen
(Kapittel 8)
Hva skal vi estimere ?Populasjonsandelen pPopulasjonsgjennomsnittet x
Estimere populasjonsandelen
KonfidensintervallVi ønsker å estimere andelen i populasjonen pVi starter med andelen p̂ i stikkprøven og lager etkonfidensintervall.
Forutsetninger for et riktig konfidensintervallStikkprøven er et tilfeldig utvalgBetingelsen for en binomisk forsøksrekke holder (se seksjon5-3)Minst 5 suksesser og 5 fiaskoer
Notasjon
NotasjonAndelen i populasjonen: p(eng: proportion. Ikke forveksle med p i binomialfordelingen)Andelen i stikkprøven p̂ = xnx er antall suksesser i en stikkprøve med n objekterq̂ = 1− p̂ andelen fiaskoer
Forutsetninger for et riktig konfidensintervall for pStikkprøven er et tilfeldig utvalgBetingelsen for en binomisk forsøksrekke holder (se seksjon5-3)I stikkprøven er minst 5 med i andelen, og minst 5 er ikke med
Punktestimat
PunktestimatorEn punktestimator er en enkel verdi som anslår verdien til enparameter
Punktestimator for andelen pp̂ = xn er den beste punktestimatoren for p
Å estimere en parameterDu kan enten bruke et punktestimatEller estimere parameteren med et intervall
Konfidensintervall
Konfidensintervall og konfidensnivåEt konfidensintervall er et intervall som brukes til å estimere densanne verdien til en populasjonsparameter.Konfidensnivået angir hvor ofte intervallet faktisk vil inneholde densanne populasjonsparameteren. Til hvert konfidensnivå tilhører deten α
Konfidensnivå α90% α = 0.1095 % α = 0.0599 % α = 0.01
ExampleEt 95% konfidensintervall vil 95% av gangene inneholdeparameteren
Jordbæris
Example"Av 851 besøkende i et kjøpesenter har 51% jordbær somfavorittsmak på is. "
Sjekk at forutsetningene på side 5Punktestimatet for andelen er p̂ = 0.5195% konfidensintervall for andelen som foretrekker jordbærisblir da
< 0.476, 0.544 >
Vi er 95% sikre på at intervallet fra 0.476 til 0.544 inneholderden sanne andelen av folk som foretrekker is med jordbærsmak.Dette betyr at dersom vi spurte mange grupper av 829personer, og lagde et konfidensintervall hver gang, så vil 95%av intervallene inneholde den sanne andelen p
Kritiske verdier zα/2
ProsedyrenMen hvordan fant man ut at intervallet går ifra 0.476 til 0.544?
Kritiske verdierSjekk krav side 5 →p̂ normalfordelt.α blir da arealet i tohalerDet gir kritiskeverdier zα/2
Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.
Slide
The Critical Value
Figure 7-2
z!/2
zα/2 = ±1.96 for 95% konfidensintervall
Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.
z!/2 = 1.96"+
Bruk Table A-2 til å finne z verdien 1.96
! = 0.05
Finding z!/2 for a 95%
Confidence Level - cont
Bruke zα/2 = ±1.96 til å finne feilmarginen
Estimatoren p̂ er normalfordeltNår kravene på side 5 er tilfredstilt, så er p̂ er normalfordelt medforventning p og standardavvik σp̂ =
√p̂(1− p̂)/n
Feilmarginen for konfidensintervallet for en andel
E = zα/2 ·√
p̂(1− p̂)n
ExampleVi hadde n = 821 kunder med p̂ = 0.51, så da blir feilmarginen
E = 1.96 ·√
0.51(1− 0.51)821
= 0.034
Andel jordbæris konfidensintervall
Example1 Vi ville ha et 95% konfidensintervall2 Vi fant kritisk verdi zα/2 = 1.963 Andelen i stikkprøven var p̂ = 0.514 Regne ut feilmarginen E = 0.0345 Konfidensintervallet blir da
p̂ ± E ↔ 0.51± 0.034
6 Fra 0.51− 0.034 til 0.51+ 0.0347 95% konfidensintervall: Fra 0.476 til 0.544
Forskjellige måter å oppgi konfidensintervall på
Kjært barn har mange navn
0.476 < p < 0.5440.51± 0.034
< 0.476, 0.544 >
Konfidensintervall for andelen
Prosedyre1 Sjekk at krav på side 5 OK2 Finn kritisk verdi zα/2 i tabell A2
3 Regn ut feilmargin E = zα/2 ·√
p̂(1− p̂)/n4 Regn ut nedre grense p̂ − E og øvre grense p̂ + E5 Rund av til tre desimaler6 Oppgi konfidensintervallet
p̂ − E < p < p̂ + E
Konfidensintervall for populasjonsandelen p
ExampleLa p være andelen kvinner som holder barnet med venstre arm.25 av 32 kvinner på fødselsavd holdt med venstre arm.
E = 1.96 ·
√2532(1−
2532)
32= 0.143
95% konfidensintervall for andelen p:
p =2532± 0.143
Kan også skrives 0.638 < p < 0.942Vi er 95% sikre på at andelen av mødre med barnet i venstrearm er et sted mellom 63.8% og 94.2%
99% konfidensintervall. Andelen iPhone på BI
ExampleFila klassens data alle ny: 419 av 1937 studenter har en iPhone.Lag et 99% konfidensintervall for andelen studenter p som hariPhone på BI.
TabellA2 : zα/2 = 2.576
E = 2.576 ·
√4191937(1−
4191937)
1937= 0.0241
99% konfidensintervall for andelen p:
p =4191937
± 0.0241
Kan også skrives < 0.192, 0.240 >Vi er 99% sikre på at andelen av iPhone brukere på BI ermellom 19.2% og 24.0%
90 % intervall: Andelen iPhone på BI
ExampleLag et 90% konfidensintervall for andelen studenter p som hariPhone på BI.
TabellA2 : zα/2 = 1.645
E = 1.645 ·
√4191937(1−
4191937)
1937= 0.0154
90% konfidensintervall for andelen p:
p =4191937
± 0.0154
Kan også skrives < 0.201, 0.232 >Vi er 90% sikre på at andelen av iPhone brukere på BI ermellom 20.1% og 23.2%
95 % intervall: Andelen iPhone på BI
Example95% konfidensintervall for andelen studenter p som har iPhone påBI.
TabellA2 : zα/2 = 1.96 girE = 1.96 ·
√419/1937(1− 419/1937)/1937 = 0.0183
95% konfidensintervall er da 0.198 < p < 0.235
Konfidensintervall for andeler i JMPJMP bruker en litt annen formel enn den vi brukera
klassens data alle ny, velg analyze>distribution og MobiltelefonRød diamant: confidence intervals 95% gir 0.199 < p < 0.235når vi runder av til 3 desimaler
aAgresti-Coull konfidensgrense
Bredden på intervallet
Intervallbredde versus konfidensnivåJo sikrere du trenger å være på at intervallet inneholderparameteren, jo bredere blir intervalletMan må avveie dette slik at intervallet ikke blir for bredtVanlig kompromiss er å bruke 95% konfidensnivå
Hvor stor stikkprøve trenger vi?
Størrelsen på stikkprøvenDu har bestemt ønsket feilmargin EDu har bestemt konfidensnivåetDa kan du anslå hvor stor stikkprøve du trengerFormelen er
n =z2α/2 · 0.25
E 2
ExampleVi ønsker et 95% konfidensintervall med feilmargin E = 0.05, dvs.±5%.
n =1.962 · 0.25
0.052= 385
For å få en feilmargin på ca 5% bør du ha 385 objekter istikkprøven.
Seksjon 7-4: Estimere gjennomsnittet µ
Seksjon 7-4Estimere gjennomsnittet µ i populasjonenPunktestimator er selvfølgelig xVi vil lage konfidensintervall for µDa trenger vi først Student t-fordelingen
Forutsetninger for å bruke t-fordelingStikkprøven må være tilfeldig utvalgtOriginaldataene x er normalfordelt, eller n > 30
Frihetsgrader og Student t-fordelingen
Frihetsgrader (eng: degrees of freedom)Stikkprøven har n objekterDa sier vi at den har n − 1 frihetsgrader
t-fordelingenAnta at x er normalfordelt. Med en stikkprøve av størrelse n kan viberegne x og s. Da vil
t =x − µ
s√n
være Student t-fordelt med n − 1 frihetsgrader
Student t-fordelingen
Figur: t-fordelingen ift. standard normalfordeling. df=2 og 11.
Student t-fordelingen
For hver frihetsgrad er det assosiert en t-fordeling.t-fordelingen er symmetrisk og ligner normalfordelingen, menhar høyere standardavvikNår frihetsgraden vokser nærmer t-fordelingen seg en standardnormalfordeling
Et JMP scriptÅpne Normal vs t.JSL ifolderen Sample scriptsEdit > Run ScriptTetthetskurven til t-fordelingenfor forskjellige frihetsgrader (df)Standard normalfordeling i rødt
Konfidensintervall for µ
Feilmarginen
E = tα/2 ·s√n
Der tα/2 har n − 1 frihetsgrader. Finnes i tabell A-3.
Konfidensintervall for µ
x − E < µ < x + E
Eksempel
ExampleDu måler vekten på 34 lakrispastillerGjennomsnittsvekt er x = 0.932 og standardavviket er s = 0.1Lag et 90% konfidensinterval for parameteren µ
Vi har n > 30 så kravet er ok.34− 1 = 33 frihetsgrader. Vi runder ned til 32 i tabell A3Kritisk verdi tα/2 = 1.694 for 32 df
Feilmargin E = 1.694 · 0.1/√34 = 0.029
Konfidensintervall:
0.903 < x < 0.961
Vi er 90% sikre på at gjennomsnittsvekta er mellom 0.903 og0.961 gram
Konfidensintervall for gjennomsnittet µ
Prosedyre1 Sjekk at dataene er normalfordelte, eller at n > 30.2 Med n − 1 frihetsgrader, finn kritisk verdi tα/2 i tabell A33 Regn ut feilmargin E = tα/2 · s/
√n
4 Regn ut nedre grense x − E og øvre grense x + E5 Rund av til tre desimaler6 Oppgi konfidensintervallet
x − E < µ < x + E
Hva er et konfidensintervall?
Åpne scriptet confidence i folder Sample scripts
Figur: Simulering av 100 95% konfidensintervall. 94 av dem inneholdtden sanne µ = 5.
Lengde på telefonsamtaler 1
ExampleLengden på interne telefonsamtaler i en bedrift er normalfordeltStikkprøve på 5 interne samtaler: 23, 25, 12, 30, 20 minutter.Lag et 95% konfidensintervall for gjennomsnittlig lengde påtelefonsamtale i bedriften.Løsning
1 Regn ut x = 22.00 og s = 6.6712 Finn tα/2 = 2.776 for 4 frihetsgrader. Tabell A33 Feilmarginen:
E = 2.776 · 6.671√5
= 8.282
4 95% konfidensintervall for µ går ifra 22.00− 8.282 til22.40+ 8.282:
13.72 < µ < 30.28
5 Vi er 95% sikre på at gjennomsnittlig samtaletid er mellom13.72 og 30.28 minutter
Konfidensintervall i JMP
Konfidensintervall i JMPLegg inn 23, 25, 12, 30, 20 i enkolonne i JMPAnalyze > DistributionJMP oppgir 95%konfidensintervall for µ
Lengde på telefonsamtaler 2
ExampleI en annen bedrift har vi 4, 12, 10, 3, 5 og 8 minutter.Lag et 90% konfidensintervall for gjennomsnittlig samtaletidLøsning
1 Regn ut x = 7.00 og s = 3.5782 Finn tα/2 = 2.015 for 5 frihetsgrader. Tabell A33 Feilmarginen:
E = 2.015 · 3.578√6
= 2.94
4 95% konfidensintervall for µ går ifra 7.00− 2.94 til 7.00+ 2.94:
4.06 < µ < 9.94
5 Vi er 95% sikre på at gjennomsnittlig samtaletid er mellom4.06 og 9.94 minutter
Er lengden på telefonsamtaler normalfordelt?
Forutsetninger for å bruke t-fordelingStikkprøven må være tilfeldig utvalgtOriginaldataene x er normalfordelt, eller n > 30
I eksemplene over har vi færre ennn = 30 objekter i stikkprøvenForutsatte derfor at lengden påtelefonsamtaler var normalfordeltDet er mer sannsynlig at lengden erhøyreskjev, siden det finnes en naturlignedre skranke: 0 minutter for lengdenVi skulle nok hatt stikkprøve på minst30 telefonlengder...
Figur: Eksempel på høyreskjevfordeling. Reisetid til skolen for1937 BI studenter
Norsk kundebarometer
ExampleFor variabelen Anbefale hos DnB NOR kunder:
54 menn: Gjennomsnitt: 5.426, Standardavvik: 2.61837 kvinner: Gjennomsnitt 4.865, Standardavvik: 2.699
Finn 99% konfidensintervall for anbefalingsgjennomsnittet formannlige og for kvinnelige DnB NOR kunder. Løsning:
1 Menn: tα/2 = 2.678 (runder ned til 50 df) og kvinnertα/2 = 2.719
2 Menn: E = 2.678 · 2.618/√54 = 0.954. Kvinner:
E = 2.719 · 2.699/√37 = 1.206
3 Menn 99% konfidensintervall:
4.47 < µM < 6.38
4 Kvinner 99% konfidensintervall:
3.66 < µK < 6.07
Eksamensoppgaver Met 8006 vaaren 05
Eksamensoppgaver Met 8006 hoest 07
Section 7-2: Estimere populasjonsandelenSection 7-4: Estimere når er ukjent