Top Banner
Statistik Lektion 5 Flere stikprøvefordelinger Estimatore og estimater Konfidensintervaller
35

Statistik Lektion 5

Feb 08, 2016

Download

Documents

Thành

Statistik Lektion 5. Flere stikprøvefordelinger Estimatore og estimater Konfidensintervaller. Stikprøvefordeling. Antag at vi vil udtale os om en populationsparameter (fx middelværdien m ) på baggrund af en stikprøve statistik (fx. stikprøve-gennemsnittet ). - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Statistik Lektion 5

StatistikLektion 5

Flere stikprøvefordelinger

Estimatore og estimater

Konfidensintervaller

Page 2: Statistik Lektion 5

Stikprøvefordeling

Antag at vi vil udtale os om en populationsparameter (fx middelværdien m) på baggrund af en stikprøve statistik (fx. stikprøve-gennemsnittet ).

Vores konklusion skal tage i betragtning, at værdien af ændrer sig for hver ny tilfældig stikprøve

Den tilfældig variation af stikprøve-statistikken (her gennemsnittet) betegnes stikprøve-fordelingen (af stikprøve-gennemsnittet)

x

x

Page 3: Statistik Lektion 5

Stikprøve-gennemsnittets stikprøve-fordeling: Forventede værdi Lad de stokastiske variable X1, X2,…,Xn være en tilfældig

stikprøve fra en population m. middelværdi m og varians s2.

Stikprøve-gennemsnittet af disse SV er

Den forventede værdi og varians for stikprøve-gennemsnittet er

n

iiX

nX

1

1

XE n

XV2

og

Hvis stikprøve er lille i forhold til population

Page 4: Statistik Lektion 5

Den Centrale Grænseværdi Sætning (CLT) Lad X1, X2,…, Xn, er være n uafhængige stokastiske

variable fra samme fordeling med middelværdi m og varians s2. Da gælder, at når stikprøvestørrelsen n øges, så vil fordelingen af

nærme sig mere og mere en standard normal-fordeling.

Tommelfinger-regel: n ≥ 30 er nok til en god tilnærmelse.

n

XZ

(Central limit theorem)

Page 5: Statistik Lektion 5

2-fordelingen [ki-i-anden]

En 2 -fordelt stokastisk variabel kan ikke være negativ, så den er begrænset af 0 til venstre.

Fordelingen er højreskæv. En 2 fordeling er specificeret

ved antallet af frihedsgrader. Notation: En stokastisk

variabel Y, der følger en 2-fordeling med n [ny] frihedsgrader angives som

100500

0.10

0.09

0.08

0.07

0.06

0.05

0.04

0.03

0.02

0.01

0.00

2

f(2

)

df = 10

df = 30

df = 50

2-fordelingen nærmer sig en normal-fordelingen, når antallet af frihedsgrader vokser.

2~ Y

c2-fordelingen: df=10, df=30, df=50

Page 6: Statistik Lektion 5

Mere om 2 fordelingen Middelværdi og Varians

Hvis Y er c2 -fordelt med n frihedsgrader:

Sammenhæng med normalfordelingen

Lad X1, X2,…, Xn være uafhængige, standard normalfordelte stokastiske variable. Definer

Da gælder

222

21

2nXXXX

2][][ YVYE og

22 ~ nX

Page 7: Statistik Lektion 5

Stikprøvevariansen og dens fordeling Stikprøve-variansen for en tilfældig stikprøve er

Generelt gælder

Hvis populationen er normalfordelt gælder

1

1

2

2

n

XXS

n

i i

212

22 ~

)1(

n

Sn

)1(2][][ 4222 nSVSE og

Page 8: Statistik Lektion 5

Man kan finde c2a i R vha.

> qchisq(p=a,df=df,lower.tail=FALSE)

Areal i højre hale (α)

.995 .990 .975 .950 .900 .100 .050 .025 .010 .005

1 0.0000393 0.000157 0.000982 0.000393 0.0158 2.71 3.84 5.02 6.63 7.88 2 0.0100 0.0201 0.0506 0.103 0.211 4.61 5.99 7.38 9.21 10.60 3 0.0717 0.115 0.216 0.352 0.584 6.25 7.81 9.35 11.34 12.84 4 0.207 0.297 0.484 0.711 1.06 7.78 9.49 11.14 13.28 14.86 5 0.412 0.554 0.831 1.15 1.61 9.24 11.07 12.83 15.09 16.75 6 0.676 0.872 1.24 1.64 2.20 10.64 12.59 14.45 16.81 18.55 7 0.989 1.24 1.69 2.17 2.83 12.02 14.07 16.01 18.48 20.28 8 1.34 1.65 2.18 2.73 3.49 13.36 15.51 17.53 20.09 21.95 9 1.73 2.09 2.70 3.33 4.17 14.68 16.92 19.02 21.67 23.5910 2.16 2.56 3.25 3.94 4.87 15.99 18.31 20.48 23.21 25.1911 2.60 3.05 3.82 4.57 5.58 17.28 19.68 21.92 24.72 26.7612 3.07 3.57 4.40 5.23 6.30 18.55 21.03 23.34 26.22 28.3013 3.57 4.11 5.01 5.89 7.04 19.81 22.36 24.74 27.69 29.8214 4.07 4.66 5.63 6.57 7.79 21.06 23.68 26.12 29.14 31.3215 4.60 5.23 6.26 7.26 8.55 22.31 25.00 27.49 30.58 32.8016 5.14 5.81 6.91 7.96 9.31 23.54 26.30 28.85 32.00 34.2717 5.70 6.41 7.56 8.67 10.09 24.77 27.59 30.19 33.41 35.7218 6.26 7.01 8.23 9.39 10.86 25.99 28.87 31.53 34.81 37.16

Sandsynligheder i 2 fordelingenTable 7 s865 a

2

Sikrer at a svarer til sandsynligheden til højre.

Page 9: Statistik Lektion 5

Eksempel Setup: Antag vi har en stikprøve på n =15 fra en normal-fordelt

population med middelværdi m = 20 og varians s2 = 9. Spørgsmål: Find en værdi c, så sandsynligheden for at få en

stikprøve-varians mindre end c er 5%? Løsning: Spørgsmålet formuleret som sandsynlighed:

05.09

)115(

05.0)1()1(

05.0)(

2

22

2

2

cP

cnSnP

cSP

Hvis c2 følger en c2 -fordeling med 15-1 frihedsgrader, så ved vi fra c2 - tabellen at

P(c2 > 6.57) = 0.95 P(c2 < 6.57) =

0.05 Løs ligningen 14c/9 = 6.57 c =

4.22. 5% af alle stikprøvevarianser, vil

være under 4.22.

Page 10: Statistik Lektion 5

• En estimator af en populations parameter er en stikprøve statistik, der bruges til at estimere populations parameteren.

• Et estimat af en parameter er en bestemt numerisk værdi af en stikprøve statistik.

• Et punkt-estimat er en enkelt værdi, der bruges som et estimat for en populations parameter.

• Et interval-estimat er et interval, der bruges som et estimat for en populations parameter.

En populations-parameter er et numerisk mål for en opsummerende karakteristik af populationen.

Estimator og estimat En stikprøve-statistik er et

numerisk mål for en opsummerende karakteristik af stikprøven.

fx x fx

Eksempel: er en estimator for . er et (punkt-) estimat af .

X

x

Page 11: Statistik Lektion 5

Estimatore: Egenskaber

Lad q være en generel populations-parameter, fx m. Lad være en estimator for q, fx.

Vi vil se på tre ønskelige egenskaber for estimatorer Unbiased Konsistent Effektiv

X

Page 12: Statistik Lektion 5

Unbiased estimator Definiton: Hvis en estimator opfylder er den

unbiased . ]ˆ[E

BiasEn unbiased estimator rammer i gennemsnit plet. En biased estimator rammer i

gennemsnit ikke plet.

Page 13: Statistik Lektion 5

Effektiv Estimator Definiton: Antag at og er to unbiased estimatorer.

Hvis Var( ) < Var( ), så siger vi at er en mere effektiv estimator end .

1

En effektiv estimator er i gennemsnit tættere på at ramme plet.

En ineffektiv estimator er i gennemsnit længere fra at ramme plet.

21 2 1

2

Page 14: Statistik Lektion 5

Konsistent En estimator er konsistent hvis sandsynligheden for at

ligge tæt på den parameter, den estimerer, stiger, når størrelsen på stikprøven stiger.

n = 100n = 10

Page 15: Statistik Lektion 5

Konfidensintervaller

Konfidensintervaller generelt

Konfidensintervaller for middelværdi

Page 16: Statistik Lektion 5

Konfidens-intervaller

Et punkt-estimat estimerer værdien af en ukendt populations-parameter ved en enkelt værdi. Fx: Middelhøjden blandt oecon studernde .

Et konfidensinterval er et interval, der estimerer værdien af en ukendt populationsparameter. Kaldes også et intervalestimat. Sammen med intervallet gives et mål for, hvor sikker man er på, at den sande populations parameter ligger i intervallet. Dette mål kaldes for konfidensniveauet.

Et punktestimat indeholder ikke meget information om den faktiske værdi af μ – fx hvor sikkert er vores punkt estimat?

Et intervalestimat indeholder flere informationer, for eksempel: Vi er 95% sikre på, at intervallet [164,8 ; 180,7] indeholde den sande

middelværdi μ. Eller vi er 90% sikre på, at intervallet [166,1 ; 179,3] indeholder den

sande middelværdi μ.

73,172x

Page 17: Statistik Lektion 5

Konfidensinterval for middelværdien - Opvarmning Da gælder følgende:

Dvs. med 95% sandsynlighed ligger (den stokastiske variabel) X i det faste interval .

Det kan omskrives til

Dvs. det stokastiske interval indeholder med 95% sandsynlighed det faste tal m.

95.096.196.1

n

Xn

P

),(~ 2 nNX

95.096.196.1

n

Xn

XP

n 96.1

nX 96.1

Page 18: Statistik Lektion 5

Konfidensinterval for middelværdien - når X er normal-fordelt eller stikprøven er stor Vi har altså

Hvis vi erstatter den estimatoren X (”et tilfældigt tal”) med estimatet x (”et fast tal”) får vi konfidensintervallet:

For en stikprøve der enten er stor eller fra en normal-population er et 95% konfidensinterval for middelværdien m når variansen er kendt

Bemærk at estimatoren er er ersattet med estimatet .x

Xnx

96.1

95.096.196.1

n

Xn

XP

Page 19: Statistik Lektion 5

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Mellemregninger….

95.096,196.1

95.096,196.1

95.096,196.1

95.096,1/

96.1

)(

)1,0(95.0)96,196.1(2

nX

nXP

nX

nP

nX

nP

n

XP

n

σμ,~NX

Z ~NZP

:at gælder Da

hvor ,

0,0250,025

0,025

Page 20: Statistik Lektion 5

Konfidens-interval for middelværdi

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

2.5% falder over intervallet

2.5% falder nedenfor intervallet

95% falder indenfor intervallet

Approksimativt 95% af stikprøve middelværdierne kan forventes at falde indenfor intervallet

Omvendt, cirka 2.5% kan forventes at være under og 2.5% kan forventes at være over . Så 5% kan forventes at være udenfor intervallet. .

196 196. , .n n

196.n

196.n

0,025

0,025

0,025

x

x

xx

x

x

x

Page 21: Statistik Lektion 5

Approksimativt 95% af intervallerne omkring stikprøve middelværdien kan forventes at indeholde den faktiske værdi af populations middelværdien, .

*5% af sådanne intervaller omkring stikprøve middelværdien kan forventes ikke at inkludere den faktiske værdi af populations middelværdien.

nx 96.1

*

*

Konfidens-interval for middelværdi

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

95% falder indenfor intervallet

0,025

0,025

0,025

x

x

xx

x

x

x

96.1x x 96.1x

Page 22: Statistik Lektion 5

Et (1-a )100% konfidens-interval for mVi definerer som den z-værdi, hvor sandsynligheden for at Z er

højere end denne værdi, er . Kaldes også fraktilen eller den

kritiske værdi.

(1-α)100% kaldes konfidens-niveauet.

2

z2

P Z z

P Z z

P z Z z

>æèç

öø÷=

< -æèç

öø÷=

- < <æèç

öø÷= -

a

a

a a a

(1- )a

2

2

2 2

1( )

100% konfidens interval:543210-1-2-3-4-5

0.4

0.3

0.2

0.1

0.0

Z

f(z)

Stand ard Norm al

( )1

2

2

/2a

/2a

fordeling

2

nzx

2

2

z2

z

Page 23: Statistik Lektion 5

Kritiske værdier for z og konfidens-niveauer

Bemærk: 21)( 2 zF

1-a a/2 Za/2

0.99 0.005 2.576

0.98 0.010 2.326

0.95 0.025 1.960

0.90 0.050 1.645

0.80 0.100 1.282

Standard normalfordeling

-3 -2 -1 0 1 2 30.0

0.1

0.2

0.3

0.4

-3 -2 -1 0 1 2 30.0

0.1

0.2

0.3

0.4

2z 2z

22

1

Page 24: Statistik Lektion 5

Eksempel Spørgsmål: Antag (1- ) = 80%.a Find za/2

Løsning: = 0.20a og /2 = 0.10a Vi ved F(za/2) = 1-0.1 = 0.90. Dvs. za/2 = 1.28

Page 25: Statistik Lektion 5

Når man tager stikprøver fra den samme population og bruger den samme

stikprøve størrelse, så jo højere et konfidens-niveau, jo bredere et

konfidens-interval.

543210-1-2-3-4-5

0.4

0.3

0.2

0.1

0.0

Z

f(z)

Stand ard Nor m al Distri buti on

nx

28.1

: for interval konfidens 80%

543210-1-2-3-4-5

0.4

0.3

0.2

0.1

0.0

Zf(

z)

Stand ard Nor m al Distri buti on

nx

96.1

: for interval konfidens 95%

Konfidens niveau og bredden af konfidens-intervallet

Page 26: Statistik Lektion 5

Stikprøvestørrelsen og bredden af konfidens-intervalletNår man tager stikprøver fra den samme population og bruger det

samme konfidensniveau, så jo større stikprøvestørrelse, n, jo

smallere et konfidensinterval.

0 .9

0 .8

0 .7

0 .6

0 .5

0 .4

0 .3

0 .2

0 .1

0 .0

x

f(x)

S am p ling D is trib utio n o f the M e an

95% konfidensinterval: n = 40

0 .4

0 .3

0 .2

0 .1

0 .0

x

f(x)

S am p ling D is trib utio n o f the M e an

95% konfidensinterval: n = 20

Page 27: Statistik Lektion 5

Eksempel på tavlen

Antag n = 25, x = 27.781 kr/md, s = 2500 kr/md. Find et 95% konfidensinterval for m.

Page 28: Statistik Lektion 5

Student’s t fordeling Antag populationen er normalfordelt med middelværdi m

og varians s2. Gammel viden: Hvis vi kender variansen s2, så kan vi

bruge:

Ny viden: Hvis vi ikke kender variansen s2, så kan vi erstatte s2 med stikprøve-variansen s2:

”følger en t-fordeling med n-1 frihedsgrader”.

1,0~ Nn

X

1~

ntns

X

Page 29: Statistik Lektion 5

Student’s t fordeling t fordelingen er klokkeformet

og symmetrisk og defineret ved antal frihedsgrader (df).

Middelværdien er altid lig 0. Variansen af t er større end 1,

men går mod 1, når antallet af frihedsgrader vokser.

Standard normal

t, df=20

t, df=10

t fordelingen er fladere og har ”tykkere haler” en standard normal fordelingen.

t fordelingen går mod standard normal fordelingen nå antallet af frihedsgrader vokser.

Page 30: Statistik Lektion 5

Konfidensinterval for når er ukendt - t-fordelingen Defintion: Et (1-a)100% konfidensinterval for m når s er

ukendt (og man antager en normalfordelt population):

hvor er værdien i t-fordelingen med n-1 frihedsgraders, hvor sandsynligheden for at t er højere end denne værdi, er a.

n

stx

2

2t

a / 2

t /2a

Page 31: Statistik Lektion 5

df t0.100 t0.050 t0.025 t0.010 t0.005

--- ----- ----- ------ ------ ------ 1 3.078 6.314 12.706 31.821 63.657 2 1.886 2.920 4.303 6.965 9.925 3 1.638 2.353 3.182 4.541 5.841 4 1.533 2.132 2.776 3.747 4.604 5 1.476 2.015 2.571 3.365 4.032 6 1.440 1.943 2.447 3.143 3.707 7 1.415 1.895 2.365 2.998 3.499 8 1.397 1.860 2.306 2.896 3.355 9 1.383 1.833 2.262 2.821 3.250 10 1.372 1.812 2.228 2.764 3.169 11 1.363 1.796 2.201 2.718 3.106 12 1.356 1.782 2.179 2.681 3.055 13 1.350 1.771 2.160 2.650 3.012 14 1.345 1.761 2.145 2.624 2.977 15 1.341 1.753 2.131 2.602 2.947 16 1.337 1.746 2.120 2.583 2.921 17 1.333 1.740 2.110 2.567 2.898 18 1.330 1.734 2.101 2.552 2.878 19 1.328 1.729 2.093 2.539 2.861 20 1.325 1.725 2.086 2.528 2.845 21 1.323 1.721 2.080 2.518 2.831 22 1.321 1.717 2.074 2.508 2.819 23 1.319 1.714 2.069 2.500 2.807 24 1.318 1.711 2.064 2.492 2.797 25 1.316 1.708 2.060 2.485 2.787 26 1.315 1.706 2.056 2.479 2.779 27 1.314 1.703 2.052 2.473 2.771 28 1.313 1.701 2.048 2.467 2.763 29 1.311 1.699 2.045 2.462 2.756 30 1.310 1.697 2.042 2.457 2.750 40 1.303 1.684 2.021 2.423 2.704 60 1.296 1.671 2.000 2.390 2.660120 1.289 1.658 1.980 2.358 2.617∞ 1.282 1.645 1.960 2.326 2.576

For store frihedsgrader kan t- fordelingen approksimeres ved en standard normalfordeling.

Tabel for t-fordelingen

a / 2

t /2a

Page 32: Statistik Lektion 5

R Man kan slå t /2a op i R:

Hvis vi vil finde t0.025 når antallet af frihedsgrader er 27:> qt(0.025,df=27,lower.tail=F)[1] 2.051831

Tilføjelsen lower.tail=F er nødvendig, da de 0.025 angiver arealet i øvre hale.

Alternativt kan man bruge

> qt(0.975,27)[1] 2.051831

Page 33: Statistik Lektion 5

En aktieanalytiker vil estimere den gennemsnitlige gevinst på en bestemt aktie. En stikprøve på 15 dage giver en gennemsnitlig gevinst på og en standardafvigelse på s = 3.5%. Antag en normal-population og giv et 95% konfidensinterval for den gennemsnitlige gevinst på denne aktie.

Den kritiske værdi af t for df = (n -1) = (15 -1) = 14 og et højrehalet areal på α/2 = 0.025 er:

Konfidensintervallet er:

t0 025 2.145.

x tsn

0 025

10 37 2.1453515

10 37 1 948 43 12.31

.

..

. .. ,

Eksempel

%37.10x

R-mellemregning:> qt(0.025,df=14,lower.tail=F)

[1] 2.144787

Page 34: Statistik Lektion 5

Konfidensintervaller for Middelværdien i R R har kun en indbygget funktion til at beregne konfidensintervallet

for m under antagelse af ukendt varians: Eksempel: 95% konfidensinterval for højde i Sundby95:

> t.test(data$hoejde)

One Sample t-test

data: data$hoejde t = 918.6152, df = 2626, p-value < 2.2e-16alternative hypothesis: true mean is not equal to

0 95 percent confidence interval: 172.3263 173.0635 sample estimates:mean of x 172.6949

Page 35: Statistik Lektion 5

Konfidensintervaller for Middelværdien i R Man kan også ændre konfidensniveauet, fx et 99% konfidensinterval:

> t.test(data$hoejde,conf.level=0.99)99 percent confidence interval: 172.2103 173.1795

Man kan også ”bare” sætte ind i formlen :

> mean(data$hoejde,na.rm=T) + c(-1,1)*qt(0.995,n-1)*sd(data$hoejde,na.rm=T)/sqrt(n)[1] 172.2103 173.1795

Hvor n er antallet af faktiske observationer af højde:

> n = sum(!is.na(data$hoejde))

n

stx 2