-
Kapitel 7
Områdeestimation
Lad (νθ)θ∈Θ være en parametriseret statistisk model på (X,E). I
kapitel 4 defineredevi såkaldte punktestimatorer af parameteren θ.
Disse estimatorer fungerer sådan atvi på baggrund af en observation
x ∈ X gætter på en helt bestemt parameterværdiθ = t(x) som vores
bud på den sande parameter.
En mere forsigtig tilgang kunne være at gætte på en større
mængde af mulige para-metre, hvori vi regner med at finde den sande
parameter. Det fører til definitionen afen områdeestimator, som er
en afbildning
C : X → P(Θ).
Til hvert punkt x ∈ X knytter vi altså en delmængde C(x) ⊂ Θ.
Principielt er detlovligt at C(x) = ∅ for visse x. Det betyder at
man for sådanne observationer ikke hartiltro til nogen parameter
overhovedet - hvis man gør en observation af den karakter,fører det
naturligt til at man kasserer modellen.
Hvis vi udfører forsøget med resultat x ∈ X, så kan vi finde det
tilhørende område-estimat C(x). Udfører vi forsøget en gang til,
får vi en anden observation x′ ∈ X ogdermed et andet områdeestimat
C(x′). Vi ser at områdeestimatet er stokastisk, det eren
transformation af den gjorte observation. For at understrege dette
synspunkt kanvi skrive C(X). Der er dog ikke tale om nogen
stokastisk variabel i sædvanlig for-stand: C(X) har værdier i en
mængde P(Θ) af mængder, og sådan et rum har ikkeumiddelbart nogen
σ-algebra.
201
-
202 Kapitel 7. Områdeestimation
7.1 Konfidensområder
Lad som før (νθ)θ∈Θ være en statistisk model på (X,E), og lad
C(X) være en områ-deestimator for θ. Når man udfører eksperimentet
et antal gange, må man forventeat C(X) vil indeholde den sande
parameter i visse tilfælde og ikke i andre. Jo oftereC(X)
indeholder den sande parameter, jo bedre er områdeestimatoren.
Funktionen
θ 7→ Pθ(θ ∈ C(X)) (7.1)
kaldes områdeestimatorens dækningsgrad. Vi siger at
områdeestimatoren C er et(1 − α)-konfidensområde (eller
sikkerhedsområde) hvis dækningsgraden systema-tisk er større end 1
− α, altså hvis
Pθ(θ ∈ C(X)) ≥ 1 − α for alle θ ∈ Θ. (7.2)
Hvis man skal sammenligne forskellige (1−α)-konfidensområder,
vil man som regelforetrække dem for hvilke der gælder lighedstegn i
(7.2) for alle θ ∈ Θ, eller i hvertfald for så mange θ som muligt.
Ikke fordi det er dårligt med et ulighedstegn, tværti-mod, men
fordi man i så fald kommer til at undervurdere den faktiske
dækningsgrad,når man kun hæfter sig ved den nedre grænse 1 − α.
Det er meget vigtigt at (7.2) læses rigtigt. Hvis α = 0.05 er
påstanden, at der påforhånd er 95% sandsynlighed for at observere
et konfidensområde der indeholderden sande parameter. Eller: hvis
man udfører forsøget mange gange, vil den sandeparameter ligge i
det observerede konfidensområde i 95% af tilfældene. Påstanden
erderimod ikke at man efter at have observeret x ∈ X kan sige at
der er 95% sandsyn-lighed for at C(x) indeholder den sande
parameter.
Der er udkæmpet akademiske krige om disse formuleringer, og det
er vigtigt at forståforskellen: hvis man har gjort en observation
x, så er C(x) entydigt og deterministiskbestemt. Måske er det sande
θ med i C(x) og måske er det ikke med - vi kender ikkesvaret, men
spørgsmålet er ikke af statistisk natur, det er 100%
deterministisk. Detgiver ikke mening at komme med
sandsynlighedsudsagn om det.
I hvert fald ikke hvis man er frekventist. Indenfor det
Bayesianske paradigme ud-trykker sandsynligheder ikke frekvenser,
men subjektiv tiltro til forskellige udsagn.For en Bayesianer giver
det god mening at hævde at der er 95% sandsynlighed for atdet sande
θ ligger i C(x). Det betyder at han har en relativt høj tiltro til
at den sandeparameter ligger inde i det område han har beregnet.
Han vil i øvrigt kalde området
-
7.1. Konfidensområder 203
et kredibilitetsområde fremfor et konfidensområde, men den
definerende egenskaber i begge tilfælde (7.2). Frekventisten, på
den anden side, tror ingenting, han påståri stedet. Og han har en
procedure der sikrer at han i de fleste tilfælde har ret i
sinpåståelighed.
Forskellene i hvad man kan sige og ikke sige om konfidensområder
udgør et af demest iøjnefaldende skel mellem frekventistisk og
Bayesiansk statistik, og i populærefremstillinger betragtes det
nogen gange som den eneste forskel (hvad der er helt mis-forstået -
forskellene stikker langt dybere, og berører alt hvad man siger).
De flesteikke-statistikere har det nemmest med Bayesianske
konfidensområder! Det frekven-tistiske rap over fingrene, der
uddeles til folk der siger at det observerede område-estimat C(x)
har “95% sandsynlighed” for at indeholde den sande parameter,
virkernærmest intolerant på mange.
Da Neyman og Pearson indførte de abstrakte konfidensområder
omkring 1930, varmålet for så vidt ikke at ramme den sande
parameter særligt præcist. Deres argumentvar at uanset hvor smalt
eller bredt vi vælger et områdeestimat, så vil vi aldrig fåat vide
om den sande parameter i et konkret tilfælde ligger i området eller
ej. Virisikerer altid at tage fejl. Så deres mål var at opstille en
regel for hvordan man skulleopføre sig, en regel der skulle sikre
at man dummer sig så lidt som overhovedetmuligt. Hvis en
statistiker igennem et langt liv opstiller 95% konfidensområder i
hverteneste estimationsproblem han kommer ud i, og derefter
gebærder sig som om densande parameter ligger i hans
konfidensområde, så vil han kun i hvert 20. eksperimentkomme til at
gå planken ud med en fejlagtig påstand.
Mange andre statistikere, i særdeleshed Fisher, havde intet til
overs for denne ide,der ikke fokuserer på den underliggende
videnskabelige problemstilling, men på sta-tistikerens renommé. Som
vi skal se i afsnit 7.2 er det imidlertid muligt at
knyttepunktestimation og områdeestimation sammen på en måde så
områdeestimatet bely-ser punktestimatets præcision. Brugt på den
måde er konfidensområder ikke kontro-versielle, de er tværtimod
hjørnestenen i al praktisk statistik.
Når man skal finde konfidensmængder, skal man altså finde de
parametre som mereeller mindre passer med en given observation. Det
springer i øjnene at det er den dualeproblemstilling til at finde
konkordansmængder, hvor man jo søger de observationerder passer til
en givet parameter. Denne intuitive dualitet kan formaliseres:
-
204 Kapitel 7. Områdeestimation
Sætning 7.1 Lad (νθ)θ∈Θ være en parametriseret statistisk model
på (X,E). Hvis vifor hvert θ ∈ Θ har et konkordansområde A(θ) for
νθ på niveau α, så er områdeesti-matoren C : X → P(Θ), givet
ved
C(x) := {θ ∈ Θ | x ∈ A(θ)} , (7.3)
et (1 − α)-konfidensområde.
B: Der gælder oplagt at
θ ∈ C(x)⇔ x ∈ A(θ).
Og dermed har vi for alle θ ∈ Θ at
Pθ(θ ∈ C(X)) = Pθ(X ∈ A(θ)) = 1 − α,
præcis som ønsket.�
Vi vil ofte bruge en lidt mere generel konstruktion, hvor vi
tager udgangspunkt i enkombinant R : Θ×X → Y. For hvert θ ∈ Θ ser
vi på den stokastiske variabel R(θ, X),der har værdier i Y. Vi
finder fordelingen af denne stokastiske variabel, under anta-gelse
af at θ er den sande parameter, og konstruerer derudfra et
konkordansområdeA(θ) i Y på niveau 1 − α. Det tilsvarende
konfidensområde er
C(x) = {θ ∈ Θ | R(θ, x) ∈ A(θ)} .
Samme argumentation som i sætning 7.1 fører til at den
konstruerede områdeestima-tor har en dækningsgrad på 1 − α.
Teknikken bliver specielt simpel hvis man tager udgangspunkt i
en pivot, altså enkombinant R : Θ × X → Y sådan at fordelingen af
R(θ, X) under Pθ ikke varierermed θ. I så fald vælger man en mængde
B ⊂ Y så
Pθ(R(θ, X) ∈ B) = 1 − α.
Hvilket θ der bruges her spiller ingen rolle på grund af
pivotegenskaben. Da er
C(x) = {θ ∈ Θ | R(θ, x) ∈ B}
et 1 − α konfidensområde for θ.
-
7.1. Konfidensområder 205
Den typiske kombinant R : Θ×X → Y er selvfølgelig ikke en pivot.
Men hvisY = Rkan man ofte modificere R til en ny kombinant R′, der
er en pivot. Mere præcist: LadFθ være fordelingsfunktionen for R(θ,
X) under Pθ. Da er
R′(θ, x) = Fθ(
R(θ, x))
en ny kombinant, der er meget tæt beslægtet med den gamle. Hvis
Fθ er kontinuert,så er det et standardresultat at R′(θ, X) under Pθ
er ligefordelt på (0, 1). Og dermed erR′ faktisk en pivot.
Bortset fra ordvalget, er der ikke meget nyt i disse
pivotkonstruktioner. I kapitel 1blev alle konkordansområder
konstrueret på baggrund af transformationer X → R.Sådan går vi
stadig frem, blot tillader vi at transformationen varierer fra θ
til θ. Pivot-betingelsen er, som vi lige har set, en mindre vigtig
teknisk detalje.
Eksempel 7.2 Lad os betragte den simple
eksponentialfordelingsmodel, hvor vi haruafhængige reelle
stokastiske variable X1, . . . , Xn der hver især er
eksponentialfordeltmed en ukendt parameter λ > 0. Vi ønsker at
fremstille et 95% konfidensområde forλ. For at kunne gøre
regningerne konkrete antager vi at n = 10, og benytter data
fraeksempel 3.1.
Vi baserer først konstruktionen på kombinanten
R1(λ, x1, . . . , xn) =1λ n
n∑
i=1
xi =x•λ.
Hvis λ er den sande parameter, så er X• en Γ-fordelt variabel
med formparametern og skalaparameter λ, og derfor er R1(λ, X1, . .
. , Xn) en pivot: den er Γ-fordelt medformparameter n og
skalaparameter 1/n. Lad os undtagelsesvist bruge et centralt
kon-kordansområde for den pågældende Γ-fordeling, vi vælger det
symmetriske område.Vi finder derfor 2.5% og 97.5% fraktilen for
Γ-fordelingen med n = 10 frihedsgra-der og skalaparameter 0.1,
nemlig 0.4795 og 1.7085. Da bliver konkordansområdetsvarende til
parameter λ
A1(λ) ={
(x1, . . . , x10) | 0.4795 <x•λ< 1.7085
}
.
Konfidensområdet svarende til en observation (x1, . . . , x10)
fås da ved at løse ulighe-den
0.4795 <x•λ< 1.7085
-
206 Kapitel 7. Områdeestimation
med hensyn til λ. Vi får altså
C1(x1, . . . , x10) =
(
x•1.7085
,x•
0.4795
)
= (0.59 x•, 2.09 x•) .
Med data fra eksempel 3.1 får vi x• = 0.3964 og dermed
konfidensområdet
C1 = (0.232, 0.827).
Bemærk at den gennemsnitlige længde af dette konfidensområde
er
Eλ|C1(X1, . . . , X10)| =(
10.4795
− 11.7085
)
EλX• = 1.500λ.
Man kunne også basere konstruktionen på et venstrestillet
konkordansområde forΓ-fordelingen, hvilket falder bedre i tråd med
hvordan man plejer at behandle Γ-fordelinger. Vi finder 95%
fraktilen for Γ-fordelingen med formparameter 10 og ska-laparameter
0.1, nemlig 1.5705. Dermed bliver konkordansområdet
A2(λ) ={
(x1, . . . , x10) | 0 <x•λ< 1.5705
}
,
og ved at vende konstruktionen om, fås konfidensområdet
C2(x1, . . . , xn) =
(
x•1.5705
,∞)
= (0.64 x•,∞).
Med data fra eksempel 3.1 får vi x• = 0.3964 og dermed
konfidensområdet
C2 = (0.252,∞).
De to konstruerede konfidensområder er nogenlunde enige
nedadtil. Men det er ke-deligt at C2 er ubegrænset opadtil. Det er
en fare ved etsidede konkordansområder atde nogle gange leder til
sådanne ubehageligheder.
Vi kunne starte forfra, og basere konstruktionen på
kombinanten
R3(λ, x1, . . . , xn) =nλ
x(1) =nλ
min(x1, . . . , xn).
Hvis λ er den sande parameter, er X(1) eksponentialfordelt med
parameter λ/n, ogdermed er R3(λ, X1, . . . , Xn)
eksponentialfordelt med parameter 1, altså en pivot. Vi
-
7.1. Konfidensområder 207
finder 2.5% og 97.5% fraktilen for en standard
eksponentialfordeling til 0.025 hhv.3.689, og dermed er et
symmetrisk konkordansområde
A3(λ) ={
(x1, . . . , x10) | 0.025 <10 x(1)λ
< 3.689
}
.
Konfidensområdet findes ved at løse
0.025 <10λ
x(1) < 3.689
med hensyn til λ, hvilket giver området
C3(x1, . . . , x10) =( x(1)0.3689
,x(1)
0.0025
)
.
Med data fra eksempel 3.1 får vi x(1) = 0.037 og dermed
konfidensområdet
C3 = (0.100, 14.8).
Bemærk at den gennemsnitlige længde af dette konfidensområde
er
Eλ|C3(X1, . . . , X10)| =(
10.025
− 13.689
)
Eλn X(1) = 39.73λ.
Der er dramatisk forskel på kvaliteten af C1 og C3. Uanset det
sande λ, vil C3 typiskvære faktor 25 længere end C1! Det er således
næsten tilfældet for de konkrete data.De to intervaller har samme
dækningsgrad, så de vil lige ofte indeholde den sandeparameter. Men
de er ikke lige gode til at udelukke en “falsk” parameter λ1. Vi
serat C3 har uhyre svært ved at udelukke et λ1 af samme
størrelsesorden som den sandeparameter. Mens C1 vil kunne udelukke
λ1, medmindre den ligger meget tæt på densande parameter.
◦
Eksempel 7.3 Betragt den simple normalfordelingsmodel, hvor X1,
. . . , Xn er uaf-hængige reelle stokastiske variable, der hver
især er N(ξ, σ2)-fordelt med ukendtmiddelværdi og varians. Vi
ønsker at fremstille et 95% konfidensområde for parame-teren (ξ,
σ2). Vi vil basere konstruktionen på kombinanten
R(ξ, σ2; x1, . . . , xn) =√
nx• − ξ√σ2
.
-
208 Kapitel 7. Områdeestimation
Hvis (ξ, σ2) er de sande parametre, så er X• en N(ξ,
σ2/n)-fordelt variabel, og der-med er R standard normalfordelt.
Idet 2.5% og 97.5% fraktilen for en standard nor-malfordeling er
-1.96, hhv. 1.96, ser vi at et 95% konkordansområde for R er
A(ξ, σ2) ={
(x1, . . . , xn) | −1.96 <√
nx• − ξ√σ2
< 1.96
}
.
Vi finder det tilsvarende konfidensområde som
C(x1, . . . , xn) = {(ξ, σ2) ∈ R × (0,∞) | −1.96√
σ2
n< x• − ξ < 1.96
√
σ2
n}.
Hvis vi snitter C(x1, . . . , xn) med et fast σ2, får vi
intervallet
x• − 1.96√
σ2
n, x• + 1.96
√
σ2
n
.
Det fulde område i parameterplanen er tegnet op i figur 7.1. Det
er ikke et særligt til-fredsstillende konfidensområde, på baggrund
af figuren er vi ikke i stand til at kommemed meningsfulde udsagn,
hverken om middelværdien eller om variansen. Problemeter
naturligvis at den kombinant vi baserer konstruktionen på, ikke er
særligt hensigts-mæssig. Den forsøger at måle hvor godt data passer
med middelværdiparameteren,uden at tage hensyn til hvor godt data
passer med variansparameteren. Problemeter langt hen ad vejen det
samme som i eksempel 4.12, hvor minimering af en kva-dratsum ikke
tillod os at sige noget om variansparameteren.
◦
For diskrete fordelinger opstår der som sædvanlig problemer med
at de ønskede lig-ninger ikke kan løses eksakt. Man søger da
konkordansområder A(θ) der er så småsom muligt, samtidig med at de
opfylder
Pθ(X ∈ A(θ)) ≥ 1 − α for alle θ ∈ Θ.
Vi konstruerer igen konfidensområderne
C(x) = {θ ∈ Θ | (θ, x) ∈ A}
og vi ser at de opfylder
Pθ(θ ∈ C(X)) = Pθ(X ∈ A(θ)) ≥ 1 − α for alle θ ∈ Θ.
Det er næsten aldrig muligt at finde sådanne konfidensområder
for diskrete fordelin-ger eksplicit, det må gøres numerisk. Bemærk
endvidere at man sjældent kan findepivoter.
-
7.1. Konfidensområder 209
−4 −2 0 2 4
05
1015
2025
30
PSfrag replacements
ξ
σ2
Figur 7.1: Konfidensområder for den simple normalfordelingsmodel
med n = 10 på bag-grund af en observation med x• = 1.
Eksempel 7.4 Lad os betragte møntkast-modellen, hvor vi har
uafhængige reellestokastiske variable X1, . . . , Xn med
P(Xi = 1) = p, P(Xi = 0) = 1 − p for i = 1, . . . , n,
hvor p er en ukendt parameter. Vi ønsker at konstruere et 95%
konfidensområde forp.
Vi baserer konstruktionen på transformationen
s(x1, . . . , xn) = x• =n
∑
i=1
xi.
Hvis p er den sande parameter, er X• binomialfordelt med
parametre (n, p). Vi kannumerisk lokalisere et symmetrisk
konkordansområde A(p) for denne fordeling. Vifinder altså a(p) ∈
{0, 1, . . . , n} så
Pp(X• < a(p)) < 0.025, Pp(X• ≤ a(p)) ≥ 0.025.
Tilsvarende finder vi b(p) ∈ {0, 1, . . . , n} så
Pp(X• < b(p)) < 0.975, Pp(X• ≤ b(p)) ≥ 0.975.
-
210 Kapitel 7. Områdeestimation
p
s
0.0 0.2 0.4 0.6 0.8 1.0
05
1015
2025
p
Dæ
knin
gsgr
ad
0.0 0.2 0.4 0.6 0.8 1.0
0.90
0.92
0.94
0.96
0.98
1.00
Figur 7.2: Konfidensområder for binomialfordelingsmodellen med
længde 25. Området sva-rende til en observation s er det vandrette
stykke i højde s på tegningen til venstre. Højretegning viser den
faktiske dækningsgrad af disse intervalestimater. Bemærk at de
lodrettestreger i den højre tegning repræsenterer diskontinuiteter,
der opstår efterhånden som punkterglider ind i og ud afA(p).
Konkordansområdet er da
A(p) = {a(p), a(p) + 1, . . . , b(p)}
og konfidensområdet svarende til observationen X• = s bliver
C(s) = {p ∈ (0, 1) | a(p) ≤ s ≤ b(p)}.
Disse områder er for n = 25 optegnet i figur 7.2. På
nabotegningen vises den faktiskedækningsgrad. Vi ser at den
varierer en del med p, men at den holder sig over dennominelle
værdi på 95%.
◦
Eksempel 7.5 Den naturlige model for fødselsdata fra eksempel
1.1, når vi ikke påforhånd lægger os fast på at der fødes lige
mange drenge og piger, er at antallet afdrenge er binomialfordelt
med længde 66.170 og ukendt sandsynlighedsparameterp ∈ (0, 1). Den
naturlige estimator gennemsnitsestimator p̂ bliver i dette
tilfælde
p̂ =34.05566.170
= 0.515.
Det forekommer overraskende nok ikke at være så frygteligt langt
fra værdien 0.5,som vi i eksempel 1.1 blankt afviste skulle passe
med data. Men vi kan belyse hvorpræcist estimatet er, ved at
anvende metoden fra eksempel 7.2.
-
7.2. Estimatorer og konfidensområder 211
Når man konstruerer et symmetrisk 95% konkordansområde A(p) for
hvert p ∈ (0, 1)så viser det sig at 34.055 er indeholdt iA(p) hvis
og kun hvis
p ∈ (0.511, 0.518).
Altså er dette interval vores konfidensområde. Vi konstaterer at
dette interval er gan-ske snævert - de mange observationer gør at
det sande p er bestemt ret præcist. Vikonstaterer også at
intervallet ikke indeholder 0.5. En mere kuriøs detalje er at
inter-vallet ikke er helt symmetrisk omkring p̂.
◦
7.2 Estimatorer og konfidensområder
Lad (νθ)θ∈Θ være en statistisk model på (X,E). De
konfidensområder, vi har fundetindtil nu, har næsten alle haft
samme karakter. Vi har som udgangspunkt taget en esti-mator t : X →
Θ af parameteren, og undersøgt fordelingen af t(X) under Pθ.
Dennefordeling har typisk (og forhåbentlig) været voldsomt
θ-afhængig, men det har væretmuligt at fjerne θ-afhængigheden ved
eksplicit manipulation. Vi har altså fundet enafbildning h : Θ × Θ→
Y for en passende mængde Y, sådan at kombinanten
R(θ, x) = h(θ, t(x)) (7.4)
er en pivot. Når vi konstruerer et konfidensområde for θ på
baggrund af denne pivot,kan resultatet fortolkes som et udsagn om
vores tillid til estimatoren t.
Hidtil har vi formuleret sådanne tillidsudsagn i termer af
fordelingen af t(X) underdet sande Pθ. Men i ægte statistiske
situationer kender vi jo ikke det sande θ, ogderfor kender vi
faktisk ikke den fordeling vi bør interessere os for. Et
konfidensom-råde baseret på en pivot af formen (7.4) kræver derimod
ikke kendskab til den sandeparameter, den er et tillidsudsagn om
t(x) udelukkende baseret på observationen x.
I praktiske statistiske modeller er man uheldigvis sjældent i
stand til eksplicit at an-give fordelingen af en estimator, og man
er slet ikke i stand til at manipulere parame-terafhængigheden væk
eksakt. Så det ligger tilsyneladende langt uden for mulighe-dernes
grænse at præstere en pivot af formen (7.4).
Men hvis man stiller sig tilfreds med approksimative
konfidensintervaller, kanasymptotisk teori ofte redde en ud af
suppedasen. Lad os et øjeblik antage at Θ = R.
-
212 Kapitel 7. Områdeestimation
Vi har i mange situationer at
t ◦ X ≈ N(
θ, σ2(θ))
under Pθ, (7.5)
for en passende variansfunktion σ2(θ). Hvis t er
maksimaliseringsestimatoren, erσ2(θ) forbundet med den inverse
information, for andre typer estimatorer ser manat (7.5) er opfyldt
med andre variansfunktioner. Udfra (7.5) får vi at
t ◦ X − θ√
σ2(θ)≈ N(0, 1) under Pθ.
Med andre ord:
(θ, x) 7→ t(x) − θ√σ2(θ)
(7.6)
er en approksimativ pivot, og vi kender oven i købet den fælles
fordeling. Et oplagtbud på et 95% konfidensområde er derfor
C1(x) =
θ ∈ R | −1.96 < t(x) − θ√σ2(θ)
< 1.96
. (7.7)
Præcis hvilken kvalitet dette “konfidensområde” har, afhænger af
hvordan (7.5) skalforstås. Men hvis der er tale om en asymptotisk
normalfordeling som i definition 5.9,så vil den tilsvarende følge
af C1-områder have en dækningsgrad der konvergerermod 95%.
Hvis σ2(θ) er en kompliceret funktion af θ, kan det være meget
vanskeligt at løsede nødvendige uligheder i (7.7). Man gør derfor
nogle gange den antagelse at σ2(θ)sikkert er nogenlunde konstant,
og at (7.6) derfor kan erstattes af
(θ, x) 7→ t(x) − θ√σ2(t(x))
. (7.8)
Hvis det står til troende at denne størrelse er approksimativt
N(0, 1)-fordelt, så kanman konstruere områdeestimatet
C2(x) =
θ ∈ R | −1.96 < t(x) − θ√σ2(t(x))
< 1.96
.
Her er det banalt at løse de nødvendige uligheder, og man finder
at
C2(x) =(
t(x) − 1.96√
σ2(t(x)), t(x) + 1.96√
σ2(t(x)))
. (7.9)
-
7.2. Estimatorer og konfidensområder 213
Overgangen fra (7.7) til (7.8) er ikke uskyldig. Den fungerer
kun, hvis σ2(θ) er es-sentielt konstant. I visse modeller, hvor den
forventede information varierer vold-somt med parameteren, kan
området (7.9), baseret på maksimaliseringsestimatorensasymptotiske
fordeling, således have en faktisk dækningsgrad langt fra de
nominelle95% - og dækningsgraden kan udmærket blive værre og værre,
jo flere observationerman gør! Ikke desto mindre anvendes (7.9)
rutinemæssigt. For eksempel vil de konfi-densintervaller som mange
statistiske computerpakker producerer, ofte være baseretpå en
variant af (7.9).
I praksis erstatter man ofte den approksimative pivot (7.6) med
dens kvadrat
(θ, x) 7→ (t(x) − θ)2
σ2(θ),
der er approksimativt χ2-fordelt med 1 frihedsgrad, og hvor
store værdier er udtrykfor diskordans. I så fald bliver
C1(x) ={
θ | (t(x) − θ)2 ≤ 3.84 σ2(θ)}
, (7.10)
hvilket ved et nøjere eftersyn viser sig at være identisk med
(7.7). Grunden til atvi foretrækker (7.10), er at denne formel
lader sig generalisere til flerdimensionaleparametre.
Eksempel 7.6 Vi betragter igen den simple
eksponentialfordelingsmodel, med uaf-hængige reelle stokastiske
variable X1, . . . , Xn, der alle er eksponentialfordelt medukendt
parameter λ > 0. Vi har i eksempel 5.12 konstateret at hvis
t(x) = x• =1n
n∑
i=1
xi
så er
t ◦ X ≈ N(
λ,λ2
n
)
.
Baserer man regningerne på den approksimative pivot
(λ, x1, . . . , xn) 7→(x• − λ)2λ2/n
kan man som en eksercits i andengradsligninger finde området
{
λ | (x• − λ)2
λ2/n< 3.84
}
=
x•1 + 1.96√
n
,x•
1 − 1.96√n
.
-
214 Kapitel 7. Områdeestimation
Med data fra eksempel 3.1 fås intervallet
(0.245, 1.043) (7.11)
hvilket er en anelse større (hvilket er dårligt!) end det bedste
af de eksakte konfi-densområder, der blev fundet i eksempel 7.2.
Men denne områdeestimators faktiskeegenskaber er ikke så dårlige,
man kan regne sig frem til at for n = 10 er den
faktiskedækningsgrad 95.5%, i fin overensstemmelse med de nominelle
95%.
Hvis vi i stedet benytter den ekstra approksimation der fører
til kombinanten
(λ, x1, . . . , xn) 7→(x• − λ)2
x•2/n
får man uden videre det approksimative konfidensområde{
λ | (x• − λ)2
x•2/n< 3.84
}
=
(
x• − 1.96x•√
n, x• + 1.96
x•√n
)
.
Med data fra eksempel 3.1 fås(0.151, 0.642) (7.12)
hvilket ligger dramatisk skævt placeret i forhold til (7.11).
Man kan regne ud at deapproksimationer der har ledt frem til (7.12)
er så grove at denne områdeestimatorfor n = 10 i virkeligheden kun
har en dækningsgrad på 90% - hvilket er længerevæk fra den
nominelle dækningsgrad på 95% end godt er. Når det går så galt,
hardet naturligvis at gøre med at antallet af observationer i dette
eksempel er meget lavt.Hvis n = 200 er områdeestimatorens faktiske
dækningsgrad 94.7%.
◦
Hvis vi vender os mod flerdimensionale modeller, hvor Θ ⊂ Rk,
kan man gennemføreen analog argumentation, baseret på en estimator
t : X → Θ, hvis
t ◦ X ≈ N (θ,Σ(θ)) under Pθ,
hvor Σ(θ) er en passende symmetrisk, positivt definit
matrixfunktion. Da er
(t ◦ X − θ)T Σ(θ)−1 (t ◦ X − θ) (7.13)
approksimativt χ2-fordelt med k frihedsgrader, og således stort
set en pivot. Argu-menteres som tidligere, fører det til
konfidensområdet
C1(x) ={
θ | (t(x) − θ)T Σ(θ)−1 (t(x) − θ) < zk}
, (7.14)
-
7.3. MLE og konfidensområder 215
hvor zk er 95% fraktilen for χ2-fordelingen med k frihedsgrader.
Gentages springetfra (7.7) til (7.8) fås
C2(x) ={
θ | (t(x) − θ)T Σ(t(x))−1 (t(x) − θ) < zk}
, (7.15)
Som en eksercits i lineær algebra kan man vise, at C2(x) er en
k-dimensional ellip-soide med centrum i t(x), og med akser der
typisk ligger skævt i forhold til koordina-takserne. Den faktiske
dækningsgrad af C2(x) er tvivlsom - men for en flerdimensio-nal
mængde at være, er området relativt nemt at finde og beskrive.
7.3 MLE og konfidensområder
For en domineret model måler kvotientteststørrelsen
Q(θ, x) =Lx(θ)
supϑ∈Θ Lx(ϑ),
på oplagt vis parameteren θ op mod maksimaliseringsestimatoren,
og det er derfornaturligt at lade kvotientteststørrelsen danne
baggrund for en kvalitetsvurdering afmaksimaliseringsestimatoren.
Kvotientteststørrelsen er sjældent pivot, men i princip-pet kan man
finde konkordansområder af formen
A(θ) = {x ∈ X | Q(θ, x) > zθ} ,
hvor zθ’erne vælges så de giver de rigtige dækningsgrader,
hvorefter man venderkonstruktionen om og finder
konfidensområdet
C(x) = {θ ∈ Θ | Q(θ, x) > zθ} . (7.16)
Eksempel 7.7 Lad os betragte den simple
eksponentialfordelingsmodel, hvor vi haruafhængige reelle
stokastiske variable X1, . . . , Xn der hver især er
eksponentialfordeltmed en ukendt middelværdi λ > 0. Vi har
tidligere fundet loglikelihoodfunktionen
`X1,...,Xn(λ) = n log λ +X•λ
der minimeres af
λ̂ =X•n.
-
216 Kapitel 7. Områdeestimation
Vi ser at
`X1,...,Xn(λ̂) = n logX•n+ n.
Dermed er
−2 log Q(λ, X1, . . . , Xn) = 2(
n log λ +X•λ− n log X•
n− n
)
.
Denne størrelse har ikke nogen kendt fordeling. Principielt kan
vi for hvert λ - eller ihvert fald for passende mange λ’er - finde
et wλ, der løser
Pλ(−2 log Q(λ, X1, . . . , Xn) < wλ) = 0.95 ,
ved at simulere f.eks. 1000 gentagelser af eksperimentet med λ
som den sande para-meter, udregne −2 log Q i hvert tilfælde, ordne
disse −2 log Q-værdier, og udtage detværdi nr. 950 - altså
95%-fraktilen i den empiriske fordeling af −2 log Q-værdier.
−2 log Q
0 2 4 6 8 10
0.0
0.2
0.4
0.6
Figur 7.3: Simulation af −2 log Q i en model med n = 10
uafhængige, eksponentialfordeltevariable. Forsøget er gennemført,
hvor variablene havde middelværdi 1, men andre middel-værdier havde
ført til præcis samme fordeling. Forsøget er gentaget 10000 gange.
Den lod-rette streg er placeret i 95%-fraktilen for den empiriske
fordeling, nemlig 3.90. Man må for-vente at denne afskæringsværdi
varierer en del med n - det gør den ikke i praksis, men detkan man
ikke vide, før forsøget er gennemført.
Det er nemt nok at skrive det relevante computerprogram, men
køretiden vil være be-tydelig, fordi simulationerne principielt
skal gentages for hvert λ for sig. Men et lille
-
7.3. MLE og konfidensområder 217
mirakel åbenbares: −2 log Q er faktisk en pivot i dette
eksempel. En lille omskrivningviser at
−2 log Q(λ, X1, . . . , Xn) = 2(
n log n − n + X•λ− n log X•
λ
)
.
Det vil sige at −2 log Q er en transformation af X•λ
. Eftersom transformationen hver-ken involverer observation
eller parametre, og eftersom X•
λer pivot, bliver −2 log Q
også pivot. Og det betyder at man kun behøver at gennemføre
simulationseksperi-mentet for et enkelt λ - man vil få samme
afskæringsværdi for de øvrige λ’er.
0.5 1.0 1.5 2.0
510
15
PSfrag replacements
λ
`(λ
)
Figur 7.4: Et eksakt 95% konfidensområde for skalaparameteren λ
i modellen for uafhæn-gige, identisk fordelte eksponentialfordelte
variable. Tegningen viser loglikelihoodfunktio-nen for λ, baseret
på n = 10 og X• = 3.964. De to vandrette streger er afsat i
henholdvisminimum og minimum plus z/2, hvor z = 3.90 er
95%-fraktilen i den empiriske fordeling af−2 log Q-værdier, fundet
i figur 7.3.
På figur 7.3 har vi optegnet resultaterne af et sådant
simulationseksperiment, i ensituation hvor n = 10. Simulationerne
er gennemført med λ = 1, men andre λ-værdier ville naturligvis give
anledning til samme fordeling af −2 log Q. Vi finder atden
empiriske 95%-fraktil er 3.90. Sættes det ind i (7.16) fås
C(X1, . . . , X10) ={
λ | 2(
10 log 10 − 10 + X•λ− 10 log X•
λ
)
< 3.90}
De konkrete data fra eksempel 3.1, med n = 10 og X• = 3.964,
fører via den grafiske
-
218 Kapitel 7. Områdeestimation
konstruktion i figur 7.4 til området
(0.225, 0.795) .
◦
Det lille mirakel i eksempel 7.7, hvor kvotientteststørrelsen
viste sig at være pivot,indtræffer desværre næsten aldrig. I de
fleste modeller vil en figur, der svarer til fi-gur 7.4, få et et
udseende som skitseret i figur 7.5. Afskæringskurven må findes
vedsimulationseksperimenter for hver parameter for sig.
PSfrag replacements
λ
`(λ
)
Figur 7.5: En skematisk konstruktion af et eksakt 95%
konfidensområde baseret på kvotient-teststørrelsen, i en model hvor
denne størrelse ikke er pivot. Den bølgede afskæringskurve erafsat
som minimum plus zλ/2, hvor zλ er 95%-fraktilen i fordelingen af −2
log Q under Pλ.Tegningen er ikke retvisende, i praksis er
afskæringskurven næsten flad for de fleste modeller.
Det er næppe muligt at følge dette program i praksis, i hvert
fald ikke hvis para-meteren er flerdimensional. Hvert
simulationseksperiment vil jo tage tid, og for hvisparameteren er
højdimensional, skal der gennemføres rigtig mange
simulationseks-perimenter. Problemet er at antallet af punkter i et
ikke alt for groft gitter i Rk eksplo-derer med k - dette fænomen
kaldes gerne curse of dimensionality.
Til alt held er figur 7.5 misvisende. Den faktiske
afskæringskurve vil ikke være bøl-get, den vil stort set være flad.
For −2 log Q er ofte approksimativt χ2-fordelt, se
-
7.3. MLE og konfidensområder 219
f.eks. sætning 5.22. Hvis parametermængden Θ er en åben
delmængde af Rk, er detderfor ofte rimeligt at bruge et
konfidensområde af formen
C(x) = {θ ∈ Θ | −2 log Q(θ, x) < zk} ,
eller som man oftest skriver i praksis,
C(X) ={
θ ∈ Θ | `x(θ) < `x(θ̂) +zk2
}
,
hvor zk er 95% fraktilen for χ2-fordelingen med k frihedsgrader.
Den præcise begrun-delse for at bruge dette område som
konfidensområde må søges i asymptotisk teori,men f.eks. under
betingelserne fra sætning 5.21, vil den faktiske dækningsgrad
afområdet konvergere mod 95%, når antallet af observationer går mod
uendeligt.
En lidt anden måde at bruge den asymptotiske teori på, er at
udnytte at Cramérssætning eller en af dens generaliseringer giver
os anledning til at tro at maksimalise-ringsestimatoren θ̂ er
veldefineret for “de fleste” potentielle observationer, og at
θ̂ ≈ N(
θ, i(θ)−1)
. (7.17)
Argumenterne i afsnit 7.2 leder os til at betragte
størrelsen
(
θ̂ − θ)T
i(θ)(
θ̂ − θ)
,
der kaldes Walds teststørrelse. Under Pθ er denne størrelse
approksimativt χ2-fordelt med k frihedsgrader hvor k er dimensionen
af parametermængde Θ. Man kanfå en kvalitetsvurdering af
maksimaliseringsestimatoren θ̂ ved at konstruere det
ap-proksimative 95% konfidensområde
C1(X) ={
θ ∈ Θ |(
θ̂ − θ)T
i(θ)(
θ̂ − θ)
< zk}
,
hvor zk er 95% fraktilen for en χ2-fordeling med k
frihedsgrader.
Om man vil bruge kvotientteststørrelsen eller Walds
teststørrelse som udgangspunktfor konstruktionen af et
konfidensområde, er lidt en smagssag - en stor del af besværeti
beviset for sætning 5.21 bestod i at redegøre for at de to
teststørrelser er stort set ens.Områderne vil som regel være
sammenlignelige, men ikke helt identiske. Præciseargumenter for at
foretrække det ene område frem for det andet, kunne basere sigpå
kvaliteten af χ2-approksimationen, men svaret er i så fald ikke
systematisk: det
-
220 Kapitel 7. Områdeestimation
varierer fra model til model, og fra asymptotisk scenario til
asymptotisk scenario, om−2 log Q eller Walds teststørrelse er “mest
χ2-fordelt”.
De nødvendige regninger for at finde områdeestimatoren er i
begge tilfælde kompli-cerede, og man forfalder ikke helt sjældent
til at erstatte Walds teststørrelse med densåkaldte falske
Waldteststørrelse,
(
θ̂ − θ)T
i(θ̂)(
θ̂ − θ)
,
der leder til et ellipseformet områdeestimat med θ̂ i
centrum,
C2(X) ={
θ ∈ Θ |(
θ̂ − θ)T
i(θ̂)(
θ̂ − θ)
< zk}
.
Den faktiske dækningsgrad af disse ellipser er ofte tæt på de
nominelle 95% - men denkan også være langt fra! Det er ganske
vanskeligt at opstille asymptotiske scenarier,hvor man har kontrol
over den falske Waldteststørrelses opførsel, i modsætning til−2 log
Q eller den “ægte” Waldteststørrelse, der begge kan vises at være
asymptotiskχ2-fordelte, i stort set alle de scenarier, hvor Cramérs
sætning holder.
Eksempel 7.8 Hvis X1, . . . , Xn er uafhængige, identisk
fordelte Γ-fordelte variablemed ukendt formparameter λ og ukendt
skalaparameter β, så er loglikelihoodfunk-tionen
`X1,...,Xn(λ, β) = nλ log β + n log Γ(λ) − (λ − 1)n
∑
i=1
log Xi +1β
n∑
i=1
Xi .
Vi fandt i eksempel 3.20 scorefunktionen
D`X1,...,Xn(λ, β) =
n log β + nΨ(λ) −n
∑
i=1
log Xi ;nλβ− 1β2
n∑
i=1
Xi
,
og observeret information
D2`X1,...,Xn(λ, β) =
nΨ′(λ) nβ
nβ
− nλβ2+
2β3
∑ni=1 Xi
.
Her betegner Ψ(λ) ogΨ′(λ) henholdvis di- og
trigammafunktionerne. Den forventedeinformation bliver
in(λ, β) =
nΨ′(λ) nβ
nβ
nλβ2
.
-
7.3. MLE og konfidensområder 221
Skønt den observerede information ikke er positivt definit, så
ville den have væretdet, hvis vi havde parametriseret modellen en
anelse anderledes. Hvis vi havde para-metriseret ved
formparameteren λ og den inverse skalaparameter 1
β, så ville tætheden
have været på den eksponentielle form fra (6.3), og helt analogt
med regningerne iden logistiske regressionsmodel ville vi se at den
observerede information ikke villeafhænge af de gjorte
observationer, hvilket ville være rigeligt til at sikre
konveksitetat loglikelihoodfunktionen. I den parametrisering vi
foretrækker - med formparame-ter og skalaparameter - er
loglikelihoodfunktionerne ikke konvekse, men en eventuelløsning til
likelihoodligningen vil svare til en løsning af likelihoodligningen
i den eks-ponentielle parametrisering, og må derfor nødvendigvis
være det globale minimumfor likelihoodfunktionen.
Likelihoodligningerne er
log β + Ψ(λ) =1n
n∑
i=1
log Xi
βλ =1n
n∑
i=1
Xi
De kan ikke løses eksplicit, men er ikke vanskelige at løse ved
numeriske metoder(enten Newton-Raphson eller Fisher scoring, som
man nu synes). I et konkret datasætmed n = 100 og summariske
størrelser
1n
n∑
i=1
log Xi = 2.591611 og1n
n∑
i=1
Xi = 14.30888 , (7.18)
(se eksempel 3.4) finder man løsningen
λ̂ = 7.38 β̂ = 1.94 ,
der så må udgøre maksimaliseringsestimatoren. Desuden findes den
minimale værdiaf loglikelihoodfunktionen til at være 303.3655.
Derfor er konfidensområdet baseretpå kvotientteststørrelsens
asymptotiske fordeling
C(x1, . . . , xn) ={
(λ, β) | `x1,...,xn (λ, β) < 303.3655 +z2
}
,
hvor z = 5.99 er 95%-fraktilen for en χ2-fordeling med to
frihedsgrader. Dette om-råde er tegnet op i figur 7.6, sammen med
tilsvarende områder baseret på Waldsteststørrelse og på den falske
Waldteststørrelse.
-
222 Kapitel 7. Områdeestimation
4 6 8 10 12
1.0
1.5
2.0
2.5
3.0
3.5
PSfrag replacements
λ
β
Figur 7.6: Tre approksimative konfidensområder for parametrene i
modellen for uafhæn-gige, identisk fordelte Γ-fordelte variable.
Tegningen er baseret på n = 100 simulerede va-riable med summariske
størrelser givet ved (7.18). Det fuldt optrukne område er baseret
påkvotientteststørrelsen, det stiplede område er baseret på Walds
teststørrelse og det prikkedeområde er baseret på den falske
Waldteststørrelse.
De tre approksimative konfidensområder i figur 7.6 er nogenlunde
sammenfaldende,men ikke helt. Når området baseret på
kvotientteststørrelsen (eller på Walds teststør-relse) ikke er
elliptisk, er der grund til at være på vagt overfor de nominelle
dæknings-grader af områderne, baseret på asymptotiske fordelinger -
de kan være vildledende.Argumenterne for de asymptotiske
fordelinger er groft sagt baseret på at man ser bortfra den tredie
afledede af loglikelihoodfunktionerne, og en manglende ellipticitet
afdet approksimative konfidensområde er en advarsel om at den
tredie afledede alli-gevel spiller en vis rolle: enten er Cramérs
sætning forkert for den studerede modeleller også er “den
asymptotiske situation” endnu ikke indtrådt - som regel vil
manvælge den sidste fortolkning. Hvis vi konstruerede en tegning
som figur 7.6, baseretpå n = 1000 observationer og samme summariske
størrelse som i (7.18), så ville detre approksimative
konfidensområder dels være meget mindre end dem man ser påfigur
7.6, og dels være næsten uskelnelige.
I et større simulationseksperiment blev der genereret uafhængige
Γ-fordelte variablemed sand formparameter 7 og sand skalaparameter
2. For n = 10, 100 og 1000blev der genereret 10.000 datasæt, for
hvert datasæt blev de tre approksimative kon-
-
7.4. Konfidensområder for parameterfunktioner 223
fidensområder fundet, og det blev undersøgt om de indeholdt den
sande parameter.Resultaterne er opsummeret i tabel 7.1. Den
faktiske dækningsgrad for området ba-seret på
kvotientteststørrelsen er imponerende tæt på de nominelle 95%, selv
hvisdatasættene kun indeholder n = 10 observationer hver. De
faktiske dækningsgraderfor de to andre områder er ikke helt så
flotte, før datasættene bliver store. Til gengælder dækningsgraden
for disse to områder overraskende tæt på hinanden, i betragtningaf
at områderne er ganske forskellige, som det fremgår af figur
7.6.
n −2 log Q Wald Falsk Wald10 0.933 0.654 0.634
100 0.950 0.883 0.880
1000 0.951 0.942 0.944
Tabel 7.1: Dækningsgraden for tre approksimative
konfidensområder for parametrene i mo-dellen for uafhængige,
identisk fordelte Γ-fordelte variable, undersøgt for datasæt af
forskel-lig størrelse, men alle med sande parametre λ = 7, β = 2.
Hver celle i tabellen er baseret påsimulation af 10.000 datasæt af
den angivne størrelse.
◦
7.4 Konfidensområder for parameterfunktioner
I modeller, hvor parametermængden Θ er en delmængde af Rk hvor k
> 1, er mansjældent for alvor interesseret i at finde
konfidensområder på den måde vi hidtil harbeskrevet. Procedurerne
leder ofte til komplicerede delmængder af Rk, mængder somer svære
at beskrive og som er svære for alvor at sige noget prægnant
om.
I praksis knytter den primære interesse sig næsten altid til en
reel parameterfunktionτ : Θ → R. Vi er da interesserede i en
mængdefunktion D : X → P(R) der opfylderat
Pθ(τ(θ) ∈ D(X)) = 1 − α for alle θ. (7.19)
Vi taler om et konfidensområde for parameterfunktionen τ. Hvis
vi har en sådanmængdefunktion D, så vil C : X → Θ givet ved
C(x) = τ−1(D(x)),
være et “almindeligt” konfidensområde for hele parameteren
θ.
-
224 Kapitel 7. Områdeestimation
Hvis den primære interesse ligger i θ’s 1. koordinat, og hvis vi
har fundet en mæng-defunktion D : X → P(R) der opfylder (7.19), så
vil den associerede “almindelige”konfidensmængde være C(x) =
D(x)×Rk−1 - eller hvor meget af denne mængde, dernu er indeholdt i
Θ. Det er klart at i så fald bruger vi al datakraften til at sige
nogetom θ’s 1. koordinat, mens vi ingen restriktioner lægger på de
øvrige koordinater.
I praksis forsøger man gerne at lave et konfidensområde for en
parameterfunktion τudfra en pivot af formen
R(θ, x) = Z(τ(θ), x)
hvor Z : R×X → R er en vilkårlig afbildning. Som sædvanlig
vælges et acceptområdeB ⊂ R sådan at
Pθ(R(θ, X) ∈ B) = 1 − α for alle θ ∈ Θ.
I så fald bliverD(x) = {η ∈ R | Z(η, x) ∈ B}
det ønskede konfidensområde for τ. Thi
Pθ(τ(θ) ∈ D(X)) = Pθ(Z(τ(θ), X) ∈ B) = Pθ(R(θ, X) ∈ B) = 1 −
α.
Eksempel 7.9 Betragt den simple normalfordelingsmodel, hvor X1,
. . . , Xn er uaf-hængige reelle stokastiske variable, der hver
især er N(ξ, σ2)-fordelt med ukendtmiddelværdi og varians. Vi
ønsker at fremstille et 95% konfidensområde for hver afparametrene
ξ og σ2.
Lad os starte med følgende kombinant:
R1(ξ, σ2; x1, . . . , xn) =
√n (x• − ξ)√
S S D/(n − 1).
Hvis (ξ, σ2) er de sande parametre, så er de to størrelser
√
n
σ2(X• − ξ) og
SSD
(n − 1)σ2
henholdsvis standard normalfordelt og χ2-fordelt med n − 1
frihedsgrader og ska-laparameter 1/(n − 1). Eftersom de to
størrelser er uafhængige, følger det atR1(ξ, σ2; X1, . . . , Xn) -
der er brøken af de to - er t-fordelt med n − 1 frihedsgrader.
Isærdeleshed afhænger denne fordeling ikke af de indgående
parametre, og dermed erR1 pivot!
-
7.4. Konfidensområder for parameterfunktioner 225
Endvidere ser vi at R1 kun afhænger af parameteren (ξ, σ2)
gennem førstekoordinatenξ. Et 95% konfidensområde for ξ er
derfor
D1(x1, . . . , xn) =
{
ξ ∈ R | −q <√
n (x• − ξ)√SSD/(n − 1)
< q
}
=
x• − q
√
SSDn(n − 1) , x• + q
√
SSDn(n − 1)
,
hvor q er 97.5% fraktilen for t-fordelingen med n − 1
frihedsgrader (vi har her brugtat t-fordelingen er symmetrisk om
0). For n stor er q ≈ 1.96.
Man kunne tilsvarende vælge en kombinant der kun afhænger af
parameteren gennemσ2, og på den måde producere et konfidensområde
for σ2. F.eks.
R2(ξ, σ2; x1, . . . , xn) = SSD/σ
2.
Hvis (ξ, σ2 er de sande parametre, er R2 χ2-fordelt med n− 1
frihedsgrader og skala-parameter 1, og altså pivot.
◦
Lad os forsøge at komme med en generel konstruktion af et
konfidensområde forparameterfunktionen τ : Θ → Ψ for en domineret
statistisk model, baseret på enlikelihoodtankegang. Først
konstrueres profillikelihoodfunktionen
L̃τx(ψ) = supθ:τ(θ)=ψ
Lx(θ)
som et udtryk for hvor godt observationen x ∈ X og
parameterfunktionsværdienψ ∈ Ψ passer sammen. Den bedste
overensstemmelse, altså den største værdi af L̃τx,fås i ψ̂ = τ(θ̂),
hvor θ̂ er maksimaliseringsestimatoren. En naturlig ide er da at
vurdereethvert ψ ved hjælp af en kvotientteststørrelse baseret på
profillikelihoodfunktionen,
Q̃τ(ψ, x) =L̃τx(ψ)
supψ′∈Ψ L̃τx(ψ′)
=L̃τx(ψ)
L̃τx(ψ̂).
Bemærk at den maksimale værdi af profillikelihoodfunktionen er
identisk med denmaksimale værdi af den oprindelige
likelihoodfunktion. Udtrykt direkte ved hjælp afden originale
likelihoodfunktion, er kvotientteststørrelsen udfra
profillikelihoodfunk-tionen derfor
Q̃τ(ψ, x) =supθ:τ(θ)=ψ Lx(θ)
supθ Lx(θ).
-
226 Kapitel 7. Områdeestimation
Ved at se på
(θ, x) 7→ Q̃τ(τ(θ), x)
har vi skabt en kombinant der kun afhænger af parameteren θ
gennem parameter-funktionen τ(θ), og som har en klar fortolkning:
værdier tæt ved 1 opfattes på denmåde at x og τ(θ) stemmer godt
overens, værdier tæt ved 0 opfattes som
manglendeoverensstemmelse.
Bruger man denne kombinant til at konstruere konfidensområder,
skal man for hvertθ finde et zθ ∈ (0, 1) så
Pθ(
Q̃τ(τ(θ), x) > zθ)
= 0.95 ,
hvorefter konfidensområdet (i Θ) bliver
C(x) = {θ ∈ Θ | Q̃(τ(θ), x) > zθ} .
Her dukker et væmmeligt problem op: hvis θ1 og θ2 er to
parametre sådan at τ(θ1) =τ(θ2) men sådan at zθ1 og zθ2 er
forskellige, så risikerer man at det ene θ er med
ikonfidensområdet, mens det andet ikke er med. I så fald har hele
konstruktionen væretforgæves, for C(x) har ikke form af en
τ-originalmængde. Det er altså afgørende atθ 7→ zθ er konstant
langs hver niveaukurve for τ.
Indtil nu har pivotegenskaberne af kombinanterne kun været
indført af bekvemme-lighedsgrunde: for at gøre det praktisk muligt
at omregne fra konkordansområdertil konfidensområder. Men når man
diskuterer konfidensområder for parameterfunk-tioner, bliver en vis
pivothed essentiel, også ud fra et strengt teoretisk
synspunkt:Fordelingen af kombinanten må for så vidt gerne variere
med parameteren. Men ikkeså længde vi kun varierer parameteren
indenfor en niveaukurve for parameterfunk-tionen. Kombinanten skal
så at sige være pivot på hver niveaukurve.
At lede efter kombinanter, der kun afhænger af parameteren
gennem en givet para-meterfunktion τ, og som er pivote langs hver
niveaukurve for τ, er ikke nogen nemopgave. Men så længe vi
fokuserer på kvotientteststørrelser, så kommer asymptotiskteori
ofte til undsætning. Der gælder nemlig følgende generalisering af
sætning 5.22:
Sætning 7.10 Lad Y1, . . . ,Yn være uafhængige identisk fordelte
variable, hver medfordeling νθ = fθ · µ, hvor θ ∈ Θ. Antag at Θ er
en åben delmængde af Rk, og atτ : Θ → Rm er en parameterfunktion.
Lad L̃τ være profillikelihoodfunktionen for τ,
-
7.4. Konfidensområder for parameterfunktioner 227
og lad Q̃τ være den tilsvarende kvotientteststørrelse. Under
passende regularitetsfor-udsætninger vil
−2 log Q̃τ(τ(θ0),Y1, . . . ,Yn) = −2 logL̃τY1,...,Yn(τ(θ0))
L̃τY1,...,Yn(τ(θ̂n))
konvergere i fordeling mod en χ2-fordeling med m frihedsgrader
under Pθ0 .
�
Indholdet af sætning 7.10 er at kvotientteststørrelsen baseret
på profillikelihoodfunk-tionen for τ - i hvert fald asymptotisk set
- er en rigtig pivot, og ikke blot en pi-vot langs niveaukurver for
τ. Bruges sætning 7.10 på den trivielle parameterfunktionθ 7→ θ, er
påstanden den samme som i sætning 5.22. Ligesom vores tidligere
asymp-totiske sætninger, kan konklusionen i sætning 7.10
opretholdes i en meget bred vifteaf asymptotiske scenarier, ikke
blot det her angivne.
Eksempel 7.11 Lad X1, . . . , Xn være uafhængige, reelle
stokastiske variable, alleΓ-fordelte med ukendt formparameter λ og
ukendt skalaparameter β, og lad os kon-struere et konfidensområde
for formparameteren λ.
For fast λ maksimeres likelihoodfunktionen (3.5) af
β̂(λ) =
∑ni=1 Xin λ
,
og dermed er profilloglikelihoodfunktionen for λ givet som
˜̀X1,...,Xn(λ) = `X1,...,Xn(λ, β̂(λ))
= nλ log
(∑ni=1 Xin λ
)
+ n log Γ(λ) − (λ − 1)n
∑
i=1
log Xi + nλ .
For datasættet bag figur 7.6, dvs. et datasæt med n = 100 og de
summariske størrelserfra (7.18), er profilloglikelihoodfunktionen
tegnet op på figur 7.7. Konfidensområdetaflæses ved samme grafiske
konstruktion som i figur 7.4, og findes til at være
(5.57, 9.56) .
Det er et noget mindre interval end projektionerne af de
todimensionale konfidens-områder i figur 7.6 ned på
førstekoordinaten, så vi har faktisk fået bedre styr over
-
228 Kapitel 7. Områdeestimation
4 6 8 10 12
304
306
308
310
PSfrag replacements
λ
˜̀
Figur 7.7: Et approksimativt konfidensområde for formparameteren
λ i modellen for uaf-hængige, identisk fordelte Γ-fordelte variable
med ukendt form og skala. Tegningen
viserprofilloglikelihoodfunktionen for λ, baseret på n = 100
variable med summariske størrelsergivet ved (7.18). De to vandrette
streger er afsat i henholdsvis minimum og minimum plusz/2, hvor z
er 95%-fraktilen for en χ2-fordeling med 1 frihedsgrad.
λ på denne måde. Til gengæld har vi med λ-konfidensområdet helt
undladt at sigenoget der kan lokalisere det sande β.
En tilsvarende konstruktion, hvor man finder et konfidensområde
for skalaparame-teren β, kan i princippet udføres. Men dels er det
mindre interessant (skalaparame-teren er ufortolkelig, hvis man
ikke kender formparameteren), og dels er det en heldel sværere, for
man kan ikke maksimere likelihoodfunktionen eksplicit i λ for
fastβ. Profillikelihoodfunktionen for β må således findes ved for
hvert β at maksimerefunktionen
λ 7→ LX1,...,XN (λ, β)
ved numeriske metoder. Det kan sagtens lade sig gøre, men er
altså forholdsvis reg-netungt.
Et mere interessant - og lige så svært - problem, er at finde et
konfidensområde formiddelværdien α = βλ. Niveaukurverne for denne
parameterfunktion er hyperbler i(λ, β)-planen, og et
konfidensområde for α består altså af et bundt af disse
hyperbler.
-
7.4. Konfidensområder for parameterfunktioner 229
Når man skal finde profillikelihoodfunktionen for α, skal man
maksimere likelihood-funktionen langs hver hyperbel. Denne form for
optimering omtales gerne som mak-simering under en glat
bibetingelse, og skønt det er et område hvor computerteknolo-gien
har gjort betydelige fremskridt, er det en hel del sværere end at
maksimere langskoordinatakser. Vi vælger derfor at reparametrisere
likelihoodfunktionen i termer afformparameteren λ og middelværdien
α. Den resulterende loglikelihoodfunktion bli-ver
`X1,...,Xn(λ, α) = nλ log(
α
λ
)
+ n log Γ(λ) − (λ − 1)n
∑
i=1
log Xi +λ
α
n∑
i=1
Xi .
Profillikelihoodfunktionen for α kan heller ikke med dette
udgangspunkt gives enlukket form. Men for hvert fast α er
loglikelihoodfunktionen en funktion af een vari-abel, og en
passende numerisk teknik giver anledning til en
profilloglikelihoodfunk-tion som den i figur 7.8, der er
konstrueret ud fra de samme data som figur 7.6.
10 12 14 16 18
310
320
330
340
PSfrag replacements
α
˜̀
Figur 7.8: Et approksimativt konfidensområde for middelværdien α
= βλ i modellen foruafhængige, identisk fordelte Γ-fordelte
variable med ukendt form og skala. Tegningen
viserprofilloglikelihoodfunktionen for α, baseret på n = 100
variable med summariske størrelsergivet ved (7.18). De to vandrette
streger er afsat i henholdsvis minimum og minimum plusz/2, hvor z
er 95%-fraktilen for en χ2-fordeling med 1 frihedsgrad.
Konfidensområdet for α aflæses på figur 7.8 til at være
(13.32, 15.40) ,
-
230 Kapitel 7. Områdeestimation
hvilket er et ret snævert interval (midtpunkt ± 7%), en hel del
snævrere end konfiden-sområdet for formparameteren λ (midtpunkt ±
25%). Middelværdien i en Γ-fordelingbestemmes altså ganske præcist,
selv om man kun har forholdsvis få observationer tilrådighed. Mens
den ekstra information, der skal til for helt at fastlægge
fordelingen,er langt sværere at få fat på, og kræver mange
observationer. Dette forhold kan forså vidt aflæses af figur 7.6,
hvor de todimensionale konfidensområders krumning kanopfattes som
et udtryk for at disse områder forsøger at følge de hyperbler,
hvorpå αer konstant - det lykkes ikke helt, men de gør et behjertet
forsøg.
Vi har set at det er ganske let at konstruere et approksimativt
konfidensområde foren etdimensional parameterfunktion, når man
først har optegnet profilloglikelihood-funktionen. I praksis finder
man naturligvis ikke disse områder ved at udføre
grafiskekonstruktioner med en lineal, man lader computeren om at
beregne intervallerne.Alligevel er det vigtigt at man tegner grafen
for profilloglikelihoodfunktionen, fortegningen giver mulighed for
en grafisk kontrol af den asymptotiske procedure.
Hvis profilloglikelihoodfunktionen har en markant skævhed
omkring minimums-punktet, er det et advarselssignal, der fortæller
at man skal være varsom med at tropå konfidensområdets nominelle
dækningsgrad. Hvis funktionen derimod ligner etandengradspolynomium
i hele det konstruerede interval omkring minimumspunktet,vil man
være tilbøjelig til at stole på at den asymptotiske situation er
indtrådt, og atkonfidensområdets faktiske dækningsgrad er tæt på
den nominelle.
Figur 7.8 giver ingen anledning til nervøsitet på denne konto.
Figur 7.7 har derimoden lille skævhed, der dog ikke for alvor
rokker ved vores tillid til asymptotikken. Detvar ikke på forhånd
til at vide at 100 observationer er nok til at den
asymptotiskesituation er indtrådt i modellen med uafhængige
Γ-fordelte variable - og som denmanglende ellipticitet af
konfidensområderne i figur 7.6 viser, er den asymptotiskesituation
da heller ikke indtrådt for alle formål.
◦
7.5 Konfidensintervaller ved bootstrap
I stedet for den lange række af approksimationer der ledte frem
til en pivot, der erapproksimativt χ2-fordelt, kunne man tage
udgangspunkt i følgende noget simplerepåstand: hvis τ : Θ → R er en
reel parameterfunktion, og hvis t : X → Θ er en
-
7.5. Konfidensintervaller ved bootstrap 231
estimator for den fulde parameter, så er størrelsen
(θ, x) 7→ τ(t(x)) − τ(θ) (7.20)
måske en approksimativ pivot. Vi har i hvert fald forsøgt at
stabilisere førstemomentet
Et umiddelbart bud kunne være at denne kombinant er
approksimativt normalfordelt,men det behøver den ikke at være.
Pointen er at hvis vi tror på at pivotegenskabener opfyldt, så kan
vi simulere den fælles fordeling frem. Vi vælger en parameterθ1 ∈ Θ
og behandler den som den sande parameter (i praksis vil man ofte
lade θ1 =t(x), sådan at θ1 faktisk er et estimat af den virkelige
sande parameter). Simuler nyedatapunkter x1, . . . , xN ∈ X frem,
genereret som uafhængige observationer fra νθ1 .På baggrund af hver
af disse falske observationer, reestimerer vi θ, og får
estimatert(x1), . . . , t(xN). Og dermed får vi τ-estimater
τ(t(x1)), . . . , τ(t(xN )).
Hvis vi lokaliserer de empiriske 2.5% og 97.5%-fraktiler z1 og
z2 i den empiriskefordeling af
τ(t(x1)) − τ(θ1), . . . , τ(t(xN)) − τ(θ1) ,
så kan et simpelt områdeestimat for τ nu være
D(x) = {η ∈ R | z1 < τ(t(x)) − η < z2} = (τ(t(x)) − z2,
τ(t(x)) − z1) .
Denne tilgang til konfidensproblemet kaldes bootstrap. Bootstrap
betyder støvle-strop, og begrebet refererer til historien om Baron
von Münchausen, der reddede sigop af kviksand ved at hive i sine
egne støvlestropper. På analog vis bruger vi her
pa-rameterestimatet t(x) (i form at θ1) til at vurdere præcisionen
af “sig selv” Det virkeri første omgang urimeligt at man kan få
noget fornuftigt ud af det. Men bemærk denekstra påstand om at
(7.20) er en pivot - det er den der får teknikken til at give
mening.Hvorvidt denne påstand er rimelig, vil variere fra eksempel
til eksempel. Som regelprøver man at basere konstruktionen på
kombinanter, der i højere grad end (7.20) måformodes at være
pivote, men sådanne kombinanter vil være problemspecifikke.
Pointen er naturligvis at man ofte kan finde en næsten-pivot
kombinant, og bootstrap-teknikken har vist sig at fungere godt i en
bred vifte af situationer, også selv om pa-rameterestimatoren t er
af tvivlsom kvalitet. Det er således meget populært at boot-strappe
i ikke-parametriske eller semiparametriske modeller.
Eksempel 7.12 Lad X1, . . . , Xn være uafhængige, identisk
fordelte reelle stokastiskevariable, med en ukendt fordeling µ. Vi
ønsker at opstillet et 95% konfidensområde
-
232 Kapitel 7. Områdeestimation
for medianen af µ. Medianen er et udtryk for µ’s egenskaber, og
derfor er det naturligtat se på medianen som en
parameterfunktion.
Problemets ikke-parametriske karakter gør at bootstrap er den
oplagte metode. Somunderliggende estimator af den fulde parameter
µ, bruger vi det empiriske mål
µ̂ =1n
n∑
i=1
�Xi .
Vi simulerer nu N “falske datasæt” (på engelsk taler man gerne
om phony data) afsamme størrelse som det oprindelige datasæt,
X11 X12 · · · X1nX21 X22 · · · X2n...
.... . .
...
XN1 XN2 · · · XNn
på en sådan måde at alle de falske variable er uafhængige og
identisk fordelte medfordeling µ̂. Det er uhyre let at simulere
disse data, for at trække en variabel med for-deling µ̂, betyder
simpelthen at trække et heltal k mellem 1 og n efter en
ligefordeling,og så bruge det tilhørende ægte datapunkt Xk.
Man siger gerne at de falske data kommer til verden ved at man
trækker tilfældigtmed tilbagelægning fra de ægte data. Denne
procedure bidrager umiddelbart til denintuitive skepsis over for
bootstrap-begrebet, for simulationsprocedurerne generereraldrig nye
data, kun gentagelser af de data man allerede har. Og hvordan
skulle mandog blive klogere af det? Det tog det statistiske miljø
mange år at overkomme denneskepsis.
Lad os kalde den empiriske median af de ægte data for M. For
hvert af de falskedatasæt udregner man den empiriske median, lad os
kalde dem M1, . . . , MN . Vi finderde empiriske 2.5% og
97.5%-fraktiler z1 og z2 for størrelserne
M1 − M, . . . , MN − M ,
og konstruerer på den baggrund områdeestimatet
(M − z2 M − z1) .
Disse regninger baserer sig på kombinanten
(µ, x1, . . . , xn) 7→ Median(µ̂(x1, . . . , xn)) −Median(µ)
,
-
7.6. Prediktion 233
der nok ikke er så pivot endda. Et bedre resultat kunne sikkert
opnås ved at dividereen skalafaktor ud. Man kunne forsøge sig med
kombinanten
(µ, x1, . . . , xn) 7→Median(µ̂(x1, . . . , xn)) −Median(µ)√
s2,
hvor s2 er et variansestimat for µ, f.eks. den empiriske varians
af x1, . . . , xn. Det førertil såkaldte studentized bootstrap
konfidensområder.
◦
Antagelsen bag bootstrap er svagere end de tilsvarende
antagelser bag de asymp-totiske konfidensområder. Alligevel vil den
faktiske dækningsgrad af omhyggeligtkonstruerede bootstrap
konfidensområder ofte svare bedre til den nominelle dæk-ningsgrad.
Og hvis der ikke er mange gentagelser involveret i forsøget, så er
bootstrapbaserede konfidensområder i høj grad at foretrække fremfor
de asymptotisk baserede,også i parametriske modeller.
Bootstrap-baserede teknikker er, sammen med andre
computerintensive metoder,kommet i høj kurs i de senere år, i takt
med at computerkraft er blevet tilgængelig foralle. Bortset fra
pivotantagelsen (som man jo ikke kan gøre noget ved), så kan alle
degjorte approksimationer kontrolleres ved at gøre N tilstrækkelig
stor.
7.6 Prediktion
En situation, der er meget beslægtet med konstruktion af
konfidensområder, er pre-diktion, hvor man på baggrund af allerede
gjorte observationer, forsøger at sige nogetom endnu ikke gjorte
observationer. Der skal ikke lægges noget tidsligt i at
observa-tionen “endnu” ikke er gjort, observationen kan udmærket
være gjort men endnu ikkeafsløret for statistikeren. Eller den kan
være principielt uobserverbar, sådan som vihar arbejdet med det i
modellen for afskårne eksponentialfordelinger i eksempel 2.15.
Formelt vil vi forestille os to stokastiske variable på (Ω,F),
vi kan kalde dem X ogY med værdier i henholdsvis (X,E) og (Y,K), og
en parametriseret statistisk model(Pθ)θ∈Θ for deres simultane
fordeling (denne kryptiske formulering dækker over atdet er
billedmålene (X,Y)(Pθ) på produktrummet (X × Y,E ⊗ K) som kræves
speci-ficeret). Vi lader X svare til den gjorte observation og Y
til den endnu ikke gjorte.
-
234 Kapitel 7. Områdeestimation
Et prediktionsområde for Y er en afbildning C : X → K. Til hvert
punkt x ∈ Xknyttes altså en målelig delmængde C(x) af Y.
Prediktionsområdets dækningsgrader afbildningen
θ 7→ Pθ(Y ∈ C(X)) .Typisk ønsker man at konstruere et
prediktionsområde med en dækningsgrad påmindst 95% for alle θ. Det
er underforstået i denne formulering at man ønsker atgøre områderne
C(x) så små som muligt, herunder at den faktiske dækningsgrad erså
tæt på 95% som muligt og ikke væsentlig større (for i så fald er
områderne C(x)på sin vis “for store”).
I visse situationer kan man slippe afsted med en variant af
pivot-tankegangen. Hviskan kan finde en fælles transformation af X
og Y , hvis fordeling ikke varierer med θ,så kan man bruge den som
grundlag for konstruktionen. Hvis R : X × Y → Z er en(passende
målelig) transformation sådan at
Z = R(X,Y)
har den samme fordeling, uanset hvilket θ der er sandt, og hvis
A er et konkordans-område for Z på niveau α, så er dækningsgraden
for prediktionsområdet
C(x) = {y ∈ Y | R(x, y) ∈ A}
præcis 1 − α. Hvis man skal konstruere et sådant R, skal man så
at sige bruge X til ateliminere parameterafhængigheden af Y .
Eksempel 7.13 Lad X1, . . . , Xn,Y være uafhængige reelle
variable, alle N(ξ, σ2)-fordelte med ukendt middelværdi og varians.
Vi forestiller os at vi har observeretalle X’erne, og at Y er den
næste observation i rækken, som vi ønsker at danne os etbegreb om
på forhånd. Vi har tidligere set på det nyttige i at indføre
størrelserne
X• =1n
n∑
i=1
Xi , SSD =n
∑
i=1
(Xi − X•)2 .
Disse størrelser er uafhængige, og da de er dannet udelukkende
ud fra X’erne, er deogså uafhængige af Y . Dermed er
Y − X• ∼ N(
0,
(
1 +1n
)
σ2)
,
og denne differens er uafhængig af SSD. Ved at argumentere som i
eksempel 7.9, fåsat
√
n − 11 + 1n
Y − X•√SSD
-
7.6. Prediktion 235
er t-fordelt med n − 1 frihedsgrader. Enhver
parameterafhængighed er væk! Derforkan vi konstruere et
prediktionsområde med en dækningsgrad på 95% ved at sætte
C(X1, . . . , Xn) =
y ∈ R | −q <√
n − 11 + 1n
Y − X•√SSD
< q
,
hvor q er 97.5%-fraktilen for en t-fordeling med n − 1
frihedsgrader. Det er i dettetilfælde ganske nemt at løse
ulighederne, og vi ser at
C(X1, . . . , Xn) =
ξ̂ − q√
(1 +1n
)σ̂2 , ξ̂ + q
√
(1 +1n
)σ̂2
hvor ξ̂ og σ̂2 er de oplagte parameterestimatorer på baggrund af
X’erne, givet ved(4.4). Man kan på ret oplagt vis læse dette
prediktionsområde som et konkordansom-råde, regnet ud som om ξ̂ og
σ̂2 er de sande parametre, tilsat lidt korrektion for at tagehøjde
for fejlen i denne approksimation. Når n går mod ∞, bliver
parametrene bedreog bedre bestemt, og korrektionsfaktorerne i
prediktionsområdet bliver tilsvarendemindre og mindre
betydningsfulde (q konvergerer mod 1.96, der er 97.5%-fraktil ien
standard normalfordeling). Men selve prediktionsområdet bliver
naturligvis ikkevilkårligt snævert, selv efter observation af
uendeligt mange X’er, vil der stadig væreen restvariabilitet i Y ,
så længde Y er uafhængig af alle X’erne.
◦
Så nemt som i eksempel 7.13 går det sjældent at eliminere
parametrene i den uobser-verede variabels fordeling, og en
succesfuld konstruktion af prediktionsområder eren uhyre vanskelig
kunst.
Hvis man vil tage til takke med et groft bud på et
prediktionsområde, hvis faktiskedækningsgrad kan overstige 1−α
ganske betydeligt, er der dog en generel procedureud fra
konfidensområder: Lad C(x) ⊂ Θ være et konfidensområde for
parameterenθ, baseret udelukkende på X, og antag at dette
konfidensområde har dækningsgrad1 − α/2. Find for hvert θ ∈ Θ et
konkordansområde A(θ) ⊂ Y for Y , også på niveauα/2. Brug nu
prediktionsområdet
D(x) =⋃
θ∈C(x)A(θ) .
Hvis θ0 er den sande parameter, ser vi at
(Y < D(X)) ⊂ (θ0 < C(X)) ∪ (Y < A(θ0)) ,
-
236 Kapitel 7. Områdeestimation
og derfor er
Pθ0(Y < D(X)) ≤ Pθ0(θ0 < C(X)) + Pθ0(Y < A(θ0)) ≤ α/2 +
α/2 .
Uheldigvis har man ingen kontrol over vurderingerne i disse
regninger, og det kon-struerede prediktionsområde er ofte alt, alt
for stort.
7.7 Opgaver
O 7.1. Lad X1, . . . , Xn være uafhængige reelle stokastiske
variable, med tæthe-den
f (x) =
axa+1
for x > 1
0 ellers,(7.21)
hvor a > 2 er en ukendt parameter. Vi diskuterer altså en
speciel type Paretofordeltevariable.
S 7.1(a). Gør rede for at Xi har 2. moment. Find middelværdi og
varians.
S 7.1(b). Brug middelværdien af Xi til at konstruere en
momentestimator ã fora.
S 7.1(c). Gør rede for at ã er asymptotisk normalfordelt, og
find de asymptoti-ske parametre.
S 7.1(d). Brug den asymptotiske fordeling af ã til at
konstruere et approksima-tivt 95% konfidensområde for a.
S 7.1(e). Opskriv likelihoodfunktionen,
log-likelihoodfunktionen, scorefunk-tionen og
informationsfunktionen.
S 7.1(f). Find den forventede information.
S 7.1(g). Gør rede for at der er en entydig
maksimaliseringsestimator â, ogskriv den op.
S 7.1(h). Brug strukturen af â til at konstruere et eksakt 95%
konfidensområdefor a. (Vink: log Xi har en kendt fordeling.)
S 7.1(i). Gør rede for at â er asymptotisk normalfordelt, og
angiv de asympto-tiske parametre.
-
7.7. Opgaver 237
S 7.1(j). Konstruer på baggrund af den asymptotiske fordeling af
â et approk-simativt 95% konfidensområde for a.
S 7.1(k). Der er givet følgende observationer:
i 1 2 3 4 5 6 7 8 9Xi 1.71 2.71 1.53 1.64 1.14 1.44 1.93 1.52
2.06
Estimer a, og udregn de tre konstruerede områdeestimater.
O 7.2. Lad X1, . . . , Xn være uafhængige reelle stokastiske
variable, med tæthe-den
f (x) =
1β(β+1) (x + 1)e
−x/β for x > 0
0 ellers,(7.22)
hvor β > 0 er en ukendt parameter.
S 7.2(a). Gør rede for at (7.22) definerer en tæthed.
S 7.2(b). Gør rede for at Xi har momenter af vilkårlig orden.
Find middelværdiog varians.
S 7.2(c). Opskriv likelihoodfunktionen,
log-likelihoodfunktionen, scorefunk-tionen og
informationsfunktionen.
S 7.2(d). Find den forventede information.
S 7.2(e). Gør rede for at der er en entydig
maksimaliseringsestimator β̂, ogskriv den op
S 7.2(f). Gør rede for at β̂ er asymptotisk normalfordelt, og
angiv de asympto-tiske parametre.
S 7.2(g). Konstruer på baggrund af den asymptotiske fordeling af
β̂ et approk-simativt 95% konfidensområde for β.
S 7.2(h). Der er givet følgende observationer:
i 1 2 3 4 5 6 7 8 9 10Xi 11.32 4.87 2.71 3.25 9.15 0.48 4.56
12.87 2.17 5.67
Estimer β, og angiv et approksimativt 95% konfidensområde.
-
238 Kapitel 7. Områdeestimation
O 7.3. Lad X1, . . . , Xn,Y1, . . . ,Yn være uafhængige reelle
stokastiske variable,sådan at Xi’erne er Poissonfordelte med
middelværdi eβ, mens Yi’erne er eksponen-tialfordelte med
middelværdi e−β. Her er β ∈ R en ukendt parameter.
S 7.3(a). Opskriv likelihoodfunktionen,
log-likelihoodfunktionen, scorefunk-tionen og
informationsfunktionen.
S 7.3(b). Find den forventede information.
S 7.3(c). Gør rede for at der er en entydig
maksimaliseringsestimator β̂, ogskriv den op.
S 7.3(d). Gør rede for at β̂ er asymptotisk normalfordelt, og
angiv de asymp-totiske parametre.
S 7.3(e). Konstruer på baggrund af den asymptotiske fordeling af
β̂ et approk-simativt 95% konfidensområde for β.
S 7.3(f). Der er givet følgende observationer:
i 1 2 3 4 5 6 7 8 9Xi 2 5 4 3 0 1 3 5 2Yi 0.42 0.32 1.09 0.02
0.46 0.03 0.32 0.17 0.16
Estimer β, og angiv et approksimativt 95% konfidensområde.
O 7.4. Lad X og Y være ikke-negative reelle stokastiske
variable, hvis simultanefordeling har tæthed
f (x, y) =1α
(
xx + y
)α−1e−(x+y)/α for x ∈ (0,∞), y ∈ (0,∞), (7.23)
med hensyn til Lebesguemålet på R2. Her er α ∈ (0,∞) en ukendt
parameter.
S 7.4(a). Gør rede for at (7.23) vitterligt definerer en
sandsynlighedstæthed.(Vink: Ikke så nemt endda. Prøv med
substitution i det todimensionale integral.)
S 7.4(b). Vis at
Z =X
X + Y, V = X + Y
er uafhængige, henholdsvis B(α, 1)-fordelt og Γ-fordelt med
formparameter 2 ogskalaparameter α.
-
7.7. Opgaver 239
Lad nu (X1,Y1), . . . , (Xn,Yn) være uafhængige todimensionale
stokastiske variable,alle med fordeling givet ved (7.23). Lad
α̃ =
∑ni=1 Xi + Yi
2n.
S 7.4(c). Vis at α̃ er en central estimator af α. Gør endvidere
rede for at α̃ erasymptotisk normalfordelt, og find de asymptotiske
parametre.
S 7.4(d). Opskriv likelihoodfunktionen og
log-likelihoodfunktionen. Findscorefunktionen og
informationsfunktionen.
S 7.4(e). Find den forventede information.
S 7.4(f). Gør rede for at der er en entydig
maksimaliseringsestimator α̂, ogskriv den op.
S 7.4(g). Gør rede for at α̂ er asymptotisk normalfordelt, og
angiv de asymp-totiske parametre.
S 7.4(h). Sammenlign estimatorerne â og ã for a.
S 7.4(i). Konstruer på baggrund af den asymptotiske fordeling af
â et approk-simativt 95% konfidensområde for a. Gentag øvelsen på
baggrund af den asymp-totiske fordeling af ã.
S 7.4(j). Der er givet følgende observationer:
i 1 2 3 4 5 6 7 8 9Xi 0.439 8.185 4.152 1.075 5.518 1.970 1.316
1.327 1.344Yi 0.015 1.203 2.896 0.052 0.528 4.455 0.059 1.864
0.540
Estimer α, og angiv et approksimativt 95% konfidensområde. Brug
begge estima-torer og sammenlign.
O 7.5. Lad X1, . . . , Xn være uafhængige observationer fra en
ligefordeling på(0, θ), hvor θ er en ukendt parameter. Brug
fordelingen af X(n) til at konstruere eteksakt 95% konfidensområde
for θ.
O 7.6. Lad X1, . . . , Xn være uafhængige reelle stokastiske
variable, identisk for-delte med tæthed
f (x) =
{
a xa−1 for x ∈ (0, 1)0 ellers
hvor a > 0 er en ukendt parameter.
-
240 Kapitel 7. Områdeestimation
S 7.6(a). Opskriv likelihoodfunktionen og
log-likelihoodfunktionen. Findscorefunktionen og
informationsfunktionen.
S 7.6(b). Find den forventede information.
S 7.6(c). Gør rede for at der er en entydig
maksimaliseringsestimator â, ogskriv den op.
S 7.6(d). Gør rede for at â er asymptotisk normalfordelt, og
angiv de asymp-totiske parametre.
Sæt
X =1n
n∑
i=1
Xi, ã =X
1 − X.
S 7.6(e). Gør rede for at ã er asymptotisk normalfordelt, og
angiv de asymp-totiske parametre.
S 7.6(f). Sammenlign estimatorerne â og ã for a.
S 7.6(g). Konstruer på baggrund af den asymptotiske fordeling af
â et approk-simativt 95% konfidensområde for a. Gentag øvelsen på
baggrund af den asymp-totiske fordeling af ã.
S 7.6(h). Der er givet følgende observationer:
i 1 2 3 4 5 6 7 8 9Xi 0.802 0.105 0.679 0.825 0.727 0.862 0.289
0.919 0.534
Estimer a, og angiv et 95% konfidensområde. Brug begge
estimatorer og sammen-lign.
O 7.7. Lad X og Y være ikke-negative reelle stokastiske
variable, hvis simultanefordeling har tæthed
f (x, y) = x−α y−(xα+1) for x ∈ (1,∞), y ∈ (1,∞), (7.24)
med hensyn til Lebesguemålet på R2. Her er α ∈ (0,∞) en ukendt
parameter.
S 7.7(a). Gør rede for at (7.24) vitterligt definerer en
sandsynlighedstæthed.
S 7.7(b). Find den marginale fordeling af log X, og find
middelværdi og vari-ans.
S 7.7(c). Find middelværdi og varians af X log Y .
-
7.7. Opgaver 241
Lad nu (X1,Y1), . . . , (Xn,Yn) være uafhængige todimensionale
stokastiske variable,alle med fordeling givet ved (7.24). Lad
α̃ =1n
n∑
i=1
Xi log Yi
S 7.7(d). Vis at α̃ er en central estimator af α. Gør endvidere
rede for at α̃ erasymptotisk normalfordelt, og find de asymptotiske
parametre.
S 7.7(e). Opskriv likelihoodfunktionen og log-likelihood
funktionen. Findscorefunktionen og informationsfunktionen.
S 7.7(f). Find den forventede information.
S 7.7(g). Gør rede for at der er en entydig
maksimaliseringsestimator α̂, ogskriv den op.
S 7.7(h). Gør rede for at α̂ er asymptotisk normalfordelt, og
angiv de asymp-totiske parametre.
S 7.7(i). Sammenlign estimatorerne α̂ og α̃ for α.
S 7.7(j). Konstruer på baggrund af den asymptotiske fordeling af
α̂ et approk-simativt 95% konfidensområde for a. Gentag øvelsen på
baggrund af den asymp-totiske fordeling af ã.
S 7.7(k). Der er givet følgende observationer:
i 1 2 3 4 5 6 7 8 9Xi 1.05 1.05 1.30 1.32 1.01 1.81 1.14 1.81
1.27Yi 2.74 1.79 1.27 8.18 10.46 2.59 21.72 1.17 2.57
Estimer α, og angiv et approksimativt 95% konfidensområde. Brug
begge estima-torer og sammenlign.
-
242 Kapitel 7. Områdeestimation