Ocenjevanje parametrov v Bayesov(sk)i statistiki doc. dr. Gregor Gorjanc Univerza v Ljubljani, Biotehniška Fakulteta, Oddelek za zootehniko, Domžale (Rodica) IBMI Ljubljana, Slovenija 24. oktober 2011
Ocenjevanje parametrov vBayesov(sk)i statistiki
doc. dr. Gregor Gorjanc
Univerza v Ljubljani, Biotehniška Fakulteta, Oddelek za zootehniko, Domžale (Rodica)
IBMILjubljana, Slovenija24. oktober 2011
Bayesova ali Bayesovska statistika?
I Angelško:I Bayes’ theoremI Bayesian statistics, model, inference, ...
I SlovenskoI Bayesov izrek/teoremI Bayesova statistika aliI Bayesovska statistika
Izvleček
Predstavljeno bo ocenjevanje parametrov pri Bayesovskem pristopu kstatistiki. Ta naloga je v večini primerov računsko zelo zahtevna, ajo je možno izvesti z uporabo aproksimativnih (stohastičnih indeterminističnih) metod in današnjo računalniško močjo. V prvemdelu bo predstavljeno ocenjevanje parametrov za enostavni primer,kjer je možno izpeljati eksplicitne izračune z namenom pridobitvevpogleda. V drugem delu bomo na primeru linearnega mešanegamodela predstavili ocenjevanje s pomočjo ene stohastične (MarkovChain Monte Carlo, MCMC) in ene deterministične (IntegratedNested Laplace Approximation, INLA) metode.
Kazalo
1. Enostaven primer za razumevanje konceptov
2. Linearni mešani model- Stohastična aproksimacija (MCMC)
- Deterministična aproksimacija (INLA)
Primer
Merimo telesno višino na vzorcu odraslih moških z namenomseznanjenja s populacijo. En takšen vzorec bi lahko bil:
yT = (167, 168, 172, 174, 178, 179, 180, 182, 184, 186)
S katerim procesom bi najbolje opisali “nastanek” zgornjih vrednosti(ang. data generation model)?
I na telesno višino vpliva veliko število dejavnikovI porazdelitev podatkov je zvončasta
–> normalna (Gaussova) porazdelitev bo dobra predpostavka
Verjetje za Gaussovo porazdelitev
p(y|µ, σ2) =
n∏i=1
p(yi |µ, σ2)
=n∏
i=1
1√2πσ2
exp{−(yi − µ)2
2σ2
}
=
(1
2πσ2
)n/2
exp{−∑n
i=1 (yi − y)2 + n (y − µ)2
2σ2
}
Cenilki po metodi največjega verjetja(argmaxµ,σ2
p (y|µ, σ2)
)sta:
µ = y σ2 =∑n
i=1(yi−µ)2
n= 177 cm = 6.5 cm2
“Zanimivosti”1. Interval zaupanja za µ:
µ± tα/2 × σ
Zakaj uporabimo Studentovo t-porazdelitev namesto Gaussove?
2. Cenilka za σ2 je pristrana:
E(σ2|y
)=
(n − 1
n
)σ2
zato radi uporabimo:
σ2 =
∑ni=1 (yi − µ)2
n − 1
Zakaj -1?
Bayesovski pristop
Bayesov izrek:
p(µ, σ2|y
)=
p (y|µ, σ2) p (µ, σ2)
p (y)
I p (y|µ, σ2) - verjetje (ang. likelihood, data generation model)I p (µ, σ2) - apriorna porazdelitev (ang. prior dist.)I p (y) - robno verjetje (ang. marginal likelihood)I p (µ, σ2|y) - posteriorna porazdelitev (ang. posterior dist.)
p(µ, σ2|y
)∝ p
(y|µ, σ2) p
(µ, σ2)
posterior ∝ likelihood × prior
Posteriorna porazdelitevI Skupna posteriorna porazdelitev p (µ, σ2|y)I MAP (ang. Maximum A Posteriori) argmax
µ,σ2p (µ, σ2|y)
I Robna posteriorna porazdelitevI p (µ|y) =
´σ2 p
(µ, σ2|y
)dσ2
–> upoštevamo, da smo ocenjevali tudi σ2 (Student)I p
(σ2|y
)=´µ p(µ, σ2|y
)dµ
–> upoštevamo, da smo ocenjevali tudi µ (n - 1)
Parameter µ
Pora
zdelit
ev (
%)
Parameter σ2
Pora
zdelit
ev (
%)
Apriorna porazdelitev?!#@.
Apriorna porazdelitev odraža naše predhodno znanje oparametrih, ki bi jih radi ocenili.
Znanje za naš primer:I povprečna telesna višina moških je najbrž nekje med 1,5 in 2 m
(zelo neinformativno!)I varianca mora biti pozitivna in na podlagi intervala vrednosti
lahko predvidevamo velikostni razred možnih ocen
Apriorna porazdelitev?!#@.
I Znanje s področja lahko zelo pomaga!I Uporaba smiselne apriorne informacije vodi do pristranih (ang.
biased) rešitev, ki pa imajo boljšo napovedno močI Prednost dajemo konjugiranim apriornim p., ki so podobne
oblike kot posteriorna p.I S povečevanjem števila podatkov se vpliv apriorne p. zmanjšujeI Obstajajo pristopi za izpeljavo t.i. neiformativnih apriornih p.
I JefferysI Bernando (referenčne p.)I . . .
Apriorna porazdelitev za µ
I Predpostavimo, da poznamo varianco meritev (σ2)
I Jeffreysova apriorna p.
p (µ) = 1p(µ|y, σ2) ∝ p
(y|µ, σ2)× 1
∝(
12πσ2
)n/2
exp{−∑n
i=1 (yi − y)2 + n (y − µ)2
2σ2
}
∝ exp{−n (y − µ)2
2σ2
}p(µ|y, σ2) ∼ N (y , σ2/n)
Apriorna porazdelitev za µI Predpostavimo, da poznamo varianco meritev (σ2)
I Informativna apriorna p.
p (µ) ∼ N(m, s2)
p(µ|y, σ2) ∝ p
(y|µ, σ2)× p (µ)
∝ exp{−n (y − µ)2
2σ2
}× exp
{−(µ−m)2
2s2
}p(µ|y, σ2) ∼ N
(a, b2)
a =n/σ2
n/σ2 + 1/s2 y × 1/s2
n/σ2 + 1/s2 m
1/b2 =σ2 + ns2
σ2s2
Bayesovski pristop v splošnem
I Bayesov izrek:
p (θ|y) ∝ p (y|θ) p (θ)
I Robne posteriorne porazdelitve:
p (θi |y) =
ˆθ−i
p (θ|y) dθ−i
=
ˆθ−i
p (y|θ) p (θ) dθ−i
Eksplicitni izračuni možni samo za enostavne modele!!!
Henderson (1949+) - mešani modelI Različna poimenovanja
I mešani model (ang. mixed model)I hierarhični model (ang. hierarchical model)I večnivojski??? model (ang. multilevel model)I . . .
I Mešani model - fiksni/sistematski (b) in naključni (a) vplivi
yijk = µ+ bi + aj + eijk
y = Xb + Za + e
I Predpostavke
p (a|G) ∼ N (0,G) , G = Aσ2a
p (e|R) ∼ N (0,R) , R = Iσ2e
Bayesovski pogled II Proces nastanka podatkov (ang. data generation model)
p (y|b, a,R) ∼ N (Xb + Za,R) , R = Iσ2e
I Lokacijski parametri (povprečja): b, a
p (b|µb,B) ∼ N (µb,B) , B = Iσ2b
p (a|µa,G) ∼ N (µa,G) , G = Aσ2a
I Disperzijski parametri (variance): σ2e , σ
2b, σ
2a
p(σ2
e | . . .)∼ . . .
p(σ2
b| . . .)∼ . . .
p(σ2
a | . . .)∼ . . .
I Posteriorna porazdelitev za b in a če so variance poznane
p (b, a|R,µb,B,µa,G) ∝ p (y|b, a,R) p (b|µb,B) p (a|µa,G)
Bayesovski pogled II
p (b, a|R,µb,B,µa,G) ∼ N(θ,C−1σ2
e
)Cθ = r
θ =
(ba
)C =
(XT R−1X + B−1 XT R−1ZZT R−1X ZT R−1Z + G−1
)r =
(XT R−1y + B−1µbZT R−1y + G−1µa
)
Primeri mešanih modelov
I V večini primerov nas zanimajo parametri a in pripadajočavarianca σ2
a :
p (a|µa,G) ∼ N (µa,G) , G = Aσ2a
I Primeri:I avtoregresivni model, A podobnost med sezonamiI “geografski” model, A podobnost med regijamiI genetski model, A podobnost med člani rodovnikaI . . .
Primer “vesoljcev” - podatki
Slika: Jouke
Posameznik Oče Mama Skupina Fenotip1 / / / /2 / / 1 103, 1063 2 1 1 984 2 / 2 1015 4 3 2 1066 2 3 2 937 5 6 / /8 5 6 / /9 / / / /10 8 9 1 109
Primer “vesoljcev” - grafični modelσ2a σ2
e
a1 a2
103
106
a398 a4 101
a5 106 a6 93
a7 a8 a9
a10109
Slika: Jouke
Primer “vesoljcev” - grafični modelσ2a σ2
e
b1 b2
a1 a2
103
106
a398 a4 101
a5 106 a6 93
a7 a8 a9
a10109
Slika: Jouke
Metoda MCMC
I MCMC - Monte Carlo Markov Chain(Monte Carlo z Markovskimi verigami)
I Stohastična metoda - vzorčimo iz pogojnih porazdelitev(ang. full conditionals)
I 1. vzorči b1 iz p (b1|y,b−1,µb,B, a,µa,G,R)I 2. vzorči b2 iz p (b2|y,b−2,µb,B, a,µa,G,R)I . . .I X. vzorči ak iz p (ak |y,b,µb,B, a−k ,µa,G,R)I X+1. vzorči σ2
e iz p(σ2
e |y,b,µb,B, a,µa,G)
I X+2. vzorči σ2b iz p
(σ2
b|y,b,µb, a,µa,G,R)
I X+3. vzorči σ2a iz p
(σ2
a |y,b,µb,B, a,µa,R)
I Rezultat so vzorci iz robnih posteriornih porazdelitev za vseparametre
Metoda INLA
I INLA - Integrated Nested Laplace Approximation(prevod???)
I Deterministična metoda
Zmanjkalo časa :(
Programje
I BUGS - samostojno (BUGS, WinBUGS in OpenBUGS) in prekoR paketov (R2WinBUGS, BRugs)
I JAGS - samostojno in preko R paketov (jags in rjags)I BayesX - samostojno in preko R paketa BayesXI INLA - samostojno in preko R paketa INLAI R paketihttp://cran.r-project.org/web/views/Bayesian.html
I MCMCglmmI ldots