Ocenjevanje parametrov v Bayesovski statistiki

Ocenjevanje parametrov vBayesov(sk)i statistiki

doc. dr. Gregor Gorjanc

Univerza v Ljubljani, Biotehniška Fakulteta, Oddelek za zootehniko, Domžale (Rodica)

IBMILjubljana, Slovenija24. oktober 2011

Bayesova ali Bayesovska statistika?

I Angelško:I Bayes’ theoremI Bayesian statistics, model, inference, ...

I SlovenskoI Bayesov izrek/teoremI Bayesova statistika aliI Bayesovska statistika

Izvleček

Predstavljeno bo ocenjevanje parametrov pri Bayesovskem pristopu kstatistiki. Ta naloga je v večini primerov računsko zelo zahtevna, ajo je možno izvesti z uporabo aproksimativnih (stohastičnih indeterminističnih) metod in današnjo računalniško močjo. V prvemdelu bo predstavljeno ocenjevanje parametrov za enostavni primer,kjer je možno izpeljati eksplicitne izračune z namenom pridobitvevpogleda. V drugem delu bomo na primeru linearnega mešanegamodela predstavili ocenjevanje s pomočjo ene stohastične (MarkovChain Monte Carlo, MCMC) in ene deterministične (IntegratedNested Laplace Approximation, INLA) metode.

Kazalo

1. Enostaven primer za razumevanje konceptov

2. Linearni mešani model- Stohastična aproksimacija (MCMC)

- Deterministična aproksimacija (INLA)

Nekaj literature

1. Primer za razumevanje konceptov

Primer

Merimo telesno višino na vzorcu odraslih moških z namenomseznanjenja s populacijo. En takšen vzorec bi lahko bil:

yT = (167, 168, 172, 174, 178, 179, 180, 182, 184, 186)

S katerim procesom bi najbolje opisali “nastanek” zgornjih vrednosti(ang. data generation model)?

I na telesno višino vpliva veliko število dejavnikovI porazdelitev podatkov je zvončasta

–> normalna (Gaussova) porazdelitev bo dobra predpostavka

Verjetje za Gaussovo porazdelitev

p(y|µ, σ2) =

n∏i=1

p(yi |µ, σ2)

=n∏

i=1

1√2πσ2

exp{−(yi − µ)2

2σ2

}

=

(1

2πσ2

)n/2

exp{−∑n

i=1 (yi − y)2 + n (y − µ)2

2σ2

}

Cenilki po metodi največjega verjetja(argmaxµ,σ2

p (y|µ, σ2)

)sta:

µ = y σ2 =∑n

i=1(yi−µ)2

n= 177 cm = 6.5 cm2

“Zanimivosti”1. Interval zaupanja za µ:

µ± tα/2 × σ

Zakaj uporabimo Studentovo t-porazdelitev namesto Gaussove?

2. Cenilka za σ2 je pristrana:

E(σ2|y

)=

(n − 1

n

)σ2

zato radi uporabimo:

σ2 =

∑ni=1 (yi − µ)2

n − 1

Zakaj -1?

Bayesovski pristop

Bayesov izrek:

p(µ, σ2|y

)=

p (y|µ, σ2) p (µ, σ2)

p (y)

I p (y|µ, σ2) - verjetje (ang. likelihood, data generation model)I p (µ, σ2) - apriorna porazdelitev (ang. prior dist.)I p (y) - robno verjetje (ang. marginal likelihood)I p (µ, σ2|y) - posteriorna porazdelitev (ang. posterior dist.)

p(µ, σ2|y

)∝ p

(y|µ, σ2) p

(µ, σ2)

posterior ∝ likelihood × prior

Posteriorna porazdelitevI Skupna posteriorna porazdelitev p (µ, σ2|y)I MAP (ang. Maximum A Posteriori) argmax

µ,σ2p (µ, σ2|y)

I Robna posteriorna porazdelitevI p (µ|y) =

´σ2 p

(µ, σ2|y

)dσ2

–> upoštevamo, da smo ocenjevali tudi σ2 (Student)I p

(σ2|y

)=´µ p(µ, σ2|y

)dµ

–> upoštevamo, da smo ocenjevali tudi µ (n - 1)

Parameter µ

Pora

zdelit

ev (

%)

Parameter σ2

Pora

zdelit

ev (

%)

Apriorna porazdelitev?!#@.

Apriorna porazdelitev odraža naše predhodno znanje oparametrih, ki bi jih radi ocenili.

Znanje za naš primer:I povprečna telesna višina moških je najbrž nekje med 1,5 in 2 m

(zelo neinformativno!)I varianca mora biti pozitivna in na podlagi intervala vrednosti

lahko predvidevamo velikostni razred možnih ocen

Apriorna porazdelitev?!#@.

I Znanje s področja lahko zelo pomaga!I Uporaba smiselne apriorne informacije vodi do pristranih (ang.

biased) rešitev, ki pa imajo boljšo napovedno močI Prednost dajemo konjugiranim apriornim p., ki so podobne

oblike kot posteriorna p.I S povečevanjem števila podatkov se vpliv apriorne p. zmanjšujeI Obstajajo pristopi za izpeljavo t.i. neiformativnih apriornih p.

I JefferysI Bernando (referenčne p.)I . . .

Apriorna porazdelitev za µ

I Predpostavimo, da poznamo varianco meritev (σ2)

I Jeffreysova apriorna p.

p (µ) = 1p(µ|y, σ2) ∝ p

(y|µ, σ2)× 1

∝(

12πσ2

)n/2

exp{−∑n

i=1 (yi − y)2 + n (y − µ)2

2σ2

}

∝ exp{−n (y − µ)2

2σ2

}p(µ|y, σ2) ∼ N (y , σ2/n)

Apriorna porazdelitev za µI Predpostavimo, da poznamo varianco meritev (σ2)

I Informativna apriorna p.

p (µ) ∼ N(m, s2)

p(µ|y, σ2) ∝ p

(y|µ, σ2)× p (µ)

∝ exp{−n (y − µ)2

2σ2

}× exp

{−(µ−m)2

2s2

}p(µ|y, σ2) ∼ N

(a, b2)

a =n/σ2

n/σ2 + 1/s2 y × 1/s2

n/σ2 + 1/s2 m

1/b2 =σ2 + ns2

σ2s2

Bayesovski pristop v splošnem

I Bayesov izrek:

p (θ|y) ∝ p (y|θ) p (θ)

I Robne posteriorne porazdelitve:

p (θi |y) =

ˆθ−i

p (θ|y) dθ−i

=

ˆθ−i

p (y|θ) p (θ) dθ−i

Eksplicitni izračuni možni samo za enostavne modele!!!

2. Linearni mešani model

Henderson (1949+) - mešani modelI Različna poimenovanja

I mešani model (ang. mixed model)I hierarhični model (ang. hierarchical model)I večnivojski??? model (ang. multilevel model)I . . .

I Mešani model - fiksni/sistematski (b) in naključni (a) vplivi

yijk = µ+ bi + aj + eijk

y = Xb + Za + e

I Predpostavke

p (a|G) ∼ N (0,G) , G = Aσ2a

p (e|R) ∼ N (0,R) , R = Iσ2e

Bayesovski pogled II Proces nastanka podatkov (ang. data generation model)

p (y|b, a,R) ∼ N (Xb + Za,R) , R = Iσ2e

I Lokacijski parametri (povprečja): b, a

p (b|µb,B) ∼ N (µb,B) , B = Iσ2b

p (a|µa,G) ∼ N (µa,G) , G = Aσ2a

I Disperzijski parametri (variance): σ2e , σ

2b, σ

2a

p(σ2

e | . . .)∼ . . .

p(σ2

b| . . .)∼ . . .

p(σ2

a | . . .)∼ . . .

I Posteriorna porazdelitev za b in a če so variance poznane

p (b, a|R,µb,B,µa,G) ∝ p (y|b, a,R) p (b|µb,B) p (a|µa,G)

Bayesovski pogled II

p (b, a|R,µb,B,µa,G) ∼ N(θ,C−1σ2

e

)Cθ = r

θ =

(ba

)C =

(XT R−1X + B−1 XT R−1ZZT R−1X ZT R−1Z + G−1

)r =

(XT R−1y + B−1µbZT R−1y + G−1µa

)

Primeri mešanih modelov

I V večini primerov nas zanimajo parametri a in pripadajočavarianca σ2

a :

p (a|µa,G) ∼ N (µa,G) , G = Aσ2a

I Primeri:I avtoregresivni model, A podobnost med sezonamiI “geografski” model, A podobnost med regijamiI genetski model, A podobnost med člani rodovnikaI . . .

Primer “vesoljcev” - podatki

Slika: Jouke

Posameznik Oče Mama Skupina Fenotip1 / / / /2 / / 1 103, 1063 2 1 1 984 2 / 2 1015 4 3 2 1066 2 3 2 937 5 6 / /8 5 6 / /9 / / / /10 8 9 1 109

Primer “vesoljcev” - grafični model

Slika: Jouke

Primer “vesoljcev” - grafični modelσ2a σ2

e

a1 a2

a398 a4

a5 a6

a7 a8 a9

a10109

Slika: Jouke


e

a1 a2

103

106

a398 a4 101

a5 106 a6 93

a7 a8 a9

a10109

Slika: Jouke


e

b1 b2

a1 a2

103

106

a398 a4 101

a5 106 a6 93

a7 a8 a9

a10109

Slika: Jouke

Metoda MCMC

I MCMC - Monte Carlo Markov Chain(Monte Carlo z Markovskimi verigami)

I Stohastična metoda - vzorčimo iz pogojnih porazdelitev(ang. full conditionals)

I 1. vzorči b1 iz p (b1|y,b−1,µb,B, a,µa,G,R)I 2. vzorči b2 iz p (b2|y,b−2,µb,B, a,µa,G,R)I . . .I X. vzorči ak iz p (ak |y,b,µb,B, a−k ,µa,G,R)I X+1. vzorči σ2

e iz p(σ2

e |y,b,µb,B, a,µa,G)

I X+2. vzorči σ2b iz p

(σ2

b|y,b,µb, a,µa,G,R)

I X+3. vzorči σ2a iz p

(σ2

a |y,b,µb,B, a,µa,R)

I Rezultat so vzorci iz robnih posteriornih porazdelitev za vseparametre

Metoda MCMC - BUGS

Demonstracija v programu BUGS

Metoda INLA

I INLA - Integrated Nested Laplace Approximation(prevod???)

I Deterministična metoda

Zmanjkalo časa :(

Programje

I BUGS - samostojno (BUGS, WinBUGS in OpenBUGS) in prekoR paketov (R2WinBUGS, BRugs)

I JAGS - samostojno in preko R paketov (jags in rjags)I BayesX - samostojno in preko R paketa BayesXI INLA - samostojno in preko R paketa INLAI R paketihttp://cran.r-project.org/web/views/Bayesian.html

I MCMCglmmI ldots

http://cran.r-project.org/web/views/Bayesian.html

Vprašanja?

Ocenjevanje parametrov v Bayesovski statistiki

Documents