© f.m.stefanini - Statistica Bayesiana 1
Statistica Bayesiana eBioinformatica:introduzione ed
applicazioni
Federico M. StefaniniDip. di Statistica “G. Parenti”viale Morgagni 59, Firenze
Firenze, Lunedì 29 Maggio 2000
© f.m.stefanini - Statistica Bayesiana 2
Struttura della presentazione
• Probabilità frequentista
• Regola di Bayes
• Variabili casuali quantitative
• Funzioni di verosimiglianza
• Probabilità soggettiva
• Inferenza Bayesiana
• Applicazione 1:Campo di variazione e loci microsatellite(con M.W.Feldman, Stanford University)
• Applicazione 2:Componenti informative di profilimolecolari(con A. Camussi, Università di Firenze)
© f.m.stefanini - Statistica Bayesiana 3
Probabilità frequentista
• Popolazione infinita, un locus
• Spazio campionario Ω = AA,Aa,aa
• Evento EAA ⊆ Ω è “Genotipo AA”
• Sia nAA il numero volte in cui EAA si realizza inn prove identiche Esperimento 1: n = 10nAA = 1, nAa = 2 , naa = 7nAA / n = 0.1 nAa / n = 0.2 naa / n = 0.7
• Probabilità dell’evento EAA
nn
EP AA
nAA ∞→
= lim][
• Esperimento 2: n = 100’000nAA = 10’000 nAa = 20’000 naa = 70’000
nAA / n = 0.1 nAa / n = 0.2 naa / n = 0.7
• Descrizione del processo di osservazione dieventi ripetibili
© f.m.stefanini - Statistica Bayesiana 4
La regola di Bayes
• Esperimento 3Variabile casuale X
Dalla popolazione di riferimento estraggo unindividuo ed osservo fenotipo x=1.Quale è la probabilità che l’individuo estrattoabbia genotipo Aa?
= 1 0.2/ (1 0.1 + 1 0.2 +0 0.7)= 0.67
• P[ EAa | X = 1] = 3.33 P[ EAa ]
=a fenotipo se2
A fenotipo se1
∑∈
⋅=⋅=
==
,,
][]|1[][]|1[
]1|[
aaAaAAiii
AaAaAa EPExP
EPExPxEP
AA Aa aa
x=1
x=0
Ω
© f.m.stefanini - Statistica Bayesiana 5
Variabili casuali quantitative
• Esperimento 4:Altezza (cm) di piantedi mais ad una certadata dalla semina.
• n= 500’000
• L’evento X in [ai,bi)ha probabilità πi
Altezza
Fre
quen
za
15 25 35
0.00
0.06
0.12
∫
−−
⋅=i
i
b
a
x
i dxe2
2)(
2
1
22
1 σ
µ
πσπ
Modello generatore dei dati
Θ∈θθ :)|(xp
• Se esitono µ,σ2
tali che per ogni i
−−
⋅=2
2)(
2
1
2
2
2
1),|( σ
µ
πσσµ
x
exp
Definito il parametro θ=(µ,σ2), la famiglia parametrica di funzioni di densità è
© f.m.stefanini - Statistica Bayesiana 6
• Sia n= nAA in prove indipendenti
• Verosimiglianza:L(θ=1)=P[nAA |θ=1]L(θ=0.75)=P[nAA |θ=0.75]
• Rapporto di verosimiglianza: L(H1)/L(H2)
• In generale L(θ) = p(X=x | θ) con θ ∈ Θ
Funzione di verosimiglianza
• Esperimento 5: (??,A) x (Aa,A) → (?,A)Info: Mendel, dom. A, genotipo e fenotipoP[fenotipo A| H, genotipo Aa] = θ
• H1: (AA,A) vs H2: (Aa,A) → Θ = 1,0.75
0
0,2
0,4
0,6
0,8
1
H1H2
0
5
10
15
1 2 3 4 5 6 7 8 9
© f.m.stefanini - Statistica Bayesiana 7
Probabilità soggettivista
• Descrizione della “Mia” incertezza circa unsistema/processo, sia esso ripetibile oppureno (degree of belief).
• Ordinamento di eventi sulla scala impossibile-inevitabile
• Elicitazione1) Pago mP[E] per ricevere m se si verifica E2) confronto P[E] con la prob. di osservare nsimboli testa in n lanci di una moneta regolare
• Se il parametro-variabile casuale θ con rangoΘ è INTERPRETABILEElicitazione: plausibilità (belief) dei valori in Θ
© f.m.stefanini - Statistica Bayesiana 8
Inferenza Bayesiana
• Predittiva:
( ) ( ) ( )∫Θ
⋅⋅= θθθ dxpxXpxXp ff |,||
Priori p(θ) p(x | θ) Verosimiglianza
Posteriori
- Puntuale(θ 0.5, θm, θh)- Regione di credibilità
-Test delle ipotesi
[ ] ( )∫ ⋅=
∈
],[
|
],[:
ba
dxpHP
baH
θθ
θ
( ) αθθαα
−=⋅∫ 1|:)()(S
dxpS
( ) ( ) ( )( )∫
Θ
⋅⋅
=)(|
||
θθ
θθθ
dFxp
pxpxp
Inferenza:
© f.m.stefanini - Statistica Bayesiana 9
Il campo di variazione in loci geneticimicrosatellite(Genetical Research, aprile-maggio 2000con M.W. Feldman, Stanford)
• Short Tandem Repeats (STR o VNTR)fundamental motif: `CA’
• Allele a = `CACACACACACACA’
• Random variable ‘size’ X(a)= 7
• P[Ea ] = frequency in a reference population
• Altamente polimorfi(entro-tra popolazioni)
• Frequenti nel genoma
• Alto tasso di mutazione.
• Assenza selezione (loci trinucleotidici)
• Momenti e frequenze alleliche
• Risultati sperimentali e simulazionisuggeriscono un campo di variazionecontenuto
Principali caratteristiche
© f.m.stefanini - Statistica Bayesiana 10
Inferenza sul campo di variazione
• tempo di divergenza in studi filogenetici
• variabilità entro/tra popolazioni
• classificazione dei microsatelliti
Precedenti risultati:
10000
,1,,1,,
≤≤≤
−+=Ω
βα
ββααβα K
Rango/supporto di X
• La stimatore x(n) - x(1) è distorto
• Pollock et al. (1998): distribuzione uniforme(calcoli in forma chiusa)
• Stefanini(1997): stimatore approssimativamentecorretto
α,β: specifici per locus
© f.m.stefanini - Statistica Bayesiana 11
Distribuzioni di frequenza
© f.m.stefanini - Statistica Bayesiana 12
Modello
( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( )( ) ( )∫
Θ
⋅
⋅=
⋅⋅=
=
βαπβαπ
βαπβαπβαπ
ααββαπβαπ
βαπ
,,,,|
,,,,||,,
|,|,,
,,|
dFnp
pnpnp
pppp
nMultnp
( )
( ) ∑ ⋅=
=β
α
πβαπ
βαπθ
)(,,|
,,
xIXp ii
( ) ( )
∫−=
=αβρ
βαπρ ndFnp |,,|
© f.m.stefanini - Statistica Bayesiana 13
Priori: Distribuzione di Dirichlet
Pi_i0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
• Informazione a priori debole
• Forza totale della priori è 1 osservazione
• Piccoli campioni con grande contributo
• Posteriori - Predittiva in forma chiusa
1
1
)(
)(),|( 1
+−=
⋅Γ
Γ= ∏
∏ =
−
=
αβλ
πλ
λβαπ
β
α
λβ
α
i
ii
ii
iP
© f.m.stefanini - Statistica Bayesiana 14
• A-Priori poco informativa → varianza grande
A-Priori per αα e ββ
∑−
=
⋅−
=
==
ρ
ρρ
ααβα
1000
01000,...,0 )(
)1001(
1
1001
1)(
)1000,()|(
)1000,0()(
i ip
Uniformep
Uniformep
I
)(
)1001(
)1001()()3
)(501501
1001)()2
)1000,0()()1
1000,...,071000
0
7
1000,...,0
ρρ
ρ
ρρ
ρ
ρ
I
I
⋅
−
−=
⋅−
=
=
∑=k
k
p
p
Uniformep
• Robustezza (uniforme, lineare, skewed)
© f.m.stefanini - Statistica Bayesiana 15
Distribuzione a priori del range
© f.m.stefanini - Statistica Bayesiana 16
Risultati
• Dimensione circa 240
• Alleli modali tra 0.5 e 0.9
• Differenza media 3.0
• Campo variazione tra 10 e 70
• Stime puntuali prossime a valorecampionario
• Incertezza non trascurabile a posteriori
© f.m.stefanini - Statistica Bayesiana 17
Distribuzione a posteriori del range
© f.m.stefanini - Statistica Bayesiana 18
Distribuzione a posteriori del range
© f.m.stefanini - Statistica Bayesiana 19
Dipendenza dalla scelta della a-priori
© f.m.stefanini - Statistica Bayesiana 20
• Numero alleli nella popolazione: - estremi α,β sono nella popolazione ? - vincolo sulla numero di parametri ? - esclusione per meccanismi biologici ? - popolazione come entità dinamica•Applicazioni per inferenze filogenetiche (modello M e parametri L)•Inclusione di informazione sulla mutazionestepwise•Offset incognito
Sviluppi
© f.m.stefanini - Statistica Bayesiana 21
The reduction of large molecularprofiles to informative components
using a Genetic Algorithm
(Bioinformatics, in stampa, con A. Camussi)
Progetto Nazionale ‘Biotecnologie Vegetali’,Area 3, MIPA
• Classificazione con M popolazioni note
• Profili molecolari (bande elettroforetiche,DNAarrays,…)
• Identificazione di componenti informativeper la classificazione
STRUTTURA:
• Training dataset
• Quantificazione dell’informazione di unagenerica componente
• Ricerca della componente più informativa
© f.m.stefanini - Statistica Bayesiana 22
DNA fingerprint
Reference population
Population
migration
1 0 0 0 1 0 0 0 0 1 1 0
Individual
band pattern
fragments
DNA
NotationReference population Observable bands
Molecular profile
Random variable
Random vector on
N
N
N
Parameter N
Population 0 1 MarginalVal Brembana 0.3 0 0.3
Val agna 0 0.7 0.7
Pilot Experiments Molecular profiles are expensive
Large , say
Sample size , say vector ofcounts
Is the Profile component infor-mative for ?
Bayesian Learning
Prior distribution
w ,
Likelihood function
l>m
Posterior distribution:
Predictive distribution
Information(Lindley, 1956, Bernardo and Smith, 1994)Entropy of the distribution
Maximum uncertainty
Information gain given and empty
\ 4
Information gain given
V
V
\
Expected information gain
Objective function
H\ V
4
!!o! tuning constants for normalization! least integer not smaller than ! !
AssumptionsA1: Error in measurements is not present
A2: Reference population:
At least one band pattern is shared within
At least one population has two band patterns
A3: If " is an informative profile component:
" # "
A4: If " is an informative profile component:
" is small
A simple Genetic Algorithm(Holland, 1975, Goldberg, 1989,
Mitchell, 1998)
Evolution of a population of 100chromosomes under recombination and
mutation
void AploGen::OneDynamicSUS(void)PopInit();for(genum=0; genum $ totge; genum++)
FitCalc();ReproductSUS();MutateAll();pop.Swap();;
;FitCalc();;
© f.m.stefanini - Statistica Bayesiana 28
Population t
Population t+1
C
gE()
C, C’pc
gE()
C’’
1-pc
pmC’’’
C’’’
1-pm
Reproduction
© f.m.stefanini - Statistica Bayesiana 29
32 43
789
76259832
Mutation
32 765 132
SubMC
312 43
Del
Pr: 0.10 0.85 0.05
Crossingover
482
4876232
7624832
Sample Sample
Union - Sort
Simulation of datasets Informative profile component: % &% ' & '
% &% ' & '
where:&
^3=93>3=<<`&
&
^3=34>3=83`&
%& ^44@5>44`%
&44%&
^54@5>54`%
&54
'& ^45@5>45`'
&45'&
^55@5>55`'
&55
Observable bands from to (
E;
4;
and (
The observable bands from to
i3>4j
© f.m.stefanini - Statistica Bayesiana 31
Simulation
,
datasets
generations/dataset
)
) maximum number observable bands
Features of the bestchromosomes
Class Number %Rigth Better R. Almost R. Others Total
© f.m.stefanini - Statistica Bayesiana 33
© f.m.stefanini - Statistica Bayesiana 34
Remarks
• Funzione obiettivo:- modelli non saturi- scelta dei parametri GA adattiva- struttura di P verso robustezza GA
• Validazione dei marcatori candidativia esperimento di conferma
• Dati sperimentali non simulati:- stabilità di P- definizione di P e O:
• sistemi multibanda
• massima risoluzione del gel-array• O(n): dipendenza da variabilità campionaria
• Missing values
• Dati non simulati con rumore campionariopiù alto computer run più lunghi
© f.m.stefanini - Statistica Bayesiana 35
Considerazioni ulteriori
• Quantificazione di tutti i tipi di incertezzaesplicitamente
• Coerenza (no Dutch book)
• Scambiabilità
• Principio della verosimiglianza
• Principio della misura precisa
• Principio della ragione insufficiente
• Analisi di sensitività
• Calibrazione
• Parametri di disturbo
• Previsione
• Consistenza verso adhochery (deFinetti):“One Bayesian solution”
• Soggettività in modelli complessi (scelte)
• Statistica computazionale (MC, MCMC)
© f.m.stefanini - Statistica Bayesiana 36
Riferimenti
• Bernardo, Smith, 1994, Bayesian Theory, Wiley.
• O’Hagan, Bayesian Inference, 1994, EdwardArnold.
• Lee, 1997, Bayesian Statistics, Edward Arnold
• Baldi, Brunak, 1998, Bioinformatics: the machinelearning approach, MIT Press
Siti WEB:http://merlot.stat.uconn.edu/~sbss/http://www.bayesian.org/http://www.stat.unipg.it/pub/stat/statlib/http://www.statoo.com/
• Elaborazioni statistiche: Rhttp://www.stat.unipg.it/pub/stat/statlib/R/CRAN/
• Vieland, V.J., 1998, “Bayesian Linkage Analysis:….”,Am. J. Hum. Genetic. 63:947-954
• Malakoff, D., 1999,Bayes offer a new way to make sensoof numbers, Science 19 Nov. 286:1460-1464
• Piccinato, L., 1992, Critical issues in different inferentialparadigma, J. It. Statist. Soc. 2:251-274