Statistica Bayesiana e Bioinformatica: introduzione ed applicazionilocal.disia.unifi.it/stefanini/RESEARCH/BIOINFORMATICS/... · 2009-03-25 · Componenti informative di profili molecolari

© f.m.stefanini - Statistica Bayesiana 1

Statistica Bayesiana eBioinformatica:introduzione ed

applicazioni

Federico M. StefaniniDip. di Statistica “G. Parenti”viale Morgagni 59, Firenze

[email protected]

Firenze, Lunedì 29 Maggio 2000


Struttura della presentazione

• Probabilità frequentista

• Regola di Bayes

• Variabili casuali quantitative

• Funzioni di verosimiglianza

• Probabilità soggettiva

• Inferenza Bayesiana

• Applicazione 1:Campo di variazione e loci microsatellite(con M.W.Feldman, Stanford University)

• Applicazione 2:Componenti informative di profilimolecolari(con A. Camussi, Università di Firenze)


Probabilità frequentista

• Popolazione infinita, un locus

• Spazio campionario Ω = AA,Aa,aa

• Evento EAA ⊆ Ω è “Genotipo AA”

• Sia nAA il numero volte in cui EAA si realizza inn prove identiche Esperimento 1: n = 10nAA = 1, nAa = 2 , naa = 7nAA / n = 0.1 nAa / n = 0.2 naa / n = 0.7

• Probabilità dell’evento EAA

nn

EP AA

nAA ∞→

= lim][

• Esperimento 2: n = 100’000nAA = 10’000 nAa = 20’000 naa = 70’000

nAA / n = 0.1 nAa / n = 0.2 naa / n = 0.7

• Descrizione del processo di osservazione dieventi ripetibili


La regola di Bayes

• Esperimento 3Variabile casuale X

Dalla popolazione di riferimento estraggo unindividuo ed osservo fenotipo x=1.Quale è la probabilità che l’individuo estrattoabbia genotipo Aa?

= 1 0.2/ (1 0.1 + 1 0.2 +0 0.7)= 0.67

• P[ EAa | X = 1] = 3.33 P[ EAa ]

=a fenotipo se2

A fenotipo se1

∑∈

⋅=⋅=

==

,,

][]|1[][]|1[

]1|[

aaAaAAiii

AaAaAa EPExP

EPExPxEP

AA Aa aa

x=1

x=0

Ω


Variabili casuali quantitative

• Esperimento 4:Altezza (cm) di piantedi mais ad una certadata dalla semina.

• n= 500’000

• L’evento X in [ai,bi)ha probabilità πi

Altezza

Fre

quen

za

15 25 35

0.00

0.06

0.12

∫

−−

⋅=i

i

b

a

x

i dxe2

2)(

2

1

22

1 σ

µ

πσπ

Modello generatore dei dati

Θ∈θθ :)|(xp

• Se esitono µ,σ2

tali che per ogni i

−−

⋅=2

2)(

2

1

2

2

2

1),|( σ

µ

πσσµ

x

exp

Definito il parametro θ=(µ,σ2), la famiglia parametrica di funzioni di densità è


• Sia n= nAA in prove indipendenti

• Verosimiglianza:L(θ=1)=P[nAA |θ=1]L(θ=0.75)=P[nAA |θ=0.75]

• Rapporto di verosimiglianza: L(H1)/L(H2)

• In generale L(θ) = p(X=x | θ) con θ ∈ Θ

Funzione di verosimiglianza

• Esperimento 5: (??,A) x (Aa,A) → (?,A)Info: Mendel, dom. A, genotipo e fenotipoP[fenotipo A| H, genotipo Aa] = θ

• H1: (AA,A) vs H2: (Aa,A) → Θ = 1,0.75

0

0,2

0,4

0,6

0,8

1

H1H2

0

5

10

15

1 2 3 4 5 6 7 8 9


Probabilità soggettivista

• Descrizione della “Mia” incertezza circa unsistema/processo, sia esso ripetibile oppureno (degree of belief).

• Ordinamento di eventi sulla scala impossibile-inevitabile

• Elicitazione1) Pago mP[E] per ricevere m se si verifica E2) confronto P[E] con la prob. di osservare nsimboli testa in n lanci di una moneta regolare

• Se il parametro-variabile casuale θ con rangoΘ è INTERPRETABILEElicitazione: plausibilità (belief) dei valori in Θ


Inferenza Bayesiana

• Predittiva:

( ) ( ) ( )∫Θ

⋅⋅= θθθ dxpxXpxXp ff |,||

Priori p(θ) p(x | θ) Verosimiglianza

Posteriori

- Puntuale(θ 0.5, θm, θh)- Regione di credibilità

-Test delle ipotesi

[ ] ( )∫ ⋅=

∈

],[

|

],[:

ba

dxpHP

baH

θθ

θ

( ) αθθαα

−=⋅∫ 1|:)()(S

dxpS

( ) ( ) ( )( )∫

Θ

⋅⋅

=)(|

||

θθ

θθθ

dFxp

pxpxp

Inferenza:


Il campo di variazione in loci geneticimicrosatellite(Genetical Research, aprile-maggio 2000con M.W. Feldman, Stanford)

• Short Tandem Repeats (STR o VNTR)fundamental motif: `CA’

• Allele a = `CACACACACACACA’

• Random variable ‘size’ X(a)= 7

• P[Ea ] = frequency in a reference population

• Altamente polimorfi(entro-tra popolazioni)

• Frequenti nel genoma

• Alto tasso di mutazione.

• Assenza selezione (loci trinucleotidici)

• Momenti e frequenze alleliche

• Risultati sperimentali e simulazionisuggeriscono un campo di variazionecontenuto

Principali caratteristiche


Inferenza sul campo di variazione

• tempo di divergenza in studi filogenetici

• variabilità entro/tra popolazioni

• classificazione dei microsatelliti

Precedenti risultati:

10000

,1,,1,,

≤≤≤

−+=Ω

βα

ββααβα K

Rango/supporto di X

• La stimatore x(n) - x(1) è distorto

• Pollock et al. (1998): distribuzione uniforme(calcoli in forma chiusa)

• Stefanini(1997): stimatore approssimativamentecorretto

α,β: specifici per locus


Distribuzioni di frequenza


Modello

( ) ( )

( ) ( ) ( ) ( )

( ) ( ) ( )( ) ( )∫

Θ

⋅

⋅=

⋅⋅=

=

βαπβαπ

βαπβαπβαπ

ααββαπβαπ

βαπ

,,,,|

,,,,||,,

|,|,,

,,|

dFnp

pnpnp

pppp

nMultnp

( )

( ) ∑ ⋅=

=β

α

πβαπ

βαπθ

)(,,|

,,

xIXp ii

( ) ( )

∫−=

=αβρ

βαπρ ndFnp |,,|


Priori: Distribuzione di Dirichlet

Pi_i0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

• Informazione a priori debole

• Forza totale della priori è 1 osservazione

• Piccoli campioni con grande contributo

• Posteriori - Predittiva in forma chiusa

1

1

)(

)(),|( 1

+−=

⋅Γ

Γ= ∏

∏ =

−

=

αβλ

πλ

λβαπ

β

α

λβ

α

i

ii

ii

iP


• A-Priori poco informativa → varianza grande

A-Priori per αα e ββ

∑−

=

⋅−

=

==

ρ

ρρ

ααβα

1000

01000,...,0 )(

)1001(

1

1001

1)(

)1000,()|(

)1000,0()(

i ip

Uniformep

Uniformep

I

)(

)1001(

)1001()()3

)(501501

1001)()2

)1000,0()()1

1000,...,071000

0

7

1000,...,0

ρρ

ρ

ρρ

ρ

ρ

I

I

⋅

−

−=

⋅−

=

=

∑=k

k

p

p

Uniformep

• Robustezza (uniforme, lineare, skewed)


Distribuzione a priori del range


Risultati

• Dimensione circa 240

• Alleli modali tra 0.5 e 0.9

• Differenza media 3.0

• Campo variazione tra 10 e 70

• Stime puntuali prossime a valorecampionario

• Incertezza non trascurabile a posteriori

Giuseppe Parenti


Distribuzione a posteriori del range


Distribuzione a posteriori del range


Dipendenza dalla scelta della a-priori


• Numero alleli nella popolazione: - estremi α,β sono nella popolazione ? - vincolo sulla numero di parametri ? - esclusione per meccanismi biologici ? - popolazione come entità dinamica•Applicazioni per inferenze filogenetiche (modello M e parametri L)•Inclusione di informazione sulla mutazionestepwise•Offset incognito

Sviluppi


The reduction of large molecularprofiles to informative components

using a Genetic Algorithm

(Bioinformatics, in stampa, con A. Camussi)

Progetto Nazionale ‘Biotecnologie Vegetali’,Area 3, MIPA

• Classificazione con M popolazioni note

• Profili molecolari (bande elettroforetiche,DNAarrays,…)

• Identificazione di componenti informativeper la classificazione

STRUTTURA:

• Training dataset

• Quantificazione dell’informazione di unagenerica componente

• Ricerca della componente più informativa


DNA fingerprint

Reference population

Population

migration

1 0 0 0 1 0 0 0 0 1 1 0

Individual

band pattern

fragments

DNA

NotationReference population Observable bands

Molecular profile

Random variable

Random vector on

N

N

N

Parameter N

Population 0 1 MarginalVal Brembana 0.3 0 0.3

Val agna 0 0.7 0.7

Pilot Experiments Molecular profiles are expensive

Large , say

Sample size , say vector ofcounts

Is the Profile component infor-mative for ?

Bayesian Learning

Prior distribution

w ,

Likelihood function

l>m

Posterior distribution:

Predictive distribution

Information(Lindley, 1956, Bernardo and Smith, 1994)Entropy of the distribution

Maximum uncertainty

Information gain given and empty

\ 4

Information gain given

V

V

\

Expected information gain

Objective function

H\ V

4

!!o! tuning constants for normalization! least integer not smaller than ! !

AssumptionsA1: Error in measurements is not present

A2: Reference population:

At least one band pattern is shared within

At least one population has two band patterns

A3: If " is an informative profile component:

" # "

A4: If " is an informative profile component:

" is small

A simple Genetic Algorithm(Holland, 1975, Goldberg, 1989,

Mitchell, 1998)

Evolution of a population of 100chromosomes under recombination and

mutation

void AploGen::OneDynamicSUS(void)PopInit();for(genum=0; genum $ totge; genum++)

FitCalc();ReproductSUS();MutateAll();pop.Swap();;

;FitCalc();;


Population t

Population t+1

C

gE()

C, C’pc

gE()

C’’

1-pc

pmC’’’

C’’’

1-pm

Reproduction


32 43

789

76259832

Mutation

32 765 132

SubMC

312 43

Del

Pr: 0.10 0.85 0.05

Crossingover

482

4876232

7624832

Sample Sample

Union - Sort

Simulation of datasets Informative profile component: % &% ' & '

% &% ' & '

where:&

^3=93>3=<<`&

&

^3=34>3=83`&

%& ^44@5>44`%

&44%&

^54@5>54`%

&54

'& ^45@5>45`'

&45'&

^55@5>55`'

&55

Observable bands from to (

E;

4;

and (

The observable bands from to

i3>4j


Simulation

,

datasets

generations/dataset

)

) maximum number observable bands

Features of the bestchromosomes

Class Number %Rigth Better R. Almost R. Others Total



Remarks

• Funzione obiettivo:- modelli non saturi- scelta dei parametri GA adattiva- struttura di P verso robustezza GA

• Validazione dei marcatori candidativia esperimento di conferma

• Dati sperimentali non simulati:- stabilità di P- definizione di P e O:

• sistemi multibanda

• massima risoluzione del gel-array• O(n): dipendenza da variabilità campionaria

• Missing values

• Dati non simulati con rumore campionariopiù alto computer run più lunghi


Considerazioni ulteriori

• Quantificazione di tutti i tipi di incertezzaesplicitamente

• Coerenza (no Dutch book)

• Scambiabilità

• Principio della verosimiglianza

• Principio della misura precisa

• Principio della ragione insufficiente

• Analisi di sensitività

• Calibrazione

• Parametri di disturbo

• Previsione

• Consistenza verso adhochery (deFinetti):“One Bayesian solution”

• Soggettività in modelli complessi (scelte)

• Statistica computazionale (MC, MCMC)


Riferimenti

• Bernardo, Smith, 1994, Bayesian Theory, Wiley.

• O’Hagan, Bayesian Inference, 1994, EdwardArnold.

• Lee, 1997, Bayesian Statistics, Edward Arnold

• Baldi, Brunak, 1998, Bioinformatics: the machinelearning approach, MIT Press

Siti WEB:http://merlot.stat.uconn.edu/~sbss/http://www.bayesian.org/http://www.stat.unipg.it/pub/stat/statlib/http://www.statoo.com/

• Elaborazioni statistiche: Rhttp://www.stat.unipg.it/pub/stat/statlib/R/CRAN/

• Vieland, V.J., 1998, “Bayesian Linkage Analysis:….”,Am. J. Hum. Genetic. 63:947-954

• Malakoff, D., 1999,Bayes offer a new way to make sensoof numbers, Science 19 Nov. 286:1460-1464

• Piccinato, L., 1992, Critical issues in different inferentialparadigma, J. It. Statist. Soc. 2:251-274

Statistica Bayesiana e Bioinformatica: introduzione ed applicazionilocal.disia.unifi.it/stefanini/RESEARCH/BIOINFORMATICS/... · 2009-03-25 · Componenti informative di profili molecolari

Documents

Statistica Bayesiana e Bioinformatica: introduzione ed applicazionilocal.disia.unifi.it/stefanini/RESEARCH/BIOINFORMATICS/... · 2009-03-25 · Componenti informative di profili molecolari