Métodos estatísticos II Almir R. Pepato (Aula preparada com a ajuda daquelas disponibilizadas por Fred(rik) Ronquist)

Métodos estatísticos II

Almir R. Pepato(Aula preparada com a ajuda daquelas disponibilizadas por Fred(rik) Ronquist)

Resolução do exemplo numérico

0100

0010

0100

0100


0100

0010

0100

0100

0.000970.028280.028280.00097


0100

0010

0100

0100

0.000970.028280.028280.00097

0.0000026


0100

0010

0100

0100

0.000970.028280.028280.00097

0.0000026 0.0218338


0100

0010

0100

0100

0.000970.028280.028280.00097

0.0000026 0.02183380.0000259


0100

0010

0100

0100

0.000970.028280.028280.00097

0.0000026 0.02183380.00002590.0000026


0100

0010

0100

0100

0.000970.028280.028280.00097

0.0000026 0.02183380.00002590.0000026

Inferência BayesianaExemplo Simples, comparando dois modelos.Há dois sapos de origami, Joe e Herman. Por experiências anteriores sabe-se que Joe cai 60% das vezes em pé, enquanto Herman cai apenas 20% das vezes. O nome dos sapos foi apagado. Como podemos inferir qual é Joe apenas fazendo-os saltar?

Primeiro lançamento, caiu em pé:

Inferência BayesianaSegundo lançamento, caiu em pé:

Terceiro lançamento, caiu de costas:

Inferência Bayesiana aplicada à filogenias

Grupo externo:

A

B

C



Probabilidade

Probabilidade

Probabilidade a priori

Probabilidade a posteriori

Dados


tree 1 tree 2 tree 3

)|( Xf

Espaço paramétrico

Prob

abili

dade

pos

terio

r

( ) ( | )( | )

( ) ( | ) d

f f Df D

f f D

ProbabilidadePosterior

Prior ”Verossimilhança”

Constante Normalizadora

D = Dados = Parâmetros do modelo


Monte Carlo-Cadeia de Markov

1-Inicia-se em um ponto arbitrário (θ)2-Faz-se uma pequena modificação propondo um novo estado (θ*)3-Calcula-se a razão r entre novo estado θ*, e θ:(a) r>1: novo estado é aceito.(b) R<1: novo estado é aceito com uma probabilidade r.

)|(

)|(

)|(

)|(

)(

)(

)|(

)|(

)(/)|()(

)(/)|()(

)|(

)|(

)|(

)|(*

***

*

***

*

**

f

f

Df

Df

f

f

f

f

DfDff

DfDff

f

f

Df

Dfr

Monte Carlo-Cadeia de Markov1-Inicia-se em um ponto arbitrário (θ)2-Faz-se uma pequena modificação propondo um novo estado (θ*)3-Calcula-se a razão r entre novo estado θ*, e θ:(a) r>1: novo estado é aceito.(b) R<1: novo estado é aceito com uma probabilidade r.


Sempre aceito

Aceito às vezesO tempo que a MCMC passa amostrando uma região do espaço paramétrico é uma estimativa da densidade da probabilidade posterior naquela região.

1

2b

2a

20 % 48 % 32 %

Regulando a cadeia de Markov

• Tipicamente um ou poucos parâmetros são modificados por vez.

• Uma geração é um ciclo completo ou uma nova proposta tomada ao acaso.

Novos valores são retirados uniformemente de uma janela de tamanho δ e centrada em x. Para lances mais “ousados”: aumente δ, mas isso também diminuirá as chances de novos estados serem aceitos...


”burn-in”

“Mixing”: capacidade da cadeia de explorar adequadamente as regiões de maior probabilidade posterior do espaço paramétrico

Não adianta amostrar todas as gerações. As mais próximas estão muito correlacionadas.

Valo

res

amos

trad

os

Distribuição esperada

Lances muito acanhados: taxa de aceitação dos novos estados altos. “Mixing” deficiente.

Lances muito ousados: taxa de aceitação muito baixa. “Mixing” deficiente.

Lances “na medida”Bom “mixing”


ConvergênciaConvergência é o grau em que a cadeia convergiu para a distribuição de máxima probabilidade posterior.

Trocando em miúdos: MCMC é uma técnica heurística, precisamos algo que nos dê segurança a respeito da busca.

Indicadores de convergência:

1- A cadeia atingiu um platô.2- O comportamento da busca parece adequado:

Através do ESS (Effective Sample Size ):

O número de amostras realmente independentes da distribuição posterior à que a cadeia de Markov é equivalente.

Convergência

Telas do programa TRACER

Convergência entre corridas

• Topologias:– Compara as probabilidades dos clados (”split

frequencies”), a diferença entre o desvio padrão das duas ou mais corridas deve tender a zero.

• Variáveis contínuas– ”Potential scale reduction factor” (PSRF). Compara

variância dentro e entre as corridas. Deve tender a zero na medida em que as corridas convergem.

Convergência

Telas do programa AWTY (Are We There Yet)

Comparação das probabilidades posteriores dos clados de duas corridas.

Esta análise funciona como que parando a corrida em pontos a intervalos regulares e verificando as probabilidades posteriores até aquele ponto.

MC3: Metropolis Coupling Markov Chain Monte Carlo

iT 1/1 1,...,1,0 ni

62.0

71.0

83.0

00.1

|62.03

|71.02

|83.01

|00.10

Distr.

Xf

Xf

Xf

Xf

Ti

T é a temperatura, é o coeficiente de aquecimento

Exemplo para = 0.2:

Cadeia fria

Cadeia aquecida

A idéia consiste em introduzir uma série de cadeias rodando em paralelo e acopladas, ou seja, trocando valores entre si. Algumas dessas cadeias’ são aquecidas, isto é: a sua probabilidade posterior é elevado a um número menor que 1. Assim o espaço de probabilidades aparece como que aplainado.

Determinar a melhor temperatura é crucial.

Cadeia fria

Cadeia aquecida

MC3: Metropolis Coupling Markov Chain Monte Carlo

Cadeia fria

Cadeia aquecida

Cadeia fria

Cadeia aquecida

Cadeia fria

Cadeia aquecida

Troca mal sucedida

Cadeia fria

Cadeia aquecida

Cadeia fria

Cadeia aquecida

Cadeia fria

Cadeia aquecida

Troca bem sucedida

Cadeia fria

Cadeia aquecida

Sumarizando as árvores• Árvore de Maior Probabilidade Posterior

– Pode ser difícil de encontrar– Pode ter baixa probabilidade para alguns clados (não reflete suporte)

• Árvore de consenso de Maioria– Reflete melhor a probabilidade posterior dos clados– Distribuição de comprimento de ramos pode ser multimodal

• Intervalo de credibilidade de árvores– Incluí as árvores em ordem decrescente de probabilidade até obter

um intervalo de credibilidade de, e.g., 95 %

Consenso de maioria

Frequências representam a probabilidade posterior dos clados

Sumarizando os parâmetros

• Média, mediana, variância são os mais comuns

• intervalo de credibilidade de 95 %: descarte os 2.5 % superiores e inferiores

• Intervalo de 95 % de maior densidade posterior: encontre a menor região contendo 95 % da probabilidade posterior

Média e o intervalo de credibilidade de 95% para os parâmetros do modelo.

PriorsAntes de falar dos priors é necessário revisar as principais distribuições contínuas e discretas.

Distribuições contínuas

• Normal • Beta • Gama• Dirichlet • Exponencial• Uniforme• Lognormal

Distribuições discretas

• Uniforme• Binomial • Multinomial • Poisson

Espaço amostral

{1,2,,k}

1

2

3

4

5

6

Função da distribuição

m()

Distribuição uniforme discretaDistribuições uniformes são utilizadas quando quer se expressar ausência completa de conhecimento a respeito de um parâmetro que tem impacto uniforme sobre a verossimilhança. A uniforme discreta é utilizada para as topologias, por exemplo.

Espaço Amostral(um intervalo)

0,1

Disco com circumferência 1

f (x) Função da densidade de probabilidades(e.g. Uniforme (0,1))

Pr(E) f (x)xE dx Probabilidade

E a,b Evento (um subespaço do espaço amostral)

a b

Distribuição contínua

f (x)e x

Média:

1/

= taxa de decaimento

Exp()X ~

Parametros:

Distribuição exponencialLembram dessas equações?

Nelas percebemos que a probabilidade, base do calculo da verossimilhança é uma função exponencial negativa do comprimento do ramo. Nada mais natural portanto que usar uma distribuição exponencial para seu prior.

f (x) x 1e x

Média:

/

= formato

Gamma(,)X ~

Parâmetros:

= escalar

Gama escalonado:

Gama escalonado

Distribuição Gama

Como vimos na aula sobre modelos, a distribuição gama é utilizada para descrever a variação na taxa de evolução entre sítios.

Na verdade, aqui temos um Hiperprior , isto é, α dita a distribuição a priori das taxas de variação e é retirado de uma distribuição (uniforme por exemplo) .

f (x) x1 1(1 x)2 1

Modo:

1 1 i 1

i

1,2 = formato

Beta(1,2)X ~

Parâmetros:

Distribuição Beta

É utilizada para parâmetros que descrevem proporções de um todo, com apenas dois eventos possíveis. Por exemplo: proporção de invariáveis e razão de Transversões/Transições.

f (x) x i i 1

i

= vetor de k shapes

Dir() : 1,2,...,k X ~

Parâmetros:

Definida como k proporções de um todo

Dir(1,1,1,1)

Dir(300,300,300,300)

Distribuição Dirichet

Semelhante à Beta, mas para várias classes de eventos: descreve a frequência de nucleotídeos e as taxas no GTR por exemplo.

Porque usar análises Bayesianas


20% 48% 32%

Nós podemos focar em qualquer parâmetro de interesse (não existem parâmetros “sem uso”) marginalizando a probabilidade posterior por sobre outros parâmetros (integrando a incerteza dos outros parâmetros)

(Porcentagens mostram a probabilidade marginal das árvores)


32.048.020.0

38.014.019.005.0

33.006.022.005.0

29.012.007.010.0

3

2

1

321

Probabilidades conjuntas

Probabilidades marginais

árvores

Com

prim

ento

s do

s ra

mos


•Capaz de implementar modelos altamente parametrizados.

•A estimativa da incerteza da árvore e a hipótese filogenética são obtidas ao mesmo tempo.

•As probabilidades posteriores são de interpretação intuitiva

•Pode incorporar conhecimento prévio a respeito do problema (através do Prior)

Possível problema

Os Priors!

Métodos estatísticos II Almir R. Pepato (Aula preparada com a ajuda daquelas disponibilizadas por Fred(rik) Ronquist)

Documents