La teoría de coalescencia - ccg.unam.mxvinuesa/tlem09/docs/TLEM_Coalescencia_0609.pdf · Estadístico de Tajima. Donde, Frecuencias de los sitios polimórficos • Definamos como

La teoría de coalescencia• Proceso estocástico

• Es un linaje de alelos proyectado hacia el pasado (suancestro común mas reciente)

• Aproximación básica usando el modelo de Wright-Fisher

• Modelo probabilístico de una genealogía de una muestrade n genes tomados al azar de una población grande

• Es el avance mas importante de la genética de poblacionesde las últimas 3 décadas. Su uso se refiere a un análisisestadístico ruguroso de diferentes modelos usando datosde poblaciones naturales

• Surgió como una necesidad de estimar parámetros del pasado usando muestras de poblaciones actuales

• Trabajo original de: Kingman, J Appl Prob 19A:27, 1982

Deriva génica: visión del pasado al presente (genética de poblaciones retrospectiva)

Una visión desde la replicación del ADN (Templeton)

Los tiempos de coalescencia son variables aleatorias distribuidos exponencialmente

El tiempo de coalescencia (hasta el MRCA) depende de N

Si tomamos 6 haplotipos en 10 generaciones, un resultado podría ser este

Con los haplotipos que no dejaron descendencia (replicación) y sin ellos coalescencia

La probabilidad de que 2 genes coalezcan

P(2 linajes tengan el mismo padre)y coalezcan

no lo hagan

1/ 2N

1- 1/ 2N

Si consideramos un tercer linaje, la probabilidad de que siendo desciendan

La probabilidad de que 3 genes coalezcan

P(2 linajes tengan el mismo padre)Y coalezcan

No lo hagan

1/ 2N

1- 1/ 2N

Si consideramos un tercer linaje, la probabilidad de que desciendan de diferentes padres sería (1-1/2N) x ((2N-2)/2N) o(1-1/2N) x (1-2/2N)

En general para n linajes

Probabilidad de que n linajes tengan n padres diferentes en la generación previasería:

Y la probabilidad de que los n linajes o genes muestreados tengan n ancestrost generaciones atrás sería:[Pr (n)]t

Probabilidad de que dos genes o linajes no coalezcan en tgeneraciones y coalezcan en la generación t+1

Esta ecuación se puede expresar también como:

Donde x es la ploidía y Nef esel tamaño efectivo de la población

El tiempo promedio a la coalescencia sería entonces

Donde x depende de la ploidía y la forma de herencia y Nef el tamaño efectivo de la población

Probabilidad de que n genes o linajes tengan n-1 ancestros, t+1 generaciones atrás

El n-colescente

Tiempo esperado durante el que hay nlinajes diferentes

La variación entre muestras usando los mismos parámetros en la simulación

Tiempo esperado a la coalescencia de los nlinajes o genes

Para 5 genes el tiempo esperado es 3.2N generaciones

El tiempo total de la coalescencia (Tcen Gillespie) sería:

Partiendo de:

y de:

Para generar estas genealogías podemos usar números aleatorios de una distribución

uniforme entre 0 y 1 y:

Por ejemplo si tenemos una muestra de 6 linajes y el primernúmero aleatorio es x = 0.22, entonces T6 = 0.0166, si el segundoes x = 0.57, T5 = 0.0844, etc.Cada simulación genera una topología diferente para 6.

Los tiempos de coalescencia y el número de mutaciones en la muestra

El tiempo total de coalescencia

Para 4 linajes

El número de mutaciones

El número de sitios segregantesesperado para 4 linajes sería

Si introducimos mutación…1

Caso 1. Coalescencia primero, mutación después


Caso 2. Mutación primero, coalescencia después


Esta última ecuación es igual a la ecuación de la heterocigosidad en elEquilibrio que derivamos antes y donde theta = 2xNef


Donde….

Estimación del MRCA para algunos genes en humanos

Y…

Sería un buen estimador de:

Muestras usando el modelo de Wright-Fisher

La topologíade la coalescencia nos ayuda a entender la historia de la muestra demográfica y evolutivamente si tienen una baja

probabilidad de ser neutras

Ramas internas largas

Ramas externas largas

Si hay 4 mutaciones, en el caso de la izquierda habría dos haplotiposmientras que en el caso de la derecha habrá 4 haplotipos

En el caso neutro, con mutación y deriva, se espera…

Los estimados de π y θ deben de ser iguales en un modelo Wright-Fisher con mutación

Prueba de Tajima

Hipótesis bajo un modelo Wright-Fisher con mutación

Estadístico de Tajima

Donde,

Frecuencias de los sitios polimórficos

• Definamos como el número de sitios segregantes donde la base mutante está en i secuencias y la ancestral en n-i.

• Por otro lado es el número de sitios segregantes donde la frecuencia del alelo es i.

Callitropsis guadalupensis, polimorfismos en dos regiones del cloroplasto

Datos de Rosas, 2008

Distribución de frecuencias de los sitios nucleotídicos polimórficos

Singletons = 105, 301, 842, 1316Doubletons = 333, 442Tenton = 113

Alelos ancestrales: 113 = C; 301= C; 333 = T, etc.

Prueba de Fu y Li

Donde, es el número de singletons de la muestray,

Las relaciones entre los estadísticos de la prueba de Tajima y los de la prueba de Fu y Li

Efecto de distintas historias demográficas neutrales en los patrones de polimorfismo

de ADN

Distintas historias demográficas producen diferentes genealogías

(a) Tamaño constante, (b) Disminución exponencial, (c) Aumento exponencial

Kuhner, 2009, TREE

Efecto de otros mecanismos evolutivos en la topología de la coalescencia para diferentes

regiones del genoma

Coalescencia y recombinación

• La recombinación genera un contexto téorico de la coalescencia que es mas difícil de incorporar en los análisis y generar predicciones.

• En este caso se reconstruyen ARCs (Ancestral Recombination Graphs).

Coalescencia y recombinación…2

Hudson, 1991Oxford Surveys in Evolutionary Biology

Coalescencia y estructura poblacional: la migración genera coalescencias mas recientes y distancias pareadas mayores

Coalescencia y estructura poblacional: la migración genera coalescencias mas recientes y distancias pareadas

mayores…2

(a) Dos poblacionesaisladas

(b) Una población

En ambos casos

4Nu = 5

• La teoría de coalescencia permite hacer inferencias usando hipótesis nulas ad hoc

• Estas inferencias incluyen estimaciones de parámetros y de procesos poblacionales históricos

• El campo se está moviendo hacia generar hipótesis usando simulaciones con el conocimiento de la historia natural de las especies estudiadas

Conclusiones: coalescencia

Sobre la evolución y el origen del AH1N1

Mexico,Texas,NY

California

México 2007 y 2008

BEAST: Bayesian Evolutionary Analysis by Sampling Trees

La topología no está tan bien resuelta

Mexico,Texas,NY

California

México 2007 y 2008

5 mesesLas barras muestran el 95% de la densidad posterior para cada tiempo de divergencia

Se pueden usar distintos modelos de evolución y tasas constantes o no

Evolución del virus del dengueDrummond y Rambaut, 2007

La teoría de coalescencia - ccg.unam.mxvinuesa/tlem09/docs/TLEM_Coalescencia_0609.pdf · Estadístico de Tajima. Donde, Frecuencias de los sitios polimórficos • Definamos como

Documents