LA IDENTIDAD DE LOS FRAGMENTOS DE DNA LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Ramon Rosselló-Móra Marine Microbiology Group Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB) Institut Mediterrani d’Estudis Avançats (CSIC-UIB)
31
Embed
LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
LA IDENTIDAD DE LOS FRAGMENTOS DE DNALA IDENTIDAD DE LOS FRAGMENTOS DE DNA
Ramon Rosselló-MóraRamon Rosselló-Móra
Marine Microbiology GroupMarine Microbiology Group
Descubrimiento del DNADescubrimiento del DNAhibridaciones DNA-DNAhibridaciones DNA-DNA
Análisis del GCAnálisis del GC
90’s90’s
use del RNAr como use del RNAr como cronómetro molecularcronómetro molecular
>00’s>00’s
Genómica y Genómica y metagenómicametagenómica
(Venter)(Venter) (Bergey)(Bergey)
(Woese)(Woese) (Watson & Crieg)(Watson & Crieg)
La definición de unidad va mejorando con el desarrollo tecnológicoLa definición de unidad va mejorando con el desarrollo tecnológico
¿qué es una especie?¿qué es una especie?
El concepto de especie en TAXONOMÍAEl concepto de especie en TAXONOMÍA
¿qué es una especie?¿qué es una especie?
CONCEPTOCONCEPTO
ESPECIE (concepto ESPECIE (concepto filo-fenéticofilo-fenético))
““es una categoría que circunscribe (preferentemente) es una categoría que circunscribe (preferentemente) grupos genómicos coherentes grupos genómicos coherentes
y monofiléticosy monofiléticos de aislados/cepas individuales que comparten de aislados/cepas individuales que comparten un elevado grado de un elevado grado de
similitudsimilitud en (muchos) caracteres independientes, comparados utilizando métodos en (muchos) caracteres independientes, comparados utilizando métodos
Se pretende asumir el filotipo como especie basada en 16S RNAr Se pretende asumir el filotipo como especie basada en 16S RNAr
En general dos organismos con <97% identidad pertenecen a especies distintasEn general dos organismos con <97% identidad pertenecen a especies distintasLo contrario no es ciertoLo contrario no es cierto
one species with genomic and one species with genomic and phylogenetic heterogeneityphylogenetic heterogeneity
several species with identical or several species with identical or nearly identical 16S rRNAnearly identical 16S rRNA
Se pretende asumir el filotipo como especie basada en 16S RNAr Se pretende asumir el filotipo como especie basada en 16S RNAr
En general dos organismos con <97% identidad pertenecen a especies distintasEn general dos organismos con <97% identidad pertenecen a especies distintasLo contrario no es ciertoLo contrario no es cierto
even extreme cases where a single even extreme cases where a single strain may contain different 16S rRNA strain may contain different 16S rRNA genes even below 97% similarity!!!!genes even below 97% similarity!!!!
La identidad basada en RNAr 16S ambiental, muy probablemente se limite a filotiposLa identidad basada en RNAr 16S ambiental, muy probablemente se limite a filotipos
4 filos concentran el 87% de los taxones descritos4 filos concentran el 87% de los taxones descritos
La mayor parte de origen clínicoLa mayor parte de origen clínico
Hugenholz et al. 2002 AEM 18: 4765-4774Hugenholz et al. 2002 AEM 18: 4765-4774
Yarza et al. 2008 System Appl Microbiol 31: 241-250Yarza et al. 2008 System Appl Microbiol 31: 241-250
Identificación de un DNA ambientalIdentificación de un DNA ambiental
a nivel de especie poco probablea nivel de especie poco probable
hay 4 grupos que tienen la mayoria de aisladoshay 4 grupos que tienen la mayoria de aislados
información metabólicainformación metabólica
información genéticainformación genética
otros filos => difícil especular otros filos => difícil especular
Una secuencia no garantiza identificar el metabolismo y genéticaUna secuencia no garantiza identificar el metabolismo y genética
El concepto de genoma de una especieEl concepto de genoma de una especie
Genes “core” esenciales y Genes “core” esenciales y con señal filogenéticacon señal filogenética
Genes “auxiliares” no Genes “auxiliares” no presentes en todos las presentes en todos las
poblaciones y con poca señal poblaciones y con poca señal filogenéticafilogenética
Genes “específicos” de Genes “específicos” de población y sin señal población y sin señal
filogenéticafilogenética
Lan and Reeves. 2000 TRENDS Microbiol 8: 396-401Lan and Reeves. 2000 TRENDS Microbiol 8: 396-401
Otras moléculas con señal filogenéticaOtras moléculas con señal filogenética
Características de una molecula como reloj molecularCaracterísticas de una molecula como reloj molecular
Se pueden seleccionar genes específicos de grupo (e.g. filo) y no universalesSe pueden seleccionar genes específicos de grupo (e.g. filo) y no universales
constancia funcional constancia funcional
conservación en la secuencia suficiente para la reconstrucciónconservación en la secuencia suficiente para la reconstrucción
suficiente complejidad para tener señal filogenéticasuficiente complejidad para tener señal filogenética
Ludwig and Schleifer. 2005 Microbial phylogeny and Ludwig and Schleifer. 2005 Microbial phylogeny and evolution (Sapp) 70-98. (Oxford University Press)evolution (Sapp) 70-98. (Oxford University Press)
Marcadores que dan soporte a la filogenia globalMarcadores que dan soporte a la filogenia global
RNAr 16SRNAr 16S
RNAr 23SRNAr 23S
EF-Tu (EF-Tu (algunos filos son parafiléticos e.g. algunos filos son parafiléticos e.g. Actinobacteria Actinobacteria yy Streptomyces Streptomyces))
RNA polimerasa rpoB RNA polimerasa rpoB (algunos filos (algunos filos parafiléticos e.g. parafiléticos e.g. EpsilonproteobacteriaEpsilonproteobacteria y resto y resto ProteobacteriaProteobacteria))
Heat Shock Hsp60 Heat Shock Hsp60 ((BacteriaBacteria: GroEL, : GroEL, ArchaeaArchaea: : Tf-55; tambien algunos parafiléticos)Tf-55; tambien algunos parafiléticos)
Marcadores que NO dan soporte a la filogenia globalMarcadores que NO dan soporte a la filogenia global
ATPasasATPasas
DNA girasasDNA girasas
Hsp70Hsp70
RecARecA
De todos modos, si tienen señal a niveles más De todos modos, si tienen señal a niveles más concretos y pueden dar una idea de la identidadconcretos y pueden dar una idea de la identidad
Filogenia con genes funcionales de Filogenia con genes funcionales de S. ruberS. ruber cepa M8 cepa M8
house keeping geneshouse keeping genes dificultades en el diseño de cebadoresdificultades en el diseño de cebadores biases en la selección de genesbiases en la selección de genes más trabajosomás trabajoso
(Stackebrandt et al. 2002. IJSEM. 52:1043-1047)(Stackebrandt et al. 2002. IJSEM. 52:1043-1047)
0102030405060708090
100
4 8 12 16
Boot
stra
p
Number of genes
Selecciones al azar deSelecciones al azar de 2222 genesgenes ►►checking branching robustnesschecking branching robustness►►1212 genes give thegenes give the minimalminimal reliabilityreliability►►el diseño de cebadores no es siempre fácilel diseño de cebadores no es siempre fácil
DDHDDH será menos preciso peroserá menos preciso pero más parsimoniosomás parsimonioso
Sória-Carrasco et al. 2007. System Appl Microbiol. Sória-Carrasco et al. 2007. System Appl Microbiol. 30: 171-17930: 171-179
El valor de los análisis multilocus (MLSA)El valor de los análisis multilocus (MLSA)
El problema de la pérdida de identidad por transferencia horizontal de genes (HGT)El problema de la pérdida de identidad por transferencia horizontal de genes (HGT)
Kunin et al. 2005. Genome Res. 15:954-959 Kunin et al. 2005. Genome Res. 15:954-959
Las incongruencias filogenéticas Las incongruencias filogenéticas
hacen pensar en una transferencia hacen pensar en una transferencia horizontal exagerada que desdibuja la horizontal exagerada que desdibuja la
filogenia de los organismosfilogenia de los organismos
Doolittle y otros Doolittle y otros
DOS ESCUELASDOS ESCUELAS
Las incongruencias filogenéticas Las incongruencias filogenéticas
Se pueden explicar por Se pueden explicar por
►►eventos de duplicaciones (paralogías) eventos de duplicaciones (paralogías) y pérdida de genes (hidden paralogy)y pérdida de genes (hidden paralogy)
► ►
► ►
La solución es siendo más estricto en la La solución es siendo más estricto en la selección de genes y en la asignación selección de genes y en la asignación
El problema de la pérdida de identidad por transferencia horizontal de genes (HGT)El problema de la pérdida de identidad por transferencia horizontal de genes (HGT)
Sensory rhodopsinsSensory rhodopsins
BacteriorhodopsinsBacteriorhodopsins
HalorhodopsinsHalorhodopsins
ProteorhodopsinsProteorhodopsins
XanthorhodopsinsXanthorhodopsins
Salinibacter M8 & M31 encode for 4 rhodopsinsA medida que se van secuenciando A medida que se van secuenciando DNA ambientales aparecen más y DNA ambientales aparecen más y más proteorhodopsinas (hasta en más proteorhodopsinas (hasta en
euriarcheotas) que se atribuyen a una euriarcheotas) que se atribuyen a una enorme tasa de HGTenorme tasa de HGT
Si los 3 tipos de proteorhodopsinas se consideraran Si los 3 tipos de proteorhodopsinas se consideraran distintos genes (como el resto), probablemente se distintos genes (como el resto), probablemente se
hablaría de un ancestro común y no de HGThablaría de un ancestro común y no de HGT
200 l agua de mar200 l agua de mar
2 millones de secuencias (media de 800 bases)2 millones de secuencias (media de 800 bases)
La probabilidad de encontrar un gen con señal filogenéticaLa probabilidad de encontrar un gen con señal filogenética
Venter: Global Ocean Sampling (Venter: Global Ocean Sampling (Rusch et al., 2007. PLoS Biol. 5:398-431Rusch et al., 2007. PLoS Biol. 5:398-431) random sequencing) random sequencing
fósmido ►100 orfs fósmido ►100 orfs ΞΞ 10% contendrá un RNAr 16S (o marcador filogenético) 10% contendrá un RNAr 16S (o marcador filogenético)
cósmido ►40 orfs cósmido ►40 orfs ΞΞ 4% contendrá un RNAr 16S (o marcador filogenético) 4% contendrá un RNAr 16S (o marcador filogenético)
Valores semejantes se obtendrán para otros genes con pocos parálogosValores semejantes se obtendrán para otros genes con pocos parálogos
Si hay 34 ortólogos universales Si hay 34 ortólogos universales ΞΞ 3.5% de los genes (29/1000) 3.5% de los genes (29/1000)
Aumentan mucho las posibilidades de encontrar un gen con señal en un fósmidoAumentan mucho las posibilidades de encontrar un gen con señal en un fósmido
Asignación por tetranucleótidos (Asignación por tetranucleótidos (Teeling et al., 2004 Environ Microbiol. 6:938-947Teeling et al., 2004 Environ Microbiol. 6:938-947 ) targeted metagenome ) targeted metagenome librarieslibraries
si un genoma tiene 4 Mbsi un genoma tiene 4 Mb fósmido ►100 orfs fósmido ►100 orfs ΞΞ 10% contendrá un RNAr 16S (o marcador filogenético) 10% contendrá un RNAr 16S (o marcador filogenético)
cósmido ►40 orfs cósmido ►40 orfs ΞΞ 4% contendrá un RNAr 16S (o marcador filogenético) 4% contendrá un RNAr 16S (o marcador filogenético)
Ambas aproximaciones concuerdan con una media de genoma de 4MbAmbas aproximaciones concuerdan con una media de genoma de 4Mb
La precisión en la identificación depende de lo extensa que sea la base de datosLa precisión en la identificación depende de lo extensa que sea la base de datos
Si el fragmento de metagenoma no contiene marcador filogenéticoSi el fragmento de metagenoma no contiene marcador filogenético
Codon usage Codon usage ► equivalente a trinucleotidos ► mayor información► equivalente a trinucleotidos ► mayor información
Tetranucleótidos (penta-, hexa-…) Tetranucleótidos (penta-, hexa-…) ►mayor información, pero mayor coste de cálculo►mayor información, pero mayor coste de cálculo
Variaciones de tetranucleótidos: 4Variaciones de tetranucleótidos: 444 = 256 = 256
Se puede realizar la regresión de las frecuencias de uso de tetranucleótidosSe puede realizar la regresión de las frecuencias de uso de tetranucleótidos
Índice de regresiónÍndice de regresión
dos genomas semejantes tienen frecuencias semejantes (buena correlación; e.g. 0.89)dos genomas semejantes tienen frecuencias semejantes (buena correlación; e.g. 0.89)
dos genomas distintos tienen frecuencias distintas (mala regresión; e.g. 0.45)dos genomas distintos tienen frecuencias distintas (mala regresión; e.g. 0.45)
Se puede realizar la regresión de las frecuencias de uso de tetranucleótidosSe puede realizar la regresión de las frecuencias de uso de tetranucleótidos
Teeling et al., 2004 Environ Microbiol. 6:938-947Teeling et al., 2004 Environ Microbiol. 6:938-947
En un grupo de clones de metagenoma se puede observar cuáles pueden ser asignados a En un grupo de clones de metagenoma se puede observar cuáles pueden ser asignados a un mismo genoma o de organismos muy semejantesun mismo genoma o de organismos muy semejantes
Probablemente de un Probablemente de un mismo genoma u mismo genoma u
organismoorganismo
Dos poblaciones de una misma especie pueden no compartir orfsDos poblaciones de una misma especie pueden no compartir orfs
Peña et al., manuscrito en preparaciónPeña et al., manuscrito en preparación
Si los fragmentos de DNA no compartidos tienen una misma frecuencia de uso, se puede Si los fragmentos de DNA no compartidos tienen una misma frecuencia de uso, se puede hipotetizar una identidad semejantehipotetizar una identidad semejante
si se encuentra un gen codificante para 16S rRNA ► buena precisión si se encuentra un gen codificante para 16S rRNA ► buena precisión > 300,000> 300,000 secuencias en bases de datos secuencias en bases de datos
otros marcadores universales:otros marcadores universales:
23S ► precisión adecuada 23S ► precisión adecuada > 12,506> 12,506 secuencias en bases de datos secuencias en bases de datos
otros genes esenciales ► poco precisa por falta de entradas en bases de datosotros genes esenciales ► poco precisa por falta de entradas en bases de datos
otros marcadores no universales:otros marcadores no universales:
depende del grupo y la exhaustividad en el estudio ► depende del grupo y la exhaustividad en el estudio ► ProteobacteriaProteobacteria vs vs AcidobacteriaAcidobacteria
no marcadores ►la signatura de tetranucleótidos puede dar una idea (depende del número de genomas no marcadores ►la signatura de tetranucleótidos puede dar una idea (depende del número de genomas secuenciados)secuenciados)
La identidad depende de haber clasificado anteriormente el organismo; sólo La identidad depende de haber clasificado anteriormente el organismo; sólo 80008000 especies descritas especies descritas
Una hipótesis sobre genética/metabolismo/ecología depende de los conocimientos previos del grupo (i.e. Una hipótesis sobre genética/metabolismo/ecología depende de los conocimientos previos del grupo (i.e. aislados estudiados, información sobre autoecología…)aislados estudiados, información sobre autoecología…)
La identidad de un fragmento de DNALa identidad de un fragmento de DNA
El problema de la pérdida de identidad por transferencia horizontal de genes (HGT)El problema de la pérdida de identidad por transferencia horizontal de genes (HGT)