Temas 20 y 21 Temas 20 y 21 Introducción a la genómica Introducción a la genómica estructural humana estructural humana Curso de Genética Molecular 4º Ciencias Biológicas Universidad de Jaén Antonio Caruz Arcos Dpto. Biología Experimental, Área de Genética Universidad de Jaén
74
Embed
Temas 20 y 21 Introducción a la genómica estructural humana · Temas 20 y 21 Introducción a la genómica estructural humana Curso de Genética Molecular 4º Ciencias Biológicas
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Temas 20 y 21Temas 20 y 21Introducción a la genómicaIntroducción a la genómica
estructural humanaestructural humanaCurso de Genética Molecular
4º Ciencias BiológicasUniversidad de Jaén
Antonio Caruz ArcosDpto. Biología Experimental, Área de Genética
19771977 SangerSanger descubre un método para la descubre un método para la secuenciación de ADN utilizando secuenciación de ADN utilizando ddNTPsddNTPs
19781978 El primer gen humano es identificado y El primer gen humano es identificado y secuenciadosecuenciado
19791979 Secuenciación del virus SV40Secuenciación del virus SV401981 Secuenciación del ADN 1981 Secuenciación del ADN mitocondrial mitocondrial
humanohumano1982 Secuenciación del bacteriófago lambda1982 Secuenciación del bacteriófago lambda1983 Descubrimiento del método 1983 Descubrimiento del método shotgunshotgun1991 Desarrollo de bancos de 1991 Desarrollo de bancos de ESTsESTs
1980 Mapas genéticos de levadura, nematodo y humano para clonación posicional
Nota técnica: Secuenciación capilarNota técnica: Secuenciación capilarELECTROFORESIS CAPILARELECTROFORESIS CAPILAR
capilares
matriz de gel
Nota técnica: PirosecuenciaciónNota técnica: PirosecuenciaciónStep 1A sequencing primer is hybridized to a single stranded, PCR amplified, DNA template, andincubated with the enzymes, DNA polymerase, ATP sulfurylase, luciferase and apyrase, and the substrates, adenosine 5´ phosphosulfate (APS) and luciferin.
Step 2The first of four deoxynucleotide triphosphates(dNTP) is added to the reaction. DNA polymerasecatalyzes the incorporation of the deoxynucleotide triphosphate into the DNA strand, if it is complementary to the base in the template strand.Each incorporation event is accompanied by release of pyrophosphate (PPi) in a quantity equimolar to theamount of incorporated nucleotide.
Step 3ATP sulfurylase quantitatively converts PPi to ATP in thepresence of adenosine 5´ phosphosulfate. This ATP drivesthe luciferase-mediated conversion of luciferin to oxyluciferin that generates visible light in amounts that areproportional to the amount of ATP. The light produced in the luciferase-catalyzed reaction is detected by a charge coupled device (CCD) camera and seen as a peak in apyrogram™. Each light signal is proportional to the number of nucleotides incorporated.
Nota técnica: PirosecuenciaciónNota técnica: Pirosecuenciación
Step 4Apyrase, a nucleotide degrading enzyme, continuously degradesunincorporated dNTPs and excessATP. When degradation is complete,another dNTP is added.
Step 5Addition of dNTPs is performed one at a time. It should be noted that deoxyadenosine alfa-thio triphosphate (dATP S) is used as a substitute forthe natural deoxyadenosine triphosphate (dATP)since it is efficiently used by the DNA polymerase,but not recognized by the luciferase.As the process continues, the complementary DNAstrand is built up and the nucleotide sequence is determined from the signal peak in the pyrogram.
19841984--86 (US 86 (US National Research CouncilNational Research Council))
La visión global del genoma permitirá acelerar la La visión global del genoma permitirá acelerar la investigación biomédica permitiendo a los investigadores investigación biomédica permitiendo a los investigadores abordar los problemas con una visión amplia no sesgada.abordar los problemas con una visión amplia no sesgada.
Necesitaría un esfuerzo global en Necesitaría un esfuerzo global en infraestructura y división de tareas.infraestructura y división de tareas.
3000 millones de dólares de presupuesto inicial3000 millones de dólares de presupuesto inicial
(AVE Madrid(AVE Madrid--Lleida Lleida 4.200 ME, presupuesto ministerio de 4.200 ME, presupuesto ministerio de defensa español 6.300 ME, reconstrucción defensa español 6.300 ME, reconstrucción
de Irak 20.000 ME)de Irak 20.000 ME)
Desarrollo temporalDesarrollo temporal
Comienzo en USAColección genes
humanos(30,181 genes)
Objetivomapa
genético humanoalcanzado
Mapafísico 98%genoma
Inicioproyectopiloto de
secuenciaciónNRCRecomendación
PGH
1990 1995 2000
Borrador humano
Levadura E. coli C. elegans Drosophila Arabidopsis
Secuenciacióna gran escala
EstrategiaEstrategias des de secuenciación genoma humanosecuenciación genoma humano
La tecnología de los cromosomas artificiales de La tecnología de los cromosomas artificiales de bacterias fueron desarrollados a principios de bacterias fueron desarrollados a principios de los 90los 90
Presenta las siguientes ventajas:Presenta las siguientes ventajas:
1.1. Mayores tamaños (50Mayores tamaños (50--300 300 KbKb))
2.2. Más estables que los Más estables que los YACs YACs (1(1--2 copias por 2 copias por célula), presentan baja tasa de recombinación y célula), presentan baja tasa de recombinación y reorganizaciones en casos de tramos altamente reorganizaciones en casos de tramos altamente repetitivos.repetitivos.
3.3. Crecen más deprisa que los Crecen más deprisa que los YACsYACs
4.4. Más fácil preparación del ADNMás fácil preparación del ADN
5.5. Permite un eficaz escrutinio mediante Permite un eficaz escrutinio mediante hibridación o PCR.hibridación o PCR.
6.6. Posibilidad de selección por color de clones Posibilidad de selección por color de clones recombinantesrecombinantes
7.7. Sitio de clonación múltiple muy completoSitio de clonación múltiple muy completo
Lim, J. K. & Simmons, M. J. Gross chromosome rearrangements mediated by transposable elements in Drosophila melanogaster. Bioessays 16, 269-275 (1994).
Zhang, J. & Peterson, T. Genome rearrangements by non-linear transposons in maize. Genetics 153, 1403-1410 (1999).
ADN altamente repetido en el genoma humano:ADN altamente repetido en el genoma humano:TransposonesTransposones
0
5
10
15
20
25
30
35
40
45
HOMO DROSOPHILA CAENORHABDITIS MUS
LINE/SINELTRDNATOTAL
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921 (2001).
Mouse Genome Sequencing Consortium. Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562 (2002).
Edad de los tEdad de los transposonesransposones
Deininger P & Batzer M. Mammalian retroelements. Genome Research, 12, 1455 –1465 (2002).
TransposonesTransposones en el genoma:en el genoma:Historia de la humanidadHistoria de la humanidad
Ventajas LINES como herramientas Ventajas LINES como herramientas evolución humanidadevolución humanidad
1. Diagnóstico simple por PCR
2. Polimorfismos estables
3. La presencia indica identidad de antepasados (probababilidadcasi cero de identidad de inserción)
4. La ausencia indica el origen del árbol filogenético
5. Pueden ser incluso específicos de una sola familia
Distribución de Distribución de transposones transposones en el genoma:en el genoma:Identificación de grandes zonas reguladorasIdentificación de grandes zonas reguladoras
Variación en la distribución de las repeticiones
Genes Hox DGen Zfhx1bRatónHombre
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921 (2001).
Mouse Genome Sequencing Consortium. Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562 (2002).
Unidad repetida: 1Unidad repetida: 1--13pb13pbTamaño < 150pbTamaño < 150pbFunción: variable y no del todo Función: variable y no del todo conocidaconocida
Unidad repetida: 14Unidad repetida: 14--500 pb500 pbTamaño hasta 20 Tamaño hasta 20 KbKbFunción: Variable y no del todo Función: Variable y no del todo conocida (pe. conocida (pe. telómerostelómeros))
Unidad repetida: <5 hasta > 200 Unidad repetida: <5 hasta > 200 pbpbTamaño hasta Tamaño hasta MbMbFunción: Variable y no del todo Función: Variable y no del todo conocida (pe. Centrómeros)conocida (pe. Centrómeros)
RepeticionesSimples (SSR)3% del genoma
RepeticionesSimples (SSR)3% del genoma
Microsatélites
MinisatélitesMinisatélites
Satélites
Otros elementos repetidos en Otros elementos repetidos en tandemtandem
El proyecto ha ampliado el nºEl proyecto ha ampliado el nº
1.1. Marcadores genéticos muy Marcadores genéticos muy polimórficos (genética forense)polimórficos (genética forense)
2.2. Asociados a enfermedades Asociados a enfermedades (síndrome X(síndrome X--frágil)frágil)
3.3. Importantísimos en clonación Importantísimos en clonación posicionalposicional
AC AT AG GC AAT AAC AGG AAG ATG CGG ACC AGC ACT ACG
0
5
10
15
20
25
30
Unidad repetida
Núm
ero
SSR
por
Mb
Genotipado Genotipado a gran escalaa gran escala((Applied BiosystemsApplied Biosystems))
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921
(2001).
Secuencias repetidas simples y enfermedadesSecuencias repetidas simples y enfermedades
Ashley CT & Warren ST. Trinucleotide Repeat Expansion and Human Disease. Ann. Rev. Genetics, 29, 703-728 (1995).
Tres tipos de localización
Regiones 5´UTR
Regiones 3´UTR
Regiones codificantes
(poliglutamina)
Duplicación de segmentosDuplicación de segmentos1. Transferencia de bloques de 1-200 Kb entre cromosomas2. Desordenados (generación independiente de crossing-over desigual)3. Muy recientes (conservación >95%)
9,5 Kb del locus ALD-X
IntracromosómicasIntercromosómicas
200 Kb 99% homología
24 Kb 99% homología
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921 (2001).
Venter C et al. The sequence of the human genome. Science, 291, 1304-1351 (2001).
Duplicación de segmentosDuplicación de segmentosOrigen de enfermedades por microdeleciones cromosómicas
1.1. Síndrome de Síndrome de delecióndeleción 22q11 22q11
2.2. Síndrome de Síndrome de Angelman Angelman
3.3. Síndrome Síndrome PraderPrader--Willi Willi
4.4. Síndrome de Síndrome de WilliamsWilliams
5.5. Síndrome de SmithSíndrome de Smith--MagenisMagenis
Shaffer LG & Lupski J. Molecular mechanisms for constitutional chromosomal Rearrangements in humans. Ann. Rev. Genetics, 34, 297-329 (2000).
Duplicación de segmentosDuplicación de segmentos
Plasticidad en las regiones pericentroméricas y subteloméricas
Chr.22: 5% del cromosoma (centrómero) contiene el 50% de las duplicaciones y la región subtelomérica está constituida sólo con duplicaciones de otros cromosomas
1. Las duplicaciones son muy recientes (95-100% homología)2. Diferentes duplicaciones separadas por minisatélites (ricos en AT ó GC)
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921 (2001).
Venter C et al. The sequence of the human genome. Science, 291, 1304-1351 (2001).
Número de genesNúmero de genesGen: fragmento de ácido nucleico que determina una función biolóGen: fragmento de ácido nucleico que determina una función biológicagica
LiLi y Grau (1991): un gen es una secuencia de ADN o ARN que es y Grau (1991): un gen es una secuencia de ADN o ARN que es esencial para una función específica, bien sea en el desarrollo esencial para una función específica, bien sea en el desarrollo o en el o en el
mantenimiento de la función fisiológica normal.mantenimiento de la función fisiológica normal.
La realización de esta función no requiere de la traducción del gen ni tan siquiera su transcripción:
1. Los genes que codifican para proteínas 2. ARNs específicos que solo se transcriben
3. Los genes reguladores sin transcriptos, tales como los inicios de replicación (que especifican el sitio de iniciación y terminación de la replicación del ADN)
Número de genesNúmero de genes
Muy controvertidoMuy controvertido
Incyte corporation (1999): datos de EST e islas G+C 142.634
Chaudhari et al (1993): EST del cerebro >100.000
Ewing y Green (2000): EST y extrapolación datos ch22 35.000
Roest et al. (2000): comparación con otros eucariotas 35.000
Identificación de genes individualesIdentificación de
genes individualesIdentificación de
la estructurade los genes
Identificación de la estructurade los genes
Dos problemasDos problemas
Número de genesNúmero de genes
ARNm codificante proteínas
ARNm codificante proteínas
ARN no-codificante proteínas
ARN no-codificante proteínas
ARNtransferente
ARNtransferente
ARNsmall
nucleolar
ARNsmall
nucleolar
ARN7SL trans. proteínas
ARN7SL trans. proteínas
ARNsplicingARN
splicing
ARNmensajero
no-codificante
ARNmensajero
no-codificante
ARNribosómico
ARNribosómico
ARNTelomerasa
ARNTelomerasa
Transcripción (7SK)
Coactivador receptor esteroides (SRA)
Silenciamiento Ch X (XIST)
Imprinting (AIR)
Estabilidad ARNm (Ryhb de E. coli)
Traducción (Lin-4 de C. elegans)
Estabilidad de proteínas (ARNtm)
En ratónEn ratón
33.409 unidades de
33.409 unidades de transcripcióntranscripción
11.665 ARN no
11.665 ARN no codificantescodificantes!!!!!!
The The Phantom consortium
Phantom consortium, Nature 2002, Nature 2002
Genes conocidos Genes conocidos codificantescodificantes para proteínaspara proteínasRefseq databaseRefseq database
16% tienen homología con diferentes partes del genoma (parálogos)Variabilidad enorme en tamaño de los genes y los intronesDistrofina tiene 2.400.000 pbTitin tiene 80.780 pb de ORF, 254 exones (17.106 pb)
Comparación con otros Comparación con otros eucariotaseucariotas
Genes conocidos Genes conocidos codificantescodificantes para proteínaspara proteínas
Contenido en genes en función del % G+C
Tamaño Tamaño exonesexonese e intrones intrones en en
función del contenidofunción del contenidode G+Cde G+C
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921 (2001). Venter C et al. The sequence of the human genome. Science, 291, 1304-1351 (2001).
Genes conocidos Genes conocidos codificantescodificantes para proteínaspara proteínasGC-AG0,76%
AT-AC0,1%
GT-AG99%
GC-AG0,76%
AT-AC0,1%
GT-AG99%
Uso de secuencias Uso de secuencias donadoras y donadoras y aceptoras aceptoras de de
splicingsplicing
Splicing Splicing alternativoalternativo
Genes con SplicingHomo Genes con Splicing
C. elegans UTRsPoliadenilación
alternativa
C1
70
22 20 24
0
10
20
30
40
50
60
70
Genes con SplicingHomo Genes con Splicing
C. elegans UTRsPoliadenilación
alternativa
C1
70
22 20 24
0
10
20
30
40
50
60
70 1,34X
3,4X
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921 (2001). Venter C et al. The sequence of the human genome. Science, 291, 1304-1351 (2001).
Propiedades de los genes codificantes Propiedades de los genes codificantes en eucariotas superioresen eucariotas superiores
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921 (2001).
Distribución de homólogos de proteínas humanasDistribución de homólogos de proteínas humanas
Procariotas sólo>1% Eucariotas
y procariotas21%
Vertebrados sólo22%
Vertebrados yotros animales
24%Sin homología
1%
Animales yotros eucariotas32%
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921 (2001).
Nuevos dominios proteicos en vertebradosNuevos dominios proteicos en vertebrados
Inmunidad adquirida
Estructurafunción
y desarrollo neuronal
Señalización inter e intracelular en desarrollo
Hemostasia Apoptosis
Venter C et al. The sequence of the human genome. Science, 291, 1304-1351 (2001).
Adquisiciones de genes bacterianosAdquisiciones de genes bacterianos
Proteína Humana
Función potencial
Ortólogos en
vertebrados
Rango de especies
bacterianas
Genero con máxima
homología
Confirmado por PCR
1 Ciclodeaminasa Cerdo, ratón, pollo
Generalizado Termotoga Si
2 Cotransportador Na/glucosa
Ungulados, roedores
Generalizado Vibrio Si
3 Hidrolasa epoxidos
Roedores, peces
Generalizado Pseudomonas Si
4 Oxidorreductasa metionina
Vaca Generalizado Synechocystis Si
5 Monoamino oxidasa
Ungulados, roedores,
peces
Generalizado Mycobacterium Si
6 ADP-ribosil glicohidrolasa
No Streptomyces, Aquifex
S. coelicolor Si
7 Timidina fosforilasa
No Generalizado Haemophilus influenzae
Si
8 Metal binding-protein
No Generalizado Borrelia Si
9 Hidrolasa α/β No Rickettsia R. prowazekii Si 10 Histona M-2cA
fosfatasa No Thermotoga,
Alcaligenes T. marítima
Virus de ARN Si Discusión
1. ¿Genes perdidos en eucariotas invertebrados?2. ¿Mecanismo?
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921 (2001).
99% genes ortólogos en posiciones sinténicas
Variación en la conservación de secuencia a lo largo de Variación en la conservación de secuencia a lo largo de un gen hipotéticoun gen hipotético
Alineamiento de 3165 Alineamiento de 3165 ARNm ARNm de posición conocida en el de posición conocida en el genoma humano y de ratóngenoma humano y de ratón
The Fantom Consortium and the RIKEN genome exploration research group phase I & II team. Analysis of the mouse transcriptome based on functional annotation of 60.770 full-length cDNAs. Nature 420, 563-573. (2002).
Conservación de secuencia:Conservación de secuencia:inicio inicio transcripción transcripción y y
Polimorfismos Polimorfismos de un solo de un solo nucleótidonucleótido Single Single nucleotide nucleotide polimorphismspolimorphisms ((SNPsSNPs))
Cromosoma de la persona A
Cromosoma de la persona B
A - TC - GC - GT - AT - A
Fenotipo = Fenotipo?
un cambio cada 1000 nucleótidos
Mutación versus polimorfismoMutación versus polimorfismoDefinición indefinida
Mutación (<1%) Polimorfismo (1%)
0.90 0.10,0010.999PolimorfismoMutación Población
generalPoblacióngeneral
AA 0.998AC 2x10-3
CC 10-6
AA 0.998AC 2x10-3
CC 10-6
GG 0.81GA 0.18AA 0.01
GG 0.81GA 0.18AA 0.01
Características de los Características de los SNPsSNPs
SNPs cromosoma SNPs cromosoma 11
1.1. Los Los humanoshumanos compartencomparten el 99,9% de la el 99,9% de la informacióninformación genéticagenética
2.2. Hay un SNP Hay un SNP por cada por cada 1000 pb 1000 pb aproximadamenteaproximadamente
3.3. 90% de la 90% de la variabilidad genética variabilidad genética se se corresponde corresponde con con SNPsSNPs
4.4. El El genomagenoma humanohumano contienecontiene másmás de 2 de 2 millonesmillones de de SNPsSNPs ~21,000 de ~21,000 de los cuales los cuales se se encuentran encuentran en en los los genesgenes
5.5. SNPs que cambian SNPs que cambian un un aminoácido aminoácido 0,17% de 0,17% de los cuales los cuales no no conservativos conservativos son son sólo sólo el 0,07%el 0,07%
¡¡FuncionalmenteFuncionalmente la la variabilidad humana es incluso menorvariabilidad humana es incluso menor!!International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921 (2001).
Características de los Características de los SNPsSNPsClase de región genómica
Talla de la región (Mb)
Densidad (SNP/Mb)
Intergénica 2185 707
Intrones 615 921
Primer intrón 164 808
Exón 31 529
Primer exón 10 592
Región genómica IL4 (chr.5)
Venter C et al. The sequence of the human genome. Science, 291, 1304-1351 (2001).
SNPs SNPs y fenotipoy fenotipo
SNPsSNPs1.1. Dentro Dentro de un de un exón codificanteexón codificante: : puede alterar puede alterar la la
estructura estructura de la de la proteínaproteína
2.2. En la En la regiregióón reguladoran reguladora PuedePuede afectarafectar la la expresiexpresióónncuantitativacuantitativa o o temporalmentetemporalmente
3.3. Regiones intergRegiones intergéénicas nicas no no reguladorasreguladoras Marcadores Marcadores gengenééticos para anticos para anáálisis lisis de de ligamiento ligamiento con con fenotipos fenotipos mutantes mutantes ((enfermedadesenfermedades))
Proyecto Genoma HumanoProyecto Genoma HumanoPerspectivas en
Biología y Medicina
Proyecto Genoma Humano y BiologíaProyecto Genoma Humano y BiologíaPerspectivasPerspectivas
Identificar los componentes estructurales y funcionales codificados por el genoma humano
GENÓMICACOMPARATIVA
FUNCIÓN
DOBLEHÍBRIDO
MALDITOF
ARNi
EXPRESIÓNTISULAR NORMAL/ENFERMEDADES
TRANSCRIPTOMA
MOTIVOS DESECUENCIA
RATONESKNOCK-OUT
GENÓMICACOMPARATIVA
FUNCIÓN
DOBLEHÍBRIDO
MALDITOF
ARNi
EXPRESIÓNTISULAR NORMAL/ENFERMEDADES
TRANSCRIPTOMA
MOTIVOS DESECUENCIA
RATONESKNOCK-OUT
Debouck C, Goodfellow PN. DNA microarrays in drug discovery and development. Nat Genet. 21(1 Suppl):48-50. (1999).
La organización de las redes de información genética y establecer como contribuyen al fenotipo celular y
orgánico
Proyecto Genoma Humano y BiologíaProyecto Genoma Humano y BiologíaPerspectivasPerspectivas
Alg
oritm
o ge
nétic
o
Proyecto Genoma Humano y BiologíaProyecto Genoma Humano y BiologíaPerspectivasPerspectivas
Catalogar toda la variabilidad genética de la humanidad
Determinar la base molecular del fenotipo, muchos SPNs se asocian a enfermedades, pero no se conoce porqué influyen en la expresión fenotípica
Proyecto Genoma Humano y BiologíaProyecto Genoma Humano y BiologíaPerspectivasPerspectivas
Comprender los mecanismos evolutivos
¿Qué nos hace humanos?
Proyecto Genoma Humano y MedicinaProyecto Genoma Humano y MedicinaPerspectivasPerspectivas
Desarrollar nuevas estrategias para la identificación de los componentes genéticos que contribuyen al desarrollo de
enfermedades y respuesta a drogas.
Proyecto Genoma Humano y MedicinaProyecto Genoma Humano y MedicinaPerspectivasPerspectivas
Desarrollo de nuevos fármacos contra dianas moleculares identificadas por su patrón de expresión génica.
De la función al genenzima/receptor
micropurificación ensayos funcionales
clonación gen
Del gen a la funcióngenotecas sustracción-específicas de tejido