Top Banner
June 7, 2022 © 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero
53

June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

Feb 07, 2015

Download

Documents

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Análisis y anotación de genomas

Fernán Agüero

Page 2: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Historia

• Primer proyecto de secuenciación de un genoma: Escherichia coli (US + Japón). Comenzó en 1992 y terminó en 1997. 4.6 MB

• Primer genoma (eubacteria): Haemophilus influenzae (1995). 1.83 MB

• Primer genoma (archaea): Metanococcus jannaschii (1996). 1.6 MB

• Primer genoma (eukarya): Caenorhabditis elegans (). XXX MB

Page 3: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Qué es un genoma?

• Una colección de– genes

• que codifican productos proteicos• que codifican RNAs

– pseudogenes– regiones no codificantes

• regulatorias (expresión)• estructurales

– attachment a matriz nuclear– mitosis / meiosis– elementos repetitivos

Page 4: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Qué es anotar?

• Agregar información, de la manera más confiable y actualizada que se pueda para describir una secuencia

• Información asociada a coordenadas

genómicas (comienzo..fin), a distintos

niveles

• Interpretar la información cruda de secuencia en un marco biológico

Page 5: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Anotación genómica

• Dos niveles de anotación– Estructural: encontrar genes y otros sitios con

relevancia biológica. Armar un modelo del genoma: cada gen/sitio es un objecto asociado a una posición en el genoma

– Funcional: los objetos son utilizados en búsquedas (y experimentos). El objetivo es atribuir información biológica relevante a los objetos.

Page 6: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Más niveles de anotación

• Organismo: fenotipo: morfología, fisiología, comportamiento, respuestas ambientales

• Celula: vías metabólicas, cascadas de señalización, localización subcelular.

• Molecula: sitios de binding, actividad catalítica, estructura tridimensional

• Dominio

• Motif

• Residuo

Page 7: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

De donde proviene la anotación?

• Fuentes utilizadas en la anotación:– publicaciones que reportan nuevas secuencias

– reviews que actualizan periódicamente la anotación de familias o grupos de proteínas

– expertos externos

– análisis de secuencia

Page 8: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Anotación genómica

transcription

RNA processing

translation

AAAAAAA

Genomic DNA

Unprocessed RNA

Mature mRNA

Nascent polypeptide

folding

Reactant A Product BFunction

Active enzyme

ab initio gene prediction

Functional identification

Gm3

Comparative gene prediction

Page 9: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Annotation & functional genomics

Gene Knockout

Expression Microarray

RNAi phenotypes

proteome based functional genomics

La anotación del genoma es esencial en el desarrollo de estrategias funcionales (functional genomics)

Page 10: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Anotación: busqueda de genes

• Buscar genes en el genoma– RNA

• ribosomal RNAs BLASTN• tRNAs tRNAscan

– protein coding• ab initio gene prediction ORFs, codon usage, frecuencia de

hexámeros, modelos, etc.)• similarity BLASTX, otros

• Buscar regiones no codificantes– regulatorias

• ab initio Gibbs sampling• similarity patterns, profiles

– repetitivas• similarity• ab initio

• En todos los casos literatura!

Page 11: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Integrar resultados

Secuenciagenoma

BLASTX

BLASTN

RepeatMasker

tRNASCan

gene prediction

DB

flatfiles

Visualización

Page 12: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Genome annotation: C. elegans

Page 13: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Resumir resultados de análisis

• Guardar el reporte crudo de un BLAST (lista de hits, alineamientos) es demasiado

• Prácticamente cualquiera de los análisis que se realizan sobre DNA o proteínas para anotar un genoma pueden resumirse en:– secuencia start end– cromosoma1 1723 3456

• Este formato básico es la base del formato GFF (Sanger)

secuencia metodo programa start end frame score extra

Contig1 similarity blastx 100 1000 +1 132 gi|12345|AF34093 casein kinase ...

Contig1 cds glimmer 85 1201 +1 1321 ORF0001; overlap with ORF0002

Contig1 similarity blastn 80 1300 . 136 gi|54321|AF09990 complete genome

Page 14: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Anotación: herramientas

• Artemis– http://www.sanger.ac.uk/Software/Artemis

– Permite visualizar• secuencia, con sus traducciones virtuales (6)• tracks de anotación (entries)• plots (built-ins y creados por el usuario)

– Lee secuencias en formato FASTA, EMBL, GenBank– Lee features en formato EMBL, GenBank, GFF,

MSPcrunch, BLAST

Page 15: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Artemis: main window

Feature list

Sequence view

Sequence view

Page 16: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Artemis: plots

%GC plot

AA properties plot para un CDS

Page 17: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Artemis: display de análisis

Frameplot

BLASTX

BLASTN

Page 18: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Artemis:

Page 19: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Artemis: zoom

Page 20: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Artemis: spliced genes

Page 21: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Artemis: comparar análisis

Page 22: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Otras estrategias

• Artemis se usa para anotar genomas bacterianos o para pequeños proyectos (cósmidos, BACs, etc.)

• En genomas más grandes, la tendencia es a distribuir la anotación

• Los tracks de anotación son generados en distintos centros

• Ejemplo: UCSC Genome Browser (genoma humano, ratón).

Page 23: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Anotación automática: TrEMBL

• La anotación de TrEMBL (translated EMBL) se hace por métodos automáticos.– Requerimientos para anotar automáticamente

• Una base de datos de referencia bien anotada (ej.

Swissprot)

• Una base de datos que sea altamente confiable (en el

sentido diagnóstico) en la asignación de proteínas a

grupos o familias (ej CDD, InterPro)

• Una serie de reglas de anotación

Page 24: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Transferencia directa de anotación

• Realizar una búsqueda en la base de datos de referencia y transferir la anotación

• Ejemplo: FASTA contra una base de datos de secuencias y transferencia de la línea DE del mejor hit

TargetTarget

XDBXDB

Page 25: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Anotación a partir de múltiples fuentes

• Generalmente se usa más de una base de datos externa

• Hay que combinar los resultados

TargetTarget

XDBXDB

Page 26: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Conflictos

• Contradicción

• Inconsistencia

• Sinónimos

• Redundancia

Page 27: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Traducción de anotaciones

• Es necesario utilizar un traductor para mapear el lenguaje utilizado en la base de datos externa (XDB) al lenguaje utilizado en la base de datos target que queremos anotar

TargetTarget

XDBXDB

Page 28: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Traducciones: algunos ejemplos

ENZYME TrEMBL CA L-ALANINE=D-ALANINECC -!- CATALYTIC ACTIVITY: L-ALANINE=CC D-ALANINE.

PROSITE TrEMBL/SITE=3,heme_ironFT METAL IRON

Pfam TrEMBL FT DOMAIN zf_C3HC4FT ZN_FING C3HC4-TYPE

Page 29: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Requerimientos de un sistema de anotación automática

• Corrección• Escalable• Actualizable• Poco redundante• Completo• Vocabulario controlado

Page 30: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Cómo funciona?

• Una proteína en TrEMBL es reconocida como un miembro de cierto grupo o familia de proteínas

• Este grupo de proteínas en Swissprot comparten entre sí partes de la anotación

• La anotación común es transferida automáticamente a la proteína en TrEMBL y marcada como ‘annotated by similarity’

Page 31: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Anotación: evidencias

• Las anotaciones suelen estar acompañadas de TAGS que indican la evidencia en la que se basa la anotación

• Ejemplos de algunos TAGS utilizados en TrEMBL:– EMBL: la información fue copiada del original (EMBL/GenBank/DDBJ)– TrEMBL: anotación modificada para corregir errores o para adecuarse a

la sintaxis propia de Swissprot– Curator: juicio del curador– Similarity: por similitud con otra secuencia, a juicio del curador– Experimental: evidencia experimental de acuerdo a una referencia, que

usualmente es un paper.– Opinion: opinión emitida por el autor de una referencia, usualmente con

poca o ninguna evidencia experimental– Rulebase: información derivada del uso de una regla de anotación

automática– SignalP: programa de predicción

Page 32: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Anotación: manual vs automática

• La anotación de un genoma ocurre en etapas– anotación automática

• correr todos los análisis sobre el genoma• generar un primer borrador con todos los datos

organizados. Por ejemplo en páginas web o integrando todos los datos en un display unificado (Artemis)

– anotación manual: cura de los datos• una persona (curador) revisa la anotación, gen por gen,

verificando la anotación automática, agregando anotaciones manuales, corriendo eventualmente algún programa particular

Page 33: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Qué herramientas se usan?

• Oakridge Genome Annotation Channel– http://compbio.ornl.gov/channel

• ENSEMBL– http://ensembl.ebi.ac.uk

• Artemis– http://www.sanger.ac.uk/Software/Artemis

• GeneQuiz– http://www.sander.ebi.ac.uk/genequiz

• Genome browsers: varios– cada consorcio/proyecto desarrolló el suyo: Apollo

(FlyBase, Drosophila), AceDB (C. elegans),

Page 34: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Anotación: fuentes de error

• Transferencia transitiva de anotaciones– gen1 mal anotado como ‘casein kinase’ presente en

los bancos de datos– gen2 con alta similitud con gen1, resulta anotado

como casein kinase

• Solución:– usar bases de datos curadas: por ejemplo Swissprot– revisar la anotación de más de un hit– verificar que las anotaciones de todos los hits

concuerden

Page 35: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Anotación confiable: proyecto HAMAP

• High-quality Automated Microbial Annotation of Proteomes– Swissprot (Swiss Bioinformatics Institute-European

Bioinformatics Institute)– CNRS Lyon– INRIA Grenoble– INRA Toulouse– CNRS Marseille– Pasteur Institute

Page 36: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

HAMAP

• Hay muchos genomas bacterianos terminados, pero va a haber muchos más en los próximos años

• El número de proteínas bacterianas proveniente de estos genomas llegará al millón muy rápidamente

• Pero el análisis funcional y una caracterización detallada van a exsitir sólo en unos pocos casos:– todas las proteínas de organismos modelo (E. coli, B.

subtilis)– proteínas involucradas en patogénesis (interés médico e

industrial)– proteínas involucradas en vías metabólicas específicas

(interés biotecnológico)

Page 37: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Prioridades del proyecto HAMAP

• Anotación de proteínas huérfanas• Pre-anotación de proteínas pertenecientes a

familias grandes/complejas (transportadores ABC, HTH, sistemas de dos componentes, SDH)

• Anotación de alta calidad de proteínas pertenecientes a familias bien caracterizadas

• Anotación manual de proteínas caracterizadas experimentalmente en ese organismo

• Anotación manual de proteínas no caracterizadas que muestren similitud con otras proteínas

Page 38: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Estrategia HAMAP

ORFans

Page 39: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

HAMAP: ORFans

• No tienen similitud con otras proteínas (excepto tal vez otras proteínas de organismos muy cercanos)

• No tienen hits contra InterPro (Prosite, PRINTS, Pfam, ProDom, SMART)

• Qué se hace:– Predicción de señales – Predicción de regiones trans-membrana– Predicción de coiled-coils– Anotación de repeticiones

Page 40: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

HAMAP: ORFan antes

Page 41: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

HAMAP: ORFan después

Page 42: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

HAMAP: large/complex families

Page 43: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

HAMAP: anotación automática

• Transferencia automática de anotación– Usando reglas específicas para cada famila de

proteínas– Usando reglas específicas para un organismo

particular

• La transferencia de anotación puede ir acompañada de advertencias para el curador– Por ejemplo:

• WARNING: this genome contains MF_00031 (ruvA) but not MF_00016 (ruvB)

Page 44: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

HAMAP: ejemplo reglas

Page 45: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

HAMAP: Escherichia coli

• De acuerdo al análisis original: 4286 proteínas

– 60 proteínas no detectadas (casi todas < 100 aa)– 120 muy probablemente no existan– 50 pares o tripletes de ORFs tuvieron que ser

fusionados– 719 con errores en la asignación del codón de inicio– ~1800 todavía sin caracterización bioquímica

(aproximadamente una asignación funcional por semana)

Page 46: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Chromosome browsers

• UCSC Genome Browser– provee un display rápido de cualquier región genómica– con varios “tracks” de anotación alineados al genoma– Por el momento sólo: Human & Mouse

• Annotation tracks– genes conocidos (RefSeq, GenBank)– predicted genes (Genscan, FGENESH, GeneID, Acembly)– spliced ESTs– CpG islands– assembly gaps– cobertura– bandas cromosómicas– elementos repetitivos – etc

Page 47: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.
Page 48: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

UCSC Genome browser

• UCSC sólo genera la mitad de los tracks• El resto proviene de la comunidad biomédica

• El Genome Browser es una herramienta de visualización

• No saca conclusiones! Simplemente integra en forma gráfica toda la información que posee sobre una región, dejando la exploración y la interpretación al usuario.

Page 49: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

UCSC Genome Browser: gene expression

Page 50: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

UCSC Genome browser: alternative splicing

Page 51: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

UCSC Genome browser: complex transcription

Page 52: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

UCSC Genoma browser: user tracks

• Ustedes pueden agregar sus propios tracks• Pueden ser públicos o privados• No necesitan saber programar• Tienen que proveer información en formato

GFF (u otros similares: GTF, BED)

chrom start end [name strand score]

chr1 1302347 1302357 SP1 + 800

chr1 1504778 1504787 SP2 – 980

Page 53: June 15, 2014© 2001 - Fernán Agüero Análisis y anotación de genomas Fernán Agüero.

April 10, 2023 © 2001 - Fernán Agüero

Acknowledgements

• Nicola Mulder, EBI• Daniel Lawson, Sanger Centre