¿ Qué es la bioinformática · • Predicción de estructura secundaria (RNA y proteínas) • Alineamiento de estructuras terciarias • Predicción de estructuras terciarias (RNA

1

¿ Qué es la bioinformática ?

Dr. Omar Orellana

2013

¿Qué podemos resolver mediante Bioinformática ? :

• Identificar genes específicos en un genoma, identificar todos los genes ytodas las proteínas de un organismo.

• Inferir la forma de una proteína (estructura terciaria) y su función a partirde una secuencia de aminoácidos.

• Determinar los sitios en la estructura de una proteína donde se pueden unirligandos.

• Determinar las interacciones entre los genes y proteínas que pertenecen aun sistema biológico.

Para estos propósitos, la búsqueda de SIMILITUDES entre secuencias o estructuras conocidas es el criterio principal.

Procedimientos que se utilizan en bioinformática

• Búsquedas por similitud

• Alineamiento de estructuras primarias (secuencias)

• Construcción de árboles filogenéticos

• Predicción de estructura secundaria (RNA y proteínas)

• Alineamiento de estructuras terciarias

• Predicción de estructuras terciarias (RNA y proteínas)

• Clasificación de dominios y estructuras (familias)

• Predicción de función de proteínas

• Agrupamiento de datos de expresión (microarrays, geles 2-D)

• Reconstrucción metabólica

• Simulación de procesos celulares

2

(Técnica 1)

Secuenciamento del DNA:

método con dideoxinucleótidos

(Técnica 1)


método con dideoxinucleótidos


“pirosecuenciamiento”

(Técnica 1)

3


“pirosecuenciamiento”

(Técnica 1)

Genoma de Haemophilus influenzae

4

Genomas secuenciados

5

Bases de datos de secuencias de ácidos nucleicos

EMBL

http://www.ebi.ac.uk/embl/

GeneBank

http://www.ncbi.nlm.nih.gov/

DDBJ

Expressed sequence tag (EST)

http://www.ncbi.nlm.nih.gov/dbEST/

KEGG

http://www.genome.jp/kegg/

Bases de datos de proteínas:

Primarias (secuencias)PIR (Protein Information Resource)

http://pir.georgetown.edu/pirwww/dbinfo/iproclass.shtml

Swiss-Prot

http://www.expasy.ch/sprot/

Secundarias (patrones)

Prosite

http://expasy.org/prosite/

Pfam

Identify

PDBsum (estructuras)

Motivos estructurales:

Secuencias cortas que se conservan.

[GR] - C - [IV] - G - R - [ILS] - x – W

Unión de hemo

Zinc finger

CXXC

anotación automática:

es la integración de diversas herramientas

bioinformáticas con múltiples bases de datos

en una única “suite” para gestionar

automáticamente el análisis y

almacenamiento de una secuencia.

anotación manual:

una persona (anotador) revisa la anotación,

gen por gen, verificando la anotación

automática, agregando anotaciones

manuales, corrigiendo eventualmente algún

problema particular.

¿Cómo se ingresa una secuencia a una base de datos?

6

http://www.oxfordjournals.org/nar/database/a

Nucl. Acids Res. (2011) 39 (suppl 1): D1-D6.

The 2011 Nucleic Acids Research Database Issue and

the online Molecular Biology Database Collection (1330)

Michael Y. Galperin1,* and Guy R. Cochrane2

Algoritmos para el análisis de secuencias:

Alineamiento simple (dos secuencias)Matrices de puntos (“dot plots”)

Alineamiento global (Needleman – Wunsch)

Alineamiento local (Smith – Waterman)

Programación dinámica

Heurísticas para búsqueda en bases de datos de secuenciasFastA

BLAST

Análisis de secuencias de macromoléculas:

Identificar genes en una secuencia

Determinar la función de un gen

Identificar proteínas y su función

Identificar regiones conservadas (patrones)

Identificar regiones funcionales en un genoma

Inferir relaciones evolutivas

7

Alineamiento de pares de secuencias

Definición: comparación lineal de secuencias aminoacídicas

o nucleotídicas donde se han hecho inserciones de espacios

(“gaps”) para ubicar correctamente las posiciones

equivalentes en secuencias adyacentes.

Son la base de los métodos de análisis de secuencias, y se

usan para identificar la ocurrencia de motivos conservados.

¿Cómo alinear dos secuencias de

forma óptima?

G A C G G A T T

G A T C G G T T

G A - C G G A T T

G A T C G G - T T

¿Qué nos interesa saber de una secuencia de DNA?

¿Cómo identificamos la función de una secuencia nueva?

>ttttggccgtatcggtcgcattgttttccgtgctgctcaga

Aacgttctgacatcgagatcgttgcaatcaacgacctgtta

Gacgctgattacatggcatacatgctgaaatatgactccac

Tcacggccgtttcgacggtaccgttgaagtgaaagacggtc

Atctgatcgttaacggtaaaaaaatccgtgttaccgctgaa

Cgtgatccggctaacctgaaatgggacgaagttggtgttga

Cgttgtcgctgaagcaactggtctgttcctgactgacgaaa

Ctgctcgtaaacacatcaccgctggtgcgaagaaagtggtt

Atgactggtccgtctaaagacaacactccgatgttcgttaa

Aggcgctaacttcgacaaatatgctggccaggacatcgttt

Ccaacgcttcctgcaccaccaactg

Ir a BLAST

8

9

ttttggccgtatcggtcgcattgttttccgtgctgctcagaaacgttctgacatcgagatcgttgcaatcaacgacctgttagacgc

MARCO 1 F W P Y R S H C F P C C S E T F * H R D R C N Q R P V R R

MARCO 2 F G R I G R I V F R A A Q K R S D I E I V A I N D L L D A

MARCO 3 L A V S V A L F S V L L R N V L T S R S L Q S T T C * T L

tgattacatggcatacatgctgaaatatgactccactcacggccgtttcgacggtaccgttgaagtgaaagacggtcatctgatcgt

MARCO 1 * L H G I H A E I * L H S R P F R R Y R * S E R R S S D R

MARCO 2 D Y M A Y M L K Y D S T H G R F D G T V E V K D G H L I V

MARCO 3 I T W H T C * N M T P L T A V S T V P L K * K T V I * S L

taacggtaaaaaaatccgtgttaccgctgaacgtgatccggctaacctgaaatgggacgaagttggtgttgacgttgtcgctgaagc

MARCO 1 * R * K N P C Y R * T * S G * P E M G R S W C * R C R * S

MARCO 2 N G K K I R V T A E R D P A N L K W D E V G V D V V A E A

MARCO 3 T V K K S V L P L N V I R L T * N G T K L V L T L S L K Q

aactggtctgttcctgactgacgaaactgctcgtaaacacatcaccgctggtgcgaagaaagtggttatgactggtccgtctaaaga

MARCO 1 N W S V P D * R N C S * T H H R W C E E S G Y D W S V * R

MARCO 2 T G L F L T D E T A R K H I T A G A K K V V M T G P S K D

MARCO 3 L V C S * L T K L L V N T S P L V R R K W L * L V R L K T

caacactccgatgttcgttaaaggcgctaacttcgacaaatatgctggccaggacatcgtttccaacgcttcctgcaccaccaactg

MARCO 1 Q H S D V R * R R * L R Q I C W P G H R F Q R F L H H Q L

MARCO 2 N T P M F V K G A N F D K Y A G Q D I V S N A S C T T N C

MARCO 3 T L R C S L K A L T S T N M L A R T S F P T L P A P P T A


Ir a ORFFINDER

FGRIGRIVFRAAQKRSDIEIVAINDLLDADYMAYMLKYDSTHGRFDGTVEVKDGHLIV

NGKKIRVTAERDPANLKWDEVGVDVVAEATGLFLTDETARKHITAGAKKVVMTGPSKD

NTPMFVKGANFDKYAGQDIVSNASCTTNC

Ir a BLAST


10

Matriz PAM 250

11

Matriz Blosum62

¿Cómo definimos un gen en bacterias?

12

Criterios y herramientas para la

anotación de genes

Glimmer

Critica

Testcode

Genscan

RBS finding

Neuralnetworks

Codon usage

%GC

HMM-based

Comparative Analyses

Probabilistic tools

Probabilistic tools

Motif-based

Motif based

Genome properties

Genome properties

Predicción de Promotores

http://www.fruitfly.org/seq_tools/promoter.html

•NNPP es un Programa

para búsqueda de

promotores eucarióticos y

procarioticos en una

secuencia de DNA.

• La base del programa es

una red neural (time-

delay) que reconoce la

caja TATA y la secuencia

iniciadora, que se

encuentra en la región

que comprende el inicio

de la transcripción.

13

Búsqueda de terminadores de la transcripción.

•Transterm encuentra

terminadores de la

transcripción rho-

independiente en

genomas bacterianos.

•A cada terminador

se le asigna un valor

de confianza que

estima la

probabilidad de ser

un terminador

verdadero

Búsqueda de terminadores de la transcripción.

http://rna.igmors.u-psud.fr/toolbox/arnold/index.php

• ARNold encuentra terminadores rho independientes en secuencias deácidos nucleicos. La búsqueda usa dos programas complementarios Erpin yRNAmotif.

• En el programa Erpin, a partir de un set de entrenamiento de 1200secuencias terminadoras de Bacillus subtilis y Escherichia coli, seconstruye un perfil de puntuación y en base a este perfil se busca en lassecuencias entregadas por el usuario.

• RNAmotif usa un algoritmo que reconoce terminadores de E. coli queademás puede ser aplicado para búsqueda de terminadores de cualquierespecie. Se basa en la descripción de una hélice de 4-18 pb, un espaciadorde 0 a 2 nt y una región rica en T. A las búsquedas de RNAmotif se lesasigna un valor de puntuación dependiendo del contenido de T y laestabilidad del stem-loop.

• Se calcula la energía libre de la estructura stem-loop terminadora usandoRNAfold. Este valor de energía libre se usa como valor de confianza parala predicción de terminadores.

ARNold

14

Genoma de Haemophilus influenzae

FGRIGRIVFRAAQKRSDIEIVAINDLLDADYMAYMLKYDSTHGRFDGTVEVKDGHLIV

NGKKIRVTAERDPANLKWDEVGVDVVAEATGLFLTDETARKHITAGAKKVVMTGPSKD

NTPMFVKGANFDKYAGQDIVSNASCTTNC


Secuencia aminoacídica de un segmento de una proteína

Análisis de la estructura de una proteína FGRIGRIVFRAAQKRSDIEIVAINDLLDADYMAYMLKYDSTHGRFDGTVE

VKDGHLIVNGKKIRVTAERDPANLKWDEVGVDVVAEATGLFLTDETARKH

ITAGAKKVVMTGPSKDNTPMFVKGANFDKYAGQDIVSNASCTTNCLAPLA

Predicción de la estructura secundaria de la Predicción de la estructura secundaria de la Gliceraldehído 3 fosfato deshidrogenasaGliceraldehído 3 fosfato deshidrogenasa

KVINDNFGIIEGLMTTVHATTATQKTVDGPSHKDWRGGRGASQNIIPSST

GAAKAVGKVLPELNGKLTGMAFRVPTPNVSVVDLTVRLEKAATYEQIKAA

VKAAAEGEMKGVLGYTEDDVVSTDFNGEVCTSVFDAKAGIALNDNFVKLV

SWYDNETGYSNKVLDLIAHISK estructura alfa

estrctura beta

vuelta (loop)

11

15

http://swissmodel.expasy.org/workspace/[email protected]&key=a121072a984a78c349cc5a3a3f77c965

&func=workspace_modelling&prjid=P000001

16

Estructura primaria (secuencia de aminoácidos)

Predicción estructura secundaria

Generación de modelos basados en un molde

Refinamiento y validación del modelo

Modelo finalAlineamiento de las secuencias de la Alineamiento de las secuencias de la GliceraldehídoGliceraldehído 3 fosfato 3 fosfato

deshidrogenasa ddeshidrogenasa de diferentes organismose diferentes organismos

E.coli FGRIGRIVFRAAQKRSDIEIVAIND-LLDADYMAYMLKYDSTHGRFDGTV 58

S.typhimurium FGRIGRIVFRAAQKRSDIEIVAIND-LLDAEYMAYMLKYDSTHGRFDGTV 52

S.cerevisiae FGRIGRLVLRLALQRKDIEVVAVNDPFISNDYAAYMVKYDSTHGRYKGTV 58

H.sapiens FGRIGRLVTRAAFNSGKVDIVAINDPFIDLNYMVYMFQYDSTHGKFHGTV 60

H.pylori TGRIGLCAIRVASQRKDVEIVAINS-TAELETLLHLIRHDSVHGHFEAKL 58

**** . * * : .:::**:*. . : ::.::**.**::...:

E.coli EVKDGHLIVNGKKIRVTAERDPANLKWDEVGVDVVAEATGLFLTDETARKHITAGAKKVV 118

S.typhimurium EVKDGHLIVNGKKIRVTAERDPANLKWDEVGVDVVAEATGIFLTDETARKHITAGAKKVV 112

S.cerevisiae SHDDKHIIIDGVKIATYQERDPANLPWGSLKIDVAVDSTGVFKELDTAQKHIDAGAKKVV 118

H.sapiens KAENGKLVINGNPITIFQERDPSKIKWGDAGAEYVVESTGVFTTMEKAGAHLQGGAKRVI 120

H.pylori NANRTLNIGHSKNILVLSERDINKLDFSVANAEIIIECTGKFNSLEASSAHLKNSVKKVI 118

. . : .. * *** :: :. : :.** * : : *: ..*:*:

E.coli MTGPSKDNTPMFVKGANFDKYA-GQDIVSNASCTTNCLAPLAKVINDNFGIIEGLMTTVH 177

S.typhimurium LTGPSKDNTPMFVKGANFDKYE-GQDIVSNASCTTNCLAPLAKVINDNFGIIEGLMTTVH 171

S.cerevisiae ITAPSS-SAPMFVVGVNHTKYTPDKKIVSNASCTTNCLAPLAKVINDAFGIEEGLMTTVH 177

H.sapiens ISAPSA-DAPMFVMGVNHEKYDNSLKIISNASCTTNCLAPLAKVIHDNFGIVEGLMTTVH 179

H.pylori ISAPAQ-NAPTFVYGVNHTNYH-NESVISNASCTTNATAPLLKILDEAFKVENALLTTIH 176

::.*: .:* ** *.*. :* . .::********. *** *::.: * : :.*:**:*

9

17

Predicción de la estructura y función

de ácidos ribonucleicos

Predicción de genes que codifican para RNA de transferencia

18

Acidithiobacillus ferrooxidans

• Two GluRS (GluRS1, GluRS2)

• GluQRS

•AspRS

• four tRNAGlu, four tRNAGln

• No GlnRS, AsnRS

• gatCAB (AdT)

• GluTR

• GSAm

•Gram negative, γγγγ proteobacterium

• acidophile (pH 1,5-4,0), autotrophic

• chemolithotrophic:

• oxidizes ferrous ions

• reduced sulfur compounds

• bioleaching of minerals

• high cytochromes content

Río Tinto,

Spain

Comparación de dos genomas de A. ferrooxidans

= genes de tRNA

Genes

tRNA

59

96

37

19

Predicción de posibles operones en el Cluster de genes

de tRNA

20

Predicción de la estructura secundaria de un RNA similar a tRNA

Fin

¿ Qué es la bioinformática · • Predicción de estructura secundaria (RNA y proteínas) • Alineamiento de estructuras terciarias • Predicción de estructuras terciarias (RNA

Documents