Top Banner
Alinhamento de sequências Prof. Dr. Francisco Prosdocimi
26

Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

Apr 18, 2015

Download

Documents

Internet User
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

Alinhamento de sequências

Prof. Dr. Francisco Prosdocimi

Page 2: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

Definição O alinhamento de

sequências consiste no processo de comparar duas ou mais sequências (de nucleotídeos ou aminoácidos) de forma a se observar seu nível de similaridade

Comparação de strings Identificação de substrings

compartilhadas

Uma das mais poderosas técnicas da bioinformática

Page 3: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

Tipos de alinhamento

• Simples X Múltiplo

• Local X Global

• Heurístico X Ótimo Score = 276 bits (139), Expect = 3e-78

Identities = 139/139 (100%)

Strand = Plus / Plus

Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619

Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679

Query: 446 gcgaaacttctctcagaaa 464

|||||||||||||||||||

Sbjct: 680 gcgaaacttctctcagaaa 698

Page 4: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

Alinhamento Simples

• Aquele realizado entre seqüências de DNA ou proteínas, desde que duas a duas

Score = 652 bits (329), Expect = 0.0 Identities = 240/240 (100%) Strand = Plus / Plus

Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195

Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255

Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315

Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375

Interpretando os valores

Page 5: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

Alinhamento múltiplo

• Aquele realizado entre MAIS DE DUAS seqüências de DNA ou proteínas

Seq1 ------------------------------------------------------------ Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA

Seq1 ------------------------------------------------------------ Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA

Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT ***************************************

Page 6: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

Alinhamentos Global e Local

• Global: as seqs são alinhadas de ponta a ponta• Local: pedaços das seqs é que são comparados

Qual deles é melhor?

Page 7: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

Alinhamentos ótimo e heurístico

• heurística -- do dicionário HouaissAcepções¦ substantivo feminino 1 arte de inventar, de fazer descobertas; ciência que tem por objeto a

descoberta dos fatos 1.1 Rubrica: história. ramo da História voltado à pesquisa de fontes e documentos 1.2 Rubrica: informática. método de investigação baseado na aproximação progressiva de um dado

problema 1.3 Rubrica: pedagogia. método educacional que consiste em fazer descobrir pelo aluno o que se

lhe quer ensinar LOGO:

• Alinhamento ótimo: produz o melhor resultado computacionalmente possível

• Alinhamento heurístico: produz um resultado o mais próximo possível do resultado ótimo, mas, principalmente, produz um resultado de maneira muito veloz

Page 8: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

Ferramentas de alinhamento

Programa Tipo de Alinhamento

Precisão do Alinhamento

Número de seqüências a serem alinhadas

BLAST2Sequences Local Heurístico 2

SWAT (Smith-Waterman)

Local Ótimo 2

ClustalW Global Heurístico N

Multalin Global Heurístico N

Needleman-Wunsch Global Ótimo 2

Page 9: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

Elementos de um alinhamento

Page 10: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

Matrizes de substituição

• Definem pontuação específica específica para a troca entre símbolos

• Qual a diferença entre as duas matrizes ao lado

• Modelos de substituição– Jukes-Cantor X Kimura

A C G T

A 1 -2 -2 -2

C -2 1 -2 -2

G -2 -2 1 -2

T -2 -2 -2 1

A C G T

A 1 -2 -1 -2

C -2 1 -2 -1

G -1 -2 1 -2

T -2 -1 -2 1

Page 11: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

Matrizes de substituição de aminoácidos

Page 12: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

Outros parâmetros

• Matrizes de substituição definem a pontuação para matches e mismatches

• A penalidade de abertura e extensão de gaps também é importante

• Na maioria dos programas, o usuário pode fornecer um parâmetro para modificar a pontução– Não deve ser utilizado a menos que se saiba o que

se está fazendo

Page 13: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

BLAST

Prof. Dr. Francisco Prosdocimi

Page 14: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

BLAST

• Basic Local Alignment Search Tool• Ferramenta de alinhamento mais utilizada no mundo• Todo pesquisador em biologia molecular já usou

alguma vez (ou centenas de vezes)• Diz-se que o trabalho original onde a ferramenta foi

publicada é o mais citado da história das ciências biológicas

• É um algoritmo de alinhamento simples, heurístico e local

• Alinha um seqüência de entrada contra uma base de dados desejada

Page 15: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

Sub-programas BLAST

Formato da Seqüência de

Entrada

Banco de dados

Formato da seqüência que é comparado

Programa BLAST

adequado

Nucleotídeos Nucleotídeos Nucleotídeos BLASTn

Proteínas Proteínas Proteínas BLASTp

Nucleotídeos Proteínas Proteínas BLASTx

Proteínas Nucleotídeos Proteínas TBLASTn

Nucleotídeos Nucleotídeos Proteínas TBLASTtx

Page 16: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

BLAST, funcionamento• Heurístico

• Define um tamanho de palavra chamado seed (semente)

– Blastn = 11; Megablast = 28– Blastx = 3;

• Procura em seu banco de dados sequências com 100% de match da seed quando comparada com a query

• Alonga a extremidade da seed até onde o alinhamento seja “bom”

• Metodologia verdadeiramente rápida

• E-value: chance estatística de encontrar aquele ao alinhamento ao acaso, dado o tamanho da DB

Page 17: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

Bases de dados BLAST

• Apresentam um formato especial• As sequências no formato FASTA devem ser

formatadas usando um programa especial (formatdb)– Cria uma base de dados com todas as seeds possíveis e as

sequências que as contém– Dados da base de dados estão pré-computados (velocidade)

• O BLAST então pode comparar uma sequência FASTA de entrada com o banco de dados pronto

>gi|188497754|ref|NP_000179.2| hexokinase 1 isoform HKI [Homo sapiens] MIAAQLLAYYFTELKDDQVKKIDKYLYAMRLSDETLIDIMTRFRKEMKNGLSRDFNPTATVKMLPTFVRS IPDGSEKGDFIALDLGGSSFRILRVQVNHEKNQNVHMESEVYDTPENIVHGSGSQLFDHVAECLGDFMEK RKIKDKKLPVGFTFSFPCQQSKIDEAILITWTKRFKASGVEGADVVKLLNKAIKKRGDYDANIVAVVNDT VGTMMTCGYDDQHCEVGLIIGTGTNACYMEELRHIDLVEGDEGRMCINTEWGAFGDDGSLEDIRTEFDRE IDRGSLNPGKQLFEKMVSGMYLGELVRLILVKMAKEGLLFEGRITPELLTRGKFNTSDVSAIEKNKEGLH NAKEILTRLGVEPSDDDCVSVQHVCTIVSFRSANLVAATLGAILNRLRDNKGTPRLRTTVGVDGSLYKTH PQYSRRFHKTLRRLVPDSDVRFLLSESGSGKGAAMVTAVAYRLAEQHRQIEETLAHFHLTKDMLLEVKKR MRAEMELGLRKQTHNNAVVKMLPSFVRRTPDGTENGDFLALDLGGTNFRVLLVKIRSGKKRTVEMHNKIY AIPIEIMQGTGEELFDHIVSCISDFLDYMGIKGPRMPLGFTFSFPCQQTSLDAGILITWTKGFKATDCVG HDVVTLLRDAIKRREEFDLDVVAVVNDTVGTMMTCAYEEPTCEVGLIVGTGSNACYMEEMKNVEMVEGDQ GQMCINMEWGAFGDNGCLDDIRTHYDRLVDEYSLNAGKQRYEKMISGMYLGEIVRNILIDFTKKGFLFRG QISETLKTRGIFETKFLSQIESDRLALLQVRAILQQLGLNSTCDDSILVKTVCGVVSRRAAQLCGAGMAA VVDKIRENRGLDRLNVTVGVDGTLYKLHPHFSRIMHQTVKELSPKCNVSFLLSEDGSGKGAALITAVGVR LRTEASS

BlastDB

Query and

Subject

Page 18: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

BLAST em LINUX

• Download dos programas executáveis BLAST através do NCBI

• Permite que o usuário monte sua própria base de dados específica para um projeto

• Permite parametrização detalhada

$> formatdb –i cog.fasta –p T –n COG

$> blastall –p blastp –i hexokinase.fasta –d COG –e 10 –m 10 –o hexokinase.blast.output –F T –v 500 –b 250 –M BLOSUM62

Page 19: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

Alinhamentos múltiplos

Prof. Dr. Francisco Prosdocimi

Page 20: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

conservation profile

conserved residues

secondary structure

What is a multiple alignment?

Page 21: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

Blocos conservados

DbClustal

• Blocos conservados– Domínios funcionais– Sítios catalíticos de enzimas– Assinaturas de famílias gênicas

Page 22: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

Alinhamentos múltiplos

• Problema altamente complexo• Teoria da complexidade de algoritmos

– O valor de O

• Problema NP-completo (NP-hard)– Aumentando o número de sequências (ou o tamanho

das sequências), o aumento no tempo de computação sobe exponencialmente

• Clustal, MAFFT, T-coffe, MUSCLE, DIALIGN

Page 23: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

Alinhamentos múltiplos e homologia

Page 24: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

Do alinhamento à filogenia

• Métodos fenéticos

• Montagemda matrix dedistância

Example in Clustalx :

distance between 2 sequences = 1- No. identical residuesNo. aligned residues

-.17 -.59 .60 -.59 .59 .13 -.77 .77 .75 .75 -.81 .82 .73 .74 .80 -.87 .86 .86 .88 .93 .90 -

Hbb_humanHbb_horseHba_humanHba_horseMyg_phycaGlb5_petmaLgb2_lupla

1234567

1 2 3 4 5 6 7

Page 25: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

Produção da árvore

• Método fenético– Não considera a evolução de cada caráter (coluna no

alinhamento)– Produz uma árvore a partir de uma matriz de distância gerada

ao considerar todo o conjunto de dados

• Vizinhos mais-próximos– Neighbor-joining

• Average neighbor

• Nearest neighbor

• Farthest neighbor

Hbb_human

Hbb_horse

Hba_human

Hba_horse

Myg_phyca

Glb5_petma

Lgb2_lupla

13

45

6

2.081

.084

.055

.065

.226

.219

.398

.389

.442

.015

.061

.062

Page 26: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

Conclusões

• O alinhamento de sequências e as técnicas para implementá-lo estão entre as mais importantes tarefas da bioinformática

• Existe uma limitação para a análise filogenética que vem do fato de os alinhamentos multiplos não serem rápidos ou ótimos

• O bioinformata deve conhecer as diferentes técnicas de alinhamento e saber aplicá-las corretamente