Alinhamento de sequências Almir R. Pepato
Alinhamento de sequências
Almir R. Pepato
Homologia primária e secundária
1- Estabelecimento da matriz de caracteres (observações a respeito dos semaforontes – codificação dos caracteres e seus estados- homologia primária sensu Pinna, 1990)
2- Busca do esquema de relações filogenéticas ótima segundo algum critério, levando a proposição de hipóteses filogenéticas. De acordo com a topologia obtida caracteres codificados sob o mesmo estado podem se revelar verdadeiras sinapomorfias ou homoplasias (homologia secundária sensu Pinna, 1990).
O problema da homologia no que se refere às sequências de nucleotídeos
A rose is a rose is a rose is a rose is a rose
Gertrude Stein
O problema da homologia: alinhamento
Alinhamento como problema informacional
1. Custos altos para substituições :
TCAG-ACG-ATTG| | | | | | |TC-GGA- GC-T- G0 mis 7 mat 6 gaps
2. Custos altospara as inserções/deleções :
TCAGACGATTG| | | |TCGGAGCTG–-5 mis 4 mat 2 gaps
A maior parte dos programas usa um sistema de custos para substituições, introdução de inserções/deleções e outros eventos.
Como a enumeração/avaliação de todas as possibilidades seria muito custosa, os programas usam o recurso da programação dinâmica como com o algoritmo de Needleman & Wunch.
Alinhamento como problema informacional
Algoritmo empregando programação dinâmica (Needleman & Wunch, 1970)
i,j * A A T G C
* 0 -1 -2 -3 -4 -5
A -1 X
G -2
G -3
C -4
Preenchendo a matriz:Substituição= -1gap= -1
Regra:Fij = max(Fi − 1,j − 1 + Sij, Fi,j − 1 + gap, Fi − 1,j + gap)
Para preencher a casa, X=Fij = max(0 + 0, -1-1, -1-1) = 0
Alinhamento como problema informacional
Algoritmo empregando programação dinâmica (Needleman & Wunch, 1970)
I,j * A A T G C
* 0 -1 -2 -3 -4 -5
A -1 0 -1 -2 -3 -4
G -2 -1 -1 -2 -2 -3
G -3 -2 -2 -2 -2 -3
C -4 -3 -3 -3 -3 X
Preenchendo a matriz:Substituição= -1gap= -1
Regra:Fij = max(Fi − 1,j − 1 + Si,j), Fi,j − 1 + gap, Fi − 1,j + gap)
Para preencher a casa, X=Fij = max(-2 + 0, -3-1, -3-1) = -2
Alinhamento como problema informacional
Algoritmo empregando programação dinâmica (Needleman & Wunch, 1970)
Faz-se agora o caminho de volta. Há vários que levam a um valor total de -2 para o alinhamento
I,j * A A T G C
* 0 -1 -2 -3 -4 -5
A -1 0 -1 -2 -3 -4
G -2 -1 -1 -2 -2 -3
G -3 -2 -2 -2 -2 -3
C -4 -3 -3 -3 -3 -2
Alinhamento como problema informacional
Algoritmo empregando programação dinâmica (Needleman & Wunch, 1970)
Faz-se agora o caminho de volta. Há vários que levam a um valor total de -2 para o alinhamento
I,j * A A T G C
* 0 -1 -2 -3 -4 -5
A -1 0 -1 -2 -3 -4
G -2 -1 -1 -2 -2 -3
G -3 -2 -2 -2 -2 -3
C -4 -3 -3 -3 -3 -2
Caminho 1 (1 sub, 1 gap):AA T G C| | | |A- G G C
Alinhamento como problema informacional
Algoritmo empregando programação dinâmica (Needleman & Wunch, 1970)
Faz-se agora o caminho de volta. Há vários que levam a um valor total de -2 para o alinhamento
I,j * A A T G C
* 0 -1 -2 -3 -4 -5
A -1 0 -1 -2 -3 -4
G -2 -1 -1 -2 -2 -3
G -3 -2 -2 -2 -2 -3
C -4 -3 -3 -3 -3 -2
Caminho 1 (1 sub, 1 gap):AA T G C| | | |A- G G C
Caminho 2 (1 sub., 1 gap):AA T G C| | | |AG - G C
Alinhamentos de múltiplas sequências
Soma com pesagem de Pares WSP (Weighted Sum of Pairs):
WSP= ∑ ∑ Wij Dij
Complexidade informacional:
O (NM): Proporcional ao comprimento da sequência elevado ao número de sequências
Poucos programas implementam (BaliBase, FastMSA), pois pode ser usado para poucas sequências!
i j
ClustalMétodo Heurístico: Não garante que todo o espaço de respostas ao problema será examinado. Passos:
1- Faz um alinhamento empregando uma função de custos para todos os possíveis pares de sequências.
2- A partir daí monta uma matriz de distâncias para todas as sequências
Clustal
3-Daí deriva-se uma árvore de similaridade. Para cada nó da árvore é produzido um alinhamento aos pares, que produz uma sequência de consenso para o próximo alinhamento.
Note que os gaps introduzidos nas sequências que são alinhadas nas primeiras etapas não podem ser modificados!
T-Coffe
T-Coffe
Mafft e Muscle
Malign, POY e Otimização Direta
O POY é um programa que implementa uma série de algoritmos para inferência filogenética, a maior parte dos quais baseado na parcimônia como critério de otimização.
A Otimização Direta consiste na otimização dos caracteres das sequências diretamente, sem o passo preliminar de inferência das homologias primárias
Malign, POY e Otimização Direta
Uma análise empregando a otimização direta geralmente inclui:
1- O teste do maior número possível de combinações de valores de custo, já que como qualquer outro método automático, o resultado é dependente dele.
2- A presença/ausência de clados nos diversos valores de custo é compilada. A assim chamada análise de sensibilidade é vista como uma medida da estabilidade dos clados.
3- Um regime de custos ótimo é escolhido de forma a minimizar a incongruência entre as partições de dados. A incongruência é medida através de índices como ILD, RILD, TILD etc...
Malign, POY e Otimização Direta
Alinhamento como problema biológico
Mas será mesmo o alinhamento um problema informacional?
Não pode ser tratado como um problema biológico onde a homologia é inferida levando em conta informações relacionadas a processos biológicos?
Alinhamento como problema biológico
Homologia molecular: sumário•As inserções/deleções são inferências feitas durante o estabelecimento de relações de homologia. Tem dois impactos sobre a inferência filogenética: levam a introdução de uma certa margem de erro, intrínseca a qualquer inferência por um lado, e informação filogenética adicional por outro.
•Como nas análises morfológicas, o estabelecimento das homologias primárias e a construção da matriz é o alicerce sobre o qual a inferência é assentado. Pouca atenção tem sido dada a esse aspecto, no entanto.
•Há debate na literatura sobre cada um dos métodos descritos nessa aula. Algo mandatário, no entanto, é que as hipóteses de homologia fiquem tão explicita ao leitor de um artigo de sistemática molecular quanto o que ficaria a um que use caracteres morfológicos.