-
Universidade de BrasliaInstituto de Cincias Exatas
Departamento de Cincia da Computao
Ferramenta de Visualizao Interativa deComparao entre Mltiplos
Genomas para a
Identificao de Sintenias
Rodrigo Carneiro Munhoz Coimbra
Monografia apresentada como requisito parcialpara concluso do
Mestrado em Computao
OrientadoraProf.a Maria Emlia M. T. Walter
Braslia2010
-
Universidade de Braslia UnBInstituto de Cincias
ExatasDepartamento de Cincia da ComputaoMestrado em Computao
Coordenador: Prof. Mauricio Ayala Rincn
Banca examinadora composta por:
Prof.a Maria Emlia M. T. Walter (Orientadora) CIC/UnBProf. Nalvo
Franco de Almeida Jr. FACOM/UFMSProf. Marcelo de Macedo Brgido
CEL/UnB
CIP Catalogao Internacional na Publicao
Coimbra, Rodrigo Carneiro Munhoz.
Ferramenta de Visualizao Interativa de Comparao entre Ml-tiplos
Genomas para a Identificao de Sintenias / Rodrigo Car-neiro Munhoz
Coimbra. Braslia : UnB, 2010.111 p. : il. ; 29,5 cm.
Tese (Mestrado) Universidade de Braslia, Braslia, 2010.
1. Bioinformtica, 2. Visualizao, 3. Sintenia, 4. Java
CDU 004
Endereo: Universidade de BrasliaCampus Universitrio Darcy
Ribeiro Asa NorteCEP 70910-900BrasliaDF Brasil
-
Universidade de BrasliaInstituto de Cincias Exatas
Departamento de Cincia da Computao
Ferramenta de Visualizao Interativa deComparao entre Mltiplos
Genomas para a
Identificao de Sintenias
Rodrigo Carneiro Munhoz Coimbra
Monografia apresentada como requisito parcialpara concluso do
Mestrado em Computao
Prof.a Maria Emlia M. T. Walter (Orientadora)CIC/UnB
Prof. Nalvo Franco de Almeida Jr. Prof. Marcelo de Macedo
BrgidoFACOM/UFMS CEL/UnB
Prof. Mauricio Ayala RincnCoordenador do Mestrado em
Computao
Braslia, 08 de junho de 2010
-
Resumo
A genmica comparativa uma rea de pesquisa que tem como objetivo
a busca decomo dados genmicos podem estar relacionados entre
diferentes espcies. Par-ticularmente, o volume de dados
disponibilizados em bancos de dados pblicospermite a busca de
sintenias entre mltiplos genomas. Um par de genes ditosintnico
quando estes se conservam dentro da mesma regio do DNA. Os m-todos
comparativos ainda usam abordagens tradicionais, tais como
alinhamentotextual e o uso de heursticas para acelerar as
comparaes. Eles produzem comoresultado arquivos textuais, o que
dificulta anlises mais especficas, tais como aidentificao de
sintenias. Nesse sentido, essencial o desenvolvimento de
ferra-mentas de visualizao de comparaes entre mltiplos genomas que
facilitem aidentificao de sintenias. O objetivo deste trabalho
propor e implementar umaferramenta computacional que implemente um
novo mtodo de visualizao quepermite identificar sintenias entre
mltiplos genomas, a partir de um genoma nototalmente sequenciado.
Essa ferramenta foi aplicada na identificao de sinte-nias no fungo
P. brasiliensis. Essa nova ferramenta, denominada Syntainia,
estsendo desenvolvida como um software livre e j est disponvel para
download emhttp://sourceforge.net/projects/syntainia.
Palavras-chave: Bioinformtica, Visualizao, Sintenia, Java
iv
http://sourceforge.net/projects/syntainia
-
Abstract
Comparative genomics is a research field that aims to find how
genomic data can berelated among different species. Particularly,
the volume of data available in publicdatabases allows for
searching of synteny among multiple genomes. A pair of genesis said
to be syntenic when they keep within the same region of the DNA.
The com-parative methods still use traditional approaches, such as
text alignment and theuse of heuristics to speed up comparisons.
They produce results as text files, whichmakes difficult more
specific analyses, such as the identification of synteny. Thus,it
is essential the development of visualization tools to compare
multiple genomesthat facilitate the identification of synteny. The
objective of this work is to proposeand implement a software tool
that implements a new visualization method foridentifying synteny
among multiple genomes from a not fully sequenced genome.This tool
was applied in the identification of syntenies in the fungus P.
brasilien-sis. This new tool, called Syntainia, is being developed
as free software and is nowavailable for download at
http://sourceforge.net/projects/syntainia.
Keywords: Bioinformatics, Visualization, Synteny, Java
v
http://sourceforge.net/projects/syntainia
-
Sumrio
Lista de Figuras viii
Lista de Tabelas x
1 Introduo 1
2 Conceitos Bsicos de Biologia Molecular 42.1 Clulas . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.2
Protenas . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . 52.3 cidos Nucleicos . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . 7
2.3.1 DNA . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . 92.3.2 RNA . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . 10
2.4 Genes, Cromossomos e Cdigo Gentico . . . . . . . . . . . . .
. . . . 112.5 Transcrio, Traduo e Sntese Proteica O Dogma Central
da Bio-
logia Molecular . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . 132.5.1 RNAs no codificadores . . . . . . . . . . . .
. . . . . . . . . . . 14
2.6 Sequenciamento de Genomas . . . . . . . . . . . . . . . . .
. . . . . . 142.6.1 Sequenciamento Sanger . . . . . . . . . . . . .
. . . . . . . . . 152.6.2 Sequenciamento de Alto Desempenho . . . .
. . . . . . . . . . 20
2.7 Genmica Comparativa . . . . . . . . . . . . . . . . . . . .
. . . . . . . 252.7.1 Sintenias . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . 26
3 Visualizao de Dados Biolgicos 273.1 Dados Biolgicos e sua
Visualizao: Grficos Mais Comuns . . . . . 273.2 Comparao de
Sequncias e Identificao de Sintenias . . . . . . . . 29
3.2.1 Requisitos de um Software de Visualizao para a
Identifica-o de Sintenias . . . . . . . . . . . . . . . . . . . . .
. . . . . . 30
3.3 Visualizadores de Comparaes de Sequncias para a
Identificaode Sintenias . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . 333.3.1 Softwares para Visualizao de
Sintenias . . . . . . . . . . . . 343.3.2 Comparao entre as
Ferramentas . . . . . . . . . . . . . . . . 37
4 Projeto Genoma Pb e sua Genmica Comparativa 464.1 O Projeto
Genoma Pb . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
4.1.1 O fungo P. brasiliensis . . . . . . . . . . . . . . . . .
. . . . . . 464.1.2 Projeto Genoma Funcional e Diferencial do P.
brasiliensis . . 48
4.2 Genmica Comparativa e um Novo Mtodo de Visualizao . . . . .
. 49
vi
-
4.2.1 Mtodo de Visualizao dos Genes . . . . . . . . . . . . . .
. . 50
5 Proposta e Implementao da Ferramenta 545.1 Viso Geral . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545.2
Requisitos . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . 555.3 Caractersticas do Syntainia . . . . . . . . . . .
. . . . . . . . . . . . . 58
5.3.1 Interface com o Usurio . . . . . . . . . . . . . . . . . .
. . . . 585.3.2 Modo de Visualizao . . . . . . . . . . . . . . . .
. . . . . . . . 635.3.3 Funcionalidades . . . . . . . . . . . . . .
. . . . . . . . . . . . . 63
5.4 Algoritmos e Complexidade . . . . . . . . . . . . . . . . .
. . . . . . . 645.4.1 Algoritmo Otimista . . . . . . . . . . . . .
. . . . . . . . . . . . 665.4.2 Algoritmo Realista . . . . . . . .
. . . . . . . . . . . . . . . . . 66
5.5 Arquitetura, Estruturas de Dados e Implementao . . . . . . .
. . . 685.5.1 Manipulao dos Dados . . . . . . . . . . . . . . . . .
. . . . . 685.5.2 Interface com o Usurio . . . . . . . . . . . . .
. . . . . . . . . 70
6 Estudo de Caso e Discusso 776.1 Estudo de Caso . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . 77
6.1.1 Escolha dos Genes e/ou Transcritos . . . . . . . . . . . .
. . . . 776.1.2 Obteno das Sequncias Genmicas . . . . . . . . . . .
. . . . 786.1.3 Utilizao do Syntainia . . . . . . . . . . . . . . .
. . . . . . . . 786.1.4 Organizao das Categorias Funcionais . . . .
. . . . . . . . . 796.1.5 Identificao de Sintenias . . . . . . . .
. . . . . . . . . . . . . 796.1.6 Resultados Parciais . . . . . . .
. . . . . . . . . . . . . . . . . . 81
6.2 Anlise de Escalabilidade e Desempenho . . . . . . . . . . .
. . . . . 866.3 Comparao com Outras Ferramentas . . . . . . . . . .
. . . . . . . . 87
7 Concluses e Trabalhos Futuros 91
Referncias 93
vii
-
Lista de Figuras
2.1 Os 20 aminocidos das protenas . . . . . . . . . . . . . . .
. . . . . . 62.2 Estrutura das protenas . . . . . . . . . . . . . .
. . . . . . . . . . . . 72.3 Estrutura de um nucleotdeo . . . . . .
. . . . . . . . . . . . . . . . . . 82.4 Elementos estruturais dos
nucleotdeos mais comuns . . . . . . . . . 82.5 Acares presentes nos
cidos nucleicos . . . . . . . . . . . . . . . . . 92.6 Uma viso
geral da estrutura do DNA . . . . . . . . . . . . . . . . . . 102.7
As duas fitas do DNA so uma o complemento reverso da outra (com
relao s regras de emparelhamento de bases: A=T e CG). . . . . .
102.8 RNA e suas bases nitrogenadas esquerda e DNA direita . . . .
. 112.9 Sequenciador automtico de DNA MegaBACE 1000 . . . . . . . .
. . 172.10 Exemplo de um eletroferograma . . . . . . . . . . . . .
. . . . . . . . . 172.11 Exemplo de sequncia de programas
executados na fase de submisso. 192.12 Alinhamento de um contig . .
. . . . . . . . . . . . . . . . . . . . . . . 192.13 Sequenciador
automtico Roche/454 FLX . . . . . . . . . . . . . . . . 212.14
Mtodo utilizado pelo sequenciador Roche/454 FLX . . . . . . . . . .
23
3.1 Visualizao do cromossomo X humano pelo NCBI Map Viewer . . .
283.2 rvores filogenticas apresentadas pelo software ITOL . . . . .
. . . 293.3 Exemplo de via metablica disponibilizada pelo KEGG . .
. . . . . . 303.4 Sada gerada pelo BLAST . . . . . . . . . . . . .
. . . . . . . . . . . . 313.5 Tipos mais comuns de grficos . . . .
. . . . . . . . . . . . . . . . . . . 343.6 Uma viso detalhada de
sintenias no Apollo. . . . . . . . . . . . . . . 383.7 Exemplo da
visualizao disponibilizada pelo SyntenyView. . . . . . 393.8 Um dos
modos de visualizao do SyntenyVista . . . . . . . . . . . . 393.9
Visualizao de mltiplos genomas pelo Mauve. . . . . . . . . . . . .
403.10 Janela principal do ACT . . . . . . . . . . . . . . . . . .
. . . . . . . . 403.11 Comparao entre dois genomas pelo SynBrowse.
. . . . . . . . . . . 413.12 Comparao entre trs genomas pelo
SynView . . . . . . . . . . . . . 413.13 Exemplo da visualizao
disponibilizada pelo GBrowse_syn . . . . . 423.14 Comparao de
cromossomos pelo Cinteny. . . . . . . . . . . . . . . . 423.15
Mdulo de visualizao Stack Map do MEDEA . . . . . . . . . . . . .
433.16 Visualizao de gradiente de sintenia disponibilizada pelo
Sybil. . . . 433.17 Os trs nveis de visualizao disponibilizados
pelo MizBee. . . . . . 44
4.1 P. brasiliensis . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . 474.2 Exemplo da visualizao de mltiplos genomas
por grupos de genes. 53
5.1 Usando o look and feel padro . . . . . . . . . . . . . . . .
. . . . . . . 58
viii
-
5.2 Comparao das telas do Syntainia em diversos look and feels .
. . . 605.3 Janela principal do Syntainia . . . . . . . . . . . . .
. . . . . . . . . . 615.4 Tela do assistente para gerao do grfico.
. . . . . . . . . . . . . . . . 625.5 Visualizao de genes no
Syntainia como um grafo . . . . . . . . . . . 655.6 Estruturas de
dados do Syntainia. . . . . . . . . . . . . . . . . . . . . 725.7
Fluxo de processamento dos dados no Syntainia. . . . . . . . . . .
. . 735.8 Classes do ncleo do Syntainia . . . . . . . . . . . . . .
. . . . . . . . 745.9 Classes para desenho do grfico . . . . . . .
. . . . . . . . . . . . . . . 755.10 Classes responsveis pela
integrao com o sistema operacional. . . . 76
6.1 Todos os 10 genomas comparados pelo Syntainia . . . . . . .
. . . . . 826.2 Destaque das categorias . . . . . . . . . . . . . .
. . . . . . . . . . . . 836.3 Realce de genes sintnicos
(chromosome_0.16) . . . . . . . . . . . . . 846.4 Realce de genes
sintnicos (chromosome_1.4) . . . . . . . . . . . . . . 856.5
Consumo de memria do Syntainia ao longo do tempo . . . . . . . . .
87
ix
-
Lista de Tabelas
2.1 Tabela do cdigo gentico de cdons mapeados em aminocidos . .
. 13
3.1 Ferramentas de visualizao de sintenias . . . . . . . . . . .
. . . . . 45
6.1 Comparao do Syntainia com outras ferramentas . . . . . . . .
. . . 90
x
-
Captulo 1
Introduo
A anlise das informaes geradas por projetos de sequenciamento de
DNA cons-titui hoje um desafio sempre crescente para os cientistas
da computao, uma vezque essencial desenvolver software eficiente
para processar o enorme volume dedados gerados por esses projetos
(Mardis, 2008; McHardy, 2008; Morozova andMarra, 2008; Pop and
Salzberg, 2007; Schuster, 2008). O processo de anlise
com-putacional de projetos de sequenciamento basicamente dividido
em duas fases. Afase de montagem tenta reconstruir grande pedaos
das sequencias originais, en-quanto a fase de anotao tem o objetivo
de inferir funes biolgicas e categoriaspara cada sequncia montada,
a fim de identificar genes, protenas e RNAs nocodificadores.
A fase de anotao fortemente baseada em genmica comparativa. Em
geral,a genmica comparativa tem como objetivo a busca de como dados
genmicos (porexemplo, loci de nucleotdeos e genes, funes biolgicas
e categorias ontolgicas)podem estar relacionados entre diferentes
espcies. O principal objetivo obtermais informao sobre uma espcie
em estudo baseado no conhecimento prviosobre espcies
filogeneticamente relacionadas. As tcnicas utilizadas em
genmicacomparativa precisam tratar enormes volumes de dados, no
contexto das novastecnologias de sequenciamento de alto
desempenho.
Os mtodos comparativos ainda usam abordagens tradicionais para
compararcadeias de nucleotdeos ou aminocidos, executando
alinhamento textual e uti-lizando heursticas para acelerar as
comparaes. Por exemplo, as ferramentasBLAST (Altschul et al., 1997)
e BLAT (Kent, 2002) produzem bons resultados, comuma sada bem
detalhada. Porm, elas produzem como resultado apenas
arquivostextuais, o que dificulta uma anlise mais global, isto , a
compreenso de certascaractersticas que se revelam em grande pores
de sequncias de DNA. Particu-larmente, a ocorrncia de sintenias no
fcil de se encontrar em arquivos textuais.Dois genes so sintnicos
se eles esto localizados no mesmo cromossomo ou numde seus
fragmentos, o que significa que eles devem estar na mesma cadeia de
DNA(Passarge et al., 1999). Assim, uma ferramenta de visualizao
especialmente pro-jetada pode suportar a descoberta de sintenias
entre mltiplos genomas.
Diversas ferramentas de visualizao foram desenvolvidas para a
navegaoem comparaes entre dois genomas, atravs do alinhamento de
suas sequnciasde nucleotdeos ou aminocidos. Essa ferramentas
apresentam grficos extrema-
1
-
mente detalhados, contudo difcil us-los para o estudo sobre como
genes estoorganizados entre dois ou mais genomas diferentes ou para
investigar se eles temsua organizao preservada. Fazem parte dessa
categoria ferramentas como Apollo(Lewis et al., 2002), SyntenyView
(Clamp et al., 2003), SyntenyVista (Hunt et al.,2004), ACT (Carver
et al., 2005), SynBrowse (Pan et al., 2005), SynView (Wanget al.,
2006), GBrowse_syn (McKay, 2007), Cinteny (Sinha and Meller, 2007),
ME-DEA (Broad Institute, 2009), Sybil (TIGR, 2009) e MizBee (Meyer
et al., 2009) .Em geral, essas ferramentas apresentam muita
informao que no relevanteno caso de estudo da conservao de genes
entre diferentes espcies, Alm disso,as ferramentas de visualizao em
geral so estticas, no oferecendo mecanismode interao com o usurio.
Tais caractersticas motivam a busca por uma nova emais clara forma
de visualizao da comparao entre mltiplos genomas.
A Universidade de Braslia mantm, em parceria com outras
instituies, o pro-jeto genoma do fungo Paracoccidioides
brasiliensis (Felipe et al., 2005a). Mais re-centemente, tem sido
realizado um trabalho de genmica comparativa do genomade P.
brasiliensis, com o objetivo de identificar sintenias entre genomas
de fun-gos no patognicos e patognicos humanos (de Carvalho, 2010).
Um dos produtosdesse trabalho foi a elaborao de uma tcnica de
visualizao de como os genes deP. brasiliensis esto organizados
dentro dos genomas de outros fungos, uma vez queo seu genoma no foi
inteiramente sequenciado. Essa nova tcnica baseada noagrupamento de
genes considerando seu posicionamento relativo nos
cromossomos,supercontigs e scaffolds. Ento, cada gene de um genoma
ligado com seu ortlogoem outro genoma. Essas linhas, formando
caminhos entre os genomas, deixamclaro como os genes so conservados
entre diferentes espcies e a possibilidade deocorrncia de
sintenias.
Nesse sentido, relevante o desenvolvimento de uma ferramenta
computacio-nal que implemente o mtodo de visualizao elaborado por
de Carvalho (2010) eo aperfeioe, de modo que seja capaz de
apresentar a melhor visualizao possvelda comparao entre mltiplos
genomas, de quaisquer organismos, de forma in-terativa e que
apresente as informaes no nvel de detalhes que mais convier
aopesquisador.
Assim, o objetivo geral deste trabalho apresentar um software de
visualizaode comparaes entre mltiplos genomas, denominado
Syntainia, que apresentaos genomas como grupos de fragmentos
ligados a seus respectivos ortlogos, com oobjetivo de facilitar a
tarefa de identificao de sintenias.
So objetivos especficos deste projeto:
1. realizar um estudo comparativo entre as ferramentas de
visualizao maiscomuns;
2. projetar a ferramenta com as seguintes caractersticas:
(a) desenvolver uma ferramenta de visualizao de fcil utilizao,
com umainterface grfica intuitiva e integrada ao sistema
operacional;
(b) obter a melhor forma de visualizar os grupos de genes,
utilizando algo-ritmos de baixa complexidade de tempo; e
2
-
(c) prover capacidade de obteno de informaes sobre os genes a
partir davisualizao.
3. realizar um estudo de caso com o genoma do fungo P.
brasiliensis; e
4. comparar as caractersticas da ferramenta implementada com
outros softwa-res para visualizao genmica.
O Captulo 2 apresenta noes de Biologia Molecular necessrias
compreen-so deste trabalho. Caractersticas e exemplos de
ferramentas de visualizao decomparaes entre genomas so apresentados
no Captulo 3. Em seguida, no Ca-ptulo 4, o Projeto Genoma Pb
apresentado, assim como os estudos mais recentesem genmica
comparativa, que motivaram a elaborao deste trabalho. O Captulo5
apresenta o Syntainia, seu processo de desenvolvimento, requisitos,
algoritmos,estruturas de dados e arquitetura. No Captulo 6
apresentado um estudo de casosobre a adoo da ferramenta ao Projeto
Genoma Pb. Finalmente, no Captulo 7so apresentadas as concluses e
delineados os trabalhos futuros.
3
-
Captulo 2
Conceitos Bsicos de BiologiaMolecular
Este captulo trata de conceitos bsicos de Biologia Molecular,
necessrios com-preenso deste trabalho.
A Seo 2.1 apresenta as clulas e introduz os demais conceitos
apresentadosneste captulo. Na Seo 2.2 as protenas so apresentadas.
Na Seo 2.3 so des-critos os cidos nucleicos (DNA e RNA),
reservatrios moleculares da informaogentica. Explanao acerca de
genes, cromossomos e cdigo gentico feita naSeo 2.4. O Dogma Central
da Biologia Molecular tratado na Seo 2.5. Porfim, consideraes a
respeito de tcnicas de sequenciamento gentico so feitas naSeo
2.6.
2.1 ClulasA clula a menor unidade que exibe o comportamento
conhecido como vida (de Car-valho et al., 2004). Muitas molculas
encontradas no interior das clulas so ma-cromolculas, polmeros de
alto peso molecular constitudos por precursores rela-tivamente
simples. As protenas e os cidos nucleicos, por exemplo, so
forma-dos pela polimerizao de subunidades relativamente pequenas
(Lehninger et al.,1995).
Embora os organismos vivos contenham um nmero muito grande de
protenase de cidos nucleicos, uma simplicidade fundamental est na
base das suas estru-turas. As subunidades monomricas simples com as
quais todas as protenas etodos os cidos nucleicos so construdos
encontram-se em nmero pequeno e soidnticas em todas as espcies.
A sobrevivncia de espcies biolgicas requer que sua informao
gentica sejamantida em uma forma estvel e, ao mesmo tempo,
expressada com um nmeromuito pequeno de erros. O armazenamento
efetivo e a expresso acurada da men-sagem gentica definem cada
espcie e sua continuidade por geraes sucessivas.
A partir dessas consideraes, pode-se destacar alguns dos
princpios da lgicamolecular da vida (Lehninger et al., 1995):
1. Todos os organismos vivos tm os mesmos tipos de subunidades
monomricas.
4
-
2. A estrutura das vrias macromolculas biolgicas revelam a
existncia demodelos subjacentes comuns.
3. A identidade de cada organismo preservada pela posse de
conjuntos carac-tersticos de cidos nucleicos e protenas.
2.2 ProtenasAs protenas (do grego protos: a primeira; a mais
importante) constituem, ao ladoda gua, a maior frao das clulas.
Quase tudo que ocorre nas clulas envolve uma ou mais protenas.
As protenastm muitas funes biolgicas diferentes: algumas tm
atividade cataltica e funci-onam como enzimas; outras servem como
elementos estruturais, como nutrientes earmazenamento; outras
transportam sinais especficos ou substncias especficaspara o
interior ou exterior das clulas, agem como defesa ou tm funo
reguladora.
O papel central ocupado por elas evidenciado pelo fato de que a
informaogentica , em ltima instncia, expressa como protena. Para
cada protena existeum segmento de DNA um gene (Seo 2.4) que guarda
a informao, es-pecificando sua sequncia de aminocidos. Em uma clula
existem milhares dediferentes tipos de protenas, cada uma delas
codificada por um gene e, cada umadelas, executando uma funo
especfica.
As protenas so cadeias de aminocidos. Cada aminocido est unido a
seusvizinhos por um tipo especfico de ligao covalente (ligao
peptdica).
Todas as protenas, em todas as espcies, independente da funo ou
da ati-vidade biolgica, so constitudas com o mesmo conjunto de 20
aminocidos (Fi-gura 2.1).
Todos os 20 aminocidos encontrados nas protenas tm um grupo
carboxila(COOH) e um grupo amina (NH2) ligados ao mesmo tomo de
carbono (o carbonoC). Eles diferem uns dos outros por suas cadeias
laterais ou grupos R, os quaisvariam em estrutura, tamanho e carga
eltrica, e so responsveis pelas diferentescaractersticas dos
aminocidos (tal como a solubilidade em gua).
As protenas diferem umas das outras porque tm um nmero e uma
sequnciade resduos de aminocidos unidades de amincidos que sofreram
ligao pep-tdica, perdendo um tomo de hidrognio de seu grupo amino e
a parte hidroxilado seu grupo carboxila que so diferentes entre si.
Os aminocidos so o alfa-beto da estrutura proteica, podendo ser
arranjados em um nmero quase infinitode sequncias para fazer um
nmero quase infinito de diferentes protenas.
Conceitualmente, a estrutura das protenas pode ser considerada
em quatro n-veis (Figura 2.2). A estrutura primria definida pela
sequncia de aminocidosunidos por ligaes peptdicas; a estrutura
secundria corresponde aos arranjosrecorrentes no espao de resduos
de aminocidos adjacentes; a estrutura terci-ria a organizao
tridimensional completa do polipeptdeo, referindo-se ao
rela-cionamento espacial entre todos os seus aminocidos; e, por
fim, a estrutura qua-ternria, encontrada em protenas com vrias
cadeias de polipeptdeos, aquelaque especifica a relao espacial dos
polipeptdeos, ou subunidades, no interior daprotena (Lehninger et
al., 1995).
5
-
Figura 2.1: Os 20 aminocidos das protenas (abaixo do nome do
aminocido eacima da estrutura molecular so indicados seus cdigos de
trs letras e de umaletra).
6
-
Figura 2.2: Estrutura das protenas: (a) primria, (b) secundria,
(c) terciria e (d)quaternria (Setubal and Meidanis, 1997).
Assim, um polipeptdeo com uma sequncia especfica de aminocidos
enovela-se em uma estrutura tridimensional nica; e esta estrutura,
por sua vez, determinaa funo da protena.
A sequncia de aminocidos de uma protena, ou sua estrutura
primria, podeser muito informativa para um bilogo. Nenhuma outra
propriedade distingue toclaramente uma protena de outra (Lehninger
et al., 1995):
1. A estrutura tridimensional de uma protena determinada por sua
sequnciade aminocidos.
2. A funo de uma protena depende de sua estrutura
tridimensional.
3. A estrutura tridimensional de uma protena nica, ou est muito
prximadisso.
4. As foras mais importantes que estabilizam a estrutura
tridimensional espe-cfica de uma dada protena so as interaes
no-covalentes.
5. Finalmente, muito embora a estrutura das protenas seja
complicada, vriospadres caractersticos podem ser reconhecidos.
A sequncia de aminocidos em uma protena pode fornecer pistas
sobre a es-trutura, a funo, a localizao celular e a evoluo da
protena. A maior partedesses conhecimentos obtida pela busca de
similaridades com outras sequnciasconhecidas. Milhares de sequncias
so conhecidas e esto disponveis em ban-cos de dados
computadorizados (Boeckmann et al., 2003). A comparao de
umasequncia recm-obtida com esse grande estoque de sequncias
geralmente revelarelacionamentos que so tanto surpreendentes quanto
esclarecedores.
A probabilidade de que uma dada informao a respeito de uma nova
protenapossa ser deduzida da sua estrutura primria melhora
constantemente com a adi-o quase diria de novas sequncias de
aminocidos ao grande nmero daquelasj publicadas e armazenadas em
bancos de dados pblicos.
2.3 cidos NucleicosOs cidos nucleicos, cido desoxirribonucleico
(DNA) e cido ribonucleico (RNA),so polmeros de nucleotdeos. Eles so
os reservatrios moleculares da informao
7
-
gentica. A estrutura de toda protena e, em ltima anlise, de todo
constituintecelular, um produto da informao programada numa
sequncia nucleotdica doscidos nucleicos da clula.
Os nucleotdeos so compostos ricos em energia que direcionam os
processos me-tablicos (principalmente as biossnteses) em todas as
clulas. Eles tambm funcio-nam como sinais qumicos, elos importantes
nos sistemas celulares que respondema hormnios e outros estmulos
extracelulares, alm de serem componentes estru-turais de vrios
cofatores enzimticos e de intermedirios metablicos (Lehningeret
al., 1995).
Cada nucleotdeo (Figura 2.3) formado por trs componentes:
1. uma base orgnica nitrogenada;
2. um acar de cinco tomos de carbono (pentose) numerados de 1 a
5; e,
3. um grupo fosfato.
Figura 2.3: Estrutura de um nucleotdeo (Darnell et al.,
1986).
As bases nitrogenadas so derivadas de dois compostos ancestrais,
as pirimidi-nas e as purinas. Tanto o DNA quanto o RNA contm duas
bases pricas principais:a adenina (A) e a guanina (G). O DNA e o
RNA possuem tambm duas pirimidinasprincipais; em ambos os tipos de
cidos nucleicos, uma delas a citosina (C). Anica diferena
importante entre as bases do DNA e as do RNA a natureza dasegunda
pirimidina: timina (T) no DNA e uracila (U) no RNA (Figura
2.4).
Figura 2.4: Elementos estruturais dos nucleotdeos mais comuns
(Vickers (2007),com adaptaes).
8
-
Duas espcies de pentose so encontradas nos cidos nucleicos. O
DNA possui2-Desoxi-D-Ribose (desoxirribose) e o RNA contm D-Ribose
(ribose) (Figuras 2.4e 2.5).
Figura 2.5: Acares presentes nos cidos nucleicos (Setubal and
Meidanis, 1997).
Os nucleotdeos sucessivos, tanto no DNA quanto no RNA, so
ligados atravsde pontes de grupos fosfato. O grupo hidroxila (OH)
do carbono 3 de um nucleotdeose liga ao grupo fosfato do carbono 5
(ligao fosfodister). Desta forma, o esqueletocovalente dos cidos
nucleicos consiste de resduos fosfato e pentose alternantes eas
bases caractersticas podem ser consideradas como grupos laterais
unidos aoesqueleto a intervalos regulares.
Todas a ligaes fosfodisteres nas fitas do DNA e RNA possuem a
mesma ori-entao ao longo da cadeia, conferindo a cada fita linear
do cido nucleico umapolaridade e extremidades 5 e 3 distintas.
Portanto, uma cadeia de cidos nuclei-cos tem uma orientao qumica,
que por conveno comea no carbono 5 livre eacaba na terminao que
contm o carbono 3 livre.
2.3.1 DNAComo repositrio da informao gentica, o DNA ocupa uma
posio nica e centralentre as macromolculas biolgicas. As sequncias
nucleotdicas do DNA descre-vem as estruturas primrias de todos os
RNA e protenas celulares, e atravs dasenzimas capaz de controlar o
tipo e a quantidade de todos os componentes celula-res,
determinando em ltima instncia as caractersticas fenotpicas todo
ser vivo(Lehninger et al., 1995).
Dessa forma, na molcula de DNA que esto codificadas as
estruturas dasprotenas, geradas a partir da transcrio de DNA em RNA
e da traduo desteem protenas (Setubal and Meidanis, 1997), o
chamado Dogma Central da BiologiaMolecular (Seo 2.5).
O armazenamento da informao biolgica a nica funo conhecida do
DNA.O modelo tridimensional para a estrutura do DNA consiste de
duas cadeias
helicoidais que se enrolam ao redor do mesmo eixo, formando uma
dupla hliceque gira no sentido da mo direita (Figura 2.6). As bases
pricas e pirimdicas deambas as fitas esto empilhadas dentro da
dupla hlice, com suas estruturas muitoprximas e perpendiculares ao
longo do eixo da hlice. As duas cadeias ou fitas dahlice so
antiparalelas, ou seja, suas ligaes 5,3 correm em direes opostas.As
fitas so complementares entre si: toda vez que aparecer uma adenina
numacadeia, timina ser encontrada na outra, onde se encontrar
guanina numa cadeia,
9
-
Figura 2.6: Uma viso geral da estrutura do DNA (Strck,
2006).
encontrar-se- citosina na outra. O DNA pode ser pensado como uma
cadeia linearde letras (de Carvalho et al., 2004), como no exemplo
da Figura 2.7.
5 . . . GGATCAGCGC . . . 33 . . . CCTAGTCGCG . . . 5
Figura 2.7: As duas fitas do DNA so uma o complemento reverso da
outra (comrelao s regras de emparelhamento de bases: A=T e CG).
2.3.2 RNAO RNA uma molcula que tem estrutura semelhante do DNA
(Figura 2.8), comalgumas diferenas de composio, quanto estrutura. O
RNA normalmente formado por uma fita simples de nucleotdeos.
10
-
Figura 2.8: RNA e suas bases nitrogenadas esquerda e DNA direita
(AccessExcellence (2010), com adaptaes).
Vrias classes de RNAs so encontradas na clula, cada uma com uma
funodistinta. Os RNAs ribossmicos (rRNA) so componentes estruturais
dos ribosso-mos, grandes complexos que realizam a sntese de
protenas. Os RNAs mensageiros(mRNA) so cidos nucleicos que
transportam a informao de um ou de uns pou-cos genes at o
ribossomo, onde as protenas correspondentes sero sintetizadas.Os
RNAs transportadores (tRNA) so molculas adaptadoras que traduzem a
in-formao presente no mRNA numa sequncia especfica de
aminocidos.
2.4 Genes, Cromossomos e Cdigo GenticoComo dito anteriormente, a
informao sequencial necessria formao de pro-tenas ou de RNA
encontrada nas sequncias nucleotdicas correspondentes no
11
-
DNA. Um segmento de DNA que contm a informao necessria para a
sntese deum produto biolgico funcional (protena ou RNA) referido
como gene.
Diz-se que um gene que est dando origem a um produto biolgico
est sendoexpresso. Clulas diferentes e em estgios de
desenvolvimento ou condies dife-rentes expressam genes distintos e
em intensidades diversas.
Uma clula tpica possui muitos milhares de genes e as molculas de
DNA, nadasurpreendentemente, tendem a ser muito longas (Lehninger
et al., 1995). Estima-se que o genoma humano tenha em torno de
30.000 genes (International HumanGenome Sequencing Consortium,
2001).
Nos organismos eucariontes (cuja(s) clula(s) possuem ncleo
delimitado), osgenes so compostos de partes chamadas ntrons e xons,
que se alternam dentrodo gene. Na transcrio (Seo 2.5), os ntrons so
retirados do mRNA (splicing).Assim, os ntrons correspondem a pores
que no so utilizadas na sntese da pro-tena codificada pelo gene e
os xons correspondem poro do DNA que originarprotenas. A frao do
DNA que corresponde a um gene completo chamada DNAgenmico, j uma
poro que corresponde ao gene sem os ntrons chamada deDNA
complementar (cDNA). O cDNA pode ser obtido a partir do mRNA atravs
doprocesso chamado transcrio reversa.
As molculas de DNA so usualmente empacotadas em estruturas
chamadasde cromossomos. A maioria das bactrias e vrus possuem um
nico cromossomo;os eucariontes usualmente possuem muitos. Um nico
cromossomo tipicamentecontm milhares de genes individuais. O
conjunto completo de cromossomos deuma clula incluindo todos os
genes e DNA intergnicos (que est entre os genes)em todos os
cromossomos de uma clula referido como genoma celular.
As protenas so sintetizadas com uma sequncia particular de
aminocidos,atravs da traduo da informao codificada no RNA
mensageiro. Para especifi-car uma protena, basta especificar os
aminocidos que ela contm. Os aminocidosso especificados por
unidades informacionais no mRNA chamadas de cdons. Oscdons para os
aminocidos consistem de trincas nucleotdicas especficas. A tra-duo
requer molculas adaptadoras, os RNAs transportadores, que
reconhecemcdons e inserem aminocidos em suas posies sequenciais
apropriadas no poli-peptdeo. A tabela que relaciona os cdons aos
aminocidos chamada de cdigogentico (Tabela 2.1). O cdigo gentico
degenerado, significando que um ami-nocido pode ser especificado
por mais de um cdon (neste caso, degenerado nosignifica imperfeito,
nem ambguo, porque nenhum cdon especifica mais de umaminocido).
As palavras do cdigo gentico padro so provavelmente universais
em todasas espcies, embora alguns desvios menores existam na
mitocndria e em uns pou-cos organismos unicelulares.
Na sntese de protenas, uma fase de leitura uma das trs possveis
formas deagrupar as bases para formar cdons em uma sequncia de DNA
ou RNA. Conside-rando, por exemplo, a sequncia GGATCAGCGC da Figura
2.7. Uma possvel fasede leitura seria GGA, TCA, GCG, ignorando a
ltima base C, em que foram forma-dos cdons a partir da primeira
base; outra fase de leitura seria feita ignorando-sea primeira base
G e agrupando as demais bases nos seguintes cdons GAT, CAG,CGC. Uma
terceira fase possvel ignoraria as duas bases GG formando ATC,
AGC,
12
-
Tabela 2.1: Tabela do cdigo gentico de cdons mapeados em
aminocidos (Setubaland Meidanis, 1997).
Primeira Segunda Posio TerceiraPosio G A C U Posio
G
GlyGlyGlyGly
GluGluAspAsp
AlaAlaAlaAla
ValValValVal
GACU
A
ArgArgSerSer
LysLysAsnAsn
ThrThrThrThr
MetIleIleIle
GACU
C
ArgArgArgArg
GlnGlnHisHis
ProProProPro
LeuLeuLeuLeu
GACU
U
TrpSTOPCysCys
STOPSTOPTyrTyr
SerSerSerSer
LeuLeuPhePhe
GACU
e desprezando as duas bases finais GC. Dessa forma, existem trs
possveis fasesde leitura da sequncia de bases do DNA, iniciando na
primeira, segunda ou ter-ceira letras da sequncia. A partir da
quarta letra as fases de leituras so iguais auma das trs primeiras
fases, com um ou mais cdons a menos.
Levando-se em considerao a fita complementar de uma sequncia de
DNA, asfases de leitura devem ser consideradas, tambm no sentido
reverso. Assim, tem-semais trs fases, num total de seis possveis
fases de leitura.
Uma Open Reading Frame ORF, ou fase aberta de leitura, uma
sequnciaque comea no cdon inicial de um gene com comprimento
mltiplo de trs, sendocompletamente mapeada em cdons, sem precisar
ignorar nenhuma base no finalda sequncia (Setubal and Meidanis,
1997).
2.5 Transcrio, Traduo e Sntese Proteica ODogma Central da
Biologia Molecular
O conhecimento da estrutura do DNA levou s questes sobre a sua
funo. Aprpria estrutura do DNA sugeriu como ele poderia ser
copiado, de forma que ainformao nele contida pudesse ser
transmitida de uma gerao para a seguinte.Compreender como a
informao no DNA era convertida em protenas funcionaistornou-se
possvel atravs da descoberta do mRNA, do tRNA e a soluo do
cdigogentico.
13
-
Estes e outros avanos importantes levaram ao Dogma Central da
Biologia Mo-lecular, que define trs processos principais na
utilizao celular da informaogentica. O primeiro a replicao,
processo de cpia do DNA pai para formar asmolculas filhas de DNA,
tendo sequncias nucleotdicas idnticas. O segundo a transcrio,
processo pelo qual partes da mensagem gentica codificada no DNAso
copiadas precisamente, na forma de RNA. O terceiro a traduo, na
qual amensagem gentica codificada no mRNA traduzida, nos
ribossomos, numa pro-tena com uma sequncia especfica de
aminocidos.
2.5.1 RNAs no codificadoresAlm do importante papel na traduo,
existe uma classe de molculas de RNA queno traduzida em protena, o
chamado RNA no codificador (ncRNA). A classe demolculas de ncRNAs
pode ser dividida em dois grandes grupos: manuteno (hou-sekeeping)
e regulao. Os ncRNAs de manuteno incluem todas as classes deRNAs
envolvidos no processo de transcrio primria, traduo e controle de
qua-lidade de tradues. Os ncRNAs de regulao constituem um grupo
muito maisdiversificado, que compreende os ncRNAs envolvidos em uma
regulao especficade vrios aspectos dos genes expressos, tanto nos
procariotos quanto nos eucario-tos. Os nveis em que os RNAs
reguladores podem influenciar processos celularesvariam da regulao
da transcrio ao controle da traduo. O estudo de como asmolculas de
ncRNA atuam nas clulas uma rea de estudo em foco na atuali-dade,
devido ao papel cada vez mais claro que essas molculas desempenham
noDogma Central da Biologia Molecular (Mattick, 2003).
2.6 Sequenciamento de GenomasNa sua capacidade de reservatrio da
informao, a mais importante propriedadede uma molcula de DNA a sua
sequncia nucleotdica. At o final dos anos de1970, obter-se a
sequncia de um cido nucleico contendo mesmo 5 ou 10 nucleo-tdeos
era difcil e muito laborioso. O desenvolvimento de novas tcnicas
tornoupossvel sequenciar molculas de DNA cada vez maiores, com uma
facilidade noimaginada algumas dcadas antes. As tcnicas dependeram
de uma melhora nacompreenso da qumica dos nucleotdeos, do
metabolismo do DNA e em mtodosque permitiram a separao das fitas do
DNA.
Desde a dcada de 1990, tcnicas em laboratrio tornaram possvel
extrair oDNA ou o RNA de clulas, separar as duas fitas que formam o
DNA, induzir aunio de fitas simples de DNA que tenham sequncias
complementares de bases,cortar o DNA em pontos especficos ou
aleatrios, copi-lo, estimar seu tamanho emarc-lo com istopos
radioativos ou corantes fosforescentes que permitem poste-rior
deteco, sintetizar pequenas cadeias de DNA com a sequncia de bases
quese desejar, separar molculas de DNA em funo do seu tamanho
aproximado esequenciar o DNA, isto , obter a sequncia de bases que
o compem (de Carvalhoet al., 2004).
14
-
Entretanto, mesmo com todos esses avanos, o primeiro problema
que surge noprocesso de sequenciamento est justamente no processo
experimental necessriopara se extrair a sequncia de bases
nucleotdicas do DNA. Limitaes tcnicas im-pedem que se sequencie
regies com tamanhos maiores do que 1.000 bases por vez.Desta forma,
para viabilizar o sequenciamento completo do genoma
necessrio,primeiramente, tratar o DNA das clulas de forma a criar
inmeros fragmentos,que devem ser individualmente sequenciados e,
posteriormente, montados comoverdadeiras peas de um quebra-cabeas
(Pappas Jr., 2003).
2.6.1 Sequenciamento SangerO primeiro organismo a ter seu DNA
sequenciado foi o vrus -X174 pelo pesqui-sador Frederick Sanger em
1975 (Sanger et al., 1977). O mtodo desenvolvido porSanger foi
aperfeioado, com a utilizao de sequenciadores automticos e
sistemascomputacionais, e mais tarde utilizado no sequenciamento do
genoma humano (In-ternational Human Genome Sequencing Consortium,
2001; Venter et al., 2001) ede inmeros outros seres, inclusive o
fungo P. brasiliensis (Felipe et al., 2003).
A seguir, o mtodo Sanger descrito, tanto suas etapas
laboratoriais, quanto asetapas que demandam a utilizao da sistemas
computacionais.
Quebra da molcula de DNA
Para a quebra do DNA empregam-se tcnicas tais como o uso de
endonucleases derestrio e o mtodo de shotgun.
As endonucleases de restrio clivam o DNA em sequncias especficas
para ge-rar um conjunto de fragmentos menores. J no mtodo de
shotgun, uma soluocontendo DNA purificado submetido a algum
procedimento que induza a que-bra desordenada das molculas (como,
por exemplo, uma alta frequncia de oscila-o/vibrao), que so
posteriormente filtradas e separadas para processamento.
Replicao de DNA
Para a realizao dos experimentos laboratoriais com DNA necessria
uma por-o mnima de material. preciso, tambm, que se tenha material
disponvel pararepetio do experimento. Para tanto, utilizam-se
tcnicas, como a do DNA recom-binante e da Reao em Cadeia de
Polimerase (PCR), para clonagem do DNA.
A primeira etapa na clonagem de um gene frequentemente a
construo deuma biblioteca de DNA que inclua fragmentos
representando a maioria do genomade uma dada espcie. A biblioteca
pode ser limitada a exprimir genes pela clonagemde apenas cpias do
DNA complementar a mRNAs, isolados para construir umabiblioteca de
cDNA. Um segmento especfico de DNA pode ser amplificado e
clonadousando a PCR.
Vetores de expresso fornecem as sequncias requeridas para a
transcrio, tra-duo e regulao dos genes clonados. Eles permitem a
produo de grandes quan-tidades de protenas clonadas.
15
-
A clonagem pela tcnica do DNA recombinante envolve a separao de
um geneespecfico ou segmento de DNA do seu cromossomo maior, a sua
ligao a uma mol-cula de DNA transportadora pequena e depois a
replicao deste DNA modificado,milhares ou mesmo milhes de vezes. O
resultado uma amplificao seletiva deum gene ou segmento de DNA
particular. Esse tipo de clonagem acarreta cincoprocedimentos
gerais:
1. Um mtodo para cortar o DNA em localizaes precisas (com o uso
de endo-nucleases de restrio).
2. Um mtodo para unir dois fragmentos de DNA (o que feito pela
DNA ligase).
3. A seleo de uma pequena molcula de DNA capaz de auto-replicao.
Seg-mentos de DNA a serem clonados podem se unir a DNA de vetores
(plasm-deos, vrus). As molculas de DNA compostas so chamadas de DNA
recom-binante.
4. Um mtodo para realizar a transferncia do DNA recombinante
para a clulahospedeira, que fornecer a maquinaria enzimtica para a
replicao doDNA.
5. Mtodos para selecionar as clulas hospedeiras que contenham o
DNA recom-binante.
O princpio da tcnica conhecida como PCR (Polymerase Chain
Reaction) base-ado na estrutura e na sequncia do DNA. Um conjunto
de primers ou iniciadores,compostos por duas pequenas sequncias de
oligonucleotdeos complementares auma certa extenso em ambos os
lados do DNA a ser amplificado, usado parainiciar a reao. O DNA a
ser copiado chamado de DNA template ou molde. Amolcula de DNA
aquecida at que a hlice se desfaa e haja separao da
fitas(desnaturao do DNA ou melting). A soluo vagarosamente
resfriada, cada h-lice encontra-se com a sua complementar e a
estrutura de dupla hlice reconstitui-se (anelamento), permitindo a
hibridizao entre a hlice que unitria e o primer.Esta preferncia
pelo primer cromtide irm ocorre devido alta concentraodos primers
no meio. Nucleotdeos livres em alta concentrao so
disponibilizadosno meio e serviro na composio da nova sequncia a
ser replicada, no processo deextenso da cadeia.
O conjunto de reaes em srie de desnaturao, anelamento e extenso
defi-nido como um ciclo. A execuo de um ciclo resulta na amplificao
da sequnciade DNA desejada.
O produto de um ciclo de ampliao serve como molde para o prximo.
Assim, acada ciclo sucessivo dobra a quantidade de DNA.
Sequenciamento automatizado
O sequenciamento do DNA est automatizado desde a dcada de 1990,
com o desen-volvimento do Projeto Genoma Humano (International
Human Genome Sequen-cing Consortium, 2001; Venter et al., 2001).
Esta tecnologia permite que a sequn-cia de milhares de nucleotdeos
possa ser obtida em algumas horas e projetos desequenciamento muito
grandes possam ser contemplados (Figura 2.9).
16
-
Figura 2.9: Sequenciador automtico de DNA MegaBACE 1000 (General
ElectricCompany, 2010).
Sequenciadores automticos geram um arquivo compactado contendo
eletrofe-rogramas de uma placa, que por sua vez contm vrios
fragmentos de DNA. Umeletroferograma composto de quatro grficos
coloridos, cada um corresponde auma das quatro bases, A (Adenina),
C (Citosina), G (Guanina) e T (Timina) (Figura2.10). Quando uma
base identificada em uma posio do fragmento, o grficoapresenta um
pico na posio correspondente. Se uma base particular no pode
seridentificada, o caracter N (uNknow) associado posio
correspondente. Assim,estes eletroferogramas, armazenados em
arquivos compactados, so enviados pormeio eletrnico aos laboratrios
de Bioinformtica para dar incio ao processo deanlise computacional
das sequncias.
Figura 2.10: Exemplo de um eletroferograma (Loris, 2005).
Pipeline de Sequenciamento
Um pipeline, s vezes referenciado como workflow (Lemos, 2004),
corresponde auma sequncia de processamento, na qual o resultado
(sada) de uma etapa servecomo entrada para outra etapa (Coimbra et
al., 2007).
17
-
Tipicamente, um sistema de Bioinformtica processa os fragmentos
de DNAem trs fases: submisso, montagem e anotao que correspondem ao
pipelinede sequenciamento, sendo que cada uma das fases , por si s,
formada por seuprprio pipeline. Estas fases tem por objetivo
produzir sequncias de caracterescorrespondentes aos fragmentos
gerados nos laboratrios de Biologia Molecular,recompor trechos do
DNA original e identificar funes e categorias nestes trechosde
sequncias identificados. A seguir so descritas cada uma das etapas
do pipeline,bem como citadas ferramentas computacionais utilizadas
nas mesmas.
Submisso
Na fase de submisso, cada eletroferograma de uma placa
descompactado e trans-formado em uma cadeia chamada read. Em uma
read, para cada base da sequncia associado um valor referente
probabilidade de erro na identificao da base ni-trogenada
identificada. As expresses sequncia e read sero utilizadas como
sin-nimos. Normalmente, a tarefa de converter o arquivo binrio que
representa umaread para um formato legvel por pessoas feita pelo
programa Phred (Ewing andGreen, 1998; Ewing et al., 1998), que gera
para cada read um arquivo no formatophd, que contm uma cadeia
composta pelos caracteres A, C, G, T e N e a probabili-dade de erro
associada a cada base. O programa Phd2Fasta (Green, 2006)
converteos arquivos phd em arquivos tipo texto no formato FASTA
(NCBI, 2006), gerandoum par de arquivos para cada conjunto de
arquivos phd de uma placa: um arquivocontendo a cadeia de
caracteres (arquivo de sequncias) e outro com as
respectivasprobabilidades de erro (arquivo de qualidade).
Cada sequncia filtrada para remover pores que provavelmente no
perten-cem ao organismo sendo estudado, mas que pertencem a vetores
(sequncias dosorganismos usados para replicar o DNA do organismo
que est sendo estudado)e contaminantes (sequncias de DNA de outros
organismos). As reads so filtra-das utilizando-se programas tais
como o Cross_match (Green, 2006). Os trechosidentificados como
sendo de outros organismos so mascarados com o caractere X.
Em alguns casos, pode ser feita uma anlise de redundncia entre
as sequnciasde uma placa. Para tanto, pode-se executar um programa
de montagem de sequn-cias, como o CAP3 (Huang and Madan, 1999). Os
agrupamentos gerados pelo CAP3indicam sequncias muito similares e
provavelmente redundantes dentro da placasubmetida.
Finalmente, as sequncias so armazenados em um banco de dados
juntamentecom estatsticas sobre a placa (por exemplo, o total de
reads). Outras informaes,como por exemplo a redundncia, tambm podem
ser armazenadas, de acordo comas necessidades de cada projeto de
sequenciamento. A Figura 2.11 ilustra uma fasede submisso em que
feita anlise de redundncia.
Montagem
A fase de montagem consiste em gerar agrupamentos de sequncias
similares, isto, sequncias que tm prefixos e sufixos
aproximadamente iguais. Duas sequn-cias so semelhantes se h
similaridades entre o sufixo de uma e o prefixo de outra.Esta
correspondncia conhecida como alinhamento. Estes agrupamentos
buscam
18
-
Figura 2.11: Exemplo de sequncia de programas executados na fase
de submisso.
consenso
reads
Figura 2.12: Alinhamento de um contig, resultante do processo de
agrupamento desequncias, que baseia-se na similaridade entre
prefixos e sufixos das sequncias.
unir fragmentos que potencialmente pertencem mesma regio do DNA.
Gruposformados por mais de uma sequncia so chamados contigs (Figura
2.12) e gruposformados por uma nica sequncia so chamados singlets.
Para cada contig, umasequncia consenso gerada e esta representa o
contig.
Os programas Phrap (Green, 2006) e CAP3 (Huang and Madan, 1999)
so nor-malmente usados para montar as sequncias. Ambos geram um
arquivo com oformato ace, contendo dados sobre a montagem e os
alinhamentos das sequnciasque compem um contig, e outro arquivo que
contm as sequncias dos singlets emformato FASTA. Outros arquivos
tambm so gerados, porm apenas aqueles doisso utilizados nos
processamentos seguintes.
A identificao de possveis genes nas sequncias (sequncias
consenso ou sin-glets) feita atravs de programas como o Glimmer
(Delcher et al., 1999; Salzberget al., 1998), que identifica posies
iniciais ou finais de uma regio que possivel-mente esteja
codificando um gene. As posies de cada candidato a gene
soarmazenadas em um banco de dados, juntamente com as sequncias
consenso eos singlets. Nos projetos de ESTs no necessrio
identificar genes, uma vez queas ESTs representam pores do DNA que
so expressas (j correspondem, por-tanto, a genes), assim, neste
caso, apenas as sequncias consenso e os singlets so
19
-
armazenados no banco de dados.Ao trmino da fase de montagem, so
tambm armazenadas algumas estatsti-
cas, como o nmero total de grupos (contigs e singlets) e o nmero
total de genesidentificados (no caso de DNA genmico). Algumas
visualizaes de contigs tam-bm so podem ser disponibilizadas,
mostrando o alinhamento das reads para aformao da sequncia
consenso.
Anotao
O objetivo da fase de anotao identificar funes e categorias das
sequnciasgeradas na fase de montagem. geralmente dividida em dois
passos. Primeiro, aanotao automtica, em que devem ser comparadas
todas as sequncias do projetocom sequncias de bancos de dados
pblicos. As funes e categorias das sequn-cias estudadas so
inferidas por comparaes com sequncias semelhantes que ti-veram suas
funes e categorias previamente determinadas. O segundo passo,
aanotao manual, feita pelos bilogos, que utilizam as informaes da
anota-o automtica, bem como seus conhecimentos, para inferir a funo
associada sequncia. Estas informaes tambm so armazenadas no banco
de dados do pro-jeto.
A anotao automtica utiliza programas como o BLAST (Altschul et
al., 1990)e o FASTA (Pearson and Lipman, 1988). As sequncias
encontradas nos bancos dedados pblicos com maior semelhana s
sequncias estudadas identificadas peloBLAST ou pelo FASTA so
chamadas best hits. Estes programas fornecem sadasno formato HTML,
que podem ser armazenados diretamente no banco de dados; emformato
texto simples, que podem ser depois processadas para melhor
visualizao,ou at mesmo em formato XML (este ltimo apenas pelo
BLAST).
2.6.2 Sequenciamento de Alto DesempenhoO sequenciamento Sanger
tem sido o mtodo mais utilizado pelos pesquisadoresnos ltimos anos.
Contudo, novos mtodos de sequenciamento tem sido desenvolvi-dos.
Esses novas tecnologias rapidamente ganharam espao entre os
pesquisadoresdevido capacidade de sequenciamento de milhes de
sequncias a um custo muitobaixo, em comparao ao mtodo Sanger. Esses
novos mtodos tem tido um grandeimpacto nas reas de pesquisa
relacionadas a sequenciamento de DNA, abrindonovas frentes de
pesquisa, tais como o estudo de DNAs conservados de espcies
jextintas, como o mamute, e a caracterizao da diversidade ecolgica
por meio dosequenciamento de DNA de amostras ambientais (Alvarez,
2009; Mardis, 2008).
Um dos equipamentos que implementa um dos novos mtodos de
sequencia-mento o Roche/454 FLX (Figura 2.13). Este sequenciador
foi introduzido em 2004,e utiliza uma tcnica de sequenciamento
conhecida como pirosequenciamento. Nopirosequenciamento a
incorporao de cada nucleotdeo a uma fita de DNA, pormeio da enzima
DNA polimerase, acarreta a liberao de pirofosfato. Esta mo-lcula,
por sua vez, inicia uma srie de reaes qumicas cujo produto final
aliberao de luz. A deteco da luz por um sensor permite a determinao
das ba-ses de uma sequncia de DNA. Uma caracterstica importante
desta tcnica que,
20
-
Figura 2.13: Sequenciador automtico Roche/454 FLX (Roche,
2009).
a cada vez que um mesmo nucleotdeo incorporado sequncia, a
intensidade daluz liberada aumenta. Se essa intensidade ultrapassar
a capacidade do detector deluz, a leitura do nmero de bases iguais
ser incorreta. Este o principal tipo deerro enfrentado por este
tipo de sequenciador: a incorreta determinao do nmerode bases em
uma cadeia com repeties seguidas do mesmo nucleotdeo, tal
comoCCCCCCC (Alvarez, 2009; Mardis, 2008).
O primeiro passo no processo de sequenciamento utilizando o
Roche/454 FLXconsiste na amplificao do DNA a ser sequenciado. Isso
feito misturando-seos fragmentos de DNA com estruturas de agarose1
contendo sequncias de DNAcomplementares s sequncias adaptadoras do
Roche/454 FLX, presentes nos frag-mentos a serem sequenciados.
Dessa forma, cada estrutura de agarose fica ligadaa um nico
fragmento de DNA. A seguir, cada uma dessas estruturas contendo
umfragmento de DNA isolada em contas leogua contendo reagentes para
a en-zima DNA polimerase. Atravs de um ciclo trmico, so produzidas
um milho decpias do fragmento de DNA contidos na superfcie da
estrutura de agarose (Alva-rez, 2009; Mardis, 2008).
Aps a amplificao do DNA, o sequenciamento pode ser de fato
realizado. Cadaestrutura de agarose colocada em um recipiente de
estrutura de slica capilar, con-tendo centenas de milhares de
locais para insero de uma estrutura de agarose. Oobjetivo desses
recipientes fornecer uma localizao fixa para monitoramento dasreaes
de sequenciamento. Em cada recipiente, enzimas que catalizam a
reaode pirosequenciamento so adicionadas a cada recipiente e a
mistura centrifu-
1Polmero composto de subunidades de galactose. Quando dissolvida
em gua quente e seguida-mente arrefecida, a agarose toma uma
consistncia gelatinosa, este gel muito utilizado em
biologiamolecular para atividades como sequenciamento.
21
-
gada com o objetivo de cobrir as agaroses com as enzimas
(Alvarez, 2009; Mardis,2008).
A incorporao de cada nucleotdeo feita um passo por vez, e em
cada passoum sensor CCD2 registra a luz emitida em cada recipiente,
assim determinando asequncia de DNA, uma base por vez. No entanto,
tal sensor no consegue interpre-tar corretamente a incorporao de um
mesmo nucleotdeo vrias vezes (mais de6), o que significa que pores
de DNA nas quais uma mesma base ocorre vrias ve-zes podem ser
interpretadas, de forma equivocada, como erros no
sequenciamento,tais como erros de insero ou de remoo (Alvarez,
2009; Mardis, 2008).
O sequenciador Roche/454 FLX prov sequncias de cerca de 250
bases de com-primento durante um processamento de 8 horas. Aps um
processamento paraa remoo de sequncias com baixa qualidade, so
obtidas cerca de 100 milhesde bases com boa qualidade em mdia.
Apesar do tamanho das sequncias obti-das com o sequenciador
Roche/454 FLX ser muito menor em comparao com ossequenciadores
Sanger, o mesmo foi utilizado com sucesso no sequenciamento
degenomas virais e bacteriais com alta qualidade (Alvarez, 2009;
Mardis, 2008). A Fi-gura 2.14 mostra esquematicamente o processo de
sequenciamento utilizado peloRoche/454 FLX.
Pipeline de Sequenciamento
Assim como ocorre no sequenciamento Sanger, necessria a utilizao
de umsistema de Bioinformtica para processar os fragmentos de DNA
obtidos atravsdos mtodos de sequenciamento de alto desempenho.
Tipicamente, o pipeline desoftwares constitudo de quatro fases:
submisso, mapeamento, montagem e ano-tao. Particularmente, como os
mtodos de alto desempenho produzem sequnciasmuito pequenas, a
montagem direta de todos os fragmentos fica mais complexa.Nesse
pipeline, os dados das sequncias so obtidos do sequenciador e
diretamentearmazenados. Aps isso, em geral, as sequncias so
alinhadas a um genoma dereferncia, formando grupos de sequncias
prximas. A seguir, cada um desses gru-pos montado por meio de um
software de montagem, obtendo assim os singletse contigs.
Finalmente, os singlets e contigs obtidos anteriormente so
anotados(Alvarez, 2009; Mardis, 2008).
Submisso
Ao contrrio dos dados de sequenciadores Sanger, o sequenciador
Roche/454 FLXno prov dados que permitam que bases individuais
possam ser determinadas.Ao invs disso, estima-se o comprimento de
cada homopolmero na sequncia. Porexemplo, a sequncia AAATGGC seria
armazenada como constituda de uma sequn-cia de 3 As, seguida de uma
sequncia de 1 T, uma sequncia de 2 Gs e, por fim,uma sequncia de um
nico C. A determinao da sequncia consiste em simples-
2Sigla para Charge-Coupled Device Dispositivo de Carga Acoplada.
Trata-se de um sensorpara captao de imagens formado por um circuito
integrado contendo uma matriz de capacitoresligados (acoplados).
comumente utilizado em cmeras digitais.
22
-
Preparao da biblioteca de DNA
PCR por emulso
Sequenciamento
A
A
A B
B
B
a
b
c
Ligao
Seleo(isolamentoapenas dos fragmentosAB)
- Genoma fragmentadopor nebulizao- Sem clonagem: no hescolha de
colnia- Biblioteca de sstDNAcriada com adaptadores- Fragmentos
A/Bselecionados utilizandopurificao avidina-biotina
gDNA Biblioteca de sstDNA
Insira o sstDNA em soluocontendo um excesso decontas de captura
de DNA
Emulsifique as contase reagens PCR emmicrorreatores leo-gua
A amplificao doDNA ocorre dentrodos microrreatores
Descarte os microrreatorese escolha as melhorescontas
Biblioteca de sstDNA Biblioteca de sstDNA amplificada
- Dimetro mdio do recipiente: 44 micrmetros
- 400.000 sequncias obtidas em paralelo
- Uma nica conta de sstDNA amplificado depositada por
recipiente
Biblioteca de sstDNA amplificada Bases filtradas por
qualidade
Figura 2.14: Mtodo utilizado pelo sequenciador Roche/454 FLX.
Adaptado de Mar-dis (2008).
23
-
mente analisar as estimativas do sequenciador e concatenar os
diversos homopol-meros determinados (Alvarez, 2009).
Os dados do sequenciador Roche/454 FLX so disponibilizados em
arquivos bi-nrios no formato Standard Flowgram File (SFF), os quais
podem ser processa-dos pelo programa Flower (BIOHASKELL, 2010),
capaz de produzir arquivos desequncia e de qualidade em formato
FASTA. A partir da, as sequncias podemser armazenadas num banco de
dados, tal como feito em projetos de sequencia-mento Sanger.
Mapeamento
Uma vez que as sequncias obtidas pelos novos sequenciadores so
relativamentecurtas em relao ao sequenciamento Sanger, isso torna
complexo o uso das tcni-cas tradicionais para reagrupar os
fragmentos sequenciados no DNA original. Dequalquer forma, desejvel
aplicar as tcnicas antigas aos novos dados, mesmosendo necessrio
efetuar adaptaes (Alvarez, 2009).
Uma possvel abordagem seria usar um genoma de referncia,
normalmente umorganismo semelhante quele que est sendo sequenciado,
cujo genoma j fossebem conhecido. Assim, possvel mapear as pequenas
sequncias obtidas pelosnovos sequenciadores sobre o genoma bem
conhecido, agrupando-as conforme suasposies no mapeamento. Uma vez
que as sequncias agrupadas constituem umnmero muito menor a ser
analisado e possuem poucas diferenas entre si, uma vezque esto
mapeadas aproximadamente na mesma regio do genoma, seria
possvelaplicar tcnicas de montagem tradicional a esses grupos de
sequncias (Alvarez,2009).
O programa Maq (Li et al., 2008) capaz de realizar essa tarefa
de mapea-mento. A tcnica do software consiste em fragmentar cada
sequncia a ser mape-ada em quatro pedaos menores, de tamanho
aproximadamente igual, chamadosde sementes. Dado que uma sequncia s
se alinhar perfeitamente ao genoma dereferncia se todas as sementes
alinharem-se perfeitamente se houver algumadiferena, esta dever
estar contida em uma semente , pode-se procurar todos ospossveis
locais nos quais a sequncia pode se alinhar ao genoma, permitindo
nomximo duas diferenas. Com base nesse espao reduzido de locais,
pode ser feitaa busca da sequncia nesses locais e reportar o
mapeamento ao usurio (Alvarez,2009).
Montagem
Uma vez obtidas as sequncias mapeadas, possvel aplicar as
tcnicas de monta-gem tradicionais do sequenciamento Sanger, com
pequenas modificaes. Um dossoftwares para montagem de sequncias que
pode ser utilizado o CABOG (Milleret al., 2008), que consiste numa
adaptao de um montador para sequenciamentoSanger desenvolvido pela
Celera.
24
-
Anotao
A anotao de sequncias realizada para sequenciamentos de alto
desempenhode forma anloga ao aplicado ao mtodo Sanger. Tambm so
utilizados softwaresde alinhamento de sequncias, tais como o BLAST,
a fim de buscar similaridadesentre as sequncias do organismo em
estudo e as sequncias de organismos bemestudados.
Outros Mtodos de Sequenciamento de Alto Desempenho
Alm do Roche/454 FLX, outros sequenciadores de alto desempenho
foram de-senvolvidos. o caso do Illumina Genome Analyzer e do
Applied BiosystemsSOLiDTM(Mardis, 2008). Embora cada um desses
sequenciadores utilize mto-dos diferentes para a obteno das cadeias
genmicas, ambos apresentam desa-fios semelhantes para os sistemas
de Bioinformtica, tal como apresentado parao Roche/454 FLX, uma vez
que produzem sequncias de tamanho extremamentereduzido.
2.7 Genmica ComparativaA genmica comparativa uma tcnica de
estudo de como dados genmicos, taiscomo localizao de cadeias e
genes, funes e categorias, de diferentes espciesesto relacionados
(Bachhawat, 2006). Atravs da genmica comparativa tem sidopossvel
aplicar descobertas j feitas a espcies que esto sendo estudadas,
base-ado nas pesquisas que j foram realizadas em organismos que
foram previamentesequenciados e analisados. As aplicaes mais comuns
da genmica comparativaso a descoberta de genes e de RNAs no
codificadores.
Essa tcnica est fortemente relacionada com a evoluo das espcies,
sendolargamente utilizada para estabelecer relaes evolutivas entre
diferentes orga-nismos. Geralmente, o estudo das relaes evolutivas
entre as espcies feitoutilizando-se rvores filogenticas. Esse
estudo feito com o auxlio de softwa-res de visualizao que mostram
as relaes de parentesco entre os organismosanalisados.
Visualizadores de rvores filogenticas e outros softwares
utilizadosem tarefas de genmica comparativa so ilustrados na Seo
3.1.
Com o crescimento dos bancos de dados pblicos de anotaes de
genomas se-quenciados, a genmica comparativa tem sido cada vez mais
utilizada nos projetosde sequenciamento para a determinao de funes
e categorias das sequnciasobtidas, tal como descrito no tpico
Anotao da Subseo 2.6.1. A abordagemcomputacional mais comum o
alinhamento textual de sequncias, com a utiliza-o de programas como
o BLAST. Porm, o volume crescente de dados faz surgir anecessidade
de ferramentas de visualizao que facilitem as anlises feitas
pelospesquisadores, uma vez que programas como o BLAST geram
resultados em formade texto, com muitas informaes detalhadas (ver
Seo 3.2).
Outra tarefa de genmica comparativa a identificao de sintenias
entre dife-rentes espcies.
25
-
2.7.1 SinteniasA palavra sintenia deriva do termo synteny da
lngua inglesa, que trata-se de umneologismo com o significado de on
the same ribbon (na mesma fita). Esse novotermo foi proposto por
John H. Renwick em 1971. Em sua concepo original,sintenia refere-se
localizao de genes no mesmo cromossomo (Passarge et al.,1999).
Neste trabalho, um par de genes dito sintnico quando estes se
conservamdentro de um mesmo cromossomo, supercontig ou scaffold
entre espcies diferentes.Um supercontig um conjunto ordenado e
orientado de contigs que ainda contmalguns gaps. Um scaffold um
conjunto de contigs que j se aproxima da estruturade um
cromossomo.
A identificao de sintenias entre diferentes espcies
necessariamente decorrede comparaes entre mltiplos genomas, estando
fortemente relacionada s tc-nicas clssicas de genmica comparativa.
Em geral, a identificao de sinteniasparte da comparao do genoma em
estudo com outros genomas bem conhecidos,nos quais se buscam a
ocorrncia de genes sintnicos ao do organismo pesquisado.Tais
comparaes comumente so feitas utilizando softwares de alinhamento
desequncias, tais como o BLAST. O passo seguinte frequentemente
consiste em uti-lizar alguma ferramenta de visualizao grfica dos
resultados dos alinhamentosobtidos, de modo a facilitar a
identificao de sintenias.
Na Seo 3.3 so apresentados e comparados os softwares de
visualizao maisutilizados para a identificao de sintenias. Em
seguida, na Seo 4.2 argumenta-se que ainda h espao para o
desenvolvimento de uma nova ferramenta de visua-lizao, com uma
abordagem diferente das demais.
26
-
Captulo 3
Visualizao de Dados Biolgicos
Com a expanso dos projetos de sequenciamento de genomas pelo
mundo, o vo-lume de dados produzido tem crescido enormemente.
Somente o banco de dados doGenBank tem dobrado a quantidade de
dados a cada 18 meses, desde 1982, ultra-passando 95 bilhes de
pares de bases (Lathe et al., 2008). Um volume to grandede dados
demanda ferramentas de visualizao e anlise intuitivas, eficazes e
efi-cientes. Um projeto de sequenciamento de genoma produz os mais
variados tiposde dados: alinhamentos e montagens de sequncias,
referncias textuais e muitoslinks com outros bancos de dados.
A Seo 3.1 apresenta o problema da visualizao de dados biolgicos
e os mo-dos de visualizao mais comuns. Na Seo 3.2 so apresentados
os requisitos maiscomuns das ferramentas utilizadas para a
visualizao de comparaes de sequn-cias, com vistas identificao de
sintenias. Em seguida, a Seo 3.3 relaciona asferramentas mais
comuns para a visualizao de sintenias e um quadro compara-tivo.
3.1 Dados Biolgicos e sua Visualizao: GrficosMais Comuns
O maior volume de dados biolgicos certamente diz respeito ao
sequenciamento degenomas. Nesse contexto, so armazenados dados
sobre cada par de base de umorganismo, sequncias de interesse que
foram identificadas, sobretudo genes, comsuas respectivas anotaes e
links para outras bases de informao. O principalexemplo de
visualizador capaz de integrar a maior parte dos dados gerados
porprojetos de sequenciamento o NCBI Map Viewer, um visualizador de
dados doGenBank (Sayers et al., 2010). A Figura 3.1 ilustra como os
dados so apresentadospelo Map Viewer.
Outra informao muito importante para os bilogos, e que muitas
vezes derivados dados gerados pelos projetos de sequenciamento, a
reconstruo das rela-es evolucionrias entre as espcies, o que
conhecido como filogentica. Nessesentido, os grficos produzidos
para melhor compreenso dessas relaes evolu-cionrias uma rvore da
vida, um grfico conhecido como rvore filogentica,que busca
evidenciar o grau de parentesco entre diferentes espcies. As
primei-
27
-
Figura 3.1: Visualizao do cromossomo X humano pelo NCBI Map
Viewer (NCBI,2010). Uma caracterstica importante a possibilidade de
acessar a anotao deum gene mapeado atravs de links.
ras ferramentas de visualizao de rvores filogenticas datam de
1996, quandoapresentavam simples arestas que ligavam as folhas das
rvores a uma raiz (Page,1996). Os aplicativos mais recentes, porm,
fornecem grficos mais complexos, for-necendo interatividade e links
para dados das anotaes (Letunic and Bork, 2007),conforme ilustrado
pela Figura 3.2.
Outro tipo de informao muito relevante para os estudos sobre um
determi-nado organismo aquela relacionada dinmica das reaes qumicas
que ocor-rem no interior das clulas: o metabolismo. Nesse sentido,
comum a elaboraode grficos denominados vias metablicas, que
apresentam toda a cadeia de reaesqumicas de determinados processos
celulares. Uma das fontes de grficos de viasmetablicas o banco de
dados do KEGG, constitudo de ilustraes feitas mo,no qual possvel
efetuar consultas sobre os produtos de genes e outras molcu-las
envolvidas (Kanehisa et al., 2006). A Figura 3.3 apresenta uma via
metablicadisponibilizada pelo KEGG.
Finalmente, a comparao entre sequncias demanda tambm a elaborao
deferramentas de visualizao avanadas, o que ser abordado na prxima
seo.
28
-
Figura 3.2: rvores filogenticas apresentadas pelo software ITOL
InteractiveTree Of Life (Letunic and Bork, 2007).
3.2 Comparao de Sequncias e Identificao deSintenias
A comparao de sequncias uma das atividades mais comuns na
pesquisa relaci-onada ao sequenciamento de genomas. As ferramentas
de comparao de sequn-cias mais populares datam de 1984, com o
FASTP, que compara cadeias de ami-nocidos (Lipman and Pearson,
1985), seguido por pacotes de programas de com-parao tambm de
cadeias de nucleotdeos, como o FASTA (Pearson and Lipman,1988) e o
BLAST (Altschul et al., 1990), at softwares mais recentes, como o
BLAT(Kent, 2002). Todos esses programas tornaram-se bastante
populares entre os pes-quisadores e so fundamentais para as
pesquisas genmicas, sobretudo durante afase de anotao de um
genoma.
O volume de dados produzidos por esses programas de comparao de
sequncia enorme e tem crescido exponencialmente (Lathe et al.,
2008). Porm, a anlisedos dados gerados por esses programas no uma
tarefa trivial. Em geral, a quan-tidade de sequncias comparadas de
uma s vez muito grande, o que resulta emarquivos de resultado
bastante extensos. Como os programas FASTA, BLAST eBLAT produzem
como resultado arquivos textuais, tal como ilustra a Figura
3.4,
29
-
Figura 3.3: Exemplo de via metablica disponibilizada pelo KEGG,
ilustrando oprocesso de fotossntese (KEGG, 2010).
identificar caractersticas globais do genoma, como localizao
relativa de genesem cromossomos, no uma tarefa das mais fceis.
Em especial, a tarefa de identificar sintenias tem sido feita
pelos bilogos como auxlio de programas de comparao de sequncias, na
maioria dos casos, tem-seutilizado o BLAST. Contudo, identificar
sintenias requer a caracterizao e locali-zao de grupos de genes nos
cromossomos de um organismo e como esses gruposconservam o
posicionamento relativo de seus genes no genoma de um outro
orga-nismo. Os programas FASTA, BLAST e BLAT fornecem as
coordenadas precisasde onde uma determinada cadeia (possivelmente
um gene) comea e termina numgenoma. Porm, como ilustrado pela
Figura 3.4, esses programas produzem umresultado que de difcil
anlise pelos pesquisadores. Ento, faz-se necessria odesenvolvimento
de ferramentas de visualizao dos resultados gerados por
essesprogramas, de modo a prover uma viso mais clara das comparaes
efetuadas.
A seguir so apresentadas as caractersticas que os softwares de
visualizaodevem ter para auxiliar os bilogos na tarefa de
identificar sintenias.
3.2.1 Requisitos de um Software de Visualizao para a
Iden-tificao de Sintenias
Diante da dificuldade de se analisar dados apresentados de forma
textual, as ferra-mentas de visualizao precisam ser desenvolvidas
tendo em vista as necessidadesdos bilogos nas pesquisas sobre
sintenia. Alm disso, esses softwares precisam serintuitivos e
fornecer um certo grau de interatividade, de modo que o
pesquisadorconsiga navegar facilmente pelos resultados e assim
encontrar a informao queprecisa. Nesse sentido, alguns trabalhos se
dedicaram a elucidar quais caracters-
30
-
Figura 3.4: Sada gerada pelo BLAST. Como o resultado gerado um
arquivo texto,no uma tarefa simples extrair informao sobre
cromossomos ou genes.
ticas uma ferramenta de visualizao de comparaes de genomas deve
ter, a fimde permitir a identificao de sintenias.
O trabalho de Hunt et al. (2004) aborda quais caractersticas
visuais uma apli-cao precisa ter para facilitar a identificao de
sintenias. Esse trabalho culminouna implementao do software
SyntenyVista, que ser apresentada mais adiante.O artigo
inicialmente enumera quais so os desafios que toda ferramenta de
visu-alizao de sintenias deveria solucionar, a saber:
Viso de todo o cromossomo: til para o usurio ter uma viso global
detodas as relaes entre um cromossomo e outros possveis. O problema
queo volume de informao pode confundir facilmente o usurio.
Todo o cromossomo, com detalhe: o usurio deve ser capaz de
conseguirfocar uma determinada regio de um cromossomo, enquanto
ainda tem dis-posio uma viso do todo. Mais uma vez o problema o
grande volume deinformao.
Escala: devido grande extenso de um cromossomo inteiro, em
contrastecom o tamanho limitado de um nico gene, preciso
estabelecer algum critriode escala, de modo que seja possvel
apresentar essas duas informaes ladoa lado.
31
-
Orientao do mapa: grficos horizontais so mais fceis de navegar,
con-tudo apresentam dificuldades para a colocao dos rtulos dos
objetos apre-sentados.
Problema de rotulao: a rea de exibio em geral muito pequena e
ovolume de dados a serem apresentados muito grande.
Representao das relaes entre os objetos: este o foco da
visualiza-o de sintenias. As relaes podem ser evidenciadas pelo
traado de linhasou trapzios ou alinhando os objetos sobre uma
grade. As linhas deixam asrelaes mais legveis, mas so desnecessrias
quando no h inverso deordem de genes, situao em que mais desejvel o
traado de trapzios.
Cruzamento de linhas: a inverso na ordem de genes resultam em
cru-zamentos de linhas, o que dificulta a legibilidade. desejvel
minimizar ocruzamento de linhas a fim de facilitar a legibilidade
do grfico.
Plano de fundo: a cor e textura devem facilitar a legibilidade,
sobretudo emcontraste s linhas que representam as sintenias.
Diante desses desafios, Hunt et al. (2004) elaboraram uma lista
das funcionali-dades que visualizadores de sintenias devem
apresentar:
A) Detalhes sob demanda: o usurio deve ser capaz de selecionar
as espcies,cromossomos e reas do cromossomo que deseja
visualizar.
B) Zoom: necessrio para a visualizao de grande objetos em reas
restritas.
C) Rotulao eficiente: os rtulos dos objetos devem ser ntidos e
no devemse sobrepor.
D) Movimentar um cromossomo ao longo do seu eixo: deve ser
possveldeslizar um cromossomo ao longo de seu eixo, de modo a
permitir o alinha-mento de blocos sintnicos e, assim, facilitar a
visualizao.
E) Aplicar escala ao cromossomo: deve ser implementado algum
mecanismoque compacte a rea de exibio dos objetos, de modo a tornar
a visualizaomais compacta e legvel.
F) Inverso do cromossomo: isto permite que o usurio veja mais
claramenteas relaes de sintenia em situaes de inverso de ordem dos
genes.
G) Filtragem: onde h muitos dados para serem exibidos, deve
haver a possibi-lidade de filtrar os dados de acordo com algum tipo
ou outra caracterstica.
H) Colorao: o software deve usar um esquema de colorao por padro
paradiferenciar cromossomos e genes, mas deve permitir que o usurio
modifiqueas cores.
Por outro lado, existe uma srie de caractersticas que um
pesquisador esperadescobrir ao analisar uma visualizao de sintenias
entre dois ou mais genomascomparados. Meyer et al. (2009)
elaboraram uma lista das questes que um pes-quisador espera
esclarecer ao estudar os grficos de comparaes de genomas, no
32
-
contexto da visualizao de sintenias. Segundo os autores, as
caractersticas queum pesquisador tenta elucidar ao utilizar um
visualizador de sintenias so:
1. Quais cromossomos compartilham blocos de genes
conservados.
2. Para um cromossomo, com quantos outros cromossomos ele
compartilha blo-cos de genes conservados.
3. Qual a densidade de cobertura do genoma e onde esto os
gaps.
4. Onde esto os blocos de genes, se estariam em torno de uma
posio especficano cromossomo.
5. Quais so os tamanhos e localizaes de outras caractersticas
genmicas pr-ximas a um bloco de genes.
6. Quo grandes so os blocos de genes.
7. Se blocos de genes vizinhos se conservam no mesmo cromossomo
e/ou preser-vam seu posicionamento relativo.
8. Se a orientao dos pares de blocos de genes preservada ou
invertida.
9. Se a orientao preservada para blocos de genes vizinhos.
10. Se as pontuaes de similaridades so iguais com respeito a
blocos de genesvizinhos.
11. Se os genes pareados dentro de um bloco so contguos.
12. Quo grande um gene em relao a outros genes dentro de um
bloco.
13. Quais so os tamanhos, localizaes e nomes dos genes dentro de
um bloco.
14. Quais so as diferenas entre nucleotdeos individuais e pares
de genes.
Diante dessas questes, Meyer et al. (2009) desenvolveram um
visualizador de-nominado MizBee, que ser tratado em detalhes mais
adiante.
3.3 Visualizadores de Comparaes de Sequnciaspara a Identificao
de Sintenias
Nesta Seo so apresentadas algumas das ferramentas mais comuns
para visua-lizao de genomas baseadas em comparaes de sequncias de
nucleotdeos. Algu-mas delas tambm apresentam uma visualizao baseada
na exibio da estruturafsica dos cromossomos, ou seja, mostram onde
os genes esto localizados nos cro-mossomos.
Em geral, essas ferramentas recebem como entrada sequncias
montadas denucleotdeos e utilizam algum software de comparao, como
o BLAST. No en-tanto, alguns visualizadores recebem como entrada
dados pr-processados sobrea localizao dos genes em cada cromossomo.
A tarefa de determinar se um par
33
-
de sequncias sintnico em geral de responsabilidade do usurio,
embora exis-tam ferramentas capazes de pr-determinar genes
sintnicos entre os organismoscomparados.
O modo de visualizao das ferramentas varia bastante. Meyer et
al. (2009)compilaram um quadro comparativo dos modos de visualizao
mais comuns, con-forme ilustra a Figura 3.5. Certamente, o modo de
visualizao mais comum olinear separado, mas h softwares que
combinam diversos modos de visualizao,a depender do nvel de
detalhes escolhido pelo usurio.
Figura 3.5: Tipos mais comuns de grficos usados para visualizao
de sintenias.Em azul o genoma de origem e em laranja o genoma de
destino. Adaptado de Meyeret al. (2009).
3.3.1 Softwares para Visualizao de SinteniasA seguir so
apresentadas as ferramentas mais comuns para a visualizao
desintenias.
Apollo
Apollo uma ferramenta de apoio anotao em geral, que permite a
identificaode sintenias entre dois genomas (Lewis et al., 2002).
Trata-se de um aplicativodesktop, escrito em Java, que utiliza o
BLAST para processar as comparaes. Osgenes ortlogos entre os dois
genomas so ligados por trapzios, conforme ilustradopela Figura
3.6.
SyntenyView
SyntenyView um mdulo do Ensembl para a visualizao de sintenias
entre ge-nomas de dois organismos (Clamp et al., 2003). O projeto
Ensembl consiste de um
34
-
banco de dados que prov um framework de Bioinformtica para
organizar gran-des volumes de dados biolgicos em torno de sequncias
de extensos genomas. Ele uma fonte estvel de anotaes sobre
sequncias dos genomas humano, do rato ede outras espcies, disponvel
por meio de uma pgina web interativa ou por arqui-vos texto que
podem ser baixados pelo usurio. A ferramenta SyntenyView
utilizaBLAST para comparaes entre nucleotdeos ou entre aminocidos,
apresentandouma visualizao da estrutura do cromossomo (Figura
3.7).
SyntenyVista
SyntenyVista um aplicativo desktop, escrito em Java, para a
visualizao de sin-tenias entre dois genomas (Hunt et al., 2004). A
ferramenta apresenta a compara-o de um par de cromossomos por vez,
com a possibilidade de exibir os genes talcomo esto dispostos
fisicamente, assim como apresentando pelo SyntenyView, ouento pode
apresent-los de forma compacta, preservando somente sua ordem, oque
os autores denominam como cartoon scaling. No modo de cartoon
scaling, asdistncias entre os genes seriam desprezadas, assim como
seu tamanho, de modoque todos sejam representados com o mesmo
tamanho, o menor possvel para a exi-bio de um rtulo. SyntenyVista
permite que o usurio inverta um cromossomo,de modo a reduzir o
cruzamento das linhas que ligam os genes dos dois organismos(Figura
3.8), alm de oferecer diversos nveis de zoom. O software ainda
capaz dese conectar ao banco de dados do Ensembl para recuperar
informaes detalhadassobre as anotaes dos genes.
Mauve
Mauve um software de alinhamento mltiplos de genomas, com
algoritmos oti-mizados para o caso em que h conservao de genes
entre as espcies estudadas,e que fornece uma interface grfica para
visualizao dos genomas comparados(Darling et al., 2004). A
visualizao disponibilizada pela ferramenta consiste emapresentar os
genes conforme esto dispostos no genoma, ligando-os aos
respecti-vos alinhamentos no genoma seguinte (Figura 3.9). A
ferramenta tambm utilizauma tcnica de gradao de cores para
representar o grau de similaridade entre osblocos.
ACT
ACT um aplicativo desktop, escrito em Java, com a finalidade de
exibir grafica-mente comparaes de mltiplas sequncias (Carver et
al., 2005). A comparao feita par a par, utilizando o programa
BLAST, sendo capaz de exibir os dados poreste gerados. A exibio das
comparaes feita com o traado de trapzios delimi-tados pelas cadeias
que so semelhantes entre um par de genomas (Figura 3.10).A colorao
dos trapzios feita de acordo com o grau de similaridade dos
cadeiasde nucleotdeos.
35
-
SynBrowse
SynBrowse um mdulo que funciona integrado ao GBrowse (Pan et
al., 2005). OGeneric Genome Browser (GBrowse) uma combinao de banco
de dados e inter-face web interativa para a manipulao e exibio de
anotaes em genomas (Steinet al., 2002). A ferramenta disponibiliza
a visualizao de comparaes de sequn-cias de dois organismos,
provendo modos de exibio que facilitam a identificaode
macrosintenias, microsintenias e genes homlogos (Figura 3.11).
A ferramenta utiliza tambm o BLAST para efetuar as comparaes.
Syn-Browse capaz de determinar sequncias sintnicas, procurando por
pares de ge-nes (ou alinhamentos) que ocorram na mesma ordem em
ambas sequncias, numadistncia menor do que um limite definido pelo
usurio. Assim, um conjunto igualou maior que um nmero mnimo
(especificado pelo usurio) de tais pares de genes considerado um
bloco de sintenia, considerando parmetros como a qualidade
doalinhamento e colinearidade das sequncias. A ferramenta ainda
capaz de exibiro alinhamento textual original (gerado pelo BLAST),
alm de os grficos geradospossurem elementos clicveis, capazes de
direcionar o usurio a informaes maisdetalhadas sobre a anotao. O
software escrito em Perl.
SynView
SynView uma ferramenta baseada no GBrowse e distribuda como
parte deste(Wang et al., 2006). SynView permite a visualizao da
comparao entre mltiplosgenomas, baseada na escolha de um genoma de
referncia pelo usurio. capazde exibir tanto a comparao quanto as
informaes de anotao. Assim como noACT, a comparao feita par a par,
utilizando o programa BLAST. A exibio dascomparaes tambm feita com
o traado de trapzios e a colorao feita de acordocom o grau de
similaridade dos cadeias de nucleotdeos. Alm disso, os
trapziospodem conter links para pginas de descrio. A ferramenta
escrita em Perl.
GBrowse_syn
GBrowse_syn mais um mdulo para visualizao de sintenias (Figura
3.13) in-tegrado ao GBrowse (McKay, 2007). Permite a visualizao de
comparaes entremltiplas espcies.
Cinteny
Cinteny um aplicativo web, escrito em C++ e PHP para a
visualizao de sinte-nias entre mltiplos genomas (Sinha and Meller,
2007). O software utiliza umarvore de busca ternria para
representar os genomas, com os genes representa-dos pelas folhas.
Cinteny capaz de identificar sintenias calculando a distnciareversa
entre grupos de genes. A ferramenta possui trs nveis de
visualizao:todo o genoma, cromossomo ou por genes individuais
(Figura 3.14). Cinteny ainda capaz de fazer de se conectar com o
NCBI para fornecer informaes mais deta-lhadas sobre os genes
exibidos.
36
-
MEDEA
MEDEA uma ferramenta que exibe sequncias de mltiplas espcies
para vi-sualizao de sintenias (Broad Institute, 2009). O software
foi desenvolvido emActionScript 3, provendo diversos nveis de
visualizao (Figura 3.15). Os dadosprecisam ser previamente
formatados para a visualizao dos genomas, ou seja, aferramenta
funciona somente como um visualizador.
Sybil
Sybil um aplicativo web (Figura 3.16), escrito em Perl, capaz de
efetuar genmicacomparativa entre mltiplas espcies (TIGR, 2009). O
software utiliza bancos dedados Chado, que o modelo de banco de
dados relacional utilizado pelo GBrowse,e usa o TIGR workflow
engine para executar os programas de anlise dos dados,tais como o
BLAST. Sybil utiliza BLASTP (bidirecional) para comparaes
entresequncias de aminocidos, sendo capaz de identificar blocos de
genes sintnicos.A ferramenta ainda pode gerar grficos nos formatos
PNG, JPEG, SVG e PDF. Par-ticularmente, Sybil apresenta a comparao
entre mltiplos genomas com o obje-tivo de identificar sintenias num
grfico denominado gradiente de sintenia. Nessegrfico, o genoma de
referncia representado por uma barra colorida como umgradiente
entre duas cores. Em seguida, os demais genomas so apresentadoscomo
barras horizontais do mesmo tamanho, coloridas de acordo com a cor
corres-pondente ao apresentado no genoma de referncia. Dessa forma,
a conservao dascores como gradiente evidencia regies de conservao
genmica, com a provvelocorrncia de sintenias.
MizBee
MizBee uma ferramenta de visualizao de sintenias entre dois
genomas (Meyeret al., 2009). Trata-se de um aplicativo desktop
escrito na linguagem Processing um ambiente de desenvolvimento e
execuo de aplicaes que necessitam degrficos avanados e interativos,
porm, de simples implementao, baseado emJava (Reas and Fry, 2006).
A ferramenta tambm possui trs nveis de visualiza-o, combinando
diversos tipos de grficos (Figura 3.5). Os trs nveis so
exibidossimultaneamente na janela principal do aplicativo: todo o
genoma, cromossomo oupor blocos de genes (Figura 3.17). Dessa
forma, a visualizao por cromossomo epor bloco de genes corresponde
ampliao da seleo efetuada na visualizao detodo o genoma. MizBee no
capaz de identificar sintenias, funcionando apenascomo um
visualizador de dados previamente formatados.
3.3.2 Comparao entre as FerramentasA Tabela 3.1 apresenta um
comparativo entre as ferramentas apresentadas previ-amente, com
relao aos requisitos levantados na Seo 3.2.
A ferramenta que implementa o maior nmero de requisitos, tanto
aqueles de-finidos por Hunt et al. (2004), quanto os definidos por
Meyer et al. (2009) o Syn-tenyVista. Contudo, esse software capaz
de comparar somente dois genomas.
37
-
Dentre aquelas ferramentas capazes de comparar mltiplos genomas,
Mauve aque possui o conjunto mais equilibrado de funcionalidades.
Assim, caso o pesqui-sador precise comparar somente dois genomas,
SyntenyVista o software maisadequado. Mas se necessrio comparar
mltiplos genomas, a ferramenta a serutilizada Mauve.
Portanto, apesar de j terem sido desenvolvidas diversas
ferramentas que auxi-liem na identificao de sintenias, ainda h
espao para o projeto e implementaode um novo software, que combine
recursos visuais que simplifiquem a anlise feitapelo pesquisador,
associados capacidade de comparar mltiplos genomas. Nessesentido,
este trabalho apresenta uma nova ferramenta, apresentada no Captulo
5.
Figura 3.6: Uma viso detalhada de sintenias no Apollo.
38
-
Figura 3.7: Exemplo da visualizao disponibilizada pelo
SyntenyView.
Figura 3.8: Um dos modos de visualizao do SyntenyVista,
destacando a inversode um cromossomo (na janela esquerda o
cromossomo esquerdo est em posionormal, enquanto na janela direita
o mesmo cromossomo foi invertido).
39
-
Figura 3.9: Visualizao de mltiplos genomas pelo Mauve.
Figura 3.10: Janela principal do ACT, exibindo a visualizao da
comparao detrs genomas.
40
-
Figura 3.11: Comparao entre dois genomas pelo SynBrowse.
Figura 3.12: Comparao entre trs genomas pelo SynView, com o
genoma de refe-rncia ao topo.
41
-
Figura 3.13: Exemplo da visualizao disponibilizada pelo
GBrowse_syn, mos-trando a comparao entre trs genomas.
Figura 3.14: Comparao de cromosso