Ferramenta de Visualização Interativa de Comparação …repositorio.unb.br/bitstream/10482/12233/1/2010_RodrigoCarneiroM... · Universidade de Brasília Instituto de Ciências

Universidade de BrasliaInstituto de Cincias Exatas

Departamento de Cincia da Computao

Ferramenta de Visualizao Interativa deComparao entre Mltiplos Genomas para a

Identificao de Sintenias

Rodrigo Carneiro Munhoz Coimbra

Monografia apresentada como requisito parcialpara concluso do Mestrado em Computao

OrientadoraProf.a Maria Emlia M. T. Walter

Braslia2010

Universidade de Braslia UnBInstituto de Cincias ExatasDepartamento de Cincia da ComputaoMestrado em Computao

Coordenador: Prof. Mauricio Ayala Rincn

Banca examinadora composta por:

Prof.a Maria Emlia M. T. Walter (Orientadora) CIC/UnBProf. Nalvo Franco de Almeida Jr. FACOM/UFMSProf. Marcelo de Macedo Brgido CEL/UnB

CIP Catalogao Internacional na Publicao

Coimbra, Rodrigo Carneiro Munhoz.

Ferramenta de Visualizao Interativa de Comparao entre Ml-tiplos Genomas para a Identificao de Sintenias / Rodrigo Car-neiro Munhoz Coimbra. Braslia : UnB, 2010.111 p. : il. ; 29,5 cm.

Tese (Mestrado) Universidade de Braslia, Braslia, 2010.

1. Bioinformtica, 2. Visualizao, 3. Sintenia, 4. Java

CDU 004

Endereo: Universidade de BrasliaCampus Universitrio Darcy Ribeiro Asa NorteCEP 70910-900BrasliaDF Brasil

Universidade de BrasliaInstituto de Cincias Exatas

Departamento de Cincia da Computao

Ferramenta de Visualizao Interativa deComparao entre Mltiplos Genomas para a

Identificao de Sintenias

Rodrigo Carneiro Munhoz Coimbra

Monografia apresentada como requisito parcialpara concluso do Mestrado em Computao

Prof.a Maria Emlia M. T. Walter (Orientadora)CIC/UnB

Prof. Nalvo Franco de Almeida Jr. Prof. Marcelo de Macedo BrgidoFACOM/UFMS CEL/UnB

Prof. Mauricio Ayala RincnCoordenador do Mestrado em Computao

Braslia, 08 de junho de 2010

Resumo

A genmica comparativa uma rea de pesquisa que tem como objetivo a busca decomo dados genmicos podem estar relacionados entre diferentes espcies. Par-ticularmente, o volume de dados disponibilizados em bancos de dados pblicospermite a busca de sintenias entre mltiplos genomas. Um par de genes ditosintnico quando estes se conservam dentro da mesma regio do DNA. Os m-todos comparativos ainda usam abordagens tradicionais, tais como alinhamentotextual e o uso de heursticas para acelerar as comparaes. Eles produzem comoresultado arquivos textuais, o que dificulta anlises mais especficas, tais como aidentificao de sintenias. Nesse sentido, essencial o desenvolvimento de ferra-mentas de visualizao de comparaes entre mltiplos genomas que facilitem aidentificao de sintenias. O objetivo deste trabalho propor e implementar umaferramenta computacional que implemente um novo mtodo de visualizao quepermite identificar sintenias entre mltiplos genomas, a partir de um genoma nototalmente sequenciado. Essa ferramenta foi aplicada na identificao de sinte-nias no fungo P. brasiliensis. Essa nova ferramenta, denominada Syntainia, estsendo desenvolvida como um software livre e j est disponvel para download emhttp://sourceforge.net/projects/syntainia.

Palavras-chave: Bioinformtica, Visualizao, Sintenia, Java

iv

http://sourceforge.net/projects/syntainia

Abstract

Comparative genomics is a research field that aims to find how genomic data can berelated among different species. Particularly, the volume of data available in publicdatabases allows for searching of synteny among multiple genomes. A pair of genesis said to be syntenic when they keep within the same region of the DNA. The com-parative methods still use traditional approaches, such as text alignment and theuse of heuristics to speed up comparisons. They produce results as text files, whichmakes difficult more specific analyses, such as the identification of synteny. Thus,it is essential the development of visualization tools to compare multiple genomesthat facilitate the identification of synteny. The objective of this work is to proposeand implement a software tool that implements a new visualization method foridentifying synteny among multiple genomes from a not fully sequenced genome.This tool was applied in the identification of syntenies in the fungus P. brasilien-sis. This new tool, called Syntainia, is being developed as free software and is nowavailable for download at http://sourceforge.net/projects/syntainia.

Keywords: Bioinformatics, Visualization, Synteny, Java

v

http://sourceforge.net/projects/syntainia

Sumrio

Lista de Figuras viii

Lista de Tabelas x

1 Introduo 1

2 Conceitos Bsicos de Biologia Molecular 42.1 Clulas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.2 Protenas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.3 cidos Nucleicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.3.1 DNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.3.2 RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.4 Genes, Cromossomos e Cdigo Gentico . . . . . . . . . . . . . . . . . 112.5 Transcrio, Traduo e Sntese Proteica O Dogma Central da Bio-

logia Molecular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.5.1 RNAs no codificadores . . . . . . . . . . . . . . . . . . . . . . . 14

2.6 Sequenciamento de Genomas . . . . . . . . . . . . . . . . . . . . . . . 142.6.1 Sequenciamento Sanger . . . . . . . . . . . . . . . . . . . . . . 152.6.2 Sequenciamento de Alto Desempenho . . . . . . . . . . . . . . 20

2.7 Genmica Comparativa . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.7.1 Sintenias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3 Visualizao de Dados Biolgicos 273.1 Dados Biolgicos e sua Visualizao: Grficos Mais Comuns . . . . . 273.2 Comparao de Sequncias e Identificao de Sintenias . . . . . . . . 29

3.2.1 Requisitos de um Software de Visualizao para a Identifica-o de Sintenias . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.3 Visualizadores de Comparaes de Sequncias para a Identificaode Sintenias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.3.1 Softwares para Visualizao de Sintenias . . . . . . . . . . . . 343.3.2 Comparao entre as Ferramentas . . . . . . . . . . . . . . . . 37

4 Projeto Genoma Pb e sua Genmica Comparativa 464.1 O Projeto Genoma Pb . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.1.1 O fungo P. brasiliensis . . . . . . . . . . . . . . . . . . . . . . . 464.1.2 Projeto Genoma Funcional e Diferencial do P. brasiliensis . . 48

4.2 Genmica Comparativa e um Novo Mtodo de Visualizao . . . . . . 49

vi

4.2.1 Mtodo de Visualizao dos Genes . . . . . . . . . . . . . . . . 50

5 Proposta e Implementao da Ferramenta 545.1 Viso Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545.2 Requisitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555.3 Caractersticas do Syntainia . . . . . . . . . . . . . . . . . . . . . . . . 58

5.3.1 Interface com o Usurio . . . . . . . . . . . . . . . . . . . . . . 585.3.2 Modo de Visualizao . . . . . . . . . . . . . . . . . . . . . . . . 635.3.3 Funcionalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5.4 Algoritmos e Complexidade . . . . . . . . . . . . . . . . . . . . . . . . 645.4.1 Algoritmo Otimista . . . . . . . . . . . . . . . . . . . . . . . . . 665.4.2 Algoritmo Realista . . . . . . . . . . . . . . . . . . . . . . . . . 66

5.5 Arquitetura, Estruturas de Dados e Implementao . . . . . . . . . . 685.5.1 Manipulao dos Dados . . . . . . . . . . . . . . . . . . . . . . 685.5.2 Interface com o Usurio . . . . . . . . . . . . . . . . . . . . . . 70

6 Estudo de Caso e Discusso 776.1 Estudo de Caso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

6.1.1 Escolha dos Genes e/ou Transcritos . . . . . . . . . . . . . . . . 776.1.2 Obteno das Sequncias Genmicas . . . . . . . . . . . . . . . 786.1.3 Utilizao do Syntainia . . . . . . . . . . . . . . . . . . . . . . . 786.1.4 Organizao das Categorias Funcionais . . . . . . . . . . . . . 796.1.5 Identificao de Sintenias . . . . . . . . . . . . . . . . . . . . . 796.1.6 Resultados Parciais . . . . . . . . . . . . . . . . . . . . . . . . . 81

6.2 Anlise de Escalabilidade e Desempenho . . . . . . . . . . . . . . . . 866.3 Comparao com Outras Ferramentas . . . . . . . . . . . . . . . . . . 87

7 Concluses e Trabalhos Futuros 91

Referncias 93

vii

Lista de Figuras

2.1 Os 20 aminocidos das protenas . . . . . . . . . . . . . . . . . . . . . 62.2 Estrutura das protenas . . . . . . . . . . . . . . . . . . . . . . . . . . 72.3 Estrutura de um nucleotdeo . . . . . . . . . . . . . . . . . . . . . . . . 82.4 Elementos estruturais dos nucleotdeos mais comuns . . . . . . . . . 82.5 Acares presentes nos cidos nucleicos . . . . . . . . . . . . . . . . . 92.6 Uma viso geral da estrutura do DNA . . . . . . . . . . . . . . . . . . 102.7 As duas fitas do DNA so uma o complemento reverso da outra (com

relao s regras de emparelhamento de bases: A=T e CG). . . . . . 102.8 RNA e suas bases nitrogenadas esquerda e DNA direita . . . . . 112.9 Sequenciador automtico de DNA MegaBACE 1000 . . . . . . . . . . 172.10 Exemplo de um eletroferograma . . . . . . . . . . . . . . . . . . . . . . 172.11 Exemplo de sequncia de programas executados na fase de submisso. 192.12 Alinhamento de um contig . . . . . . . . . . . . . . . . . . . . . . . . . 192.13 Sequenciador automtico Roche/454 FLX . . . . . . . . . . . . . . . . 212.14 Mtodo utilizado pelo sequenciador Roche/454 FLX . . . . . . . . . . 23

3.1 Visualizao do cromossomo X humano pelo NCBI Map Viewer . . . 283.2 rvores filogenticas apresentadas pelo software ITOL . . . . . . . . 293.3 Exemplo de via metablica disponibilizada pelo KEGG . . . . . . . . 303.4 Sada gerada pelo BLAST . . . . . . . . . . . . . . . . . . . . . . . . . 313.5 Tipos mais comuns de grficos . . . . . . . . . . . . . . . . . . . . . . . 343.6 Uma viso detalhada de sintenias no Apollo. . . . . . . . . . . . . . . 383.7 Exemplo da visualizao disponibilizada pelo SyntenyView. . . . . . 393.8 Um dos modos de visualizao do SyntenyVista . . . . . . . . . . . . 393.9 Visualizao de mltiplos genomas pelo Mauve. . . . . . . . . . . . . 403.10 Janela principal do ACT . . . . . . . . . . . . . . . . . . . . . . . . . . 403.11 Comparao entre dois genomas pelo SynBrowse. . . . . . . . . . . . 413.12 Comparao entre trs genomas pelo SynView . . . . . . . . . . . . . 413.13 Exemplo da visualizao disponibilizada pelo GBrowse_syn . . . . . 423.14 Comparao de cromossomos pelo Cinteny. . . . . . . . . . . . . . . . 423.15 Mdulo de visualizao Stack Map do MEDEA . . . . . . . . . . . . . 433.16 Visualizao de gradiente de sintenia disponibilizada pelo Sybil. . . . 433.17 Os trs nveis de visualizao disponibilizados pelo MizBee. . . . . . 44

4.1 P. brasiliensis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.2 Exemplo da visualizao de mltiplos genomas por grupos de genes. 53

5.1 Usando o look and feel padro . . . . . . . . . . . . . . . . . . . . . . . 58

viii

5.2 Comparao das telas do Syntainia em diversos look and feels . . . . 605.3 Janela principal do Syntainia . . . . . . . . . . . . . . . . . . . . . . . 615.4 Tela do assistente para gerao do grfico. . . . . . . . . . . . . . . . . 625.5 Visualizao de genes no Syntainia como um grafo . . . . . . . . . . . 655.6 Estruturas de dados do Syntainia. . . . . . . . . . . . . . . . . . . . . 725.7 Fluxo de processamento dos dados no Syntainia. . . . . . . . . . . . . 735.8 Classes do ncleo do Syntainia . . . . . . . . . . . . . . . . . . . . . . 745.9 Classes para desenho do grfico . . . . . . . . . . . . . . . . . . . . . . 755.10 Classes responsveis pela integrao com o sistema operacional. . . . 76

6.1 Todos os 10 genomas comparados pelo Syntainia . . . . . . . . . . . . 826.2 Destaque das categorias . . . . . . . . . . . . . . . . . . . . . . . . . . 836.3 Realce de genes sintnicos (chromosome_0.16) . . . . . . . . . . . . . 846.4 Realce de genes sintnicos (chromosome_1.4) . . . . . . . . . . . . . . 856.5 Consumo de memria do Syntainia ao longo do tempo . . . . . . . . . 87

ix

Lista de Tabelas

2.1 Tabela do cdigo gentico de cdons mapeados em aminocidos . . . 13

3.1 Ferramentas de visualizao de sintenias . . . . . . . . . . . . . . . . 45

6.1 Comparao do Syntainia com outras ferramentas . . . . . . . . . . . 90

x

Captulo 1

Introduo

A anlise das informaes geradas por projetos de sequenciamento de DNA cons-titui hoje um desafio sempre crescente para os cientistas da computao, uma vezque essencial desenvolver software eficiente para processar o enorme volume dedados gerados por esses projetos (Mardis, 2008; McHardy, 2008; Morozova andMarra, 2008; Pop and Salzberg, 2007; Schuster, 2008). O processo de anlise com-putacional de projetos de sequenciamento basicamente dividido em duas fases. Afase de montagem tenta reconstruir grande pedaos das sequencias originais, en-quanto a fase de anotao tem o objetivo de inferir funes biolgicas e categoriaspara cada sequncia montada, a fim de identificar genes, protenas e RNAs nocodificadores.

A fase de anotao fortemente baseada em genmica comparativa. Em geral,a genmica comparativa tem como objetivo a busca de como dados genmicos (porexemplo, loci de nucleotdeos e genes, funes biolgicas e categorias ontolgicas)podem estar relacionados entre diferentes espcies. O principal objetivo obtermais informao sobre uma espcie em estudo baseado no conhecimento prviosobre espcies filogeneticamente relacionadas. As tcnicas utilizadas em genmicacomparativa precisam tratar enormes volumes de dados, no contexto das novastecnologias de sequenciamento de alto desempenho.

Os mtodos comparativos ainda usam abordagens tradicionais para compararcadeias de nucleotdeos ou aminocidos, executando alinhamento textual e uti-lizando heursticas para acelerar as comparaes. Por exemplo, as ferramentasBLAST (Altschul et al., 1997) e BLAT (Kent, 2002) produzem bons resultados, comuma sada bem detalhada. Porm, elas produzem como resultado apenas arquivostextuais, o que dificulta uma anlise mais global, isto , a compreenso de certascaractersticas que se revelam em grande pores de sequncias de DNA. Particu-larmente, a ocorrncia de sintenias no fcil de se encontrar em arquivos textuais.Dois genes so sintnicos se eles esto localizados no mesmo cromossomo ou numde seus fragmentos, o que significa que eles devem estar na mesma cadeia de DNA(Passarge et al., 1999). Assim, uma ferramenta de visualizao especialmente pro-jetada pode suportar a descoberta de sintenias entre mltiplos genomas.

Diversas ferramentas de visualizao foram desenvolvidas para a navegaoem comparaes entre dois genomas, atravs do alinhamento de suas sequnciasde nucleotdeos ou aminocidos. Essa ferramentas apresentam grficos extrema-

1

mente detalhados, contudo difcil us-los para o estudo sobre como genes estoorganizados entre dois ou mais genomas diferentes ou para investigar se eles temsua organizao preservada. Fazem parte dessa categoria ferramentas como Apollo(Lewis et al., 2002), SyntenyView (Clamp et al., 2003), SyntenyVista (Hunt et al.,2004), ACT (Carver et al., 2005), SynBrowse (Pan et al., 2005), SynView (Wanget al., 2006), GBrowse_syn (McKay, 2007), Cinteny (Sinha and Meller, 2007), ME-DEA (Broad Institute, 2009), Sybil (TIGR, 2009) e MizBee (Meyer et al., 2009) .Em geral, essas ferramentas apresentam muita informao que no relevanteno caso de estudo da conservao de genes entre diferentes espcies, Alm disso,as ferramentas de visualizao em geral so estticas, no oferecendo mecanismode interao com o usurio. Tais caractersticas motivam a busca por uma nova emais clara forma de visualizao da comparao entre mltiplos genomas.

A Universidade de Braslia mantm, em parceria com outras instituies, o pro-jeto genoma do fungo Paracoccidioides brasiliensis (Felipe et al., 2005a). Mais re-centemente, tem sido realizado um trabalho de genmica comparativa do genomade P. brasiliensis, com o objetivo de identificar sintenias entre genomas de fun-gos no patognicos e patognicos humanos (de Carvalho, 2010). Um dos produtosdesse trabalho foi a elaborao de uma tcnica de visualizao de como os genes deP. brasiliensis esto organizados dentro dos genomas de outros fungos, uma vez queo seu genoma no foi inteiramente sequenciado. Essa nova tcnica baseada noagrupamento de genes considerando seu posicionamento relativo nos cromossomos,supercontigs e scaffolds. Ento, cada gene de um genoma ligado com seu ortlogoem outro genoma. Essas linhas, formando caminhos entre os genomas, deixamclaro como os genes so conservados entre diferentes espcies e a possibilidade deocorrncia de sintenias.

Nesse sentido, relevante o desenvolvimento de uma ferramenta computacio-nal que implemente o mtodo de visualizao elaborado por de Carvalho (2010) eo aperfeioe, de modo que seja capaz de apresentar a melhor visualizao possvelda comparao entre mltiplos genomas, de quaisquer organismos, de forma in-terativa e que apresente as informaes no nvel de detalhes que mais convier aopesquisador.

Assim, o objetivo geral deste trabalho apresentar um software de visualizaode comparaes entre mltiplos genomas, denominado Syntainia, que apresentaos genomas como grupos de fragmentos ligados a seus respectivos ortlogos, com oobjetivo de facilitar a tarefa de identificao de sintenias.

So objetivos especficos deste projeto:

1. realizar um estudo comparativo entre as ferramentas de visualizao maiscomuns;

2. projetar a ferramenta com as seguintes caractersticas:

(a) desenvolver uma ferramenta de visualizao de fcil utilizao, com umainterface grfica intuitiva e integrada ao sistema operacional;

(b) obter a melhor forma de visualizar os grupos de genes, utilizando algo-ritmos de baixa complexidade de tempo; e

2

(c) prover capacidade de obteno de informaes sobre os genes a partir davisualizao.

3. realizar um estudo de caso com o genoma do fungo P. brasiliensis; e

4. comparar as caractersticas da ferramenta implementada com outros softwa-res para visualizao genmica.

O Captulo 2 apresenta noes de Biologia Molecular necessrias compreen-so deste trabalho. Caractersticas e exemplos de ferramentas de visualizao decomparaes entre genomas so apresentados no Captulo 3. Em seguida, no Ca-ptulo 4, o Projeto Genoma Pb apresentado, assim como os estudos mais recentesem genmica comparativa, que motivaram a elaborao deste trabalho. O Captulo5 apresenta o Syntainia, seu processo de desenvolvimento, requisitos, algoritmos,estruturas de dados e arquitetura. No Captulo 6 apresentado um estudo de casosobre a adoo da ferramenta ao Projeto Genoma Pb. Finalmente, no Captulo 7so apresentadas as concluses e delineados os trabalhos futuros.

3

Captulo 2

Conceitos Bsicos de BiologiaMolecular

Este captulo trata de conceitos bsicos de Biologia Molecular, necessrios com-preenso deste trabalho.

A Seo 2.1 apresenta as clulas e introduz os demais conceitos apresentadosneste captulo. Na Seo 2.2 as protenas so apresentadas. Na Seo 2.3 so des-critos os cidos nucleicos (DNA e RNA), reservatrios moleculares da informaogentica. Explanao acerca de genes, cromossomos e cdigo gentico feita naSeo 2.4. O Dogma Central da Biologia Molecular tratado na Seo 2.5. Porfim, consideraes a respeito de tcnicas de sequenciamento gentico so feitas naSeo 2.6.

2.1 ClulasA clula a menor unidade que exibe o comportamento conhecido como vida (de Car-valho et al., 2004). Muitas molculas encontradas no interior das clulas so ma-cromolculas, polmeros de alto peso molecular constitudos por precursores rela-tivamente simples. As protenas e os cidos nucleicos, por exemplo, so forma-dos pela polimerizao de subunidades relativamente pequenas (Lehninger et al.,1995).

Embora os organismos vivos contenham um nmero muito grande de protenase de cidos nucleicos, uma simplicidade fundamental est na base das suas estru-turas. As subunidades monomricas simples com as quais todas as protenas etodos os cidos nucleicos so construdos encontram-se em nmero pequeno e soidnticas em todas as espcies.

A sobrevivncia de espcies biolgicas requer que sua informao gentica sejamantida em uma forma estvel e, ao mesmo tempo, expressada com um nmeromuito pequeno de erros. O armazenamento efetivo e a expresso acurada da men-sagem gentica definem cada espcie e sua continuidade por geraes sucessivas.

A partir dessas consideraes, pode-se destacar alguns dos princpios da lgicamolecular da vida (Lehninger et al., 1995):

1. Todos os organismos vivos tm os mesmos tipos de subunidades monomricas.

4

2. A estrutura das vrias macromolculas biolgicas revelam a existncia demodelos subjacentes comuns.

3. A identidade de cada organismo preservada pela posse de conjuntos carac-tersticos de cidos nucleicos e protenas.

2.2 ProtenasAs protenas (do grego protos: a primeira; a mais importante) constituem, ao ladoda gua, a maior frao das clulas.

Quase tudo que ocorre nas clulas envolve uma ou mais protenas. As protenastm muitas funes biolgicas diferentes: algumas tm atividade cataltica e funci-onam como enzimas; outras servem como elementos estruturais, como nutrientes earmazenamento; outras transportam sinais especficos ou substncias especficaspara o interior ou exterior das clulas, agem como defesa ou tm funo reguladora.

O papel central ocupado por elas evidenciado pelo fato de que a informaogentica , em ltima instncia, expressa como protena. Para cada protena existeum segmento de DNA um gene (Seo 2.4) que guarda a informao, es-pecificando sua sequncia de aminocidos. Em uma clula existem milhares dediferentes tipos de protenas, cada uma delas codificada por um gene e, cada umadelas, executando uma funo especfica.

As protenas so cadeias de aminocidos. Cada aminocido est unido a seusvizinhos por um tipo especfico de ligao covalente (ligao peptdica).

Todas as protenas, em todas as espcies, independente da funo ou da ati-vidade biolgica, so constitudas com o mesmo conjunto de 20 aminocidos (Fi-gura 2.1).

Todos os 20 aminocidos encontrados nas protenas tm um grupo carboxila(COOH) e um grupo amina (NH2) ligados ao mesmo tomo de carbono (o carbonoC). Eles diferem uns dos outros por suas cadeias laterais ou grupos R, os quaisvariam em estrutura, tamanho e carga eltrica, e so responsveis pelas diferentescaractersticas dos aminocidos (tal como a solubilidade em gua).

As protenas diferem umas das outras porque tm um nmero e uma sequnciade resduos de aminocidos unidades de amincidos que sofreram ligao pep-tdica, perdendo um tomo de hidrognio de seu grupo amino e a parte hidroxilado seu grupo carboxila que so diferentes entre si. Os aminocidos so o alfa-beto da estrutura proteica, podendo ser arranjados em um nmero quase infinitode sequncias para fazer um nmero quase infinito de diferentes protenas.

Conceitualmente, a estrutura das protenas pode ser considerada em quatro n-veis (Figura 2.2). A estrutura primria definida pela sequncia de aminocidosunidos por ligaes peptdicas; a estrutura secundria corresponde aos arranjosrecorrentes no espao de resduos de aminocidos adjacentes; a estrutura terci-ria a organizao tridimensional completa do polipeptdeo, referindo-se ao rela-cionamento espacial entre todos os seus aminocidos; e, por fim, a estrutura qua-ternria, encontrada em protenas com vrias cadeias de polipeptdeos, aquelaque especifica a relao espacial dos polipeptdeos, ou subunidades, no interior daprotena (Lehninger et al., 1995).

5

Figura 2.1: Os 20 aminocidos das protenas (abaixo do nome do aminocido eacima da estrutura molecular so indicados seus cdigos de trs letras e de umaletra).

6

Figura 2.2: Estrutura das protenas: (a) primria, (b) secundria, (c) terciria e (d)quaternria (Setubal and Meidanis, 1997).

Assim, um polipeptdeo com uma sequncia especfica de aminocidos enovela-se em uma estrutura tridimensional nica; e esta estrutura, por sua vez, determinaa funo da protena.

A sequncia de aminocidos de uma protena, ou sua estrutura primria, podeser muito informativa para um bilogo. Nenhuma outra propriedade distingue toclaramente uma protena de outra (Lehninger et al., 1995):

1. A estrutura tridimensional de uma protena determinada por sua sequnciade aminocidos.

2. A funo de uma protena depende de sua estrutura tridimensional.

3. A estrutura tridimensional de uma protena nica, ou est muito prximadisso.

4. As foras mais importantes que estabilizam a estrutura tridimensional espe-cfica de uma dada protena so as interaes no-covalentes.

5. Finalmente, muito embora a estrutura das protenas seja complicada, vriospadres caractersticos podem ser reconhecidos.

A sequncia de aminocidos em uma protena pode fornecer pistas sobre a es-trutura, a funo, a localizao celular e a evoluo da protena. A maior partedesses conhecimentos obtida pela busca de similaridades com outras sequnciasconhecidas. Milhares de sequncias so conhecidas e esto disponveis em ban-cos de dados computadorizados (Boeckmann et al., 2003). A comparao de umasequncia recm-obtida com esse grande estoque de sequncias geralmente revelarelacionamentos que so tanto surpreendentes quanto esclarecedores.

A probabilidade de que uma dada informao a respeito de uma nova protenapossa ser deduzida da sua estrutura primria melhora constantemente com a adi-o quase diria de novas sequncias de aminocidos ao grande nmero daquelasj publicadas e armazenadas em bancos de dados pblicos.

2.3 cidos NucleicosOs cidos nucleicos, cido desoxirribonucleico (DNA) e cido ribonucleico (RNA),so polmeros de nucleotdeos. Eles so os reservatrios moleculares da informao

7

gentica. A estrutura de toda protena e, em ltima anlise, de todo constituintecelular, um produto da informao programada numa sequncia nucleotdica doscidos nucleicos da clula.

Os nucleotdeos so compostos ricos em energia que direcionam os processos me-tablicos (principalmente as biossnteses) em todas as clulas. Eles tambm funcio-nam como sinais qumicos, elos importantes nos sistemas celulares que respondema hormnios e outros estmulos extracelulares, alm de serem componentes estru-turais de vrios cofatores enzimticos e de intermedirios metablicos (Lehningeret al., 1995).

Cada nucleotdeo (Figura 2.3) formado por trs componentes:

1. uma base orgnica nitrogenada;

2. um acar de cinco tomos de carbono (pentose) numerados de 1 a 5; e,

3. um grupo fosfato.

Figura 2.3: Estrutura de um nucleotdeo (Darnell et al., 1986).

As bases nitrogenadas so derivadas de dois compostos ancestrais, as pirimidi-nas e as purinas. Tanto o DNA quanto o RNA contm duas bases pricas principais:a adenina (A) e a guanina (G). O DNA e o RNA possuem tambm duas pirimidinasprincipais; em ambos os tipos de cidos nucleicos, uma delas a citosina (C). Anica diferena importante entre as bases do DNA e as do RNA a natureza dasegunda pirimidina: timina (T) no DNA e uracila (U) no RNA (Figura 2.4).

Figura 2.4: Elementos estruturais dos nucleotdeos mais comuns (Vickers (2007),com adaptaes).

8

Duas espcies de pentose so encontradas nos cidos nucleicos. O DNA possui2-Desoxi-D-Ribose (desoxirribose) e o RNA contm D-Ribose (ribose) (Figuras 2.4e 2.5).

Figura 2.5: Acares presentes nos cidos nucleicos (Setubal and Meidanis, 1997).

Os nucleotdeos sucessivos, tanto no DNA quanto no RNA, so ligados atravsde pontes de grupos fosfato. O grupo hidroxila (OH) do carbono 3 de um nucleotdeose liga ao grupo fosfato do carbono 5 (ligao fosfodister). Desta forma, o esqueletocovalente dos cidos nucleicos consiste de resduos fosfato e pentose alternantes eas bases caractersticas podem ser consideradas como grupos laterais unidos aoesqueleto a intervalos regulares.

Todas a ligaes fosfodisteres nas fitas do DNA e RNA possuem a mesma ori-entao ao longo da cadeia, conferindo a cada fita linear do cido nucleico umapolaridade e extremidades 5 e 3 distintas. Portanto, uma cadeia de cidos nuclei-cos tem uma orientao qumica, que por conveno comea no carbono 5 livre eacaba na terminao que contm o carbono 3 livre.

2.3.1 DNAComo repositrio da informao gentica, o DNA ocupa uma posio nica e centralentre as macromolculas biolgicas. As sequncias nucleotdicas do DNA descre-vem as estruturas primrias de todos os RNA e protenas celulares, e atravs dasenzimas capaz de controlar o tipo e a quantidade de todos os componentes celula-res, determinando em ltima instncia as caractersticas fenotpicas todo ser vivo(Lehninger et al., 1995).

Dessa forma, na molcula de DNA que esto codificadas as estruturas dasprotenas, geradas a partir da transcrio de DNA em RNA e da traduo desteem protenas (Setubal and Meidanis, 1997), o chamado Dogma Central da BiologiaMolecular (Seo 2.5).

O armazenamento da informao biolgica a nica funo conhecida do DNA.O modelo tridimensional para a estrutura do DNA consiste de duas cadeias

helicoidais que se enrolam ao redor do mesmo eixo, formando uma dupla hliceque gira no sentido da mo direita (Figura 2.6). As bases pricas e pirimdicas deambas as fitas esto empilhadas dentro da dupla hlice, com suas estruturas muitoprximas e perpendiculares ao longo do eixo da hlice. As duas cadeias ou fitas dahlice so antiparalelas, ou seja, suas ligaes 5,3 correm em direes opostas.As fitas so complementares entre si: toda vez que aparecer uma adenina numacadeia, timina ser encontrada na outra, onde se encontrar guanina numa cadeia,

9

Figura 2.6: Uma viso geral da estrutura do DNA (Strck, 2006).

encontrar-se- citosina na outra. O DNA pode ser pensado como uma cadeia linearde letras (de Carvalho et al., 2004), como no exemplo da Figura 2.7.

5 . . . GGATCAGCGC . . . 33 . . . CCTAGTCGCG . . . 5

Figura 2.7: As duas fitas do DNA so uma o complemento reverso da outra (comrelao s regras de emparelhamento de bases: A=T e CG).

2.3.2 RNAO RNA uma molcula que tem estrutura semelhante do DNA (Figura 2.8), comalgumas diferenas de composio, quanto estrutura. O RNA normalmente formado por uma fita simples de nucleotdeos.

10

Figura 2.8: RNA e suas bases nitrogenadas esquerda e DNA direita (AccessExcellence (2010), com adaptaes).

Vrias classes de RNAs so encontradas na clula, cada uma com uma funodistinta. Os RNAs ribossmicos (rRNA) so componentes estruturais dos ribosso-mos, grandes complexos que realizam a sntese de protenas. Os RNAs mensageiros(mRNA) so cidos nucleicos que transportam a informao de um ou de uns pou-cos genes at o ribossomo, onde as protenas correspondentes sero sintetizadas.Os RNAs transportadores (tRNA) so molculas adaptadoras que traduzem a in-formao presente no mRNA numa sequncia especfica de aminocidos.

2.4 Genes, Cromossomos e Cdigo GenticoComo dito anteriormente, a informao sequencial necessria formao de pro-tenas ou de RNA encontrada nas sequncias nucleotdicas correspondentes no

11

DNA. Um segmento de DNA que contm a informao necessria para a sntese deum produto biolgico funcional (protena ou RNA) referido como gene.

Diz-se que um gene que est dando origem a um produto biolgico est sendoexpresso. Clulas diferentes e em estgios de desenvolvimento ou condies dife-rentes expressam genes distintos e em intensidades diversas.

Uma clula tpica possui muitos milhares de genes e as molculas de DNA, nadasurpreendentemente, tendem a ser muito longas (Lehninger et al., 1995). Estima-se que o genoma humano tenha em torno de 30.000 genes (International HumanGenome Sequencing Consortium, 2001).

Nos organismos eucariontes (cuja(s) clula(s) possuem ncleo delimitado), osgenes so compostos de partes chamadas ntrons e xons, que se alternam dentrodo gene. Na transcrio (Seo 2.5), os ntrons so retirados do mRNA (splicing).Assim, os ntrons correspondem a pores que no so utilizadas na sntese da pro-tena codificada pelo gene e os xons correspondem poro do DNA que originarprotenas. A frao do DNA que corresponde a um gene completo chamada DNAgenmico, j uma poro que corresponde ao gene sem os ntrons chamada deDNA complementar (cDNA). O cDNA pode ser obtido a partir do mRNA atravs doprocesso chamado transcrio reversa.

As molculas de DNA so usualmente empacotadas em estruturas chamadasde cromossomos. A maioria das bactrias e vrus possuem um nico cromossomo;os eucariontes usualmente possuem muitos. Um nico cromossomo tipicamentecontm milhares de genes individuais. O conjunto completo de cromossomos deuma clula incluindo todos os genes e DNA intergnicos (que est entre os genes)em todos os cromossomos de uma clula referido como genoma celular.

As protenas so sintetizadas com uma sequncia particular de aminocidos,atravs da traduo da informao codificada no RNA mensageiro. Para especifi-car uma protena, basta especificar os aminocidos que ela contm. Os aminocidosso especificados por unidades informacionais no mRNA chamadas de cdons. Oscdons para os aminocidos consistem de trincas nucleotdicas especficas. A tra-duo requer molculas adaptadoras, os RNAs transportadores, que reconhecemcdons e inserem aminocidos em suas posies sequenciais apropriadas no poli-peptdeo. A tabela que relaciona os cdons aos aminocidos chamada de cdigogentico (Tabela 2.1). O cdigo gentico degenerado, significando que um ami-nocido pode ser especificado por mais de um cdon (neste caso, degenerado nosignifica imperfeito, nem ambguo, porque nenhum cdon especifica mais de umaminocido).

As palavras do cdigo gentico padro so provavelmente universais em todasas espcies, embora alguns desvios menores existam na mitocndria e em uns pou-cos organismos unicelulares.

Na sntese de protenas, uma fase de leitura uma das trs possveis formas deagrupar as bases para formar cdons em uma sequncia de DNA ou RNA. Conside-rando, por exemplo, a sequncia GGATCAGCGC da Figura 2.7. Uma possvel fasede leitura seria GGA, TCA, GCG, ignorando a ltima base C, em que foram forma-dos cdons a partir da primeira base; outra fase de leitura seria feita ignorando-sea primeira base G e agrupando as demais bases nos seguintes cdons GAT, CAG,CGC. Uma terceira fase possvel ignoraria as duas bases GG formando ATC, AGC,

12

Tabela 2.1: Tabela do cdigo gentico de cdons mapeados em aminocidos (Setubaland Meidanis, 1997).

Primeira Segunda Posio TerceiraPosio G A C U Posio

G

GlyGlyGlyGly

GluGluAspAsp

AlaAlaAlaAla

ValValValVal

GACU

A

ArgArgSerSer

LysLysAsnAsn

ThrThrThrThr

MetIleIleIle

GACU

C

ArgArgArgArg

GlnGlnHisHis

ProProProPro

LeuLeuLeuLeu

GACU

U

TrpSTOPCysCys

STOPSTOPTyrTyr

SerSerSerSer

LeuLeuPhePhe

GACU

e desprezando as duas bases finais GC. Dessa forma, existem trs possveis fasesde leitura da sequncia de bases do DNA, iniciando na primeira, segunda ou ter-ceira letras da sequncia. A partir da quarta letra as fases de leituras so iguais auma das trs primeiras fases, com um ou mais cdons a menos.

Levando-se em considerao a fita complementar de uma sequncia de DNA, asfases de leitura devem ser consideradas, tambm no sentido reverso. Assim, tem-semais trs fases, num total de seis possveis fases de leitura.

Uma Open Reading Frame ORF, ou fase aberta de leitura, uma sequnciaque comea no cdon inicial de um gene com comprimento mltiplo de trs, sendocompletamente mapeada em cdons, sem precisar ignorar nenhuma base no finalda sequncia (Setubal and Meidanis, 1997).

2.5 Transcrio, Traduo e Sntese Proteica ODogma Central da Biologia Molecular

O conhecimento da estrutura do DNA levou s questes sobre a sua funo. Aprpria estrutura do DNA sugeriu como ele poderia ser copiado, de forma que ainformao nele contida pudesse ser transmitida de uma gerao para a seguinte.Compreender como a informao no DNA era convertida em protenas funcionaistornou-se possvel atravs da descoberta do mRNA, do tRNA e a soluo do cdigogentico.

13

Estes e outros avanos importantes levaram ao Dogma Central da Biologia Mo-lecular, que define trs processos principais na utilizao celular da informaogentica. O primeiro a replicao, processo de cpia do DNA pai para formar asmolculas filhas de DNA, tendo sequncias nucleotdicas idnticas. O segundo a transcrio, processo pelo qual partes da mensagem gentica codificada no DNAso copiadas precisamente, na forma de RNA. O terceiro a traduo, na qual amensagem gentica codificada no mRNA traduzida, nos ribossomos, numa pro-tena com uma sequncia especfica de aminocidos.

2.5.1 RNAs no codificadoresAlm do importante papel na traduo, existe uma classe de molculas de RNA queno traduzida em protena, o chamado RNA no codificador (ncRNA). A classe demolculas de ncRNAs pode ser dividida em dois grandes grupos: manuteno (hou-sekeeping) e regulao. Os ncRNAs de manuteno incluem todas as classes deRNAs envolvidos no processo de transcrio primria, traduo e controle de qua-lidade de tradues. Os ncRNAs de regulao constituem um grupo muito maisdiversificado, que compreende os ncRNAs envolvidos em uma regulao especficade vrios aspectos dos genes expressos, tanto nos procariotos quanto nos eucario-tos. Os nveis em que os RNAs reguladores podem influenciar processos celularesvariam da regulao da transcrio ao controle da traduo. O estudo de como asmolculas de ncRNA atuam nas clulas uma rea de estudo em foco na atuali-dade, devido ao papel cada vez mais claro que essas molculas desempenham noDogma Central da Biologia Molecular (Mattick, 2003).

2.6 Sequenciamento de GenomasNa sua capacidade de reservatrio da informao, a mais importante propriedadede uma molcula de DNA a sua sequncia nucleotdica. At o final dos anos de1970, obter-se a sequncia de um cido nucleico contendo mesmo 5 ou 10 nucleo-tdeos era difcil e muito laborioso. O desenvolvimento de novas tcnicas tornoupossvel sequenciar molculas de DNA cada vez maiores, com uma facilidade noimaginada algumas dcadas antes. As tcnicas dependeram de uma melhora nacompreenso da qumica dos nucleotdeos, do metabolismo do DNA e em mtodosque permitiram a separao das fitas do DNA.

Desde a dcada de 1990, tcnicas em laboratrio tornaram possvel extrair oDNA ou o RNA de clulas, separar as duas fitas que formam o DNA, induzir aunio de fitas simples de DNA que tenham sequncias complementares de bases,cortar o DNA em pontos especficos ou aleatrios, copi-lo, estimar seu tamanho emarc-lo com istopos radioativos ou corantes fosforescentes que permitem poste-rior deteco, sintetizar pequenas cadeias de DNA com a sequncia de bases quese desejar, separar molculas de DNA em funo do seu tamanho aproximado esequenciar o DNA, isto , obter a sequncia de bases que o compem (de Carvalhoet al., 2004).

14

Entretanto, mesmo com todos esses avanos, o primeiro problema que surge noprocesso de sequenciamento est justamente no processo experimental necessriopara se extrair a sequncia de bases nucleotdicas do DNA. Limitaes tcnicas im-pedem que se sequencie regies com tamanhos maiores do que 1.000 bases por vez.Desta forma, para viabilizar o sequenciamento completo do genoma necessrio,primeiramente, tratar o DNA das clulas de forma a criar inmeros fragmentos,que devem ser individualmente sequenciados e, posteriormente, montados comoverdadeiras peas de um quebra-cabeas (Pappas Jr., 2003).

2.6.1 Sequenciamento SangerO primeiro organismo a ter seu DNA sequenciado foi o vrus -X174 pelo pesqui-sador Frederick Sanger em 1975 (Sanger et al., 1977). O mtodo desenvolvido porSanger foi aperfeioado, com a utilizao de sequenciadores automticos e sistemascomputacionais, e mais tarde utilizado no sequenciamento do genoma humano (In-ternational Human Genome Sequencing Consortium, 2001; Venter et al., 2001) ede inmeros outros seres, inclusive o fungo P. brasiliensis (Felipe et al., 2003).

A seguir, o mtodo Sanger descrito, tanto suas etapas laboratoriais, quanto asetapas que demandam a utilizao da sistemas computacionais.

Quebra da molcula de DNA

Para a quebra do DNA empregam-se tcnicas tais como o uso de endonucleases derestrio e o mtodo de shotgun.

As endonucleases de restrio clivam o DNA em sequncias especficas para ge-rar um conjunto de fragmentos menores. J no mtodo de shotgun, uma soluocontendo DNA purificado submetido a algum procedimento que induza a que-bra desordenada das molculas (como, por exemplo, uma alta frequncia de oscila-o/vibrao), que so posteriormente filtradas e separadas para processamento.

Replicao de DNA

Para a realizao dos experimentos laboratoriais com DNA necessria uma por-o mnima de material. preciso, tambm, que se tenha material disponvel pararepetio do experimento. Para tanto, utilizam-se tcnicas, como a do DNA recom-binante e da Reao em Cadeia de Polimerase (PCR), para clonagem do DNA.

A primeira etapa na clonagem de um gene frequentemente a construo deuma biblioteca de DNA que inclua fragmentos representando a maioria do genomade uma dada espcie. A biblioteca pode ser limitada a exprimir genes pela clonagemde apenas cpias do DNA complementar a mRNAs, isolados para construir umabiblioteca de cDNA. Um segmento especfico de DNA pode ser amplificado e clonadousando a PCR.

Vetores de expresso fornecem as sequncias requeridas para a transcrio, tra-duo e regulao dos genes clonados. Eles permitem a produo de grandes quan-tidades de protenas clonadas.

15

A clonagem pela tcnica do DNA recombinante envolve a separao de um geneespecfico ou segmento de DNA do seu cromossomo maior, a sua ligao a uma mol-cula de DNA transportadora pequena e depois a replicao deste DNA modificado,milhares ou mesmo milhes de vezes. O resultado uma amplificao seletiva deum gene ou segmento de DNA particular. Esse tipo de clonagem acarreta cincoprocedimentos gerais:

1. Um mtodo para cortar o DNA em localizaes precisas (com o uso de endo-nucleases de restrio).

2. Um mtodo para unir dois fragmentos de DNA (o que feito pela DNA ligase).

3. A seleo de uma pequena molcula de DNA capaz de auto-replicao. Seg-mentos de DNA a serem clonados podem se unir a DNA de vetores (plasm-deos, vrus). As molculas de DNA compostas so chamadas de DNA recom-binante.

4. Um mtodo para realizar a transferncia do DNA recombinante para a clulahospedeira, que fornecer a maquinaria enzimtica para a replicao doDNA.

5. Mtodos para selecionar as clulas hospedeiras que contenham o DNA recom-binante.

O princpio da tcnica conhecida como PCR (Polymerase Chain Reaction) base-ado na estrutura e na sequncia do DNA. Um conjunto de primers ou iniciadores,compostos por duas pequenas sequncias de oligonucleotdeos complementares auma certa extenso em ambos os lados do DNA a ser amplificado, usado parainiciar a reao. O DNA a ser copiado chamado de DNA template ou molde. Amolcula de DNA aquecida at que a hlice se desfaa e haja separao da fitas(desnaturao do DNA ou melting). A soluo vagarosamente resfriada, cada h-lice encontra-se com a sua complementar e a estrutura de dupla hlice reconstitui-se (anelamento), permitindo a hibridizao entre a hlice que unitria e o primer.Esta preferncia pelo primer cromtide irm ocorre devido alta concentraodos primers no meio. Nucleotdeos livres em alta concentrao so disponibilizadosno meio e serviro na composio da nova sequncia a ser replicada, no processo deextenso da cadeia.

O conjunto de reaes em srie de desnaturao, anelamento e extenso defi-nido como um ciclo. A execuo de um ciclo resulta na amplificao da sequnciade DNA desejada.

O produto de um ciclo de ampliao serve como molde para o prximo. Assim, acada ciclo sucessivo dobra a quantidade de DNA.

Sequenciamento automatizado

O sequenciamento do DNA est automatizado desde a dcada de 1990, com o desen-volvimento do Projeto Genoma Humano (International Human Genome Sequen-cing Consortium, 2001; Venter et al., 2001). Esta tecnologia permite que a sequn-cia de milhares de nucleotdeos possa ser obtida em algumas horas e projetos desequenciamento muito grandes possam ser contemplados (Figura 2.9).

16

Figura 2.9: Sequenciador automtico de DNA MegaBACE 1000 (General ElectricCompany, 2010).

Sequenciadores automticos geram um arquivo compactado contendo eletrofe-rogramas de uma placa, que por sua vez contm vrios fragmentos de DNA. Umeletroferograma composto de quatro grficos coloridos, cada um corresponde auma das quatro bases, A (Adenina), C (Citosina), G (Guanina) e T (Timina) (Figura2.10). Quando uma base identificada em uma posio do fragmento, o grficoapresenta um pico na posio correspondente. Se uma base particular no pode seridentificada, o caracter N (uNknow) associado posio correspondente. Assim,estes eletroferogramas, armazenados em arquivos compactados, so enviados pormeio eletrnico aos laboratrios de Bioinformtica para dar incio ao processo deanlise computacional das sequncias.

Figura 2.10: Exemplo de um eletroferograma (Loris, 2005).

Pipeline de Sequenciamento

Um pipeline, s vezes referenciado como workflow (Lemos, 2004), corresponde auma sequncia de processamento, na qual o resultado (sada) de uma etapa servecomo entrada para outra etapa (Coimbra et al., 2007).

17

Tipicamente, um sistema de Bioinformtica processa os fragmentos de DNAem trs fases: submisso, montagem e anotao que correspondem ao pipelinede sequenciamento, sendo que cada uma das fases , por si s, formada por seuprprio pipeline. Estas fases tem por objetivo produzir sequncias de caracterescorrespondentes aos fragmentos gerados nos laboratrios de Biologia Molecular,recompor trechos do DNA original e identificar funes e categorias nestes trechosde sequncias identificados. A seguir so descritas cada uma das etapas do pipeline,bem como citadas ferramentas computacionais utilizadas nas mesmas.

Submisso

Na fase de submisso, cada eletroferograma de uma placa descompactado e trans-formado em uma cadeia chamada read. Em uma read, para cada base da sequncia associado um valor referente probabilidade de erro na identificao da base ni-trogenada identificada. As expresses sequncia e read sero utilizadas como sin-nimos. Normalmente, a tarefa de converter o arquivo binrio que representa umaread para um formato legvel por pessoas feita pelo programa Phred (Ewing andGreen, 1998; Ewing et al., 1998), que gera para cada read um arquivo no formatophd, que contm uma cadeia composta pelos caracteres A, C, G, T e N e a probabili-dade de erro associada a cada base. O programa Phd2Fasta (Green, 2006) converteos arquivos phd em arquivos tipo texto no formato FASTA (NCBI, 2006), gerandoum par de arquivos para cada conjunto de arquivos phd de uma placa: um arquivocontendo a cadeia de caracteres (arquivo de sequncias) e outro com as respectivasprobabilidades de erro (arquivo de qualidade).

Cada sequncia filtrada para remover pores que provavelmente no perten-cem ao organismo sendo estudado, mas que pertencem a vetores (sequncias dosorganismos usados para replicar o DNA do organismo que est sendo estudado)e contaminantes (sequncias de DNA de outros organismos). As reads so filtra-das utilizando-se programas tais como o Cross_match (Green, 2006). Os trechosidentificados como sendo de outros organismos so mascarados com o caractere X.

Em alguns casos, pode ser feita uma anlise de redundncia entre as sequnciasde uma placa. Para tanto, pode-se executar um programa de montagem de sequn-cias, como o CAP3 (Huang and Madan, 1999). Os agrupamentos gerados pelo CAP3indicam sequncias muito similares e provavelmente redundantes dentro da placasubmetida.

Finalmente, as sequncias so armazenados em um banco de dados juntamentecom estatsticas sobre a placa (por exemplo, o total de reads). Outras informaes,como por exemplo a redundncia, tambm podem ser armazenadas, de acordo comas necessidades de cada projeto de sequenciamento. A Figura 2.11 ilustra uma fasede submisso em que feita anlise de redundncia.

Montagem

A fase de montagem consiste em gerar agrupamentos de sequncias similares, isto, sequncias que tm prefixos e sufixos aproximadamente iguais. Duas sequn-cias so semelhantes se h similaridades entre o sufixo de uma e o prefixo de outra.Esta correspondncia conhecida como alinhamento. Estes agrupamentos buscam

18

Figura 2.11: Exemplo de sequncia de programas executados na fase de submisso.

consenso

reads

Figura 2.12: Alinhamento de um contig, resultante do processo de agrupamento desequncias, que baseia-se na similaridade entre prefixos e sufixos das sequncias.

unir fragmentos que potencialmente pertencem mesma regio do DNA. Gruposformados por mais de uma sequncia so chamados contigs (Figura 2.12) e gruposformados por uma nica sequncia so chamados singlets. Para cada contig, umasequncia consenso gerada e esta representa o contig.

Os programas Phrap (Green, 2006) e CAP3 (Huang and Madan, 1999) so nor-malmente usados para montar as sequncias. Ambos geram um arquivo com oformato ace, contendo dados sobre a montagem e os alinhamentos das sequnciasque compem um contig, e outro arquivo que contm as sequncias dos singlets emformato FASTA. Outros arquivos tambm so gerados, porm apenas aqueles doisso utilizados nos processamentos seguintes.

A identificao de possveis genes nas sequncias (sequncias consenso ou sin-glets) feita atravs de programas como o Glimmer (Delcher et al., 1999; Salzberget al., 1998), que identifica posies iniciais ou finais de uma regio que possivel-mente esteja codificando um gene. As posies de cada candidato a gene soarmazenadas em um banco de dados, juntamente com as sequncias consenso eos singlets. Nos projetos de ESTs no necessrio identificar genes, uma vez queas ESTs representam pores do DNA que so expressas (j correspondem, por-tanto, a genes), assim, neste caso, apenas as sequncias consenso e os singlets so

19

armazenados no banco de dados.Ao trmino da fase de montagem, so tambm armazenadas algumas estatsti-

cas, como o nmero total de grupos (contigs e singlets) e o nmero total de genesidentificados (no caso de DNA genmico). Algumas visualizaes de contigs tam-bm so podem ser disponibilizadas, mostrando o alinhamento das reads para aformao da sequncia consenso.

Anotao

O objetivo da fase de anotao identificar funes e categorias das sequnciasgeradas na fase de montagem. geralmente dividida em dois passos. Primeiro, aanotao automtica, em que devem ser comparadas todas as sequncias do projetocom sequncias de bancos de dados pblicos. As funes e categorias das sequn-cias estudadas so inferidas por comparaes com sequncias semelhantes que ti-veram suas funes e categorias previamente determinadas. O segundo passo, aanotao manual, feita pelos bilogos, que utilizam as informaes da anota-o automtica, bem como seus conhecimentos, para inferir a funo associada sequncia. Estas informaes tambm so armazenadas no banco de dados do pro-jeto.

A anotao automtica utiliza programas como o BLAST (Altschul et al., 1990)e o FASTA (Pearson and Lipman, 1988). As sequncias encontradas nos bancos dedados pblicos com maior semelhana s sequncias estudadas identificadas peloBLAST ou pelo FASTA so chamadas best hits. Estes programas fornecem sadasno formato HTML, que podem ser armazenados diretamente no banco de dados; emformato texto simples, que podem ser depois processadas para melhor visualizao,ou at mesmo em formato XML (este ltimo apenas pelo BLAST).

2.6.2 Sequenciamento de Alto DesempenhoO sequenciamento Sanger tem sido o mtodo mais utilizado pelos pesquisadoresnos ltimos anos. Contudo, novos mtodos de sequenciamento tem sido desenvolvi-dos. Esses novas tecnologias rapidamente ganharam espao entre os pesquisadoresdevido capacidade de sequenciamento de milhes de sequncias a um custo muitobaixo, em comparao ao mtodo Sanger. Esses novos mtodos tem tido um grandeimpacto nas reas de pesquisa relacionadas a sequenciamento de DNA, abrindonovas frentes de pesquisa, tais como o estudo de DNAs conservados de espcies jextintas, como o mamute, e a caracterizao da diversidade ecolgica por meio dosequenciamento de DNA de amostras ambientais (Alvarez, 2009; Mardis, 2008).

Um dos equipamentos que implementa um dos novos mtodos de sequencia-mento o Roche/454 FLX (Figura 2.13). Este sequenciador foi introduzido em 2004,e utiliza uma tcnica de sequenciamento conhecida como pirosequenciamento. Nopirosequenciamento a incorporao de cada nucleotdeo a uma fita de DNA, pormeio da enzima DNA polimerase, acarreta a liberao de pirofosfato. Esta mo-lcula, por sua vez, inicia uma srie de reaes qumicas cujo produto final aliberao de luz. A deteco da luz por um sensor permite a determinao das ba-ses de uma sequncia de DNA. Uma caracterstica importante desta tcnica que,

20

Figura 2.13: Sequenciador automtico Roche/454 FLX (Roche, 2009).

a cada vez que um mesmo nucleotdeo incorporado sequncia, a intensidade daluz liberada aumenta. Se essa intensidade ultrapassar a capacidade do detector deluz, a leitura do nmero de bases iguais ser incorreta. Este o principal tipo deerro enfrentado por este tipo de sequenciador: a incorreta determinao do nmerode bases em uma cadeia com repeties seguidas do mesmo nucleotdeo, tal comoCCCCCCC (Alvarez, 2009; Mardis, 2008).

O primeiro passo no processo de sequenciamento utilizando o Roche/454 FLXconsiste na amplificao do DNA a ser sequenciado. Isso feito misturando-seos fragmentos de DNA com estruturas de agarose1 contendo sequncias de DNAcomplementares s sequncias adaptadoras do Roche/454 FLX, presentes nos frag-mentos a serem sequenciados. Dessa forma, cada estrutura de agarose fica ligadaa um nico fragmento de DNA. A seguir, cada uma dessas estruturas contendo umfragmento de DNA isolada em contas leogua contendo reagentes para a en-zima DNA polimerase. Atravs de um ciclo trmico, so produzidas um milho decpias do fragmento de DNA contidos na superfcie da estrutura de agarose (Alva-rez, 2009; Mardis, 2008).

Aps a amplificao do DNA, o sequenciamento pode ser de fato realizado. Cadaestrutura de agarose colocada em um recipiente de estrutura de slica capilar, con-tendo centenas de milhares de locais para insero de uma estrutura de agarose. Oobjetivo desses recipientes fornecer uma localizao fixa para monitoramento dasreaes de sequenciamento. Em cada recipiente, enzimas que catalizam a reaode pirosequenciamento so adicionadas a cada recipiente e a mistura centrifu-

1Polmero composto de subunidades de galactose. Quando dissolvida em gua quente e seguida-mente arrefecida, a agarose toma uma consistncia gelatinosa, este gel muito utilizado em biologiamolecular para atividades como sequenciamento.

21

gada com o objetivo de cobrir as agaroses com as enzimas (Alvarez, 2009; Mardis,2008).

A incorporao de cada nucleotdeo feita um passo por vez, e em cada passoum sensor CCD2 registra a luz emitida em cada recipiente, assim determinando asequncia de DNA, uma base por vez. No entanto, tal sensor no consegue interpre-tar corretamente a incorporao de um mesmo nucleotdeo vrias vezes (mais de6), o que significa que pores de DNA nas quais uma mesma base ocorre vrias ve-zes podem ser interpretadas, de forma equivocada, como erros no sequenciamento,tais como erros de insero ou de remoo (Alvarez, 2009; Mardis, 2008).

O sequenciador Roche/454 FLX prov sequncias de cerca de 250 bases de com-primento durante um processamento de 8 horas. Aps um processamento paraa remoo de sequncias com baixa qualidade, so obtidas cerca de 100 milhesde bases com boa qualidade em mdia. Apesar do tamanho das sequncias obti-das com o sequenciador Roche/454 FLX ser muito menor em comparao com ossequenciadores Sanger, o mesmo foi utilizado com sucesso no sequenciamento degenomas virais e bacteriais com alta qualidade (Alvarez, 2009; Mardis, 2008). A Fi-gura 2.14 mostra esquematicamente o processo de sequenciamento utilizado peloRoche/454 FLX.

Pipeline de Sequenciamento

Assim como ocorre no sequenciamento Sanger, necessria a utilizao de umsistema de Bioinformtica para processar os fragmentos de DNA obtidos atravsdos mtodos de sequenciamento de alto desempenho. Tipicamente, o pipeline desoftwares constitudo de quatro fases: submisso, mapeamento, montagem e ano-tao. Particularmente, como os mtodos de alto desempenho produzem sequnciasmuito pequenas, a montagem direta de todos os fragmentos fica mais complexa.Nesse pipeline, os dados das sequncias so obtidos do sequenciador e diretamentearmazenados. Aps isso, em geral, as sequncias so alinhadas a um genoma dereferncia, formando grupos de sequncias prximas. A seguir, cada um desses gru-pos montado por meio de um software de montagem, obtendo assim os singletse contigs. Finalmente, os singlets e contigs obtidos anteriormente so anotados(Alvarez, 2009; Mardis, 2008).

Submisso

Ao contrrio dos dados de sequenciadores Sanger, o sequenciador Roche/454 FLXno prov dados que permitam que bases individuais possam ser determinadas.Ao invs disso, estima-se o comprimento de cada homopolmero na sequncia. Porexemplo, a sequncia AAATGGC seria armazenada como constituda de uma sequn-cia de 3 As, seguida de uma sequncia de 1 T, uma sequncia de 2 Gs e, por fim,uma sequncia de um nico C. A determinao da sequncia consiste em simples-

2Sigla para Charge-Coupled Device Dispositivo de Carga Acoplada. Trata-se de um sensorpara captao de imagens formado por um circuito integrado contendo uma matriz de capacitoresligados (acoplados). comumente utilizado em cmeras digitais.

22

Preparao da biblioteca de DNA

PCR por emulso

Sequenciamento

A

A

A B

B

B

a

b

c

Ligao

Seleo(isolamentoapenas dos fragmentosAB)

- Genoma fragmentadopor nebulizao- Sem clonagem: no hescolha de colnia- Biblioteca de sstDNAcriada com adaptadores- Fragmentos A/Bselecionados utilizandopurificao avidina-biotina

gDNA Biblioteca de sstDNA

Insira o sstDNA em soluocontendo um excesso decontas de captura de DNA

Emulsifique as contase reagens PCR emmicrorreatores leo-gua

A amplificao doDNA ocorre dentrodos microrreatores

Descarte os microrreatorese escolha as melhorescontas

Biblioteca de sstDNA Biblioteca de sstDNA amplificada

- Dimetro mdio do recipiente: 44 micrmetros

- 400.000 sequncias obtidas em paralelo

- Uma nica conta de sstDNA amplificado depositada por recipiente

Biblioteca de sstDNA amplificada Bases filtradas por qualidade

Figura 2.14: Mtodo utilizado pelo sequenciador Roche/454 FLX. Adaptado de Mar-dis (2008).

23

mente analisar as estimativas do sequenciador e concatenar os diversos homopol-meros determinados (Alvarez, 2009).

Os dados do sequenciador Roche/454 FLX so disponibilizados em arquivos bi-nrios no formato Standard Flowgram File (SFF), os quais podem ser processa-dos pelo programa Flower (BIOHASKELL, 2010), capaz de produzir arquivos desequncia e de qualidade em formato FASTA. A partir da, as sequncias podemser armazenadas num banco de dados, tal como feito em projetos de sequencia-mento Sanger.

Mapeamento

Uma vez que as sequncias obtidas pelos novos sequenciadores so relativamentecurtas em relao ao sequenciamento Sanger, isso torna complexo o uso das tcni-cas tradicionais para reagrupar os fragmentos sequenciados no DNA original. Dequalquer forma, desejvel aplicar as tcnicas antigas aos novos dados, mesmosendo necessrio efetuar adaptaes (Alvarez, 2009).

Uma possvel abordagem seria usar um genoma de referncia, normalmente umorganismo semelhante quele que est sendo sequenciado, cujo genoma j fossebem conhecido. Assim, possvel mapear as pequenas sequncias obtidas pelosnovos sequenciadores sobre o genoma bem conhecido, agrupando-as conforme suasposies no mapeamento. Uma vez que as sequncias agrupadas constituem umnmero muito menor a ser analisado e possuem poucas diferenas entre si, uma vezque esto mapeadas aproximadamente na mesma regio do genoma, seria possvelaplicar tcnicas de montagem tradicional a esses grupos de sequncias (Alvarez,2009).

O programa Maq (Li et al., 2008) capaz de realizar essa tarefa de mapea-mento. A tcnica do software consiste em fragmentar cada sequncia a ser mape-ada em quatro pedaos menores, de tamanho aproximadamente igual, chamadosde sementes. Dado que uma sequncia s se alinhar perfeitamente ao genoma dereferncia se todas as sementes alinharem-se perfeitamente se houver algumadiferena, esta dever estar contida em uma semente , pode-se procurar todos ospossveis locais nos quais a sequncia pode se alinhar ao genoma, permitindo nomximo duas diferenas. Com base nesse espao reduzido de locais, pode ser feitaa busca da sequncia nesses locais e reportar o mapeamento ao usurio (Alvarez,2009).

Montagem

Uma vez obtidas as sequncias mapeadas, possvel aplicar as tcnicas de monta-gem tradicionais do sequenciamento Sanger, com pequenas modificaes. Um dossoftwares para montagem de sequncias que pode ser utilizado o CABOG (Milleret al., 2008), que consiste numa adaptao de um montador para sequenciamentoSanger desenvolvido pela Celera.

24

Anotao

A anotao de sequncias realizada para sequenciamentos de alto desempenhode forma anloga ao aplicado ao mtodo Sanger. Tambm so utilizados softwaresde alinhamento de sequncias, tais como o BLAST, a fim de buscar similaridadesentre as sequncias do organismo em estudo e as sequncias de organismos bemestudados.

Outros Mtodos de Sequenciamento de Alto Desempenho

Alm do Roche/454 FLX, outros sequenciadores de alto desempenho foram de-senvolvidos. o caso do Illumina Genome Analyzer e do Applied BiosystemsSOLiDTM(Mardis, 2008). Embora cada um desses sequenciadores utilize mto-dos diferentes para a obteno das cadeias genmicas, ambos apresentam desa-fios semelhantes para os sistemas de Bioinformtica, tal como apresentado parao Roche/454 FLX, uma vez que produzem sequncias de tamanho extremamentereduzido.

2.7 Genmica ComparativaA genmica comparativa uma tcnica de estudo de como dados genmicos, taiscomo localizao de cadeias e genes, funes e categorias, de diferentes espciesesto relacionados (Bachhawat, 2006). Atravs da genmica comparativa tem sidopossvel aplicar descobertas j feitas a espcies que esto sendo estudadas, base-ado nas pesquisas que j foram realizadas em organismos que foram previamentesequenciados e analisados. As aplicaes mais comuns da genmica comparativaso a descoberta de genes e de RNAs no codificadores.

Essa tcnica est fortemente relacionada com a evoluo das espcies, sendolargamente utilizada para estabelecer relaes evolutivas entre diferentes orga-nismos. Geralmente, o estudo das relaes evolutivas entre as espcies feitoutilizando-se rvores filogenticas. Esse estudo feito com o auxlio de softwa-res de visualizao que mostram as relaes de parentesco entre os organismosanalisados. Visualizadores de rvores filogenticas e outros softwares utilizadosem tarefas de genmica comparativa so ilustrados na Seo 3.1.

Com o crescimento dos bancos de dados pblicos de anotaes de genomas se-quenciados, a genmica comparativa tem sido cada vez mais utilizada nos projetosde sequenciamento para a determinao de funes e categorias das sequnciasobtidas, tal como descrito no tpico Anotao da Subseo 2.6.1. A abordagemcomputacional mais comum o alinhamento textual de sequncias, com a utiliza-o de programas como o BLAST. Porm, o volume crescente de dados faz surgir anecessidade de ferramentas de visualizao que facilitem as anlises feitas pelospesquisadores, uma vez que programas como o BLAST geram resultados em formade texto, com muitas informaes detalhadas (ver Seo 3.2).

Outra tarefa de genmica comparativa a identificao de sintenias entre dife-rentes espcies.

25

2.7.1 SinteniasA palavra sintenia deriva do termo synteny da lngua inglesa, que trata-se de umneologismo com o significado de on the same ribbon (na mesma fita). Esse novotermo foi proposto por John H. Renwick em 1971. Em sua concepo original,sintenia refere-se localizao de genes no mesmo cromossomo (Passarge et al.,1999).

Neste trabalho, um par de genes dito sintnico quando estes se conservamdentro de um mesmo cromossomo, supercontig ou scaffold entre espcies diferentes.Um supercontig um conjunto ordenado e orientado de contigs que ainda contmalguns gaps. Um scaffold um conjunto de contigs que j se aproxima da estruturade um cromossomo.

A identificao de sintenias entre diferentes espcies necessariamente decorrede comparaes entre mltiplos genomas, estando fortemente relacionada s tc-nicas clssicas de genmica comparativa. Em geral, a identificao de sinteniasparte da comparao do genoma em estudo com outros genomas bem conhecidos,nos quais se buscam a ocorrncia de genes sintnicos ao do organismo pesquisado.Tais comparaes comumente so feitas utilizando softwares de alinhamento desequncias, tais como o BLAST. O passo seguinte frequentemente consiste em uti-lizar alguma ferramenta de visualizao grfica dos resultados dos alinhamentosobtidos, de modo a facilitar a identificao de sintenias.

Na Seo 3.3 so apresentados e comparados os softwares de visualizao maisutilizados para a identificao de sintenias. Em seguida, na Seo 4.2 argumenta-se que ainda h espao para o desenvolvimento de uma nova ferramenta de visua-lizao, com uma abordagem diferente das demais.

26

Captulo 3

Visualizao de Dados Biolgicos

Com a expanso dos projetos de sequenciamento de genomas pelo mundo, o vo-lume de dados produzido tem crescido enormemente. Somente o banco de dados doGenBank tem dobrado a quantidade de dados a cada 18 meses, desde 1982, ultra-passando 95 bilhes de pares de bases (Lathe et al., 2008). Um volume to grandede dados demanda ferramentas de visualizao e anlise intuitivas, eficazes e efi-cientes. Um projeto de sequenciamento de genoma produz os mais variados tiposde dados: alinhamentos e montagens de sequncias, referncias textuais e muitoslinks com outros bancos de dados.

A Seo 3.1 apresenta o problema da visualizao de dados biolgicos e os mo-dos de visualizao mais comuns. Na Seo 3.2 so apresentados os requisitos maiscomuns das ferramentas utilizadas para a visualizao de comparaes de sequn-cias, com vistas identificao de sintenias. Em seguida, a Seo 3.3 relaciona asferramentas mais comuns para a visualizao de sintenias e um quadro compara-tivo.

3.1 Dados Biolgicos e sua Visualizao: GrficosMais Comuns

O maior volume de dados biolgicos certamente diz respeito ao sequenciamento degenomas. Nesse contexto, so armazenados dados sobre cada par de base de umorganismo, sequncias de interesse que foram identificadas, sobretudo genes, comsuas respectivas anotaes e links para outras bases de informao. O principalexemplo de visualizador capaz de integrar a maior parte dos dados gerados porprojetos de sequenciamento o NCBI Map Viewer, um visualizador de dados doGenBank (Sayers et al., 2010). A Figura 3.1 ilustra como os dados so apresentadospelo Map Viewer.

Outra informao muito importante para os bilogos, e que muitas vezes derivados dados gerados pelos projetos de sequenciamento, a reconstruo das rela-es evolucionrias entre as espcies, o que conhecido como filogentica. Nessesentido, os grficos produzidos para melhor compreenso dessas relaes evolu-cionrias uma rvore da vida, um grfico conhecido como rvore filogentica,que busca evidenciar o grau de parentesco entre diferentes espcies. As primei-

27

Figura 3.1: Visualizao do cromossomo X humano pelo NCBI Map Viewer (NCBI,2010). Uma caracterstica importante a possibilidade de acessar a anotao deum gene mapeado atravs de links.

ras ferramentas de visualizao de rvores filogenticas datam de 1996, quandoapresentavam simples arestas que ligavam as folhas das rvores a uma raiz (Page,1996). Os aplicativos mais recentes, porm, fornecem grficos mais complexos, for-necendo interatividade e links para dados das anotaes (Letunic and Bork, 2007),conforme ilustrado pela Figura 3.2.

Outro tipo de informao muito relevante para os estudos sobre um determi-nado organismo aquela relacionada dinmica das reaes qumicas que ocor-rem no interior das clulas: o metabolismo. Nesse sentido, comum a elaboraode grficos denominados vias metablicas, que apresentam toda a cadeia de reaesqumicas de determinados processos celulares. Uma das fontes de grficos de viasmetablicas o banco de dados do KEGG, constitudo de ilustraes feitas mo,no qual possvel efetuar consultas sobre os produtos de genes e outras molcu-las envolvidas (Kanehisa et al., 2006). A Figura 3.3 apresenta uma via metablicadisponibilizada pelo KEGG.

Finalmente, a comparao entre sequncias demanda tambm a elaborao deferramentas de visualizao avanadas, o que ser abordado na prxima seo.

28

Figura 3.2: rvores filogenticas apresentadas pelo software ITOL InteractiveTree Of Life (Letunic and Bork, 2007).

3.2 Comparao de Sequncias e Identificao deSintenias

A comparao de sequncias uma das atividades mais comuns na pesquisa relaci-onada ao sequenciamento de genomas. As ferramentas de comparao de sequn-cias mais populares datam de 1984, com o FASTP, que compara cadeias de ami-nocidos (Lipman and Pearson, 1985), seguido por pacotes de programas de com-parao tambm de cadeias de nucleotdeos, como o FASTA (Pearson and Lipman,1988) e o BLAST (Altschul et al., 1990), at softwares mais recentes, como o BLAT(Kent, 2002). Todos esses programas tornaram-se bastante populares entre os pes-quisadores e so fundamentais para as pesquisas genmicas, sobretudo durante afase de anotao de um genoma.

O volume de dados produzidos por esses programas de comparao de sequncia enorme e tem crescido exponencialmente (Lathe et al., 2008). Porm, a anlisedos dados gerados por esses programas no uma tarefa trivial. Em geral, a quan-tidade de sequncias comparadas de uma s vez muito grande, o que resulta emarquivos de resultado bastante extensos. Como os programas FASTA, BLAST eBLAT produzem como resultado arquivos textuais, tal como ilustra a Figura 3.4,

29

Figura 3.3: Exemplo de via metablica disponibilizada pelo KEGG, ilustrando oprocesso de fotossntese (KEGG, 2010).

identificar caractersticas globais do genoma, como localizao relativa de genesem cromossomos, no uma tarefa das mais fceis.

Em especial, a tarefa de identificar sintenias tem sido feita pelos bilogos como auxlio de programas de comparao de sequncias, na maioria dos casos, tem-seutilizado o BLAST. Contudo, identificar sintenias requer a caracterizao e locali-zao de grupos de genes nos cromossomos de um organismo e como esses gruposconservam o posicionamento relativo de seus genes no genoma de um outro orga-nismo. Os programas FASTA, BLAST e BLAT fornecem as coordenadas precisasde onde uma determinada cadeia (possivelmente um gene) comea e termina numgenoma. Porm, como ilustrado pela Figura 3.4, esses programas produzem umresultado que de difcil anlise pelos pesquisadores. Ento, faz-se necessria odesenvolvimento de ferramentas de visualizao dos resultados gerados por essesprogramas, de modo a prover uma viso mais clara das comparaes efetuadas.

A seguir so apresentadas as caractersticas que os softwares de visualizaodevem ter para auxiliar os bilogos na tarefa de identificar sintenias.

3.2.1 Requisitos de um Software de Visualizao para a Iden-tificao de Sintenias

Diante da dificuldade de se analisar dados apresentados de forma textual, as ferra-mentas de visualizao precisam ser desenvolvidas tendo em vista as necessidadesdos bilogos nas pesquisas sobre sintenia. Alm disso, esses softwares precisam serintuitivos e fornecer um certo grau de interatividade, de modo que o pesquisadorconsiga navegar facilmente pelos resultados e assim encontrar a informao queprecisa. Nesse sentido, alguns trabalhos se dedicaram a elucidar quais caracters-

30

Figura 3.4: Sada gerada pelo BLAST. Como o resultado gerado um arquivo texto,no uma tarefa simples extrair informao sobre cromossomos ou genes.

ticas uma ferramenta de visualizao de comparaes de genomas deve ter, a fimde permitir a identificao de sintenias.

O trabalho de Hunt et al. (2004) aborda quais caractersticas visuais uma apli-cao precisa ter para facilitar a identificao de sintenias. Esse trabalho culminouna implementao do software SyntenyVista, que ser apresentada mais adiante.O artigo inicialmente enumera quais so os desafios que toda ferramenta de visu-alizao de sintenias deveria solucionar, a saber:

Viso de todo o cromossomo: til para o usurio ter uma viso global detodas as relaes entre um cromossomo e outros possveis. O problema queo volume de informao pode confundir facilmente o usurio.

Todo o cromossomo, com detalhe: o usurio deve ser capaz de conseguirfocar uma determinada regio de um cromossomo, enquanto ainda tem dis-posio uma viso do todo. Mais uma vez o problema o grande volume deinformao.

Escala: devido grande extenso de um cromossomo inteiro, em contrastecom o tamanho limitado de um nico gene, preciso estabelecer algum critriode escala, de modo que seja possvel apresentar essas duas informaes ladoa lado.

31

Orientao do mapa: grficos horizontais so mais fceis de navegar, con-tudo apresentam dificuldades para a colocao dos rtulos dos objetos apre-sentados.

Problema de rotulao: a rea de exibio em geral muito pequena e ovolume de dados a serem apresentados muito grande.

Representao das relaes entre os objetos: este o foco da visualiza-o de sintenias. As relaes podem ser evidenciadas pelo traado de linhasou trapzios ou alinhando os objetos sobre uma grade. As linhas deixam asrelaes mais legveis, mas so desnecessrias quando no h inverso deordem de genes, situao em que mais desejvel o traado de trapzios.

Cruzamento de linhas: a inverso na ordem de genes resultam em cru-zamentos de linhas, o que dificulta a legibilidade. desejvel minimizar ocruzamento de linhas a fim de facilitar a legibilidade do grfico.

Plano de fundo: a cor e textura devem facilitar a legibilidade, sobretudo emcontraste s linhas que representam as sintenias.

Diante desses desafios, Hunt et al. (2004) elaboraram uma lista das funcionali-dades que visualizadores de sintenias devem apresentar:

A) Detalhes sob demanda: o usurio deve ser capaz de selecionar as espcies,cromossomos e reas do cromossomo que deseja visualizar.

B) Zoom: necessrio para a visualizao de grande objetos em reas restritas.

C) Rotulao eficiente: os rtulos dos objetos devem ser ntidos e no devemse sobrepor.

D) Movimentar um cromossomo ao longo do seu eixo: deve ser possveldeslizar um cromossomo ao longo de seu eixo, de modo a permitir o alinha-mento de blocos sintnicos e, assim, facilitar a visualizao.

E) Aplicar escala ao cromossomo: deve ser implementado algum mecanismoque compacte a rea de exibio dos objetos, de modo a tornar a visualizaomais compacta e legvel.

F) Inverso do cromossomo: isto permite que o usurio veja mais claramenteas relaes de sintenia em situaes de inverso de ordem dos genes.

G) Filtragem: onde h muitos dados para serem exibidos, deve haver a possibi-lidade de filtrar os dados de acordo com algum tipo ou outra caracterstica.

H) Colorao: o software deve usar um esquema de colorao por padro paradiferenciar cromossomos e genes, mas deve permitir que o usurio modifiqueas cores.

Por outro lado, existe uma srie de caractersticas que um pesquisador esperadescobrir ao analisar uma visualizao de sintenias entre dois ou mais genomascomparados. Meyer et al. (2009) elaboraram uma lista das questes que um pes-quisador espera esclarecer ao estudar os grficos de comparaes de genomas, no

32

contexto da visualizao de sintenias. Segundo os autores, as caractersticas queum pesquisador tenta elucidar ao utilizar um visualizador de sintenias so:

1. Quais cromossomos compartilham blocos de genes conservados.

2. Para um cromossomo, com quantos outros cromossomos ele compartilha blo-cos de genes conservados.

3. Qual a densidade de cobertura do genoma e onde esto os gaps.

4. Onde esto os blocos de genes, se estariam em torno de uma posio especficano cromossomo.

5. Quais so os tamanhos e localizaes de outras caractersticas genmicas pr-ximas a um bloco de genes.

6. Quo grandes so os blocos de genes.

7. Se blocos de genes vizinhos se conservam no mesmo cromossomo e/ou preser-vam seu posicionamento relativo.

8. Se a orientao dos pares de blocos de genes preservada ou invertida.

9. Se a orientao preservada para blocos de genes vizinhos.

10. Se as pontuaes de similaridades so iguais com respeito a blocos de genesvizinhos.

11. Se os genes pareados dentro de um bloco so contguos.

12. Quo grande um gene em relao a outros genes dentro de um bloco.

13. Quais so os tamanhos, localizaes e nomes dos genes dentro de um bloco.

14. Quais so as diferenas entre nucleotdeos individuais e pares de genes.

Diante dessas questes, Meyer et al. (2009) desenvolveram um visualizador de-nominado MizBee, que ser tratado em detalhes mais adiante.

3.3 Visualizadores de Comparaes de Sequnciaspara a Identificao de Sintenias

Nesta Seo so apresentadas algumas das ferramentas mais comuns para visua-lizao de genomas baseadas em comparaes de sequncias de nucleotdeos. Algu-mas delas tambm apresentam uma visualizao baseada na exibio da estruturafsica dos cromossomos, ou seja, mostram onde os genes esto localizados nos cro-mossomos.

Em geral, essas ferramentas recebem como entrada sequncias montadas denucleotdeos e utilizam algum software de comparao, como o BLAST. No en-tanto, alguns visualizadores recebem como entrada dados pr-processados sobrea localizao dos genes em cada cromossomo. A tarefa de determinar se um par

33

de sequncias sintnico em geral de responsabilidade do usurio, embora exis-tam ferramentas capazes de pr-determinar genes sintnicos entre os organismoscomparados.

O modo de visualizao das ferramentas varia bastante. Meyer et al. (2009)compilaram um quadro comparativo dos modos de visualizao mais comuns, con-forme ilustra a Figura 3.5. Certamente, o modo de visualizao mais comum olinear separado, mas h softwares que combinam diversos modos de visualizao,a depender do nvel de detalhes escolhido pelo usurio.

Figura 3.5: Tipos mais comuns de grficos usados para visualizao de sintenias.Em azul o genoma de origem e em laranja o genoma de destino. Adaptado de Meyeret al. (2009).

3.3.1 Softwares para Visualizao de SinteniasA seguir so apresentadas as ferramentas mais comuns para a visualizao desintenias.

Apollo

Apollo uma ferramenta de apoio anotao em geral, que permite a identificaode sintenias entre dois genomas (Lewis et al., 2002). Trata-se de um aplicativodesktop, escrito em Java, que utiliza o BLAST para processar as comparaes. Osgenes ortlogos entre os dois genomas so ligados por trapzios, conforme ilustradopela Figura 3.6.

SyntenyView

SyntenyView um mdulo do Ensembl para a visualizao de sintenias entre ge-nomas de dois organismos (Clamp et al., 2003). O projeto Ensembl consiste de um

34

banco de dados que prov um framework de Bioinformtica para organizar gran-des volumes de dados biolgicos em torno de sequncias de extensos genomas. Ele uma fonte estvel de anotaes sobre sequncias dos genomas humano, do rato ede outras espcies, disponvel por meio de uma pgina web interativa ou por arqui-vos texto que podem ser baixados pelo usurio. A ferramenta SyntenyView utilizaBLAST para comparaes entre nucleotdeos ou entre aminocidos, apresentandouma visualizao da estrutura do cromossomo (Figura 3.7).

SyntenyVista

SyntenyVista um aplicativo desktop, escrito em Java, para a visualizao de sin-tenias entre dois genomas (Hunt et al., 2004). A ferramenta apresenta a compara-o de um par de cromossomos por vez, com a possibilidade de exibir os genes talcomo esto dispostos fisicamente, assim como apresentando pelo SyntenyView, ouento pode apresent-los de forma compacta, preservando somente sua ordem, oque os autores denominam como cartoon scaling. No modo de cartoon scaling, asdistncias entre os genes seriam desprezadas, assim como seu tamanho, de modoque todos sejam representados com o mesmo tamanho, o menor possvel para a exi-bio de um rtulo. SyntenyVista permite que o usurio inverta um cromossomo,de modo a reduzir o cruzamento das linhas que ligam os genes dos dois organismos(Figura 3.8), alm de oferecer diversos nveis de zoom. O software ainda capaz dese conectar ao banco de dados do Ensembl para recuperar informaes detalhadassobre as anotaes dos genes.

Mauve

Mauve um software de alinhamento mltiplos de genomas, com algoritmos oti-mizados para o caso em que h conservao de genes entre as espcies estudadas,e que fornece uma interface grfica para visualizao dos genomas comparados(Darling et al., 2004). A visualizao disponibilizada pela ferramenta consiste emapresentar os genes conforme esto dispostos no genoma, ligando-os aos respecti-vos alinhamentos no genoma seguinte (Figura 3.9). A ferramenta tambm utilizauma tcnica de gradao de cores para representar o grau de similaridade entre osblocos.

ACT

ACT um aplicativo desktop, escrito em Java, com a finalidade de exibir grafica-mente comparaes de mltiplas sequncias (Carver et al., 2005). A comparao feita par a par, utilizando o programa BLAST, sendo capaz de exibir os dados poreste gerados. A exibio das comparaes feita com o traado de trapzios delimi-tados pelas cadeias que so semelhantes entre um par de genomas (Figura 3.10).A colorao dos trapzios feita de acordo com o grau de similaridade dos cadeiasde nucleotdeos.

35

SynBrowse

SynBrowse um mdulo que funciona integrado ao GBrowse (Pan et al., 2005). OGeneric Genome Browser (GBrowse) uma combinao de banco de dados e inter-face web interativa para a manipulao e exibio de anotaes em genomas (Steinet al., 2002). A ferramenta disponibiliza a visualizao de comparaes de sequn-cias de dois organismos, provendo modos de exibio que facilitam a identificaode macrosintenias, microsintenias e genes homlogos (Figura 3.11).

A ferramenta utiliza tambm o BLAST para efetuar as comparaes. Syn-Browse capaz de determinar sequncias sintnicas, procurando por pares de ge-nes (ou alinhamentos) que ocorram na mesma ordem em ambas sequncias, numadistncia menor do que um limite definido pelo usurio. Assim, um conjunto igualou maior que um nmero mnimo (especificado pelo usurio) de tais pares de genes considerado um bloco de sintenia, considerando parmetros como a qualidade doalinhamento e colinearidade das sequncias. A ferramenta ainda capaz de exibiro alinhamento textual original (gerado pelo BLAST), alm de os grficos geradospossurem elementos clicveis, capazes de direcionar o usurio a informaes maisdetalhadas sobre a anotao. O software escrito em Perl.

SynView

SynView uma ferramenta baseada no GBrowse e distribuda como parte deste(Wang et al., 2006). SynView permite a visualizao da comparao entre mltiplosgenomas, baseada na escolha de um genoma de referncia pelo usurio. capazde exibir tanto a comparao quanto as informaes de anotao. Assim como noACT, a comparao feita par a par, utilizando o programa BLAST. A exibio dascomparaes tambm feita com o traado de trapzios e a colorao feita de acordocom o grau de similaridade dos cadeias de nucleotdeos. Alm disso, os trapziospodem conter links para pginas de descrio. A ferramenta escrita em Perl.

GBrowse_syn

GBrowse_syn mais um mdulo para visualizao de sintenias (Figura 3.13) in-tegrado ao GBrowse (McKay, 2007). Permite a visualizao de comparaes entremltiplas espcies.

Cinteny

Cinteny um aplicativo web, escrito em C++ e PHP para a visualizao de sinte-nias entre mltiplos genomas (Sinha and Meller, 2007). O software utiliza umarvore de busca ternria para representar os genomas, com os genes representa-dos pelas folhas. Cinteny capaz de identificar sintenias calculando a distnciareversa entre grupos de genes. A ferramenta possui trs nveis de visualizao:todo o genoma, cromossomo ou por genes individuais (Figura 3.14). Cinteny ainda capaz de fazer de se conectar com o NCBI para fornecer informaes mais deta-lhadas sobre os genes exibidos.

36

MEDEA

MEDEA uma ferramenta que exibe sequncias de mltiplas espcies para vi-sualizao de sintenias (Broad Institute, 2009). O software foi desenvolvido emActionScript 3, provendo diversos nveis de visualizao (Figura 3.15). Os dadosprecisam ser previamente formatados para a visualizao dos genomas, ou seja, aferramenta funciona somente como um visualizador.

Sybil

Sybil um aplicativo web (Figura 3.16), escrito em Perl, capaz de efetuar genmicacomparativa entre mltiplas espcies (TIGR, 2009). O software utiliza bancos dedados Chado, que o modelo de banco de dados relacional utilizado pelo GBrowse,e usa o TIGR workflow engine para executar os programas de anlise dos dados,tais como o BLAST. Sybil utiliza BLASTP (bidirecional) para comparaes entresequncias de aminocidos, sendo capaz de identificar blocos de genes sintnicos.A ferramenta ainda pode gerar grficos nos formatos PNG, JPEG, SVG e PDF. Par-ticularmente, Sybil apresenta a comparao entre mltiplos genomas com o obje-tivo de identificar sintenias num grfico denominado gradiente de sintenia. Nessegrfico, o genoma de referncia representado por uma barra colorida como umgradiente entre duas cores. Em seguida, os demais genomas so apresentadoscomo barras horizontais do mesmo tamanho, coloridas de acordo com a cor corres-pondente ao apresentado no genoma de referncia. Dessa forma, a conservao dascores como gradiente evidencia regies de conservao genmica, com a provvelocorrncia de sintenias.

MizBee

MizBee uma ferramenta de visualizao de sintenias entre dois genomas (Meyeret al., 2009). Trata-se de um aplicativo desktop escrito na linguagem Processing um ambiente de desenvolvimento e execuo de aplicaes que necessitam degrficos avanados e interativos, porm, de simples implementao, baseado emJava (Reas and Fry, 2006). A ferramenta tambm possui trs nveis de visualiza-o, combinando diversos tipos de grficos (Figura 3.5). Os trs nveis so exibidossimultaneamente na janela principal do aplicativo: todo o genoma, cromossomo oupor blocos de genes (Figura 3.17). Dessa forma, a visualizao por cromossomo epor bloco de genes corresponde ampliao da seleo efetuada na visualizao detodo o genoma. MizBee no capaz de identificar sintenias, funcionando apenascomo um visualizador de dados previamente formatados.

3.3.2 Comparao entre as FerramentasA Tabela 3.1 apresenta um comparativo entre as ferramentas apresentadas previ-amente, com relao aos requisitos levantados na Seo 3.2.

A ferramenta que implementa o maior nmero de requisitos, tanto aqueles de-finidos por Hunt et al. (2004), quanto os definidos por Meyer et al. (2009) o Syn-tenyVista. Contudo, esse software capaz de comparar somente dois genomas.

37

Dentre aquelas ferramentas capazes de comparar mltiplos genomas, Mauve aque possui o conjunto mais equilibrado de funcionalidades. Assim, caso o pesqui-sador precise comparar somente dois genomas, SyntenyVista o software maisadequado. Mas se necessrio comparar mltiplos genomas, a ferramenta a serutilizada Mauve.

Portanto, apesar de j terem sido desenvolvidas diversas ferramentas que auxi-liem na identificao de sintenias, ainda h espao para o projeto e implementaode um novo software, que combine recursos visuais que simplifiquem a anlise feitapelo pesquisador, associados capacidade de comparar mltiplos genomas. Nessesentido, este trabalho apresenta uma nova ferramenta, apresentada no Captulo 5.

Figura 3.6: Uma viso detalhada de sintenias no Apollo.

38

Figura 3.7: Exemplo da visualizao disponibilizada pelo SyntenyView.

Figura 3.8: Um dos modos de visualizao do SyntenyVista, destacando a inversode um cromossomo (na janela esquerda o cromossomo esquerdo est em posionormal, enquanto na janela direita o mesmo cromossomo foi invertido).

39

Figura 3.9: Visualizao de mltiplos genomas pelo Mauve.

Figura 3.10: Janela principal do ACT, exibindo a visualizao da comparao detrs genomas.

40

Figura 3.11: Comparao entre dois genomas pelo SynBrowse.

Figura 3.12: Comparao entre trs genomas pelo SynView, com o genoma de refe-rncia ao topo.

41

Figura 3.13: Exemplo da visualizao disponibilizada pelo GBrowse_syn, mos-trando a comparao entre trs genomas.

Figura 3.14: Comparao de cromosso

Ferramenta de Visualização Interativa de Comparação …repositorio.unb.br/bitstream/10482/12233/1/2010_RodrigoCarneiroM... · Universidade de Brasília Instituto de Ciências

Documents