MANUAL PARA CARACTERIZAÇÃO GENÔMICA E ANÁLISE … · Sua grande prevalência e distribuição sugerem que esses parasitas genômicos podem influenciar diretamente a evolução

MANUAL PARA CARACTERIZAÇÃO GENÔMICA E ANÁLISE

EVOLUTIVA DE ELEMENTOS TRANSPONÍVEIS UTILIZANDO

DIRETAMENTE READS DE SEQUENCIADORES DE ALTO

DESEMPENHO

Alexandre Freitas da Silva

Filipe Zimmer Dezordi

Gabriel da Luz Wallau

1

AUTORES

Alexandre Freitas da Silva

Bacharel em Biotecnologia pela

Universidade Federal do Pampa, campus São

Gabriel-RS. Possui experiência em Biologia

Molecular e Bioinformática, desenvolvendo

projetos de caracterização genômica de

Elementos Transponíveis em genomas de insetos.

Atualmente é bolsista de cooperação técnica no

Centro de Pesquisas Aggeu Magalhães - FIOCRUZ CPqAM.


Possui graduação em andamento no curso

de Bacharelado em Biotecnologia pela

Universidade Federal do Pampa, campus São

Gabriel-RS. Atualmente é aluno de iniciação

científica pelo Laboratório de Proteômica

Aplicada sob orientação do Dr. Paulo Marcos

Pinto e co-orientação do Dr. Gabriel da Luz

Wallau. Tem experiência nas áres de Bioinformática, Genômica e

Transcriptômica.

Gabriel da Luz Wallau

Pesquisador em Saúde Pública vinculado

ao Departamento de Entomologia do Centro de

Pesquisas Aggeu Magalhães - FIOCRUZ CPqAM.

Tem experiência na área de Biologia Evolutiva e

Genômica, atuando principalmente nos seguintes

temas: biologia de parasitas genéticos (evolução

de elementos de transposição, arbovírus e

bactérias endosimbiontes de artrópodes),

bioinformática e metodologias ômicas (genômica e transcriptômica)

aplicadas a insetos vetores. Membro da International Society for

Computational Biology (www.iscb.org).

http://www.iscb.org/

2

© 2016, dos autores

Direitos reservados desta edição

Sociedade Brasileira de Genética

Editora SBG

Sociedade Brasileira de Genética

Ribeirão Preto, SP

Capa e Diagramação Gráfica


Silva, Alexandre; Dezordi, Filipe; Wallau, Gabriel

MANUAL PARA CARACTERIZAÇÃO GENÔMICA

E ANÁLISE EVOLUTIVA DE ELEMENTOS

TRANPONÍVEIS UTILIZANDO DIRETAMENTE READS DE

SEQUENCIADORES DE ALTO DESEMPENHO. / Alexandre

Freitas da Silva, Filipe Zimmer Dezordi, Gabriel da Luz

Wallau – Ribeirão Preto: SBG, 2016.

27p.

3

SUMÁRIO

Introdução ------------------------------------------------------------------------- 04

Panorama dos softwares utilizados para caracterização de TEs --------06

Caracterizando Elementos Transponíveis ----------------------------------09

Obtenção das Sequências ---------------------------------------------09

Caracterizando Elementos -------------------------------------------10

Reconstrução da História Evolutiva de Elementos Transponíveis----13

Montando os contigs ---------------------------------------------------13

Analise das fases de leitura aberta ---------------------------------15

Buscando elementos e sequências homólogas-------------------16

Preparando o arquivo para alinhamento -------------------------18

Alinhamento e Edição no MAFFT e AliView --------------------19

Seleção do Modelo de substituição de aminoácidos -----------21

Construção da árvore filogenética ---------------------------------21

Edição da árvore filogenética ----------------------------------------22

Nota dos Autores -----------------------------------------------------------------22

Referências -------------------------------------------------------------------------23

4

INTRODUÇÃO

Elementos Transponíveis (TEs, do Inglês Transposable

Elements) foram descobertos em milho (Zea mays) por

Barbara McClintock na década de 1940, e

inicialmente foram descritos como segmentos

duplicados, modificações cromossômicas,

aberrações cromossômicas, eventos de

transposição, até serem denominados, em 1956,

por elementos de transposição [1-5]. Descrições

mais atualizadas definem Elementos Transponíveis

como genes móveis que possuem a capacidade de se replicarem e se

moverem de uma região cromossômica para outra dentro de um

genoma hospedeiro [6].

Com o desenvolvimento das técnicas de sequenciamento de

ácidos nucléicos e o sequenciamento dos primeiros genomas

procarióticos e eucarióticos foi possível observar que estes elementos

podem constituir grande parte do genoma de alguns organismos,

chegando a 50% do genoma dos primatas [7-9] e 85% do genoma do

milho [10]. Sua grande prevalência e distribuição sugerem que esses

parasitas genômicos podem influenciar diretamente a evolução de

organismos hospedeiros que estes parasitam, atuando, por exemplo,

no desenvolvimento de sistema imunológico [11] e na dinâmica dos

cromossomos [12]. Algumas dessas modificações estão associadas a

eventos de domesticação molecular, onde cópias dos TEs passam a

exercer funções importantes para o genoma do organismo. Entretanto,

devido a seus mecanismos de replicação e transposição, podem

desencadear modificações prejudiciais ao organismo hospedeiro como

mutações, deleções, inserções ou rearranjos cromossômicos.

Múltiplas características são utilizadas para classificar os

Elementos Transponíveis, entre as quais, o tipo de ácido nucleico

utilizado no mecanismo de transposição, a presença de regiões

terminais de sequência invertida (TIRs do Inglês Terminal Inverted

5

Repeats), os sítios alvo de duplicação (TSD do Inglês Target Site

Duplicaiton), as regiões longas de terminação (LTRs do Inglês Long

Terminal Repeats) e também as proteínas que compõem os elementos,

responsáveis pela mobilização destes dentro dos genomas [13].

A primeira classificação dos Elementos Transponíveis foi

proposta por Finnegan em 1989. Este modelo era baseado unicamente

no mecanismo de transposição dos elementos, separando-os em

Classe I, os que utilizavam RNA como intermediário, e Classe II, os

que utilizavam DNA como intermediário [14]. Atualmente não há uma

regra universal de classificação para os TEs, mas, existem duas

principais propostas para uma classificação unificada, a de Wicker et al

[15] e a de Kapitonov e Jurka [16]. Ambas são sistemas hierárquicos que

usam, além de informações sobre o mecanismo de transposição,

características específicas de grupos de elementos formando

diferentes classes de TEs [17]. Apesar dos dois sistemas de

classificação possuírem pontos fortes e fracos, optamos por utilizar a

classificação de Kapitonov e Jurka, pois esta possui um banco de dados

de TEs associados, o RepBase [18], que atualmente é o único banco de

dados validado de elementos de transposição, quando se trata de

espécies eucarióticas. Além disso, é constantemente atualizado, sendo

muito útil para que comparações e inferências possam ser feitas sobre

a história evolutiva dos TEs.

Com a maior disponibilidade de genomas, a caracterização de

TEs aumentou muito nos últimos anos bem como o desenvolvimento

de novas ferramentas para tal propósito. Entretanto, espécies que não

são modelos para estudos científicos ainda possuem escasso

conhecimento sobre essas sequências repetitivas. Associado à ausência

de conhecimento está o alto custo de um projeto genoma que possa

resultar em um genoma de boa qualidade, e assim permitindo a

caracterização das sequências repetitivas. Felizmente novas

metodologias de sequenciamento tornaram financeiramente menos

onerosos estes estudos, e novas abordagens de bioinformática

permitem caracterizar o conteúdo repetitivo de um genoma sem a

necessidade de sequenciá-lo completamente.

Dessa forma, utilizando um pipeline de análise de sequencias

6

repetitivas aplicamos várias ferramentas bem estabelecidas na

literatura (Figura 1). Esta abordagem tem início com a utilização de

sequências provenientes de sequenciamento de alto desempenho (do

Inglês High Throughput Sequencing, HTS ou Next Generation Sequencing,

NGS) para obter sequências genômicas com baixa cobertura. Assim,

com rapidez e eficácia, é possível a caracterização de TEs e a

reconstrução da história evolutiva destes elementos bem como a

caracterização global do conteúdo repetitivo dos genomas.

Figura 1: Fluxograma da abordagem proposta utilizada para

caracterização genômica e análise da história evolutiva de Elementos

Transponíveis.

PANORAMA DOS SOFTWARES UTILIZADOS PARA

CARACTERIZAÇÃO DE TES

Os primeiros trabalhos de caracterização de TEs eram restritos

à estudos de táxons específicos utilizando técnicas de biologia

molecular acopladas à análise de dados em pequena escala visando

identificar TEs e sua diversidade. Estas análises, além de serem

laboriosas, demandavam altos custos com reagentes e equipamentos.

Com o aperfeiçoamento das técnicas de sequenciamento e o

desenvolvimento da tecnologia computacional a caracterização de TEs

em larga escala se tornou possível, culminando, na última década, com

o desenvolvimento de diversos softwares e plataformas. Estas técnicas

7

são baseadas em duas principais abordagens:

Método por homologia: esta abordagem é baseada na busca

por homologia entre genoma montado (a ser estudado) e uma

biblioteca ou banco de dados de TEs já descritos, dessa forma,

sendo necessárias etapas de montagem do genoma antes do

processo de caracterização. Dentre as ferramentas para busca

por homologia, a mais utilizada é o software RepeatMasker [19]

devido a sua rapidez, facilidade de uso e eficiência, realizando

buscas de repetições dentro das sequências estudadas através

de uma biblioteca utilizada como banco de dados. [20]. Em

conjunto com este software tem sido utilizada a ferramenta

CENSOR [21] que conjugado ao banco de dados RepBase,

otimiza o desempenho do RepeatMasker.

É importante ressaltar que, entretanto, a utilização de abordagens

de busca por homologia, permitem apenas à identificação de

elementos que possuam alguma similaridade com TEs já descritos,

não permitindo a identificação de elementos completamente novos.

Método Ab initio: Ferramentas Ab initio empregam uma

variedade de algoritmos [22] para identificação e classificação

de repetições sem a necessidade de utilizar sequências já

conhecidas [23]. Esta permite a identificação de novos

elementos baseado em características específicas dos TEs

como domínios, estruturas ou repetitividade utilizando tanto

reads (sequências não montadas) quanto de contigs e scaffolds

(sequências montadas), dependendo da ferramenta utilizada.

Diversas ferramentas podem ser classificadas como métodos

Ab initio. Dentre as que utilizam estruturas flanqueadoras podemos

citar os softwares SINEDR, capaz de encontrar elementos SINEs através

da busca das regiões TDS que flanqueiam TEs da superfamília SINE

[24] e, o LTR_FINDER, que emprega uma metodologia similar à do

SINEDR, porém buscando regiões LTR que flanqueiam algumas

8

superfamílias de retrotransposons [25]. Dentre as ferramentas que

utilizam a natureza repetitiva dos elementos para sua identificação e

classificação podemos citar o software PILER, que necessita de

sequências já montadas para análise [26] e o RECON, desenvolvido

para trabalhos com sequências não montadas [27], ambos realizam

comparações entre todas as leituras provenientes do sequenciamento.

O software RECON foi um dos pioneiros em abordagens que fazem

uso de clusterização de sequências similares representando diferentes

famílias de elementos repetitivos.

Outro algoritmo utilizado para identificação de TEs a partir

de leituras não montadas é o ReAS[28]. Entretanto essa ferramenta se

limita a gerar uma biblioteca de sequências de TEs não realizando

subsequente classificação dos potenciais elementos. Em um estudo

comparativo de performance das ferramentas Ab initio disponíveis foi

possível observar que o ReAS foi o software mais eficaz para

identificação de potenciais TEs [23].

Este conjunto de ferramentas abriram caminho para o

desenvolvimento de ferramentas mais avançadas como o

RepeatExplorer.

O RepeatExplorer é um webserver hospedado na plataforma

Galaxy utilizado para a caracterização de elementos repetitivos, sendo

a primeira ferramenta com capacidade de análise de grandes

conjuntos de reads brutos, como, por exemplo, dados obtidos por

sequenciamento Illumina e outras plataformas de sequenciamento de

alto desempenho. Essa ferramenta traz como novidade a

caracterização dos TEs associada com análises posteriores para

avaliação dos elementos mais proximamente relacionados. Esse

pipeline usa ambas as abordagens, ab initio e homologia, em dois

diferentes estágios: I) A identificação das potenciais sequências

repetitivas por uma metodologia ab initio baseada na repetitividade

dos reads; II) A caracterização dos TEs por homologia, utilizando a

ferramenta RepeatMasker, em conjunto com o banco de dados

RepBase.

O RepeatExplorer realiza uma análise comparativa entre

todos os reads das leituras brutas e gera agrupamentos (clusterização)

9

das leituras mais similares. Devido a alguns parâmetros do pipeline

sobre limiar de identidade entre as leituras de um cluster e o número

mínimo de reads necessários para formar um cluster essa abordagem

reconstitui, preferencialmente, TEs com um número de cópias médio

a alto. Além disso, TEs que recentemente se replicaram no genoma são

preferencialmente reconstruídos porque apresentam uma maior

proporção de reads altamente similares. Já elementos mais antigos

terão reads mais divergentes, podendo não passar nos filtros de

similaridade mínima necessária entre os reads para o RepeatExplorer

realizar a montagem e identificação desses TEs.

Dessa forma, é importante ressaltar que o RepeatExplorer

apresenta um viés para montagem de TEs com maior número de

cópias e, também, com cópias mais similares entre si (elementos mais

recentes no genoma).

Atualmente existem outros softwares que permitem identificar

TEs a partir de reads brutos como Tedna [29] e o dnaPipeTE [30]. A

principal diferença em termos de aplicação e uso, ao menos neste

momento, é a disponibilidade de um servidor, online, para o

RepeatExplorer onde o pesquisador pode fazer suas análises. Já nos

outros dois softwares é necessária a compilação de diferentes pacotes.

CARACTERIZANDO ELEMENTOS TRANSPONÍVEIS

OBTENÇÃO DAS SEQUÊNCIAS

O primeiro requisito para dar início ao processo de

caracterização é ter à disposição os reads provenientes de

sequenciamento, essa abordagem não tem restrição quanto ao

tamanho dos reads. Assim não se faz necessário a utilização de uma

plataforma específica para sequenciamento, ficando a critério do

grupo de pesquisa decidir qual plataforma utilizar. Tendo as

sequências prontas, estas serão processadas e analisadas pela

ferramenta RepeatExplorer.

10

CARACTERIZANDO ELEMENTOS

A primeira etapa deste processo é fazer o upload do arquivo do

sequenciamento bruto (não montado) no webserver RepeatExplorer da

plataforma Galaxy (http://repeatexplorer.org/), e nele é possível

realizar o pré-processamento das sequências, utilizando ferramentas

compartilhadas com a plataforma Galaxy. Após o pré-processamento

pode-se iniciar o processo de clusterização que é baseado numa

abordagem de comparação por Blast de todos os reads contra todos,

seguida por uma clusterização, baseada em gráfico, para identificar

grupos de reads derivados de elementos repetitivos. Posteriormente

estes grupos são caracterizados de acordo com sua proporção no

genoma e a similaridade com elementos repetitivos e domínios de

proteínas. Concluída esta etapa, pode ser realizado um processo de

reclusterização, visando diminuir a possibilidade de existência de

grupos altamente similares não agrupados. Todas as opções de

análises pré e pós clusterização estão exemplificados na Figura 2, e a

descrição das ferramentas e parâmetros encontra-se no manual do

RepeatExplorer disponível em <http://www.repeatexplorer.org/static

/html/help/manual.pdf>.

Finalizadas as análises, os resultados são disponibilizados no

próprio webserver em diferentes formatos, sendo um dos mais

importantes para a caracterização dos TEs, a sumarização, conforme

mostrado na Figura 3. Nela são mostrados apenas os top clusters

(clusters mais representativos do genoma, baseados num limiar de

tamanho de cluster, realizada durante o processo de clusterização),

demonstrando assim os grupos de elementos altamente repetitivos do

genoma estudado. Além destes dados, são disponibilizadas outras

informações, como a similaridade do cluster com elementos

específicos, proporção do cluster no genoma, número total de reads que

formam o cluster e o número total de pares de bases do cluster. A partir

destas informações podem ser definidos quais elementos compõem

determinado genoma e a proporção de cada um deles. Estes resultados

podem ser extraídos e plotados diretamente em gráficos para melhor

visualização dos resultados, como mostrado na Figura 4.

http://repeatexplorer.org/

11

Figura 2: Metodologias relacionadas ao webserver RepeatExplorer. P.,

Neumann et al. (2013) - RepeatExplorer: a Galaxy-based web server

for genome-wide characterization of eukaryotic repetitive elements

from next generation sequence reads. Bioinformatics.

12

Figura 3: Resultados demonstrados no webserver RepeatExplorer,

após a utilização das ferramentas de clusterização e reclusterização,

informações detalhadas da sequência e elementos correspondentes

são disponíveis na própria ferramenta. 1) Upload do arquivo em

formato FastQ; 2) Dados de qualidade do arquivo utilizado na

ferramenta FASTQ Groomer; 3) Conversão de formato Fastq para

Fasta; 4) Resultados da primeira clusterização; 5) Arquivo montado

com padrão de clusterização após primeira análise; 6) Resultados da

segunda clusterização; 7) Exemplo de resultados, demonstrando

similaridade de Elementos Transponíveis da superfamília Sola com

um cluster analisado; 8) Download dos resultados através de

transferência via Servidor FTP.

Detalhes de como realizar este download são informados na

página 3 e 4 do manual do RepeatExplorer disponível em

<http://www.repeatexplorer.org/static/html/help/manual.pdf>.

13

Figura 4: Exemplo de quantificação de elementos transponíveis no

genoma de determinado organismo. Na vertical a proporção dos TEs

dentro de determinado genoma, na horizontal as diferentes

superfamílias de TEs que podem ser identificadas.

RECONSTRUÇÃO DA HISTÓRIA EVOLUTIVA DE

ELEMENTOS TRANSPONÍVEIS

MONTAGEM DOS CONTIGS

A ferramenta CAP3 [31], criada em 1999 por Huang e Madan,

é amplamente utilizada para a montagem dos contigs a partir dos reads

longos gerados pelo sequenciamento de Sanger. Ela é baseada num

algoritmo que detecta regiões sobrepostas e, assim, monta sequências

contíguas. Com subsequentes atualizações, o algoritmo foi

aprimorado para detectar falsas sobreposições e removê-las,

resultando numa maior acurácia da ferramenta. Esta ferramenta pode

ser executada por linha de comando como mostrado na Figura 5. Para

14

realizar a montagem deve ser utilizado o arquivo

contigs.CLnumber.minRD5 proveniente dos arquivos dos clusters

baixados.

Figura 5: Parâmetros utilizados para montagem de contigs utilizados

na ferramenta CAP3 via terminal Linux

Neste caso utilizou-se os valores de parâmetros demonstrados

na Figura 5 (-a 20 -b 20 -c 12 -d 200 -e 30 -f 20 -g 6 -m 2 -n 5 -p 80 -r 1 -

s 900 -t 300 -u 3 -v 2 -o 40), ressaltando que este comando deve ser

executado dentro do diretório onde estão depositadas as sequências.

A lista dos parâmetros é disponibilizada em

<http://computing.bio.cam.ac.uk/local/doc/cap3.txt>, podendo estes

serem alterados de acordo com a necessidade da análise. O resultado

da montagem disponibilizará um conjunto de arquivos, como

mostrado na Figura 6, sendo os arquivos com extensão .singlets e

.contigs os utilizados na busca por sequências homólogas. Estes

arquivos são unidos manualmente ou por linha de comando, e pode

ser realizada uma etapa de filtragem de tamanho das sequências,

como mostrado na Figura 7, caso sejam analisados elementos grandes,

como por exemplo Polinton ou Gypsy. As sequências nucleotídicas

pequenas provavelmente não apresentarão quadros de leitura aberta

consideradas completas ou quase completas necessárias para análises

evolutivas mais precisas. Estes arquivos devem ser armazenados em

espaço físico ou virtual visando a segurança dos dados e a dinâmica

do estudo.

Terminadas as etapas de montagem e filtragem de sequências

temos disponíveis sequências que serão trabalhadas primeiramente

em 2 abordagens: 1) a busca por quadros de leitura aberta (ORFs do

Inglês – Open reading frame) utilizando a ferramenta ORF Finder e

subsequente busca por domínios proteicos conservados de TEs no

http://computing.bio.cam.ac.uk/local/doc/cap3.txt

15

banco de dados CDD através da ferramenta CD-Search [32,33]; 2) a

busca por elementos homólogos e sequências proteicas homólogas.

Figura 6: Arquivos gerados pela ferramenta CAP3 após montagem

dos reads.

Figura 7: Ferramenta Fasta manipulation disponibilizada na plataforma

Galaxy (https://usegalaxy.org/). 1) Ferramenta que permite a

manipulação de arquivos em formato .fasta; 2) Ferramenta de filtro de

sequências por tamanho; 3) Campo para seleção de tamanho mínimo

de sequência (valor representando número de nucleotídeos).

ANÁLISE DAS FASES DE LEITURA ABERTA

Nesta etapa é utilizada a ferramenta ORF Finder, como

mostrado na Figura 8, disponibilizada na plataforma NCBI

<https://www.ncbi.nlm.nih.gov/orffinder/> para obtenção de

https://usegalaxy.org/

https://www.ncbi.nlm.nih.gov/orffinder/

16

sequências proteicas a serem utilizadas na filogenia.

Nesta ferramenta será realizada uma análise de BlastP que

está integrada à ferramenta, confrontando uma sequência de

aminoácidos “traduzida” da sequência nucleotídica do contig contra

um banco de dados de proteína. Como o alvo do estudo são Elementos

Transponíveis, deve ser realizada uma prévia análise da literatura

buscando identificar as proteínas que compõem a estrutura de

elementos da superfamília a ser analisada. Desse modo conseguimos

identificar domínios específicos nas sequências através dos resultados

do CDD demonstrados pelo BlastP e a posterior recuperação dessa

sequência a partir do ORF Finder.

BUSCA DE ELEMENTOS E SEQUÊNCIAS HOMÓLOGAS

Nesta etapa deve-se utilizar os contigs em uma análise manual

que busca identificar elementos homólogos à sequência alvo através

da ferramenta CENSOR que realiza uma “consulta” contra um banco

de dados interno de elementos transponíveis da plataforma RepBase.

Essa análise retornará um elemento ou mais, como mostrado na Figura

9. No caso de mais de um elemento deve ser observado o score, que é

calculado durante o alinhamento das sequências do banco de dados

com a sequência depositada na ferramenta, quanto maior o score maior

à similaridade do elemento que está sendo estudado com a sequência

presente no RepBase.

Sendo definido qual elemento possui maior similaridade com

a sequência, basta acessar a aba RepBase para download da sequência

nucleotídica e utilizar esta sequência no ORF Finder.

Além da busca por homólogos do RepBase deve ser realizada uma

busca por proteínas homólogas depositadas no banco de dados NCBI.

Dessa forma, deve ser utilizada uma sequência proteica

correspondendo à determinado TE, obtida anteriormente através da

ferramenta ORF Finder, em uma consulta por BlastP, resultando em

uma lista de sequências homólogas com diferente similaridade à

sequência alvo.

17

Figura 8: Passo a passo para obtenção de sequências de aminoácidos

de proteínas estruturais de Elementos Transponíveis utilizando a

ferramenta ORF Finder. 1) Inserção da sequência nucleotídica a ser

analisada; 2) Interface gráfica demonstrando a distribuição de ORFs

dentro da sequência alvo; 3) Opções de Blast para analisar domínios

proteicos dentro da ORF selecionada; 4) Sequência de aminoácidos

correspondente à ORF selecionada.

18

Sendo assim, é possível realizar a recuperação de sequências

de diferentes espécies em um banco de dados mais generalista, ficando

a critério do grupo de pesquisa definir a diversidade de espécies e

sequências a ser utilizada no estudo.

Figura 9: Análise de busca por homologia na ferramenta CENSOR

utilizando contig de Helitron, marcação em vermelho indica elemento

com maior score de alinhamento.

PREPARAÇÃO DO ARQUIVO PARA ALINHAMENTO

Concluídas as duas etapas anteriores têm-se um arquivo com

as proteínas dos elementos do organismo alvo e as proteínas de

elementos similares de um banco de dados específico para TEs

(RepBase) e de um banco de dados mais amplo (NCBI). Para

complementar o arquivo de sequências deve ser feita uma análise de

elementos descritos na literatura e a posterior inclusão dessas

sequências no arquivo.

19

ALINHAMENTO E EDIÇÃO NO MAFFT E ALIVIEW

Dentre os vários programas existentes para alinhamento, o

MAFFT [34] vem apresentando alta eficiência, rapidez e acurácia nos

processos de alinhamento de sequências múltiplas. Torna-se assim

uma ferramenta interessante em trabalhos que necessitam alinhar

muitas sequências em um curto período de tempo. Esta ferramenta

pode ser utilizada de duas formas, através de uma plataforma online

<http://mafft.cbrc.jp/alignment/software/> ou diretamente por linha

de comando seguindo os parâmetros disponíveis no manual do

usuário em <http://mafft.cbrc.jp/alignment/software/manual/manual.

html>.

Durante a reconstrução da história evolutiva são utilizadas

sequências de proteínas a priori de tamanhos similares, desta forma o

parâmetro G-INS-1 em métodos progressivos deve ser marcado, como

mostrado na Figura 10. Selecionado este parâmetro fica liberada a

opção de flexibilizar ou restringir a formação de gaps, ficando a critério

do pesquisador qual valor utilizar, entre 0 e 0.8. Terminando o

processo de alinhamento as sequências alinhadas ficam disponíveis

em formato fasta.

O alinhamento gerado pelo software possui dois tipos de

regiões, os blocos conservados de aminoácidos e as regiões pouco

conservadas, contendo vários gaps. Para construção de árvores

filogenéticas o foco é utilizar apenas as regiões de blocos conservados,

sendo então necessário a edição do alinhamento para remoção dos

gaps, nesta etapa da análise é utilizada a ferramenta Aliview (Figura

11), que permite, com rapidez e facilidade, a visualização e edição

manual de alinhamentos de grandes conjuntos de dados. Uma

alternativa mais automatizada é o uso do Gblocks (35), porém, em

alguns casos, essa análise é muito estringente, removendo quase todos

os sítios do alinhamento, devido à grande quantidade de regiões com

baixa conservação e presença de gaps em alinhamentos de proteínas

de TEs com homólogos distantes.

http://mafft.cbrc.jp/alignment/software/

20

Figura 10: Interface gráfica da ferramenta via web MAFFT versão 7. 1)

Ferramenta de Alinhamento; 2) Parâmetro marcado quando utilizado

proteínas de tamanhos similares; 3) Flexibilização na formação de

gaps; 4) Opção de acesso aos resultados em formato fasta; 5)

Resultados demonstrados em formato fasta.

21

Figura 11: Visualização de alinhamento utilizando o Software Aliview.

Blocos coloridos representam diferentes aminoácidos, sinais hífen (-)

representam regiões de gap.

SELEÇÃO DO MODELO DE SUBSTITUIÇÃO DE

AMINOÁCIDOS

CONSTRUÇÃO DA ÁRVORE FILOGENÉTICA

Para esta etapa existem inúmeras ferramentas de construção

de árvore filogenética disponíveis. O PhyML [37], que possui uma

versão implementada no software SeaView, permite a construção, com

rapidez e precisão, de árvores por de Máxima Verossimilhança. Além

disso, esse software de reconstrução da história evolutiva permite usar

uma abordagem alternativa ao bootstrap (demanda muito poder

Nesta etapa é utilizado o software ProtTest3.4 [36] que utiliza

um algoritmo que busca identificar qual o melhor modelo de

substituição, entre 120 possíveis modelos de aminoácidos, através da

análise do alinhamento das sequências proteicas. Parâmetros e

informações sobre o software estão no manual disponível em:

<http://computing.bio.cam.ac.uk/local/doc/prottest .pdf>.

22

computacional) para estimar o suporte de ramo. Esta abordagem é

baseada no teste de aproximação da taxa de verossimilhança (aLRT).

Parâmetros e informações sobre a ferramenta estão disponíveis no

manual através do link: <https://bioweb.pasteur.fr/docs/modules

/phyml/3.0.1/phyml_manual2008.pdf>.

EDIÇÃO DA ÁRVORE FILOGENÉTICA

Após a construção da árvore filogenética pode ser realizada a

edição gráfica da mesma, visando fornecer, na própria árvore,

algumas informações sobre o estudo como, por exemplo, valores de

suporte de ramo e salientar clados específicos. Para isto, pode ser

utilizado o software FigTree, compatível com diversas plataformas,

disponível em: <http://tree.bio.ed.ac.uk/software/figtree/>.

NOTA DOS AUTORES

Vários trabalhos foram e vem sendo realizados com a

ferramenta RepeatExplorer desde sua criação; dentre estes trabalhos

se encontram estudos de análise e caracterização de Elementos

Transponíveis [38-43] e estudos sequências altamente repetitivas em

regiões cromossômicas [44-47], os quais são de grande importância

para entender processos evolutivos dos TEs atuantes nos genomas de

diferentes organismos.

Durante nosso período de Iniciação Científica fomos

apresentados à linha de pesquisa de caracterização e análise evolutiva

de TEs, encontramos algumas dificuldades no início das análises e em

conjunto com o Dr. Gabriel da Luz Wallau desenvolvemos este manual

para facilitar o estudo de TEs para grupos de pesquisa que já

trabalham ou irão iniciar trabalhos nesta área.

Assim, apresentamos aqui uma abordagem atual, reunindo

diversas ferramentas reconhecidamente eficientes e de fácil utilização,

para a caracterização e o estudo evolutivo de TEs. Com este manual

esperamos facilitar e impulsionar pesquisas que visem entender o

processo co-evolutivo entre TEs e o genoma hospedeiro em espécies

ainda pouco estudadas.

23

REFERÊNCIAS

[1] McClintock, B. Controlling elements and the gene. Cold Spring

Harbor Symposia Quantitative Biology, 21, 197-216, 1956.

[2] McClintock, B. The association of mutants with homozygous

deficiencies in Zea mays. Genetics, 26, 542-571, 1941.

[3] McClintock, B. The stability of broken ends of chromosomes in Zea

mays. Genetics, 26, 234-282, 1941.

[4] McClintock, B. The fusion of broken ends of chromosomes

following nuclear fusion. Proceedings of the National Academy of

Sciences of the United States of America, 28, 458-463, 1942.

[5] McClintock, B. Mutable loci in maize. Year B Carnegie Inst Wash,

47, 155-169, 1948.

[6] Dotto, B. R; Carvalho, E.L; Silva, A.F; Silva, L.F.D; Pinto, P.M; Ortiz,

M.F; Walau, G.L. HTT-DB: Horizontally transferred transposable

elements database. Bioinformatics, 31, 2915-2917, 2015.

[7] Mikkelsen, T.S; Hillier, L.W; Eichler, E.E; Zody, M.C; Jaffe, D.B;

Yang, S. et al. Initial sequence of the chimpanzee genome and

comparison with the human genome. Nature, 437, 69-87, 2005.

[8] Lander, E.S; Linton, L.M; Birren, B; Nusbaum, C; Zody, M.C;

Baldwin, J. et al. Initial sequencing and analysis of the human genome.

Nature, 409, 860-921, 2001.

[9] Rhesus Macaque Genome Sequencing and Analysis Consortium.

Evolutionary and biomedical insights from the rhesus macaque

genome. Science, 316, 222-234, 2007.

[10] Schnable, P.S; Ware, D; Fulton, R.S; Stein, J.C; Wei, F; Pasternak,

S. et al. The B73 maize genome: complexity, diversity, and dynamics.

Science, 326, 1112-1115, 2009.

24

[11] Kapitonov, V; Jurka, J. RAG1 core and V(D)J recombination signal

sequences were derived from Transib transposons. PLoS Biology, 3,

998 – 1011, 2005.

[12] Langdon, T; Seago, C; Mende, M; Leggett, M; Thomas, H; Forster,

J.W; Jones, R.N; Jenkins, G. Retrotransposon evolution in diverse plant

genomes. Genetics, 156, 313 – 325, 2000.

[13] Meng, Q; Chen, K; Ma L; Hu, S; Yu, J. A systematic identification

of Kolobok superfamily tranposons in Trichomonas vaginalis and

sequence analysis on related tranposases. Journal of Genetics and

Genomics, 38, 63-70, 2011.

[14] Finnegan, D.J. Eucariotic transposable elements and genome

evolution. Trends in Genetics, 5, 103-107, 1989.

[15] Wicker, T; Sabot, F; Hua-Van, A; Bennetzen, J.L; Capy, P;

Chalhoub, B. et al. A unified classification system for eukaryotic

transposable elements. Nature Reviews Genetics, 8, 973-982, 2007.

[16] Kaptitonov, V. V; Jurka, J. A universal classification of eukaryotic

transposable elements implemented in Repbase. Nature Reviews

Genetics, 9, 411-412, 2008

[17] Piégu, B; Bire, S; Arensburger, P; Bigot, Y. A survey of

transposable element classification systems – A call for a fundamental

update to meet the challenge of their diversity and complexity.

Molecular Phylogenetics and Evolution, 86, 90–109, 2015.

[18] Jurka, J; Kapitonov, V.V; Pavlicek, A; Klonowski, P; Kohany, O;

Walichiewicz, J. Repbase Update, a database of eukaryotic repetitive

elements. Cytogenetic and Genome Research, 110, 462–467, 2005.

[19] Smit, A.F.A; Hubley, R; Green, P. RepeatMasker Open-3.0.

1996-2010 <http://www.repeatmasker.org>.

[20] Lerat, E. Identifying repeats and transposable elements in

sequenced genomes: how to find your way through the dense forest

of programs. Heredity, 104, 520–533, 2010.

25

[21] Jurka, J; Klonowski, P; Dagman, V; Pelton, P. CENSOR—a

program for identification and elimination of repetitive elements from

DNA sequences. Computers & Chemistry, 20, 119–121, 1996.

[22] Saha, S; Bridges, S; Magbanua, Z.V; Peterson, D.G. Computational

approaches and tools used in identification of dispersed repetitive

DNA sequences. Tropical Plant Biology, 1, 85–96, 2008.

[23] Saha, S; Bridges, S; Magbanua, Z. V; Peterson, D. G. Empirical

comparison of ab initio repeat finding programs. Nucleic Acids

Research, 36, 2284–2294, 2008.

[24] Szak, S.T; Pickeral, O.K. Makalowski, W; Boguski, M.S;

Landsman, D; Boeke, J.D. Molecular archeology of L1 insertions in the

human genome. Genome Biology, 3, research0052.1-research0052.18,

2002.

[25] Xu, Z; Wang, H. LTR_FINDER: an efficient tool for the prediction

of full-length LTR retrotransposons. Nucleic Acids Research, 35,

W265–W268, 2007.

[26] Edgar, R.C; Myers, E.W. PILER: identification and classification of

genomic repeats. Bioinformatics, 21, i152–i158, 2005.

[27] Bao, Z; Eddy, S.R. Automated de novo identification of repeat

sequence families in sequenced genomes. Genome Research, 12, 1269–

1276, 2002.

[28] Li, R; Ye, J; Li, S; Wang, J; Han, Y; Ye, C. et al. ReAS: Recovery of

Ancestral Sequences for Transposable Elements from the

Unassembled Reads of a Whole Genome Shotgun. PLoS

Computational Biology. 1, e43

[29] Zytnicki, M; Akhunov, E; Quesneville, H. Tedna: a transposable

element de novo assembler. Bioinformatics, 30, 2656–2658, 2014.

[30] Goubert, C; Modolo, L; Mavingui, P; Valiente-Moro, C; Vieira, C;

Boulesteix, M. De-novo assembly and annotation of the repeatome of

the Asian tiger mosquito Aedes albopictus with dnaPipeTE and

26

comparative analysis with Aedes aegypti. Genome Biology and

Evolution, 7, 1192–1205.

[31] Huang, X; Madan, A. CAP3: a DNA sequence assembly program.

Genome Research, 9, 868–877, 1999.

[32] Marchler-Bauer, A; Bryant, S.H. CD-Search: protein domain

annotations on the fly. Nucleic Acids Research, 32, W327-W331, 2004.

[33] Marchler-Bauer, A; Derbyshire, M.K; Gonzales, N.R; Lu, S;

Chitsaz, F; Geer, L.Y. et al. CDD: NCBI ’ s conserved domain database.

Nucleic Acids Research, 43, D222-D226, 2014.

[34] Katoh, K; Standley, D.M. MAFFT multiple sequence alignment

software version 7: improvements in performance and usability.

Molecular Biology and Evolution, 30, 772–780, 2013.

[35] Talavera, G; Castresana, J. Improvement of phylogenies after

removing divergent and ambiguously aligned blocks from protein

sequence alignments. Systematic Biology, 56, 564-57, 2007.

[36] Darriba, D; Taboada, G.L; Doallo, R; Posada. D. ProtTest 3: fast

selection of best-fit models of protein evolution. Bioinformatics, 27,

1164-1165, 2011.

[37] Guindon, S; Gascuel, O. A simple, fast and accurate algorithm to

estimate large phylogenies by maximum likelihood. Systematic

Biology, 52, 696-704, 2003.

[38] Novák, P; Neumann, P; Macas, J. Graph-based clustering and

characterization of repetitive sequences in next-generation sequencing

data. BMC Bioinformatics, 11, 378, 2010.

[39] Macas, J; Kejnovsky, E; Neumann, P; Novak, P; Koblizkova, A;

Vyskot, B. Next generation sequencing-based analysis of repetitive

DNA in the model dioecious plant Silene latifolia . PLoS ONE, 6,

e27335, 2011.

[40] Piednoel, M; Aberer, A.J; Schneeweiss, G.M; Macas, J; Novak, P;

Gundlach, H. et al. Next-generation sequencing reveals the impact of

27

repetitive DNA across phylogenetically closely related genomes of

Orobanchaceae . Molecular Biology and Evolution. 29, 3601-3611,

2012.

[41] Klemme, S; Banaei-Moghaddam, A.M; Macas, J; Wicker, T;

Novak, P; Houben, A. High-copy sequences reveal a distinct evolution

of the rye B chromosome. New Phytologist, 199, 550-558, 2013.

[42] Steflova, P; Tokan, V; Vogel, I; Lexa, M; Macas, J; Novak, P. et al.

Contrasting patterns of transposable element and satellite distribution

on sex chromosomes (XY1Y2) in the dioecious plant Rumex acetosa.

Genome Biology and. Evolution. 5, 769-782, 2013.

[43] Torres, G.A; Gong, Z; Iovene, M; Hirsch, C.D; Buell, C.R; Bryan,

G.J. et al. Organization and evolution of subtelomeric satellite repeats

in the potato genome. G3: Genes, Genomes, Genetics, 1, 85-92, 2011.

[44] Neumann, P; Navratilova, A; Schroeder-Reiter, E; Koblizkova, A;

Stein-bauerova, V; Chocholova, E. et al. Stretching the rules:

monocentric chromosomes with multiple centromere domains. PLoS

Genetics, 8, e1002777, 2012.

[45] Gong, Z; Wu, Y; Koblizkova, A; Torres, G.A; Wang, K; Iovene, M.

et al. Repeatless and repeat-based centromeres in potato: implications

for centromere evolution. Plant Cell, 24: 3559-3574, 2012.

[46] Renny-Byfield, S; Kovarik, A; Chester, M; Nichols, R.A; Macas, J;

Novak, P. et al. Independent, rapid and targeted loss of highly

repetitive DNA in natural and synthetic allopolyploids of Nicotiana

tabacum. PLoS ONE , 7, e36963, 2012.

[47] Heckmann, S; Macas, J; Kumke, K; Fuchs, J; Schubert, V; Ma, L. et

al. The holocentric species Luzula elegans shows interplay between

centromere and large-scale genome organization. The Plant Journal,

73, 555-565, 2013.

MANUAL PARA CARACTERIZAÇÃO GENÔMICA E ANÁLISE … · Sua grande prevalência e distribuição sugerem que esses parasitas genômicos podem influenciar diretamente a evolução

Documents

MANUAL PARA CARACTERIZAÇÃO GENÔMICA E ANÁLISE … · Sua grande prevalência e distribuição sugerem que esses parasitas genômicos podem influenciar diretamente a evolução