MANUAL PARA CARACTERIZAÇÃO GENÔMICA E ANÁLISE
EVOLUTIVA DE ELEMENTOS TRANSPONÍVEIS UTILIZANDO
DIRETAMENTE READS DE SEQUENCIADORES DE ALTO
DESEMPENHO
Alexandre Freitas da Silva
Filipe Zimmer Dezordi
Gabriel da Luz Wallau
1
AUTORES
Alexandre Freitas da Silva
Bacharel em Biotecnologia pela
Universidade Federal do Pampa, campus São
Gabriel-RS. Possui experiência em Biologia
Molecular e Bioinformática, desenvolvendo
projetos de caracterização genômica de
Elementos Transponíveis em genomas de insetos.
Atualmente é bolsista de cooperação técnica no
Centro de Pesquisas Aggeu Magalhães - FIOCRUZ CPqAM.
Filipe Zimmer Dezordi
Possui graduação em andamento no curso
de Bacharelado em Biotecnologia pela
Universidade Federal do Pampa, campus São
Gabriel-RS. Atualmente é aluno de iniciação
científica pelo Laboratório de Proteômica
Aplicada sob orientação do Dr. Paulo Marcos
Pinto e co-orientação do Dr. Gabriel da Luz
Wallau. Tem experiência nas áres de Bioinformática, Genômica e
Transcriptômica.
Gabriel da Luz Wallau
Pesquisador em Saúde Pública vinculado
ao Departamento de Entomologia do Centro de
Pesquisas Aggeu Magalhães - FIOCRUZ CPqAM.
Tem experiência na área de Biologia Evolutiva e
Genômica, atuando principalmente nos seguintes
temas: biologia de parasitas genéticos (evolução
de elementos de transposição, arbovírus e
bactérias endosimbiontes de artrópodes),
bioinformática e metodologias ômicas (genômica e transcriptômica)
aplicadas a insetos vetores. Membro da International Society for
Computational Biology (www.iscb.org).
2
© 2016, dos autores
Direitos reservados desta edição
Sociedade Brasileira de Genética
Editora SBG
Sociedade Brasileira de Genética
Ribeirão Preto, SP
Capa e Diagramação Gráfica
Filipe Zimmer Dezordi
Silva, Alexandre; Dezordi, Filipe; Wallau, Gabriel
MANUAL PARA CARACTERIZAÇÃO GENÔMICA
E ANÁLISE EVOLUTIVA DE ELEMENTOS
TRANPONÍVEIS UTILIZANDO DIRETAMENTE READS DE
SEQUENCIADORES DE ALTO DESEMPENHO. / Alexandre
Freitas da Silva, Filipe Zimmer Dezordi, Gabriel da Luz
Wallau – Ribeirão Preto: SBG, 2016.
27p.
3
SUMÁRIO
Introdução ------------------------------------------------------------------------- 04
Panorama dos softwares utilizados para caracterização de TEs --------06
Caracterizando Elementos Transponíveis ----------------------------------09
Obtenção das Sequências ---------------------------------------------09
Caracterizando Elementos -------------------------------------------10
Reconstrução da História Evolutiva de Elementos Transponíveis----13
Montando os contigs ---------------------------------------------------13
Analise das fases de leitura aberta ---------------------------------15
Buscando elementos e sequências homólogas-------------------16
Preparando o arquivo para alinhamento -------------------------18
Alinhamento e Edição no MAFFT e AliView --------------------19
Seleção do Modelo de substituição de aminoácidos -----------21
Construção da árvore filogenética ---------------------------------21
Edição da árvore filogenética ----------------------------------------22
Nota dos Autores -----------------------------------------------------------------22
Referências -------------------------------------------------------------------------23
4
INTRODUÇÃO
Elementos Transponíveis (TEs, do Inglês Transposable
Elements) foram descobertos em milho (Zea mays) por
Barbara McClintock na década de 1940, e
inicialmente foram descritos como segmentos
duplicados, modificações cromossômicas,
aberrações cromossômicas, eventos de
transposição, até serem denominados, em 1956,
por elementos de transposição [1-5]. Descrições
mais atualizadas definem Elementos Transponíveis
como genes móveis que possuem a capacidade de se replicarem e se
moverem de uma região cromossômica para outra dentro de um
genoma hospedeiro [6].
Com o desenvolvimento das técnicas de sequenciamento de
ácidos nucléicos e o sequenciamento dos primeiros genomas
procarióticos e eucarióticos foi possível observar que estes elementos
podem constituir grande parte do genoma de alguns organismos,
chegando a 50% do genoma dos primatas [7-9] e 85% do genoma do
milho [10]. Sua grande prevalência e distribuição sugerem que esses
parasitas genômicos podem influenciar diretamente a evolução de
organismos hospedeiros que estes parasitam, atuando, por exemplo,
no desenvolvimento de sistema imunológico [11] e na dinâmica dos
cromossomos [12]. Algumas dessas modificações estão associadas a
eventos de domesticação molecular, onde cópias dos TEs passam a
exercer funções importantes para o genoma do organismo. Entretanto,
devido a seus mecanismos de replicação e transposição, podem
desencadear modificações prejudiciais ao organismo hospedeiro como
mutações, deleções, inserções ou rearranjos cromossômicos.
Múltiplas características são utilizadas para classificar os
Elementos Transponíveis, entre as quais, o tipo de ácido nucleico
utilizado no mecanismo de transposição, a presença de regiões
terminais de sequência invertida (TIRs do Inglês Terminal Inverted
5
Repeats), os sítios alvo de duplicação (TSD do Inglês Target Site
Duplicaiton), as regiões longas de terminação (LTRs do Inglês Long
Terminal Repeats) e também as proteínas que compõem os elementos,
responsáveis pela mobilização destes dentro dos genomas [13].
A primeira classificação dos Elementos Transponíveis foi
proposta por Finnegan em 1989. Este modelo era baseado unicamente
no mecanismo de transposição dos elementos, separando-os em
Classe I, os que utilizavam RNA como intermediário, e Classe II, os
que utilizavam DNA como intermediário [14]. Atualmente não há uma
regra universal de classificação para os TEs, mas, existem duas
principais propostas para uma classificação unificada, a de Wicker et al
[15] e a de Kapitonov e Jurka [16]. Ambas são sistemas hierárquicos que
usam, além de informações sobre o mecanismo de transposição,
características específicas de grupos de elementos formando
diferentes classes de TEs [17]. Apesar dos dois sistemas de
classificação possuírem pontos fortes e fracos, optamos por utilizar a
classificação de Kapitonov e Jurka, pois esta possui um banco de dados
de TEs associados, o RepBase [18], que atualmente é o único banco de
dados validado de elementos de transposição, quando se trata de
espécies eucarióticas. Além disso, é constantemente atualizado, sendo
muito útil para que comparações e inferências possam ser feitas sobre
a história evolutiva dos TEs.
Com a maior disponibilidade de genomas, a caracterização de
TEs aumentou muito nos últimos anos bem como o desenvolvimento
de novas ferramentas para tal propósito. Entretanto, espécies que não
são modelos para estudos científicos ainda possuem escasso
conhecimento sobre essas sequências repetitivas. Associado à ausência
de conhecimento está o alto custo de um projeto genoma que possa
resultar em um genoma de boa qualidade, e assim permitindo a
caracterização das sequências repetitivas. Felizmente novas
metodologias de sequenciamento tornaram financeiramente menos
onerosos estes estudos, e novas abordagens de bioinformática
permitem caracterizar o conteúdo repetitivo de um genoma sem a
necessidade de sequenciá-lo completamente.
Dessa forma, utilizando um pipeline de análise de sequencias
6
repetitivas aplicamos várias ferramentas bem estabelecidas na
literatura (Figura 1). Esta abordagem tem início com a utilização de
sequências provenientes de sequenciamento de alto desempenho (do
Inglês High Throughput Sequencing, HTS ou Next Generation Sequencing,
NGS) para obter sequências genômicas com baixa cobertura. Assim,
com rapidez e eficácia, é possível a caracterização de TEs e a
reconstrução da história evolutiva destes elementos bem como a
caracterização global do conteúdo repetitivo dos genomas.
Figura 1: Fluxograma da abordagem proposta utilizada para
caracterização genômica e análise da história evolutiva de Elementos
Transponíveis.
PANORAMA DOS SOFTWARES UTILIZADOS PARA
CARACTERIZAÇÃO DE TES
Os primeiros trabalhos de caracterização de TEs eram restritos
à estudos de táxons específicos utilizando técnicas de biologia
molecular acopladas à análise de dados em pequena escala visando
identificar TEs e sua diversidade. Estas análises, além de serem
laboriosas, demandavam altos custos com reagentes e equipamentos.
Com o aperfeiçoamento das técnicas de sequenciamento e o
desenvolvimento da tecnologia computacional a caracterização de TEs
em larga escala se tornou possível, culminando, na última década, com
o desenvolvimento de diversos softwares e plataformas. Estas técnicas
7
são baseadas em duas principais abordagens:
Método por homologia: esta abordagem é baseada na busca
por homologia entre genoma montado (a ser estudado) e uma
biblioteca ou banco de dados de TEs já descritos, dessa forma,
sendo necessárias etapas de montagem do genoma antes do
processo de caracterização. Dentre as ferramentas para busca
por homologia, a mais utilizada é o software RepeatMasker [19]
devido a sua rapidez, facilidade de uso e eficiência, realizando
buscas de repetições dentro das sequências estudadas através
de uma biblioteca utilizada como banco de dados. [20]. Em
conjunto com este software tem sido utilizada a ferramenta
CENSOR [21] que conjugado ao banco de dados RepBase,
otimiza o desempenho do RepeatMasker.
É importante ressaltar que, entretanto, a utilização de abordagens
de busca por homologia, permitem apenas à identificação de
elementos que possuam alguma similaridade com TEs já descritos,
não permitindo a identificação de elementos completamente novos.
Método Ab initio: Ferramentas Ab initio empregam uma
variedade de algoritmos [22] para identificação e classificação
de repetições sem a necessidade de utilizar sequências já
conhecidas [23]. Esta permite a identificação de novos
elementos baseado em características específicas dos TEs
como domínios, estruturas ou repetitividade utilizando tanto
reads (sequências não montadas) quanto de contigs e scaffolds
(sequências montadas), dependendo da ferramenta utilizada.
Diversas ferramentas podem ser classificadas como métodos
Ab initio. Dentre as que utilizam estruturas flanqueadoras podemos
citar os softwares SINEDR, capaz de encontrar elementos SINEs através
da busca das regiões TDS que flanqueiam TEs da superfamília SINE
[24] e, o LTR_FINDER, que emprega uma metodologia similar à do
SINEDR, porém buscando regiões LTR que flanqueiam algumas
8
superfamílias de retrotransposons [25]. Dentre as ferramentas que
utilizam a natureza repetitiva dos elementos para sua identificação e
classificação podemos citar o software PILER, que necessita de
sequências já montadas para análise [26] e o RECON, desenvolvido
para trabalhos com sequências não montadas [27], ambos realizam
comparações entre todas as leituras provenientes do sequenciamento.
O software RECON foi um dos pioneiros em abordagens que fazem
uso de clusterização de sequências similares representando diferentes
famílias de elementos repetitivos.
Outro algoritmo utilizado para identificação de TEs a partir
de leituras não montadas é o ReAS[28]. Entretanto essa ferramenta se
limita a gerar uma biblioteca de sequências de TEs não realizando
subsequente classificação dos potenciais elementos. Em um estudo
comparativo de performance das ferramentas Ab initio disponíveis foi
possível observar que o ReAS foi o software mais eficaz para
identificação de potenciais TEs [23].
Este conjunto de ferramentas abriram caminho para o
desenvolvimento de ferramentas mais avançadas como o
RepeatExplorer.
O RepeatExplorer é um webserver hospedado na plataforma
Galaxy utilizado para a caracterização de elementos repetitivos, sendo
a primeira ferramenta com capacidade de análise de grandes
conjuntos de reads brutos, como, por exemplo, dados obtidos por
sequenciamento Illumina e outras plataformas de sequenciamento de
alto desempenho. Essa ferramenta traz como novidade a
caracterização dos TEs associada com análises posteriores para
avaliação dos elementos mais proximamente relacionados. Esse
pipeline usa ambas as abordagens, ab initio e homologia, em dois
diferentes estágios: I) A identificação das potenciais sequências
repetitivas por uma metodologia ab initio baseada na repetitividade
dos reads; II) A caracterização dos TEs por homologia, utilizando a
ferramenta RepeatMasker, em conjunto com o banco de dados
RepBase.
O RepeatExplorer realiza uma análise comparativa entre
todos os reads das leituras brutas e gera agrupamentos (clusterização)
9
das leituras mais similares. Devido a alguns parâmetros do pipeline
sobre limiar de identidade entre as leituras de um cluster e o número
mínimo de reads necessários para formar um cluster essa abordagem
reconstitui, preferencialmente, TEs com um número de cópias médio
a alto. Além disso, TEs que recentemente se replicaram no genoma são
preferencialmente reconstruídos porque apresentam uma maior
proporção de reads altamente similares. Já elementos mais antigos
terão reads mais divergentes, podendo não passar nos filtros de
similaridade mínima necessária entre os reads para o RepeatExplorer
realizar a montagem e identificação desses TEs.
Dessa forma, é importante ressaltar que o RepeatExplorer
apresenta um viés para montagem de TEs com maior número de
cópias e, também, com cópias mais similares entre si (elementos mais
recentes no genoma).
Atualmente existem outros softwares que permitem identificar
TEs a partir de reads brutos como Tedna [29] e o dnaPipeTE [30]. A
principal diferença em termos de aplicação e uso, ao menos neste
momento, é a disponibilidade de um servidor, online, para o
RepeatExplorer onde o pesquisador pode fazer suas análises. Já nos
outros dois softwares é necessária a compilação de diferentes pacotes.
CARACTERIZANDO ELEMENTOS TRANSPONÍVEIS
OBTENÇÃO DAS SEQUÊNCIAS
O primeiro requisito para dar início ao processo de
caracterização é ter à disposição os reads provenientes de
sequenciamento, essa abordagem não tem restrição quanto ao
tamanho dos reads. Assim não se faz necessário a utilização de uma
plataforma específica para sequenciamento, ficando a critério do
grupo de pesquisa decidir qual plataforma utilizar. Tendo as
sequências prontas, estas serão processadas e analisadas pela
ferramenta RepeatExplorer.
10
CARACTERIZANDO ELEMENTOS
A primeira etapa deste processo é fazer o upload do arquivo do
sequenciamento bruto (não montado) no webserver RepeatExplorer da
plataforma Galaxy (http://repeatexplorer.org/), e nele é possível
realizar o pré-processamento das sequências, utilizando ferramentas
compartilhadas com a plataforma Galaxy. Após o pré-processamento
pode-se iniciar o processo de clusterização que é baseado numa
abordagem de comparação por Blast de todos os reads contra todos,
seguida por uma clusterização, baseada em gráfico, para identificar
grupos de reads derivados de elementos repetitivos. Posteriormente
estes grupos são caracterizados de acordo com sua proporção no
genoma e a similaridade com elementos repetitivos e domínios de
proteínas. Concluída esta etapa, pode ser realizado um processo de
reclusterização, visando diminuir a possibilidade de existência de
grupos altamente similares não agrupados. Todas as opções de
análises pré e pós clusterização estão exemplificados na Figura 2, e a
descrição das ferramentas e parâmetros encontra-se no manual do
RepeatExplorer disponível em <http://www.repeatexplorer.org/static
/html/help/manual.pdf>.
Finalizadas as análises, os resultados são disponibilizados no
próprio webserver em diferentes formatos, sendo um dos mais
importantes para a caracterização dos TEs, a sumarização, conforme
mostrado na Figura 3. Nela são mostrados apenas os top clusters
(clusters mais representativos do genoma, baseados num limiar de
tamanho de cluster, realizada durante o processo de clusterização),
demonstrando assim os grupos de elementos altamente repetitivos do
genoma estudado. Além destes dados, são disponibilizadas outras
informações, como a similaridade do cluster com elementos
específicos, proporção do cluster no genoma, número total de reads que
formam o cluster e o número total de pares de bases do cluster. A partir
destas informações podem ser definidos quais elementos compõem
determinado genoma e a proporção de cada um deles. Estes resultados
podem ser extraídos e plotados diretamente em gráficos para melhor
visualização dos resultados, como mostrado na Figura 4.
11
Figura 2: Metodologias relacionadas ao webserver RepeatExplorer. P.,
Neumann et al. (2013) - RepeatExplorer: a Galaxy-based web server
for genome-wide characterization of eukaryotic repetitive elements
from next generation sequence reads. Bioinformatics.
12
Figura 3: Resultados demonstrados no webserver RepeatExplorer,
após a utilização das ferramentas de clusterização e reclusterização,
informações detalhadas da sequência e elementos correspondentes
são disponíveis na própria ferramenta. 1) Upload do arquivo em
formato FastQ; 2) Dados de qualidade do arquivo utilizado na
ferramenta FASTQ Groomer; 3) Conversão de formato Fastq para
Fasta; 4) Resultados da primeira clusterização; 5) Arquivo montado
com padrão de clusterização após primeira análise; 6) Resultados da
segunda clusterização; 7) Exemplo de resultados, demonstrando
similaridade de Elementos Transponíveis da superfamília Sola com
um cluster analisado; 8) Download dos resultados através de
transferência via Servidor FTP.
Detalhes de como realizar este download são informados na
página 3 e 4 do manual do RepeatExplorer disponível em
<http://www.repeatexplorer.org/static/html/help/manual.pdf>.
13
Figura 4: Exemplo de quantificação de elementos transponíveis no
genoma de determinado organismo. Na vertical a proporção dos TEs
dentro de determinado genoma, na horizontal as diferentes
superfamílias de TEs que podem ser identificadas.
RECONSTRUÇÃO DA HISTÓRIA EVOLUTIVA DE
ELEMENTOS TRANSPONÍVEIS
MONTAGEM DOS CONTIGS
A ferramenta CAP3 [31], criada em 1999 por Huang e Madan,
é amplamente utilizada para a montagem dos contigs a partir dos reads
longos gerados pelo sequenciamento de Sanger. Ela é baseada num
algoritmo que detecta regiões sobrepostas e, assim, monta sequências
contíguas. Com subsequentes atualizações, o algoritmo foi
aprimorado para detectar falsas sobreposições e removê-las,
resultando numa maior acurácia da ferramenta. Esta ferramenta pode
ser executada por linha de comando como mostrado na Figura 5. Para
14
realizar a montagem deve ser utilizado o arquivo
contigs.CLnumber.minRD5 proveniente dos arquivos dos clusters
baixados.
Figura 5: Parâmetros utilizados para montagem de contigs utilizados
na ferramenta CAP3 via terminal Linux
Neste caso utilizou-se os valores de parâmetros demonstrados
na Figura 5 (-a 20 -b 20 -c 12 -d 200 -e 30 -f 20 -g 6 -m 2 -n 5 -p 80 -r 1 -
s 900 -t 300 -u 3 -v 2 -o 40), ressaltando que este comando deve ser
executado dentro do diretório onde estão depositadas as sequências.
A lista dos parâmetros é disponibilizada em
<http://computing.bio.cam.ac.uk/local/doc/cap3.txt>, podendo estes
serem alterados de acordo com a necessidade da análise. O resultado
da montagem disponibilizará um conjunto de arquivos, como
mostrado na Figura 6, sendo os arquivos com extensão .singlets e
.contigs os utilizados na busca por sequências homólogas. Estes
arquivos são unidos manualmente ou por linha de comando, e pode
ser realizada uma etapa de filtragem de tamanho das sequências,
como mostrado na Figura 7, caso sejam analisados elementos grandes,
como por exemplo Polinton ou Gypsy. As sequências nucleotídicas
pequenas provavelmente não apresentarão quadros de leitura aberta
consideradas completas ou quase completas necessárias para análises
evolutivas mais precisas. Estes arquivos devem ser armazenados em
espaço físico ou virtual visando a segurança dos dados e a dinâmica
do estudo.
Terminadas as etapas de montagem e filtragem de sequências
temos disponíveis sequências que serão trabalhadas primeiramente
em 2 abordagens: 1) a busca por quadros de leitura aberta (ORFs do
Inglês – Open reading frame) utilizando a ferramenta ORF Finder e
subsequente busca por domínios proteicos conservados de TEs no
15
banco de dados CDD através da ferramenta CD-Search [32,33]; 2) a
busca por elementos homólogos e sequências proteicas homólogas.
Figura 6: Arquivos gerados pela ferramenta CAP3 após montagem
dos reads.
Figura 7: Ferramenta Fasta manipulation disponibilizada na plataforma
Galaxy (https://usegalaxy.org/). 1) Ferramenta que permite a
manipulação de arquivos em formato .fasta; 2) Ferramenta de filtro de
sequências por tamanho; 3) Campo para seleção de tamanho mínimo
de sequência (valor representando número de nucleotídeos).
ANÁLISE DAS FASES DE LEITURA ABERTA
Nesta etapa é utilizada a ferramenta ORF Finder, como
mostrado na Figura 8, disponibilizada na plataforma NCBI
<https://www.ncbi.nlm.nih.gov/orffinder/> para obtenção de
16
sequências proteicas a serem utilizadas na filogenia.
Nesta ferramenta será realizada uma análise de BlastP que
está integrada à ferramenta, confrontando uma sequência de
aminoácidos “traduzida” da sequência nucleotídica do contig contra
um banco de dados de proteína. Como o alvo do estudo são Elementos
Transponíveis, deve ser realizada uma prévia análise da literatura
buscando identificar as proteínas que compõem a estrutura de
elementos da superfamília a ser analisada. Desse modo conseguimos
identificar domínios específicos nas sequências através dos resultados
do CDD demonstrados pelo BlastP e a posterior recuperação dessa
sequência a partir do ORF Finder.
BUSCA DE ELEMENTOS E SEQUÊNCIAS HOMÓLOGAS
Nesta etapa deve-se utilizar os contigs em uma análise manual
que busca identificar elementos homólogos à sequência alvo através
da ferramenta CENSOR que realiza uma “consulta” contra um banco
de dados interno de elementos transponíveis da plataforma RepBase.
Essa análise retornará um elemento ou mais, como mostrado na Figura
9. No caso de mais de um elemento deve ser observado o score, que é
calculado durante o alinhamento das sequências do banco de dados
com a sequência depositada na ferramenta, quanto maior o score maior
à similaridade do elemento que está sendo estudado com a sequência
presente no RepBase.
Sendo definido qual elemento possui maior similaridade com
a sequência, basta acessar a aba RepBase para download da sequência
nucleotídica e utilizar esta sequência no ORF Finder.
Além da busca por homólogos do RepBase deve ser realizada uma
busca por proteínas homólogas depositadas no banco de dados NCBI.
Dessa forma, deve ser utilizada uma sequência proteica
correspondendo à determinado TE, obtida anteriormente através da
ferramenta ORF Finder, em uma consulta por BlastP, resultando em
uma lista de sequências homólogas com diferente similaridade à
sequência alvo.
17
Figura 8: Passo a passo para obtenção de sequências de aminoácidos
de proteínas estruturais de Elementos Transponíveis utilizando a
ferramenta ORF Finder. 1) Inserção da sequência nucleotídica a ser
analisada; 2) Interface gráfica demonstrando a distribuição de ORFs
dentro da sequência alvo; 3) Opções de Blast para analisar domínios
proteicos dentro da ORF selecionada; 4) Sequência de aminoácidos
correspondente à ORF selecionada.
18
Sendo assim, é possível realizar a recuperação de sequências
de diferentes espécies em um banco de dados mais generalista, ficando
a critério do grupo de pesquisa definir a diversidade de espécies e
sequências a ser utilizada no estudo.
Figura 9: Análise de busca por homologia na ferramenta CENSOR
utilizando contig de Helitron, marcação em vermelho indica elemento
com maior score de alinhamento.
PREPARAÇÃO DO ARQUIVO PARA ALINHAMENTO
Concluídas as duas etapas anteriores têm-se um arquivo com
as proteínas dos elementos do organismo alvo e as proteínas de
elementos similares de um banco de dados específico para TEs
(RepBase) e de um banco de dados mais amplo (NCBI). Para
complementar o arquivo de sequências deve ser feita uma análise de
elementos descritos na literatura e a posterior inclusão dessas
sequências no arquivo.
19
ALINHAMENTO E EDIÇÃO NO MAFFT E ALIVIEW
Dentre os vários programas existentes para alinhamento, o
MAFFT [34] vem apresentando alta eficiência, rapidez e acurácia nos
processos de alinhamento de sequências múltiplas. Torna-se assim
uma ferramenta interessante em trabalhos que necessitam alinhar
muitas sequências em um curto período de tempo. Esta ferramenta
pode ser utilizada de duas formas, através de uma plataforma online
<http://mafft.cbrc.jp/alignment/software/> ou diretamente por linha
de comando seguindo os parâmetros disponíveis no manual do
usuário em <http://mafft.cbrc.jp/alignment/software/manual/manual.
html>.
Durante a reconstrução da história evolutiva são utilizadas
sequências de proteínas a priori de tamanhos similares, desta forma o
parâmetro G-INS-1 em métodos progressivos deve ser marcado, como
mostrado na Figura 10. Selecionado este parâmetro fica liberada a
opção de flexibilizar ou restringir a formação de gaps, ficando a critério
do pesquisador qual valor utilizar, entre 0 e 0.8. Terminando o
processo de alinhamento as sequências alinhadas ficam disponíveis
em formato fasta.
O alinhamento gerado pelo software possui dois tipos de
regiões, os blocos conservados de aminoácidos e as regiões pouco
conservadas, contendo vários gaps. Para construção de árvores
filogenéticas o foco é utilizar apenas as regiões de blocos conservados,
sendo então necessário a edição do alinhamento para remoção dos
gaps, nesta etapa da análise é utilizada a ferramenta Aliview (Figura
11), que permite, com rapidez e facilidade, a visualização e edição
manual de alinhamentos de grandes conjuntos de dados. Uma
alternativa mais automatizada é o uso do Gblocks (35), porém, em
alguns casos, essa análise é muito estringente, removendo quase todos
os sítios do alinhamento, devido à grande quantidade de regiões com
baixa conservação e presença de gaps em alinhamentos de proteínas
de TEs com homólogos distantes.
20
Figura 10: Interface gráfica da ferramenta via web MAFFT versão 7. 1)
Ferramenta de Alinhamento; 2) Parâmetro marcado quando utilizado
proteínas de tamanhos similares; 3) Flexibilização na formação de
gaps; 4) Opção de acesso aos resultados em formato fasta; 5)
Resultados demonstrados em formato fasta.
21
Figura 11: Visualização de alinhamento utilizando o Software Aliview.
Blocos coloridos representam diferentes aminoácidos, sinais hífen (-)
representam regiões de gap.
SELEÇÃO DO MODELO DE SUBSTITUIÇÃO DE
AMINOÁCIDOS
CONSTRUÇÃO DA ÁRVORE FILOGENÉTICA
Para esta etapa existem inúmeras ferramentas de construção
de árvore filogenética disponíveis. O PhyML [37], que possui uma
versão implementada no software SeaView, permite a construção, com
rapidez e precisão, de árvores por de Máxima Verossimilhança. Além
disso, esse software de reconstrução da história evolutiva permite usar
uma abordagem alternativa ao bootstrap (demanda muito poder
Nesta etapa é utilizado o software ProtTest3.4 [36] que utiliza
um algoritmo que busca identificar qual o melhor modelo de
substituição, entre 120 possíveis modelos de aminoácidos, através da
análise do alinhamento das sequências proteicas. Parâmetros e
informações sobre o software estão no manual disponível em:
<http://computing.bio.cam.ac.uk/local/doc/prottest .pdf>.
22
computacional) para estimar o suporte de ramo. Esta abordagem é
baseada no teste de aproximação da taxa de verossimilhança (aLRT).
Parâmetros e informações sobre a ferramenta estão disponíveis no
manual através do link: <https://bioweb.pasteur.fr/docs/modules
/phyml/3.0.1/phyml_manual2008.pdf>.
EDIÇÃO DA ÁRVORE FILOGENÉTICA
Após a construção da árvore filogenética pode ser realizada a
edição gráfica da mesma, visando fornecer, na própria árvore,
algumas informações sobre o estudo como, por exemplo, valores de
suporte de ramo e salientar clados específicos. Para isto, pode ser
utilizado o software FigTree, compatível com diversas plataformas,
disponível em: <http://tree.bio.ed.ac.uk/software/figtree/>.
NOTA DOS AUTORES
Vários trabalhos foram e vem sendo realizados com a
ferramenta RepeatExplorer desde sua criação; dentre estes trabalhos
se encontram estudos de análise e caracterização de Elementos
Transponíveis [38-43] e estudos sequências altamente repetitivas em
regiões cromossômicas [44-47], os quais são de grande importância
para entender processos evolutivos dos TEs atuantes nos genomas de
diferentes organismos.
Durante nosso período de Iniciação Científica fomos
apresentados à linha de pesquisa de caracterização e análise evolutiva
de TEs, encontramos algumas dificuldades no início das análises e em
conjunto com o Dr. Gabriel da Luz Wallau desenvolvemos este manual
para facilitar o estudo de TEs para grupos de pesquisa que já
trabalham ou irão iniciar trabalhos nesta área.
Assim, apresentamos aqui uma abordagem atual, reunindo
diversas ferramentas reconhecidamente eficientes e de fácil utilização,
para a caracterização e o estudo evolutivo de TEs. Com este manual
esperamos facilitar e impulsionar pesquisas que visem entender o
processo co-evolutivo entre TEs e o genoma hospedeiro em espécies
ainda pouco estudadas.
23
REFERÊNCIAS
[1] McClintock, B. Controlling elements and the gene. Cold Spring
Harbor Symposia Quantitative Biology, 21, 197-216, 1956.
[2] McClintock, B. The association of mutants with homozygous
deficiencies in Zea mays. Genetics, 26, 542-571, 1941.
[3] McClintock, B. The stability of broken ends of chromosomes in Zea
mays. Genetics, 26, 234-282, 1941.
[4] McClintock, B. The fusion of broken ends of chromosomes
following nuclear fusion. Proceedings of the National Academy of
Sciences of the United States of America, 28, 458-463, 1942.
[5] McClintock, B. Mutable loci in maize. Year B Carnegie Inst Wash,
47, 155-169, 1948.
[6] Dotto, B. R; Carvalho, E.L; Silva, A.F; Silva, L.F.D; Pinto, P.M; Ortiz,
M.F; Walau, G.L. HTT-DB: Horizontally transferred transposable
elements database. Bioinformatics, 31, 2915-2917, 2015.
[7] Mikkelsen, T.S; Hillier, L.W; Eichler, E.E; Zody, M.C; Jaffe, D.B;
Yang, S. et al. Initial sequence of the chimpanzee genome and
comparison with the human genome. Nature, 437, 69-87, 2005.
[8] Lander, E.S; Linton, L.M; Birren, B; Nusbaum, C; Zody, M.C;
Baldwin, J. et al. Initial sequencing and analysis of the human genome.
Nature, 409, 860-921, 2001.
[9] Rhesus Macaque Genome Sequencing and Analysis Consortium.
Evolutionary and biomedical insights from the rhesus macaque
genome. Science, 316, 222-234, 2007.
[10] Schnable, P.S; Ware, D; Fulton, R.S; Stein, J.C; Wei, F; Pasternak,
S. et al. The B73 maize genome: complexity, diversity, and dynamics.
Science, 326, 1112-1115, 2009.
24
[11] Kapitonov, V; Jurka, J. RAG1 core and V(D)J recombination signal
sequences were derived from Transib transposons. PLoS Biology, 3,
998 – 1011, 2005.
[12] Langdon, T; Seago, C; Mende, M; Leggett, M; Thomas, H; Forster,
J.W; Jones, R.N; Jenkins, G. Retrotransposon evolution in diverse plant
genomes. Genetics, 156, 313 – 325, 2000.
[13] Meng, Q; Chen, K; Ma L; Hu, S; Yu, J. A systematic identification
of Kolobok superfamily tranposons in Trichomonas vaginalis and
sequence analysis on related tranposases. Journal of Genetics and
Genomics, 38, 63-70, 2011.
[14] Finnegan, D.J. Eucariotic transposable elements and genome
evolution. Trends in Genetics, 5, 103-107, 1989.
[15] Wicker, T; Sabot, F; Hua-Van, A; Bennetzen, J.L; Capy, P;
Chalhoub, B. et al. A unified classification system for eukaryotic
transposable elements. Nature Reviews Genetics, 8, 973-982, 2007.
[16] Kaptitonov, V. V; Jurka, J. A universal classification of eukaryotic
transposable elements implemented in Repbase. Nature Reviews
Genetics, 9, 411-412, 2008
[17] Piégu, B; Bire, S; Arensburger, P; Bigot, Y. A survey of
transposable element classification systems – A call for a fundamental
update to meet the challenge of their diversity and complexity.
Molecular Phylogenetics and Evolution, 86, 90–109, 2015.
[18] Jurka, J; Kapitonov, V.V; Pavlicek, A; Klonowski, P; Kohany, O;
Walichiewicz, J. Repbase Update, a database of eukaryotic repetitive
elements. Cytogenetic and Genome Research, 110, 462–467, 2005.
[19] Smit, A.F.A; Hubley, R; Green, P. RepeatMasker Open-3.0.
1996-2010 <http://www.repeatmasker.org>.
[20] Lerat, E. Identifying repeats and transposable elements in
sequenced genomes: how to find your way through the dense forest
of programs. Heredity, 104, 520–533, 2010.
25
[21] Jurka, J; Klonowski, P; Dagman, V; Pelton, P. CENSOR—a
program for identification and elimination of repetitive elements from
DNA sequences. Computers & Chemistry, 20, 119–121, 1996.
[22] Saha, S; Bridges, S; Magbanua, Z.V; Peterson, D.G. Computational
approaches and tools used in identification of dispersed repetitive
DNA sequences. Tropical Plant Biology, 1, 85–96, 2008.
[23] Saha, S; Bridges, S; Magbanua, Z. V; Peterson, D. G. Empirical
comparison of ab initio repeat finding programs. Nucleic Acids
Research, 36, 2284–2294, 2008.
[24] Szak, S.T; Pickeral, O.K. Makalowski, W; Boguski, M.S;
Landsman, D; Boeke, J.D. Molecular archeology of L1 insertions in the
human genome. Genome Biology, 3, research0052.1-research0052.18,
2002.
[25] Xu, Z; Wang, H. LTR_FINDER: an efficient tool for the prediction
of full-length LTR retrotransposons. Nucleic Acids Research, 35,
W265–W268, 2007.
[26] Edgar, R.C; Myers, E.W. PILER: identification and classification of
genomic repeats. Bioinformatics, 21, i152–i158, 2005.
[27] Bao, Z; Eddy, S.R. Automated de novo identification of repeat
sequence families in sequenced genomes. Genome Research, 12, 1269–
1276, 2002.
[28] Li, R; Ye, J; Li, S; Wang, J; Han, Y; Ye, C. et al. ReAS: Recovery of
Ancestral Sequences for Transposable Elements from the
Unassembled Reads of a Whole Genome Shotgun. PLoS
Computational Biology. 1, e43
[29] Zytnicki, M; Akhunov, E; Quesneville, H. Tedna: a transposable
element de novo assembler. Bioinformatics, 30, 2656–2658, 2014.
[30] Goubert, C; Modolo, L; Mavingui, P; Valiente-Moro, C; Vieira, C;
Boulesteix, M. De-novo assembly and annotation of the repeatome of
the Asian tiger mosquito Aedes albopictus with dnaPipeTE and
26
comparative analysis with Aedes aegypti. Genome Biology and
Evolution, 7, 1192–1205.
[31] Huang, X; Madan, A. CAP3: a DNA sequence assembly program.
Genome Research, 9, 868–877, 1999.
[32] Marchler-Bauer, A; Bryant, S.H. CD-Search: protein domain
annotations on the fly. Nucleic Acids Research, 32, W327-W331, 2004.
[33] Marchler-Bauer, A; Derbyshire, M.K; Gonzales, N.R; Lu, S;
Chitsaz, F; Geer, L.Y. et al. CDD: NCBI ’ s conserved domain database.
Nucleic Acids Research, 43, D222-D226, 2014.
[34] Katoh, K; Standley, D.M. MAFFT multiple sequence alignment
software version 7: improvements in performance and usability.
Molecular Biology and Evolution, 30, 772–780, 2013.
[35] Talavera, G; Castresana, J. Improvement of phylogenies after
removing divergent and ambiguously aligned blocks from protein
sequence alignments. Systematic Biology, 56, 564-57, 2007.
[36] Darriba, D; Taboada, G.L; Doallo, R; Posada. D. ProtTest 3: fast
selection of best-fit models of protein evolution. Bioinformatics, 27,
1164-1165, 2011.
[37] Guindon, S; Gascuel, O. A simple, fast and accurate algorithm to
estimate large phylogenies by maximum likelihood. Systematic
Biology, 52, 696-704, 2003.
[38] Novák, P; Neumann, P; Macas, J. Graph-based clustering and
characterization of repetitive sequences in next-generation sequencing
data. BMC Bioinformatics, 11, 378, 2010.
[39] Macas, J; Kejnovsky, E; Neumann, P; Novak, P; Koblizkova, A;
Vyskot, B. Next generation sequencing-based analysis of repetitive
DNA in the model dioecious plant Silene latifolia . PLoS ONE, 6,
e27335, 2011.
[40] Piednoel, M; Aberer, A.J; Schneeweiss, G.M; Macas, J; Novak, P;
Gundlach, H. et al. Next-generation sequencing reveals the impact of
27
repetitive DNA across phylogenetically closely related genomes of
Orobanchaceae . Molecular Biology and Evolution. 29, 3601-3611,
2012.
[41] Klemme, S; Banaei-Moghaddam, A.M; Macas, J; Wicker, T;
Novak, P; Houben, A. High-copy sequences reveal a distinct evolution
of the rye B chromosome. New Phytologist, 199, 550-558, 2013.
[42] Steflova, P; Tokan, V; Vogel, I; Lexa, M; Macas, J; Novak, P. et al.
Contrasting patterns of transposable element and satellite distribution
on sex chromosomes (XY1Y2) in the dioecious plant Rumex acetosa.
Genome Biology and. Evolution. 5, 769-782, 2013.
[43] Torres, G.A; Gong, Z; Iovene, M; Hirsch, C.D; Buell, C.R; Bryan,
G.J. et al. Organization and evolution of subtelomeric satellite repeats
in the potato genome. G3: Genes, Genomes, Genetics, 1, 85-92, 2011.
[44] Neumann, P; Navratilova, A; Schroeder-Reiter, E; Koblizkova, A;
Stein-bauerova, V; Chocholova, E. et al. Stretching the rules:
monocentric chromosomes with multiple centromere domains. PLoS
Genetics, 8, e1002777, 2012.
[45] Gong, Z; Wu, Y; Koblizkova, A; Torres, G.A; Wang, K; Iovene, M.
et al. Repeatless and repeat-based centromeres in potato: implications
for centromere evolution. Plant Cell, 24: 3559-3574, 2012.
[46] Renny-Byfield, S; Kovarik, A; Chester, M; Nichols, R.A; Macas, J;
Novak, P. et al. Independent, rapid and targeted loss of highly
repetitive DNA in natural and synthetic allopolyploids of Nicotiana
tabacum. PLoS ONE , 7, e36963, 2012.
[47] Heckmann, S; Macas, J; Kumke, K; Fuchs, J; Schubert, V; Ma, L. et
al. The holocentric species Luzula elegans shows interplay between
centromere and large-scale genome organization. The Plant Journal,
73, 555-565, 2013.