Top Banner
Introdução à Bioinformática Marcelo Reis Centro APTA Citros “Sylvio Moreira” 18 de julho de 2007 Duração estimada: ~ 2,5h (manhã) ~ 2,5h (tarde)
33

Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

Jul 06, 2019

Download

Documents

doanngoc
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

I n t rodução à B io in fo rmát i ca

Marcelo Reis

Centro APTA Citros “Sylvio Moreira”

18 de julho de 2007

Duração estimada: ~ 2,5h (manhã)~ 2,5h (tarde)

Page 2: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

Agenda

● Manhã:– Que trem é esse, bioinformática?!– Bioinfo do Citrus EST Project (CitEST);– Linux: o S.O. de bioinfo por excelência;– Instalando e utilizando a distro Ubuntu.

● Tarde:– Bioinfo em análise de sequências;– Identificação de sequências I : BLAST;– Identificação de sequências II : Pfam;– Alinhamento múltiplo (ClustalW).

Page 3: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

B io in fo rmát i ca

Definição:

“Bioinformática é o uso de técnicas de matemática, computação, química e estatística, visando solucionar problemas biológicos, tipicamente de biologia molecular”.

Page 4: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

Exemplos de Ap l i cações

● Extrair a sequência de DNA do arquivo gerado pela máquina sequenciadora (cromatograma);

● Eliminação de de contaminações de sequências (adaptadores, vetores, etc);

● Clusterização, montagem;● Armazenar e organizar as sequências;● Análise de Sequências;● Taxonomia, Predição de estruturas, etc.

Page 5: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

B io in fo rmát i ca no Cent roAPTA C i t ros

● No Centro APTA Citros a bioinformática auxilia em todos os passos anteriormente ilustrados (eliminação de contaminações, montagem, análise de sequências).

● Existe um portal, chamado CitEST (Citrus EST Project), onde boa parte das ferramentas estão disponíveis via web. Além disso, várias outras análises são feitas via terminal.

Page 6: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

Por ta l C i tEST

● Web site do Citrus EST Project (CitEST) e de todos os projetos relacionados (vírus, Phytophthora, bactérias, etc).

● Diversos serviços, destacando-se:– Genômica Comparativa (BLAST);– Sistema de submissão de sequências;– Editores (Gene Projects).

● “CitEST” pode ser uma referência tanto ao portal quanto ao conjunto das bibliotecas de cDNA do projeto.

Page 7: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

Ed i to res : GP e Un igenes

● Editores servem como ferramenta ao pesquisador para:– Anotação e data mining de uma pequena

porção dos transcritos do CitEST (Gene Projects);

– Anotação e data mining de todos os transcritos do CitEST (Editor de Unigenes).

● O editor de Unigenes trabalha com uma montagem global (eliminação de transcritos repetidos).

Page 8: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

Screenshot do Gene P ro jec ts

http://biotecnologia.centrodecitricultura.br

Page 9: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

Dig i ta l Nor thern

● Existem diversos métodos para determinar expressão diferencial de um gene entre diferentes bibliotecas de cDNA:– Microarray -> $$$+;– qPCR -> $$+;– bibliotecas subtrativas -> $+;– digital northern (hibridização in silico) -> $--!!

Page 10: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

Exemplo de Ap l i cação D ig i ta l Nor thern

● Digital Northern compara, aplicando uma estatística, a abundância de transcritos de um dado gene entre 2 ou mais bibliotecas.

Page 11: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

S i s temas de B io in fo

● Todos os sistemas de Bioinformática do CitEST (e do Centro APTA Citros como um todo) utiliza soluções gratuitas (software livre):– Sistema Operacional: Linux;– Banco de Dados Relacional: MySQL;– Linguagem de Programação: Perl, CGI;– Servidora Web: Apache.

● Dessas soluções acima, vamos conhecer um pouco mais do S.O. Linux.

Page 12: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

L inux x M ic ro$o f t

Page 13: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

GNU-L inux

● GNU-Linux é um Sistema Operacional, tal como o Window$ ou o MacOS.

● Ele é muito usado para bioinformática por várias razões, dentre elas:– Por ser software livre, ele é gratuito e pode

ser livremente modificado;– Não tem problemas de vírus, apresenta maior

confiabilidade e robustez;– É mais adequado para disponibilizar

ferramentas web ou executar ferramentas de linha de comando.

Page 14: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

Dis t ros de L inux

● Distro é a abreviação de “distribuidoras”. ● Como o Linux é software livre, ele

funciona análogo à um livro que esteja no domínio público: assim como qualquer editora pode publicar, digamos o Les Misérables, de Victor Hugo, qualquer empresa pode “empacotar” e distribuir o “seu Linux”.

● Exemplos de distros: Red Hat, Debian, Mandriva, Fedora, Ubuntu.

Page 15: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

L inux - Exerc í c io

1. Utilize o CD do Ubuntu fornecido para instalar o sistema em sua máquina; acompanhe o instrutor;

2. Ao terminar a instalação, examine o Sistema Operacional, procurando se familiarizar com o ambiente gráfico;

3. Abra o terminal e acompanhe os comandos explicados pelo instrutor (ls, cd, mkdir, clear, nano, etc).

Page 16: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

Par te I I – Aná l i se de Sequênc ias

Page 17: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

Formato Fas ta

● Após o sequenciamento, os cromatogramas são convertidos em um arquivo texto, num formato chamado “fasta”.

● Pode ser arquivo de nucleotídeos ou de aminoácidos.

● O arquivo pode ter 1 ou mais sequências, sempre iniciada na primeira linha por um cabeçalho começando com o caracter “>”.

Page 18: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

Exemplos de A rqu ivos no Formato Fas ta

● Aminoácidos:>gi|532319|pir|TVFV2E|TVFV2E envelope protein

ELRLRYCAPAGFALLKCNDADYDGFKTNCSNVSVVHCTNLMNTTVTTGLLLNGSYSENRT

QIWQKHRTSNDSALILLNKHYNLTVTCKRPGNKTVLPVTIMAGLVFHSQKYNLRLRQAWC

HFPSNWKGAWKEVKEEIVNLPKERYRGTNDPKRIFFQRQWGDPETANLWFNCHGEFFYCK

● Nucleotídeos:>BTBSCRYR

tgcaccaaacatgtctaaagctggaaccaaaattactttctttgaagacaaaaactttca

aggccgccactatgacagcgattgcgactgtgcagatttccacatgtacctgagccgctg

caactccatcagagtggaaggaggcacctgggctgtgtatgaaaggcccaattttgctgg

gtacatgtacatcctaccccggggcgagtatcctgagtaccagcactggatgggcctcaa

Page 19: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

Genômica Compara t i va

● Os métodos que vamos estudar (BLAST, Clustalw, Pfam) também são chamados de Genômica Comparativa, pois as identificações são feitas através da comparação, da sequência que você tem em mãos, com uma ou mais sequências.

● Exceto pelo alinhamento múltiplo, normalmente a comparação é feita através da comparação com sequências de um banco de dados biológicos.

Page 20: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

BLAST

● BLAST significa “Basic Local Alignment Search Tool”.

● Funciona comparando sequências através de alinhamentos locais; vantagens:– identificação de domínios;– rapidez;

● Diversos “sabores” (blastx, blastn, etc);● Serviço de BLAST local disponível tanto

via web (local ou no NCBI) quanto em versão de linha de comando.

Page 21: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

BLAST loca l x BLAST NCB I

● Rodar o BLAST no NCBI, (ou qualquer outra ferramenta) com sequências recém sequenciadas e novas (cujo paper ainda não foi publicado), é algo NÃO recomendável (confidencialidade).

● Nesse caso, pode-se configurar um BLAST web em alguma máquina do laboratório, ou rodar o BLAST em linha de comando.

● Rodar em linha de comando traz a vantagem de permitir maior controle sobre o processo.

Page 22: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

Bancos do BLAST

● Diversos bancos de dados existentes. Alguns dos principais deles:

– GenBank (o banco do NCBI é maior e mais abrangente, mas menos preciso);

– Swiss-Prot (banco pequeno, mas contendo apenas sequências verificadas experimentalmente – comprovação proteômica).

Page 23: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

Screenshot do BLAST Web

Page 24: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

BLAST - Exerc í c io

1. Instale o BLAST em seu computador, via apt. Para isso, digite:sudo apt­get install blast2

2. Copie do CD (ou do servidor fornecido) o banco de dados Swiss-Prot;

3. Dispare o comando BLAST, da mesma forma demonstrada pelo instrutor;

4. Abra com algum editor de texto o arquivo de saída; vamos analisar o “report”.

Page 25: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

P fam

● Pfam -> Protein families.● Serve para identificação de domínio de

proteínas.● Ao contrário do BLAST, serve para

identificação a partir de uma lista de domínios de diversas famílias de proteínas.

● BLAST serve para identificar através da “anotação” da sequência mais parecida.

Page 26: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

Screenshot do P fam Web

Page 27: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

P fam - Exerc í c io

1. Instale o software HMMER em seu computador, via apt. Para isso, digite:sudo apt­get install hmmer

2. Copie do CD (ou do servidor fornecido) o banco de dados do Pfam (Pfam_fs);

3. Dispare o comando hmmpfam, da mesma forma demonstrada pelo instrutor;

4. Abra com algum editor de texto o report produzido.

Page 28: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

A l inhamento Mú l t ip lo

● Também chamado de alinhamento global, serve para alinhar mais de 2 sequências ao mesmo tempo (BLAST compara apenas 2 de cada vez).

● Serve para diversos tipos de inferências, tais como:– detectar regiões conservadas (paper);– filogenia;– busca de SNPs, etc.

Page 29: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

C lus ta lW

● Ferramentas:– ClustalW e variantes (Clustalx, etc).

Page 30: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

Clus ta lw - Exerc í c io

1. Instale o software clustalw em seu computador, via apt. Para isso, digite:sudo apt­get install clustalw

2. Copie o arquivo multifasta (i.e., arquivo fasta com várias sequências), a ser indicado, do GenBank (NCBI):

http://www.ncbi.nlm.nih.gov/Genbank

3. Dispare o comando clustalw;

4. Tal qual em BLAST e Pfam, abrir o report gerado para entender o resultado obtido.

Page 31: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

Resumo da ópera

● Bioinformática é a exatas (computação, matemática, etc) auxiliando a biologia (sendo mais exato, a biologia molecular).

● Linux é um sistema operacional, software livre, e indicado para realizar análises de bioinformática.

● Os métodos de análise de sequências normalmente utilizam uma ferramenta (web ou de terminal) e um banco de dados biológicos.

Page 32: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

Dúv idas?

?

Page 33: Introdução à Bioinformática - IME-USPmsreis/docs/bioinfo_IAC.pdf · Bioinformática Definição: “Bioinformática é o uso de técnicas de matemática, computação, química

Obr igado!

!