Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004
Mar 21, 2016
Análise Computacional de Seqüências Nucleotídicas e Protéicas
Bancos de dados biológicosAntonio Basílio de Miranda
23/11/2004
Agenda: I – Introdução II – Bancos de dados de seqüências nucleotídicas III – Bancos de dados de seqüências protéicas IV – Bancos de dados de estruturas V – Bancos de dados de metabolismo VI – Bancos de dados de mutações e polimorfismo VII – Bancos de dados de genomas VIII – Bancos de dados de microarranjos de DNA IX – Bancos de dados de proteomas X – Bancos de dados bibliográficos XI – Principais centros de pesquisa
I - Introdução: Bancos de Dados Biológicos Primários: GenBank, EMBL, DDBJ,
GSDB. Especializados: PIR, Swiss-Prot,
REBASE, PROSITE, PDB, Pfam, BLOCKS, etc.
International Nucleotide Sequence Database União do GenBank, EMBL e DDBJ,
que já trocam informações diariamente.
Busca e Recuperação Por similaridade:
BLAST BioSCAN GenQuest
Por palavras-chave, atributos, etc. SRS (http://srs.ebi.ac.uk) AcNuc
Problemas: Redundância Contaminação Erros nas anotações Distintas formatações Distintos conceitos
Diferentes formatações dificultam a livre troca de dados entre os bancos
II - Bancos de dados de seqüências nucleotídicas São fontes de dados heterogêneas,
i.e., fontes distintas (DNA genômico X cDNA), diferentes qualidades (seqüências finalizadas ou single-pass), diferentes anotações, etc.
Bancos de dados de seqüências nucleotídicas GenBank/EMBL/DDBJ
(http://www.ncbi.nlm.nih.gov) (http://www.ebi.ac.uk/embl/index.html) (http://www.ddbj.nig.ac.jp/)
Ribosomal Database Project (http://rdp8.cme.msu.edu/)
Comparative RNA Web Site (http://www.rna.icmb.utexas.edu/)
GenBank
O crescimento do GenBank
Aproximadamente 28,507,990,166 bases em 22,318,883 de seqüências
(Janeiro 2003)
Subdivisões do GenBank Primatas Roedores Outros mamíferos Outros vertebrados Invertebrados Plantas Bactérias Vírus Fagos Sintéticas Não-anotadas Patentes EST STS GSS HTG HTC
EMBL Nucleotide Sequence Database
Subdivisões do EMBL Invertebrates Other Mammals Mus musculus Organelles Bacteriophage Plants Prokaryotes Rodents Unclassified Viruses Other Vertebrates patents htg htc gss wgs est
ID CTU83196 standard; genomic DNA; PRO; 1763 BP.XXAC U83196;XXDE Chlamydia trachomatis pyruvate kinase (pk) gene, complete cds.XXSQ Sequence 1763 BP; 504 A; 380 C; 360 G; 519 T; 0 other; cactcaacga atcctttctc attttaaatt ctccacaccc attcctatcg aacgcttttt 60 taaagcgtag cattgcggtt gctaaatatt ttgtatagtt gaaggcttct ttcatttcgg 120 atattctaga agatattcta ctcactaata ccggtatccc gatttatgat cgctagaacg 180 aaaattattt gtacgatagg ccctgcaacc aatacccctg agatgctgga aaagcttctc 240 gatgcaggga tgaatgtagc tcgccttaat tttagccacg ggacccatga aagccatggc 300 cggaccatcg ctattcttaa agaactacga gagaagcgcc aagttccttt agctattatg 360 ctagatacaa aaggtcccga aattcgttta ggccaagtag aatctcctat aaaagtacag 420 cctggggatc gtcttactct cgttagcaaa gaaattttag gatccaaaga aagcgcgtta 480 ctctttatcc aagttgtgta ttccccttat gttagagaac gagctcctgt tctcattgat 540 gatgggtata tccaagcagt ggtggtcaat gctcaagagc atatggtgga aatagagttt 600 caaaattcag gagaaataaa atccaacaaa tctcttagca tcaaagatat cgatgttgct 660 cttcctttca tgacagagaa ggatattgca gacttaaaat ttggggtaga acaagaactc 720 gatcttatcg ctgcttcgtt cgtcagatgt aatgaagata ttgacagcat gcgtaaagtt 780 ttggaaagct ttggtcgtcc taatatgccc atcattgcca aaatagaaaa tcatttagga 840 gtacaaaatt tccaagagat cgctagagct gctgatggta tcatgattgc acgcggggat 900 cttggtattg aattgtctat tgttgaagtt cctggactac aaaaatttat ggcccgagca 960 tcgagggaaa cgggtcggtt ttgtatcact gcaacgcaaa tgctcgagtc aatgattcgc 1020 aacccccttc ctacacgagc cgaagtctct gacgttgcca acgccattta cgatggaacc 1080 tctgcagtca tgttgtctgg agaaactgcc tcaggagccc atcctgtaca tgcagtaaaa 1140 acaatgcgtt ccattatcca agagactgag aagactttcg attaccacgc ttttttccag 1200 ctgaacgaca aaaacagcgc tctcaaagtt tctccttatc ttgaagccaa ttgggttttc 1260 tggatccaaa ttgcagaaaa agcatctgcc aaagccatta ttgtgtatac ccagacggga 1320 gggtctccga tgtttttatc caaatatcga ccttatctcc ctattattgc tgttacccct 1380 aaccgcaatg tgtactatcg tttagctgta gaatggggag tatatcctat gctaaccctg 1440 gaatcgaacc gtacagtctg gcgtcaccaa gcttgtgtat atggagtaga aaaaggaatt 1500 ctttctaact atgataaaat tcttgtcttc agccgcggag ctgggatgca agataccaac 1560 aatctcacct tgacaactgt gcatgatgcg ctatccccct ctcttgacga gatagttcca 1620 taatcattga aaccatatag caggtatgtc ttctatcgtt agactttctg gtattactgt 1680 aaggaattta aaaacattac agtagagttt tgtctcgaga gatcgttttg ttcaccgggg 1740 tttctggatc gaagtcttct ctt 1763//
III - Bancos de dados de seqüências protéicas Primários Secundários Especializados Estruturas
Bancos de dados de seqüências protéicas Primários:
Swiss-Prot (http://pir.georgetown.edu/) TrEMBL (http://www.ebi.ac.uk/trembl/) PIR (http://pir.georgetown.edu/)
Swiss-Prot Mantido em conjunto pelo EBI e
SIB Mais de 6000 espécies
representadas Cada seqüência nova é examinada
para assegurar uma boa qualidade nas anotações
TrEMBL “Translation of EMBL Nucleotide
Sequence Database” Os registros são derivados da
tradução conceitual das seqüências codificantes presentes no EMBL, com exceção daquelas já presentes no Swiss-Prot.
SP-TrEMBL, REM-TrEMBL.
PIR – Protein Information Resource Colaboração entre a National
Biomedical Research Foundation (NBRF), Munich Information Center for Protein Sequences (MIPS), e o Japan International Protein Information Database (JIPID).
Possui quatro subdivisões (PIR1, PIR2, PIR3 e PIR4), de acordo como nível de anotação da seqüência.
Bancos de dados de seqüências protéicas Especializados:
GO – Gene Ontology – disponibiliza um vocabulário dinâmico controlado de termos biológicos.
MEROPS – classificação baseada em estrutura das peptidases.
GPCRDb – G-protein coupled receptors YPD – Yeast Protein Database ENZYME – Enzyme Nomenclature Database 2D gel electrophoresis Mass spectrometry
GO – Gene Ontology$Gene_Ontology ; GO:0003673 <cellular_component ; GO:0005575 %cell ; GO:0005623 <axon ; GO:0030424 <axolemma ; GO:0030673 % membrane ; GO:0016020 %giant axon ; GO:0042757 <bud ; GO:0005933 <bud neck ; GO:0005935 % site of polarized growth (sensu Saccharomyces) ; GO:0000134 <contractile ring (sensu Saccharomyces) ; GO:0000142 ; synonym:cytokinetic ring (sensu Saccharomyces) ; synonym:neck ring % contractile ring (sensu Fungi) ; GO:0030480
http://www.ebi.ac.uk/GOA/index.html
MEROPS BD sobre peptidases (AKAS
proteases, proteinases ou enzimas proteolíticas).
Classificação hierárquica, baseada na estrutura da proteína.
GPCRDb BD de seqüências e outros dados
relacionados aos G-protein coupled receptors, família de proteínas envolvida em sistemas de sinalização.
YPD BD das proteínas de
Saccharomyces cereviseae. Mais de 6000 proteínas. Uma extensa revisão da literatura
levou a uma anotação detalhada das proteínas presentes no BD.
ENZYME Extensão anotada da publicação
da “Enzyme´s Comission”. Existem diversos outros BD
relacionados como o BRENDA (propriedades enzimáticas) e o LIGAND (ligantes).
Bancos de dados de seqüências protéicas Secundários:
PROSITE – sítios funcionais PRINTS – famílias Pfam – domínios divergentes BLOCKS – regiões conservadas
PROSITE Extensa documentação sobre
famílias protéicas, definidas por domínios ou motivos protéicos.
Proporciona identificação rápida e confiável (com ferramentas computacionais adequadas) de uma nova seqüência protéica.
PRINTS Identificação por “fingerprinting”. Utiliza regiões conservadas e/ou
motivos, determinados a partir de alinhamentos múltiplos, que definem e caracterizam aquele grupo de seqüências (família).
Possibilita a identificação de “parentes” distantes.
Pfam Utiliza HMM´s (Hidden Markov Models) como
metodologia para a criação de famílias protéicas e assinaturas de domínios.
As informações sobre uma determinada proteína são cuidadosamente checadas contra a literatura disponível a respeito da mesma, na busca de evidências bioquímicas que corroborem dados obtidos a partir de predições computacionais .
BLOCKS Constituído pelas regiões mais
conservadas, determinadas a partir de alinhamentos múltiplos das proteínas documentadas no InterPro.
Sequence Retrieval System – SRS
Perguntas: Quais são as fontes de dados e
onde posso encontrá-las? Quais as diferenças entre elas? Posso usar apenas uma delas em
minhas análises? InterPro: uma integração do PROSITE,
PRINTS, Pfam e PRODOM.
IV - Bancos de dados de Estruturas Protein Data Bank (PDB).
http://www.rcsb.org/pdb/ Nucleic Acid Database (NDB)
http://ndbserver.rutgers.edu/
PDB Protein Data Bank Armazena estruturas tri-
dimensionais de diversas proteínas, e dados relacionados.
A visualização das estruturas pode ser feita de diversas formas.
NDB Nucleic Acid Database Armazena informações sobre a
estrutura tri-dimensional de ácidos nucléicos.
V - Bancos de dados de metabolismo KEGG: Kyoto Encyclopedia of
Genes and Genomes - http://www.genome.ad.jp/kegg/
EcoCyc – Encyclopedia of Escherichia coli K12 genes and metabolism – http://ecocyc.org
VI - Bancos de dados de mutações e polimorfismos Human SNP Database -
http://www.broad.mit.edu/snp/human/index.html
Human Genome Variation Society - http://www.hgvs.org/
Oniline Mendelian Inheritance in Man (OMIM) - http://www.ncbi.nlm.nih.gov/omim/
VII - Bancos de dados de genomas GOLD – Genomes On-Line
Database (http://ergo.integratedgenomics.com/GOLD)
Aproximadamente 940 projetos genoma em andamento ao redor do mundo!
Bancos de dados de genomas Ensembl – proporciona acesso a
vários genomas (www.ebi.ac.uk/ensembl/index.html)
WormBase (www.wormbase.org) FlyBase (flybase.bio.indiana.edu) Saccharomyces Genome Database
(www.yeastgenome.org)
VIII - Bancos de dados de microarranjos de DNA (DNA microarrays)
ArrayExpress AMAD
Microarray
ArrayExpress Repositório público para dados
obtidos a partir de experimentos com microarranjos de DNA
http://www.ebi.ac.uk/arrayexpress/index.html
AMAD Another Microarray Database Flatfile Necessita de PERL Gratuito http://www.microarrays.org/software.html
IX - Bancos de dados de proteomas SWISS-2DPAGE -
http://us.expasy.org/ch2d/ Danish Centre for Human Genome
research - http://proteomics.cancer.dk/ Parasite Proteome -
http://www.ebi.ac.uk/parasites/proteomes.html
Proteoma
X - Bancos de dados bibliográficos MEDLINE – acesso via SRS PUBMED – acesso via Entrez
XI - Principais Centros de Pesquisa NCBI (http://www.ncbi.nlm.nih.gov) TIGR (http://www.tigr.org) EMBL (http://www.embl.de/) EBI (http://www.ebi.ac.uk) Sanger Institute
(http://www.sanger.ac.uk)