Formato de Arquivos e Formato de Arquivos e Banco de Dados Biológicos Banco de Dados Biológicos II II Alynne Oya Chiromatzo [email protected]
Apr 17, 2015
Formato de Arquivos e Formato de Arquivos e Banco de Dados Biológicos IIBanco de Dados Biológicos II
Alynne Oya [email protected]
SumárioSumário
Principais Repositórios
NCBIEntrez
Tipos de Arquivos
Aquisição de dados
EBIEB-eye
Tipos de arquivos
Aquisição de dados
Comparação
Atividades
Principais BancosPrincipais Bancos
NCBI (National Center for Biotechnology Information)
1988 – Criado como fonte nacional (norte americana) de informações sobre biologia molecular
– Bancos de Dados públicos;
– Pesquisas na área da biologia computacional;
– Desenvolvimento de ferramentas para análise de dados genômicos;
– Informações biomédicas.
http://www.ncbi.nlm.nih.gov/
NCBINCBI
Eu já sei o que eu busco?
Ou quero descobrir o que
existe a respeito do que busco?
EntrezEntrez
Sistema de busca robusto que realiza
a procura simultânea em múltiplos bancos.
EntrezEntrez
Colocar a imagem parcial
Mapa do relacionamento entre os diferentes bancos de dados.Mapa
Entrez BuscaEntrez Busca
Entrez BuscaEntrez Busca
Formato GenPeptFormato GenPept
Formato GenPeptFormato GenPept
http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html
Formato GenPeptFormato GenPept
GB: gene bank - accession number
identifica a seqüência
e sua versão
Formato GenPeptFormato GenPept
GI : genInfo Identifier
identificador único
para cada seqüência
Formato GenPeptFormato GenPept
O número do taxon é importante para pesquisas nos BDs.
Formato GenPeptFormato GenPept
Formato GenPeptFormato GenPept
Formato GenPeptFormato GenPept
Formato GenPeptFormato GenPept
Formato GenPeptFormato GenPept
Formato GenPeptFormato GenPept
Formato FastaFormato Fasta
>
identificação
Formato ASNFormato ASN
É um sistema de notação usado para descrever dados que serão trocados em um sistema computacional distribuído. Inclui nucleotídeos e proteínas.
Formato ASNFormato ASN
Formato ASNFormato ASN
Acesso aos DadosAcesso aos Dados
SOAP (Service Oriented Architecture Protocol)
EInfo – Fornece a contagem, a última atualização e os links disponíveis para cada banco de dados para um determinado campo de indexação.
ESearch – Busca e retorna IDs primárias (para uso no EFetch, Elink e Esummary), palavras traduzidas e opcionalmente retém resultados para uso futuro.
EPost – Cria um arquivo contendo uma lista de IDs primários para uso nas estratégias de busca sub-sequentes.
ESummary – Retorna o resumo de documentos a partir de uma lista de ID primários fornecida pelo usuário.
Acesso aos DadosAcesso aos Dados
SOAP
EFetch – Retorna registros de uma lista de IDs primários fornecidos pelo usuário no formato requisitado.
ELink – Verifica a existência de links para artigos externos ou do banco de dados a partir de uma lista de um ou mais IDs primários. Retorna os IDs primários dos artigos e as pontuações de relevância.
EGQuery – Fornece uma contagem do banco de dados Entrez para uma única busca usando a busca global (Global Query).
ESpell – Retorna sugestões de ortografia.
Descrição das funções do E-Utilities:
http://www.ncbi.nlm.nih.gov/entrez/query/static/esoap_toolkit.html
Acesso aos DadosAcesso aos Dados
FTP
GenBank – Coleção de anotações de todas as seqüências de DNA públicas disponíveis.
Gene – Informações sobre genes de organismos completamente seqüenciados.
RefSeq – Conjunto não-redundante de seqüências de DNA, proteínas e transcritos (dogma central).
Demais bancos ...
Cn3D – Programa de visualização de estruturas 3D.
BLAST – Ferramenta de procura de alinhamentos locais em bases de dados.
Demais programas ...
ftp://ftp.ncbi.nih.gov/
Principais BancosPrincipais Bancos
EMBL-EBI (European Molecular Biology Laboratory European Bioinformatics Institute)
Cambridge, Inglaterra
Pioneiro no desenvolvimento de pesquisas em bioinformática
Desenvolve banco de dados biológicos e programas
http://www.ebi.ac.uk/
EMBL-EBIEMBL-EBI
BD de seqüências de nucleotídeos do EMBL
EMBL-EBIEMBL-EBI
- Catálogo mais completo de informações sobre proteínas.
- Repositório central de seqüências e
funções de proteínas criado pela junção das
informações contidas no UniProtKB/Swiss-
Prot, UniProtKB/TrEMBL e PIR.
EMBL-EBIEMBL-EBI
Repositório público para dados de transcriptoma e relacionados, o qual visa
armazenar dados MIAME (Minimum Information About a Microarray Experiment).
Ele armazena padrões de expressão indexados por gene e as suas respectivas
biomedidas.Microarray?
EMBL-EBIEMBL-EBI
Ensembl Genome Browser
Projeto em conjunto com o Instituto Sanger
Matem anotação automática de genomas de
eucariotos.
Ensembl anota genes conhecidos e novos
com a anotação de sua função fornecida por
InterPro, OMIM, SAGE e famílias gênicas.
O acesso aos dados e ao software são livres
e sem restrição.
EMBL-EBIEMBL-EBI
BD de proteínas que abrange famílias, domínios, repetições e regiões com características de proteínas conhecidas que podem ser aplicadas a novas seqüências de proteínas.
EMBL-EBIEMBL-EBI
Macromolecular Structure Database Group
Projeto europeu para a coleta,
gerenciamento e destribuição de dados
sobre estruturas macromoleculares
derivadas em parte do PDB (World Wide
Protein Data Bank).
Bancos de DadosBancos de Dados
Bancos de DadosBancos de Dados
BuscaBusca
BuscaBusca
BuscaBusca
BuscaBusca
Human complete
BuscaBusca
BuscaBusca
Formato EmblFormato Embl
ID - identificação AC – número de acesso DT - data DE – descrição KW - palavra-chave OS – organismo espécie OC – classificação do organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título PE – existência da proteína RL – Revista DR – referência cruzada do BD CC - notas FH – cabeçalho da tabela de atributos FT – tabela de atributos XX – linha em branco SQ – cabeçalho da seqüência // - linha final
Formato EmblFormato Embl
ID - identificação AC – número de acesso DT - data DE – descrição KW - palavra-chave OS – organismo espécie OC – classificação do organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título PE – existência da proteína RL – Revista DR – referência cruzada do BD CC - notas FH – cabeçalho da tabela de atributos FT – tabela de atributos XX – linha em branco SQ – cabeçalho da seqüência // - linha final
Continuação do arquivo
Formato Swiss-ProtFormato Swiss-Prot
ID - identificação AC – número de acesso PR – identificador de projeto DT - data DE – descrição GN – nome genérico KW - palavra-chave OS – organismo espécie OC – classificação do organismo OG – organela OX – referência cruzada organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título RL – Revista DR – referência cruzada do BD FT – tabela de atributos SQ – cabeçalho da seqüência CO – linha de contig/construção // - linha final
Formato Swiss-ProtFormato Swiss-Prot
ID - identificação AC – número de acesso PR – identificador de projeto DT - data DE – descrição GN – nome genérico KW - palavra-chave OS – organismo espécie OC – classificação do organismo OG – organela OX – referência cruzada organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título RL – Revista DR – referência cruzada do BD FT – tabela de atributos SQ – cabeçalho da seqüência CO – linha de contig/construção // - linha final
Formato PIRFormato PIR
> Sinal de maiorDuas letras descrevendo o tipo
Protein (complete) P1Protein (fragment) F1DNA (linear) DLDNA (circular) DCRNA (linear) RLRNA (circular) RCtRNA N3other functional RNA N1
; ponto e vírgula
Código de identificação
Uma linha contendo a descrição
Seqüência contendo 1 ou + linhas
* Sinal de terminação
Acesso aos DadosAcesso aos Dados
SOAP
WSDbfetch – Retorna entradas de vários BDs biológicos atualizados
WSEB-Eye – Acesso ao mecanismo de busca EB-Eye
WSMSD – Acesso aos dados e ferramentas do BD de estruturas macromoleculares
WSChEBI – Retorna entradas do BD ChEBI (Chemical Entities of Biological Interest)
WSIntegr8 – Acesso a um subconjunto de dados disponíveis no portal Integr8 (integrated information about deciphered genomes and their corresponding proteomes )
Mais outros serviços…
http://www.ebi.ac.uk/Tools/webservices/
Acesso aos DadosAcesso aos Dados
FTP
ArrayExpress – Dados de microarray
Embl – BD de nucleotídeos do EMBL
InterPro – Famílias, domínios de proteínas
UniProt – BD universal de proteínas
UniRef – BD referência de grupos de proteínas
Demais bancos…
Programas
http://www.ebi.ac.uk/FTP/
ComparaçãoComparação
NCBI BDs
Nucleotídeos
Busca- Seleciona itens de interesse
- Padrão entre os BDs
- Maior consistência
Acesso aos dados- SOAP:
Específico para acesso de dados
Forte: Pesquisas de publicações
EBI BDs
Proteínas
Busca- Faz sub-buscas
- Padrões diferentes
- Maior quantidade de informações
Acesso aos dados- SOAP
Usado para dados e ferramentas
Forte: Obtenção de seqüências novas
Site com os formatosSite com os formatos
http://www.ebi.ac.uk/help/formats_frame.html
AtividadesAtividades
Busca rápida de dados em formato texto no NCBI usando o clipboard
AtividadesAtividades
AtividadesAtividades
AtividadesAtividades
AtividadesAtividades
AtividadesAtividades
AtividadesAtividades
Transformar o trecho abaixo de genbank para:
Fasta
Embl
Obrigada!Obrigada!