Séminaire Genopole d’Evry du 17 Juin 2005 MicroScope : Bases de données pour la (ré)-annotation de génomes bactériens Dr Claudine Médigue (“Atelier de Génomique Comparative”) Claude Scarpelli Equipe informatique du Genoscope”) Aurélie Lajus Stéphane Cruveiller Zoé Rouy David Vallenet Laurent Sainte-Marthe Sylvain Bonneval
Séminaire Genopole d’Evry du 17 Juin 2005. MicroScope : Bases de données pour la (ré)-annotation de génomes bactériens. Dr Claudine Médigue (“Atelier de Génomique Comparative”). Claude Scarpelli (Equipe informatique du Genoscope”). Aurélie Lajus Stéphane Cruveiller Zoé Rouy - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Séminaire Genopole d’Evry du 17 Juin 2005
MicroScope :Bases de données pour la (ré)-
annotation de génomes bactériens
Dr Claudine Médigue (“Atelier de Génomique Comparative”)
Claude Scarpelli (Equipe informatique du Genoscope”)
LOCUS NC_000961 1738505 bp DNA circular BCT 07-JUN-2005DEFINITION Pyrococcus horikoshii OT3, complete genome.…COMMENT REVIEWED REFSEQ: This record has been curated by NCBI staff. The reference sequence was derived from BA000001.…
Gène supplémentaire entreles CDSs PH0553 et PH0554
Projets de ré-annotation de génomes bactériens à l’EBI
Gènes en moins/en plus
Enrichissement/correction des annotations fonctionnelles originales(Données UniProt, Genome Ontology, InterPro, etc)
Standardisation/homogénéisation des annotations
Elimination des annotations ‘erronées’ (‘curators’ de UniProt/SWISSProt)
Projet Genome Reviews (GR)
Ajout de CDSs correspondants à des entrées UniProt non annotées sur un génome.
ID AE014299_GR standard; circular genomic DNA; GRV; 4969803 BP.XXDT 06-JUN-2005 (Rel. 28, Last updated, Version 33)XXDE Shewanella oneidensis (strain MR-1) chromosome, complete sequence.XXCC This Genome Reviews entry was created from entry AE014299.1 in the CC EMBL/GenBank/DDBJ databases on 06 June 2005.…
CDS complement(3273023..3273601) /locus_tag="SO3140" /note="identified by match to PFAM protein family HMM PF00265" /codon_start=1 /transl_table=11 /protein_id="AAN56142.1" /product="thymidine kinase
ID U00096_GR standard; circular genomic DNA; GRV; 4639675 BP.XXDE Escherichia coli (strain K12) chromosome, complete sequence.CC This Genome Reviews entry was created from entry U00096.2 in the CC EMBL/GenBank/DDBJ databases on 06 June 2005.…FT CDS 1486256..1487695FT /gene="aldA"FT /locus_tag="b1415"FT /product="Aldehyde dehydrogenase A"FT /EC_number="1.2.1.21"FT /EC_number="1.2.1.22"FT /function="glycolaldehyde dehydrogenase activity"FT /function="lactaldehyde dehydrogenase activity"FT /biological_process="metabolism"FT /translation="MSVPVQHPMYIDGQFVTWR… »FT CDS complement(1487737..1488389)FT /pseudo="{EMBL:U00096}"FT CDS join(complement(1487997..1488737),FT complement(1487737..1487994))FT /evidence="{BLASTALL 2.2.6/ALIGN 2.0u}"FT /product="Glyceraldehyde-3-phosphate dehydrogenase CFT {UniProt/Swiss-Prot:P33898}"FT /EC_number="1.2.1.12 {UniProt/Swiss-Prot:P33898}"FT /insertion="1487994^1487995,seq:GFT {UniProt/Swiss-Prot:P33898}"FT /transl_except=(pos:1488621..1488623,aa:Lys)FT {UniProt/Swiss-Prot:P33898}FT /translation="MSKVGINGFGRIGRLVLGRLLEVKSNI…
Ajout de CDSs dans le fichier GR : exemple chez E. coli
UniProtKB/Swiss-Prot entry P33898Entered in Swiss-Prot in Release 28, February 1994
CAUTION : In the K12 strain thisgene is disrupted by a stop codonand a frameshift. It seems to beintact in a number of wild strains.
Situation en France et objectif de MicroScope
=> Proposer une «assistance» aux biologistes pour l’annotation de génomes bactériens (automatique et experte)
Les 3 composantes de MicroScope
Pipeline d’annotation automatique (1)
Bases de données relationnelles (2)
Interface graphique d’annotation MaGe (3)
CAATBox
AGMIAL
iANT(S. meliloti,R. solanacearum)
(génomesbactériensd’intérêt agro-alimentaire)
(génomes pathogènesséquencés à l’IP)
(plateforme degénomiqueexploratoire)
MICADO
IMGLib
GenoList
Composante 1 de MicroScope : outils d’annotation structurale
From the AGC groupFrom different authors
AMIMat et AMIGene
AMIMat : caractériser des groupes de gènes homogènes dans l’usage des codons au sein d’un génome bactérien.
AMIGene : Détecter les gènes de composition atypique / petits gènes http://www.genoscope.cns.fr/agc/tools/amigene
w
phase 1
phase 2
phase 3
start stop
Patterns starts/stops
+ RBS (RBS-Finder)
+ +Heuristique desélection des CDSsles plus probables
ChevauchementsInclusions, …
GeneMark
MICheck : ré-annotation (syntaxique) de génomes bactériensObjectif : Vérifier rapidement si les annotations répertoriées dans les banques de séquences pour un génome donné sont complètes.
http://www.genoscope.cns.fr/agc/tools/micheck
Résultats MICheck quelques génomes bactériens
Genome
Aeropyrumpernix
Nb Gene Uniques AMIGene Uniques Banque
Ori RefSeq GR Ori RefSeq GR Ori RefSeq GR
2694 1843 2694 18 35 18 941 186 941
Corynebacterium glutamicum
3099 2993 3099 15 5 15 65 14 65
Résultats MICheck sur A. pernix (status Reviewed Refseq)
AE005176_GR gene 3266258..3268062 /gene="dctB" /locus_tag="SO3137" /note="This region contains an authentic frame shift and is not the result of a sequencing artifact; C4-dicarboxylate transport sensor protein, authentic frameshift" gene 3268059..3269438 /gene="dctD" /locus_tag="SO3138" CDS 3268059..3269438 /gene="dctD" /locus_tag="SO3138" /note="similar to GB:X14046, SP:P11049, and PID:29794; identified by sequence similarity; putative" /codon_start=1 /transl_table=11 /product="C4-dicarboxylate transport transcriptional regulatory protein" gene complement(3269514..3272585) /locus_tag="SO3139" /note="This region contains an authentic frame shift and is not the result of a sequencing artifact; conserved hypothetical protein; identified by Glimmer2; putative" gene complement(3273023..3273601) /locus_tag="SO3140" CDS complement(3273023..3273601) /locus_tag="SO3140" /note="identified by match to PFAM protein family HMM PF00265" /codon_start=1 /transl_table=11 /protein_id="AAN56142.1" /product="thymidine kinase gene 3274138..3276066 /locus_tag="SO3141" /note="This region contains a gene with one or more premature stops or frameshifts, and is not the result of a sequencing artifact; cytochrome c, degenerate; similar to GP:3628769; identified by sequence similarity; putative" …
AE005176
/note="This region contains an authentic frame shift and is not the result of a sequencing artifact; C4-dicarboxylate transport sensor protein, authentic frameshift"
/note=" This region contains an authentic frame shift and is not the result of a sequencing artifact; … "
/note="This region contains a gene with one or more premature stops or frameshifts, and is not the result of a sequencing artifact; cytochrome c, degenerate; similar to GP:3628769; identified by sequence similarity; putative"
Annotation manquante dans le génome de Xanthomonas oryzae
CDS communes CDS UNIQUESBanques
CDS UNIQUESAMIGene
NC_0068344323123 76
XOO3512
Putative vgr-relatedprotein
Similar to rhs element vgr proteinfrom Burkholderia mallei (Q62L24)
XOO3517 XOO3518
Similar to putative membrane proteinfrom Burkholderia pseudomallei
(Q63QC8)
XOO3513
XOO3514
XOO3515
XOO3516
From the AGC groupFrom different authors
Composante 1 de MicroScope : outils d’annotation fonctionnelle
Syntonizer : Groupes de synténies dans les génomes bactériensObjectif : Détecter des groupes de gènes ‘localement’ conserver dans les génomes bactériens.
Détection automatique des évènements de fusion/fission Combinaison synténies/voies métaboliques Recherche automatique de candidats d’enzymes manquantes
Tirer profit de l’annotation experte : Interface permettant de propager l’annotation experte d’un gène aux orthologues ‘forts’.
Formation à l’annotation de génomes bactérienset à la plateforme d’annotation MaGe
4 journées organisées au Genoscope à partir de l’automne 2005 (préparation, au préalable, de la base liée au projet)
-> Les outils d’annotation-> Utilisation de MaGe autour du (des) génomes d’intérêt
Le site Web de MicroScope :
Les acteurs de MicroScope
David Vallenet
Stéphane Cruveiller
A l’Atelier de Génomique Comparative : Zoé Rouy
Aurélie Lajus
Dans le service informatique :
Laurent Sainte-Marthe
Claude Scarpelli
Sylvain Bonneval
… avec la complicité pour les bases BioCyc de : François Lefèvre (équipe de V. Schächter)
Et sans oublier les retours de nos collaborateurs biologistes !
Je vous remercie de votre attention !…
Et pour finir …
Paul Kersey de l’EBI vient nous parler des projets Genome Reviews et Integr8 Jeudi prochain à 11h
dans cette même salle (le 23 Juin)« Interg8 and Genome reviews: integrated views of complete