CoursSequenAssemblageM1_2007

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille IICrédits: François Denizot, LCB-IBSM, CNRS

Séquençage – Assemblage

de Génomes…

Projet de séquençage d’un génome

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Séquençage aléatoire Assemblage Annotation Data Release

Library construction

Colony picking

Template preparation

Sequencing reactions

Base calling

Sequence files

Library construction

Colony picking

Template preparation

Sequencing reactions

Base calling

Sequence files

AssemblerGenome scaffold

Ordered contig set

Gap closuresequence editing

Re-assembly

ONE ASSEMBLY!

Combinatorial PCR


Ordered contig set


Re-assembly

ONE ASSEMBLY!

Combinatorial PCR

Gene finding

Homology searches

Initial role assignments

Metabolic pathwaysGene families

Comparative genomics

Transcriptional/translational

regularory elementsRepetitive sequences

Gene finding

Homology searches

Initial role assignments

Metabolic pathwaysGene families

Comparative genomics

Transcriptional/translational

regularory elementsRepetitive sequences

Publication

Sample tracking


Technologie de séquençage

Malgré de nombreuses tentatives de mise au pointde nouvelles méthodologies de séquençage d’ADN,c’est toujours la technique développée par F. Sangerqui est la plus utilisée:

Sanger F, Nicklen S, Coulson AR. (1977)DNA sequencing with chain-terminating inhibitors.Proc Natl Acad Sci U S A. 74: 5463-7.


Principe:

Générer à partir d’une extrémité fixe tous les fragments d’ADN se terminant par une base donnée

Utilisation d’un oligonucléotide qui après hybridation à samatrice simple brin, sert d’amorce à une réaction de polymérisation enzymatique


Quelques rappels et illustrations

Cold Spring Harbor LaboratoryDolan DNA learning Centerhttp://www.dnalc.org/ddnalc/resources/sangerseq.html

F:\Cours_TD_M1\Genomique\CoursM1Genomique2007\sangerseq.exe


ddNTP fluorescents

Primers fluorescents


Séparation et détection des fragments

F:\Cours_TD_M1\Genomique\CoursM1Genomique2007\cycseq.exe




Permettant le séquençage d’ADN à haut débit

USINE

Eviter les goulots d’étranglementdans le processus

Intégration des éléments dans une chaîne de production

Préparation des matrices

Réactions de séquence

Séparation et détection des fragments

Analyse informatique…

Multiplier les éléments en parallèle

Automatisation de toutes les étapes



Limitation importante de la technique!

Cependant !


Nécessité de fragmenter le DNA génomique

Clonage des fragments en vue de leur amplification

Séquençage (souvent partiel) des fragments ou sous-fragments

Reconstitution de la séquence d’origine

Les contraintes


DNA

fragmentation (mécanique ou enzymatique)

« shotgun »

clonage des différents fragments dans un vecteur


pUC

(insert jusqu’à 10 Kb) (insert jusqu’à 100 Kb)

(insert ∼ 300 Kb) (insert jusqu’à 1 Mb, mais réarrangements fréquents)

(insert jusqu’à 45 Kb)

Constitution d’une ou plusieurs librairies de fragments dans différents vecteurs.


Stratégies de séquençage des génomes…


Petits génomes peu complexes

Grands génomesForte complexité

Mixage des deux approches


http://www.snv.jussieu.fr/vie/dossiers/genomes/index.htm

http://www.genoscope.fr/

http://www.takeda-foundation.jp/en/award/takeda/2001/fact/02.html

Quelques illustrations et idées empruntées à différents sites

http://www.nhgri.nih.gov/educationkit/video.html

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?call=bv.View..ShowTOC&rid=hmg.TOC&depth=1Ce site fait référence à un livre: Human Molecular Genetic 2, Tom stachan and Andrew P. Read, Bios Scientific Publisher, Ltd

http://www.univ-lille1.fr/pdv/labo/figdea.pdf



Assemblage des génomes


- Théorie du contigage- Outils d’assemblage

- Etapes de finition- Difficultés et résolution

Assemblage


Ordered contig set


Re-assembly

ONE ASSEMBLY!

Combinatorial PCR


Ordered contig set


Re-assembly

ONE ASSEMBLY!

Combinatorial PCR

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

ATCGATGCGTAGCAGACTACCGTTACGATGCCTT…TAGCTACGCATCGTCTGATGGCAATGCTACGGAA…

ATCGATGC

GTAGC TAGCAGACTACCGTTGTTACGATGCCTT

TAGCTACGCATCGT

Procédure


Procédure

ATCGATGCGTAGCTAGCAGACTACCGTTGTTACGATGCCTTTGCTACGCATCG CGATGCGTAGCA (sequence inv-compl)

ATCGATGCGTAGCTAGCAGACTACCGTTGTTACGATGCCTTCGATGCGTAGCA

Régions de chevauchements

……ATCGATGCGTAGCAGACTACCGTTACGATGCCTT……Contig ou Consensus


Théorie du contigage


1 2 3 4 5 6 C

ouve

rture

Contig

Reads

La couverture d’un contig: un exemple

Pour prévoir une assez bonne couverture de ces contigs lors de l’assemblage, il existe une méthode statistique (Lander-Waterman) permettant de determiner le nombre de clones à séquencer, le nombre de contigs prévisibles.


E(#ilôts) = Ne-cσ

E(taille des ilôts) = L(ecσ – 1) / c + 1 – σ

L = longueur de la lectureT = chevauchement minimumG = Taille du génomeN = Nombre de lecturesc = couverture (NL / G)σ = 1 – T/Lcontig = ilôts d’au moins 2 lectures

Théorie du contigage(Lander-Waterman statistics)


Chromobacterium violaceum genome project


Outils et programmes d’Assemblage


Le Defi !!!!

La mission s’apparente à resoudre un puzzle unidimentionnelle avec des centaines de milliers (voire des millions) de pieces et sans l’image d’origine, bien sur !!!!!!

Image original

Pièces du puzzle

Reconstruction de l’image


Comment s’y prendre ?

Chromatogramme Programmes d’assemblage Sequence complète


Sequençage automatique

Analyse informatique des images du gel:- “lane tracking“ – identifier chaque ligne -“trace processing“ – Estimation de l‘intensité du signal (et bruit de fond)- “lane profiling“ – Creation du profile (trace) de chaque chromatogramme- “base-calling“ – Transformation des profiles de bases (sequence)Le programme Phred est devenu quasi-standard pour le “base calling“


Base calling - Phred

Trace idéale consiste en: -pics espacés et non chevauchantes

Traces généralement obtenues different de l‘idéal à cause des:-imperfections des réactions de séquençage, de l‘électrophorèse, ou du “trace processing“

Extremités de la trace

Qualité supérieure– Aucune ambiguité

Qualité moyenne – quelques ambiguités

Qualité faible – confiance faible

Taux d’erreurs varient de 1-17%


Phred quality values

q = - 10 × log10 (p)

avec:q - quality valuep - estimated probability error for a base call

Examples:

q = 20 means p = 10-2 (1 error in 100 bases)q = 40 means p = 10-4 (1 error in 10,000 bases)


PhredTaches effectués par Phred:

a. Lire les traces – compatible avec la plupart des formats de sequences: SCF (standard), ABI (373/377/3700), ESD (MegaBACE) and LI-COR.

b. “Base Calling”

c. Assigne une valeur qualité à chaque base.

d. Créer un fichier de séquence et un fichier qualité

e. Modifier les chromatogrammes (“vector trimming”)


Phred

phred .phd.1

BEGIN_SEQUENCE a112e211b.bBEGIN_COMMENTCHROMAT_FILE: a112e211b.bABI_THUMBPRINT: 0PHRED_VERSION: 0.000925.cCALL_METHOD: phredQUALITY_LEVELS: 99TIME: Mon Jan 15 11:27:01 2001TRACE_ARRAY_MIN_INDEX: 0TRACE_ARRAY_MAX_INDEX: 10499TRIM: 96 494 0.0500CHEM: termDYE: bigEND_COMMENTBEGIN_DNAn 0 5t 4 24t 6 35g 6 44a 6 71g 6 92t 6 100t 15 114...

phd2fasta

>a112a1.b ...ACTGCTCGATGTGTGTGACTGCTAGCTAGCTAGTC...>a112a2.bACTGCATGTTCGATCGTAGC...

>a112a1.b ...10 12 15 12 17 2025 30 33 31 32 ...>a112a2.b7 8 5 11 15 19 20...

Projet.fasta

Projet.fasta.qual


Phred

Crossmatch

Séquencesde vecteurs

>a112a1.b ...XXXXXXXXXXXXGTGTGACTGCTAGCTAGCTAGTC...>a112a2.bACTGCATGTTCGATCGTAGC...

Projet.fasta.screen

>a112a1.b ...ACTGCTCGATGTGTGTGACTGCTAGCTAGCTAGTC...>a112a2.bACTGCATGTTCGATCGTAGC...

Projet.fasta

Projet.fasta.qual Projet.fasta.screen.qual

Assemblage


• Nommage des séquences – Format des sequences ABI, SCF– Les séquences du même clone ont le même prefix– L’orientation des séquences est matérialisée par g ou b / f ou r

• Longueur des clones sequencés doit etre définis

Taille du clone

KT000234.g.SCF KT000234.b.SCF

Si séquences provenant des BACs, on effectue également une codification de ces séquences

Formats et Codification des séquences


Le système Phred-Phrap-Consed

• Lire tous les fichiers de séquences (10-10,000)• Reverse complemente toutes les séquences (double le # de séquences à aligner)• Alignement multiple de ces séquences afin

d’obtenir une séquence unique


Phrap

1)Rechercher les pairs de séquences chevauchantes

2)Construire l’alignement multiple

3)Améliorer l’alignement multiple


-Compare chaque séquence (et son reverse-complement) avec chacune des autres séquences

-Génère une liste des régions ayant certains critères de similarités de séquences.

Paramètres importants: minimum overlap length, stringency (% of bases identiques), and minimum repeat length.

1) Rechercher les paires de séquences chevauchantes


Chevauchement entre deux séquences

…AGCCTAGACCTACAGGATGCGCGGACACGTAGCCAGGAC CAGTACTTGGATGCGCTGACACGTAGCTTATCCGGT…

overlap (19 bases) overhang (6 bases)

overhangoverlap - region of similarity between regionsoverhang - un-aligned ends of the sequences

Formation des paires de séquences chevauchantes basée sur: • length of overlap• % identity in overlap region• maximum overhang size.

% identity = 18/19 % = 94.7%


Phrap

18

35

36

82

79

54

Une séquence peut avoir plusieurs régions chevauchantes



1 8 35

36 8

2

79

54



18 3 5

36 8

2

7 95 4

18 2

Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences

2) Construire l’alignement multiple


35

36

79

54

18

2




35

36

79

54

18

2

536




79

54

18

2

536




79

54

18

2

53

6

4




79

18

2

53

6

4




• Introduction de gaps dans les alignements de séquences si cela doit ameliorer les alignements.

• Paramètres:• gap creation penalty (default 2.0)• gap extension penalty (default (0.1)

3) Améliorer l’alignement multiple


Au final


ConsedMenus de navigation

Mismatch en rouge

Séquencedu contig

Outils de navigation


Consed


Création des Scaffolds(SuperContigs)

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Contraintes sur les lectures-Les extrémités des lectures doivent avoir une orientation en

miroir l’un par rapport à l’autre -La distance entre deux lectures est connue (avec une certaine erreur expérimentale)

clone length

sequenced ends

F R


Création des scaffolds

Assembly

Scaffolding

“Ordonner et Orienter les contigs (non-chevauchants) le long du chromosome”


Linking informations

• Overlaps

• Mate-pair links

• Similarity links

• Physical markers

• Gene synteny

reference genome

physical map

Clone/Bac reads


PCR combinatoire

A

B

DC

F

E

G

H

ABCDEFGH

ABCDEFGH

ABCDEFGH

ABCDEFGH

ABCDEFGH

ABCDEFGH

ABCDEFGH

ABCDEFGH

B--D

C--F

E--H


Assembly

Scaffolding

Reads 500-800 base-pairs

Contigs 5000-25000 bp

Scaffolds 50000-300000 bp


FinitionFermeture des gaps


Shotgun

Finition

Temps

Shotgun

Finition

FINITION :-Correction des zones de basse qualité-Ordonnancement des contigs-Séquençage des parties manquantes

-gap de séquence-gap de clonage

-Réorganisation des séquences répétées

scaffold A scaffold B

physical gap

sequencing gaps


Problèmes associés à l’assemblage

•Banques Biaisées === Assemblage foireuxL’ensemble des clones des différentes banques utilisées doivent couvrir la presque totalité du génome à séquencer

•Tailles incorrects des Inserts

•Faible couverture

•Orientation inconnue des reads. ACGT or TGCA???

•Erreurs de séquençage

•Séquences repétées


Finishing repeats

RPT A RPT B

clones or PCR walks

STEP 1. Isolate repeat copiesSTEP 2. Assemble in isolationSTEP 3. Incorporate assembled repeats into rest of assembly

- TIGR Assembler can hold together previously assembled contigs

- Other assemblers: use repeat consensus as input to the assembler


MTETVEDKVSHSITGLDILKGIVAAGAVISGTVATQTKVFTNESAVLEKTVEKTDALATNDTVVLGTISTSNSASSTSLSASESASTSASESASTSASTSASTSASESASTSASTSISASSTVVGSQTAAATEATAKKVEEDRKKPASDYVASVTNVNLQSYAKRRKRSVDSIEQLLASIKNAAVFSGNTIVNGAPAINASLNIAKSETKVYTGEGVDSVYRVPIYYKLKVTNDGSKLTFTYTVTYVNPKTNDLGNISSMRPGYSIYNSGTSTQTMLTLGSDLGKPSGVKNYITDKNGRQVLSYNTSTMTTQGSGYTWGNGAQMNGFFAKKGYGLTSSWTVPITGTDTSFTFTPYAARTDRIGINYFNGGGKVVESSTTSQSLSQSKSLSVSASQSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASGSASTSTSASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASVSASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASVSASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASASTSASASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASVSASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASASTSASASASTSASASASTSASASASISASESASTSASASASASTSASASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASGSASTSTSASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASVSASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASVSASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASVSASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSVSNSANHSNSQVGNTSGSTGKSQKELPNTGTESSIGSVLLGVLAAVTGIGLVAKRRKRDEEE

SASA repeat (4776 AA, 14Kb)from Streptococcus Pneumoniae - likely involved in cell adhesion


Programmes d’Assemblage des Séquences • Phrap - sequence assembly program (UNIX) –Systeme Phred-Phrap-Consed

http://www.phrap.org/• TIGR Assembler - microbial genomes (UNIX) http://www.tigr.org/softlab/assembler/• The Staden Package (UNIX) http://www.mrc-lmb.cam.ac.uk/pubseq/• GeneTool/ChromaTool/Sequencher (PC/Mac)• Arachne www-genome.wi.mit.edu/wga/• Celera Assembler• Paracel Genome Assembler www.paracel.com/products/pga.html• Stroll http://genetics.med.harvard.edu/~tchen/STROLL• Amass (Pattern Matching) bio.informatics.indiana.edu/sunkim/AMASS/• Phusion (SSAHA) Assembler Genome Research 2003 vol 13 p81-90• www.sanger.ac.uk/Software/analysis/SSAHA/• Euler (Eulerian path)

www.cs.ucsd.edu/groups/bioinformatics/software.html#euler• AMI based Assembler (Stochastic process) Bioinformatics 2003 vol 19 p22-29

http://www.paracel.com/products/pga.html











http://genetics.med.harvard.edu/~tchen/STROLL










La séquence d’un génome doit être complète et de très haute qualité

La séquence du génome peut rester incomplète si une majorité des gènes a été trouvée

• C'est la stratégie initialement adoptée pour les microorganismes, y compris la levure.• Cependant, dans le cas de régions difficile à séquencer, cette exigence est très coûteuse en temps. Si quelques jours sont suffisants pour avoir un recouvrement de haute qualité de 90-95% d'un génome de procaryote, plusieurs semaines, voire plusieurs mois, seront nécessaires pour obtenir les 5-10% restants.

• C'est la stratégie adoptée pour les microorganismes par beaucoup d'industriels qui recherchent avant tout de nouvelles molécules. Ces données génomiques ne seront généralement pas publiées.• C'est la stratégie également adoptée pour les eucaryotes complexes dans le cas de l'hétérochromatine ou des régions trop répétées et apparemment vides de gènes. copies dites "de brouillon" (draft genome).

Approche de type recherche fondamentale

Approche de type recherche appliquée

Le problème de la qualité des génomes : deux écoles


ABI3700

chromat_dir preTA phd_dirbase callingquality trimmingvector trimming

vector_dir

phd2fasta

.seq,.qual

phraprunTA

.asm

ta2ace.ace

ace2contig.contig

Consed

goBambus .mates

.stats .details .dot

.bases/.fasta/.contigs

repeatFinder

.repeats

preArachne

Arachne

.xml.links

.ps.reads

toArachne

arachne2gbrowse

Gbrowser

Exemple de pipeline de séquençage/assemblage


Quelques Succès


Sequencing SuccessesT7 bacteriophagecompleted in 198339,937 bp, 59 coded proteins

Escherichia colicompleted in 19984,639,221 bp, 4293 ORFs

Sacchoromyces cerevisaecompleted in 199612,069,252 bp, 5800 genes


Sequencing SuccessesCaenorhabditis eleganscompleted in 199895,078,296 bp, 19,099 genes

Drosophila melanogastercompleted in 2000116,117,226 bp, 13,601 genes

Homo sapiens1st draft completed in 20013,160,079,000 bp, 31,780 genes


Homo sapiens1st draft completed in 20013,160,079,000 bp, 31,780 genes


The Genome Sequencing Era

1998 2000 1997 1999 1996 2001 2002

First microbial genomeH. influenzae

First eukaryote genomeYeast

E. coli

First multicellular animalC. elegans

Fruit fly

First higher plantArabidopsis

First mammalHomo sapiens

40 microbial genomes

malaria:mosquito

andparasite

First fishFugu

mouse




• Génomes terminés• 521 Bactéries• 46 Archaea• 25 Eucaryotes

Situation au 31/08/2007 592

• Génomes en cours• 808 Bactéries• 33 Archaea• 397 Eucaryotes

1238

• Génomes attendus dans le (proche) futur• 1329 Bactéries• 79 Archaea• 422 Eucaryotes

1830

Avalanche de génomes


• la variété dans la répétition :• souches différentes appartenant à la même espèce

• espèces différentes appartenant au même genre

8 Pseudomonas 3 Chlamydia 19 Streptococcus etc …

Mise en évidence d'une variabilité insoupçonnée

TendancesChez les procaryotes

7 souches differentes de E. coli 5 ……de Staphylococcus aureus etc …


TendancesChez les procaryotes

2. Une plus grande diversité biologique et phylogénétiqueA. moins de pathogènes

• La proportion relative est passée en 2003 de 90% à 50% (reste stable)

• Cependant, beaucoup de compagnies privées continuent à séquencer beaucoup de génomes mais sans les publier. Par example, on estime que 14 souches différentes de Bacillus anthracis auraient été séquencées en 2002 aux Etats-Unis.

B. représentants d’embranchements peu ou pas étudiés

C’est un thermophile qui fixe l’azote atmosphérique et qui réduit des composés soufrés comme source d’énergie pour

faire de la photosynthèse en conditions anaérobies

Example : Chlorobium tepidum, bactérie modèle du phylum Chlorobia

Intérêts : mieux comprendre

les grands cycles énergétiques à

l’échelle planétaire

comment est apparue la

photosynthèse


C. Plus de bactéries “utiles”

Tendances

dépollution

commensaux

intérêt agricole

intérêt industriel

• Shewanella oneidensis, Geobacter metallidurens métabolise l’uranium et de nombreux autres métaux lourds• Geobacter produit en plus de l'électricité

Bifidobacterium longum bactérie intestinale hydrolysant des polymères végétaux

Pseudomonas putida croît dans la rhizosphère et dépollue les sols

Nombreux organismes thermophiles, source d’enzymes faciles à purifier et très efficaces


1. la variété dans la répétition :• souches différentes appartenant à la même espèce• espèces différentes appartenant au même genre

2. une plus grande diversité biologique et phylogénétiqueA. moins de pathogènesB. représentants d’embranchements peu ou pas étudiésC. plus de bactéries « utiles » :

• des génomes de plus en plus gros (qui sont faits de plus en plus vite) :

Tendances

contiennent un plus grand nombre de gènes que beaucoup d’eucaryotes simples comme les levures (12 Mb mais moins de 6000 protéines)

Streptomyces coelicolor (9,05 Mb, 7769 protéines)

Bradyrhizobium japonicum(9,1 Mb, 8317 protéines)

Chez les procaryotes


TendancesChez les eucaryotes

1. Objectifs primaires• Grands organismes modèles et les organismes proches pouvant aider à

l’annotation de leurs génomes• Pathogènes, intérêt médical ou agronomique

Schizosaccharomyces pombe Arabidopsis thaliana Caenorhabditis elegans

Drosophila melanogaster

Saccharomyces cerevisiae

Fugu rubripes

Homo sapiens Tetrahodon

souris, rat chimpanzé

Anopheles gambiae Plasmodium falciparum Plasmodium yoelii yoelii

(Malaria)

Magnaporthe grisea

Oryza sativa

Candida albicans

Encephalitozoon cuniculi Microsporidie, pathogène des

voies respiratoires


• microsporidies, nématodes, nombreux protozoaires, algues, Chlamydomonas

• nombreux champignons (40)

• plusieurs insectes (abeille, bombyx, ), mollusques, oursin

• plusieurs poissons, Xenope, poulet, dinde, bœuf, porc, chien, chat, cheval, mouton, kangourou, etc…

• Chou, café, blé, maïs, sorgho, coton, tomate, pomme de terre, haricot, canne à sucre, etc…

• pins (3), eucalyptus, chêne

2. Une ambition incroyable (due à une accélération technologique impressionnante)

TendancesChez les eucaryotes


Une révolution majeure dans les techniques de séquençage

Progrès énormes dans les temps de calcul En 1995, pour H. influenzae, l’assemblage des contigs avait demandé 11 jours de temps de calculAujourd’hui, le même type de travail demande quelques minutes

Progrès impressionnant dans le temps nécessaire pour réaliser un projet :• au lieu de plusieurs semaines pour déterminer la séquence brute d'une bactérie, il ne faut plus que 2-3 jours• le séquençage du génome de la souris a été réalisé en un temps incroyablement court, et le chimpanzé vient d'être fini en moins d'un an

Les progrès technologiques

La génomique va plus vite que l’informatique En 1965, Moore avait prédit que la puissance des ordinateurs doublerait tous les deux ans. Jusqu’ici cette « loi » a été parfaitement respectée

Depuis 2 ans, la croissance de l’information contenue dans les séquences génomiques a pris une vitesse de doublement bien supérieure et semble même encore s’accélerer


ReferencesTIGR Assembler Sutton, G.G., et al., TIGR Assembler: A New Tool for Assembling Large

Shotgun Sequencing Projects. Genome Science and Technology, 1995. 1:9-19.phrap Green, P., PHRAP documentation: ALGORITHMS. 1994

http://www.phrap.org.phred Ewing B., Hillier L, Wendl M, Green P., Basecalling of automated

sequencer traces using phred. Genome Research, 1998, 8:175-194.consed Gordon, D., C. Abajian, P. Green. Consed: A graphical tool for sequence

finishing. Genome Research, 1998, 8:195-202.REPuter S. Kurtz, C. Schleiermacher, Fast Computation of Maximal Repeats in

Complete Genomes, Bioinformatics, 1999, 15(5):426-427Multiplex PCR Tettelin, H., et al., Optimized Multiplex PCR: Efficiently Closing a Whole-

Genome Shotgun Sequencing Project. Genomics, 1999. 62:500-507.Celera Assembler Myers, E.W. et al. 2000. A whole-genome assembly of Drosophila.

Science 287: 2196-2204.Arachne Batzoglou, S., et al. 2002. ARACHNE: a whole-genome shotgun

assembler. Genome Res 12: 177-189.Jaffe, D.B., et al. 2003. Whole-genome sequence assembly for

Mammalian genomes: arachne 2. Genome Res 13: 91-96.

CoursSequenAssemblageM1_2007

Documents

gnomes emmanuel talla

gnomes gnomique

aix marseille

squenage assemblage

fragments gnomique

mais m1

dna gnomique clonage

squence dorigine gnomique