Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II Crédits: François Denizot, LCB-IBSM, CNRS Séquençage – Assemblage de Génomes…
Jun 24, 2015
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille IICrédits: François Denizot, LCB-IBSM, CNRS
Séquençage – Assemblage
de Génomes…
Projet de séquençage d’un génome
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Séquençage aléatoire Assemblage Annotation Data Release
Library construction
Colony picking
Template preparation
Sequencing reactions
Base calling
Sequence files
Library construction
Colony picking
Template preparation
Sequencing reactions
Base calling
Sequence files
AssemblerGenome scaffold
Ordered contig set
Gap closuresequence editing
Re-assembly
ONE ASSEMBLY!
Combinatorial PCR
AssemblerGenome scaffold
Ordered contig set
Gap closuresequence editing
Re-assembly
ONE ASSEMBLY!
Combinatorial PCR
Gene finding
Homology searches
Initial role assignments
Metabolic pathwaysGene families
Comparative genomics
Transcriptional/translational
regularory elementsRepetitive sequences
Gene finding
Homology searches
Initial role assignments
Metabolic pathwaysGene families
Comparative genomics
Transcriptional/translational
regularory elementsRepetitive sequences
Publication
Sample tracking
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Technologie de séquençage
Malgré de nombreuses tentatives de mise au pointde nouvelles méthodologies de séquençage d’ADN,c’est toujours la technique développée par F. Sangerqui est la plus utilisée:
Sanger F, Nicklen S, Coulson AR. (1977)DNA sequencing with chain-terminating inhibitors.Proc Natl Acad Sci U S A. 74: 5463-7.
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Principe:
Générer à partir d’une extrémité fixe tous les fragments d’ADN se terminant par une base donnée
Utilisation d’un oligonucléotide qui après hybridation à samatrice simple brin, sert d’amorce à une réaction de polymérisation enzymatique
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Quelques rappels et illustrations
Cold Spring Harbor LaboratoryDolan DNA learning Centerhttp://www.dnalc.org/ddnalc/resources/sangerseq.html
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
ddNTP fluorescents
Primers fluorescents
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Séparation et détection des fragments
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Permettant le séquençage d’ADN à haut débit
USINE
Eviter les goulots d’étranglementdans le processus
Intégration des éléments dans une chaîne de production
Préparation des matrices
Réactions de séquence
Séparation et détection des fragments
Analyse informatique…
Multiplier les éléments en parallèle
Automatisation de toutes les étapes
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Limitation importante de la technique!
Cependant !
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Nécessité de fragmenter le DNA génomique
Clonage des fragments en vue de leur amplification
Séquençage (souvent partiel) des fragments ou sous-fragments
Reconstitution de la séquence d’origine
Les contraintes
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
DNA
fragmentation (mécanique ou enzymatique)
« shotgun »
clonage des différents fragments dans un vecteur
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
pUC
(insert jusqu’à 10 Kb) (insert jusqu’à 100 Kb)
(insert ∼ 300 Kb) (insert jusqu’à 1 Mb, mais réarrangements fréquents)
(insert jusqu’à 45 Kb)
Constitution d’une ou plusieurs librairies de fragments dans différents vecteurs.
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Stratégies de séquençage des génomes…
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Petits génomes peu complexes
Grands génomesForte complexité
Mixage des deux approches
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
http://www.snv.jussieu.fr/vie/dossiers/genomes/index.htm
http://www.genoscope.fr/
http://www.takeda-foundation.jp/en/award/takeda/2001/fact/02.html
Quelques illustrations et idées empruntées à différents sites
http://www.nhgri.nih.gov/educationkit/video.html
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?call=bv.View..ShowTOC&rid=hmg.TOC&depth=1Ce site fait référence à un livre: Human Molecular Genetic 2, Tom stachan and Andrew P. Read, Bios Scientific Publisher, Ltd
http://www.univ-lille1.fr/pdv/labo/figdea.pdf
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Assemblage des génomes
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
- Théorie du contigage- Outils d’assemblage
- Etapes de finition- Difficultés et résolution
Assemblage
AssemblerGenome scaffold
Ordered contig set
Gap closuresequence editing
Re-assembly
ONE ASSEMBLY!
Combinatorial PCR
AssemblerGenome scaffold
Ordered contig set
Gap closuresequence editing
Re-assembly
ONE ASSEMBLY!
Combinatorial PCR
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
ATCGATGCGTAGCAGACTACCGTTACGATGCCTT…TAGCTACGCATCGTCTGATGGCAATGCTACGGAA…
ATCGATGC
GTAGC TAGCAGACTACCGTTGTTACGATGCCTT
TAGCTACGCATCGT
Procédure
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Procédure
ATCGATGCGTAGCTAGCAGACTACCGTTGTTACGATGCCTTTGCTACGCATCG CGATGCGTAGCA (sequence inv-compl)
ATCGATGCGTAGCTAGCAGACTACCGTTGTTACGATGCCTTCGATGCGTAGCA
Régions de chevauchements
……ATCGATGCGTAGCAGACTACCGTTACGATGCCTT……Contig ou Consensus
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Théorie du contigage
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
1 2 3 4 5 6 C
ouve
rture
Contig
Reads
La couverture d’un contig: un exemple
Pour prévoir une assez bonne couverture de ces contigs lors de l’assemblage, il existe une méthode statistique (Lander-Waterman) permettant de determiner le nombre de clones à séquencer, le nombre de contigs prévisibles.
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
E(#ilôts) = Ne-cσ
E(taille des ilôts) = L(ecσ – 1) / c + 1 – σ
L = longueur de la lectureT = chevauchement minimumG = Taille du génomeN = Nombre de lecturesc = couverture (NL / G)σ = 1 – T/Lcontig = ilôts d’au moins 2 lectures
Théorie du contigage(Lander-Waterman statistics)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Chromobacterium violaceum genome project
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Outils et programmes d’Assemblage
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Le Defi !!!!
La mission s’apparente à resoudre un puzzle unidimentionnelle avec des centaines de milliers (voire des millions) de pieces et sans l’image d’origine, bien sur !!!!!!
Image original
Pièces du puzzle
Reconstruction de l’image
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Comment s’y prendre ?
Chromatogramme Programmes d’assemblage Sequence complète
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Sequençage automatique
Analyse informatique des images du gel:- “lane tracking“ – identifier chaque ligne -“trace processing“ – Estimation de l‘intensité du signal (et bruit de fond)- “lane profiling“ – Creation du profile (trace) de chaque chromatogramme- “base-calling“ – Transformation des profiles de bases (sequence)Le programme Phred est devenu quasi-standard pour le “base calling“
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Base calling - Phred
Trace idéale consiste en: -pics espacés et non chevauchantes
Traces généralement obtenues different de l‘idéal à cause des:-imperfections des réactions de séquençage, de l‘électrophorèse, ou du “trace processing“
Extremités de la trace
Qualité supérieure– Aucune ambiguité
Qualité moyenne – quelques ambiguités
Qualité faible – confiance faible
Taux d’erreurs varient de 1-17%
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Phred quality values
q = - 10 × log10 (p)
avec:q - quality valuep - estimated probability error for a base call
Examples:
q = 20 means p = 10-2 (1 error in 100 bases)q = 40 means p = 10-4 (1 error in 10,000 bases)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
PhredTaches effectués par Phred:
a. Lire les traces – compatible avec la plupart des formats de sequences: SCF (standard), ABI (373/377/3700), ESD (MegaBACE) and LI-COR.
b. “Base Calling”
c. Assigne une valeur qualité à chaque base.
d. Créer un fichier de séquence et un fichier qualité
e. Modifier les chromatogrammes (“vector trimming”)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Phred
phred .phd.1
BEGIN_SEQUENCE a112e211b.bBEGIN_COMMENTCHROMAT_FILE: a112e211b.bABI_THUMBPRINT: 0PHRED_VERSION: 0.000925.cCALL_METHOD: phredQUALITY_LEVELS: 99TIME: Mon Jan 15 11:27:01 2001TRACE_ARRAY_MIN_INDEX: 0TRACE_ARRAY_MAX_INDEX: 10499TRIM: 96 494 0.0500CHEM: termDYE: bigEND_COMMENTBEGIN_DNAn 0 5t 4 24t 6 35g 6 44a 6 71g 6 92t 6 100t 15 114...
phd2fasta
>a112a1.b ...ACTGCTCGATGTGTGTGACTGCTAGCTAGCTAGTC...>a112a2.bACTGCATGTTCGATCGTAGC...
>a112a1.b ...10 12 15 12 17 2025 30 33 31 32 ...>a112a2.b7 8 5 11 15 19 20...
Projet.fasta
Projet.fasta.qual
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Phred
Crossmatch
Séquencesde vecteurs
>a112a1.b ...XXXXXXXXXXXXGTGTGACTGCTAGCTAGCTAGTC...>a112a2.bACTGCATGTTCGATCGTAGC...
Projet.fasta.screen
>a112a1.b ...ACTGCTCGATGTGTGTGACTGCTAGCTAGCTAGTC...>a112a2.bACTGCATGTTCGATCGTAGC...
Projet.fasta
Projet.fasta.qual Projet.fasta.screen.qual
Assemblage
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
• Nommage des séquences – Format des sequences ABI, SCF– Les séquences du même clone ont le même prefix– L’orientation des séquences est matérialisée par g ou b / f ou r
• Longueur des clones sequencés doit etre définis
Taille du clone
KT000234.g.SCF KT000234.b.SCF
Si séquences provenant des BACs, on effectue également une codification de ces séquences
Formats et Codification des séquences
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Le système Phred-Phrap-Consed
• Lire tous les fichiers de séquences (10-10,000)• Reverse complemente toutes les séquences (double le # de séquences à aligner)• Alignement multiple de ces séquences afin
d’obtenir une séquence unique
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Phrap
1)Rechercher les pairs de séquences chevauchantes
2)Construire l’alignement multiple
3)Améliorer l’alignement multiple
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
-Compare chaque séquence (et son reverse-complement) avec chacune des autres séquences
-Génère une liste des régions ayant certains critères de similarités de séquences.
Paramètres importants: minimum overlap length, stringency (% of bases identiques), and minimum repeat length.
1) Rechercher les paires de séquences chevauchantes
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Chevauchement entre deux séquences
…AGCCTAGACCTACAGGATGCGCGGACACGTAGCCAGGAC CAGTACTTGGATGCGCTGACACGTAGCTTATCCGGT…
overlap (19 bases) overhang (6 bases)
overhangoverlap - region of similarity between regionsoverhang - un-aligned ends of the sequences
Formation des paires de séquences chevauchantes basée sur: • length of overlap• % identity in overlap region• maximum overhang size.
% identity = 18/19 % = 94.7%
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Phrap
18
35
36
82
79
54
Une séquence peut avoir plusieurs régions chevauchantes
1) Rechercher les paires de séquences chevauchantes
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
1 8 35
36 8
2
79
54
1) Rechercher les paires de séquences chevauchantes
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
18 3 5
36 8
2
7 95 4
18 2
Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences
2) Construire l’alignement multiple
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
35
36
79
54
18
2
2) Construire l’alignement multiple
Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
35
36
79
54
18
2
536
2) Construire l’alignement multiple
Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
79
54
18
2
536
2) Construire l’alignement multiple
Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
79
54
18
2
53
6
4
2) Construire l’alignement multiple
Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
79
18
2
53
6
4
2) Construire l’alignement multiple
Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
• Introduction de gaps dans les alignements de séquences si cela doit ameliorer les alignements.
• Paramètres:• gap creation penalty (default 2.0)• gap extension penalty (default (0.1)
3) Améliorer l’alignement multiple
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Au final
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
ConsedMenus de navigation
Mismatch en rouge
Séquencedu contig
Outils de navigation
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Consed
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Création des Scaffolds(SuperContigs)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Contraintes sur les lectures-Les extrémités des lectures doivent avoir une orientation en
miroir l’un par rapport à l’autre -La distance entre deux lectures est connue (avec une certaine erreur expérimentale)
clone length
sequenced ends
F R
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Création des scaffolds
Assembly
Scaffolding
“Ordonner et Orienter les contigs (non-chevauchants) le long du chromosome”
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Linking informations
• Overlaps
• Mate-pair links
• Similarity links
• Physical markers
• Gene synteny
reference genome
physical map
Clone/Bac reads
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
PCR combinatoire
A
B
DC
F
E
G
H
ABCDEFGH
ABCDEFGH
ABCDEFGH
ABCDEFGH
ABCDEFGH
ABCDEFGH
ABCDEFGH
ABCDEFGH
B--D
C--F
E--H
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Assembly
Scaffolding
Reads 500-800 base-pairs
Contigs 5000-25000 bp
Scaffolds 50000-300000 bp
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
FinitionFermeture des gaps
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Shotgun
Finition
Temps
Shotgun
Finition
FINITION :-Correction des zones de basse qualité-Ordonnancement des contigs-Séquençage des parties manquantes
-gap de séquence-gap de clonage
-Réorganisation des séquences répétées
scaffold A scaffold B
physical gap
sequencing gaps
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Problèmes associés à l’assemblage
•Banques Biaisées === Assemblage foireuxL’ensemble des clones des différentes banques utilisées doivent couvrir la presque totalité du génome à séquencer
•Tailles incorrects des Inserts
•Faible couverture
•Orientation inconnue des reads. ACGT or TGCA???
•Erreurs de séquençage
•Séquences repétées
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Finishing repeats
RPT A RPT B
clones or PCR walks
STEP 1. Isolate repeat copiesSTEP 2. Assemble in isolationSTEP 3. Incorporate assembled repeats into rest of assembly
- TIGR Assembler can hold together previously assembled contigs
- Other assemblers: use repeat consensus as input to the assembler
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
MTETVEDKVSHSITGLDILKGIVAAGAVISGTVATQTKVFTNESAVLEKTVEKTDALATNDTVVLGTISTSNSASSTSLSASESASTSASESASTSASTSASTSASESASTSASTSISASSTVVGSQTAAATEATAKKVEEDRKKPASDYVASVTNVNLQSYAKRRKRSVDSIEQLLASIKNAAVFSGNTIVNGAPAINASLNIAKSETKVYTGEGVDSVYRVPIYYKLKVTNDGSKLTFTYTVTYVNPKTNDLGNISSMRPGYSIYNSGTSTQTMLTLGSDLGKPSGVKNYITDKNGRQVLSYNTSTMTTQGSGYTWGNGAQMNGFFAKKGYGLTSSWTVPITGTDTSFTFTPYAARTDRIGINYFNGGGKVVESSTTSQSLSQSKSLSVSASQSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASGSASTSTSASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASVSASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASVSASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASASTSASASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASVSASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASASTSASASASTSASASASTSASASASISASESASTSASASASASTSASASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASGSASTSTSASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASVSASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASVSASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASVSASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSVSNSANHSNSQVGNTSGSTGKSQKELPNTGTESSIGSVLLGVLAAVTGIGLVAKRRKRDEEE
SASA repeat (4776 AA, 14Kb)from Streptococcus Pneumoniae - likely involved in cell adhesion
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Programmes d’Assemblage des Séquences • Phrap - sequence assembly program (UNIX) –Systeme Phred-Phrap-Consed
http://www.phrap.org/• TIGR Assembler - microbial genomes (UNIX) http://www.tigr.org/softlab/assembler/• The Staden Package (UNIX) http://www.mrc-lmb.cam.ac.uk/pubseq/• GeneTool/ChromaTool/Sequencher (PC/Mac)• Arachne www-genome.wi.mit.edu/wga/• Celera Assembler• Paracel Genome Assembler www.paracel.com/products/pga.html• Stroll http://genetics.med.harvard.edu/~tchen/STROLL• Amass (Pattern Matching) bio.informatics.indiana.edu/sunkim/AMASS/• Phusion (SSAHA) Assembler Genome Research 2003 vol 13 p81-90• www.sanger.ac.uk/Software/analysis/SSAHA/• Euler (Eulerian path)
www.cs.ucsd.edu/groups/bioinformatics/software.html#euler• AMI based Assembler (Stochastic process) Bioinformatics 2003 vol 19 p22-29
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
La séquence d’un génome doit être complète et de très haute qualité
La séquence du génome peut rester incomplète si une majorité des gènes a été trouvée
• C'est la stratégie initialement adoptée pour les microorganismes, y compris la levure.• Cependant, dans le cas de régions difficile à séquencer, cette exigence est très coûteuse en temps. Si quelques jours sont suffisants pour avoir un recouvrement de haute qualité de 90-95% d'un génome de procaryote, plusieurs semaines, voire plusieurs mois, seront nécessaires pour obtenir les 5-10% restants.
• C'est la stratégie adoptée pour les microorganismes par beaucoup d'industriels qui recherchent avant tout de nouvelles molécules. Ces données génomiques ne seront généralement pas publiées.• C'est la stratégie également adoptée pour les eucaryotes complexes dans le cas de l'hétérochromatine ou des régions trop répétées et apparemment vides de gènes. copies dites "de brouillon" (draft genome).
Approche de type recherche fondamentale
Approche de type recherche appliquée
Le problème de la qualité des génomes : deux écoles
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
ABI3700
chromat_dir preTA phd_dirbase callingquality trimmingvector trimming
vector_dir
phd2fasta
.seq,.qual
phraprunTA
.asm
ta2ace.ace
ace2contig.contig
Consed
goBambus .mates
.stats .details .dot
.bases/.fasta/.contigs
repeatFinder
.repeats
preArachne
Arachne
.xml.links
.ps.reads
toArachne
arachne2gbrowse
Gbrowser
Exemple de pipeline de séquençage/assemblage
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Quelques Succès
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Sequencing SuccessesT7 bacteriophagecompleted in 198339,937 bp, 59 coded proteins
Escherichia colicompleted in 19984,639,221 bp, 4293 ORFs
Sacchoromyces cerevisaecompleted in 199612,069,252 bp, 5800 genes
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Sequencing SuccessesCaenorhabditis eleganscompleted in 199895,078,296 bp, 19,099 genes
Drosophila melanogastercompleted in 2000116,117,226 bp, 13,601 genes
Homo sapiens1st draft completed in 20013,160,079,000 bp, 31,780 genes
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Homo sapiens1st draft completed in 20013,160,079,000 bp, 31,780 genes
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
The Genome Sequencing Era
1998 2000 1997 1999 1996 2001 2002
First microbial genomeH. influenzae
First eukaryote genomeYeast
E. coli
First multicellular animalC. elegans
Fruit fly
First higher plantArabidopsis
First mammalHomo sapiens
40 microbial genomes
malaria:mosquito
andparasite
First fishFugu
mouse
567 microbial genomes
18 microbial genomes
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
• Génomes terminés• 521 Bactéries• 46 Archaea• 25 Eucaryotes
Situation au 31/08/2007 592
• Génomes en cours• 808 Bactéries• 33 Archaea• 397 Eucaryotes
1238
• Génomes attendus dans le (proche) futur• 1329 Bactéries• 79 Archaea• 422 Eucaryotes
1830
Avalanche de génomes
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
• la variété dans la répétition :• souches différentes appartenant à la même espèce
• espèces différentes appartenant au même genre
8 Pseudomonas 3 Chlamydia 19 Streptococcus etc …
Mise en évidence d'une variabilité insoupçonnée
TendancesChez les procaryotes
7 souches differentes de E. coli 5 ……de Staphylococcus aureus etc …
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
TendancesChez les procaryotes
2. Une plus grande diversité biologique et phylogénétiqueA. moins de pathogènes
• La proportion relative est passée en 2003 de 90% à 50% (reste stable)
• Cependant, beaucoup de compagnies privées continuent à séquencer beaucoup de génomes mais sans les publier. Par example, on estime que 14 souches différentes de Bacillus anthracis auraient été séquencées en 2002 aux Etats-Unis.
B. représentants d’embranchements peu ou pas étudiés
C’est un thermophile qui fixe l’azote atmosphérique et qui réduit des composés soufrés comme source d’énergie pour
faire de la photosynthèse en conditions anaérobies
Example : Chlorobium tepidum, bactérie modèle du phylum Chlorobia
Intérêts : mieux comprendre
les grands cycles énergétiques à
l’échelle planétaire
comment est apparue la
photosynthèse
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
C. Plus de bactéries “utiles”
Tendances
dépollution
commensaux
intérêt agricole
intérêt industriel
• Shewanella oneidensis, Geobacter metallidurens métabolise l’uranium et de nombreux autres métaux lourds• Geobacter produit en plus de l'électricité
Bifidobacterium longum bactérie intestinale hydrolysant des polymères végétaux
Pseudomonas putida croît dans la rhizosphère et dépollue les sols
Nombreux organismes thermophiles, source d’enzymes faciles à purifier et très efficaces
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
1. la variété dans la répétition :• souches différentes appartenant à la même espèce• espèces différentes appartenant au même genre
2. une plus grande diversité biologique et phylogénétiqueA. moins de pathogènesB. représentants d’embranchements peu ou pas étudiésC. plus de bactéries « utiles » :
• des génomes de plus en plus gros (qui sont faits de plus en plus vite) :
Tendances
contiennent un plus grand nombre de gènes que beaucoup d’eucaryotes simples comme les levures (12 Mb mais moins de 6000 protéines)
Streptomyces coelicolor (9,05 Mb, 7769 protéines)
Bradyrhizobium japonicum(9,1 Mb, 8317 protéines)
Chez les procaryotes
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
TendancesChez les eucaryotes
1. Objectifs primaires• Grands organismes modèles et les organismes proches pouvant aider à
l’annotation de leurs génomes• Pathogènes, intérêt médical ou agronomique
Schizosaccharomyces pombe Arabidopsis thaliana Caenorhabditis elegans
Drosophila melanogaster
Saccharomyces cerevisiae
Fugu rubripes
Homo sapiens Tetrahodon
souris, rat chimpanzé
Anopheles gambiae Plasmodium falciparum Plasmodium yoelii yoelii
(Malaria)
Magnaporthe grisea
Oryza sativa
Candida albicans
Encephalitozoon cuniculi Microsporidie, pathogène des
voies respiratoires
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
• microsporidies, nématodes, nombreux protozoaires, algues, Chlamydomonas
• nombreux champignons (40)
• plusieurs insectes (abeille, bombyx, ), mollusques, oursin
• plusieurs poissons, Xenope, poulet, dinde, bœuf, porc, chien, chat, cheval, mouton, kangourou, etc…
• Chou, café, blé, maïs, sorgho, coton, tomate, pomme de terre, haricot, canne à sucre, etc…
• pins (3), eucalyptus, chêne
2. Une ambition incroyable (due à une accélération technologique impressionnante)
TendancesChez les eucaryotes
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Une révolution majeure dans les techniques de séquençage
Progrès énormes dans les temps de calcul En 1995, pour H. influenzae, l’assemblage des contigs avait demandé 11 jours de temps de calculAujourd’hui, le même type de travail demande quelques minutes
Progrès impressionnant dans le temps nécessaire pour réaliser un projet :• au lieu de plusieurs semaines pour déterminer la séquence brute d'une bactérie, il ne faut plus que 2-3 jours• le séquençage du génome de la souris a été réalisé en un temps incroyablement court, et le chimpanzé vient d'être fini en moins d'un an
Les progrès technologiques
La génomique va plus vite que l’informatique En 1965, Moore avait prédit que la puissance des ordinateurs doublerait tous les deux ans. Jusqu’ici cette « loi » a été parfaitement respectée
Depuis 2 ans, la croissance de l’information contenue dans les séquences génomiques a pris une vitesse de doublement bien supérieure et semble même encore s’accélerer
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
ReferencesTIGR Assembler Sutton, G.G., et al., TIGR Assembler: A New Tool for Assembling Large
Shotgun Sequencing Projects. Genome Science and Technology, 1995. 1:9-19.phrap Green, P., PHRAP documentation: ALGORITHMS. 1994
http://www.phrap.org.phred Ewing B., Hillier L, Wendl M, Green P., Basecalling of automated
sequencer traces using phred. Genome Research, 1998, 8:175-194.consed Gordon, D., C. Abajian, P. Green. Consed: A graphical tool for sequence
finishing. Genome Research, 1998, 8:195-202.REPuter S. Kurtz, C. Schleiermacher, Fast Computation of Maximal Repeats in
Complete Genomes, Bioinformatics, 1999, 15(5):426-427Multiplex PCR Tettelin, H., et al., Optimized Multiplex PCR: Efficiently Closing a Whole-
Genome Shotgun Sequencing Project. Genomics, 1999. 62:500-507.Celera Assembler Myers, E.W. et al. 2000. A whole-genome assembly of Drosophila.
Science 287: 2196-2204.Arachne Batzoglou, S., et al. 2002. ARACHNE: a whole-genome shotgun
assembler. Genome Res 12: 177-189.Jaffe, D.B., et al. 2003. Whole-genome sequence assembly for
Mammalian genomes: arachne 2. Genome Res 13: 91-96.