Top Banner
Génomique 1 M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II Crédits: François Denizot, LCB-IBSM, CNRS Séquençage – Assemblage de Génomes…
81
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: CoursSequenAssemblageM1_2007

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille IICrédits: François Denizot, LCB-IBSM, CNRS

Séquençage – Assemblage

de Génomes…

Page 2: CoursSequenAssemblageM1_2007

Projet de séquençage d’un génome

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Séquençage aléatoire Assemblage Annotation Data Release

Library construction

Colony picking

Template preparation

Sequencing reactions

Base calling

Sequence files

Library construction

Colony picking

Template preparation

Sequencing reactions

Base calling

Sequence files

AssemblerGenome scaffold

Ordered contig set

Gap closuresequence editing

Re-assembly

ONE ASSEMBLY!

Combinatorial PCR

AssemblerGenome scaffold

Ordered contig set

Gap closuresequence editing

Re-assembly

ONE ASSEMBLY!

Combinatorial PCR

Gene finding

Homology searches

Initial role assignments

Metabolic pathwaysGene families

Comparative genomics

Transcriptional/translational

regularory elementsRepetitive sequences

Gene finding

Homology searches

Initial role assignments

Metabolic pathwaysGene families

Comparative genomics

Transcriptional/translational

regularory elementsRepetitive sequences

Publication

Sample tracking

Page 3: CoursSequenAssemblageM1_2007

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Technologie de séquençage

Malgré de nombreuses tentatives de mise au pointde nouvelles méthodologies de séquençage d’ADN,c’est toujours la technique développée par F. Sangerqui est la plus utilisée:

Sanger F, Nicklen S, Coulson AR. (1977)DNA sequencing with chain-terminating inhibitors.Proc Natl Acad Sci U S A. 74: 5463-7.

Page 4: CoursSequenAssemblageM1_2007

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Principe:

Générer à partir d’une extrémité fixe tous les fragments d’ADN se terminant par une base donnée

Utilisation d’un oligonucléotide qui après hybridation à samatrice simple brin, sert d’amorce à une réaction de polymérisation enzymatique

Page 5: CoursSequenAssemblageM1_2007

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Quelques rappels et illustrations

Cold Spring Harbor LaboratoryDolan DNA learning Centerhttp://www.dnalc.org/ddnalc/resources/sangerseq.html

Page 6: CoursSequenAssemblageM1_2007

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

ddNTP fluorescents

Primers fluorescents

Page 7: CoursSequenAssemblageM1_2007

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Séparation et détection des fragments

Page 8: CoursSequenAssemblageM1_2007

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Page 9: CoursSequenAssemblageM1_2007

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Page 10: CoursSequenAssemblageM1_2007

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Permettant le séquençage d’ADN à haut débit

USINE

Eviter les goulots d’étranglementdans le processus

Intégration des éléments dans une chaîne de production

Préparation des matrices

Réactions de séquence

Séparation et détection des fragments

Analyse informatique…

Multiplier les éléments en parallèle

Automatisation de toutes les étapes

Page 11: CoursSequenAssemblageM1_2007

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Page 12: CoursSequenAssemblageM1_2007

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Limitation importante de la technique!

Cependant !

Page 13: CoursSequenAssemblageM1_2007

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Nécessité de fragmenter le DNA génomique

Clonage des fragments en vue de leur amplification

Séquençage (souvent partiel) des fragments ou sous-fragments

Reconstitution de la séquence d’origine

Les contraintes

Page 14: CoursSequenAssemblageM1_2007

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

DNA

fragmentation (mécanique ou enzymatique)

« shotgun »

clonage des différents fragments dans un vecteur

Page 15: CoursSequenAssemblageM1_2007

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

pUC

(insert jusqu’à 10 Kb) (insert jusqu’à 100 Kb)

(insert ∼ 300 Kb) (insert jusqu’à 1 Mb, mais réarrangements fréquents)

(insert jusqu’à 45 Kb)

Constitution d’une ou plusieurs librairies de fragments dans différents vecteurs.

Page 16: CoursSequenAssemblageM1_2007

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Stratégies de séquençage des génomes…

Page 17: CoursSequenAssemblageM1_2007

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Petits génomes peu complexes

Grands génomesForte complexité

Mixage des deux approches

Page 18: CoursSequenAssemblageM1_2007

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

http://www.snv.jussieu.fr/vie/dossiers/genomes/index.htm

http://www.genoscope.fr/

http://www.takeda-foundation.jp/en/award/takeda/2001/fact/02.html

Quelques illustrations et idées empruntées à différents sites

http://www.nhgri.nih.gov/educationkit/video.html

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?call=bv.View..ShowTOC&rid=hmg.TOC&depth=1Ce site fait référence à un livre: Human Molecular Genetic 2, Tom stachan and Andrew P. Read, Bios Scientific Publisher, Ltd

http://www.univ-lille1.fr/pdv/labo/figdea.pdf

Page 19: CoursSequenAssemblageM1_2007

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Page 20: CoursSequenAssemblageM1_2007

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Assemblage des génomes

Page 21: CoursSequenAssemblageM1_2007

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

- Théorie du contigage- Outils d’assemblage

- Etapes de finition- Difficultés et résolution

Assemblage

AssemblerGenome scaffold

Ordered contig set

Gap closuresequence editing

Re-assembly

ONE ASSEMBLY!

Combinatorial PCR

AssemblerGenome scaffold

Ordered contig set

Gap closuresequence editing

Re-assembly

ONE ASSEMBLY!

Combinatorial PCR

Page 22: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

ATCGATGCGTAGCAGACTACCGTTACGATGCCTT…TAGCTACGCATCGTCTGATGGCAATGCTACGGAA…

ATCGATGC

GTAGC TAGCAGACTACCGTTGTTACGATGCCTT

TAGCTACGCATCGT

Procédure

Page 23: CoursSequenAssemblageM1_2007

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Procédure

ATCGATGCGTAGCTAGCAGACTACCGTTGTTACGATGCCTTTGCTACGCATCG CGATGCGTAGCA (sequence inv-compl)

ATCGATGCGTAGCTAGCAGACTACCGTTGTTACGATGCCTTCGATGCGTAGCA

Régions de chevauchements

……ATCGATGCGTAGCAGACTACCGTTACGATGCCTT……Contig ou Consensus

Page 24: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Théorie du contigage

Page 25: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

1 2 3 4 5 6 C

ouve

rture

Contig

Reads

La couverture d’un contig: un exemple

Pour prévoir une assez bonne couverture de ces contigs lors de l’assemblage, il existe une méthode statistique (Lander-Waterman) permettant de determiner le nombre de clones à séquencer, le nombre de contigs prévisibles.

Page 26: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

E(#ilôts) = Ne-cσ

E(taille des ilôts) = L(ecσ – 1) / c + 1 – σ

L = longueur de la lectureT = chevauchement minimumG = Taille du génomeN = Nombre de lecturesc = couverture (NL / G)σ = 1 – T/Lcontig = ilôts d’au moins 2 lectures

Théorie du contigage(Lander-Waterman statistics)

Page 27: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Chromobacterium violaceum genome project

Page 28: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Outils et programmes d’Assemblage

Page 29: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Le Defi !!!!

La mission s’apparente à resoudre un puzzle unidimentionnelle avec des centaines de milliers (voire des millions) de pieces et sans l’image d’origine, bien sur !!!!!!

Image original

Pièces du puzzle

Reconstruction de l’image

Page 30: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Comment s’y prendre ?

Chromatogramme Programmes d’assemblage Sequence complète

Page 31: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Sequençage automatique

Analyse informatique des images du gel:- “lane tracking“ – identifier chaque ligne -“trace processing“ – Estimation de l‘intensité du signal (et bruit de fond)- “lane profiling“ – Creation du profile (trace) de chaque chromatogramme- “base-calling“ – Transformation des profiles de bases (sequence)Le programme Phred est devenu quasi-standard pour le “base calling“

Page 32: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Base calling - Phred

Trace idéale consiste en: -pics espacés et non chevauchantes

Traces généralement obtenues different de l‘idéal à cause des:-imperfections des réactions de séquençage, de l‘électrophorèse, ou du “trace processing“

Extremités de la trace

Qualité supérieure– Aucune ambiguité

Qualité moyenne – quelques ambiguités

Qualité faible – confiance faible

Taux d’erreurs varient de 1-17%

Page 33: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Phred quality values

q = - 10 × log10 (p)

avec:q - quality valuep - estimated probability error for a base call

Examples:

q = 20 means p = 10-2 (1 error in 100 bases)q = 40 means p = 10-4 (1 error in 10,000 bases)

Page 34: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

PhredTaches effectués par Phred:

a. Lire les traces – compatible avec la plupart des formats de sequences: SCF (standard), ABI (373/377/3700), ESD (MegaBACE) and LI-COR.

b. “Base Calling”

c. Assigne une valeur qualité à chaque base.

d. Créer un fichier de séquence et un fichier qualité

e. Modifier les chromatogrammes (“vector trimming”)

Page 35: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Phred

phred .phd.1

BEGIN_SEQUENCE a112e211b.bBEGIN_COMMENTCHROMAT_FILE: a112e211b.bABI_THUMBPRINT: 0PHRED_VERSION: 0.000925.cCALL_METHOD: phredQUALITY_LEVELS: 99TIME: Mon Jan 15 11:27:01 2001TRACE_ARRAY_MIN_INDEX: 0TRACE_ARRAY_MAX_INDEX: 10499TRIM: 96 494 0.0500CHEM: termDYE: bigEND_COMMENTBEGIN_DNAn 0 5t 4 24t 6 35g 6 44a 6 71g 6 92t 6 100t 15 114...

phd2fasta

>a112a1.b ...ACTGCTCGATGTGTGTGACTGCTAGCTAGCTAGTC...>a112a2.bACTGCATGTTCGATCGTAGC...

>a112a1.b ...10 12 15 12 17 2025 30 33 31 32 ...>a112a2.b7 8 5 11 15 19 20...

Projet.fasta

Projet.fasta.qual

Page 36: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Phred

Crossmatch

Séquencesde vecteurs

>a112a1.b ...XXXXXXXXXXXXGTGTGACTGCTAGCTAGCTAGTC...>a112a2.bACTGCATGTTCGATCGTAGC...

Projet.fasta.screen

>a112a1.b ...ACTGCTCGATGTGTGTGACTGCTAGCTAGCTAGTC...>a112a2.bACTGCATGTTCGATCGTAGC...

Projet.fasta

Projet.fasta.qual Projet.fasta.screen.qual

Assemblage

Page 37: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

• Nommage des séquences – Format des sequences ABI, SCF– Les séquences du même clone ont le même prefix– L’orientation des séquences est matérialisée par g ou b / f ou r

• Longueur des clones sequencés doit etre définis

Taille du clone

KT000234.g.SCF KT000234.b.SCF

Si séquences provenant des BACs, on effectue également une codification de ces séquences

Formats et Codification des séquences

Page 38: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Le système Phred-Phrap-Consed

• Lire tous les fichiers de séquences (10-10,000)• Reverse complemente toutes les séquences (double le # de séquences à aligner)• Alignement multiple de ces séquences afin

d’obtenir une séquence unique

Page 39: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Phrap

1)Rechercher les pairs de séquences chevauchantes

2)Construire l’alignement multiple

3)Améliorer l’alignement multiple

Page 40: CoursSequenAssemblageM1_2007

Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

-Compare chaque séquence (et son reverse-complement) avec chacune des autres séquences

-Génère une liste des régions ayant certains critères de similarités de séquences.

Paramètres importants: minimum overlap length, stringency (% of bases identiques), and minimum repeat length.

1) Rechercher les paires de séquences chevauchantes

Page 41: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Chevauchement entre deux séquences

…AGCCTAGACCTACAGGATGCGCGGACACGTAGCCAGGAC CAGTACTTGGATGCGCTGACACGTAGCTTATCCGGT…

overlap (19 bases) overhang (6 bases)

overhangoverlap - region of similarity between regionsoverhang - un-aligned ends of the sequences

Formation des paires de séquences chevauchantes basée sur: • length of overlap• % identity in overlap region• maximum overhang size.

% identity = 18/19 % = 94.7%

Page 42: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Phrap

18

35

36

82

79

54

Une séquence peut avoir plusieurs régions chevauchantes

1) Rechercher les paires de séquences chevauchantes

Page 43: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

1 8 35

36 8

2

79

54

1) Rechercher les paires de séquences chevauchantes

Page 44: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

18 3 5

36 8

2

7 95 4

18 2

Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences

2) Construire l’alignement multiple

Page 45: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

35

36

79

54

18

2

2) Construire l’alignement multiple

Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences

Page 46: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

35

36

79

54

18

2

536

2) Construire l’alignement multiple

Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences

Page 47: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

79

54

18

2

536

2) Construire l’alignement multiple

Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences

Page 48: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

79

54

18

2

53

6

4

2) Construire l’alignement multiple

Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences

Page 49: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

79

18

2

53

6

4

2) Construire l’alignement multiple

Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences

Page 50: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

• Introduction de gaps dans les alignements de séquences si cela doit ameliorer les alignements.

• Paramètres:• gap creation penalty (default 2.0)• gap extension penalty (default (0.1)

3) Améliorer l’alignement multiple

Page 51: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Au final

Page 52: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

ConsedMenus de navigation

Mismatch en rouge

Séquencedu contig

Outils de navigation

Page 53: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Consed

Page 54: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Création des Scaffolds(SuperContigs)

Page 55: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Contraintes sur les lectures-Les extrémités des lectures doivent avoir une orientation en

miroir l’un par rapport à l’autre -La distance entre deux lectures est connue (avec une certaine erreur expérimentale)

clone length

sequenced ends

F R

Page 56: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Création des scaffolds

Assembly

Scaffolding

“Ordonner et Orienter les contigs (non-chevauchants) le long du chromosome”

Page 57: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Linking informations

• Overlaps

• Mate-pair links

• Similarity links

• Physical markers

• Gene synteny

reference genome

physical map

Clone/Bac reads

Page 58: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

PCR combinatoire

A

B

DC

F

E

G

H

ABCDEFGH

ABCDEFGH

ABCDEFGH

ABCDEFGH

ABCDEFGH

ABCDEFGH

ABCDEFGH

ABCDEFGH

B--D

C--F

E--H

Page 59: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Assembly

Scaffolding

Reads 500-800 base-pairs

Contigs 5000-25000 bp

Scaffolds 50000-300000 bp

Page 60: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

FinitionFermeture des gaps

Page 61: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Shotgun

Finition

Temps

Shotgun

Finition

FINITION :-Correction des zones de basse qualité-Ordonnancement des contigs-Séquençage des parties manquantes

-gap de séquence-gap de clonage

-Réorganisation des séquences répétées

scaffold A scaffold B

physical gap

sequencing gaps

Page 62: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Problèmes associés à l’assemblage

•Banques Biaisées === Assemblage foireuxL’ensemble des clones des différentes banques utilisées doivent couvrir la presque totalité du génome à séquencer

•Tailles incorrects des Inserts

•Faible couverture

•Orientation inconnue des reads. ACGT or TGCA???

•Erreurs de séquençage

•Séquences repétées

Page 63: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Finishing repeats

RPT A RPT B

clones or PCR walks

STEP 1. Isolate repeat copiesSTEP 2. Assemble in isolationSTEP 3. Incorporate assembled repeats into rest of assembly

- TIGR Assembler can hold together previously assembled contigs

- Other assemblers: use repeat consensus as input to the assembler

Page 64: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

MTETVEDKVSHSITGLDILKGIVAAGAVISGTVATQTKVFTNESAVLEKTVEKTDALATNDTVVLGTISTSNSASSTSLSASESASTSASESASTSASTSASTSASESASTSASTSISASSTVVGSQTAAATEATAKKVEEDRKKPASDYVASVTNVNLQSYAKRRKRSVDSIEQLLASIKNAAVFSGNTIVNGAPAINASLNIAKSETKVYTGEGVDSVYRVPIYYKLKVTNDGSKLTFTYTVTYVNPKTNDLGNISSMRPGYSIYNSGTSTQTMLTLGSDLGKPSGVKNYITDKNGRQVLSYNTSTMTTQGSGYTWGNGAQMNGFFAKKGYGLTSSWTVPITGTDTSFTFTPYAARTDRIGINYFNGGGKVVESSTTSQSLSQSKSLSVSASQSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASGSASTSTSASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASVSASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASVSASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASASTSASASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASVSASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASASTSASASASTSASASASTSASASASISASESASTSASASASASTSASASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASGSASTSTSASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASVSASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASVSASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASVSASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSVSNSANHSNSQVGNTSGSTGKSQKELPNTGTESSIGSVLLGVLAAVTGIGLVAKRRKRDEEE

SASA repeat (4776 AA, 14Kb)from Streptococcus Pneumoniae - likely involved in cell adhesion

Page 65: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Programmes d’Assemblage des Séquences • Phrap - sequence assembly program (UNIX) –Systeme Phred-Phrap-Consed

http://www.phrap.org/• TIGR Assembler - microbial genomes (UNIX) http://www.tigr.org/softlab/assembler/• The Staden Package (UNIX) http://www.mrc-lmb.cam.ac.uk/pubseq/• GeneTool/ChromaTool/Sequencher (PC/Mac)• Arachne www-genome.wi.mit.edu/wga/• Celera Assembler• Paracel Genome Assembler www.paracel.com/products/pga.html• Stroll http://genetics.med.harvard.edu/~tchen/STROLL• Amass (Pattern Matching) bio.informatics.indiana.edu/sunkim/AMASS/• Phusion (SSAHA) Assembler Genome Research 2003 vol 13 p81-90• www.sanger.ac.uk/Software/analysis/SSAHA/• Euler (Eulerian path)

www.cs.ucsd.edu/groups/bioinformatics/software.html#euler• AMI based Assembler (Stochastic process) Bioinformatics 2003 vol 19 p22-29

Page 66: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

La séquence d’un génome doit être complète et de très haute qualité

La séquence du génome peut rester incomplète si une majorité des gènes a été trouvée

• C'est la stratégie initialement adoptée pour les microorganismes, y compris la levure.• Cependant, dans le cas de régions difficile à séquencer, cette exigence est très coûteuse en temps. Si quelques jours sont suffisants pour avoir un recouvrement de haute qualité de 90-95% d'un génome de procaryote, plusieurs semaines, voire plusieurs mois, seront nécessaires pour obtenir les 5-10% restants.

• C'est la stratégie adoptée pour les microorganismes par beaucoup d'industriels qui recherchent avant tout de nouvelles molécules. Ces données génomiques ne seront généralement pas publiées.• C'est la stratégie également adoptée pour les eucaryotes complexes dans le cas de l'hétérochromatine ou des régions trop répétées et apparemment vides de gènes. copies dites "de brouillon" (draft genome).

Approche de type recherche fondamentale

Approche de type recherche appliquée

Le problème de la qualité des génomes : deux écoles

Page 67: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

ABI3700

chromat_dir preTA phd_dirbase callingquality trimmingvector trimming

vector_dir

phd2fasta

.seq,.qual

phraprunTA

.asm

ta2ace.ace

ace2contig.contig

Consed

goBambus .mates

.stats .details .dot

.bases/.fasta/.contigs

repeatFinder

.repeats

preArachne

Arachne

.xml.links

.ps.reads

toArachne

arachne2gbrowse

Gbrowser

Exemple de pipeline de séquençage/assemblage

Page 68: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Quelques Succès

Page 69: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Sequencing SuccessesT7 bacteriophagecompleted in 198339,937 bp, 59 coded proteins

Escherichia colicompleted in 19984,639,221 bp, 4293 ORFs

Sacchoromyces cerevisaecompleted in 199612,069,252 bp, 5800 genes

Page 70: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Sequencing SuccessesCaenorhabditis eleganscompleted in 199895,078,296 bp, 19,099 genes

Drosophila melanogastercompleted in 2000116,117,226 bp, 13,601 genes

Homo sapiens1st draft completed in 20013,160,079,000 bp, 31,780 genes

Page 71: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Homo sapiens1st draft completed in 20013,160,079,000 bp, 31,780 genes

Page 72: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

The Genome Sequencing Era

1998 2000 1997 1999 1996 2001 2002

First microbial genomeH. influenzae

First eukaryote genomeYeast

E. coli

First multicellular animalC. elegans

Fruit fly

First higher plantArabidopsis

First mammalHomo sapiens

40 microbial genomes

malaria:mosquito

andparasite

First fishFugu

mouse

567 microbial genomes

18 microbial genomes

Page 73: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

• Génomes terminés• 521 Bactéries• 46 Archaea• 25 Eucaryotes

Situation au 31/08/2007 592

• Génomes en cours• 808 Bactéries• 33 Archaea• 397 Eucaryotes

1238

• Génomes attendus dans le (proche) futur• 1329 Bactéries• 79 Archaea• 422 Eucaryotes

1830

Avalanche de génomes

Page 74: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

• la variété dans la répétition :• souches différentes appartenant à la même espèce

• espèces différentes appartenant au même genre

8 Pseudomonas 3 Chlamydia 19 Streptococcus etc …

Mise en évidence d'une variabilité insoupçonnée

TendancesChez les procaryotes

7 souches differentes de E. coli 5 ……de Staphylococcus aureus etc …

Page 75: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

TendancesChez les procaryotes

2. Une plus grande diversité biologique et phylogénétiqueA. moins de pathogènes

• La proportion relative est passée en 2003 de 90% à 50% (reste stable)

• Cependant, beaucoup de compagnies privées continuent à séquencer beaucoup de génomes mais sans les publier. Par example, on estime que 14 souches différentes de Bacillus anthracis auraient été séquencées en 2002 aux Etats-Unis.

B. représentants d’embranchements peu ou pas étudiés

C’est un thermophile qui fixe l’azote atmosphérique et qui réduit des composés soufrés comme source d’énergie pour

faire de la photosynthèse en conditions anaérobies

Example : Chlorobium tepidum, bactérie modèle du phylum Chlorobia

Intérêts : mieux comprendre

les grands cycles énergétiques à

l’échelle planétaire

comment est apparue la

photosynthèse

Page 76: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

C. Plus de bactéries “utiles”

Tendances

dépollution

commensaux

intérêt agricole

intérêt industriel

• Shewanella oneidensis, Geobacter metallidurens métabolise l’uranium et de nombreux autres métaux lourds• Geobacter produit en plus de l'électricité

Bifidobacterium longum bactérie intestinale hydrolysant des polymères végétaux

Pseudomonas putida croît dans la rhizosphère et dépollue les sols

Nombreux organismes thermophiles, source d’enzymes faciles à purifier et très efficaces

Page 77: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

1. la variété dans la répétition :• souches différentes appartenant à la même espèce• espèces différentes appartenant au même genre

2. une plus grande diversité biologique et phylogénétiqueA. moins de pathogènesB. représentants d’embranchements peu ou pas étudiésC. plus de bactéries « utiles » :

• des génomes de plus en plus gros (qui sont faits de plus en plus vite) :

Tendances

contiennent un plus grand nombre de gènes que beaucoup d’eucaryotes simples comme les levures (12 Mb mais moins de 6000 protéines)

Streptomyces coelicolor (9,05 Mb, 7769 protéines)

Bradyrhizobium japonicum(9,1 Mb, 8317 protéines)

Chez les procaryotes

Page 78: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

TendancesChez les eucaryotes

1. Objectifs primaires• Grands organismes modèles et les organismes proches pouvant aider à

l’annotation de leurs génomes• Pathogènes, intérêt médical ou agronomique

Schizosaccharomyces pombe Arabidopsis thaliana Caenorhabditis elegans

Drosophila melanogaster

Saccharomyces cerevisiae

Fugu rubripes

Homo sapiens Tetrahodon

souris, rat chimpanzé

Anopheles gambiae Plasmodium falciparum Plasmodium yoelii yoelii

(Malaria)

Magnaporthe grisea

Oryza sativa

Candida albicans

Encephalitozoon cuniculi Microsporidie, pathogène des

voies respiratoires

Page 79: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

• microsporidies, nématodes, nombreux protozoaires, algues, Chlamydomonas

• nombreux champignons (40)

• plusieurs insectes (abeille, bombyx, ), mollusques, oursin

• plusieurs poissons, Xenope, poulet, dinde, bœuf, porc, chien, chat, cheval, mouton, kangourou, etc…

• Chou, café, blé, maïs, sorgho, coton, tomate, pomme de terre, haricot, canne à sucre, etc…

• pins (3), eucalyptus, chêne

2. Une ambition incroyable (due à une accélération technologique impressionnante)

TendancesChez les eucaryotes

Page 80: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

Une révolution majeure dans les techniques de séquençage

Progrès énormes dans les temps de calcul En 1995, pour H. influenzae, l’assemblage des contigs avait demandé 11 jours de temps de calculAujourd’hui, le même type de travail demande quelques minutes

Progrès impressionnant dans le temps nécessaire pour réaliser un projet :• au lieu de plusieurs semaines pour déterminer la séquence brute d'une bactérie, il ne faut plus que 2-3 jours• le séquençage du génome de la souris a été réalisé en un temps incroyablement court, et le chimpanzé vient d'être fini en moins d'un an

Les progrès technologiques

La génomique va plus vite que l’informatique En 1965, Moore avait prédit que la puissance des ordinateurs doublerait tous les deux ans. Jusqu’ici cette « loi » a été parfaitement respectée

Depuis 2 ans, la croissance de l’information contenue dans les séquences génomiques a pris une vitesse de doublement bien supérieure et semble même encore s’accélerer

Page 81: CoursSequenAssemblageM1_2007

Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II

ReferencesTIGR Assembler Sutton, G.G., et al., TIGR Assembler: A New Tool for Assembling Large

Shotgun Sequencing Projects. Genome Science and Technology, 1995. 1:9-19.phrap Green, P., PHRAP documentation: ALGORITHMS. 1994

http://www.phrap.org.phred Ewing B., Hillier L, Wendl M, Green P., Basecalling of automated

sequencer traces using phred. Genome Research, 1998, 8:175-194.consed Gordon, D., C. Abajian, P. Green. Consed: A graphical tool for sequence

finishing. Genome Research, 1998, 8:195-202.REPuter S. Kurtz, C. Schleiermacher, Fast Computation of Maximal Repeats in

Complete Genomes, Bioinformatics, 1999, 15(5):426-427Multiplex PCR Tettelin, H., et al., Optimized Multiplex PCR: Efficiently Closing a Whole-

Genome Shotgun Sequencing Project. Genomics, 1999. 62:500-507.Celera Assembler Myers, E.W. et al. 2000. A whole-genome assembly of Drosophila.

Science 287: 2196-2204.Arachne Batzoglou, S., et al. 2002. ARACHNE: a whole-genome shotgun

assembler. Genome Res 12: 177-189.Jaffe, D.B., et al. 2003. Whole-genome sequence assembly for

Mammalian genomes: arachne 2. Genome Res 13: 91-96.