-
THSE DE DOCTORAT DElUNIVERSIT PIERRE ET MARIE CURIE
Spcialit : Informatique
cole Doctorale Informatique, Tlcommunications et lectronique
(Paris)
Prsente et soutenue publiquement par
Gunola DRILLONle 25 fvrier 2013
Pour obtenir le grade de
DOCTEUR de lUNIVERSIT PIERRE ET MARIE CURIE
Analyse combinatoire des rarrangements chromosomiques
etreconstruction des gnomes ancestraux chez les eucaryotes
devant le jury compos de :
Dr. Hugues Roest Crollius RapporteurDr. ric Tannier
RapporteurPr. Guillaume Beslon Prsident du juryPr. Alain Denise
ExaminateurPr. Bernard Dujon ExaminateurPr. Alessandra Carbone
Directrice de thseDr. Gilles Fischer Directeur de thse
Universit Pierre & Marie Curie - Paris 6 Tl. Secrtariat : 01
42 34 68 3515 rue de lcole de mdecine Fax : 01 42 34 68 40
75270-PARIS CEDEX 06 E-mail : [email protected]
-
Dieu dit : Que les eaux grouillent dun grouillement dtres
vivants et que des oiseaux volentau-dessus de la terre contre le
firmament du ciel et il en fut ainsi.
Dieu cra les grands serpents de mer et tous les tres vivants qui
glissent et qui grouillent dansles eaux selon leur espce, et toute
la gent aile selon son espce,
et Dieu vit que cela tait bon.
Gn 1:20-21
-
Remerciements
Nombreuses sont les personnes que je souhaite remercier en cette
fin de thse...En tout premier lieu, je souhaite exprimer ma
reconnaissance mes deux rapporteurs, Hugues
Roest Crollius et ric Tannier, qui mont fait lhonneur dvaluer ce
travail de thse. Merci eux davoir pris le temps de relire ces
nombreuses pages. Et merci pour leurs remarques quimont permis de
finaliser proprement cette rdaction. Merci galement Guillaume
Beslon,Alain Denise et Bernard Dujon qui ont accept de faire partie
de mon jury. Je sais combien leurtemps tous est compt et je leur en
suis dautant plus reconnaissante. Je tiens galement les remercier
pour la gentillesse quils ont tous eu mon gard en cette priode
difficile, et rallonge, qua t la rdaction de cette thse.
Un grand merci mes deux directeurs de thse, Alessandra Carbone
et Gilles Fischer. Mercipour ce sujet, merci pour cette
co-direction. Je me souviens, comme si ctait hier, de notre
pre-mire entrevue mon retour dcosse (plus prcisment, ma descente
davion). La rponse nestait pas faite attendre, et javais commenc le
mois suivant. Merci pour ces quatre annes etdemie vos cts qui mont
permis de mieux dcouvrir la recherche, ainsi que la belle
compl-mentarit de la biologie et de linformatique.
Merci Alessandra, pour toutes les fois o tu mas largement
encourage aller prsentermon travail. Des tats-unis au Portugal, en
passant par lAllemagne et la France. A des math-maticiens et des
informaticiens comme des biologistes. Toutes ces rencontres ont t
richeset mont permis de mouvrir ces diffrents milieux. Merci pour
ton enthousiasme, pour tonoptimisme. Merci pour ta rigueur
scientifique dont jai beaucoup appris.
Merci Gilles, pour ta grande confiance, pour ton coute. Merci
pour nos longues discussionsscientifiques qui chaque fois me
permettaient de redmarrer, et ce, dans la bonne direction.Merci
pour le climat de respect mutuel qui rgnait entre nous, on pouvait
ainsi camper sur nosopinions respectives et en rediscuter avec
plaisir tous les 6 mois. Merci pour ta grande disponi-bilit, ta
grande pdagogie et ta bienveillance.
Je remercie tous les membres de mes deux quipes de recherche,
Gnomique Analytique etBiologie des Gnomes, sans qui cette thse
naurait pas t aussi agrable. Jai une pense touteparticulire pour
ceux qui ont t pour moi comme un grand frre et une grande sur
(pourtantce nest pas ce quil me manque !), Anthony et Linda, me
prcdant de quelques mois en tout.Merci pour votre exemple et votre
prcieux soutien. Vous avez t l au commencement, laPiti-Salptrire ;
et aprs votre soutenance, jai eu peur de ne pas survivre votre
dpart. Maislquipe est devenu un labo et de trois nous sommes pass
plusieurs dizaines. Un merci toutparticulier Anne qui a trs bien
repris lindispensable flambeau laiss par les deux autres (etqui le
garde). Merci galement Claire, notre gestionnaire, sans qui la vie
serait moins facile etmoins agrable. Merci Hugues, Ingrid, Hlne,
Alexandre, Nicolas, Juliana, Bogdan, Raphalet Elodie. Merci tous
pour ces moments partags. Merci galement Fred, Thierry,
Martin,Mathilde, Angela, Antonio, Jawad, Vittore et tout les autres
quil est toujours trs agrable de
-
croiser midi ou dans les couloirs.Merci galement tous mes
ex-colocs, et ils sont nombreux ! ... avoir partag ma vie quo-
tidienne, pendant quelques mois ou quelques annes depuis le
commencement de cette thse.Merci en particulier aux femmes qui mont
entoure : Anne et Juliette, Alinor, Jeane avec quijai partag ma
chambre, Rene avec qui jai beaucoup chang, Anny, Paulette avec ses
84 bou-gies, Annie si facile vivre, Sophie, Dorine, Fatou, Clmence,
Claudine qui nous a si souventfait manger, Claire, Jeanne et
Nathalne avec qui je me suis si bien entendue. Merci aux gar-ons
des tages du dessous et du dessus : Jean-Claude qui ma si souvent
serre dans ses bras,Michel qui ma invit bien des fois boire le caf,
Guillaume, Nicolas et Steven avec qui jai pupartager amiti et quais
de Seine, Luc, Flix et Ludovic, Daniel et son cigare, Danouz et sa
gen-tillesse, Bruno et Patoche, Thibault et Raymond, Antoine,
Steeve et son soutien inconditionnel,... Merci Thimothe et
Juliette, sans qui les dbuts auraient t bien diffrents. Merci
galement tous ceux qui habitaient plus loin mais qui ont galement t
bien prsents : Louis-Alexandreet Benjamin, Karim et Nordine,
Florence, Nasa et Olivier, Batrice, Arthur, Eugnie, Daphne
etMathilde, Pierre et Juliette, Yves, Loc et Damien, Bruno, Sacha,
Hubert, Ivan... et tant dautres.Merci tous pour votre amiti ! Un
grand merci tienne et Martin qui mont permis de vivrependant trois
ans cette exprience tellement riche (et dhabiter, accessoirement,
sur lle de lacit, face la rosace nord de Notre-Dame) qui a quilibr
ma vie et qui ma sans hsitationpermis de vivre au mieux cette
thse.
Merci galement ma famille, pour leur encouragement, leur
confiance inbranlable, mmesi jimagine que tout cela leur paraissait
bien loin... mais quel bonheur denfin faire des tudesquaucun de mes
frres ou surs navait fait auparavant (bien que je ne sois pas le
premierdocteur). Vous tiez nombreux vous tre dplacs pour pouvoir
assister ma soutenance etjen ai t trs touche. Un dernier grand
Merci ma maman, ainsi qu ma cousine Caro et ma nice Marie, pour
leur contribution la correction orthographique de cette thse.
-
Table des matires
Introduction Gnrale 13
I INTRODUCTION 17
1 Introduction la biologie des gnomes 191.1 Structure des gnomes
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.1.1 La molcule dADN . . . . . . . . . . . . . . . . . . . . .
. . . . . . 201.1.2 Chromosomes et gnomes . . . . . . . . . . . . .
. . . . . . . . . . . 211.1.3 Gnes et protines . . . . . . . . . .
. . . . . . . . . . . . . . . . . . 221.1.4 lments transposables et
squences rptes . . . . . . . . . . . . . . 24
1.2 Fonctionnement et volution des gnomes . . . . . . . . . . .
. . . . . . . . . 241.2.1 Miose et mitose . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . 241.2.2 Mutation et homologie . . .
. . . . . . . . . . . . . . . . . . . . . . . 251.2.3 Rarrangements
et principe de parcimonie . . . . . . . . . . . . . . . . 261.2.4
Blocs de syntnie et points de cassure . . . . . . . . . . . . . . .
. . . 281.2.5 Syntnie et gnomique comparative . . . . . . . . . . .
. . . . . . . . 30
1.3 Diffrences structurelles et fonctionnelles majeures entre
les gnomes de levureset de vertbrs . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . 33
2 Introduction aux diffrentes problmatiques abordes 352.1
Identification des blocs de syntnie . . . . . . . . . . . . . . . .
. . . . . . . . 35
2.1.1 Les diffrentes mthodes . . . . . . . . . . . . . . . . . .
. . . . . . . 352.1.2 Des blocs de syntnie en vue des
reconstructions ancestrales . . . . . . 38
2.2 Reconstruction de larbre phylogntique . . . . . . . . . . .
. . . . . . . . . 392.2.1 Quest-ce quun arbre phylogntique ? . . .
. . . . . . . . . . . . . . 392.2.2 Les diffrents types de donnes
pour infrer une phylognie . . . . . . 422.2.3 Les diffrentes
mthodes de reconstruction . . . . . . . . . . . . . . . 452.2.4
Limites des approches prcdentes . . . . . . . . . . . . . . . . . .
. . 49
2.3 Identification des rarrangements chromosomiques . . . . . .
. . . . . . . . . 50
7
-
2.3.1 Lidentification des points de cassure lis . . . . . . . .
. . . . . . . . 502.3.2 La r-utilisation des points de cassure . .
. . . . . . . . . . . . . . . . 572.3.3 Les diffrents modles
dvelopps . . . . . . . . . . . . . . . . . . . . 602.3.4 La ncessit
dune nouvelle approche . . . . . . . . . . . . . . . . . . 66
2.4 Reconstruction des gnomes ancestraux . . . . . . . . . . . .
. . . . . . . . . 662.4.1 Les diffrents modles dvelopps . . . . . .
. . . . . . . . . . . . . . 672.4.2 Les bases dune nouvelle
approche . . . . . . . . . . . . . . . . . . . . 71
II LES BLOCS DE SYNTNIE 73
3 Algorithme didentification des blocs de syntnie 753.1 Mthode
didentification des blocs de syntnie . . . . . . . . . . . . . . .
. . . 75
3.1.1 Identification des RBH . . . . . . . . . . . . . . . . . .
. . . . . . . . 763.1.2 Identification des blocs de syntnie . . . .
. . . . . . . . . . . . . . . 763.1.3 Compltion des blocs de
syntnie . . . . . . . . . . . . . . . . . . . . 793.1.4 Dfinition
du signe des blocs de syntnie . . . . . . . . . . . . . . . .
81
3.2 Implmentation de lalgorithme SynChro . . . . . . . . . . . .
. . . . . . . . . 823.2.1 Donnes en entre . . . . . . . . . . . . .
. . . . . . . . . . . . . . . 823.2.2 Donnes en sortie . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . 83
3.3 Avantages et amliorations possibles . . . . . . . . . . . .
. . . . . . . . . . . 86
4 Analyse compare de la syntnie entre les levures et les vertbrs
894.1 Espces et phylognie . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . 90
4.1.1 Choix des espces . . . . . . . . . . . . . . . . . . . . .
. . . . . . . 904.1.2 Arbres phylogntiques associs . . . . . . . .
. . . . . . . . . . . . . 904.1.3 Choix dune chelle volutive
commune . . . . . . . . . . . . . . . . . 92
4.2 La syntnie et ses limites . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . 944.2.1 Saturation du signal chez les
levures . . . . . . . . . . . . . . . . . . . 944.2.2 Signal biais
chez les vertbrs . . . . . . . . . . . . . . . . . . . . . .
954.2.3 Perte de la syntnie ou perte des relations dhomologie ? . .
. . . . . . 98
4.3 Diffrents taux de rarrangements . . . . . . . . . . . . . .
. . . . . . . . . . 1004.3.1 Une grande varit de taux au sein mme
des sous-phylums . . . . . . 1014.3.2 Une grande variabilit entre
levures et vertbrs . . . . . . . . . . . . . 102
4.4 Diffrents modes dvolution : micro-syntnie vs mso-syntnie . .
. . . . . . 105
III LARBRE PHYLOGNTIQUE 109
5 Algorithme de reconstruction phylogntique 111
-
5.1 Principe de la mthode de reconstruction des arbres
phylogntiques . . . . . . 1125.1.1 Exemple pour 4 gnomes et m blocs
communs . . . . . . . . . . . . . 1135.1.2 Exemple pour n gnomes et
m blocs communs . . . . . . . . . . . . . 1145.1.3 Exemple pour n
gnomes et des blocs spcifiques chaque comparaison 116
5.2 Dune comparaison deux deux une comparaison multiple . . . .
. . . . . . 1175.2.1 Le cas des blocs successifs ou chevauchants .
. . . . . . . . . . . . . . 1185.2.2 Le cas des blocs inclus . . .
. . . . . . . . . . . . . . . . . . . . . . . 1265.2.3 Le cas des
blocs tlomriques . . . . . . . . . . . . . . . . . . . . . .
127
5.3 Algorithme de reconstruction des arbres phylogntiques :
PhyChro . . . . . . 1275.3.1 Identification des paires de groupes
incompatibles . . . . . . . . . . . 1275.3.2 Dfinition de deux
distances entre gnomes din et dout . . . . . . . . . 1285.3.3
Reconstruction de larbre phylogntique . . . . . . . . . . . . . . .
. 129
6 Analyse des reconstructions phylogntiques chez les levures et
les vertbrs 1336.1 Reconstruction des arbres partir des squences
protiques . . . . . . . . . . . 133
6.1.1 Mthodologie utilise . . . . . . . . . . . . . . . . . . .
. . . . . . . 1336.1.2 Comparaison aux donnes publies . . . . . . .
. . . . . . . . . . . . 135
6.2 Reconstruction des arbres partir des adjacences
incompatibles des blocs desyntnie . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . 1356.2.1 Arbres
phylogntiques reconstruits . . . . . . . . . . . . . . . . . . .
1356.2.2 Les modifications/amliorations possibles . . . . . . . . .
. . . . . . . 1386.2.3 Longueur des branches et validit des nuds .
. . . . . . . . . . . . . 1396.2.4 Validation de certaines
positions laide dadjacences incompatibles de
gnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . 1416.2.5 Conclusion sur cette mthode de reconstruction .
. . . . . . . . . . . . 144
IV LES RARRANGEMENTS CHROMOSOMIQUES 145
7 Algorithme didentification des rarrangements chromosomiques
1477.1 Aperu des macro-rarrangements par liaison de points de
cassure . . . . . . . 148
7.1.1 La validation dun maximum dadjacences ancestrales . . . .
. . . . . 1487.1.2 Estimation du nombre de rarrangements et du taux
de r-utilisation des
points de cassure . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . 1507.1.3 Traitement des points de cassure ambigus . . .
. . . . . . . . . . . . . 157
7.2 Construction des cycles pour des gnomes contenant des blocs
et des paquets desyntnie . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . 1577.2.1 Contexte et comprhension
biologique . . . . . . . . . . . . . . . . . . 1577.2.2 Dfinition
dun paquet de syntnie . . . . . . . . . . . . . . . . . . . .
1597.2.3 Illustration simple des diffrents cycles associs un paquet
de syntnie 162
-
7.2.4 Avantages dutiliser les paquets de syntnie . . . . . . . .
. . . . . . . 1627.2.5 Algorithme de validation des cycles les plus
parcimonieux : ReChro . . 166
8 Analyse compare des caractristiques des rarrangements entre
les levures et lesvertbrs 1718.1 Le taux de r-utilisation des
points de cassure . . . . . . . . . . . . . . . . . . 172
8.1.1 Calcul de la composante due lalatoire . . . . . . . . . .
. . . . . . 1728.1.2 Interprtation de la composante due la fragilit
de certains points de
cassure . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . 1768.1.3 Une surestimation du taux de r-utilisation
chez les vertbrs . . . . . . 178
8.2 Inter-dpendance des rarrangements, causs par lutilisation
des mmes pointsde cassure . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . 1808.2.1 Apparition de trs grands
cycles chez les levures . . . . . . . . . . . . 1808.2.2 Le modle
dErds-Renyi et le processus de percolation . . . . . . . . 181
V LES GNOMES ANCESTRAUX 185
9 Algorithme de reconstruction des gnomes ancestraux 1879.1
Principe de reconstruction dun gnome ancestral . . . . . . . . . .
. . . . . . 187
9.1.1 Choix des arguments . . . . . . . . . . . . . . . . . . .
. . . . . . . . 1889.1.2 Lalgorithme : AnChro . . . . . . . . . . .
. . . . . . . . . . . . . . . 191
9.2 Dtermination des adjacences ancestrales . . . . . . . . . .
. . . . . . . . . . 1939.2.1 Les cycles . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . 1939.2.2 Les chemins de
longueur impaire . . . . . . . . . . . . . . . . . . . . 1979.2.3
Les chemins de longueur paire . . . . . . . . . . . . . . . . . . .
. . . 199
9.3 Reconstruction des scaffolds ancestraux version G1 et
version G2 . . . . . . . . 2009.3.1 Des adjacences ancestrales aux
scaffolds ancestraux . . . . . . . . . . 2019.3.2 Des suites de
blocs de syntnie aux suites de gnes . . . . . . . . . . . 201
9.4 Identification des micro-rarrangements par tri par inversion
. . . . . . . . . . 2039.4.1 Construction de micro-blocs de syntnie
. . . . . . . . . . . . . . . . . 2049.4.2 Dltion des blocs et des
gnes dupliqus . . . . . . . . . . . . . . . . 2049.4.3 Tri par
inversion de ces blocs . . . . . . . . . . . . . . . . . . . . . .
. 207
10 Analyse des gnomes ancestraux reconstruits chez les levures
et les vertbrs 21310.1 Analyse de lensemble des reconstructions . .
. . . . . . . . . . . . . . . . . . 214
10.1.1 Dfinition des gnomes ancestraux . . . . . . . . . . . . .
. . . . . . . 21410.1.2 Rcapitulatifs de lensemble des
reconstructions . . . . . . . . . . . . 21610.1.3 Choix des
meilleures reconstructions . . . . . . . . . . . . . . . . . .
222
10.2 Comparaisons aux rsultats des mthodes existantes . . . . .
. . . . . . . . . . 227
-
10.2.1 Lanctre pr-duplication chez les levures (S2) . . . . . .
. . . . . . . 22710.2.2 Lanctre des Protoplodes chez les levures
(S6) . . . . . . . . . . . . . 23310.2.3 Lanctre des boroeuthriens
chez les vertbrs (A6) . . . . . . . . . . 235
Conclusions Gnrales et Perspectives 239
Bibliographie 243
Articles 257
Rsum 297
-
12
-
Introduction Gnrale
volution des gnomes
Le gnome est lensemble de linformation hrditaire dun organisme.
Comme un manuelde survie, cette information permet un organisme et
ses cellules de se dvelopper, de vivre ensubvenant leurs besoins et
de se reproduire. Elle est dite hrditaire, car elle est
intgralementcopie/duplique puis transmise de gnration en gnration,
de cellule-mre cellule-fille. Elleest extrmement prcise. Une erreur
lors de la duplication peut parfois tre fatale lorganisme,ou la
cellule, qui la reoit. Et si elle nest pas fatale, elle peut alors
tre dsavantageuse. Il existedonc toute une batterie de mcanismes de
contrle et de rparation pour assurer une transmissionfidle de la
structure des chromosomes et de linformation gntique quils
contiennent.
Dun autre ct, si les mcanismes de contrle taient infaillibles,
les gnomes seraient figs,incapables de sadapter des changements
environnementaux, comme une hausse des tempra-tures, une pnurie de
certains nutriments, etc. Car si certaines mutations sont
dsavantageusesou neutres, sans aucun effet, il en existe aussi qui
apportent un avantage. Cest ce qui pourraitexpliquer, par exemple,
le fait que certains gnes, mutagnes (augmentant le nombre de
muta-tions dans la population) et utiliss en dernier recours lors
de dommages non-rparables fait lADN [Lemontt, 1971], aient t gards
au cours de lvolution ; comme si la perte de quelquesindividus, en
change dune transmission moins fidle, tait plus avantageuse quune
populationavec une plus faible diversit gntique.
Lvolution des gnomes correspond donc cet quilibre entre
transmission fidle et crationde diversit gntique. Depuis la thorie
de lvolution de Darwin, de nombreux progrs ont traliss dans ce
domaine, mais ces diffrentes forces contrlant la structure des
gnomes sontencore mal connues et de nombreuses dcouvertes restent
faire.
Mutations ponctuelles et rarrangements chromosomiques
La biologie volutive sest pendant longtemps intresse aux
mutations ponctuelles, ce sontdes mutations de lADN qui peuvent
affecter les gnes. Elles taient vues comme les principalesforces
volutives, en effet, les gnes taient quant eux vus comme la
principale informationhrditaire. Ce nest que rcemment, que lon a
pris conscience que la structure des gnomes,de leurs chromosomes,
constitue galement une information hrditaire importante. La
posi-tion des gnes (placs cte cte ou priodiquement), leurs nombres
de copies, la position des
13
-
14 Introduction Gnrale
origines de rplication, la position des histones, etc... sont
autant dinformations, gntiques etpigntiques, transmises de gnration
en gnration. Et cette structure, qui nest pas affec-te par les
mutations ponctuelles, peut ltre par des rarrangements
chromosomiques. Ce sontdes macro-mutations, pouvant parfois
concerner des parties entires de chromosomes, des chro-mosomes
entiers ou des gnomes entiers, ces dernires peuvent alors se
trouver soit supprimes,soit dupliques ou encore dplaces sur un
autre (ou le mme) chromosome. Ces rarrangementschromosomiques sont
des vnements rares, mais lorsque lon compare entre elles des
espcesapparentes, on constate quand mme un niveau incroyable de
rorganisation des cartes chromo-somiques. Le travail au cours de
cette thse sintresse ces rarrangements chromosomiques.
Une combinatoire complexe
Aujourdhui, les donnes gnomiques sont disponibles en trs grande
quantit (d aux nou-velles technologies de squenage), elles ont une
trs bonne rsolution (au nuclotide prs), ellessont dune grande
fiabilit (moins dune erreur pour mille nuclotides), elles cotent de
moinsen moins cher et elles sont de plus en plus rapides obtenir. A
titre dexemple, il y a aujourdhui183 gnomes deucaryotes totalement
squencs [GOLD : www.genomesonline.org], environ480 autres en grande
partie squencs et au moins 700 autres dont le squenage est en
cours,alors que le gnome humain est squenc depuis moins de dix ans
(aprs un travail qui a durquinze annes environ). On est donc
beaucoup plus mme, aujourdhui, de rflchir toutes cesquestions quon
ne ltait il y a 5 ans. Ce nouveau champ de possibilits transparait
galementau travers de projets, comme celui des 1000 gnomes humain
par exemple, qui sintressent ladiversit intra-spcifique.
Mais cette quantit astronomique de donnes implique
obligatoirement un travail interdisci-plinaire. De plus, ltude de
la structure des gnomes et des rarrangements chromosomiquesimplique
une approche globale. Contrairement au raisonnement lchelle du gne,
le raisonne-ment lchelle du gnome demande un niveau dabstraction
suprieur et implique une combi-natoire plus complexe. Donc si la
problmatique est biologique, les mathmatiques et linforma-tique
sont indispensables pour (i) traiter efficacement la grande quantit
de donnes disponibles,(ii) traiter la complexit de la combinatoire
des rarrangements chromosomiques et (iii) russir formaliser les
diffrentes problmatiques biologiques.
Quatre questions biologiques, quatre mthodes informatiques,
quatre rsultats biologiques
Cette thse cherche donc mieux comprendre les mcanismes des
rarrangements chromo-somiques, ainsi que leurs causes et leurs
effets sur la structure des gnomes. Pour cela, elleessaie, dans
chacune de ses parties (si on omet la partie introductive), de
rpondre aux quatregrandes questions suivantes : (Partie II) Quelle
organisation des chromosomes a t conserve,au cours de lvolution,
entre les diffrents gnomes ? (Partie III) Est-ce que linformation
conte-nue dans ces adjacences ancestrales non affectes par les
rarrangements peut nous permettre de
www.genomesonline.org
-
Introduction Gnrale 15
reconstruire lhistoire volutive de ces gnomes ? (Partie IV)
Quels rarrangements ont eu lieu ?Quelles rgions ont t impliques
dans ces rarrangements ? (Partie V) Quelle tait la structuredes
gnomes ancestraux ?
Pour y rpondre, nous avons dvelopp quatre approches
algorithmiques : SynChro, Phy-Chro, ReChro et AnChro. Ces quatre
mthodes sont distinctes mais galement intrinsquementlies, comme
lillustre la Figure 1 et comme le sont dailleurs les questions
auxquelles elles es-saient de rpondre. Ces mthodes, ainsi que leurs
rsultats, sont dtailles dans les quatre partiesde cette thse.
Actual Genomes
Ancestral Genomes
II - SynChro III - PhyChro
IV - ReChro V - AnChro
Genome C
Genome A
Genome B
Genome B
Genome A
Genome C
Genome A
Genome B
Genome C
Genome C
Genome A
Genome B
Ancestral
Genome
1 translocation
1 translocation
.
A
B C
AB
C
1
2
3
1
7
8
4
5
6
2
3
4
5
6
2
8
4
5
6
7
8
1
2
3
4
5
6
7
8
4
5
6
2
3
1
7
8
1
7
3
4
5
6
2
8
1
7
3
Genome
Genome
A
B C
AB
C
1 translocation 2 translocations1 translocation
1
7
8
4
5
6
2
3
?
Figure 1 Schmatisation de limbrication des quatre programmes
SynChro, PhyChro, ReChro et AnChro.Les quatre programmes ont des
sorties intermdiaires propres, mais lensemble permet, partir des
gnomes desespces actuelles, de reconstruire les gnomes de leurs
derniers anctres communs.
-
16 Introduction Gnrale
-
Partie I
INTRODUCTION
17
-
Chapitre 1
Introduction la biologie des gnomes
Sommaire1.1 Structure des gnomes . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . 20
1.1.1 La molcule dADN . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . 20
1.1.2 Chromosomes et gnomes . . . . . . . . . . . . . . . . . .
. . . . . . . . . . 21
1.1.3 Gnes et protines . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . 22
1.1.4 lments transposables et squences rptes . . . . . . . . . .
. . . . . . . . 24
1.2 Fonctionnement et volution des gnomes . . . . . . . . . . .
. . . . . . . . . . . . 24
1.2.1 Miose et mitose . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . 24
1.2.2 Mutation et homologie . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . 25
1.2.3 Rarrangements et principe de parcimonie . . . . . . . . .
. . . . . . . . . . . 26
1.2.4 Blocs de syntnie et points de cassure . . . . . . . . . .
. . . . . . . . . . . . 28
1.2.5 Syntnie et gnomique comparative . . . . . . . . . . . . .
. . . . . . . . . . 30
1.3 Diffrences structurelles et fonctionnelles majeures entre
les gnomes de levures etde vertbrs . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . 33
Ce premier chapitre introduit quelques notions de biologie
indispensables la comprhen-sion des diffrentes problmatiques
abordes au cours de cette thse. En effet, pour comprendreles dfis
que sont les reconstructions des rarrangements chromosomiques et
des gnomes an-cestraux, il est important de comprendre la structure
des gnomes. Plus de dtails pourront tretrouvs dans les livres
suivant [Li, 1997; Pevzner, 2000; Alberts et al., 2002; Lynch,
2007; Fertinet al., 2009].
Les diffrences structurelles et fonctionnelles, entre les gnomes
de levures et de vertbrs,seront galement abordes. En effet, toutes
les mthodes dveloppes aux cours de cette thseont t appliques ces
deux sous-phylums deucaryotes. De plus, pour certains rsultats,
desanalyses compares ont t ralises entre les levures et les vertbrs
(Chapitre 4 & 8).
19
-
20 Chapitre 1. Introduction la biologie des gnomes
BA
AT
CG
AT
AT
C G
A T
C G
C G
CG
A T
CG
A T
CG C
AT AT
AT
C GC
C
C GG
ATA
A TA T
A TA T
CGCG
A TA T
ATAT
CGG
5'
3'5' 5'
3'
3'
3'
5'
Cytosine
Thymine
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O
O_
O_
O_
O_
O_
_O
NH2
OH
OH
NH
H2N
HN
NH2
H2N
HN
H2N
NH
NH2
3'
Extrmit 5'
Extrmit
3'
5'
Figure 1.1 (A) La structure chimique de lADN : une double hlice
compose de deux brins antiparallles :5 3 et 3 5. Chaque brin est un
polymre de nuclotides relis entre eux par des liaisons
phosphodiesters.(B) Rplication semi-conservative durant laquelle la
molcule dADN se copie intgralement grce la com-plmentarit des
bases, chaque nouvelle copie est constitue dun brin parental (bleu)
et dun brin no-synthtis(vert).
1.1 Structure des gnomes
1.1.1 La molcule dADN
Un nuclotide est une molcule organique compose de trois parties
: une base azote, unsucre et un groupement phosphate. Le type du
nuclotide est dtermin par sa base azote. Ilexiste cinq bases azotes
diffrentes et donc cinq nuclotides diffrents : ladnine (A), la
cyto-sine (C), la guanine (G), la thymine (T) et lUracile (U).
Ces bases se dcomposent en deux classes : les bases pyrimidiques
(cytosine, uracile et thy-mine) et les bases puriques (adnine et
guanine). La thymine et luracile sont complmentairesde ladnine
(grce la formation de deux liaisons hydrogne) et la cytosine est
complmentairede la guanine (grce la formation de trois liaisons
hydrogne).
Une molcule dacide dsoxyribonuclique (ADN) se compose de quatre
nuclotides, eux-mmes composs dune des quatre bases azotes A, T, G
et C, dun dsoxyribose et dun grou-pement phosphate (Figure 1.1A).
Sa structure est une double hlice compose de deux brins.Chaque brin
est un polymre de nuclotides relis entre eux par une liaison
phosphodiester : lepremier nuclotide prsente un groupement
phosphate libre sur son cinquime carbone et il estreli au niveau de
son troisime carbone au phosphate du deuxime nuclotide et ainsi de
suitejusquau dernier nuclotide de la chaine qui prsente un
groupement hydroxyle au niveau de sontroisime carbone. Chaque brin
dADN est donc polaris de 5 3. Deux brins antiparalllesforment une
double hlice grce la complmentarit des nuclotides A-T et G-C
(Figure 1.1A).
-
1.1. Structure des gnomes 21
La complmentarit des bases permettent la molcule dADN en double
hlice de se r-pliquer en deux ADN identiques avant chaque division
cellulaire. Durant cette rplication, lesdeux brins dADN se sparent
et sont rpliqus, ce qui conduit deux nouvelle molcule dADNchacune
constitue dun ancien brin, issu de la molcule parentale, et dun
nouveau brin, issu dela rplication en respectant la complmentarit
des bases (A-C et G-T) (Figure 1.1B). LADNpermet donc de stocker,
maintenir et transmettre linformation gntique dun organisme.
Les nuclotides sont galement les units de base des acides
ribonucliques (ARNs). Ce sontdes molcules trs proches chimiquement
de lADN et elles sont dailleurs en gnral synthti-ses dans les
cellules partir dune matrice dADN dont elles sont une copie. Il
existe, cependant,des diffrences importantes : (i) dans les ARNs,
le sucre des nuclotides est un ribose ( la placedu dsoxyribose de
lADN), ce qui rend lARN chimiquement plus instable ; (ii) luracile
estutilis la place de la thymine et (iii) lARN est le plus souvent
trouv dans les cellules sousforme de simple brin.
1.1.2 Chromosomes et gnomes
Le gnome est lensemble du matriel gntique, dun individu ou dune
espce, cod dansson ADN, lexception de certains virus dont le gnome
est port par des molcules dARN.Dun organisme lautre, lorganisation
du gnome peut diffrer. Il peut tre compos dune ouplusieurs molcules
dADN, ce qui aura un impact important sur la complexit du problme
dela reconstruction des rarrangements chromosomiques et des gnomes
ancestraux.
Chez les procaryotes (bactries et arches), le gnome se situe
dans le cytoplasme des cel-lules. Il est gnralement contenu dans
une molcule dADN circulaire (appel chromosome).Mais il existe de
nombreuses exceptions : certaines espces peuvent avoir plusieurs
chromo-somes circulaires, ou un unique chromosome linaire, ou
encore un chromosome linaire et unchromosome circulaire [Hinnebusch
et Tilly, 1993]. Il peut aussi exister une composante
extra-chromosomique contenue dans des plasmides et des pisomes.
Chez les eucaryotes, on distingue : (i) lADN nuclaire compos de
plusieurs chromosomeslinaires, contenu dans le noyau des cellules
(lment qui caractrise les cellules eucaryotes) ;(ii) lADN
non-nuclaire, contenu dans des organites, i.e. le chromosome
mitochondrial, contenudans les mitochondries (chez la quasi totalit
des eucaryotes), et le chromosome chloroplas-tique, contenu dans
les chloroplastes des organismes photosynthtiques (algues et
plantes). Chezquelques eucaryotes (par exemple la levure) sont
aussi prsents des plasmides (de taille rduite).Lorsque lon parle du
gnome dun eucaryote (animal, plante, champignon, etc.), on
sous-entendsouvent le gnome nuclaire. En particulier, cest bien les
gnomes nuclaires ancestraux quoncherche reconstruire durant cette
thse.
Chez les eucaryotes, les chromosomes linaires sont caractriss,
chez la plupart des orga-nismes, par un centromre et deux tlomres.
Le centromre partage le chromosome en deuxbras (gauche et droit) et
il est indispensable au bon droulement des divisions cellulaires.
Les
-
22 Chapitre 1. Introduction la biologie des gnomes
Espce Taille Nombre de Gnes Rfrence
Escherichia coli (Bactrie) 4,6 Mb 4 300 [Blattner et al.,
1997]Saccharomyces cerevisiae (Champignon) 12,1 Mb 6 000 [Goffeau
et al., 1996]Paramecium tetraurelia (Protozoaire) 72,0 Mb 40 000
[Aury et al., 2006]Arabidopsis thaliana (Plante) 157,0 Mb 25 000
[Bennett et al., 2003]Drosophila melanogaster (Animal) 180,0 Mb 15
000 [Adams et al., 2000]Homo sapiens (Animal) 3 400,0 Mb 22 000
[the IHGSC, 2001]Paris japonica (Plante) 150 000,0 Mb ? [Pellicer
et al., 2010]Amoeba dubia (Protiste) 670 000,0 Mb ? [Li, 1997]
Table 1.1 Quelques exemples de la varits des gnomes.
tlomres sont les deux extrmits dun chromosome.Le nombre de
chromosomes contenus dans la cellule dun organisme est variable en
fonc-
tion des espces que lon considre. Par exemple, lhomme compte 23
paires de chromosomeslinaires alors quEscherichia coli, bactrie
intestinale, ne possde quun chromosome circulaire.
Mais la taille du gnome se mesure surtout en nombre de
nuclotides, ou bases. La plupartdu temps, on parle de pb, pour
paire de bases, puisque la majorit des gnomes est constituede
doubles brins dADN. On emploie souvent les multiples kb (pour
kilo-base) ou Mb (mga-base), qui valent respectivement 1 000 et 1
000 000 bases. La taille du gnome peut varier dequelques kb chez
les virus plusieurs centaines de milliers de Mb chez certains
eucaryotes. Laquantit dADN, contrairement ce qui a t longtemps
suppos, nest pas proportionnelle lacomplexit dun organisme.
Certaines fougres par exemple, ont des gnomes plus de 10 foisplus
grands que le gnome humain (comme la plante herbace Paris japonica
[Pellicer et al.,2010]). A ce jour, le plus grand gnome connu est
celui de lamibe Amoeba dubia qui comporteprs de 670 milliards de
paires de bases, soit prs de 200 fois la taille du gnome humain
[Li,1997]) (Table 1.1).
1.1.3 Gnes et protines
Le gnome est constitu de rgions codantes et de rgions
non-codantes. Les rgions co-dantes sont transcrites en ARN
messagers puis traduites en protines alors que les
squencesnon-codantes ne sont jamais traduites, voire mme non
transcrites (mme si de rcentes tudesvoquent une transcription de la
majeure partie du gnome : cest ce quon appelle la transcrip-tion
pervasive [Jacquier, 2009; Clark et al., 2011]).
Linformation gntique est principalement contenue dans les gnes
(Figure 1.2). On peutdistinguer deux classes de gnes : les gnes
codant pour des protines et les gnes dARN non-codant.
Une protine est une macromolcule biologique compose dune, ou
plusieurs, chane dacides
-
1.1. Structure des gnomes 23
gene 1
gene 2
gene 3 gene 4C AG
T T
T A
A C CG
G
ZOOM
strand
complementary
strand
Segment of DNA
++
-
+
5'
3' 5'
3'
Figure 1.2 Zoom sur une molcule dADN double brin. Ce segment
contient quatre gnes, chaque gne a uneposition le long de la
squence dADN et une orientation (dfinie par le sens de lecture 5 3
associ au brin surlequel le gne est localis).
amins lis entre eux par des liaisons peptidiques (chane
polypeptidique). Sa synthse se fait endeux tapes : (i) la
transcription, o la squence dADN codant le gne associ la protineest
transcrite en ARN messager (par complmentarit) ; (ii) la
traduction, o lARN messagerest traduit en protine. La traduction
fait appel ce quon appelle le code gntique : chaquetriplet de
nuclotides, ou codon, correspond un acide amin. Il est important de
noter quil y adgnrescence du code gntique, vu quil nexiste que 20
acides amins pour 64 (43) codonsdiffrents. Chaque gne (codant pour
une protine) peut donc tre dfinit soit par sa squence denuclotides,
soit par sa squence dacides amins. Certains gnes peuvent contenir
des introns.Ils sont prsents dans la squence dADN correspondant au
gne. Ils sont transcrits au niveaudun ARN dit pr-messager mais
celui-ci subit ensuite un mcanisme dpissage o cours du-quel les
introns sont limins de cet ARN pr-messager pour donner un ARN
mature. LARNmature est ensuite traduit en protine. Chez lhomme, les
introns sont dix cent fois plus grosque les exons (les parties
codantes des gnes) [Hawkin, 1988].
Les gnes non-codants sont, quant eux, transcrits en ARN qui
peuvent agir comme cataly-seur ou rgulateur.
Le gnome contient toutes les informations ncessaires au
fonctionnement et au dveloppe-ment dun organisme. Chaque cellule en
contient lintgralit, mais seulement un petit nombrede gnes est
transcrit suivant les besoins de la cellule.
Chaque gne a une position le long du chromosome et une
orientation (Figure 1.2). Lorien-tation dun gne est dtermin par le
brin sur lequel il est cod. Un gne est toujours cod de 5vers 3 mais
il peut tre cod sur lun ou lautre brin. Lors du squenage, un des
deux brins de lamolcule dADN est arbitrairement fix comme tant le
brin positif et tous les gnes cods sur cebrin ont donc une
orientation positive et les gnes cods sur le brin complmentaire ont
donc uneorientation ngative. On parle aussi parfois dorientation
des gnes vis vis de leur centromre,les gnes peuvent alors tre
orients vers ou depuis leur centromre, cette orientation est
absolueet ne dpend pas du choix arbitraire du brin positif.
Le nombre de gnes dans le gnome des organismes vivants varie
beaucoup moins que lataille des gnomes (Table 1.1). Chez la plupart
des organismes vivants, il est compris entre 1 000et 40 000. Il
nest pas non plus corrl la complexit apparente des organismes. La
paramcie,
-
24 Chapitre 1. Introduction la biologie des gnomes
organisme cili unicellulaire, possde ainsi un gnome contenant
plus de gnes que celui delhomme [Aury et al., 2006].
Il est important de noter que dans notre volont de retracer
lhistoire volutive des gnomes(les rarrangements quils ont subis) et
de reconstruire leurs gnomes ancestraux, on ne sin-tressera ici
quaux gnes codant pour des protines et non pas lintgralit des
squencesdADN. Cest donc le nombre de gnes codant, leur ordre et
leur orientation, et non pas la tailledu gnome qui dans notre cas
impactera sur la complexit du problme.
1.1.4 lments transposables et squences rptes
Dautres lments du gnome sont importants, surtout si lon
sintresse aux rarrangementschromosomiques car ils peuvent les
favoriser, ce sont les lments transposables ou transposons.Ce sont
des squences dADN qui peuvent se dplacer et se multiplier de manire
autonomedans le gnome. Ils sont un des constituants les plus
importants des gnomes eucaryotes [Wess-ler, 2006]. Ils constituent
une part de ce quon appelle les squences rptes. Ces squencesrptes
et disperses le long du gnome peuvent servir de matrice aux
vnements de recombi-naison entre squences dADN et donc, comme on va
le voir dans la section suivante, induire laformation de
rarrangements chromosomiques.
1.2 Fonctionnement et volution des gnomes
1.2.1 Miose et mitose
Il existe deux types de divisions cellulaires chez les
eucaryotes : la miose et la mitose.La miose permet une cellule
diplode, contenant des paires de chromosomes homologues
(2n chromosomes), de produire quatre cellules haplodes,
contenant chaque chromosome en unseul exemplaire (n chromosomes).
La miose produit ce quon appelle des gamtes. Chez lesvgtaux et les
champignons ces gamtes sont parfois appeles des spores. Au moment
de lamiose, des recombinaisons entre chromosomes homologues ont
lieu (chacun menant soit uncrossing-over, i.e. un change rciproque
entre deux chromosomes dune extrmit dun deleur deux bras ; soit un
non-crossing-over, i.e. un change non-rciproque dun petit
segmentdADN). Ces recombinaisons permettent un brassage de
linformation gntique, ainsi quunebonne sgrgation des chromosomes
homologues lors de la division miotique indispensable une division
cellulaire quilibre.
La mitose dsigne une division cellulaire somatique. Aprs la
rplication totale de chacundes chromosomes, la cellule mre se
divise en deux cellules filles identiques, chacune contenantune
copie de chaque chromosome. Les cellules haplodes comme les
cellules diplodes subissentdes divisions mitotiques. Le centromre
joue un rle important lors de ces divisions, il permetaux deux
copies du chromosome issues de la rplication, de rester attaches
avant la division cel-lulaire (do la forme en x des chromosomes sur
un caryotype) ncessaire la bonne sgrgation
-
1.2. Fonctionnement et volution des gnomes 25
des chromosomes.
1.2.2 Mutation et homologie
A chaque rplication du gnome, des erreurs de copie peuvent avoir
lieu. Ces erreurs, oumutations ponctuelles, peuvent tre de trois
natures : insertion dun nuclotide, dltion dunnuclotide ou
substitution dun nuclotide. Lorsquelles se produisent dans les
gnes, certainesmutations peuvent tre ltales, comme la dltion ou
linsertion dun ou deux nuclotides aumilieu dun gne essentiel, ce
qui provoque un dcalage du cadre de lecture et la formation
duneprotine non-fonctionnelle. Mais elles peuvent aussi tre neutres
(d la redondance du codegntique entre autre), voire avantageuses.
Et dans ces cas-l, elle aura une certaine probabilitde se fixer
dans la population. Au sein dune mme espce, chaque individu aura
donc plus oumoins les mmes versions de chaque gne, cest ce quon
appelle les allles.
Mais si deux groupes dindividus se sparent et quils accumulent
un nombre importantde mutations pendant un grand nombre de
gnrations, il peut arriver que par la suite, ils nepuissent plus se
croiser cause dincompatibilits entre certaines mutations du premier
groupeavec dautres du deuxime. Il y a alors spciation. Et dans ce
cas-l, comme il y a alors deuxespces, on ne parle plus dallles mais
de gnes orthologues, provenant dun mme gne ances-tral.
Les gnes peuvent aussi se dupliquer, grce diffrents mcanismes
que lon ne dtaillerapas. On a alors deux ou plusieurs copies dun
mme gne qui peuvent se trouver soit cte ctele long dun mme
chromosome, soit plus gnralement dans le gnome. Au sein dune
mmeespce, tous les individus nont pas forcment le mme nombre de
copies de chaque gne (cestce quon appelle les CNVs : Copy-Number
Variations) [Redon et al., 2006]. Ces copies peuventaccumuler des
mutations de manire indpendante et les protines associes pourront
mme,aprs un certain temps, ne plus avoir la mme fonction. Ces
copies tant issues dun mme gneancestral, on les appellera gnes
paralogues. Les gnes paralogues et les gnes orthologues sontdes
gnes homologues.
Mme si les gnes peuvent avoir des taux dvolution diffrents, de
manire gnrale lesgnes homologues entre espces proches (par exemple
homme-souris) seront plus similairesentre eux que les gnes
homologues entre espces plus lointaines (homme-poisson) qui
aurontaccumul plus de mutations. Il est donc plus ou moins
difficile de retrouver les gnes homologuesentre deux espces.
Pour savoir si deux gnes sont homologues, on calcule, partir de
lalignement de leurssquences dADN (ou dacides amins), un
pourcentage de similarit en fonction du nombre
dedltions/dinsertions et de substitutions prsentes entre les deux
squences de nuclotides (oudacides amins) sur la longueur totale des
squences. Pour un fort pourcentage de similarit,lhomologie est
vidente mais, arriv un certain seuil (environ 30% de similarit en
acidesamins), il devient moins vident de savoir si la similarit
observe vient dune origine commune
-
26 Chapitre 1. Introduction la biologie des gnomes
(gnes homologues), ou si elle est due une convergence des
squences, ou encore au hasard. Ladtection dhomologie nest donc pas
une chose facile. Or pour la reconstruction des gnomesancestraux,
il est indispensable dtre capable didentifier les gnes orthologues
car ils sont labase des reconstructions.
1.2.3 Rarrangements et principe de parcimonie
Si les chromosomes restaient colinaires tout au long de
lvolution, il serait alors possiblede dtecter les gnes orthologues
en prenant en compte, non plus seulement la similarit dessquences,
mais galement la position des squences le long des gnomes. Or les
gnomes nesubissent pas seulement des mutations ponctuelles, mais
galement des macro-mutations, desrarrangements chromosomiques, qui
changent lordre, le nombre et lorientation de larges seg-ments de
chromosome. Il est donc rarement possible didentifier les
chromosomes homologuesentre deux espces, except entre espces
vraiment proches.
En ralit, chaque chromosome dune espce ressemble plus une
mosaque de segmentsde diffrents chromosomes de lautre espce (Figure
1.3). Ces fragments de chromosome repr-sentent des segments dADN
orthologues entre les deux espces. Ils peuvent contenir de deux
quelque dizaines de gnes, voire quelques centaines de gnes pour des
espces partageant unegrande proximit phylogntique. Ces rgions vont
tre importantes pour identifier les ortho-logues entre deux espces.
Si deux gnes sont similaires en squences et ont conserv le
mmevoisinage (ils sont entours de gnes galement similaires entre
eux) alors on a de fortes chancesdavoir faire des orthologues.
Il existe diffrents rarrangements chromosomiques responsables de
diffrentes variationsstructurelles des gnomes. Il est actuellement
admis quils se produisent la suite dune ou de
Figure 1.3 Les rgions homologues entre le gnome de lhomme et
celui de la souris.
[http://www.ornl.gov/sci/techresources/Human_Genome/publicat/tko/06_img.html]
http://www.ornl.gov/sci/techresources/Human_Genome/publicat/tko/06_img.htmlhttp://www.ornl.gov/sci/techresources/Human_Genome/publicat/tko/06_img.html
-
1.2. Fonctionnement et volution des gnomes 27
plusieurs cassures double brin de lADN et que les mcanismes de
rparation de ces lsions sontimpliqus dans la formation des
rarrangements [Pfeiffer et al., 2000]. Ces cassures peuventtre dues
des agents exognes (comme les rayons gamma ou rayons X), rsulter
dun accidentrencontr lors de la rplication ou encore tre gnres par
les topoisomrases.
Il existe des rarrangements intra-chromosomiques, tels que les
dltions (pertes), dupli-cations (gains) dun gne ou dun groupe de
gnes. Linversion, quant elle, nimplique niperte, ni gain de gnes
directement, juste une inversion de la squence dADN implique
quipeut contenir de 0 quelques centaines de gnes. Les gnes
appartenant cette squence seretrouvent alors avec une orientation
et un ordre inverss (Figure 1.4A).
Il existe aussi des rarrangements inter-chromosomiques, tels que
la fusion bout--bout dedeux chromosomes en un seul, la fission dun
chromosome en deux. Il existe aussi la translo-cation rciproque
(plus rpandue que les deux prcdentes), comme linversion, elle
impliquela recombinaison de deux squences dADN mais appartenant
deux chromosomes diffrents,ce qui conduit la cration de deux
nouveaux chromosomes (Figure 1.4B). noter quunetranslocation crant
un chromosome avec deux centromres et laissant lautre chromosome
sanscentromre, a trs peu de chance dtre conserve au cours de
lvolution. En effet le centro-mre est indispensable toute division
cellulaire et cette translocation risque dtre ltale pour la
break
recombinaison
Genome A
Genome B
INVERSION
21 3
1 -2 3
chromosome I
chromosome II
Genome Achromosome 1
chromosome 2
Genome B
TRANSLOCATION
1 12
23 34
4
A
B
Figure 1.4 (A) GenomeA et GenomeB sont deux gnomes composs dun
seul chromosome divis en trois blocsde syntnie (les flches de
couleurs) contenant chacun des gnes (les petites flches noires).
GenomeA se diffrenciede GenomeB par une inversion ( gauche). Une
inversion peut sexpliquer biologiquement par une recombinai-son
entre deux squences rptes inverses, aprs au moins une casssure de
lADN double brin ( droite). (B)GenomeA et GenomeB sont composs de
deux chromosomes diviss en quatre blocs de syntnie. GenomeA se
dif-frencie de GenomeB par une translocation. Une translocation est
galement due une recombinaison entre deuxsquences dADN mais
appartenant deux chromosomes diffrents, ce qui entrane lapparition
de deux nouveauxchromosomes.
-
28 Chapitre 1. Introduction la biologie des gnomes
cellule. Seules les translocations impliquant lchange rciproque
dextrmits de chromosomesans centromre risquent donc dtre conserves
au cours de lvolution. Si lun des deux seg-ments changs est trs
petit, voire inexistant, on appelle cette translocation une
translocationnon-rciproque (pour plus de dtails voir [Alberts et
al., 2002], pages 453-466).
Les rarrangements sont des vnements risqus dans le sens o ils
peuvent avoir des cons-quences importantes sur la viabilit des
cellules et leur fertilit en miose. Lorsquils entrainentune perte
ou un gain de matriel gntique (par dltion et duplication
respectivement), la sous ousur-expression des gnes associs peut
causer des problmes de dosage gnique (de nombreusesmaladies
gntiques sont lexpression de tels rarrangements). Les rarrangements
quilibrs(sans perte, ni gain) peuvent, quant eux, modifier le
niveau dexpression des gnes flanquantles points de cassure (cest ce
quil se passe pour la leucmie [Rowley, 1973]) ou perturber
desprocessus cellulaires qui dpendent de la structure des
chromosomes, comme la miose. Unetrop grande accumulation de
rarrangements peut rendre la reconnaissance entre
chromosomeshomologues difficile et compromettre la bonne sgrgation
des chromosomes. Et mme si leschromosomes homologues se
reconnaissent, une recombinaison homologue au niveau dun seg-ment
invers (ou de deux chromosomes transloqus) peut entrainer la
formation dhaplodesdsquilibrs. Il existe galement des cas de
maladie gntique chez lhomme, o ni le gne, nila rgion promotrice,
nont t altres et o pourtant, lexpression du gne a t altr par
unrarrangement chromosomique proximit [Kleinjan et van Heyningen,
1998].
Pour toutes ces raisons, et pour toutes celles dont on na pas
encore ide, les rarrangementschromosomiques qui arrivent se fixer
dans les populations au cours de lvolution sont rares.Il rsulte de
cette proprit, que si deux espces donnes partagent une adjacence de
deux gnes(ordonns et orients de la mme manire), elles partagent
vraisemblablement cette organisationdepuis leur spciation, elles
lont vraisemblablement hrite de leur dernier anctre commun. Sices
deux adjacences ntaient pas ancestrales, cela impliquerait quil y
ait d avoir deux rar-rangements indpendants, au cours de lvolution
de chacun des deux gnomes, qui auraient eucomme mme rsultat
ladjacence partage par ces deux espces. Mme si il est tout a fait
pos-sible quun mme rarrangement ait eu lieu deux fois
indpendamment, ce scnario est beaucoupmoins probable que celui qui
suppose que ladjacence partage est ancestrale et quelle a donct
transmise verticalement aux deux gnomes actuels. Le principe de
parcimonie consiste ngliger ces petites probabilits et considrer
uniquement lexplication (de la configurationactuelle des gnomes) la
plus probable, i.e. celle qui implique le moins de
rarrangements.
1.2.4 Blocs de syntnie et points de cassure
lorigine, la syntnie dcrivait le fait pour deux gnes dtre
localiss sur le mme chro-mosome (du grec syn = ensemble et taenia =
ruban). Puis avec lapparition de la gnomiquecomparative, le terme
syntnie partage est apparu. Et au lieu de dcrire, le fait que
plusieursgnes soient sur le mme chromosome dans diffrentes espces,
le concept de syntnie parta-
-
1.2. Fonctionnement et volution des gnomes 29
G Chromosome I
breakpoints
1 2 3 4 5
G Chromosome 2
1
-2
3
4 -5
G Chromosome 1
G Chromosome 4
G Chromosome 3
1
2
2
2
2
Figure 1.5 Segment du chromosome I du gnome G1. Les gnes (les
petites flches noires) sont groupes parblocs de syntnie (les
grandes flches transparentes) en fonction de leurs adjacences chez
G1 et G2. Chaque blocde syntnie de G2 est reprsent en face de son
bloc homologue appartenant G1, sans tenir compte de son
relemplacement, il est simplement projet sur le chromosome auquel
il appartient. Les gnes homologues sont lis parun trait. Pour
chaque bloc, lordre local des gnes est prserv chez G1 et G2. Un
bloc n dans G1 (o n = 1, 2, 3, 4, 5)a dans G2 soit la mme
orientation (n), soit lorientation inverse (n). Les points de
cassure sont indiqus entre lesblocs, le long du chromosome I, par
de petites flches verticales.
ge a t abusivement utilis pour dcrire la prservation de lordre
des gnes homologues lelong de segments de chromosomes dans
diffrentes espces. Aujourdhui, une grande partie desarticles
parlant de syntnie sous-entend un ordre de gnes conserv ou tout au
moins une proxi-mit conserve et non pas simplement une
co-localisation sur un mme chromosome. Puisquilnexiste pas de terme
consacr pour rendre compte de cette proprit, nous nous
permettronsgalement de faire cet abus de langage dans la suite de
cette thse.
Les blocs de syntnie seront donc dfinis comme des groupes de
gnes dont lordre a tconserv le long des chromosomes chez deux (ou
plusieurs) gnomes. Chaque bloc a une orien-tation correspondant un
ordre de gnes donn. Si ces gnes sont retrouvs dans lordre
inversedans un autre gnome (soit cause dune inversion, soit
simplement d un choix arbitrairediffrent du brin positif lors de
lassemblage du gnome), le bloc identifi aura une orientationngative
(Figure 1.5).
On peut, de la mme manire que pour les gnes, parler dorientation
vis--vis du centromre.Dans ce cas-l, on sintressera lordre des gnes
vis--vis de leur centromre. Cette orientationa lavantage
didentifier clairement les inversions, seules les inversion peuvent
changer le signedun bloc (il ne dpend plus dun choix arbitraire),
lexception des inversions pricentriques(incluant le centromre) et
sil y a bien eu conservation des centromres dans les deux gnomes(ce
qui implique aucune fusion ou fission de chromosomes). Ces dernires
peuvent tre gale-ment vues comme une translocation rciproque entre
deux bras dun mme chromosome, ce quijustifierait le fait que le
signe des blocs reste inchang.
La rgion du chromosome se trouvant entre deux blocs de syntnie
conscutifs est appele unpoint de cassure de syntnie (breakpoint en
anglais) (Figure 1.5). Notez que ce point de cassurereprsente plutt
une rgion, qui peut parfois tre trs grande, contenir des gnes etc.,
ce nestpas un point entre deux nuclotides proprement parler. Chaque
point de cassure est caractris
-
30 Chapitre 1. Introduction la biologie des gnomes
par ces deux blocs de syntnie (orients) le dlimitant. Par
convention, on appelle aussi point decassure la fin dun chromosome,
la rgion entre le dernier (premier) bloc de syntnie et la fin(dbut)
du chromosome.
1.2.5 Syntnie et gnomique comparative
En ce basant sur le principe de parcimonie, les blocs de syntnie
reprsentent bien les rgionscommunes, dans les gnomes actuels,
hrites de leur dernier anctre commun. Ces blocs sontdonc trs utiles
pour ltude de lvolution des gnomes, mais aussi pour ltude des
gnomesactuels. Les nouvelles technologies de squenage (depuis une
dizaine dannes), en prenantlascendant sur les mthodes
traditionnelles de cartographie, ont permis une utilisation relleet
efficace de cette information. La forte augmentation de la quantit
de littrature relative lasyntnie reflte trs bien cette volution
(Figure 1.6). En effet, avec une quantit toujours plusgrande de
gnomes squencs disponibles, les tudes utilisant la syntnie se sont
multiplieset se sont ouvertes ltude dautres gnomes que ceux des
vertbrs (Figure 1.6). Chez lesplantes et chez les bactries par
exemple, de nombreux logiciels ont notamment t dvelopps[Vandepoele
et al., 2002; Simillion et al., 2004; Peng et al., 2009; Ling et
al., 2009] pour tudierla syntnie. Ltude de la syntnie est ainsi
passe du domaine exprimental au domaine de labioinformatique.
Bien que le nombre de publications traitant de la syntnie chez
les levures soit rest anec-dotique (Figure 1.6), les toutes
premires comparaisons bases sur des donnes de squenage,ont t
dveloppes sur des gnomes de levures [Hartung et al., 1998; Keogh et
al., 1998; Ozier-Kalogeropoulos et al., 1998; Langkjr et al.,
2000]. Ces tudes ont particip au lancement dunnouveau domaine appel
la gnomique comparative cherchant comprendre les mcanismesdvolution
des gnomes travers lanalyse comparative des chromosomes despces
proches.Le programme Gnolevures [Souciet et al., 2000] est le
premier projet de squenage largechelle entre espces apparentes
visant dchiffrer les mcanismes dvolution des gnomes.Entre autres,
le programme Gnolevures a cherch comprendre les mcanismes de
rorgani-sation des cartes chromosomiques travers ltude de la
conservation de la syntnie [Llorenteet al., 2000].
Chez les vertbrs, la gnomique comparative sest galement dveloppe
avec le squen-age du gnome compact du poisson, Tetraodon
nigroviridis [Roest Crollius et al., 2000], pouraider lannotation
du gnome humain [The International Human Genome Sequencing
Consor-tium, 2001]. En effet, les blocs de syntnie peuvent servir
lannotation structurelle des g-nomes en transfrant les annotations
fonctionnelles dun gnome annot vers un nouveau g-nome (exemple chez
les plantes [Vandepoele et al., 2002], chez les bactries [Ling et
al., 2009]).Certaines erreurs de squenage peuvent aussi parfois
rendre difficile lidentification de certainsgnes, or si lon sait o
chercher (parce quon a identifi la rgion homologue grce dautresgnes
en syntnie), on peut alors plus facilement les retrouver.
-
1.2. Fonctionnement et volution des gnomes 31
Figure 1.6 Lutilisation de terme syntnie dans la littrature. La
courbe Synteny (losanges bleus) correspondau nombre total de
publications citant le mot synteny soit dans le titre, soit dans le
rsum identifi dans PubMedentre 1970 et 2009. La courbe synteny in
vertebrates (triangles verts) correspond la fraction de ces
publicationsqui contient en plus un des termes suivants : mammal,
mouse, human, primate, fish, cattle, rodent, dog, rat ouencore
vertebrate (toujours dans le titre ou le rsum). La courbe synteny
in yeasts (ronds rouges) correspond lafraction des publications
totales qui contient en plus un des termes suivants : yeast,
Saccharomyces, Candida ouencore Kluyveromyces, suivi dune curation
manuelle pour enlever les publications citant la levure pour des
raisonsmthodologiques (telles que les Yeast Artificial Chromosome).
La courbe violette reprsente le nombre de gnomescompltement squencs
(eukaryotes, bactries et arches) publis et rfrencs dans la base de
donnes GenomeOnLine (http://www.genomesonline.org/). [Drillon et
Fischer, 2011]
Ltude de la syntnie a galement t un outil de choix pour
permettre des avances concep-tuelles majeures au niveau de notre
comprhension de lvolution des gnomes telles que lesrelation
dorthologies et dhomologies et les importantes contributions des
vnements de du-plication, que celles-ci soient segmentales ou
compltes. En effet, certaines espces ont subi aucours de leur
volution une duplication entire de leur gnome (appel Whole Genome
Dupli-cation : WGD), chaque chromosome se retrouve alors en deux
exemplaires (on peut trouver desexemples chez les poissons [Jaillon
et al., 2004], les levures [Kellis et al., 2004] et les
plantes[Vision et al., 2000]). Paramecium tetraurelia, qui a 40 000
gnes, a dailleurs subi trois WGDsuccessives [Aury et al., 2006].
Cest notamment ltude de la syntnie qui a permis de confirmerces
vnements, en comparant par exemple des gnomes dupliqus des gnomes
non-dupliqus[Kellis et al., 2004; Dietrich et al., 2004].
Les gnes dupliqus au cours dun vnement de WGD sont appels
ohnologues, en rf-
http://www.genomesonline.org/
-
32 Chapitre 1. Introduction la biologie des gnomes
rence Susumu Ohno [Ohno, 1970] (au lieu de paralogues). Il est
intressant au sein dun mmegnome dtre capable de retrouver ces
ohnologues, l encore, la syntnie entre gnomes du-pliqus et
non-dupliqus, ou encore la colocalisation de gnes lintrieur dun mme
gnomedupliqu, peut savrer trs utile. Certains logiciels ont t conus
spcialement pour a, car latche nest pas facile, un vnement de WGD
implique souvent la perte rapide dun des deuxohnologues (au hasard)
et les deux rgions ne contiennent plus alors quun gne sur deux
[Si-million et al., 2008]. Mais plus gnralement, la syntnie peut
tre utile ltude des histoiresvolutives des familles de gnes (gains
par duplication / pertes) [Wang et al., 2012].
La syntnie permet galement la dtermination de taux relatifs des
rarrangements chromo-somiques dans des lignes individuelles de
levures et de vertbrs [Sankoff et Nadeau, 1996;Souciet et al.,
2009; Zhao et Bourque, 2009], la reconstruction de gnomes
ancestraux [Maet al., 2006; Alekseyev et Pevzner, 2009], ainsi que
la reconstruction darbres phylogntiques(les relations de parent)
partags par diffrentes espces [Zheng, 2010]. Ltude de la
structureet de la rpartition des points de cassure de syntnie
permet daccder aux mcanismes des rar-rangements chromosomiques et
des modles dvolution des gnomes. Et cest, vraiment, dansce contexte
que ce situe la Partie II de cette thse (Les blocs de syntnie, page
75), o un releffort a t ralis vis vis de la reconstruction et de la
visualisation des blocs de syntnie. Cesten effet sur eux que
reposent les trois parties suivantes.
Beaucoup de travaux ont t faits sur lanalyse des gnes contenus
dans ces blocs pour mieuxcomprendre la structure des gnomes. On a
clairement identifi que chez les vertbrs, les gnesconservs en
syntnie chez de multiples espces, sont des gnes essentiels des
processus fon-damentaux du dveloppement et lorganisation biologique
[Woolfe et al., 2004; Larkin et al.,2009]. Certains gnes restent
galement en syntnie parce quils sont lis, soit par le fait quele
promoteur (squence non-codante contrlant la transcription dun gne)
de lun se trouve lintrieur de lautre [Kikuta et al., 2007], soit
par le fait quils partagent le mme promoteurbidirectionnel
[Rdelsperger et Dieterich, 2010]. La conservation en syntnie de
certains gnespeut galement tre le signe dune relation entre leurs
protines associes, qui ncessitent parexemple dtre transcrites
simultanment [Marcotte et al., 1999].
Les points de cassure chez les vertbrs sont, quant eux, souvent
facteurs de diversits (nou-velles combinaison de gnes, nouveaux
lments rgulateurs) et contribuent ladaptation desorganismes [Larkin
et al., 2009]. Chez les primates, ce sont souvent des gnes
spcialiss dans larponse aux stimuli externes (immunit, rponse
olfactive) [Rdelsperger et Dieterich, 2010]. Ila galement t regard
si lexpression des gnes changaient en fonction de leur proximit
avecdes points de cassure mais les rsultats ne sont pas vraiment
probants [Muoz et Sankoff, 2011].
-
1.3. Diffrences structurelles et fonctionnelles majeures entre
les gnomes de levures et de vertbrs 33
1.3 Diffrences structurelles et fonctionnelles majeures entre
les gnomesde levures et de vertbrs
Les levures et les vertbrs ont des gnomes trs diffrents : en
taille (les gnomes des ver-tbrs sont en moyenne 200 fois plus gros,
Table 1.1), en nombre de gnes, en nombre et tailledintrons, en
nombre dlments transposables et de squences rptes, en densit de
gneset de proportion dADN codante et non-codante (voir [Dujon,
2010] et [Volff, 2006], pour unerevue sur larchitecture des gnomes
de levure et de vertbrs, respectivement). De plus, desdiffrences
majeures des proprits fonctionnelles qui peuvent avoir un profond
impact sur ladynamique des gnomes existent galement entre levures
et vertbrs.
Tout dabord, la reproduction sexue est le seul mode de
reproduction des vertbrs, ce quiimplique que les rarrangements
chromosomiques qui peuvent tre transmis la prochaine g-nration, et
finir par atteindre la fixation dans la population, sont seulement
ceux qui ont lieu lorsdes divisions miotiques (cration des gamtes)
ou ultrieurement lors de lamplification mito-tique des gamtes
(rplication). La reproduction des levures sauvages est plus
complexe, elleinclut des reproductions clonales et sexues ainsi que
la consanguinit. La levure domestique,quant elle, est
principalement caractrise par une expansion clonale rapide lorsque
les condi-tions environnementales sont favorables. La proportion de
reproduction sexue varie entre lesdiffrentes lignes. Beaucoup de
lignes semblent tre compltement asexues tandis que pourcelles qui
subissent la miose, les croisements se produisent principalement
entre les ascosporesprovenant de la mme ttrade (consanguinit),
limitant ainsi les croisements entre individus. Ona calcul que les
espces Saccharomyces subissent 1 cycle sexuel pour 1000 divisions
asexues etque les vrais croisements auraient lieux seulement 1 fois
toutes les 50.000 100.000 gnrationsasexues [Ruderfer et al., 2006;
Tsai et al., 2008].
Il est galement bien connu que les taux de mutations varient
entre les organismes [Drakeet al., 1998; Nishant et al., 2009].
partir des donnes de squenage de ces dernires annes,le taux de
substitution entre gnrations est estim 1.1108 par base pour un
gnome haplodehumain (pour une gamte) [Roach et al., 2010] et
environ 3 1010 par base par division pourSaccharomyces cerevisiae
(que ce soit des cellules diplodes ou haplodes) [Lynch et al.,
2008;Nishant et al., 2010]. Ce qui fait une probabilit de mutation
par base 36 fois plus importantechez lhomme. Cette diffrence est
probablement due au fait que chez la levure une divisioncellulaire
correspond une seule gnration asexue alors que chez lhomme, chaque
gnrationcorrespond plusieurs divisions cellulaire (qui se
produisent dans la ligne germinale). Et chezce dernier, cest mme
encore plus compliqu : chez la femme, le nombre de divisions
cellulairesdans la ligne germinale par gnration est limit 30
divisions cellulaires (lovogonie sarrtetrs tt, lors de la vie
ftale) et chez lhomme, la spermatogense a lieu tout au long de la
vie etcest prs de 200 divisions chez un homme de 20 ans [Arnheim et
Calabrese, 2009].
Enfin, une autre grande diffrence fonctionnelle entre levures et
vertbrs, cest le tempsde gnration qui diffre de plusieurs ordres de
grandeur (quelques heures chez les levures par
-
34 Chapitre 1. Introduction la biologie des gnomes
rapport quelques mois, voire quelques annes chez les vertbrs).
Cela implique que pour unmme nombre dannes, le nombre de gnrations
est beaucoup plus lev chez les levures quechez les vertbrs. Mme si
il est vrai que le temps de gnration moyen pour les populationsde
levures vivant dans des environnements naturels est beaucoup plus
long que quelques heures,car elles doivent, en effet, souvent faire
face des conditions critiques de croissance (telles quede longues
priodes de famine, de faibles tempratures, etc).
-
Chapitre 2
Introduction aux diffrentesproblmatiques abordes
Sommaire2.1 Identification des blocs de syntnie . . . . . . . .
. . . . . . . . . . . . . . . . . . . 35
2.1.1 Les diffrentes mthodes . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . 35
2.1.2 Des blocs de syntnie en vue des reconstructions
ancestrales . . . . . . . . . . 38
2.2 Reconstruction de larbre phylogntique . . . . . . . . . . .
. . . . . . . . . . . . 392.2.1 Quest-ce quun arbre phylogntique ?
. . . . . . . . . . . . . . . . . . . . . 39
2.2.2 Les diffrents types de donnes pour infrer une phylognie .
. . . . . . . . . 42
2.2.3 Les diffrentes mthodes de reconstruction . . . . . . . . .
. . . . . . . . . . 45
2.2.4 Limites des approches prcdentes . . . . . . . . . . . . .
. . . . . . . . . . . 49
2.3 Identification des rarrangements chromosomiques . . . . . .
. . . . . . . . . . . 502.3.1 Lidentification des points de cassure
lis . . . . . . . . . . . . . . . . . . . . 50
2.3.2 La r-utilisation des points de cassure . . . . . . . . . .
. . . . . . . . . . . . 57
2.3.3 Les diffrents modles dvelopps . . . . . . . . . . . . . .
. . . . . . . . . . 60
2.3.4 La ncessit dune nouvelle approche . . . . . . . . . . . .
. . . . . . . . . . 66
2.4 Reconstruction des gnomes ancestraux . . . . . . . . . . . .
. . . . . . . . . . . . 662.4.1 Les diffrents modles dvelopps . . .
. . . . . . . . . . . . . . . . . . . . . 67
2.4.2 Les bases dune nouvelle approche . . . . . . . . . . . . .
. . . . . . . . . . . 71
Ce chapitre introduit les diffrents principes, mthodes et objets
de combinatoire, relatifs auxdiffrentes parties de cette thse.
2.1 Identification des blocs de syntnie
2.1.1 Les diffrentes mthodes
Beaucoup de logiciels permettent de reconstruire, de visualiser,
danalyser les blocs de synt-nie. Ils ont t dvelopps ces dix
dernires annes, pour rpondre une demande toujours plus
35
-
36 Chapitre 2. Introduction aux diffrentes problmatiques
abordes
importante et toujours plus varie. En effet, la gnomique
comparative a connu un vrai dvelop-pement grce aux nouvelles
techniques de squenage et une quantit de gnomes squencstoujours
plus grande. Et aujourdhui, lanalyse de la syntnie est une tape
indispensable nim-porte quelle analyse de gnome.
Les exigences, au niveau des relations de syntnie, ne peuvent
pas tre les mmes pour tousles gnomes. Elles vont dpendre
directement de la proximit des gnomes tudis (voire deleurs
contraintes volutives propres). Il y a donc toute une continuit de
mthodes allant delalignement des gnomes (au niveau de lADN)
lidentification de petits groupes de gnessans conservation dordre.
Plus les gnomes sont conservs et plus les blocs de syntnie
sontfaciles retrouver, ce nest ensuite quune question de prcision
sur la taille minimale dunbloc, la taille dinsertion maximale, etc.
En revanche, lorsque les gnomes sont plus distants,lenjeu des
algorithmes est de dterminer si les petits blocs identifis sont
vraiment issus duneconservation ancestrale ou sils sont juste dus
au hasard. Il faut alors faire appel aux probabilits.
Alignement de lADN
En 1984, la notion de segments conservs entre deux gnomes,
reprsentant des squencesde nuclotides relativement proches entre
elles, est introduite [Nadeau et Taylor, 1984]. Lordredes gnes
contenus lintrieur de ces segments est strictement conserv. Une
nouvelle notionplus souple est introduite bien plus tard : cest le
concept de bloc de syntnie. La squence en-tire du segment na pas
besoin dtre conserve, il suffit que des petits segments (par
exemple,les squences des gnes), appels ancres, soient conservs dans
le mme ordre dans les deuxgnomes [Tesler, 2002] (ce concept a t
implment dans GRIMM-Synteny [Pevzner et Tesler,2003]). On peut
ensuite assouplir le critre sur lordre des ancres en permettant
quelques dif-frences. Lide tant quun bloc de syntnie peut tre
converti en un segment conserv par demicro-rarrangements comme de
petites inversions, insertions, dltions ou duplications (dontla
longueur est dfinie par un paramtre ajustable suivant ce qui nous
intresse ; dans cette thse,ce paramtre sera exprim en nombre de
gnes et variera de 1 6).
La reconstruction des segments conservs, comme celle des ancres,
repose sur un alignementdADN, ce qui nest possible quentre espces
trs proches, comme les amniotes ou les droso-philes [Dubchak et
al., 2009], mais pas chez les levures car ces espces couvrent une
chellevolutive beaucoup plus grande. Si lADN peut tre align, alors
il est en effet possible de re-construire les blocs de syntnie pour
des gnomes non annots comme le propose SyMAP [So-derlund et al.,
2011]. Chez les vertbrs, 1338 blocs de syntnie communs plusieurs
espces(homme, souris, rat, chien, opossum et poulet) ont t
reconstruits partir de lalignement mul-tiple des gnomes complets
[Ma et al., 2006]. Un paramtre t (gale 50 kb dans ltude) dfinit la
fois la taille minimale des blocs considrs et la taille maximale
des inversions, insertions,dltions tolres lintrieur des blocs. Les
blocs sont ensuite fusionns sils sont adjacentsdans tous les
gnomes.
-
2.1. Identification des blocs de syntnie 37
Alignement des gnes
Pour des gnomes plus distants, il faut baser la reconstruction
des blocs de syntnie sur lho-mologie des gnes, au niveau de leurs
squences protiques. Cest dailleurs souvent une donneen entre quil
faut fournir aux logiciels qui reconstruisent les blocs de syntnie.
Cest le cas deCinteny [Sinha et Meller, 2007] qui, par ailleurs,
propose une visualisation des blocs soit locale,soit globale mais
pas de visualisation intermdiaire (intressante en particulier pour
visualiserles points de cassure). Les blocs ne pouvant pas tre
dupliqus, il nest pas possible de comparerdes gnomes dupliqus des
gnomes non-dupliqus. Pour les levures, le Yeast Genome OrderBrowser
[Byrne et Wolfe, 2005] est une interface qui permet de trs bien
visualiser/comparer lesgnomes dupliqus et les gnomes non-dupliqus
de levures (mais uniquement ceux pr-rentrsdans la base de
donnes).
Plus rcemment, Cyntenator [Rdelsperger et Dieterich, 2010] a t
dvelopp pour recons-truire des blocs de syntnie communs 17 gnomes
de vertbrs. Par alignement de gnes, ilreconstruit progressivement
les blocs communs aux diffrents gnomes. Il faut lui donner en
en-tre larbre phylogntique des espces ainsi que les relations
dhomologie (ou le rsultat desalignements pour tous les gnes de
toutes les comparaisons deux deux possibles). MCScanX[Wang et al.,
2012] cherche galement reconstruire les blocs de syntnie partags
par plusieursgnomes. Il a t appliqu 15 gnomes de plantes (en moins
de 120 heures). Il propose denombreuses analyses comme ltude de
lhistoire des familles de gnes, des points de cassure,des
duplications en tandem, etc.
Groupe de gnes co-localiss
Lorsque les gnomes sont plus distants, il est important de
dfinir la probabilit quun groupene soit pas d au hasard. Cette
dernire peut dpendre du nombre total de gnes dans les g-nomes, du
nombre de paires dhomologues, de lordre des gnes plus ou moins
conservs lin-trieur de ces groupes, etc. [Rose Hoberman et Durand,
2005]. Certaines probabilits dpendentmme de la taille des familles
de gnes impliqus dans les groupes identifis [Raghupathy etDurand,
2009]. ADHoRe [Vandepoele et al., 2002; Simillion et al., 2004],
OrthoCluster [Zenget al., 2008; Ng et al., 2009] ou encore MCMuSeC
[Ling et al., 2009] sont tous des logiciels quiservent identifier
des petits blocs de syntnie entre espces loignes. Ils ne valident
que lesblocs qui ont une forte probabilit de reprsenter une vraie
ancestralit/conservation dun pointde vue volutif.
La premire application possible de ces approches est donc la
comparaison de gnomes dis-tants (voire dupliqus). Cest la cas
dOrthoCluster qui a t appliqu deux nmatodes etdADHoRe qui permet de
retrouver des micro-blocs de syntnie hautement dgnrs mais en-core
conservs lintrieur ou entre diffrentes espces de plantes
[Vandepoele et al., 2002;Simillion et al., 2004], ou de levures
[Dujon et al., 2004]. Il est, en revanche, beaucoup plus dif-ficile
de retrouver les blocs orthologues entre plusieurs espces lorsque
les blocs sont dupliqus
-
38 Chapitre 2. Introduction aux diffrentes problmatiques
abordes
car il faut tre capable didentifier les diffrentes copies [Peng
et al., 2009].Une deuxime application possible est de sintresser
aux petits groupes de gnes qui se
trouvent co-localiss dans un grand nombre de gnomes (une vue
plus globale de lorganisationdes gnomes). MCMuSeC a, par exemple,
permis didentifier des groupes de gnes communs 133 gnomes
bactriens. Les gnomes bactriens contiennent des oprons, ce sont des
gnes,successifs le long du chromosome, co-transcrits (le long dun
unique ARN pr-messager com-mun). Ces groupes de gnes sont donc
fortement contraints et on peut retrouver des groupes degnes
co-localiss mme entre espces trs loignes. Lidentification de ces
groupes de gnes aainsi permis de prdire la fonction de nombreux
gnes peu connus [Ling et al., 2009].
Il est important de noter le champ dapplication des diffrents
algorithmes car la longueurdes gnomes bactriens ( 106 Mb) nayant
pas le mme ordre de grandeur que celle des g-nomes eucaryotes ( 109
Mb) (Table 1.1), les algorithmes dvelopps pour certains gnomessont
rarement transportables. Cest le cas de MCMuSeC qui compare 133
gnomes bactriens en10 minutes mais qui il faut plus dune semaine
pour comparer le gnome de lhomme celuide la souris.
2.1.2 Des blocs de syntnie en vue des reconstructions
ancestrales
Lors de cette thse, on sintresse la reconstruction des arbres
phylogntiques, des rar-rangements chromosomiques et des gnomes
ancestraux. Pour y arriver, il y a diffrents moyenspossibles :
travailler au niveau des gnes [Muffato, 2010] ou au niveau des
blocs de syntniecommuns tous les gnomes tudis [Ma et al., 2006;
Chauve et Tannier, 2008; Alekseyev etPevzner, 2009; Zheng, 2010].
Si on travaille au niveau des gnes, on va tre trs sensible
auxpetites inversions, dltions, duplications, ce sont des vnements
que lon veut pouvoir retracermais pas au dpens de la reconstruction
de rarrangements plus larges. A linverse, si on tra-vaille avec les
blocs communs toutes les espces, on perd alors en prcision. En
effet, traversla reconstruction progressive des blocs communs 17
gnomes de vertbrs, on voit clairementla perte de prcision qui
augmente au fur et mesure que les blocs deviennent communs
desespces plus distantes [Rdelsperger et Dieterich, 2010].
Pour ne pas tomber dans lune ou lautre de ces limites, nous
avons opt, au cours de cettethse, pour lutilisation de blocs de
syntnie dfinis partir de la squence protique des gneset partags
seulement par deux gnomes la fois. Par la suite, pour comparer ces
diffrentsblocs entre eux, on se servira des gnes, en passant des
blocs aux gnes et des gnes aux blocs.Cest cette combinaison, de
gnes et de blocs de syntnie, qui permet de comparer beaucoup
degnomes, y compris des gnomes trs distants, sans perdre la
prcision des blocs de syntniepartags entre paires de gnomes
proches. En revanche, cette approche implique une certainecomplexit
des algorithmes de reconstruction.
Lide nest donc pas de dvelopper une nouvelle mthode
didentification des blocs de syn-tnie en soit, mais plus den
dvelopper une qui serait adapte aux diffrentes reconstructions
qui
-
2.2. Reconstruction de larbre phylogntique 39
nous intresse par la suite. La mthode SynChro (pour SYNteny
along CHROmosomes) a ainsit dveloppe pour rpondre aux critres
suivant :
1. tre peu exigeante au niveau des entres fournir (pas de
famille de gne, de paires dor-thologues, etc. mais juste des gnomes
annots) ;
2. tre rapide pour pouvoir tre applique aux gnomes volumineux
des vertbrs ;
3. identifier des blocs les plus reprsentatifs possible de
linformation contenue dans les g-nomes, cest dire ayant subis le
moins possible de simplification (suppression de gnes)ou de perte
dinformation (dcoupage dun bloc en deux), cela implique que les
blocspuissent sinclure, se chevaucher et tre dupliqus ;
4. avoir peu de paramtres mais quil soit possible de faire
varier les diffrents niveaux deprcision () ;
5. identifier des blocs partir des gnes (et non pas lalignement
de lADN), dune part pourque les reconstructions soient applicables
aux gnomes des vertbrs comme aux gnomesdes levures, et dautre part
pour pouvoir accder facilement la dynamique
intra-bloc(duplications/pertes de gnes, micro-inversions).
Il tait aussi important de dvelopper un outil de visualisation
de ces blocs qui permettentaussi bien une vue densemble des gnomes
comme une vue plus rapproche des points de cas-sure. Il manque
cruellement aux mthodes voques prcdemment et cest une des
principalesraisons du dveloppement de SynChro. Cette interface a t
trs utile lors du dveloppement desdiffrentes mthodes pour bien
comprendre la complexit de certains points de cassure et
pourpouvoir ainsi la prendre en compte.
Les dtails de la reconstruction des blocs de syntnie, ainsi que
lanalyse et la comparaisondes blocs de syntnie chez les vertbrs et
chez les levures, seront prsents dans la deuximepartie de cette
thse (Les blocs de syntnie, page 75).
2.2 Reconstruction de larbre phylogntique
2.2.1 Quest-ce quun arbre phylogntique ?
La phylognie est ltude des relations de parent entre diffrents
organismes en vue de retra-cer leur histoire volutive. On peut
tudier la phylognie dun groupe despces mais galement, un niveau
intraspcifique, la gnalogie entre populations ou entre
individus.
On reprsente couramment une phylognie par un arbre
phylogntique.
Dfinition 1 Un arbre phylogntique est un graphe connect
acyclique. Chaque nud est reli un autre nud par un unique chemin.
Les feuilles reprsentent les espces actuelles, les nudsde larbre
reprsentent les anctres communs. Les artes reprsentent les
diffrentes histoiresvolutives communes ou propres aux diffrentes
espces. Le nombre de nuds est gal au nombredartes plus 1. Un arbre
peut tre binaire ou pas, sil est binaire chaque nud est alors
reli
-
40 Chapitre 2. Introduction aux diffrentes problmatiques
abordes
un (si cest un feuille) ou trois autres nuds (si cest un nud
interne). Un arbre peut treenracin ou pas. Un arbre est enracin si
une des artes est dfinies comme contenant la racinede larbre, i.e.
le gnome ancestral dont tous les autres gnomes sont issus.
La racine dun arbre
Pour n gnomes, il existe (2n3)!! = (2n3)(2n5) ...31 arbres
enracins et (2n5)!!arbres non-enracins [Cavalli-Sforza et Edwards,
1967].
Pour trois gnomes, il existe une unique topologie possible
darbre binaire non-enracin (Fi-gure 2.1A) et trois topologies
darbres binaires enracins possibles (en noir dans la Figure
2.1B).Pour pouvoir dfinir la position de la racine, il faut intgrer
ce quon appelle un (ou plusieurs)gnome externe (not outgroup dans
la Figure 2.1B). Cest un gnome qui ne partage pas ledernier anctre
commun des espces dont on cherche reconstruire larbre. Le
positionnementdu gnome externe sur une des branches de larbre
non-enracin permet de passer de ce dernier un arbre enracin. Il est
donc courant dajouter, lors dune analyse phylogntique, un
gnomeexterne. Si ce nest pas possible (comme pour la reconstruction
de larbre de la vie), on ne pourrapas enraciner larbre avec
certitude, mme sil est parfois possible grce des vnement
noninversibles (comme le sont les transferts horizontaux) davoir
une assez bonne ide de la positionde la racine. Dun point de vue
biologique, un arbre enracin contient plus dinformations caril
intgre en plus la chronologie des vnements. Parmi les trois arbres
enracins possibles pourtrois gnomes (Figure 2.1B), un seul
correspond la vritable histoire volutive de ces gnomes.
Le gnome externe permet, en plus dassurer la topologie de larbre
enracin, de position-ner/reconstruire le dernier anctre commun (le
rond orange sur la Figure 2.1B) : on ne peut, parexemple, ni
positionner, ni reconstruire le dernier anctre commun des vertbrs
en ntudiantque des vertbrs (ou alors, seulement ce quils ont encore
tous, ou presque, en commun).
outgroup
G1
G2
G3
A B
G1 G2 G3
outgroup
G2 G1 G3 G3 G1 G2
outgroup
Figure 2.1 Les diffrentes topologies possibles de larbre
phylogntique binaire associ 3 gnomes. Lesnuds ronds reprsentent les
anctres, les nuds carrs reprsentent les gnomes actuels. (A) La
topologie delunique arbre non enracin. (B) Les trois topologies
possibles darbres enracins. Cest la position dun gnomeexterne (un
gnome ne partageant pas le dernier anctre commun aux autres gnomes)
vis--vis des autres gnomesqui permet de passer dune topologie
non-enracine une topologie enracine.
-
2.2. Reconstruction de larbre phylogntique 41
La longueur des branches
Jusquici, il na t question que de topologie darbre, mais lautre
aspect important dunarbre, en particulier phylogntique, cest la
longueur des branches. La longueur des branchespeut reprsenter un
nombre dannes. Dans ce cas, pour un arbre enracin, la distance
entre ledernier anctre commun et chacune des espces actuelles doit
tre la mme (cest le cas desarbres noirs de la Figure 2.1B, en ne
comptant, bien sr, que la taille des branches verticales).En
revanche, si la taille des branches reprsente ou un nombre de
substitutions dune squencedADN ou lacquisition dun caractre ou tout
autre type de signal, les espces nvoluant pastoutes de la mme
manire, la mme vitesse, elles ne seront pas toutes la mme
distancede leur dernier anctre commun. En effet, lhypothse de
lhorloge molculaire [Zuckerkandl etPauling, 1962, 1965; Wilson et
al., 1977] selon laquelle lvolution est un phnomne constant(les
mutations gntiques saccumulant dans un gnome une vitesse
globalement proportion-nelle au temps gologique), est en partie
remise en question. Avec laugmentation de la quantitde donnes
gntiques et le raffinement des mthodes statistiques, il devient de
plus en plus clairquil faut assouplir cette hypothse et laborer
plutt des modles statistiques plus sophistiqus,dits dhorloge
molculaire relche.
Il faut noter que la longueur des branches peut parfois aider
enraciner un arbre : il suffit deplacer la racine de telle sorte
que larbre soit le plus quilibr possible (que les diffrentes
dis-tances racine-espces soient le plus proche possible
entre-elles). Cependant, cest une mthodepeu sre, la racine ne se
situant pas toujours le long de la branche la plus longue.
Les transferts horizontaux
Penser que les squences actuelles des gnes ne sont que le
rsultat dun hritage verticalest une vision un peu simpliste,
surtout pour les gnomes procaryotes. Ces derniers sont sujets de
nombreux transferts horizontaux de gnes. Un transfert horizontal
est un processus par le-quel un organisme intgre du matriel gntique
(au niveau de son ADN) provenant dun autreorganisme sans en tre le
descendant. Certains gnes ne sont donc pas hrits dun gnome
an-cestral mais dune autre espce cousine. Certains arbres
phylogntiques sont dailleurs parfoisremplacs par des rseaux
phylogntiques. Ce sont des objets plus mme de reprsenter toutela
complexit des histoires volutives des gnomes [Doolittle, 2000]. Les
transferts horizontauxcomplexifient la reconstruction de la
phylognie (lhistoire du gne ne retrace plus la phylogniedes espces)
mais galement la reconstruction de lhistoire des rarrangements
chromosomiqueset des gnomes ancestraux. Les diffrentes mthodes
dveloppes au cours de cette thse ne sontpas adaptes pour faire face
de tels vnements et sont donc dveloppes en particulier pourdes
gnomes eucaryotes, qui sont des gnomes moins sujets ce genre de
transferts.
Il faut noter que les gnes issus de ces transferts sont
gnralement vus comme du bruit etsupprims des diffrentes analyses
phylogntiques. Mais ils peuvent galement servir vali-der une
topologie plutt quune autre, en calculant par exemple pour chaque
arbre le nombre
-
42 Chapitre 2. Introduction aux diffrentes problmatiques
abordes
de transferts horizontaux quil induit et en choisissant la
topologie la plus parcimonieuse, i.e.induisant le moins de
transferts [Abby et al., 2012].
2.2.2 Les diffrents types de donnes pour infrer une
phylognie
Toute reconstruction darbre phylogntique se base sur le principe
que les organismes quise ressemblent le plus ont probablement un
anctre commun plus rcent que les organismesparaissant plus loigns
aux niveau de leur phnotype ou de leurs squences. Les espces
quipartagent certaines caractristiques communes et drives sont
runies dans le mme clade (sous-arbre), en supposant que leur
dernier anctre commun, le nud la racine de ce clade, avaitgalement
ces caractristiques, en tant lui-mme lacqureur puis le
transmetteur. La ralittant plus complique/ambige, diffrentes
mthodes ont t dveloppes comme on va le voir.
En effet, il peut y avoir des contradictions. Par exemple, si on
se base sur des caractristiquesdu phnotype, comme cela a longtemps
t le cas avant lacquisition de donnes dordre mol-culaire, le panda
gant a une anatomie qui ressemble beaucoup celle de lours et
pourtant ilnhiberne pas et son appareil gnital rappelle plus celui
dun raton laveur que celui dun ours.Le lien de parent entre le
panda gant et lours a ensuite t confirm par le squenage dequelques
gnes [Slattery et OBrien, 1995].
Les donnes sur le phno