Top Banner
Introduction à la phylogénie moléculaire Céline Brochier ( [email protected]) 2015-2016 (http://www.frangun.org )
131

Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Sep 16, 2018

Download

Documents

vuongthu
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Introduction à la

phylogénie moléculaire

Céline Brochier ([email protected]) 2015-2016

(http://www.frangun.org)

Page 2: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Intérêt d’étudier l’évolution moléculaire et la

phylogénie

Prépondérante en biologie

Ecologie

Evolution

Microbiologie

Biologie cellulaire, etc.

Permet d’aborder des questions très variées

Histoire évolutive du matériel génétique

Histoire évolutive des espèces / taxa

Identification / Classification

Etudes comparatives: Analyse de l’évolution des caractères

etc.

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 3: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Naissance de la phylogénie moléculaire

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 4: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Arbres phylogénétiques

Les arbres sont des graphesconnexes acycliques

Nœuds = unités taxonomiques(UT)

Opérationnelles (UTO) = A, B, C,D, E = feuilles de l’arbre

Hypothétiques (UTH) = F, G, H, I= nœuds internes

Branches internes = succession

d’organismes reliant deux UTH

externes = successiond’organismes reliant entre UTHet UTO

Topologie (forme) de l’arbre =Ensemble des branchements del’arbre (nœuds + branches)

Racine = ancêtre commun le plusrécent à tous les UTO

A

B

C

D

E

F

G

H

I

Racine

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 5: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Deux branches sœurs peuvent pivoter

librement autour du nœud qui les connecte

E

C

D A

B

E

D

C A

B

D

C

E A

B

Cet arbre est différent

des deux précédents

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 6: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Arbres racinés et arbres non racinés

B

E

H

C

D

G

A

F

A

B

C

D

E

F

G

H

I

Racine

La racine permet de suivre chemin

évolutif séparant chaque feuille de

l’ancêtre commun à tous les UTO

Sans racine il n’est pas possible de

déterminer les relations de parenté

entre les UTO

La racine représente l’ancêtre commun le plus récent à tous les UTO

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 7: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Il y a autant de racines possibles que de

branches dans un arbre non raciné

Chacune induit une histoire évolutive particulière… mais une seule est vraie

B

E

H

C

DG

AF

2

1

7

3

4

5

6

ABC D E

1

BAC D E

2

CDA B E

3

DCA B E

4

EDA B C

5

DCA B E

6

BAC D E

7

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 8: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Enraciner un arbre phylogénétique

La majorité des méthodes de reconstruction phylogénétique

produisent des arbres non racinés, car elles n’intègrent pas de

dimension temporelle

L’enracinement se fait donc indépendamment de la méthode choisie

Deux approches:

Enracinement au poids moyen

Enracinement par un groupe extérieur

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 9: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Enracinement au poids moyen

Hypothèse: Toutes les séquences évoluent à la même vitesse (i.e.

hypothèse d’horloge moléculaire)

La même quantité dévolution s’est produite dans chaque lignée évolutive

depuis leur ancêtre commun à toutes

Les distances évolutives entre chaque feuille et la racine sont égales

La racine est placée au point de l’arbre équidistant de toutes les feuilles

E

C

D

A

B

d

1

E

AB

C

D

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 10: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Exemple d’enracinement au poids moyen

Fig 5.

Phylogenetic tree showing the relationship of BtubA and BtubB relative to

eukaryotic α and β tubulins. Tree presented is parsimony tree rooted at the

midpoint. Circles indicate bootstrap values. Nodes supported at >75% in the

majority of analyses are indicated by the filled circles. Nodes supported at 50–74%

in most analyses are indicated by the open circles. Unsupported nodes (<50%)

have no circle. (Bar = 0.1 substitutions per site.)

(Jenkins et al. (2002) PNAS)

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 11: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Cas où l’enracinement au poids moyen

pourrait conduire à une erreur

(van de Peer et al. (2000) gene)

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 12: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Enracinement avec un groupe extérieur

Pré-requis: inclure dans l’analyse un groupe de séquences homologues aux

séquences analysées mais dont on sait a priori qu’elles sont extérieures

aux séquences analysées

La racine est défini par le nœud reliant le groupe extérieur aux séquences

étudiées

0.1

H

F

G

E

C

D

A

B

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 13: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Exemple d’enracinement avec un groupe

extérieur (taxa)

Thermotogae

Autres phyla

bactériens

Fig. S2

Bayesian phylogenetic trees of SSU rRNA. 75 sequences and 1048

unambiguously aligned nucleic acid positions were used. Numbers at

nodes represent posterior probabilities (PP) inferred by MrBayes and

bootstrap values (BV) inferred by TreeFinder. For clarity only PP > 0.50

and BV > 50% are shown. Scale bars represent the average number of

substitutions per site. Thermotogales sequences retrieved from

mesothermic environments are shaded.

(Ben Hania et al (2011) Syst Appl Micro)

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 14: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Exemple d’enracinement avec un groupe

extérieur (paralogues)

(Brown and Doolittle et al (1995) PNAS)

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 15: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Arbres résolus et arbres multifurqués

Arbres résolus

Arbres multifurqués

0,1

E

C

D

A

B

0,1

E

C

D

A

B

0,1

E

C

D

A

B

0,1

E

C

D

A

B

0,1

E

C

D

A

B

0,1

E

C

D

B

A

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 16: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Longueurs des branches d’un arbre

0,1

E

C

D

A

B

E

C

D A

B

Cladogrammes: la longueur des branches

est arbitraire et ne reflète pas la distance

évolutive séparant les séquences

Phylogrammes: la longueur des branches est

proportionnelle à la distance évolutive entre les séquences

(nb substitutions / site)

0,1

E

C

D

A

B

E

C

D

A

B

E

C

D

A

B

Arbres ultramétriques: la

longueur des branches

représente un % de

divergence (phénogrammes)

ou le temps

(chronogrammes)

0,1

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 17: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Apparentement et similarité

B est plus apparenté à A qu’à C, D ou E

B est apparenté de manière égale à C et D

B est plus apparenté à C ou D qu’à E

C est plus apparenté à D qu’à A, B ou E

C est plus apparenté A ou B qu’à E

E est aussi apparenté à A, B, C ou D

A, B, C, D et E sont apparentés de manière égale à leur ancêtre commun

0,1

E

C

D

A

B

H2

H1

H3

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 18: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Apparentement et similarité

… mais C est plus similaire à A qu’à D

0,1

E

D

A

B

C

AHHHHHHCACHDHCDCdddddddd

11332222

H2

H1

H3

B est plus apparentés à A qu’à C, D ou E

B est apparenté de manière égale à C et D

B est plus apparenté à C ou D qu’à E

C est plus apparenté à D qu’à A, B ou E

C est plus apparenté A ou B qu’à E

E est aussi apparenté à A, B, C ou D

A, B, C, D et E sont apparenté de manière égale à leur ancêtre commun

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 19: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Notion d’ancêtre commun et de parenté

1) Premier ancêtre commun

2) Dernier ancêtre commun

3) Ancêtre commun exclusif

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 20: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Divergence ≠ diversification d’un groupe

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 21: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Ancestral ≠ dérivé / Ancien ≠ récent

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 22: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Groupes mono-, para-, polyphylétiques

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 23: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Format Newick

Les UTO sont séparés par des « , »

La ligne est terminée par un « ; »

Les UTO descendant d’un même nœud sont indiquées par des ( ) ( (A , B) , E , ( C , D ) ) ;

Les longueurs des branches sont précédées par « : » ( (A:L1 , B:L2):L6 , E:L5 , (C:L3 ,

D:L4):L7 ) ;

Des labels (e.g. BV, PP) peuvent être associés à chaque nœud ( (A:L1 , B:L2) BV1 :L6 , E:L5 ,

(C:L3 , D:L4) BV2 :L7 ) ;

B

E

C

D

A

L2

L1

L3

L4

L7

L6

L5

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 24: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Ajout du taxon C => 3 possibilités

A B

Combien d’arbres racinés ?

2 feuilles 1 topologie

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 25: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Ajout du taxon C => 3 possibilités

A BC

A B

Combien d’arbres racinés ?

2 feuilles 1 topologie

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 26: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Ajout du taxon C => 3 possibilités

A BC

A B

A BC

Combien d’arbres racinés ?

2 feuilles 1 topologie

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 27: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Ajout du taxon C => 3 possibilités

A BC C BA

A B

A BC

Combien d’arbres racinés ?

2 feuilles 1 topologie

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 28: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Ajout du taxon C => 3 possibilités

A BC C BA

A B

A BC

Ajout du taxon D

=> 5 possibilités

Combien d’arbres racinés ?

2 feuilles 1 topologie

3 feuilles 3 topologies

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 29: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Ajout du taxon C => 3 possibilités

A BC C BA

A B

A BC

Ajout du taxon D

=> 5 possibilités

Combien d’arbres racinés ?

2 feuilles 1 topologie

3 feuilles 3 topologies

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 30: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Ajout du taxon C => 3 possibilités

A BC C BA

A B

A BC

A BCD

A BC D

A BC D

A BC DA BCD

Ajout du taxon D

=> 5 possibilités

Combien d’arbres racinés ?

2 feuilles 1 topologie

3 feuilles 3 topologies

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 31: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Ajout du taxon C => 3 possibilités

A BC C BA

A B

A BC

A BCD

A BC D

A BC D

A BC DA BCD

Ajout du taxon D

=> 5 possibilités

Combien d’arbres racinés ?

2 feuilles 1 topologie

3 feuilles 3 topologies

4 feuilles 15 topologies

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 32: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Combien d’arbres? Arbres racinés

1

3

15

105

945

10 395

135 135

2 027 025

34 459 425

~ 8.2 x 1021

~ 2.75 x 1076

• Nb UTO

2

3

4

5

6

7

8

9

10

20

30

NNR = (2n-5)! / [2n-3 x (n-3)] !

)!2(2

)!32(

2

n

n

n

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 33: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Arbres non racinés

1

1

3

15

105

945

10 395

135 135

2 027 025

~2.2 x 1020

~2.8 x 1074

Application

)!3(2

)!52(

3

n

n

n

NR = (2n-3)! / [2n-2 x (n-2)] ! NNR = (2n-5)! / [2n-3 x (n-3)] !nb d’arbres non racinés pour n UTO = nb d’arbres racinés pour n-1 UTO

Arbres racinés

1

3

15

105

945

10 395

135 135

2 027 025

34 459 425

~ 8.2 x 1021

~ 2.75 x 1076

• Nb UTO

2

3

4

5

6

7

8

9

10

20

30

)!2(2

)!32(

2

n

n

n

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 34: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Estimation de la robustesse des arbres :

Bootstrap

Un problème majeur en phylogénie est d’estimer la force des regroupements observés

Idée = estimer la variabilité de l’arbre (ou d’une partie de l’arbre) Étude de la robustesse des arbres

Si un arbre est robuste i.e. fortement soutenu par les données alors sa variabilité sera faible, et les regroupements observés devraient être retrouvés même si on perturbe un peu les données

Si un arbre est peu robuste alors il aura une grande variabilité, et les regroupements observés seront très instables en cas de perturbation des données

Estimation de la force avec laquelle les données (i.e. l’alignement) soutiennent les regroupements observés

Association d’un estimateur de la robustesse à chaque branche de l’arbre

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 35: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Le Jacknife – Wu 1986 Felsenstein 1985

On réalise X tirages sans remise de n/2 sites au sein du jeu de données initial

Construction d’un nouvel alignement contenant le même nombre de séquences et la moitié des sites de l’alignement initial

Certains sites seront totalement absents du nouvel alignement

pondération des sites par la valeur 0 ou 1

D’un tirage à l’autre les combinaisons de sites absents seront différentes et les combinaisons de sites présents seront différentes

Chaque tirage (i.e. combinaison de sites) est unique, car la pondération des sites change à chaque tirage

Pour chaque tirage on calcule la phylogénie correspondante par la même méthode

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 36: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Le Jacknifeseq1

seq2

seq3

seqN1 2 3 4 5 6 7 8 9 10111213141516 17181920

Alignement

initial

Jacknife

sample #1

Jacknife

sample #X

seq1

seq2

seq3

seqN2 5 7 9 121315 171820

seq1

seq2

seq3

seqN4 5 9 1012131416 1719

La robustesse de chaque branche de l’arbre initial peut être estimée par le nombre

de fois où cette même branche est retrouvée dans les réplicats de Jacknife

Estimation

de l’arbre

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 37: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Le Bootstrap

Contrairement au Jacknife, la procédure de bootstrap s’appuie sur des alignements ré-échantillonnés de même taille que l’alignement initial

On réalise X tirages avec remise de n sites parmi les n sites contenus dans l’alignement initial

Certains sites seront présents plusieurs fois dans le nouvel alignement

Certains sites seront absents du nouvel alignement

Pondération des caractères variant entre 0 et n

D’un tirage à l’autre les sites absents ou présents plus d’une fois seront différents

Chaque tirage (i.e. combinaison de sites) est unique car la pondération des sites est aléatoire d’un tirage à l’autre

Pour chaque tirage on calcule la phylogénie correspondante par la même méthode

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 38: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

seq1

seq2

seq3

seqN1 2 3 4 5 6 7 8 9 10111213141516 17181920

JDD

initial

Bootstrap

sample #1

Bootstrap

sample #X

seq1

seq2

seq3

seqN1 1 2 4 7 7 1111 11 11 12

seq1

seq2

seq3

seqN5 8 8 8 9 101012 131315

Le Bootstrap Estimation

de l’arbre

La robustesse de chaque branche de l’arbre initial peut être estimée par le nombre

de fois où cette même branche est retrouvée dans les réplicats de Bootstrap

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 39: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Une valeur de bootstrap de 100% un nœud vrai

ROBUSTESSE VERACITE !

Une BV de 100% un nœud ROBUSTE

Interprétation du Jacknife et du Bootstrap

PécariCochon SUIFORMES

CerfCerf RUMINANTS

BaleineDauphin CETACES

RhinoHommeGROUPE

EXTERIEUR

99

98

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 40: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Cause de l’incongruence/problèmes

rencontrés en phylogénie moléculaire

Problèmes d’échantillonnages

Séquences trop courtes => effets stochastiques

Échantillonnage taxonomique trop réduit

Problèmes liés à la divergence des séquences

Séquences pas assez variables

Séquences trop divergentes => saturation

Séquences présentant des taux d’évolution hétérogènes

(Attraction des longues branches)

=> Facteurs non exclusifs !

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 41: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Pour vous entrainer

http://www.frangun.org/

Rubrique enseignement

« Tree Thinking Challenge »

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 42: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Caractères et états de caractères

Caractère = caractéristique observable d’un organisme

(quantitative ou qualitative)

État de caractère = forme particulière d’un caractère dans une

UTO particulière (variable continue ou discrète)

Exemple

Caractère Taille Pos. 68 CYTB

État de caractères 1,68 cm Alanine

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 43: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Arbres vrais et arbres inférés

La succession des événements de spéciation, de duplications et de

transferts qui a conduit aux séquences étudiées est unique !

Parmi tous les arbres possibles un seul représente la véritable

histoire évolutive = ARBRE VRAI

Le (ou les) arbre(s) obtenu(s) à partir d’un gène particulier et une

méthode de reconstruction est appelé ARBRE INFERE

Hypothèse sur la manière dont s’est faite l’évolution

L’ARBRE INFERE ARBRE VRAI

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 44: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Reconstruire un arbre

Inférer une phylogénie procédure d’estimation de la véritable

histoire évolutive à partir de données incomplètes

Spécification de critères permettant de sélectionner un ou plusieurs

arbres parmi l’ensemble des arbres possibles

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 45: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Reconstruire un arbre

Inférer une phylogénie procédure d’estimation de la véritable

histoire évolutive à partir de données incomplètes

Spécification de critères permettant de sélectionner un ou plusieurs

arbres parmi l’ensemble des arbres possibles

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Meilleur arbre

(maximum global)

Page 46: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Méthodes

Méthodes de distances Recherche l’arbre qui représente au mieux les distances évolutives

entre paires de séquences

Requière l’estimation des distances évolutives entre paires de séquences, sachant un modèle d’évolution

UPGMA, NJ, minimum d’évolution, moindres carrés…

Méthodes cladistiques Recherche l’arbre impliquant le moins de changements évolutifs

permettant d’expliquer les données

Considèrent les sites individuellement

Maximum de parcimonie

Méthodes statistiques Recherche l’arbre ayant la plus forte vraisemblance sous le modèle

d’évolution considéré

Considèrent les sites individuellement

Maximum de vraisemblance, Méthodes bayésiennes

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 47: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Données utilisées en phylogénie moléculaire

Point de départ = alignement de séquences homologues

Arrivée = arbre décrivant les liens évolutifs entre les séquences de

l’alignement

0.1

neuroglobin

cytoglobin

myoglobin53

58

beta

delta

98

epsilon

gammaA

gammaG100

80

100

mu

zeta

theta

alpha2

alpha1100

79

76

52

(Alignement des 13 globines humaines réalisé avec clustalW (http://www.frangun.org/HSglobin_A.fasta),

arbre construit avec Seaview (BioNJ, 100 réplicats de bootstrap))

109 / 230 positions

conservées pour l’analyse

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 48: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Alignements et gaps Chaque colonne de l’alignement représente une position (ou site)

composée de résidus homologues, cad dérivant d’un même site ancêtre

La qualité des alignements est essentielle

Les régions où l’alignement est ambigu doivent être retirées (automatiquement ou manuellement) avant l’analyse phylogénique

La plupart des méthodes de reconstruction ne prend en compte que les substitutions et non les événements d’insertions/délétions

Les sites contenant des gaps sont ignorés

(ClustalW) (Muscle)

230 218

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 49: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Méthodes de distances

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 50: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Méthodes de distances - Principe général

Plusieurs méthodes (UMGMA, NJ, ME, etc.)

Deux grandes étapes

Construction de la matrice de distances

Reconstruction d’un arbre phylogénique dont les (di,j) sont les + proches possibles des (di,j) minimise Q

Alignement de séquences

homologues

Modèle d’évo.

4,53,52,51,55

5,43,42,41,44

5,34,32,31,33

5,24,23,21,22

5,14,13,12,11

54321

ddddS

ddddS

ddddS

ddddS

ddddS

SSSSS

n

i

n

j

jijidQ

1

,, )( d

2l

8l

S1S2

S3

S4 S5

1l5l

6l3l

4l

7l

Méthode de dist.

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 51: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Un estimateur simple: La divergence

observée (p-distance)

Estimateur le + simple

= p-distance

= nb de sub. obs.

= nb de résidus comparés

Variance

Soit 2 séquences ayant des compositions homogènes

(ADN)

(Protéines)

np

Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)

)1()(

pppVar

p

n

75.00 p

95.00 p

(Perrière & Brochier-Armanet, (2010) Concepts et méthodes en phylogénie moléculaire, Springer)

Nb sub. obs. = 3 p = 3/14 = 0.214

Nb sub. réel. = 12 /14 d = 0.857

La p-distance d quand la saturation mutationnelle

est faible, cad quand les subs. multiples sont rares

* * * * * *

Page 52: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Modèles d’évolution couramment

utilisés en phylogénie moléculaire

pd

3

41ln

4

3

Modèle de Jukes et Cantor (1 paramètre)

Modèle de Kimura (2 paramètres)

)21ln(4

121ln

2

1vvrd

CT

A G

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

CT

A G

Page 53: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

UPGMA - Application

Chien Ours Racoon Belette Phoque Otarie Chat Singe

Chien 0 32 48 51 50 48 98 148

Ours 32 0 26 34 29 33 84 136

Racoon 48 26 0 42 44 44 92 152

Belette 51 34 42 0 44 38 86 142

Phoque 50 29 44 44 0 24 89 142

Otarie 48 33 44 38 24 0 90 142

Chat 98 84 92 86 89 90 0 148

Singe 148 136 152 142 142 142 148 0

Matrice de distances extraite de Sarich 1969

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 54: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

UPGMA (Unweighted pair-group method

with arithmetic means)

Algorithme itératif de clustering: création à chaque étape d’un nouveau cluster regroupant deux clusters proches (Sokal et Michener, 1958)

L'arbre est construit "de bas en haut" : on part des feuilles et à chaque étape on rajoute un nœud au-dessus des précédents

Condition d’application

Hypothèse d’horloge moléculaire constance des taux d’évolution le long des lignées

Caractéristiques des arbres obtenus

Ils sont racinés

Les longueurs des branches allant de la racine à n’importe quelle feuille sont égales

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 55: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

UPGMA - Algorithme

1. Trouver les deux UTO i et j pour lesquels la distance dij est la plus petite

2. Créer le nouveau groupe (ij) contenant nij membres avec nij = ni + nj (ni et nj nombre d’UTO dans les groupes i et j)

3. Connecter i et j dans l’arbre à un nouveau nœud (ij) qui correspond au nouveau groupe (ij). Attribuer aux branches Li

et Lj connectant i à (ij) et j à (ij) la longueur dij /24. Calculer la distance entre le nouveau groupe (ij) et tous les

autres groupes en utilisant dij,k = ni x dik / (ni + nj) + nj x djk / (ni

+ nj)5. Éliminer les colonnes et les lignes correspondant aux groupes

i et j et ajouter celles correspondant au nouveau groupe (ij)6. Si il reste un seul élément dans la matrice, arrêter, sinon

retourner en 1.

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 56: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

UPGMA - Application

Chien Ours Racoon Belette Phoque Otarie Chat Singe

Chien 0 32 48 51 50 48 98 148

Ours 32 0 26 34 29 33 84 136

Racoon 48 26 0 42 44 44 92 152

Belette 51 34 42 0 44 38 86 142

Phoque 50 29 44 44 0 24 89 142

Otarie 48 33 44 38 24 0 90 142

Chat 98 84 92 86 89 90 0 148

Singe 148 136 152 142 142 142 148 0

Matrice de distances extraite de Sarich 1969

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 57: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

1. Trouver les deux UTO i et j pour lesquels la distance dij est la plus

petite

2. Créer le nouveau groupe (ij) contenant nij membres avec nij = ni +

nj (ni et nj nombre d’UTO dans les groupes i et j)

3. Connecter i et j dans l’arbre à un nouveau nœud (ij) qui

correspond au nouveau groupe (ij). Attribuer aux branches Li et Lj

connectant i à (ij) et j à (ij) la longueur dij /2

4. Calculer la distance entre le nouveau groupe (ij) et tous les autres

groupes en utilisant dij,k = ni x dik / (ni + nj) + nj x djk / (ni + nj)

5. Éliminer les colonnes et les lignes correspondant aux groupes i et j

et ajouter celles correspondant au nouveau groupe (ij)

6. Si il reste un seul élément dans la matrice, arrêter, sinon retourner

en 1.

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 58: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Chien Ours Racoon Belette Phoque Otarie Chat Singe

Chien 0 32 48 51 50 48 98 148

Ours 32 0 26 34 29 33 84 136

Racoon 48 26 0 42 44 44 92 152

Belette 51 34 42 0 44 38 86 142

Phoque 50 29 44 44 0 24 89 142

Otarie 48 33 44 38 24 0 90 142

Chat 98 84 92 86 89 90 0 148

Singe 148 136 152 142 142 142 148 0

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 59: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

1. Trouver les deux UTO i et j pour lesquels la distance dij est la plus

petite

2. Créer le nouveau groupe (ij) contenant nij membres avec nij = ni +

nj (ni et nj nombre d’UTO dans les groupes i et j) nij = ni + nj

nij = 1 + 1 = 2

3. Connecter i et j dans l’arbre à un nouveau nœud (ij) qui

correspond au nouveau groupe (ij). Attribuer aux branches Li et Lj

connectant i à (ij) et j à (ij) la longueur dij /2

4. Calculer la distance entre le nouveau groupe (ij) et tous les autres

groupes en utilisant dij,k = ni x dik / (ni + nj) + nj x djk / (ni + nj)

5. Éliminer les colonnes et les lignes correspondant aux groupes i et

j et ajouter celles correspondant au nouveau groupe (ij)

6. Si il reste un seul élément dans la matrice, arrêter, sinon retourner

en 1.

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 60: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

1. Trouver les deux UTO i et j pour lesquels la distance dij est

la plus petite

2. Créer le nouveau groupe (ij) contenant nij membres avec nij

= ni + nj (ni et nj nombre d’UTO dans les groupes i et j)

3. Connecter i et j dans l’arbre à un nouveau nœud (ij) qui

correspond au nouveau groupe (ij).

Attribuer aux branches Li et Lj connectant i à (ij) et j à (ij) la

longueur dij /2 soit Li = 24/2 = 12 et Lj = 24/2 =12

4. Calculer la distance entre le nouveau groupe (ij) et tous les

autres groupes en utilisant dij,k = ni x dik / (ni + nj) + nj x djk /

(ni + nj)

5. Éliminer les colonnes et les lignes correspondant aux

groupes i et j et ajouter celles correspondant au nouveau

groupe (ij)

6. Si il reste un seul élément dans la matrice, arrêter, sinon

retourner en 1.12 12

Ph

oq

ue

Ota

rie

(ij)

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 61: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

1. Trouver les deux UTO i et j pour lesquels la distance dij est la plus

petite

2. Créer le nouveau groupe (ij) contenant nij membres avec nij = ni +

nj (ni et nj nombre d’UTO dans les groupes i et j)

3. Connecter i et j dans l’arbre à un nouveau nœud (ij) qui

correspond au nouveau groupe (ij). Attribuer aux branches Li et Lj

connectant i à (ij) et j à (ij) la longueur dij /2

4. Calculer la distance entre le nouveau groupe (ij) et tous les autres

groupes en utilisant dij,k = ni x dik / (ni + nj) + nj x djk / (ni + nj) dphoque-

otarie,chien = nphoque x dphoque,chien / (nphoque + notarie) + notarie x dotarie,chien /

(nphoque + notarie) = (50 + 48)/2 = 49

5. Éliminer les colonnes et les lignes correspondant aux groupes i et j

et ajouter celles correspondant au nouveau groupe (ij)

6. Si il reste un seul élément dans la matrice, arrêter, sinon retourner

en 1.

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 62: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Chien Ours Racoon Belette Phoque

Otarie

Phoque Otarie Chat Singe

Chien 0 32 48 51 50 48 98 148

Ours 32 0 26 34 29 33 84 136

Racoon 48 26 0 42 44 44 92 152

Belette 51 34 42 0 44 38 86 142

Phoque

Otarie

0

Phoque 50 29 44 44 0 24 89 142

Otarie 48 33 44 38 24 0 90 142

Chat 98 84 92 86 89 90 0 148

Singe 148 136 152 142 142 142 148 0

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 63: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Chien Ours Racoon Belette Phoque

Otarie

Phoque Otarie Chat Singe

Chien 0 32 48 51 (50+48)/2

= 49

50 48 98 148

Ours 32 0 26 34 (29+33)/2

= 31

29 33 84 136

Racoon 48 26 0 42 (44+44)/2

= 44

44 44 92 152

Belette 51 34 42 0 (44+38)/2

= 41

44 38 86 142

Phoque

Otarie

(50+48)/2

= 49

(29+33)/2

= 31

(44+44)/2

= 44

(44+38)/2

= 41

0 (89+90)/2

= 89.5

(142+142

)/2 = 142

Phoque 50 29 44 44 0 24 89 142

Otarie 48 33 44 38 24 0 90 142

Chat 98 84 92 86 (89+90)/2

= 89.5

89 90 0 148

Singe 148 136 152 142 (142+142

)/2 = 142

142 142 148 0

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 64: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

1. Trouver les deux UTO i et j pour lesquels la distance dij est la

plus petite

2. Créer le nouveau groupe (ij) contenant nij membres avec nij =

ni + nj (ni et nj nombre d’UTO dans les groupes i et j)

3. Connecter i et j dans l’arbre à un nouveau nœud (ij) qui

correspond au nouveau groupe (ij). Attribuer aux branches Li

et Lj connectant i à (ij) et j à (ij) la longueur dij /2

4. Calculer la distance entre le nouveau groupe (ij) et tous les

autres groupes en utilisant dij,k = ni x dik / (ni + nj) + nj x djk / (ni

+ nj)

5. Éliminer les colonnes et les lignes correspondant aux groupes

i et j et ajouter celles correspondant au nouveau groupe (ij)

6. Si il reste un seul élément dans la matrice, arrêter, sinon

retourner en 1.

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 65: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Chien Ours Racoon Belette Phoque

Otarie

Chat Singe

Chien 0 32 48 51 49 98 148

Ours 32 0 26 34 31 84 136

Racoon 48 26 0 42 44 92 152

Belette 51 34 42 0 41 86 142

Phoque

Otarie

49 31 44 41 0 89.5 142

Chat 98 84 92 86 89.5 0 148

Singe 148 136 152 142 142 148 0

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 66: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

1. Trouver les deux UTO i et j pour lesquels la distance dij est la

plus petite

2. Créer le nouveau groupe (ij) contenant nij membres avec nij =

ni + nj (ni et nj nombre d’UTO dans les groupes i et j)

3. Connecter i et j dans l’arbre à un nouveau nœud (ij) qui

correspond au nouveau groupe (ij). Attribuer aux branches Li

et Lj connectant i à (ij) et j à (ij) la longueur dij /2

4. Calculer la distance entre le nouveau groupe (ij) et tous les

autres groupes en utilisant dij,k = ni x dik / (ni + nj) + nj x djk / (ni

+ nj)

5. Éliminer les colonnes et les lignes correspondant aux groupes

i et j et ajouter celles correspondant au nouveau groupe (ij)

6. Si il reste un seul élément dans la matrice, arrêter, sinon

retourner en 1.

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 67: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Ph

oq

ue

Ota

rie

12 12

Ou

rs

Raco

on

13 13

Ph

oq

ue

Ota

rie

12 12

Ou

rs

Ra

co

on

13 13

5,75 6,75

Deuxième agglomération Troisième agglomération

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 68: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Ph

oq

ue

Ota

rie

12 12

Ou

rs

Ra

co

on

13 13

5,75 6,7519,75

Be

lett

e

1

Quatrième agglomération

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 69: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Ph

oq

ue

Ota

rie12 12

Ou

rs

Ra

co

on

13 13

5,756,75

19,75

Be

lett

e

1

Ch

ien

22,9

3,15

Cinquième agglomération

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 70: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Ph

oq

ue

Ota

rie

Ou

rs

Raco

on

Be

lett

e

Ch

ien

12 1213 13

5,75 6,7519,75

1

22,9

3,15 44,9166

Ch

at

22,0166

Sixième agglomération

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 71: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Ph

oq

ue

Ota

rie

Ou

rs

Ra

co

on

Be

lett

e

Ch

ien

12 1213 13

5,75 6,7519,75

1

22,9

3,15

44

,91

66

Ch

at

22,0166

Sin

ge

72,1428

27,22619Septième agglomération

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 72: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Conclusions sur l’UPGMA

Avantages de l’algorithme:

Rapidité & simplicité

Critiques:

Hypothèse de l’égalité des taux d’évolution entre les lignées.

Résultats faux si les distances de la matrice n’obéissent pas au critère

d’horloge moléculaire

N’est presque plus utilisée

Peut être réaliste si on étudie des espèces très proches

A

B C

D

13 4 4 112 2

A B C D

A 0 17 21 28

B 17 0 12 19

C 21 12 0 15

D 28 19 15 0

B C AD

6 6 8,5 11

2,52,5

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 73: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Le neighbor-joining (NJ)

Développé par Saitou et Nei (1987) est une approximation de l’algorithme pour trouver l’arbre le plus court (minimum évolution)

Avantages

Rapidité => permet de travailler avec un très grand nombre de taxons (plusieurs centaines)

Bonne approximation de la méthode du minimum d’évolution

Retrouve l’arbre vrai si la matrice de distances est un reflet exact d’un arbre

Conditions d’application

Les taux d’évolution ne sont pas les mêmes dans toutes les lignées

Caractéristiques des arbres obtenus

Ils sont non racinés

Principe:

A chaque étape, rechercher le couple d’UTO qui minimise la longueur totale de l’arbre

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 74: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Le neighbor-joining – Principe

Point de départ = topologie en étoile

Étape 1 : Pour toutes les paires i,j possibles, calculer Si,j la longueur de

l’arbre obtenu

Étape 2 : Retenir la paire i,j générant la plus petite valeur Si,j ; grouper i et j

dans l’arbre

Étape 3 : Calculer les nouvelles distances d entre le groupe nouvellement

formé et les séquences restantes

Étape 4 : Retourner à l’étape 1 si il reste plus de 4 séquences/groupes à

assembler

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

L1B

L2B

L3B

L4B

L5B

L6B

1

2 3

4

56

BL1A

L2AL3B

L4B

L5B

L6B

LAB1

2 3

4

56

A B

Page 75: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Le neighbor-joining – Algorithme simplifié

(Studier et Keppler 1988)(1) Pour chaque feuille i calculer ui = Ri / (m-2) = m

k=1 dik / (m-2)

(2) Choisir et i et j pour lesquels dij – ui – uj est la plus petite

(3) Joindre i et j. Calculer Li la longueur de la branche reliant i au nouveau nœud A et Lj la longueur de la branche reliant j au nouveau nœud A comme étant

Li = dij/2 + (ui-uj)/2

Lj = dij/2 + (uj-ui)/2

(4) Calculer la distance entre le nouveau nœud A et chaque autre feuille comme

d(ij),k = (dik + djk – dij ) /2

(5) Éliminer les colonnes et les lignes correspondant aux groupes i et j et ajouter celles correspondant au nouveau groupe (ij)

(6) Si il reste un seul élément dans la matrice connecter les deux derniers nœuds, sinon retourner en 1

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 76: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Le neighbor-joining – Application

(1) Pour chaque feuille i calculer ui = Ri / (m-2) = mk=1 dik /(m-2)

(2) Choisir et i et j pour lesquels dij – ui – uj est la plus petite

(3) Joindre i et j. Calculer Li la longueur de la branche reliant i au nouveau nœud A et Lj la longueur de la branche reliant j au nouveau nœud A comme étant

Li = dij/2 + (ui-uj)/2

Lj = dij/2 + (uj-ui)/2

(4) Calculer la distance entre le nouveau nœud A et chaque autre feuille comme

d(ij),k = (dik + djk – dij ) /2

(5) Éliminer les colonnes et les lignes correspondant aux groupes i et j et ajouter celles correspondant au nouveau groupe (ij)

(6) Si il reste un seul élément dans la matrice connecter les deux derniers nœuds, sinon retourner en 1

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 77: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Chien Ours Racoon Belette Phoque Otarie Chat Singe

Chien 0

Ours 32 0

Racoon 48 26 0

Belette 51 34 42 0

Phoque 50 29 44 44 0

Otarie 48 33 44 38 24 0

Chat 98 84 92 86 89 90 0

Singe 148 136 152 142 142 142 148 0

ui79,167 62,333 74,667 72,833 70,333 69,833 114,5 168,333

ui = mk=1:ki dik / (m-2)

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 78: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

(1) Pour chaque feuille i calculer ui = Ri / (m-2) = mk=1 dik / (m-2)

(2) Choisir et i et j pour lesquels dij – ui – uj est la plus petite

(3) Joindre i et j. Calculer Li la longueur de la branche reliant i au nouveau nœud A et Lj la longueur de la branche reliant j au nouveau nœud A comme étant

Li = dij/2 + (ui-uj)/2

Lj = dij/2 + (uj-ui)/2

(4) Calculer la distance entre le nouveau nœud A et chaque autre feuille comme

d(ij),k = (dik + djk – dij ) /2

(5) Éliminer les colonnes et les lignes correspondant aux groupes i et j et ajouter celles correspondant au nouveau groupe (ij)

(6) Si il reste un seul élément dans la matrice connecter les deux derniers nœuds, sinon retourner en 1

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 79: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Chien Ours Racoon Belette Phoque Otarie Chat Singe

Chien 0 -109,5 -105,834 -101 -99,5 -101 -95.667 -99,5

Ours 32 0 -111 -101,166 -103,666 -99,166 -92,833 -94,666

Racoon 48 26 0 -105,5 -101 -100,5 -97,167 -91

Belette 51 34 42 0 -99,166 -104,666 -101,333 -99,166

Phoque 50 29 44 44 0 -116,166 -95.833 -96,666

Otarie 48 33 44 38 24 0 -94,333 -96,166

Chat 98 84 92 86 89 90 0 -134,833

Singe 148 136 152 142 142 142 148 0

ui 79,167 62,333 74,667 72,833 70,333 69,833 114,5 168,333

Dij – ui – uj exemple Ours/Chien : 32-79,167-62,333 = -109,5

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 80: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

(1) Pour chaque feuille i calculer ui = Ri / (m-2) = nk=1 dik m

k=1 dik / (m-2)

(2) Choisir et i et j pour lesquels dij – ui – uj est la plus petite

(3) Joindre i et j. Calculer Li la longueur de la branche reliant i au nouveau nœud

A et Lj la longueur de la branche reliant j au nouveau nœud A comme étant

Li = dij/2 + (ui-uj)/2 = 148/2 + (114,5 – 168,3333)/2 = 47,0835

Lj = dij/2 + (uj-ui)/2 = 148/2 + (168,3333 – 114,5)/2 = 100,9165

(4) Calculer la distance entre le nouveau nœud A et chaque autre feuille comme

d(ij),k = (dik + djk – dij ) /2

47,0835

100,9165

A

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 81: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

(1) Pour chaque feuille i calculer ui = Ri / (m-2) = nk=1 dik /m

k=1 dik / (m-2)

(2) Choisir et i et j pour lesquels dij – ui – uj est la plus petite

(3) Joindre i et j. Calculer Li la longueur de la branche reliant i au nouveau nœud A et Lj la longueur de la branche reliant j au nouveau nœud A comme étant

Li = dij/2 + (ui-uj)/2

Lj = dij/2 + (uj-ui)/2

(4) Calculer la distance entre le nouveau nœud A et chaque autre feuille comme

d(ij),k = (dik + djk – dij ) /2

(5) Éliminer les colonnes et les lignes correspondant aux groupes i et j et ajouter celles correspondant au nouveau groupe (ij)

(6) Si il reste un seul élément dans la matrice connecter les deux derniers nœuds, sinon retourner en 1

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 82: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

D(ij),k = (Dik + Djk – Dij ) /2

Chien Ours Racoon Belette Phoque Otarie Chat Singe

Chien 0

Ours 32 0

Racoon 48 26 0

Belette 51 34 42 0

Phoque 50 29 44 44 0

Otarie 48 33 44 38 24 0

Chat

Singe

(98+148-

148)/2 =

49

(84+136-

148)/2=

36

(92+152-

148)/2=

48

(86+142-

148)/2=

40

(89+142-

148)/2=

41,5

(90+142-

148)/2=42

Chat 98 84 92 86 89 90 0

Singe 148 136 152 142 142 142 148 0

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 83: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

(1) Pour chaque feuille i calculer ui = Ri / (m-2) = mk=1 dik

(2) Choisir et i et j pour lesquels dij – ui – uj est la plus petite

(3) Joindre i et j. Calculer Li la longueur de la branche reliant i au nouveau nœud A et Lj la longueur de la branche reliant j au nouveau nœud A comme étant

Li = dij/2 + (ui-uj)/2

Lj = dij/2 + (uj-ui)/2

(4) Calculer la distance entre le nouveau nœud A et chaque autre feuille comme

d(ij),k = (dik + djk – dij ) /2

(5) Éliminer les colonnes et les lignes correspondant aux groupes i et j et ajouter celles correspondant au nouveau groupe (ij)

(6) Si il reste un seul élément dans la matrice connecter les deux derniers nœuds, sinon retourner en 1

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 84: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Supprimer les colonnes du chat et du singe

Chien Ours Racoon Belette Phoque Otarie Chat Singe

Chien 0

Ours 32 0

Racoon 48 26 0

Belette 51 34 42 0

Phoque 50 29 44 44 0

Otarie 48 33 44 38 24 0

Chat

Singe

49 36 48 40 41,5 42

Chat 98 84 92 86 89 90 0

Singe 148 136 152 142 142 142 148 0

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 85: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Chien Ours Racoon Belette Phoque Otarie Chat

Singe

Chien 0

Ours 32 0

Racoon 48 26 0

Belette 51 34 42 0

Phoque 50 29 44 44 0

Otarie 48 33 44 38 24 0

Chat

Singe

49 36 48 40 41,5 42 0

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 86: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

(1) Pour chaque feuille i calculer ui = Ri / (m-2) = mk=1 dik

(2) Choisir et i et j pour lesquels dij – ui – uj est la plus petite

(3) Joindre i et j. Calculer Li la longueur de la branche reliant i au nouveau nœud A et Lj la longueur de la branche reliant j au nouveau nœud A comme étant

Li = dij/2 + (ui-uj)/2

Lj = dij/2 + (uj-ui)/2

(4) Calculer la distance entre le nouveau nœud A et chaque autre feuille comme

d(ij),k = (dik + djk – dij ) /2

(5) Éliminer les colonnes et les lignes correspondant aux groupes i et j et ajouter celles correspondant au nouveau groupe (ij)

(6) Si il reste un seul élément dans la matrice connecter les deux derniers nœuds, sinon retourner en 1

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 87: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

47,0835

100,9165

47,0835

100,9165

12,35 11,65

Deuxième agglomération

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 88: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

47,0835

100,9165

12,35 11,65

Troisième agglomération

47,0835

100,9165

12,35 11,65

6,875

19,125

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 89: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Quatrième agglomération

47,0835

100,9165

12,35 11,65

6,875

19,125

47,0835

100,9165

11,6512,35

6,875

19,1251,75

25,25

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 90: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Cinquième agglomération

47,0835

100,9165

11,6512,35

6,875

19,1251,75

25,25

47,0835

100,9165

11,65

12,35

6,875

19,1251,75

25,25

3,5

7,8125

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 91: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Sixième

agglomération

47,0835

100,9165

11,65

12,35

6,875

19,1251,75

25,25

3,5

7,8125

47,083511,65

12,35

6,875

19,125

25,25

1,75

100,9165

19,56253,4375

7,8125

20,44

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 92: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Comparaison UPGMA - NJ

47,0835 100,9165

3,437520,44

11,65

12,35

6,875

19,125

25,25

1,75

19,5625

7,8125

1,5625

13

Phoque

Otarie

Ours

Racoon

Belette

Chien

12

12

13

5,75

6,75

19,75

1

22,9

3,15

44,9166Chat

22,0166

Singe72,1428

27,226190

Phoque

Otarie

Ours

Racoon

Chien

Chat

Singe

Belette

UPGMA NJ

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 93: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Maximum de Parcimonie

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 94: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

La parcimonie

Fondement: rasoir d’Occam

« Les multiples ne doivent pas être utilisés sans nécessité. »

(pluralitas non est ponenda sine necessitate) ou sous une forme

plus moderne « les hypothèses les plus simples sont les plus

vraisemblables »

Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)

Page 95: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Le critère de parcimonie

Soit un caractère relevé dans 4 espèces {A,B,C,D} (dont on connaît la phylogénie) et présentant les états de caractères

Quelle histoire a pu conduire à cet état final?

yyxx ,,,

DCAB

x y x y

y

x

y

Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)

Page 96: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Le critère de parcimonie

Soit un caractère relevé dans 4 espèces {A,B,C,D} (dont on connaît la phylogénie) et présentant les états de caractères

Quelle histoire a pu conduire à cet état final?

yyxx ,,,

NC = 1

DCAB

x y x y

y

x

y

Similarité par

ascendance commune

Substitution y => x

Substitution x => y

Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)

Page 97: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Le critère de parcimonie

Soit un caractère relevé dans 4 espèces {A,B,C,D} (dont on connaît la phylogénie) et présentant les états de caractères

Quelle histoire a pu conduire à cet état final?

yyxx ,,,

NC = 1

DCAB

x y x y

y

x

y

Similarité par

ascendance commune

NC = 2

DCAB

x y x y

y

y

y

Similarité par

convergence

NC = 2

DCAB

x y x y

x

x

y

Similarité par

réversion

Substitution y => x

Substitution x => y

Les scénarios homoplasiques demandent plus de changements évolutifs. L’emploi du critère de

parcimonie en phylogénie moléculaire n’est justifié que si les convergences et les réversions sont rares.

Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)

Page 98: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Maximum de parcimonie - Généralités

Identifier la topologie T qui implique le plus petit nombre de changements évolutifs suffisant pour rendre compte des différences observées entre les séquences étudiées.

L’arbre le plus parcimonieux plus court chemin conduisant aux états de caractères observés

Caractéristique des arbres obtenus

Solutions multiples => plusieurs arbres impliquant un même nombre minimal de changements peuvent être obtenus

Ne possèdent pas de longueur de branche

Arbres non racinés

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 99: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Le maximum de parcimonie

Principe: rechercher parmi l’espace des arbres définissant les liens entre n séquences la topologie qui minimise le nombre de changements évolutifs

Quelle est la topologie qui implique le moins de changements d’état de caractères pour rendre compte des différences observées entre les UTO étudiées

Procédure:

1) pour une topologie fixée et pour un site donné de l’alignement, calculer (NC) le nombre de changements évolutifs nécessaires pour expliquer les états de caractères observés

2) calculer (NC) pour chaque site de l’alignement => , la longueur de l’arbre

3) calculer pour toutes les topologies possibles => retenir l’arbre le plus parcimonieux (cad l’arbre le plus court)

T

TL

L

Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)

Page 100: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Parcimonie: Etape 1

Pour une topologie fixée et pour un site

donné de l’alignement, calculer (NC) le

nombre de changements évolutifs

nécessaires pour expliquer les états de

caractères observés

T

Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)

Page 101: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Algorithme de Fitch: calcul du nombre

minimal de changements évolutifs Soit une topologie fixée et racinée de manière arbitraire, soit

l’ensemble de ses nœuds

Pour tout on définit:

, le nombre minimal de changements dans le sous-arbre dont

est la racine

, l’état de , cad l’ensemble des résidus en compatibles

avec changements évolutifs dans le sous-arbre raciné par .

Soit et les deux nœuds fils de

T V

Vp

pC

p

pS pp

p

pC

q r p

Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)

Page 102: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Algorithme de Fitch: Application

La racine est placée de manière

arbitraire et n’a aucune influence

sur le nombre de changements

évolutifs inférés

Les états de caractères inférés

aux nœuds ne représentent pas

des caractères ancestraux, ni tous

les états de caractères possibles !

Initialisation du calcul récursif aux

feuilles de l’arbre

-P = {x} = résidu présent à cette feuille

-Cp = 0

NC = 4

Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)

Page 103: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Des scénarios multiples

61 2 543

{C} {T} {G} {T} {A} {A}

61 2 543

{C} {T} {G} {T} {A} {A}

{T} {A}

T->C

T->A

T->G

{T}

{T}

{T} {T} T->A

{A}

{A}

{T}T->C

A->T

A->G

G->T

Il existe plusieurs scénarios

impliquant NC = 4

changements évolutifs

Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)

Page 104: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Parcimonie: Etapes 2 et 3

Etape 2:

Calculer NC pour chaque site de l’alignement

Sommer tous les valeurs de NC pour l’ensemble des sites

Calculer , la longueur totale de l’arbre

Etape 3:

Répéter l’étape 2 pour chaque topologie composant

l’espace des arbres possibles à n feuilles

Retenir l’arbre de longueur minimale arbre le plus

parcimonieux

T

L

L

Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)

Page 105: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Tous les sites ne sont pas équivalents

Tous les sites ne contiennent pas une information

permettant de discriminer les topologies

Les sites constants (1 seul état de caractère)

Ne sont pas informatifs

Sites variables (au moins 2 états de caractères)

Informatifs: présentent au moins deux états de caractères

chacun partagés par au moins deux séquences

Non informatifs: tous les autres

Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)

Page 106: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Tous les sites ne sont pas équivalents

Soit A, B, C et D quatre séquences

d’ADN homologues alignées

Il existe 3 topologies non racinées

possibles

Il existe 4 états de caractères

{A,T,C,G}

Il existe 44 = 256 motifs différents

observables à une position

Seuls 36 sont informatifs, et sont

tous du type {x,x,y,y}, {x,y,x,y} ou

{x,y,y,x} (avec x ≠ y et x,y E

{A,T,C,G})

Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)

Page 107: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Parcimonie: Récapitulatif & propriétés

Produit des arbres non racinés

Le positionnement des changements dans un arbre n’est pas unique ne permet pas d’inférer des longueurs de branches de manière unique

Plusieurs arbres équiparcimonieux peuvent être trouvés Inférence de consensus

Le nombre d’arbre croissant de manière rapide avec le nombre de séquences, seul un sous-ensemble des topologies est testé pour identifier l’arbre le plus parcimonieux Utilisation d’heuristiques pour explorer l’espace des arbres de manière rationnelle

Aucune certitude d’identifier l’arbre le plus parcimonieux à la fin de l’analyse

Absence de critères pour discriminer le(les) arbre(s) le(s) plus parcimonieux des arbres légèrement moins parcimonieux ex. est-ce qu’un arbre comptant 2504 pas est significativement meilleur que les

20 arbres comptant 2506 pas ?

La parcimonie classique (algorithme de Fitch) considère toutes les substitutions comme équivalentes Parcimonie pondérée (algorithme de Sankoff) permet de pondérer les types de

changements

Pour approfondir ces notions: Concepts et méthodes en phylogénie moléculaire (2010) Perrière &

Brochier-Armanet (Springer)

Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)

Page 108: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Consensus d’arbres

F E D C B A F E D C B A F E D C B A

F E D C B A F E D C B A

Strict

D E F C B A

Maj. 50% Maj. 80%

(Perrière & Brochier-Armanet, (2010) Concepts et méthodes en phylogénie moléculaire, Springer)

Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)

Page 109: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Explorer l’espace des topologies

n < 12: Exploration exhaustive

n < 20: branch-and-bound

n > 20: heuristiques

Utilisé pour la parcimonie, mais aussi les moindres carrés, le

maximum de vraisemblance, etc.

Topologie de départ?

Topologie aléatoire

Meilleure topologie issue d’une recherche séquentielle

Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)

Page 110: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Recherche séquentielle

Arbre à 3 feuilles

Choix du 4ième taxon à ajouter

ordre des taxa dans

l’alignement

aléatoirement

maximum du minimum

(taxon qui induit un Lmax

minimal)

(Perrière & Brochier-Armanet, (2010) Concepts et méthodes en phylogénie moléculaire, Springer)

9max L

Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)

Page 111: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Branch-and-bound

(Perrière & Brochier-Armanet, (2010) Concepts et méthodes en phylogénie moléculaire, Springer)

9max L

Examen de 10/15

topologies

possibles

=> Gain de 1/3

8max L

Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)

Page 112: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Nearest Neighbor Interchange (NNI)

Examen des topolgies se

situant à une distance

topologique de l’arbre

de départ

arbres situés à une

distance topologie

2Td

2Td

)3(2 n

A D

EB

CA D

EC

BC D

EB

A

A D

EB

CA C

EB

DA D

CB

E

(Perrière & Brochier-Armanet, (2010) Concepts et méthodes en phylogénie moléculaire, Springer)

Complexité en O(n)

Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)

Page 113: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Subtree pruning and regrafting (SPR)

CE B

F A

G D

AE D

F B

G C

BE C

F A

G D

B

A

D

C

E

F

G

DA E

B F

C G

Zone

élaguée

Zone

résiduelle

1

2

34

1 2

3 4

Complexité en O(n2)

(Perrière & Brochier-Armanet, (2010) Concepts et méthodes en phylogénie moléculaire, Springer)

Si coupure au niveau d’une branche interne: (2n - 8) arbres voisins

Si coupure au niveau d’une branche externe: (2n - 6) arbres voisins

Un arbre non raciné compte: (n – 3) branches internes et n branches externes

Nombre de voisins explorables:)2)(3(4

)82)(3()62(

nn

nnnnx

Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)

Page 114: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Tree Bisection and Reconnection (TBR)

A D

B E

C F

(Perrière & Brochier-Armanet, (2010) Concepts et méthodes en phylogénie moléculaire, Springer)

D

E

F

C D

B E

A F

A E

B D

C F

B E

A D

C F

E

D

B

A

C

C

B

A F

A F

B D

C E

B F

A D

C E

C F

A D

B E

1 2 3 4

5 6 7 8

)²3)(32( nn Réarrangements maximum possibles

Complexité en O(n3)

Evolution moléculaire et phylogénie (Céline Brochier-Armanet 2015-2016)

Page 115: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Star decomposition

(http://artedi.ebc.uu.se/course/X3-2004/Phylogeny/Phylogeny-TreeSearch/Phylogeny-Search.html)

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 116: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Maximum de vraisemblance

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 117: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Généralité

Introduit par Edwards et Cavalli-Sforza (1964) pour l’étude de données de type fréquences de gènes

Appliquée à la phylogénie moléculaire par Neyman (1971)

Élargissement par Kashyap et Subas (1974) et Felsenstein (1981)

IDEE DE BASE

Étant donné un modèle d’évolution, on peut estimer une phylogénie avec des méthodes statistiques comme le maximum de vraisemblance

PROPRIETES des estimations par Maximum de vraisemblance

Bonne consistance convergent vers la valeur correcte du paramètre

Bonne efficience variance faible autour de la vraie valeur du paramètre

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 118: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Principe général

Basé sur des lois de probabilité conditionnelles

La vraisemblance de l’hypothèse H connaissant les données D est définie par:

probabilité d’observer les données D sous l’hypothèse H

: probabilité de l’hypothèse H sachant les données

Si on dispose de n observations indépendantes

)( HDPL

)( DHPL

)(...)()()()()3()2()1(

HDPHDPHDPHDPLn

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 119: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Un exemple simple

Estimation de la probabilité p d’obtenir face d’une pièce lancée 11 fois

Hypothèses :

Indépendance des lancés

Tous les lancés on la même probabilité p (inconnue) d’obtenir face

Données :

Résultats observés : FFPPFPFFPPP

Définition de la fonction de vraisemblance

Soit

)( pDPL

65)1(

)1()1()1()1()1()1()(

pp

ppppppppppppDPL

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 120: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Un exemple simple

On cherche ensuite quelle est la valeur de p (parmi toutes les

valeurs possibles) qui maximise la probabilité d’obtenir les données

D, cad les résultats des lancers observés

65)1(

)1()1()1()1()1()1()(

pp

ppppppppppppDPL

L =f(p)

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

p

L

0,4

54

p

L

La vraisemblance est maximale pour p = 0,454

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 121: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Application aux phylogénies moléculaires

HYPOTHESES Le processus de substitution suit un modèle probabiliste dont

l’expression mathématique est connue a priori, mais dont les paramètres ne sont pas connus (modèle connu mais paramètres inconnus => calcul des probabilité de passage d’un état i à un état j le long d’une branche de longueur t)

Les sites évoluent indépendamment les uns des autres

Les probabilités de substitution ne changent pas au cours du temps

Tous les sites obéissent au même processus de substitution

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 122: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Définition de la vraisemblance

Données Séquences d’ADN lignées (n sites)

Modèle d’évolution M (JK, K2P, HKY…)

Hypothèses Paramètres du modèle , topologie , longueurs de

branches

Décomposition de la vraisemblance

T

),,(

)(

)(...)()(

)()(

)(

1

)(

1

)()2()1(

TDP

HDPL

HDPHDPHDPL

HDPHDPL

in

i

in

i

n

La vraisemblance est

calculée de manière

indépendante à

chaque site

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 123: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Application

Sites

Séquences 1 2 3 4 5 6 7 8 n

A A A G A G T T C N

B A G C C G T T C N

C A G A T A T C C N

D A G A G A T C C N

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 124: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Modèle d’évolution M

Topologie ((A,B),(C,D)), Longueurs de branches

Y et Z = nœuds internes pour lesquels 4 états de caractères sont possibles (A,T,C,G)

Question = Quelle est la probabilité que l’arbre aie généré les données de la matrice suivant le modèle M ?

Application

Sites

Séq. 1 2 3 4 5 6 7 8 n

A A A G A G T T C N

B A G C C G T T C N

C A G A T A T C C N

D A G A G A T C C N

1lA

B

C

D

Y Z

l55

l

4l

3l

2l

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 125: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Question = Quelle est la probabilité que l’arbre ait généré les données de la matrice suivant le modèle M ?

Évolution indépendante des sites => On calcule indépendamment la vraisemblance L à chacun des sites

On combine les vraisemblances à la fin de l’analyse

Application

Sites

Séq. 1 2 3 4 5 6 7 8 n

A A A G A G T T C N

B A G C C G T T C N

C A G A T A T C C N

D A G A G A T C C N

1lA

B

C

D

Y Z

l55

l

4l

3l

2l

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 126: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

La probabilité d’observer ces états de caractères à ce site dépendent des états de caractères qui étaient présents en Y et Z, càd aux nœuds ancestraux

Les états de caractères ancestraux sont inconnus, mais… à l’aide d’un modèle d’évolution il est possible de déterminer la probabilité d’observer l’état un état de caractère au bout d’une branche de longueur

On calcule la probabilité d’observer les états de caractères à chaque site, pour tous les états possibles observables en Y et Z

Exemple = calcul de la vraisemblance au

site 5

Sites

Séq. 1 2 3 4 5 6 7 8 n

A A A G A G T T C N

B A G C C G T T C N

C A G A T A T C C N

D A G A G A T C C N

1lA

B

C

D

Y Z

l55

l

4l

3l

2l

G

G

A

A

l

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 127: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Exemple = calcul de la vraisemblance au

site 5

Probabilité de ce scénario

=> On évalue tous les scénarios possibles

),(),(

),(),(),()()(

43

215

lZADPlZACP

lYGBPlYGAPlYAZPAYPscenarioP

1lA

B

C

D

l55

l

4l

3l

2l

G

G

A

A

A A

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 128: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Vraisemblance de chacun des scénarios

A A

A T

A C

A G

T A

T T

T C

T G

C A G A

C T G T

C C

C G

G C

G G

L(5) = somme de la probabilité de chaque scénario

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 129: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Calcul de la vraisemblance d’un arbre

L(5) = somme des probabilités individuelles de chaque scénario

Vraisemblance de l’arbre

n

i

i

n

n

i

i

n

LL

LLLL

LL

LLLL

1

)(

)()2()1(

1

)(

)()2()1(

ln

ln...lnln

...

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 130: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Maximisation de la vraisemblance

(1) On considère une topologie , un site et un ensemble de longueurs de branches

(2) On calcule la vraisemblance des paramètres = probabilité d’observer les états de caractères au site en fonction des paramètres

(3) On fait le calcul pour tous les caractères

(4) On calcule les longueurs de branches et les paramètres du modèle qui maximisent la vraisemblance

(5) On calcule la vraisemblance pour toutes les topologies possibles

(6) On retient la topologie qui a la plus grande grande vraisemblance

T

),,( lT

l

l

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)

Page 131: Introduction à la phylogénie - frangun.org · Intérêt d’étudier l’évolution moléculaire et la phylogénie Prépondérante en biologie Ecologie Evolution Microbiologie Biologie

Propriétés du maximum de vraisemblance

C’est une des méthodes les plus justifiées d’un point de vue théorique

Les simulations montrent que cette méthode est supérieure aux autres dans

beaucoup de cas. En particulier elle est moins sensible aux artefacts

d’attraction des longues branches

Coûteuse en temps de calcul

Impossible d’évaluer tous les arbres utilisation d’heuristiques n’est

plus certain d’obtenir l’arbre le plus vraisemblable

Des tests statistiques dérivés du maximum de vraisemblance permettent

d’évaluer si des topologies ayant une vraisemblance moins bonne que la

topologie la plus vraisemblable sont significativement différentes

Introduction à la phylogénie (Céline Brochier-Armanet 2015-2016)