BLANC Genetique Populations v1-1

5/12/2018 BLANC Genetique Populations v1-1 - slidepdf.com

http://slidepdf.com/reader/full/blanc-genetique-populations-v1-1 1/38

Génétique des populations

Florian BLANC

07 Novembre 2011 - Version 1.1

“Nothing in Evolution makes sense, except in the light of Population Genetics” (M. Lynch)

Cours général sur les bases de la génétique des populations et de la biologie de l’Évolution, en grande partie écrit

à partir des enseignements de L3 et M1 de l’École Normale Supérieure. La liste des enseignants est indiquée

dans les références.

L’auteur tient également à remercier ses camarades de la promotion Bio10 de l’ENS, notamment Mircéa SO-

FONEA, pour leur relecture et leurs remarques ayant permis d’améliorer ce cours. L’objectif général de tout ça

étant de valider E1 1. Tous les liens et renvois présents dans la version pdf sont cliquables. 2

Introduction

La génétique est l’étude de la transmission des variations d’une génération à l’autre. On étudie ici la trans-

mission des caractères à l’échelle des populations. La théorie de la génétique des populations est une théorie

presque purement déductive, ce qui est rare en biologie. Elle est en premier lieu fondée sur des prédictionsémises à partir de modélisations mathématiques.

Histoire£ 1859 : naissance de la biologie contemporaine avec Darwin

£ 1869 : publication des travaux de Mendel

£ 1900 : De Vries, Correns, Tschernak (trois botanistes) redécouvrent les travaux de Mendel.

£ 1906 : naissance de la génétique.

£ 1930 : R. Fischer, J.B.S. Haldane et S. Wright constituent un corpus théorique extrêmement cohérent qui

marque la naissance de la génétique des populations moderne. Au début, pour des raisons diverses tenant notamment à des conflits personnels, la génétique s’oppose au dar-

winisme. Pour les darwinistes, l’évolution est due à la sélection naturelle. Pour les généticiens, elle est due

aux mutations. Galton, Pearson, étudient la transmission des caractères quantitatifs (ex : taille). Bateson lui,

invente la génétique. La génétique classique est plutôt centrée sur l’étude des caractères qualitatifs (travaux de

Mendel : lisse/ridé vert/jaune). C’est la controverse des Mendeliens contre les Biométriciens.

Les deux approches sont réconciliées lors de la synthèse néo-darwinienne : au sein d’une population, il faut

une mutation pour qu’apparaisse un nouveau phénotype, mais il faut de la sélection pour qu’il se répande. La

conception dominante (ici schématisée) attribue à la sélection un rôle prépondérant dans l’Évolution. Aujour-

d’hui, certains biologistes proposent au contraire des théories très solides expliquant par exemple l’émergence

de la “complexité” (en termes de topologie des réseaux d’interactions génétiques) des Eucaryotes pluricellulairespar des processus non-adaptatifs [1], donnant lieu à des débats parfois vigoureux.

1. Surtout après le gros carton en G1.2. Alors faites-vous plaisir ! Mais par contre ça marche pas avec la version papier.

1



TABLE DES MATIÈRES 2

Précisions concernant le vocabulaire Il y a parfois des divergences de vocabulaire entre génétique de

laboratoire et génétique des populations. Cela tend à devenir problématique compte-tenu du fait que les deux

communautés sont de plus en plus amenées à interagir.£ Un caractère est dit déterminé par les gènes ou l’environnement, en fonction de la part de variation attri-

buable à des variations génétiques ou environnementales.

£ Gène : fragment de génome transcrit.£ Gènes homologues : gènes codant pour la même fonction et étant appariés à la méiose. Ces gènes sont pla-

cés à la même position sur la carte du chromosome. La relation d’homologie est une relation d’équivalence

(réflexive, symétrique, transitive). Cela définit des classes d’équivalences. Une classe d’équivalence s’appelle

un locus. Le locus n’est donc pas défini par la position sur le chromosome. Parmi les gènes homologues, cer-

tains sont isoactifs : ils déterminent le même phénotype. L’isoaction est une relation d’équivalence ; la classe

d’équivalence correspondante est appelée un allèle. Deux gènes homologues non isoactifs sont en relation

allélomorphique, et on dit communément qu’ils constituent “deux allèles” du même gène.

Table des matières

1 Pressions évolutives 4

1.1 Effet de la mutation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.2 Effet de la sélection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3 Effet de la migration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.4 Effet de la dérive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.5 L’équilibre de Hardy-Weinberg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.6 Mutation et sélection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.6.1 L’équilibre mutation-sélection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.6.2 La notion de fardeau génétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Cas des organismes diploïdes 10

2.1 Le problème de la structure génotypique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2 Régimes de reproduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2.1 La panmixie et la distribution de Hardy-Weinberg . . . . . . . . . . . . . . . . . . . . . . . . 112.2.2 Choix phénotypiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.3 Pressions évolutives et diploïdie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.3.1 Mutation, migration, dérive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.3.2 Sélection en régime panmictique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3 Le polymorphisme 12

3.1 Équilibre mutation-sélection chez les diploïdes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.1.1 Calcul du fardeau génétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.1.2 Exemple d’un allèle récessif létal, problèmes liés à l’autofécondation . . . . . . . . . . . . . 13

3.2 Polymorphisme vrai . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14



TABLE DES MATIÈRES 3

3.2.1 Super-dominance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.2.2 Sélection fréquence-dépendante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.3 Le paradoxe du fardeau génétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4 La théorie neutraliste de l’Évolution 20

4.1 Présentation de la théorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4.2 La théorie de la coalescence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4.2.1 Modèle de Wright-Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4.2.2 Identité par ascendance et temps de coalescence . . . . . . . . . . . . . . . . . . . . . . . . . 21

4.3 Prise en compte de la mutation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.4 Neutralistes contre sélectionnistes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.5 Mettre en évidence la sélection dans une population soumise à la dérive . . . . . . . . . . . . . . . 24

4.5.1 Méthodes basées sur la divergence interspécifique . . . . . . . . . . . . . . . . . . . . . . . . 24

4.5.2 Méthodes basées sur le polymorphisme intraspécifique . . . . . . . . . . . . . . . . . . . . . 25

4.5.3 Méthodes associant les deux approches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.5.4 Test de Tajima . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.6 Fixation d’allèles soumis à la sélection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.7 Déséquilibre gamétique et auto-stop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.7.1 Déséquilibre gamétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.7.2 Effet Hill-Robertson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.7.3 Création de déséquilibre de liaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

5 Consanguinité et F-statistiques 29

5.1 Régimes de reproduction et consanguinité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5.1.1 Autofécondation complète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5.1.2 Autofécondation partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5.2 Consanguinité et dérive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5.3 Les F-statistiques, indicateurs de proximité génétique . . . . . . . . . . . . . . . . . . . . . . . . . . 32

5.4 L’effet Wahlund . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5.5 F ST et migration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5.5.1 Modèle en îles de Wright . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5.5.2 Généralisation aux différents types d’hérédité . . . . . . . . . . . . . . . . . . . . . . . . . . 36



1 PRESSIONS ÉVOLUTIVES 4

1 Pressions évolutives

Soit une population haploïde de taille N où coexistent deux allèles A et a, chacun présent en effectif nA et na.

On travaillera en fréquences : on appelle p la fréquence de l’allèle A et q = 1 − p la fréquence de l’allèle a. On

supposera que les générations sont non chevauchantes pour pouvoir travailler en temps discret. On appelle p

et q les fréquences alléliques à la génération suivante. La quantité ∆i p = p − p est l’espérance de la variation

de la fréquence de A due à la pression évolutive i.

Une fois cela défini, on peut regarder comment agissent les pressions évolutives sur la composition génétique

de la population. Il y en a quatre : la mutation, la sélection, la migration et la dérive.

1.1 Effet de la mutation

On suppose qu’à chaque génération une proportion u des allèles A mute en allèles a (voir définitions de ces

termes en génétique des populations). D’où ∆u p =

−up . On modélise donc la mutation (phénomène intrinsè-

quement aléatoire) de manière déterministe en faisant appel à un taux moyen. Le taux moyen de mutation, u,correspond au nombre de mutations par génération pour une copie donnée d’un gène. Il peut varier de 10−12 à

10−4 et est de l’ordre de 10−6 en général.

On peut également tenir compte des mutations reverse transformant a en A. Soit v le taux de mutation de a en

A, on a alors :

p = p− up + vq = p(1− u) + v(1− p)

Un équilibre (non-trivial) purement mutationnel est alors possible :

p∗ = p∗(1− u) + v(1− p∗)

(u + v) p∗ = v

p∗ =v

u + v

On peut alors modéliser la dynamique d’approche de l’équilibre par la suite X t = pt − p∗. On a

X t+1 = pt(1− u− v) + v − v

u + v

X t+1 = pt(1− u− v) +v

u + v(u + v − 1) = ( pt − p∗)(1− u− v)

et donc :

X t+1 = X t(1− u− v)

La décroissance est géométrique.

En général, on néglige les mutations reverse, improbables.




Temps de demi-vie Dans le cas où on néglige les mutations reverse, on a p = (1− u) p soit pt = (1− u)t p0.

On peut alors calculer le temps de demi-vie t1/2, c’est-à-dire le temps nécessaire pour diminuer de moitié la

fréquence d’un allèle par mutation, toutes choses égales par ailleurs. On a :

pt1/2 =

1

2 p0

(1− u)t1/2 =1

2

t1/2ln(1− u) = −ln2

soit à l’ordre 1 (étant donné que u 1)

t1/2

ln2

u 7.105 générations.

Il faut donc plusieurs centaines de milliers de générations pour qu’un allèle soit perdu par mutation seule. Pour

l’espèce humaine, cela représente plusieurs dizaines de millions d’années ; pour la drosophile, plusieurs dizaines

de milliers d’années.

La mutation est donc une pression évolutive négligeable du point de vue de la variation des fréquences alléliques

(sauf cas particuliers) mais joue un rôle fondamental dans la création de variabilité génétique.

1.2 Effet de la sélection

A un individu de génotype A on associe une valeur sélective (ou fitness) W A qui est l’espérance du nombre dedescendants laissés par cet individu au cours de sa vie. On définit de même W a pour les individus a.

Remarque : On a W = sf où s est la probabilité de survie jusqu’à l’âge où la reproduction est possible (la

viabilité) et f la fécondité, c’est-à-dire l’espérance du nombre de descendants sachant qu’il y a eu survie.

D’après la définition de la fitness, on peut écrire :

p =pW A

pW A + qW a

La quantité pW A + qW a est (par associativité de l’espérance) l’espérance du nombre de descendants d’un indi-vidu tiré au hasard dans la population. On l’appelle fitness moyenne, notée W .

On a donc :

p =pW A

W

et donc :

∆s p = p W A

W − 1 = p

W A

W − W

W = p W A − pW A − (1− p)W a

W = p(1− p) W A −W a

W ∆s p = pq

W A −W a

W




On voit que les quantités pertinentes ne sont pas les fitness elles-mêmes mais plutôt les différences

de fitness entre phénotypes et par rapport à la fitness moyenne. On voit de plus que la sélection ne peut

s’envisager que sur une population variable (pas de sélection si p ou q sont nuls), ce qui est totalement intuitif.

Evolution déterministe dans un paysage adaptatif

La notion de paysage adaptatif ( fitness landscape) a été introduite par Wright dans les années 1930. Un paysageadaptatif est la représentation de la fitness moyenne F de la population en fonction de sa composition génotyp-

ique x. Intuitivement, on comprend que la sélection est un processus tendant à maximiser la fitness, ou encore

à sélectionner la composition génétique présentant la fitness maximale.

On peut alors voir F comme l’analogue d’un potentiel en mécanique classique et définir une “force sélective” s(x)

comme:

s(x) = F (x)

Wright a été le premier à comprendre que le maximum de F n’avait aucune raison d’être unique. Une popula-

tion peut alors être piégée dans un maximum local et n’en sortir qu’en cas de variation du paysage adaptatif

(traduisant un changement environnemental) et/ou d’intervention des autres pressions évolutives.Le théorème fondamental de la sélection naturelle, établi par Fisher en 1930, énonce:∂F

∂t= s2(x(t))

Il s’applique pour une évolution déterministe sous l’influence de la sélection uniquement.

Un cas simple: sélection à fitnesses constantes

Considérons une population bactérienne de taille N dans laquelle coexistent deux génotypes A et B tels que:

dN A

dt= f AN A

dN B

dt = f BN B

Ici la fitness de chaque génotype s’identifie simplement avec le taux de croissance de chaque sous-population.

Soit x la proportion de B dans la population.

Alors:dN

dt= f N = f AN A + f BN B = N [(1− x)f A + xf B]

Donc:dx

dt=

d

dt

N B

N

=

1

N 2

N

dN B

dt−N B

dN

dt

=

1

N 2

N f BN B −N B f N

= (f B − f )x

dxdt

= (f B − f )x

On a s = f B − f A. Donc:dx

dt= sx(1− x)

On obtient une équation logistique. La variation de x n’est proportionnelle qu’à l’écart entre la fitness de B et

la fitness moyenne. La dynamique de x se découple totalement de la dynamique de N . Le paysage adaptatif est

simplement:

F (x) = f (x) + cst

par intégration. La fitness moyenne est bien le potentiel correct.

On a par ailleurs:dF

dt=

dF

dx

dx

dt= s2(1− x)x = Var(F )

Que se passe-t-il si la fitness n’est plus constante? Peut-on toujours définir un potentiel?




1.3 Effet de la migration

Considérons une population subdivisée en autochtones et en immigrants. Soit m la probabilité qu’un individu

pris au hasard soit un immigrant.

Autochtones ImmigrantsA p pI

a q qI

On a (par exemple par la formule des probabilités totales) :

p = (1−m) p + mpI

La fréquence pI est constante (la population source constitue un “thermostat allélique”). On peut alors écrire :

p − pI = (1−m) p + mpI − pI = (1−m)( p− pI )

En l’absence de toute autre pression évolutive, la variable δp = p − pI suit une décroissance géométrique :

δpt = (1−m)tδp0 ; à l’équilibre, la fréquence allélique dans une population soumise à l’immigration devient celle

de la population source.

Temps de demi-vie Considérons une population dans laquelle un allèle A est présent à une fréquence p et

recevant un flux immigrant de taux m d’une population source dans laquelle l’allèle A est absent ( pI = 0). La

formule du temps de demi-vie dans ce cas est la même que pour la mutation :

t1/2 ln2

m

Pour un taux de migration de 5%, tout-à-fait réaliste dans le cas des populations humaines par exemple, on

trouve alors : t1/2 ∼ 14 générations. Un changement notable de fréquence allélique se produit ainsi en quelques

dizaines de générations, soit quelques siècles pour une population humaine. La migration est une force évolutive

rapide et homogénéisante.

Un cas simple de migration peut être celui du modèle continent-île (figure 1a ), où une population de faible

effectif a colonisé une île et est alimentée par des migrations provenant du continent voisin.

On peut généraliser ce modèle en utilisant un modèle multi-sites (figure 1b ). La géographie peut être prise encompte en limitant la migration aux sites immédiatement adjacents ; on parle alors de modèle stepping-stone.




(a) Modèle continent-île (b) Modèle multi-sites

FIGURE 1 – Modèles de migration

La définition d’une migration dépend évidemment de celle de la population. En général plus une population est

choisie de petite taille et correspondant à la notion biologique de population (ensemble d’individus de la même

espèce vivant au même endroit et se reproduisant entre eux), plus elle est homogène. Les migrations ont

pour effet d’augmenter la diversité intra-population, et donc d’homogénéiser les populations entre

elles. L’homogénéité de l’espèce humaine provient notamment du fait que les échanges entre les différentes

populations ont toujours été maintenus.

La création de biodiversité résulte d’un équilibre subtil entre isolement (pour avoir une évolution locale diffé-

rente selon les populations) et migration (pour ne pas avoir une perte locale trop forte de diversité génétique).Une des causes de la crise actuelle de la biodiversité, outre les extinctions, est la perturbation de cet équilibre.

1.4 Effet de la dérive

Soit maintenant une population présentant deux allèles de même valeur sélective, sans migration ni mutation.

Tenant compte de ce qui précède, on s’attend à ce que ∆global p soit nul. Or on observe quand même une variation

des fréquences alléliques d’une génération sur l’autre... cela provient du fait que la modélisation purement

déterministe que nous avons construite fait appel aux espérances des variations alléliques. Dans une population

de taille finie, on va nécessairement observer des fluctuations d’échantillonnage.

On appelle dérive génétique (drift) le processus par lequel les fréquences alléliques changent dans les (petites)

populations à cause de biais aléatoires d’échantillonnage dans la transmission des allèles d’une génération à

l’autre.

Chaque nouvel individu est le résultat d’un tirage dans "l’urne des génotypes". Le nombre nA d’individus A à la

génération suivante suit alors une loi binomiale de paramètres N et p :

P(nA = k) =

N

k

pkqN −k

On a alors E (nA) = N p (soit E ( p) = p) : en moyenne, rien de bien méchant. Cependant, il faut tenir compte de la

dispersion statistique mesurée par la variance : V (nA) = N pq.

V ( p) = V nA

N

=

1

N 2N pq =

pq

N




La dispersion de p autour de p sera donc de l’ordre de σdrift =

pq

N . On remarque que la dispersion attendue est

d’autant plus importante que la taille de la population est faible. La dérive peut également être modélisée par

une marche aléatoire : une particule se déplace sur la droite des fréquences alléliques, sa position correspondant

à la fréquence de l’un des allèles. Les états 0 et 1 sont absorbants. Si un allèle atteint la proportion de 100%

dans la population, on dit qu’il est fixé3

. La probabilité de fixation d’un allèle est égale à sa fréquence initiale.Considérons en effet une population d’effectif N dans laquelle apparaît un allèle nouveau chez un individu.

Sa fréquence initiale est donc p0 =1

N . On subdivise cette population en k sous-populations d’effectif n (donc

kn = N ). On laisse évoluer ces populations. Au bout d’un temps assez long, l’allèle nouveau est fixé dans

une proportion x des sous-populations et perdu dans une proportion 1 − x des sous-populations. Sa fréquence

dans la population totale est donc ¯ p = 1 · nkx

N + 0 · (1− x)kn

N = x. Or la dérive laisse la moyenne invariante

donc ¯ p = x = p0. La probabilité de fixation, égale à la proportion de sous-populations initialement identiques

ayant finalement fixé l’allèle, est égale à la fréquence initiale de l’allèle dans la population. On a donc bien

P(fixation) = p0 =1

N .

L’importance de la dérive dans le processus global d’Évolution est encore débattue, même si de plus en plusde chercheurs tendent à lui accorder une place fondamentale. Quoi qu’il en soit, l’importance de la dérive est

établie dans toutes les situations où la population est de petite taille : juste après la colonisation d’une île ou

une catastrophe naturelle par exemple (“goulot d’étranglement”, bottleneck). La composition génétique de la

population issue de ces quelques individus sera (hors mutation, sélection et migration) déterminée par celle de

ces derniers : on parle d’ effet fondateur.

1.5 L’équilibre de Hardy-Weinberg

Dans une population isolée sans mutation ni sélection et de taille infinie, les fréquences alléliques

sont constantes d’une génération sur l’autre.

Cet équilibre, ou loi de Hardy, constitue un cas de référence : toute variation de fréquence allélique devra

s’interpréter à l’aide des différentes pressions évolutives. Elle joue le même rôle que la première loi de Newton

en dynamique classique (toute déviation du mouvement rectiligne uniforme doit s’interpréter en termes de force

appliquée au mobile).

1.6 Mutation et sélection

1.6.1 L’équilibre mutation-sélection

Classiquement, si un allèle est délétère, on donne la valeur 1 à la fitness de l’allèle non délétère (supposé êtreA) et 1− s à l’allèle délétère (a). s est le désavantage sélectif . La méthode, approximative, consiste à considérer

successivement sélection puis mutation pour aboutir à une formule approchée de la variation de fréquence

allélique sous l’effet conjoint de ces deux pressions.

On considère d’abord la sélection. La fitness moyenne est W = p + q(1− s) = 1− sq.

On a

ps = p · 1

1− sq

Puis on envisage la mutation : p = ps(1− u) d’où

p = p · 1− u

1− sq

3. En pratique, on considèrera qu’un allèle est fixé si sa fréquence dépasse une valeur seuil arbitraire, par exemple 99%.



2 CAS DES ORGANISMES DIPLOÏDES 10

L’équilibre mutation-sélection est atteint pour u = sq soit qeq =u

s, ce qui impose s > u pour avoir une possibilité

d’équilibre. Si ce n’est pas le cas, l’allèle délétère peut s’imposer. Tout gène dont la perte n’induit pas une

baisse significative de la valeur sélective est destiné à être perdu. Use it or lose it, du moins du point de

vue adaptationniste...

1.6.2 La notion de fardeau génétique

On appelle fardeau génétique L (load) l’écart entre la fitness du meilleur allèle et la fitness moyenne de la

population. Avec nos conventions précédentes, W max = 1 et W = 1− sq donc L = sq. A l’équilibre le fardeau

génétique est égal au taux de mutations : Leq = u . Le fardeau ne dépend pas de la perte de fitness induite par la

présence de l’allèle muté ni de sa fréquence. Un allèle coûteux sera rare, un allèle moins coûteux plus répandu,

mais le fardeau génétique sera le même !

2 Cas des organismes diploïdes2.1 Le problème de la structure génotypique

Chez les diploïdes il devient difficîle de définir des fréquences alléliques. Soit une population diploïde de taille

N présentant les génotypes suivants :

Génotype AA Aa aa

Effectif n1 n2 n3

Comme précédemment, p est la fréquence de A et q la fréquence de a. On a alors :

p + q = 1

n1 + n2 + n3 = N

N p = n1 + n22

N q = n3 + n22

Ce système a un seul paramètre (N ), quatre équations et cinq inconnues. Il a a priori une infinité de solutions.

Il faut faire des hypothèses supplémentaires pour obtenir la structure génotypique de la population.

Le schéma de base pour la reproduction est :

Gamètes, génération t p A q a

Zygotes AA Aa aa

Survie différentielle

Adultes AA Aa aa

Fécondité différentielle

Gamètes, génération t + 1 p A q a

On suppose les générations non chevauchantes et on raisonne sur les gamètes utiles, c’est-à-dire les gamètes

fécondants.



2 CAS DES ORGANISMES DIPLOÏDES 11

2.2 Régimes de reproduction

2.2.1 La panmixie et la distribution de Hardy-Weinberg

Le degré de liberté restant est levé en faisant une hypothèse sur le régime de reproduction. On utilise géné-

ralement un régime panmictique (on parle de panmixie), dans lequel la formation des couples est totalementaléatoire. Cette panmixie constitue plus un cas de référence permettant de caractériser, par comparaison, les

situations réelles qu’un régime de reproduction effectivement rencontré dans la Nature. La panmixie est une

notion relative au caractère étudié. Sous cette hypothèse, on a alors :

q a p A

q a q2 aa pq Aa

p A pq Aa p2 AA

La structure génotypique est donc p2, 2 pq, q2. C’est la structure caractéristique de la panmixie, appelée distribu-

tion de Hardy-Weinberg. Cette distribution est atteinte dès la deuxième génération de panmixie chez les diploïdes.

Remarque importante : la panmixie n’est pas nécessaire à la constance des fréquences alléliques en l’ab-

sence de toute pression évolutive. L’écart à la panmixie peut néanmoins causer une variation des fréquences

génotypiques même si aucune pression n’agit. Voir un exemple en 5.1.1.

Cette distribution est notamment incompatible avec le sexe. Dans l’espèce humaine, il n’y a pas panmixie pour

le sexe (raison biologique), pour la couleur de peau (raison sociale et géographique) ou le groupe sanguin (raison

géographique).

Par ailleurs, la dispersion spatiale des descendants d’un individu est généralement faible. Des individus oc-cupant la même aire géographique sont fréquemment apparentés ; cela crée de la consanguinité au sein de la

population. La fréquence d’hétérozygotes est inférieure à 2 pq. Voir 5.

2.2.2 Choix phénotypiques

On parle de choix phénotypique (assortative mating) pour désigner la tendance d’un individu reproducteur à

choisir comme partenaire sexuel un individu présentant un phénotype similaire ( positive assortative mating) ou

dissimilaire (negative assortative mating) au sien.£ Homogamie : tendance à choisir des individus du même phénotype que soi. ex : chez les plantes, la date de

floraison. L’homogamie diminue l’hétérozygotie face à 2 pq.£ Hétérogamie : tendance à rechercher un partenaire de phénotype différent. ex : sexe, y compris les systèmes

sexuels de type auto-incompatibilité. Pour une auto-incompatibilité gamétophytique, le taux d’hétérozygotie

est de 100%. Il faut au moins 3 allèles S différents.L’homogamie est un phénomène pouvant conduire à une spéciation sympatrique (c’est-à-dire une spéciation sans

isolement géographique).

2.3 Pressions évolutives et diploïdie

2.3.1 Mutation, migration, dérive

Les équations décrivant mutation et migration ne sont pas modifiées. Pour la dérive, il y a une légère modifica-

tion : on a désormais σdrift =

pq

2N .



3 LE POLYMORPHISME 12

2.3.2 Sélection en régime panmictique

Soit une population diploïde de taille N , panmictique, dans laquelle coexistent pour le locus étudié deux allèles,

A et a. On note W 1 la fitness des AA, W 2 la fitness des Aa et W 3 la fitness des aa. La population suit la distribution

de Hardy-Weinberg. On a :

p =p2W 1 + pqW 2

W

où :

W = p2W 1 + 2 pqW 2 + q2W 3

Par conséquent :

∆s p = p − p =p2W 1 + pqW 2

p2W 1 + 2 pqW 2 + q2W 3− p

p2W 1 + 2 pqW 2 + q2W 3

p2W 1 + 2 pqW 2 + q2W 3

=p p(1− p)W 1 + (q − 2 pq)W 2 − q2W 3

W

=pq

W [ pW 1 + (q − p)W 2 − qW 3] =

pq

W [ p(W 1 −W 2) + q(W 2 −W 3)]

∆s p =pq

W [ p(W 1 −W 2) + q(W 2 −W 3)]

3 Le polymorphisme

Comment expliquer que les individus d’une population (non-clonale) soient tous différents ?

3.1 Équilibre mutation-sélection chez les diploïdes

3.1.1 Calcul du fardeau génétique

On se place dans les mêmes conditions. On pose W 1 = 1, W 2 = 1 et W 3 = 1− s. On envisage donc le cas d’une

dominance de A sur a. 4

La fitness moyenne dans cette population vaut

W = p2 + 2 pq + q2(1−

s) = ( p + q)2

−sq2 = 1

−sq2

W = 1− sq2

On a alors, par le même calcul que pour les haploïdes :

p = p · 1− u

1− sq2

D’où

qeq = u

s

4. Dans le cas général, la valeur sélective d’un hétérozygote est posée égale à W 2 = 1 − hs où h est appelé coefficient de dominance.La situation de dominance est donc le cas h = 0 ou h = 1. La co-dominance est le cas h = 0, 5. La super-dominance, envisagée plus loin,correspond à h < 0.




A l’équilibre, le fardeau génétique vaut donc L = sq2eq = u. La situation établie pour les haploïdes est encore

valable pour les diploïdes. Le fardeau génétique à l’équilibre est encore égal au taux de mutation. Donc la

diploïdie ne protège pas contre les mutations : les allèles récessifs délétères ne peuvent pas être éliminés par

sélection. Ils sont cachés!

Calcul plus général

On envisage cette fois une mutation A → a à un taux u, une mutation reverse a → A à un taux v et on utilise le

coefficient de dominance défini à la note 4. On suppose la distribution de Hardy-Weinberg réalisée.

AA Aa aa

p2 2 pq q2

1 1− hs 1− s

On a alors :

p

= (1− u) ·p2 + pq(1

−hs)

1− 2 pqhs− q2s + v ·pq(1

−hs) + q2(1

−s)

1− 2 pqhs− q2s

Si les taux de mutation sont négligeables devant s et hs et si q est négligeable devant 1, on peut écrire à

l’équilibre :

p = (1− u) · p2 + pq(1− hs)

1− 2 pqhs− q2s+ v · pq(1− hs) + q2(1− s)

1− 2 pqhs− q2s

(1− u) · p2 + pq(1− hs)

1− 2 pqhs− q2s

1 (1− u) · p + q(1− hs)1− 2 pqhs− q2s

(1− u) · p + q(1− hs)1− 2qhs + q2(2h− 1)s

h=0

(1− u) · p + q(1− hs)

1− 2qhshs1

(1− u) · 1

1− 2qhs 1− u

1− 2qhs

D’où :

2qhs u

q u2hs

Le cas h = 0 est à part et a été traité plus haut.

Cette relation a été obtenue moyennant plusieurs approximations et peut être trouvée sous des formes diffé-

rentes (des préfacteurs différents) selon les auteurs. Cependant, il faut retenir la forme générale q ∼ u

hs.

3.1.2 Exemple d’un allèle récessif létal, problèmes liés à l’autofécondation

Pour un allèle létal, s = 1. Donc ici qeq =√

u . Pour u ∼ 10−6 on a donc qeq ∼ 10−3 (contre 10−6 dans une

population haploïde). Chez les haploïdes, la sélection purifiante est une pression évolutive très importante.

C’est beaucoup moins vrai chez les diploïdes.

Si une population diploïde passe d’un régime allogame à un régime autogame, on observe en premier lieu une

dépression de consanguinité parce que les allèles récessifs délétères peuvent s’exprimer. Ces allèles vont alors




FIGURE 2 – Situations possibles en hétérozygotie

subir la sélection et la population va évoluer vers les fréquences d’équilibre. La consanguinité n’est dangereuse

que dans une population qui vient de passer d’un régime allogame à un régime autogame.

Ainsi dans un génome haploïde d’individu diploïde, on estime qu’il y a environ 0,1% d’allèles létaux 5. Pour unhumain ça fait donc 40 à 60 gènes équivalents-létaux (sur les deux exemplaires du génome), et 20 à 30 par

gamète. On espère ainsi que le gamète complémentaire ne portera pas les mêmes allèles récessifs délétères.

D’où l’intérêt de ne pas faire des enfants avec sa sœur ou sa mère...

L’équilibre mutation sélection chez les diploïdes explique donc l’existence des maladies génétiques

et de certains autres polymorphismes. Mais cela n’explique pas la totalité du polymorphisme. En

particulier, l’équilibre mutation-sélection prévoit un allèle dominant à très haute fréquence et un allèle récessif

à basse fréquence. On parle de cryptopolymorphisme pour désigner le maintien de mutations désavantageuses

à une fréquence d’équilibre de mutation-sélection. La plupart des maladies génétiques humaines relèvent de

cryptopolymorphisme (exemple : phénylcétonurie, voir [2] pour un aspect historique très instructif.).

3.2 Polymorphisme vrai

3.2.1 Super-dominance

On a vu :

∆s p =pq

W [ p(W 1 −W 2) + q(W 2 −W 3)]

L’équilibre (non-trivial) n’est possible que si W 1−W 2 et W 2−W 3 ne sont pas de même signe. Cela se traduit bio-

logiquement par la super-dominance (over dominance) ou la sous-dominance (under dominance). Voir la figure

2.

La fréquence d’équilibre est alors :

peq =W 3 −W 2

W 1 + W 3 − 2W 2

£ Sous-dominance : l’équilibre est instable. Donc c’est une situation défavorisant l’hétérozygotie et pouvant

conduire à un isolement reproducteur. C’est un phénomène à l’origine de spéciations. Du point de vue compor-

temental, s’il existe un moyen pour l’animal de distinguer les différents génotypes, l’isolement reproducteur

sera prézygotique. Les AA se reproduisent entre eux, les aa aussi, les Aa sont mis à l’écart.5. Dans un génome humain haploïde, il y a entre 20 000 et 30 000 gènes. Il y a donc potentiellement 20 000 à 30 000 loci bialléliques

dont l’allèle récessif est létal. Un individu tiré au hasard dans une population à l’équilibre mutation-sélection a, pour un locus donné, uneprobabilité qeq ∼ 10−3 d’être porteur de l’allèle létal. Le nombre théorique d’allèles létaux dans le génome (haploïde) de cet individu estdonc de 20 à 30.




£ Super-dominance : au contraire, en cas de super-dominance, l’équilibre est stable et la distribution se main-

tient. Le cas d’école de la super-dominance est celui de la drépanocytose en Afrique.

On a constaté, assez tardivement, que les hétérozygotes AS 6 pour le gène de la globine ß étaient protégés

du paludisme. En Afrique, cela confère un avantage sélectif, d’autant que les AS présentent un phénotype

drépanocytaire atténué. La situation est la suivante :

AA AS SS

W 1− s 1 0

Fréquences 0, 7 0, 3 0

On en déduit les fréquences alléliques : p = 0, 85 et q = 0, 15 . A l’équilibre (supposé établi car les valeurs

mesurées sont stables) :

p(W 1–W 2)+q(W 2–W 3) = 0

−sp + q = 0

Ici : q−sp = 0 d’où s 0, 18.

Mais aux USA, où le paludisme est absent, il y a tout de même 12% d’AS dans la population afro-américaine.

Comment l’expliquer ?

Hypothèses : isolement reproducteur et panmixie pour la population afro-américaine.

AA AS SS

W 1 1 0

Fréquences 0, 88 0, 12 0

(on admet qu’aux USA les soins médicaux confèrent aux hétérozygotes une fitness égale à celle des homozygotes).

On a :

qt+1 =ptqt

p2t + 2 ptqt=

ptqt

1− q2t=

qt

1 + qt

On passe à l’inverse :1

qt+1= 1 +

1

qt

On reconnaît une suite arithmétique de raison 1 dont la forme explicite est :

1

qt=

1

q0+ t

où t est le nombre de générations. Soit

qt =q0

1 + q0t

Sans surprise, le modèle prévoit la disparition de l’allèle S au bout d’un grand nombre de générations. Aux USA,

on a qt = 0, 06 et q0 = 0, 15.

t =1

qt− 1

q0= 10

On trouve 10 générations écoulées depuis la disparition de la pression paludique, soit environ 300 ans en consi-dérant un temps de génération humain de 30 ans. Cela est globalement cohérent avec les données historiques.

6. S pour Sickle Cell Anemia




Cet exemple illustre la puissance de la notion de super-dominance. Mais à part celui-ci, on en connaît très peu...

il est probable que, malgré la beauté du concept, l’importance réelle de la superdominance dans la nature soit

faible.

3.2.2 Sélection fréquence-dépendante

On a supposé que la fitness d’un génotype donné est constante. Cela peut ne pas être le cas et la fitness peut être

une fonction de la fréquence des génotypes. On pourra alors avoir de la sélection fréquence-dépendante. Si

le génotype rare est favorisé, on parle aussi de sélection apostatique.

Exemple fondamental : le sex ratio Considérons une population sexuée. Si l’un des sexes est beaucoup

moins fréquent que l’autre, chaque membre du sexe le plus rare aura plus de descendants en moyenne que les

membres du sexe le plus fréquent.

Dans une population de taille N , on note x la fréquence des mâles et 1

−x la fréquence des femelles. Soit

k le nombre moyen de descendants d’une femelle ; on a donc W f = k. Le nombre d’enfants produits par unegénération est donc N k(1− x). La fitness d’un mâle est le nombre moyen d’enfants par mâle; soit :

W m =N k(1− x)

N x= k

(1− x)

x

Soit encore :W m

W f =

1− x

x

A l’équilibre, c’est-à-dire lorsqu’il n’y a pas d’avantage à appartenir à un sexe ou à l’autre, on a donc x = 12

. Le

système chromosomique XY est une manière de réaliser cet équilibre.

Cependant, il existe des espèces (d’insectes par exemple) dans lesquelles le sex ratio à l’équilibre est fortementbiaisé.

Exemple fondamental : l’auto-incompatibilité gamétophytique (AIG) Pour le mécanisme de l’AIG, se

référer à un cours de biologie végétale.

Dans l’AIG, il y a rejet si l’allèle S exprimé par le grain de pollen (“étiquettes” présentes à la surface du tube

pollinique qui a commencé sa progression dans le style) est l’un des allèles S portés par le style. Avec ce système,

le taux d’hétérozygotie est de 100%. Il n’est viable que s’il existe au moins 3 allèles S différents.

S1/S2, p S1/S3, q S2/S3, rS1/S2 0 0, 5 0, 5

S1/S3 0, 5 0 0, 5

S2/S3 0, 5 0, 5 0

Avec p + q + r = 1.

A t + 1 on aura :apostatique

p =1

2q +

1

2r =

1− p

2

et de même :

q

=

1

−q

2

r =1− r

2




Donc la proportion d’un génotype est d’autant plus faible qu’elle était élevée à la génération précédente. A

l’équilibre :

req =1− req

2, req = qeq = peq =

1

3

On a

p − peq = p − 1− peq

2=

1− p

2− 1− peq

2=

peq − p

2= −1

2( p− peq)

soit

pt =1

3+

−1

2

t p0 −

1

3

(c’est la même dynamique pour les deux autres allèles). Dans ce système, tout allèle nouveau se répand très vite

mais subit le contrecoup à la génération précédente (voir la Figure 3).

FIGURE 3 – Evolution des fréquences alléliques dans un système d’AIG à trois allèles (simulation Matlab)

D’autres exemples Dans une population soumise à de la prédation, les prédateurs apprennent à reconnaître

les proies les plus fréquentes ; les phénotypes les plus rares seront donc favorisées.

Au contraire, certains papillons arborent des motifs alaires imitant ceux de papillons toxiques partageant leur

habitat. Les prédateurs associent ces motifs à la toxicité et n’attaquent pas ces papillons. Un variant rare aura

moins de chances d’être connu des prédateurs et sera plus probablement attaqué.

Enfin, la valeur sélective peut également varier comme fonction du temps ou de l’espace. Les modèles sont beau-

coup plus complexes à mettre en oeuvre. Une notion importante est que la fitness moyenne n’est pas forcément

la moyenne arithmétique des fitness en fonction des différents sites (dans le cas d’une variation spatiale) : les

moyennes pertinentes sont souvent la moyenne géométrique et la moyenne harmonique, beaucoup plus sen-sibles à l’étalement des valeurs.




Sélection fréquence-dépendante: l’exemple du jeu Hawk and Dove

Supposons ici une population théorique dont les membres sont en compétition pour une ressource rare qui est

le seul déterminant de la fitness. Supposons également que deux comportements (qui seront les phénotypes

possibles) coexistent: le faucon (hawk) et la colombe (dove). Notons x la proportion de faucons et y la proportion

de colombes. Les faucons sont agressifs alors que les colombes ne le sont pas. Lorsqu’un faucon rencontre unecolombe, il l’attaque et la colombe fuit. Cela induit une augmentation G de la fitness du faucon et ne modifie pas

la fitness de la colombe.

Si deux colombes se rencontrent, elles ne combattent pas et l’une d’entre elle abandonne les ressources à

l’autre. Une colombe donnée gagne en moyenne la moitié des rencontres colombe/colombe et donc toute ren-

contre colombe/colombe induit une augmentation 12

G de la fitness des colombes.

Si deux faucons se rencontrent, ils se battent. Chacun l’emporte en moyenne une fois sur deux. Par ailleurs les

deux faucons se partagent un coût C (blessures) et la fitness des faucons augmente donc de 12

(G− C ).

En termes de théorie des jeux, la matrice des gains (faucon, colombe) x (faucon, colombe) est:

G−C 2

G

0 G2

Le gain de fitness moyen d’un faucon est:

∆H = x · G− C

2+ y ·G

Le gain de fitness moyen d’une colombe est:

∆D = y · G

2

On suppose que seule la possession (ou non) de la ressource d’intérêt a une influence sur la fitness. Cela veut dire

qu’en l’absence du phénomène de compétition que nous étudions ici, faucons et colombes auraient exactement

la même fitness. Or on sait que la sélection agit sur des différences de fitness et non des fitnesses absolues. On

peut donc raisonner en terme de fitness et non de gain de fitness: ∆H est la fitness d’un faucon et ∆D la fitnessd’une colombe.

La fitness moyenne f de la population est donc:

f = x∆H + y∆D

Soit en développant:

f =G

2− Cx2

2

La fitness moyenne décroît donc quadratiquement avec la proportion de faucons.

On a comme précédemment a:

dx

dt = (∆H −f

)x

dydt

= (∆D − f )y

Pour connaître l’état de la population à l’équilibre, il faut étudier le cas où ∆H = ∆D = f . Le calcul b montre

que deux cas sont possibles:

1. Si G > C , le seul équilibre stable est x∗ = 1. La population est exclusivement faucon.

2. Si G < C , le seul équilibre stable est x∗ = GC . La fitness moyenne est alors:

f ∗ =G

2

1− G

C

or la fitness optimale serait f max =G2 .

Nous avons donc un cas où la fitness moyenne à l’équilibre n’est pas maximale. Autrement dit, la fitness moyenne

n’est pas ici un potentiel et le théorème de Fisher ne s’applique pas. C’est ce qui se passe en général.

a. En théorie des jeux, ces équations sont appelées équations du réplicateur.b. Il s’agit de la méthode classique d’étude de stabilité en théorie des systèmes dynamiques. Voir par exemple [8] pages 152 à 155.




FIGURE 4 – Mise en évidence du polymorphisme par électrophorèse de protéine

3.3 Le paradoxe du fardeau génétique

On a vu que le fardeau génétique est défini classiquement comme L = W max − W . On peut écrire :

N (t + 1) = N (t) pW A + (1 − p)N (t)W a = N (t)W = N (t) [W max − L] = N W max −N L

L mesure la perte d’efficacité reproductive (au niveau populationnel) venant du fait que toute la population n’est

pas porteuse du génotype à fitness maximale.

Lorsque les méthodes quantitatives de la génétique des populations ont commencé à être appliquées sur des cas

concrets, on imaginait que le génome d’une espèce était constitué d’une majorité de gènes communs à l’espèce

et quelques allèles présentant un polymorphisme (cryptopolymorphisme, polymorphisme transitoire...). Maisétudier un polymorphisme, c’est compliqué. Chez certaines espèces, il est facilement observable car il touche la

morphologie : phalène du bouleau, thym (odeurs), escargots (couleur de la coquille). A part cela, c’était difficile...

En 1966, R. Lewontin et J. Hubby développent une technique pour aller chercher la variabilité directement "à

la sortie des gènes". Le séquençage n’était pas encore au point, on a donc fait de l’électrophorèse des protéines.

L’électrophorèse se faisait sur gel d’amidon et l’on analysait un extrait protéique de drosophile (drosophile

écrasée sur du papier buvard). Certaines enzymes donnent un produit coloré. C’est elles que l’on a pu révéler en

premier (voir figure 4).

La génétique des populations transite alors vers la biochimie et la biologie moléculaire 7. On peut évaluer de

manière quantitative les proportions des différents allèles. On peut donc tester la loi de Hardy-Weinberg.

Exemple L’électrophorèse réalisée chez la Drosophile a permis d’identifier deux allèles pour l’enzyme donnant

le produit bleu, fast (F) et slow (S). Supposons que l’on ait la distribution génotypique suivante :

Génotype FF FS SS

Effectif 400 150 220 30

Soit p la fréquence de F, on a alors p = 0, 65 et q = 0, 35. Pour tester l’adéquation à la loi de Hardy-Weinberg, onréalise un test du χ2. On a :

7. Ce qui, d’après Lewontin [5], cause un appauvrissement des questions posées par les biologistes de l’Évolution, qui se restreignentaux sujets pouvant être étudiés par les analyses moléculaires de variabilité.



4 LA THÉORIE NEUTRALISTE DE L’ÉVOLUTION 20

χ2 = (obs− esp)2

esp

Ici la distribution de Hardy-Weinberg prévoit :

£ 400 p2 = 169 FF

£ 400 · 2 pq = 182 SF£ 400q2 = 49 SS

On réalise un test de conformité et on a estimé un paramètre de la loi théorique; il y a donc un degré de

liberté. La distance calculée vaut 17, 44. On compare avec la valeur donnée dans les tables : 3, 84. La distribution

phénotypique ne suit donc clairement pas la loi de Hardy-Weinberg (avec un risque d’erreur de 5%).

Une grande proportion des gènes sont variables : pour la plupart des espèces, entre un tiers et la moitié, sauf

chez les populations provenant d’un pool initial peu diversifié (lapin d’Australie) ou les espèces en voie d’extinc-

tion (guêpard). Chez l’Humain, il y a donc environ 10 000 gènes polymorphes. En supposant que chaque gène

polymorphe n’admet que deux allèles, il y a donc 210000 104000 génomes haploïdes possibles... c’est de très très

très loin supérieur au nombre d’atomes dans l’Univers (de l’ordre de 1081

, on est donc bien loin du compte...).C’est pour cela qu’il est absolument impensable d’avoir par hasard deux individus absolument identiques. Tout

génotype existant était totalement improbable avant d’exister.

La conclusion des nombreux travaux qui ont alors analysé les populations naturelles est que celles-ci sont très

polymorphes.

Un tel polymorphisme soulève un paradoxe : l’existence d’un polymorphisme suppose a priori l’existence d’un

fardeau génétique qui aurait du être éliminé par la sélection.

4 La théorie neutraliste de l’Évolution4.1 Présentation de la théorie

Plusieurs théoriciens, avec en tête de file le japonais Motoo Kimura, ont proposé la solution suivante au paradoxe

du fardeau génétique : il suffit que ce polymorphisme ne donne pas prise à la sélection, c’est-à-dire qu’il soit

neutre, pour n’entraîner aucun fardeau génétique. Kimura avance que la majorité du polymorphisme observé

est neutre, donnant naissance à la théorie neutraliste de l’Évolution. Dans cette théorie, qui au départ

est vue par ses fondateurs comme une véritable alternative au néodarwinisme, mutation et dérive sont les

pressions évolutives fondamentales et la sélection n’a qu’un rôle nul ou négligeable. Naît une controverse entre

neutralistes et sélectionnistes8

: les sélectionnistes objectent qu’une telle théorie prévoit justement de ne pasobserver de polymorphisme, ou très peu, puisque les différents allèles doivent être fixés. Pour Kimura, la vitesse

de fixation est inférieure à la vitesse de mutation, ce qui maintient le polymorphisme (figure 5).

On appelle transition l’intervalle de temps au cours duquel l’allèle le plus ancien est remplacé par un nouvel

allèle le plus ancien. La fréquence de mutation et la durée moyenne de fixation sont alors les grandeurs im-

portantes. Si les transitions sont rapides et peu fréquentes, la population est peu polymorphe. Pour calculer le

temps de fixation d’un allèle, Kimura a initialement utilisé une approximation de diffusion [3].

8. Bien résumée dans le livre de S. Samadi et P. David [4].




FIGURE 5 – Schéma de base de la théorie neutraliste : fixation ou disparition d’allèles nouveaux.

4.2 La théorie de la coalescence

L’approche moderne est plutôt de considérer que suivre la dérive, c’est suivre une généalogie de gènes. On utilise

la théorie de la coalescence pour calculer le nombre de générations nécessaires pour avoir coalescence de deux

lignées, et in fine coalescence de toutes les lignées, ce qui permet de retrouver le temps de fixation d’un allèle(figure 6). La coalescence est une vision rétrospective de la dérive par fusion de lignées au niveau d’ancêtres

communs quand on remonte dans le temps.

4.2.1 Modèle de Wright-Fisher

On part d’une population de N gènes (2N pour une population diploïde) à la génération 0. Attention, en coa-

lescence, l’axe du temps est inversé : la génération t est celle qui précède la génération t

−1. La population est

supposée de taille constante au cours du temps, les générations non chevauchantes, il n’y a pas de sélection etle régime panmictique s’applique : ce sont les hypothèses du modèle de Wright-Fisher.

4.2.2 Identité par ascendance et temps de coalescence

Quelle est la probabilité que deux gènes tirés au hasard partagent un même gène ancêtre à la génération

précédente ? Cette probabilité, appelée probabilité d’identité par ascendance, et notée P(T 2 = 1), vaut1

N (res-

pectivement1

2N pour des diploïdes). Le nombre de générations qu’il faut remonter pour avoir coalescence de

deux lignées suit une loi géométrique :

P(T 2 = n) =

1− 1

N

n−1· 1

N




FIGURE 6 – Coalescence. D’après [4].

D’où notamment : E(T 2) = N . Il faut remonter en moyenne N générations pour avoir coalescence de deux lignées

(respectivement 2N générations chez des diploïdes). On peut maintenant s’intéresser à la coalescence de plus

de deux lignées.

Remarque La probabilité que trois gènes tirés au hasard aient un même ancêtre à la génération précédenteest égale à

1

N 2, valeur qui est négligeable si N est assez grand, ce que l’on suppose. On négligera donc systéma-

tiquement dans la suite les évènements de coalescence multiple.

On note T k le nombre de générations à remonter pour avoir coalescence de deux lignées parmi k prises au hasard

à la génération 0. La probabilité que deux lignées prises au hasard coalescent est1

N ; le nombre de paires de

lignées parmi k est

k

2

donc :

P(T k = 1) =

k

2

· 1

N =

k(k − 1)

2N

Comme précédemment, on a une loi géométrique :

P(T k = n) =

1− k(k − 1)

2N

n−1· k(k − 1)

2N

et donc E(T k) =2N

k(k − 1).

On peut alors évaluer le temps de coalescence de l’ensemble de la population, que l’on note T MRCA (pour Most

Recent Common Ancestor) :

E(T MRCA) =

N

k=2

E(T k) =

N

k=2

2N

k(k − 1)




On réalise une décomposition en éléments simples en cherchant A et B tels que

A

k+

B

k − 1=

A(k − 1) + Bk

k(k − 1)=

(A + B)k −A

k(k − 1)=

1

k(k − 1)

soit A + B = 0 et A =

−1 d’où

1k(k − 1)

= 1k − 1

− 1k

On a donc une somme téléscopique :

N k=2

1

k(k − 1)=N −1j=1

1

j−N k=2

1

k= 1− 1

N

et donc :

E(T MRCA) = 2N

1− 1

N

2N

Le temps moyen de coalescence des N lignées est donc de 2N : cela correspond au temps de fixation d’un allèle

dans la population. Un nouvel allèle met donc en moyenne 2N générations ( 4N dans le cas diploïde) à se fixer

dans la population.

4.3 Prise en compte de la mutation

On introduit maintenant dans notre modèle un taux u de mutation par locus et par génération. A chaque

génération apparaissent donc N u mutations dans la population. La probabilité de fixation d’un nouvel allèle est1

N

; le taux de substitution (nombre de mutants atteignant la fixation par unité de temps) vaut donc N u

·1N = u,

il est égal au taux de mutation et ne dépend pas de la taille de la population. 9

Toutes les1

ugénérations environ apparaît une mutation qui se fixera. On peut alors définir le paramètre mu-

tationnel de la population, noté θ, comme le rapport du temps de fixation et du temps d’attente d’une mutation

qui se fixera :

θ =T fixation

T mutation= 4N u (2N u pour des haploïdes)

θ mesure la diversité génétique de la population : si θ 1, le temps de fixation est plus important que le temps

d’attente d’une mutation et on observera du polymorphisme. C’est le cas dans les grandes populations. Ceci est

illustré sur la figure 5.

4.4 Neutralistes contre sélectionnistes

Kimura distingue les mutations létales et les mutations neutres. Il néglige les mutations qui ne sont ni létales

ni neutres, par des arguments statistiques. Kimura l’emporte en 1985. Il a prédit que le taux d’apparition de

mutations est constant au cours du temps. Or on observe que la vitesse d’évolution du gène de l’hémoglobine

alpha est constante au cours du temps : le taux de divergence est globalement proportionnel au temps écoulé

depuis la divergence. Second argument : Kimura a prédit ce qu’on trouverait le jour où on saurait séquencer de

l’ADN. Il a annoncé que, puisque le polymorphisme est essentiellement neutre, le polymorphisme se concentrerasur les troisièmes bases de codons. L’argument est décisif. En effet, la théorie sélectionniste prédit un résultat

9. Dans une petite population apparaissent peu de nouveaux variants alléliques, mais ces derniers ont une probabilité élevée de se fixer ;dans une grande population, il apparaît plus de nouveaux allèles mais leur probabilité de fixation est comparativement plus faible.




inverse : si la sélection est le processus principal, ce sont les structures qui ne donnent pas prise à la sélection

qui doivent être les moins variables. Le séquençage a donné raison à Kimura. Toute la base théorique de la

phylogénétique moléculaire, permettant l’interprétation de l’évolution des séquences génétiques, est la théorie

de Kimura.

Néanmoins, la sélection n’est pas incompatible avec la théorie neutraliste et aujourd’hui la plupart des bio-logistes de l’Évolution reconnaissent l’existence de phénomènes sélectifs, sans en exagérer l’importance. La

présence de sélection sur un allèle a pour effet de biaiser la probabilité et le temps de fixation. Le modèle neutre

fournit alors un cas de référence par rapport auquel caractériser la sélection sur locus donné. C’est le principe

des tests de détection de la sélection.

4.5 Mettre en évidence la sélection dans une population soumise à la dérive

La sélection peut avantager un allèle (sélection positive) ou désavantager un allèle (sélection purifiante).

£ Si un locus est soumis à la sélection purifiante, on attend (par rapport au cas de référence neutre) :

– Un taux de substitution plus faible– Un polymorphisme plus faible

– Des fréquences alléliques plus faibles (des nouveaux allèles)

£ Si un locus est soumis à la sélection positive, on attend :

– Un taux de substitution plus élevé

– Un polymorphisme plus faible

– Des fréquences alléliques plus élevées

On recherche la sélection positive dans les régions codantes du génome.

4.5.1 Méthodes basées sur la divergence interspécifique

Par exemple, on considère un gène de l’Homme et son orthologue chez le Chimpanzé, et on mesure les taux de

substitution pour les sites synonymes 10 et les sites non-synonymes. La sélection agit (presque) uniquement sur

les sites non-synonymes. On mesure :

£ dS , taux de substitution sur les sites synonymes

£ dNS , taux de substitution sur les sites non-synonymes

£ On calcule ω = dNSdS

.

– Si ω 1, neutralité.

– Si ω < 1, sélection purifiante.

– Si ω >1

, sélection positive.

Cette méthode a permis de montrer que les gènes soumis à sélection positive sont notamment :

£ les gènes de l’immunité

£ les gènes impliqués dans l’olfaction, la perception sensorielle

£ les gènes impliqués dans la spermatogénèse

£ les gènes impliqués dans l’inhibition de l’apoptose (avantage : assure de ne pas être le globule polaire qui

dégénère ; désavantage : instabilité, cancérisation)

Limites de la méthode

– Aspects techniques : les différents types de mutations ne sont pas équiprobables; cela nécessite de com-

plexifier les modèles. Elle ne fonctionne que sur les séquences codantes.10. Mais, avec le biais d’usage du code, est-ce que ça existe vraiment un site synonyme?




– Aspects fondamentaux : il s’agit d’une méthode “statistique” au sens où elle est basée sur la comparaison

de plusieurs sites. Donc si la sélection n’agit que sur un seul acide aminé, on ne verra rien. Il faut que la

sélection ait agi longtemps pour avoir un signal observable.C’est une méthode spécifique (fiable : elle détecte uniquement de la sélection), mais peu puissante (ne détecte

pas toujours la sélection).

4.5.2 Méthodes basées sur le polymorphisme intraspécifique

Dans ces méthodes, l’hypothèse nulle est le modèle de Wright-Fisher (uniquement des mutations neutres et de

la dérive). Si on constate un écart au modèle, on peut parfois en inférer de la sélection.

4.5.3 Méthodes associant les deux approches

£ Test HKA (Hudson, Kreitman, Aguadé - 1987)

Le polymorphisme intraspécifique est caractérisé par le paramètre mutationnel de la population : θ = 4N u . La

divergence interspécifique peut se quantifier par D = 2uT où T est le temps écoulé depuis la divergence. Sousl’hypothèse de neutralité, θ et D sont corrélés :

r =θ

D=

2N

T

Cette grandeur doit être la même pour tous les loci. Le principe du test est alors de comparer le ratio r du locus

d’intérêt avec le ratio d’un locus que l’on sait être neutre (figure 7).

FIGURE 7 – Test HKA pour deux espèces A et B

£ Test de McDonald-Kreitman

Ce test suit le même principe que le test HKA mais n’utilise qu’un seul locus; les sites synonymes sont pris

comme référence. Sous le modèle neutre, on attend :

θS

θNS=

4N uS

4N uNS=

2T uS

2T uNS=

DS

DNS

SiθS

θNS DS

DNS, on est en situation de sélection positive, car la sélection accélère la fixation de mutations non-

synonymes. SiθS

θNS DS

DNS, on est en situation de sélection purifiante car la sélection ralentit la fixation des




mutations non-synonymes.

4.5.4 Test de Tajima

On peut définir deux indicateurs pour étudier le polymorphisme d’un locus.

Premièrement, on peut, disposant de plusieurs séquences provenant d’individus différents et correctement ali-

gnées, réaliser toutes les comparaisons de paire possibles et en déduire le nombre moyen de différences par site

entre deux séquences. Cet indicateur ne dépend pas du nombre de séquences et est noté θπ. Il est peu sensible

à la fréquence des allèles rares.

Deuxièmement, on peut compter le nombre de sites polymorphes ; il est potentiellement d’autant plus grand que

notre échantillon compte de séquences. On obtient ainsi un indicateur noté θS . Il est sensible à la fréquence des

allèles rares.

Considérons un échantillon de n séquences alignées, de longueur L (en pb).

£ On note π le nombre moyen de nucléotides différents par site entre deux séquences de l’échan-

tillon. Établissons l’expression de π. Il y a

n

2

=

n(n− 1)

2alignements de paires possibles.

On note Πij le nombre total de différences entre la ieme et la jeme séquence. On a alors :

π =1

n(n−1)2

· 1

L·i<j

Πij

π est appelé la diversité nucléotidique. On a θπ = π.£ Notons S le nombre total de sites polymorphes (segregating sites). Watterson a montré que E (S ) =

Lθan où an =n−1i=1

1

i. Donc θS = S

Lanest un estimateur de θ. [12]

Fumoi Tajima a montré que ces deux indicateurs sont des estimateurs de θ et qu’ils en donnent une estimation

très similaire en cas de neutralité. Il a alors défini la statistique D (Tajima’s D) comme :

D =θπ − θS

Var(θπ − θS)

En cas d’excès de variants rares, on aura D < 0. Ce type de situation se produit lorsque le locus considéré asubi un balayage sélectif (voir 4.7.3) dans un passé relativement proche, ce qui permet de le mettre en évidence.

Néanmoins, on retrouve le même type de signature si la population a subi récemment une phase d’expansion

démographique. La dynamique de la population peut venir “parasiter” l’interprétation des données et conduire

à détecter de la sélection là où il n’y en a pas. Pour éviter cela, il faut se souvenir que la sélection n’affecte que

certains locus alors que la démographie touche l’ensemble du génome.

De même, en cas d’excès de variants de fréquence intermédiaire, on aura D > 0. C’est le cas si le locus est soumis

à la sélection balancée, ou si la population a subi un bottleneck partiel (laissant plusieurs variants).

4.6 Fixation d’allèles soumis à la sélectionEn 1962, Kimura a utilisé l’approximation de diffusion pour estimer la probabilité de fixation d’allèles présen-

tant un avantage sélectif (algébrique) s. Le détail des calculs peut être trouvé dans [3]. Le résultat principal est




que la probabilité de fixation d’un allèle en fréquence q est :

pf (q) =1− e−4Nsq

1− e−4Ns

La probabilité de fixation d’un allèle nouveau est donc

pf (q =1

2N ) =

1− e−2s

1− e−4Ns

En particulier, si s → 0, on montre par développement limité que pf =12N

, résultat déjà établi différemment au

1.4. Pour N s 1, et s 0, 1 on a pf 2s, résultat connu depuis les années 1930.

4.7 Déséquilibre gamétique et auto-stop

4.7.1 Déséquilibre gamétique

Parfois, cependant, on trouvait que certains allèles étaient plus fréquents quand il faisait chaud, d’autres quand

il faisait froid...

Exemple : on peut constater que F est majoritaire quand il fait chaud, S quand il fait froid. Si on étudie expéri-

mentalement en plaçant la population dans le froid, on observe que la fréquence de S augmente. La conclusion

la plus immédiate est qu’il y a sélection sur cet allèle. Mais ce n’est pas nécessairement le cas. Il est possible

que cet allèle soit statistiquement lié (auto-stop, hitch hikking) à un allèle de résistance à la chaleur.

On appelle haplotype un génotype haploïde pour plus d’un locus. On considère des haplotypes à 2 loci.

B : p2 b : q2 Total

A : p1 A, B : p1 p2 A, b : p1q2 A, B & A, b : f A = p1( p2 + q2) = p1

a : q1 a, B : q1 p2 a, b : q1q2 a, B & a, b : f a = q1( p2 + q2) = q1

Total a, B & A, B : f B = p2(q1 + p1) = p2 A, b & a, b : q2( p1 + q1) = q2 p1 p2 + p1q2 + q1 p2 + q1q2 = 1

Les fréquences des haplotypes calculées sont celles que l’on attend si les deux loci sont indépendants. Pour

rendre compte de l’écart à cette situation idéale, on ajoute le terme D appelé "déséquilibre gamétique", ou dés-

équilibre de liaison de l’anglais linkage desequilibrium. Il s’agit de l’écart entre les fréquences observées et les

fréquences théoriques.

B : p2 b : q2 Total

A : p1

A, B : p1 p2

+ D A, b : p1

q2 −

D A, B & A, b : f A

= p1

( p2

+ q2

) = p1

a : q1 a, B : q1 p2 −D a, b : q1q2 + D a, B & a, b : f a = q1( p2 + q2) = q1

Total a, B & A, B : f B = p2(q1 + p1) = p2 A, b & a, b : q2( p1 + q1) = q2 p1 p2 + p1q2 + q1 p2 + q1q2 = 1

On remarque que le déséquilibre de liaison est indétectable si on ne s’intéresse qu’à des génotypes (un seul

locus). Sous l’hypothèse de panmixie :

P(AB) = p1 p2 + D

Or

P(AB) = P(obtenir AB sans recombinaison) + P(obtenir AB avec recombinaison)

Comme on a panmixie, on peut écrire :

P(obtenir AB sans recombinaison) = (1− r)P(AB)




où r ∈ 0; 1

2

est le taux de recombinaison 11 ; par ailleurs la recombinaison brise la liaison physique entre les

deux loci, qui se comportent alors comme s’ils étaient indépendants :

P(obtenir AB avec recombinaison) = rp1 p2

D’oùP(AB) = (1− r)P(AB) + rp1 p2

On a alors :

P(AB) = p1 p2 + D = (1− r) [ p1 p2 + D] + rp1 p2 = p1 p2 + (1 − r)D

D’où

D = (1− r)D

et doncDt = (1− r)tD0

La recombinaison tend à faire disparaître le déséquilibre gamétique au cours des générations.

4.7.2 Effet Hill-Robertson

On appelle effet Hill-Robertson ([6]) la réduction globale de l’efficacité de la sélection lorsque celle-ci s’ap-

plique sur plus d’un locus. Considérons une population diploïde et intéressons nous à deux loci sur le même

chromosome, notés α et β. Initialement, toute la population présente les mêmes allèles à ces loci ; nous noterons

respectivement a et b ces allèles. Supposons qu’apparaisse, par mutation, un allèle A au locus α conférant unavantage sélectif à son porteur. Cet allèle doit augmenter en fréquence jusqu’à se fixer. Supposons maintenant

qu’apparaisse chez un autre individu un allèle B conférant à son porteur un avantage sélectif comparable à

celui apporté par A. Il va alors y avoir compétition entre les deux allèles pour la fixation : il y a interférence

de Hill-Robertson entre les deux allèles, et on peut montrer que cela a pour conséquence d’augmenter le temps

moyen de fixation.

Dans le même ordre d’idée, des allèles neutres ou légèrement délétères peuvent voir leur fréquence augmenter

par déséquilibre de liaison avec un allèle positivement sélectionné.

De manière générale, l’effet Hill-Robertson décrit comment l’existence d’un déséquilibre gamétique

entre des sites soumis à la sélection va réduire l’efficacité globale de la sélection dans une popula-tion de taille finie.

La recombinaison (et donc par extension la sexualité) permet d’éviter l’interférence de Hill-Robertson

en brisant la liaison entre les loci.

Raisonnons maintenant sur 3 loci. Il y a 23 = 8 haplotypes possibles et

3

2

= 3 déséquilibres d’ordre 1

possibles. Mais apparait également une éventuelle interaction entre les 3 loci, que nous appellerons déséquilibre

de liaison d’ordre 2 (ddl 2).

11. Considérons un ensemble de n cellules germinales, à une seule paire de chromosomes, entrant en prophase I de méiose.Il y a donc en tout 2n chromosomes et donc n évènements de recombinaison au maximum (dans chaque cellule, 0 ou 1 recom-binaison possible). Les n cellules germinales donnent 4n gamètes parmi lesquels jusqu’à 2n portent un chromosome recombiné ;

r =Nombre de gamètes recombinés

Nombre total de gamètes≤

2n

4n=

1

2: r ∈ [0;0, 5].



5 CONSANGUINITÉ ET F-STATISTIQUES 29

Loci bialléliques Haplotypes Somme Proportions pi ddl 1 ddl 2 ... ddl n− 1

1 2 1 1 0 0 ... 0

2 4 1 2 1 0 ... 0

3 8 1 3 3 1 ... 0

... ... 1 ... ... ... ... 0

n 2n 1 n

n

2

n

3

...

n

n− 1

Les interactions d’ordre élevé s’interprètent comme autant de degrés de liberté inaccessibles par la simple

connaissance des haplotypes. L’information disponible est trop faible et c’est une des limites de la génétique des

populations.

4.7.3 Création de déséquilibre de liaison

Du déséquilibre de liaison peut apparaître lors d’un balayage sélectif (selective sweep) ; il s’agit d’une élimina-

tion du polymorphisme (coup de balai) à proximité d’un locus soumis à la sélection positive ; ceci est illustré à lafigure 8.

FIGURE 8 – Balayage sélectif

La dérive peut également créer du déséquilibre, par exemple si la population passe par un goulot d’étranglement

démographique réduisant la variabilité et ne conservant, de manière purement aléatoire, qu’une association

allélique parmi plusieurs existant avant la baisse d’effectif.

5 Consanguinité et F-statistiques

Un individu est dit consanguin s’il est issu de la reproduction de deux individus apparentés. A cause de la taille

finie des populations naturelles, il existe une consanguinité diffuse, puisque tous les individus d’une espèce sont

apparentés. Pour illustrer cela, calculons le nombre d’ancêtres théorique d’un humain du XX° siècle :

Un humain a deux ancêtres de première génération, ses parents ; quatre ancêtres de seconde génération, ses

grands-parents ; et donc théoriquement 2n ancêtres de n-ième génération. Une génération humaine dure de

l’ordre de 30 ans. Quel est le nombre d’ancêtres de notre ami à l’époque de Charlemagnes, c’est-à-dire vers 800 ?




1200 ans correspondent à environ 40 générations, donc on s’attend à trouver 240 ancêtres à cette époque, soit

environ 1012 personnes (ce qui est déjà près de 100 à 1000 fois plus que la population humaine actuelle). La

population humaine à l’époque était de quelques millions d’individus. Ceci démontre que chaque humain est

consanguin ; on parle de consanguinité diffuse.

5.1 Régimes de reproduction et consanguinité

Une population diploïde panmictique à l’équilibre de Hardy-Weinberg n’est pas consanguine. La consanguinité

provient de la taille finie des populations (voir le calcul du nombre d’ancêtres, celui-ci augmentant exponentiel-

lement à mesure que l’on remonte les générations) et de la réalisation de régimes de reproduction favorisant la

reproduction entre apparentés.

5.1.1 Autofécondation complète

On considère une espèce de plantes se reproduisant par autofécondation. Pour un locus biallélique donné, pré-sentant les variants A et a, on appelle D(t) la proportion d’homozygotes AA à la génération t, H (t) la proportion

d’hétérozygotes et R(t) la proportion d’homozygotes aa. On a bien sûr D(t) + H (t) + R(t) = 1.

L’autofécondation complète conduit à :

D(t + 1) = D(t) + 14

H (t)

H (t + 1) = 12

H (t)

R(t + 1) = R(t) + 14

H (t)

Ce système conduit donc à une disparition des hétérozygotes ; D tend vers p, la fréquence de A dans la popula-

tion, et R vers q, fréquence de a.

5.1.2 Autofécondation partielle

Supposons maintenant que l’espèce étudiée se reproduise par autofécondation avec un taux s et par allofécon-

dation panmictique avec un taux 1− s .

L’autofécondation va avoir pour conséquence un déficit en hétérozygotes (par rapport à ce qui est attendu sous la

distribution de Hardy-Weinberg). On pose :

H obs = 2 pq(1− F IS ) et H expected = H e = 2 pq

où p est la fréquence de l’allèle A et q la fréquence de a. On modifie les équations précédentes en ajoutant les

termes correspondant à l’allofécondation panmictique :

D(t + 1) = sD(t) + 14

sH (t) + (1 − s) p2(t)

H (t + 1) = 12

sH (t) + 2 pq(1− s)

R(t + 1) = sR(t) + 14

sH (t) + (1− s)q2(t)

Quelle est la relation entre F IS et s ?

A l’équilibre on a :

H obs =s

2H obs + 2 pq(1− s)




H obs

1− s

2

= 2 pq(1− s)

D’où

H obs = 2 pq

·

1− s

1−s

2 ≡2 pq [1

−F IS ]

D’où on tire après quelques calculs

F IS =s

2− s

Si s = 0, on a F IS = 0 et on est en panmixie ; si s = 1 alors F IS = 1 et on a autofécondation complète. F IS mesure

l’écart à la panmixie de la population : plus il est proche de 1 plus la population est consanguine.

5.2 Consanguinité et dérive

La dérive peut s’interpréter en termes de consanguinité. Reprenons le modèle de Wright-Fisher : on a un pool

allélique de 2N gènes.

Soit f t le coefficient de consanguinité moyen. f t est la probabilité que deux gènes tirés au hasard à la génération

t soient des copies d’un même gène ancêtre. La probabilité que deux gènes tirés au hasard soient des copies

du même gène à la génération précédente est p = 12N comme nous l’avons vu au 4.2.2. La probabilité que deux

gènes qui se sont pas des copies du même gène de la génération précédente soient néanmoins des copies du

même gène ancêtre est, par définition, f t−1. La probabilité de tirer au hasard deux gènes qui ne sont pas des

copies du même gène à la génération précédente est 1− p = 1− 12N

ce qui permet d’écrire :

f t =1

2N

+ 1

−1

2N f t−1

L’analyse de cette relation de récurrence se fait plus aisément si on considère la probabilité complémentaire

H t = 1− f t. En effet :

f t =1

2N +

1− 1

2N

f t−1 =

1

2N + f t−1 −

1

2N · f t−1 = f t−1 +

1

2N [1− f t−1] = 1− 1 + f t−1 +

1

2N [1− f t−1]

f t − 1 = f t−1 − 1− 1

2N [f t−1 − 1] = 1− 1

2N (f t−1 − 1)

Soit :

H t = 1− f t =

1− 1

2N

(1− f t−1)

H t est la probabilité que deux gènes tirés au hasard à la génération t ne soient pas copies d’un même gène

ancêtre; c’est donc la probabilité de tirer un individu hétérozygote. H t s’identifie à l’hétérozygotie de la

population. On a :

H t = 1− 1

2N t

H 0 = H 0etln[1− 1

2N ] H 0e−t2N

La dérive conduit à une décroissance exponentielle de l’hétérozygotie. La taille finie d’une popu-

lation implique la consanguinité. La dérive entraîne une homogénéisation intra-population et une

différenciation inter-population.




Prise en compte de la mutation

On suppose maintenant qu’à chaque génération une proportion u des allèles mute en un nouvel allèle 12. Pour

que deux gènes tirés au hasard soient des copies du même gène ancêtre, il faut alors en plus qu’aucun des deux

n’aie muté ; on corrige alors f t comme suit :

f t = (1− u)2 ·

1

2N +

1− 1

2N

f t−1

On peut alors caractériser l’ équilibre mutation-dérive :

A l’équilibre :

f = (1− u)2 ·

1

2N +

1− 1

2N

f

=

(1− u)2

2N + (1 − u)2f − (1− u)2

2N f

ˆf

1− (1− u)

2

+

(1

−u)2

2N

=

(1

−u)2

2N

On fait alors les approximations suivantes : (1− u)2 1− 2u etu

N 0, ce qui se justifie car on considère u très

faible et N très grand. On a donc :

f

2u +

1

2N

1

2N

soit

f 12N

2u + 12N

ce qui se réécrit :

f 1

4N u + 1 1

θ + 1

On retrouve le paramètre mutationnel défini au 5.2. On voit que si θ est élevé, f est proche de 0 : la population

est génétiquement hétérogène.

L’hétérozygotie à l’équilibre est alors :

H θ

1 + θ

Les mutations s’opposent à l’effet homogénéisant intra-population de la dérive génétique. Lorsque

l’on étudie la dérive sous l’angle de la consanguinité, le paramètre θ = 4N u apparaît naturellementcomme mesure de l’hétérogénéité de la population.

5.3 Les F-statistiques, indicateurs de proximité génétique

La grandeur F IS introduite précédemment est un exemple de F-statistique ([7]). Les F-statistiques sont des

indicateurs proposés par Wright pour mesurer l’hétérogénéité génétique intra - et/ou inter - populations.

On considère une métapopulation composée de plusieurs sous-populations, indicées par i, de la même espèce.

On s’intéresse à un locus biallélique présentant les variants A et a. On note pi (respectivement qi) la fréquence

de l’allèle A (respectivement a) dans la sous-population i . On note ¯ p (respectivement q) la fréquence de A

(respectivement a) dans la métapopulation. On appelle :

12. Cela suppose implicitement une infinité de mutations possibles ; c’est ce qu’on appelle un modèle à infinité de sites.




FIGURE 9 – Mélange de deux sous-populations

£ H I l’hétérozygotie moyenne observée au sein d’une sous-population (notée H obs dans nos précédents calculs).

£ H S l’hétérozygotie moyenne attendue au sein d’une sous-population si celle-ci est panmictique (notée H exp

dans nos précédents calculs). On a H S = 2 piqi.

£ H T l’hétérozygotie moyenne attendue dans la métapopulation : H T = 2¯ pq

On peut alors définir trois F-statistiques hiérarchiques :

1. F IS =H S −H I

H S= 1− H I

H Smesure l’hétérogénéité génétique (ou l’écart à la panmixie, donc la consangui-

nité) entre deux individus au sein d’une sous-population.

2. F ST =H T −H S

H T = 1− H S

H T mesure la différence génétique entre une sous-population et la métapopulation,

donc le degré de différenciation entre les différentes sous-populations d’une métapopulation.

3. F IT =H T −H I

H T = 1− H I

H T mesure l’hétérogénéité génétique entre deux individus de la métapopulation.

Les trois indicateurs sont reliés par la formule (1− F IT ) = (1− F IS ) · (1− F ST ) .

5.4 L’effet Wahlund

Supposons que deux populations de taille N présentant les génotypes A et a en fréquences respectives ( p1, q1) et

( p2, q2) se mélangent (figure 9).

Supposons que chaque population suive la distribution de Hardy-Weinberg. On a alors :

H I,1 = H S,1 = H 1 = 2 p1q1

H I,2 = H S,2 = H 2 = 2 p2q2

Après mélange des deux sous-populations :

H S =H 1 + H 2

2

Et, par définition :

H T = 2 ¯ pq = 2¯ p(1− ¯ p)

On a H = 2 p(1 − p) = 2 p− 2 p2 : la courbe représentative est une parabole concave. Cela a nécessairement pour

conséquence que H S < H T (illustré sur la figure 10 ). C’est ce que l’on appelle l’effet Wahlund.

L’effet Wahlund est une réduction de l’hétérozygotie de la métapopulation causée par sa structura-

tion en sous-populations, même si ces dernières suivent la distribution de Hardy-Weinberg.

On a donc

F ST = 1 − H S

H T > 0




FIGURE 10 – L’effet Wahlund

Nous avons supposé la panmixie dans les deux sous-populations avant mélange. Cette hypothèse permet d’uti-

liser l’argument de la parabole concave pour mettre en évidence l’effet Wahlund, cependant l’effet Wahlund est

possible même si les sous-populations avant mélange ne sont pas panmictiques.

5.5 F ST et migration

5.5.1 Modèle en îles de Wright

Pour étudier les effets de la migration sur la différenciation génétique entre sous-populations, plaçons-nous

dans le modèle en îles de Wright. Les hypothèses en sont les suivantes :

£ n îles, chacune abritant une sous-population de taille N , la métapopulation a donc pour effectif N n.

£ Chacune des sous-populations est panmictique.

£ Les migrations sont aléatoires ; les migrants forment un pool dont la composition génétique est égale à la

composition génétique moyenne de la métapopulation (Figure 11).

£ Le taux de migration par génération est m, le taux de mutation par génération est u.

Par panmixie dans une sous-population, H I = H S = H . On va de plus faire l’hypothèse d’un nombre infini

de sous-populations (n→

+∞

). Par conséquent la probabilité de tirer un homozygote dans la métapopulation

devient nulle : H T = 1. On évalue maintenant la consanguinité au sein d’une sous-population. On reprend en

fait le même raisonnement qu’au 5.2 : pour tirer deux gènes identiques, il faut d’une part qu’aucun des deux

n’aie muté, d’autre part qu’aucun des deux ne soit issu de l’immigration. D’où :

1−H = f = (1− u)2(1−m)2

1

2N +

1− 1

2N

f

f (1− 2u)(1− 2m)

1

2N +

1− 1

2N

f

On néglige tous les termes en u2, m2, um, uN , mN . On en tire :

f 1

2N +

1− 2u− 2m− 1

2N

f




FIGURE 11 – Modèle en îles de Wright (schéma d’après F. Austerlitz)

A l’équilibre :

f

12N

2u + 2m +12N

=1

4N m + 4N u + 1

Par ailleurs, on a

F ST = 1− H S

H T = 1− H par hypothèse.

F ST 1

4N m + 4N u + 1

En général, on a u m et donc :

F ST

1

4N m + 1

Cette formule établie par Wright permet, par mesure de F ST , de déterminer N m (et donc de remonter au taux

de migration si on dispose de la taille de la population).

Supposons que seul un individu migre par génération (N m = 1). On aura alors F ST = 0, 2 ; un faible taux de

migrants est suffisant pour empêcher la différenciation des populations (qui correspondrait à F ST = 1) : la

migration est une force évolutive homogénéisante, comme on l’avait envisagé au 1.4.

F ST diminue avec N ; les populations de petites tailles tendent à se différencier sous l’effet de la dérive génétique.

La formule doit cependant être considérée avec précautions, à cause des hypothèses assez fortes du modèle. En

particulier, ce modèle ne tient aucun compte de la géographie, ce qui n’est pas du tout réaliste. Il existe d’autresmodèles prenant en compte une géographie simplifiée (comme les modèles stepping-stone) mais leur analyse est

plus complexe.




5.5.2 Généralisation aux différents types d’hérédité

Le mode de transmission d’un gène est différent selon qu’il est porté par un autosome, un chromosome sexuel

ou un chromosome d’organite (mitochondrie ou chloroplaste).

A titre d’exemple, on a :

F (ADNmt)ST 1

2N f mf + 1

et

F (Y )ST

1

2N mmm + 1

Dans l’espèce humaine, on trouve généralement, au sein d’une même population, un F ST plus fort pour le chro-

mosome Y que l’ADN mitochondrial, indiquant un taux de migration des femmes plus important. Cela est relié

au fait que la patrilocalité est généralement la règle en cas de mariage entre sous-populations (patrilocalité : la

femme rejoint le foyer de son nouveau mari).

Cas des plantes Chez les plantes il y a deux possibilités de migration, par les graines (taux mS) et par le

pollen (taux mP ). On a alors :

£ Gène nucléaire : F (n)ST =

1

4N (mS + mP

2 )

£ Gène cytoplasmique à hérédité maternelle : F (m)ST =

1

1 + 2N mS

£ Gène cytoplasmique à hérédité paternelle : F (f )ST =

1

1 + 2N (mS + mP )

La mesure des F ST permet ainsi de calculer le ratio de migration pollen/graine.

Conclusion

La génétique des populations a un statut à part au sein de la biologie car il s’agit d’une discipline reposant sur

un formalisme mathématique plus développé que la majorité des autres domaines des sciences de la Vie. Elle

fournit le cadre théorique nécessaire à une formalisation de la théorie de l’Évolution et à une interprétation des

données de la génétique quantitative. Nous avons vu comment décrire les différentes pressions évolutives, et es-

quissé les raisonnements à la base des approches modernes de la dérive génétique. Par définition, l’influence de

la dérive sur la composition génétique d’une population est d’autant plus faible que cette dernière est grande. La

grande taille des populations naturelles peut donc laisser penser que la dérive est une force évolutive d’intensiténégligeable dès lors que l’on considère par exemple des espèces entières.

On peut néanmoins remarquer que, du point de vue évolutif, les seuls individus dont il faut tenir compte sont

ceux qui se reproduisent effectivement. La grandeur démographique sur laquelle raisonner devrait donc plutôt

être le nombre d’individus qui se reproduisent (breeding population size). Cependant, ce nombre ne prend pas

forcément en compte tous les facteurs pouvant influencer la composition de la population à la génération sui-

vante (par exemple, le sex-ratio au sein de la population reproductrice). C’est pour cela que les biologistes de

l’Évolution ont élaboré le concept de taille efficace de population ( effective population size).

On appelle taille de population efficace N e d’une population de taille totale N l’effectif d’une population idéalisée

(i.e. suivant le modèle de Wright-Fisher) qui présenterait la “même quantité de dérive”, ce qui peut admettreplusieurs définitions : même coefficient de consanguinité, même variance des fréquences alléliques...




Cela revient, de manière générale, à définir la taille de population efficace comme l’inverse de la probabilité que

deux individus pris au hasard dans la population soient issus du même ancêtre à la génération précédente. Cette

probabilité vaut 12N dans une population diploïde suivant le modèle de Wright-Fisher.

Selon les facteurs pris en compte, l’expression servant à déterminer N e change. Nous en donnerons deux

exemples.

Taille de population efficace et sex-ratio

Considérons une population de taille totale N subdivisée en N m mâles et N f femelles. Etablissons l’expression

de la taille de population efficace. Si deux allèles tirés au hasard proviennent du même ancêtre à la génération

précédente, ils proviennent soit du même mâle, soit de la même femelle. D’où :

1

N e=

1

2· 1

2· 1

N 2m·N m +

1

2· 1

2· 1

N 2f ·N f

1

N e=

1

4N m+

1

4N f =

4N mN f

N f + N m

On remarque alors qu’un sex-ratio fortement éloigné de 1 fait chuter la taille de population efficace. Pour le cas

extrême d’un seul mâle au sein de la population 13, la taille efficace ne peut pas dépasser 4 quel que soit l’effectif

réel.

Variations démographiques

Pour étudier l’influence de variations démographiques, adoptons une définition de la taille efficace en termes de

perte d’hétérozygotie (l’hétérozygotie est définie au 5.2) : la taille efficace de la population est l’effectif d’une po-

pulation idéale de taille constante suivant le modèle de Wright-Fisher subissant la même perte d’hétérozygotie

en t générations. Notons N i l’effectif réel à la i-ème génération. On a alors, pour N i 1 ∀i :

H t

H 0=t−1i=0

1− 1

2N i

≡

1− 1

2N e

t

1

−1

2N e

=

t−1

i=0

1

−1

2N i

1

t

t−1i=0

1− 1

2N it

1−

t−1i=0

1

2N it

1

2N e 1

t

t−1i=0

1

2N i

La grandeur pertinente est donc la moyenne harmonique des effectifs au cours du temps. Donc si la population

passe par une phase de réduction d’effectif (un bottleneck), après une épidémie par exemple, ou la colonisation

d’un nouvel habitat par un petit groupe d’individus, la taille efficace de population sera faible. On estime que

la taille efficace de la population humaine est de l’ordre de 10 000 individus, bien loin des 7 milliards d’êtres

humains peuplant (tout juste !) la Terre à la date où nous écrivons.

13. Par exemple si je fais féconder toutes mes vaches par le même taureau.



RÉFÉRENCES 38

La notion de taille de population efficace montre que la dérive peut avoir un impact significatif

sur la variation de la composition génétique de grandes populations. En effet, des allèles légère-

ment délétères peuvent alors présenter une probabilité de fixation très voisine de celle d’un allèle

neutre (on parle de neutralité effective). Selon certains auteurs, de tels phénomènes seraient alors

à l’origine de la complexité des réseaux génétiques observés chez les Eucaryotes ([1], [13]).

Références

[1] The Origins of Genome Architecture, Michael Lynch, 2007, Sinauer Associates.

[2] Phenylketonuria - a problem in eugenics, Roger Penrose, 1946, Ann. Hum. Genet.

[3] On the Probability of Fixation of Mutant Genes in a Population, Motoo Kimura, 1962, Genetics.

[4] La Théorie de l’Évolution, une Logique pour la Biologie, Patrice David et Sarah Samadi, 2006

(seconde édition), Éditions Flammarion - Collection Champs Université.

[5] La Triple Hélice, Richard C. Lewontin, 2000, Éditions Seuil - Collection Science Ouverte.

[6] The Hill–Robertson effect : evolutionary consequences of weak selection and linkage in finite popu-

lations, J.M. Comeron, A. Williford & R.M. Kliman, 2008, Heredity.

[7] Un document en ligne sur les F-statistics : http ://www.library.auckland.ac.nz/subject-

guides/bio/pdfs/733Pop-g-stats2.pdf

[8] Modélisation Mathématique en Écologie, P. Auger, C. Lett, J.C. Poggiale, 2010, Dunod / IRD Édi-

tions.

[9] Genetics of Populations, P.W. Hedrick, 2011, Jones & Bartlett Learning.

[10] Population Genetics, a concise guide, J.H. Gillespie, 1998, The Johns Hopkins University Press.[11] Génétique statistique, S. Morgenthaler, 2008, Springer.

[12] Computational Molecular Evolution, Z. Yang, 2006, Oxford Series in Ecology and Evolution.

[13] Non-adaptive Origins Of Interactome Complexity, A. Fernandez & M. Lynch, 2011, Nature.

Enseignants

Le présent cours est basé sur les interventions des enseignants suivants que nous remercions chaleureusement :

F. Austerlitz E. BaudryR. Chaix F. Depaulis

C. Dillmann J. Fiévet

P.H. Gouyon E. Heyer

M. Lässig D. Manicacci

L. Schibler D. de Vienne

Toute erreur, imprécision ou autre serait bien entendu de notre fait exclusif...

Ce matin (23/10/11, date de sortie de la première version) le XV de France n’est pas passé loin d’une victoire face aux All Blacks en finale

de la Coupe du Monde de Rugby. C’est triste. Je tenais à le préciser.

http://www.library.auckland.ac.nz/subject-guides/bio/pdfs/733Pop-g-stats2.pdf




BLANC Genetique Populations v1-1

Documents