Génétique des populations Florian BLANC 07 Novembre 2011 - Version 1.1 “Nothing in Evolution makes sense, except in the light of Population Genetics”(M. Lynch) Cours général sur les bases de la génétique des populations et de la biologie de l’Évolution, en grande partie écrit à partir des enseignements de L3 et M1 de l’École Normale Supérieure. La liste des enseignants est indiquée dans les références. L’auteur tient également à remercier ses camarades de la promotion Bio10 de l’ENS, notamment Mircéa SO- FONEA, pour leur relecture et leurs remarques ayant permis d’améliorer ce cours. L’objectif général de tout ça étant de valider E1 1 . Tous les liens et renvois présents dans la version pdf sont cliquables. 2 Introduction La génétique est l’étude de la transmission des variations d’une génération à l’autre. On étudie ici la trans- mission des caractères à l’échelle des populations. La théorie de la génétique des populations est une théorie presque purement déductive, ce qui est rare en biologie. Elle est en premier lieu fondée sur des prédictions émises à partir de modélisations mathématiques. Histoire 1859 : naissance de la biologie contemporaine avec Darwin 1869 : publication des travaux de Mendel 1900 : De Vries, Correns, Tschernak (trois botanistes) redécouvrent les travaux de Mendel. 1906 : naissance de la génétique. 1930 : R. Fischer, J.B.S. Haldane et S. Wright constituent un corpus théorique extrêmement cohérent qui marque la naissance de la génétique des populations moderne. Au début, pour des raisons diverses tenant notamment à des conflits personnels, la génétique s’oppose au dar- winisme. Pour les darwinistes, l’évolution est due à la sélection naturelle. Pour les généticiens, elle est due aux mutations. Galton, Pearson, étudient la transmission des caractères quantitatifs(ex : taille). Bateson lui, invente la génétique. La génétique classique est plutôt centrée sur l’étude des caractères qualitatifs(travaux de Mendel : lisse/ridé vert/jaune). C’est la controverse des Mendeliens contre les Biométriciens. Les deux approches sont réconciliées lors de la synthèse néo-darwinienne: au sein d’une population, il faut une mutation pour qu’apparaisse un nouveau phénotype, mais il faut de la sélection pour qu’il se répande. La conception dominante (ici schématisée) attribue à la sélection un rôle prépondérant dans l’Évolution. Aujour- d’hui, certains biologistes proposent au contraire des théories très solides expliquant par exemple l’émergence de la “complexité” (en termes de topologie des réseaux d’interactions génétiques) des Eucaryotes pluricellulaires par des processus non-adaptatifs [1], donnant lieu à des débats parfois vigoureux. 1. Surtout après le gros carton en G1. 2. Alors faites-vous plaisir ! Mais par contre ça marche p as avec la version papier. 1
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
“Nothing in Evolution makes sense, except in the light of Population Genetics” (M. Lynch)
Cours général sur les bases de la génétique des populations et de la biologie de l’Évolution, en grande partie écrit
à partir des enseignements de L3 et M1 de l’École Normale Supérieure. La liste des enseignants est indiquée
dans les références.
L’auteur tient également à remercier ses camarades de la promotion Bio10 de l’ENS, notamment Mircéa SO-
FONEA, pour leur relecture et leurs remarques ayant permis d’améliorer ce cours. L’objectif général de tout ça
étant de valider E1 1. Tous les liens et renvois présents dans la version pdf sont cliquables. 2
Introduction
La génétique est l’étude de la transmission des variations d’une génération à l’autre. On étudie ici la trans-
mission des caractères à l’échelle des populations. La théorie de la génétique des populations est une théorie
presque purement déductive, ce qui est rare en biologie. Elle est en premier lieu fondée sur des prédictionsémises à partir de modélisations mathématiques.
Histoire£ 1859 : naissance de la biologie contemporaine avec Darwin
£ 1869 : publication des travaux de Mendel
£ 1900 : De Vries, Correns, Tschernak (trois botanistes) redécouvrent les travaux de Mendel.
£ 1906 : naissance de la génétique.
£ 1930 : R. Fischer, J.B.S. Haldane et S. Wright constituent un corpus théorique extrêmement cohérent qui
marque la naissance de la génétique des populations moderne. Au début, pour des raisons diverses tenant notamment à des conflits personnels, la génétique s’oppose au dar-
winisme. Pour les darwinistes, l’évolution est due à la sélection naturelle. Pour les généticiens, elle est due
aux mutations. Galton, Pearson, étudient la transmission des caractères quantitatifs (ex : taille). Bateson lui,
invente la génétique. La génétique classique est plutôt centrée sur l’étude des caractères qualitatifs (travaux de
Mendel : lisse/ridé vert/jaune). C’est la controverse des Mendeliens contre les Biométriciens.
Les deux approches sont réconciliées lors de la synthèse néo-darwinienne : au sein d’une population, il faut
une mutation pour qu’apparaisse un nouveau phénotype, mais il faut de la sélection pour qu’il se répande. La
conception dominante (ici schématisée) attribue à la sélection un rôle prépondérant dans l’Évolution. Aujour-
d’hui, certains biologistes proposent au contraire des théories très solides expliquant par exemple l’émergence
de la “complexité” (en termes de topologie des réseaux d’interactions génétiques) des Eucaryotes pluricellulairespar des processus non-adaptatifs [1], donnant lieu à des débats parfois vigoureux.
1. Surtout après le gros carton en G1.2. Alors faites-vous plaisir ! Mais par contre ça marche pas avec la version papier.
Précisions concernant le vocabulaire Il y a parfois des divergences de vocabulaire entre génétique de
laboratoire et génétique des populations. Cela tend à devenir problématique compte-tenu du fait que les deux
communautés sont de plus en plus amenées à interagir.£ Un caractère est dit déterminé par les gènes ou l’environnement, en fonction de la part de variation attri-
buable à des variations génétiques ou environnementales.
£ Gène : fragment de génome transcrit.£ Gènes homologues : gènes codant pour la même fonction et étant appariés à la méiose. Ces gènes sont pla-
cés à la même position sur la carte du chromosome. La relation d’homologie est une relation d’équivalence
(réflexive, symétrique, transitive). Cela définit des classes d’équivalences. Une classe d’équivalence s’appelle
un locus. Le locus n’est donc pas défini par la position sur le chromosome. Parmi les gènes homologues, cer-
tains sont isoactifs : ils déterminent le même phénotype. L’isoaction est une relation d’équivalence ; la classe
d’équivalence correspondante est appelée un allèle. Deux gènes homologues non isoactifs sont en relation
allélomorphique, et on dit communément qu’ils constituent “deux allèles” du même gène.
Soit une population haploïde de taille N où coexistent deux allèles A et a, chacun présent en effectif nA et na.
On travaillera en fréquences : on appelle p la fréquence de l’allèle A et q = 1 − p la fréquence de l’allèle a. On
supposera que les générations sont non chevauchantes pour pouvoir travailler en temps discret. On appelle p
et q les fréquences alléliques à la génération suivante. La quantité ∆i p = p − p est l’espérance de la variation
de la fréquence de A due à la pression évolutive i.
Une fois cela défini, on peut regarder comment agissent les pressions évolutives sur la composition génétique
de la population. Il y en a quatre : la mutation, la sélection, la migration et la dérive.
1.1 Effet de la mutation
On suppose qu’à chaque génération une proportion u des allèles A mute en allèles a (voir définitions de ces
termes en génétique des populations). D’où ∆u p =
−up . On modélise donc la mutation (phénomène intrinsè-
quement aléatoire) de manière déterministe en faisant appel à un taux moyen. Le taux moyen de mutation, u,correspond au nombre de mutations par génération pour une copie donnée d’un gène. Il peut varier de 10−12 à
10−4 et est de l’ordre de 10−6 en général.
On peut également tenir compte des mutations reverse transformant a en A. Soit v le taux de mutation de a en
A, on a alors :
p = p− up + vq = p(1− u) + v(1− p)
Un équilibre (non-trivial) purement mutationnel est alors possible :
p∗ = p∗(1− u) + v(1− p∗)
(u + v) p∗ = v
p∗ =v
u + v
On peut alors modéliser la dynamique d’approche de l’équilibre par la suite X t = pt − p∗. On a
X t+1 = pt(1− u− v) + v − v
u + v
X t+1 = pt(1− u− v) +v
u + v(u + v − 1) = ( pt − p∗)(1− u− v)
et donc :
X t+1 = X t(1− u− v)
La décroissance est géométrique.
En général, on néglige les mutations reverse, improbables.
Temps de demi-vie Dans le cas où on néglige les mutations reverse, on a p = (1− u) p soit pt = (1− u)t p0.
On peut alors calculer le temps de demi-vie t1/2, c’est-à-dire le temps nécessaire pour diminuer de moitié la
fréquence d’un allèle par mutation, toutes choses égales par ailleurs. On a :
pt1/2 =
1
2 p0
(1− u)t1/2 =1
2
t1/2ln(1− u) = −ln2
soit à l’ordre 1 (étant donné que u 1)
t1/2
ln2
u 7.105 générations.
Il faut donc plusieurs centaines de milliers de générations pour qu’un allèle soit perdu par mutation seule. Pour
l’espèce humaine, cela représente plusieurs dizaines de millions d’années ; pour la drosophile, plusieurs dizaines
de milliers d’années.
La mutation est donc une pression évolutive négligeable du point de vue de la variation des fréquences alléliques
(sauf cas particuliers) mais joue un rôle fondamental dans la création de variabilité génétique.
1.2 Effet de la sélection
A un individu de génotype A on associe une valeur sélective (ou fitness) W A qui est l’espérance du nombre dedescendants laissés par cet individu au cours de sa vie. On définit de même W a pour les individus a.
Remarque : On a W = sf où s est la probabilité de survie jusqu’à l’âge où la reproduction est possible (la
viabilité) et f la fécondité, c’est-à-dire l’espérance du nombre de descendants sachant qu’il y a eu survie.
D’après la définition de la fitness, on peut écrire :
p =pW A
pW A + qW a
La quantité pW A + qW a est (par associativité de l’espérance) l’espérance du nombre de descendants d’un indi-vidu tiré au hasard dans la population. On l’appelle fitness moyenne, notée W .
On voit que les quantités pertinentes ne sont pas les fitness elles-mêmes mais plutôt les différences
de fitness entre phénotypes et par rapport à la fitness moyenne. On voit de plus que la sélection ne peut
s’envisager que sur une population variable (pas de sélection si p ou q sont nuls), ce qui est totalement intuitif.
Evolution déterministe dans un paysage adaptatif
La notion de paysage adaptatif ( fitness landscape) a été introduite par Wright dans les années 1930. Un paysageadaptatif est la représentation de la fitness moyenne F de la population en fonction de sa composition génotyp-
ique x. Intuitivement, on comprend que la sélection est un processus tendant à maximiser la fitness, ou encore
à sélectionner la composition génétique présentant la fitness maximale.
On peut alors voir F comme l’analogue d’un potentiel en mécanique classique et définir une “force sélective” s(x)
comme:
s(x) = F (x)
Wright a été le premier à comprendre que le maximum de F n’avait aucune raison d’être unique. Une popula-
tion peut alors être piégée dans un maximum local et n’en sortir qu’en cas de variation du paysage adaptatif
(traduisant un changement environnemental) et/ou d’intervention des autres pressions évolutives.Le théorème fondamental de la sélection naturelle, établi par Fisher en 1930, énonce:∂F
∂t= s2(x(t))
Il s’applique pour une évolution déterministe sous l’influence de la sélection uniquement.
Un cas simple: sélection à fitnesses constantes
Considérons une population bactérienne de taille N dans laquelle coexistent deux génotypes A et B tels que:
dN A
dt= f AN A
dN B
dt = f BN B
Ici la fitness de chaque génotype s’identifie simplement avec le taux de croissance de chaque sous-population.
Soit x la proportion de B dans la population.
Alors:dN
dt= f N = f AN A + f BN B = N [(1− x)f A + xf B]
Donc:dx
dt=
d
dt
N B
N
=
1
N 2
N
dN B
dt−N B
dN
dt
=
1
N 2
N f BN B −N B f N
= (f B − f )x
dxdt
= (f B − f )x
On a s = f B − f A. Donc:dx
dt= sx(1− x)
On obtient une équation logistique. La variation de x n’est proportionnelle qu’à l’écart entre la fitness de B et
la fitness moyenne. La dynamique de x se découple totalement de la dynamique de N . Le paysage adaptatif est
simplement:
F (x) = f (x) + cst
par intégration. La fitness moyenne est bien le potentiel correct.
On a par ailleurs:dF
dt=
dF
dx
dx
dt= s2(1− x)x = Var(F )
Que se passe-t-il si la fitness n’est plus constante? Peut-on toujours définir un potentiel?
Considérons une population subdivisée en autochtones et en immigrants. Soit m la probabilité qu’un individu
pris au hasard soit un immigrant.
Autochtones ImmigrantsA p pI
a q qI
On a (par exemple par la formule des probabilités totales) :
p = (1−m) p + mpI
La fréquence pI est constante (la population source constitue un “thermostat allélique”). On peut alors écrire :
p − pI = (1−m) p + mpI − pI = (1−m)( p− pI )
En l’absence de toute autre pression évolutive, la variable δp = p − pI suit une décroissance géométrique :
δpt = (1−m)tδp0 ; à l’équilibre, la fréquence allélique dans une population soumise à l’immigration devient celle
de la population source.
Temps de demi-vie Considérons une population dans laquelle un allèle A est présent à une fréquence p et
recevant un flux immigrant de taux m d’une population source dans laquelle l’allèle A est absent ( pI = 0). La
formule du temps de demi-vie dans ce cas est la même que pour la mutation :
t1/2 ln2
m
Pour un taux de migration de 5%, tout-à-fait réaliste dans le cas des populations humaines par exemple, on
trouve alors : t1/2 ∼ 14 générations. Un changement notable de fréquence allélique se produit ainsi en quelques
dizaines de générations, soit quelques siècles pour une population humaine. La migration est une force évolutive
rapide et homogénéisante.
Un cas simple de migration peut être celui du modèle continent-île (figure 1a ), où une population de faible
effectif a colonisé une île et est alimentée par des migrations provenant du continent voisin.
On peut généraliser ce modèle en utilisant un modèle multi-sites (figure 1b ). La géographie peut être prise encompte en limitant la migration aux sites immédiatement adjacents ; on parle alors de modèle stepping-stone.
La définition d’une migration dépend évidemment de celle de la population. En général plus une population est
choisie de petite taille et correspondant à la notion biologique de population (ensemble d’individus de la même
espèce vivant au même endroit et se reproduisant entre eux), plus elle est homogène. Les migrations ont
pour effet d’augmenter la diversité intra-population, et donc d’homogénéiser les populations entre
elles. L’homogénéité de l’espèce humaine provient notamment du fait que les échanges entre les différentes
populations ont toujours été maintenus.
La création de biodiversité résulte d’un équilibre subtil entre isolement (pour avoir une évolution locale diffé-
rente selon les populations) et migration (pour ne pas avoir une perte locale trop forte de diversité génétique).Une des causes de la crise actuelle de la biodiversité, outre les extinctions, est la perturbation de cet équilibre.
1.4 Effet de la dérive
Soit maintenant une population présentant deux allèles de même valeur sélective, sans migration ni mutation.
Tenant compte de ce qui précède, on s’attend à ce que ∆global p soit nul. Or on observe quand même une variation
des fréquences alléliques d’une génération sur l’autre... cela provient du fait que la modélisation purement
déterministe que nous avons construite fait appel aux espérances des variations alléliques. Dans une population
de taille finie, on va nécessairement observer des fluctuations d’échantillonnage.
On appelle dérive génétique (drift) le processus par lequel les fréquences alléliques changent dans les (petites)
populations à cause de biais aléatoires d’échantillonnage dans la transmission des allèles d’une génération à
l’autre.
Chaque nouvel individu est le résultat d’un tirage dans "l’urne des génotypes". Le nombre nA d’individus A à la
génération suivante suit alors une loi binomiale de paramètres N et p :
P(nA = k) =
N
k
pkqN −k
On a alors E (nA) = N p (soit E ( p) = p) : en moyenne, rien de bien méchant. Cependant, il faut tenir compte de la
dispersion statistique mesurée par la variance : V (nA) = N pq.
La dispersion de p autour de p sera donc de l’ordre de σdrift =
pq
N . On remarque que la dispersion attendue est
d’autant plus importante que la taille de la population est faible. La dérive peut également être modélisée par
une marche aléatoire : une particule se déplace sur la droite des fréquences alléliques, sa position correspondant
à la fréquence de l’un des allèles. Les états 0 et 1 sont absorbants. Si un allèle atteint la proportion de 100%
dans la population, on dit qu’il est fixé3
. La probabilité de fixation d’un allèle est égale à sa fréquence initiale.Considérons en effet une population d’effectif N dans laquelle apparaît un allèle nouveau chez un individu.
Sa fréquence initiale est donc p0 =1
N . On subdivise cette population en k sous-populations d’effectif n (donc
kn = N ). On laisse évoluer ces populations. Au bout d’un temps assez long, l’allèle nouveau est fixé dans
une proportion x des sous-populations et perdu dans une proportion 1 − x des sous-populations. Sa fréquence
dans la population totale est donc ¯ p = 1 · nkx
N + 0 · (1− x)kn
N = x. Or la dérive laisse la moyenne invariante
donc ¯ p = x = p0. La probabilité de fixation, égale à la proportion de sous-populations initialement identiques
ayant finalement fixé l’allèle, est égale à la fréquence initiale de l’allèle dans la population. On a donc bien
P(fixation) = p0 =1
N .
L’importance de la dérive dans le processus global d’Évolution est encore débattue, même si de plus en plusde chercheurs tendent à lui accorder une place fondamentale. Quoi qu’il en soit, l’importance de la dérive est
établie dans toutes les situations où la population est de petite taille : juste après la colonisation d’une île ou
une catastrophe naturelle par exemple (“goulot d’étranglement”, bottleneck). La composition génétique de la
population issue de ces quelques individus sera (hors mutation, sélection et migration) déterminée par celle de
ces derniers : on parle d’ effet fondateur.
1.5 L’équilibre de Hardy-Weinberg
Dans une population isolée sans mutation ni sélection et de taille infinie, les fréquences alléliques
sont constantes d’une génération sur l’autre.
Cet équilibre, ou loi de Hardy, constitue un cas de référence : toute variation de fréquence allélique devra
s’interpréter à l’aide des différentes pressions évolutives. Elle joue le même rôle que la première loi de Newton
en dynamique classique (toute déviation du mouvement rectiligne uniforme doit s’interpréter en termes de force
appliquée au mobile).
1.6 Mutation et sélection
1.6.1 L’équilibre mutation-sélection
Classiquement, si un allèle est délétère, on donne la valeur 1 à la fitness de l’allèle non délétère (supposé êtreA) et 1− s à l’allèle délétère (a). s est le désavantage sélectif . La méthode, approximative, consiste à considérer
successivement sélection puis mutation pour aboutir à une formule approchée de la variation de fréquence
allélique sous l’effet conjoint de ces deux pressions.
On considère d’abord la sélection. La fitness moyenne est W = p + q(1− s) = 1− sq.
On a
ps = p · 1
1− sq
Puis on envisage la mutation : p = ps(1− u) d’où
p = p · 1− u
1− sq
3. En pratique, on considèrera qu’un allèle est fixé si sa fréquence dépasse une valeur seuil arbitraire, par exemple 99%.
2.2.1 La panmixie et la distribution de Hardy-Weinberg
Le degré de liberté restant est levé en faisant une hypothèse sur le régime de reproduction. On utilise géné-
ralement un régime panmictique (on parle de panmixie), dans lequel la formation des couples est totalementaléatoire. Cette panmixie constitue plus un cas de référence permettant de caractériser, par comparaison, les
situations réelles qu’un régime de reproduction effectivement rencontré dans la Nature. La panmixie est une
notion relative au caractère étudié. Sous cette hypothèse, on a alors :
q a p A
q a q2 aa pq Aa
p A pq Aa p2 AA
La structure génotypique est donc p2, 2 pq, q2. C’est la structure caractéristique de la panmixie, appelée distribu-
tion de Hardy-Weinberg. Cette distribution est atteinte dès la deuxième génération de panmixie chez les diploïdes.
Remarque importante : la panmixie n’est pas nécessaire à la constance des fréquences alléliques en l’ab-
sence de toute pression évolutive. L’écart à la panmixie peut néanmoins causer une variation des fréquences
génotypiques même si aucune pression n’agit. Voir un exemple en 5.1.1.
Cette distribution est notamment incompatible avec le sexe. Dans l’espèce humaine, il n’y a pas panmixie pour
le sexe (raison biologique), pour la couleur de peau (raison sociale et géographique) ou le groupe sanguin (raison
géographique).
Par ailleurs, la dispersion spatiale des descendants d’un individu est généralement faible. Des individus oc-cupant la même aire géographique sont fréquemment apparentés ; cela crée de la consanguinité au sein de la
population. La fréquence d’hétérozygotes est inférieure à 2 pq. Voir 5.
2.2.2 Choix phénotypiques
On parle de choix phénotypique (assortative mating) pour désigner la tendance d’un individu reproducteur à
choisir comme partenaire sexuel un individu présentant un phénotype similaire ( positive assortative mating) ou
dissimilaire (negative assortative mating) au sien.£ Homogamie : tendance à choisir des individus du même phénotype que soi. ex : chez les plantes, la date de
floraison. L’homogamie diminue l’hétérozygotie face à 2 pq.£ Hétérogamie : tendance à rechercher un partenaire de phénotype différent. ex : sexe, y compris les systèmes
sexuels de type auto-incompatibilité. Pour une auto-incompatibilité gamétophytique, le taux d’hétérozygotie
est de 100%. Il faut au moins 3 allèles S différents.L’homogamie est un phénomène pouvant conduire à une spéciation sympatrique (c’est-à-dire une spéciation sans
isolement géographique).
2.3 Pressions évolutives et diploïdie
2.3.1 Mutation, migration, dérive
Les équations décrivant mutation et migration ne sont pas modifiées. Pour la dérive, il y a une légère modifica-
Soit une population diploïde de taille N , panmictique, dans laquelle coexistent pour le locus étudié deux allèles,
A et a. On note W 1 la fitness des AA, W 2 la fitness des Aa et W 3 la fitness des aa. La population suit la distribution
de Hardy-Weinberg. On a :
p =p2W 1 + pqW 2
W
où :
W = p2W 1 + 2 pqW 2 + q2W 3
Par conséquent :
∆s p = p − p =p2W 1 + pqW 2
p2W 1 + 2 pqW 2 + q2W 3− p
p2W 1 + 2 pqW 2 + q2W 3
p2W 1 + 2 pqW 2 + q2W 3
=p p(1− p)W 1 + (q − 2 pq)W 2 − q2W 3
W
=pq
W [ pW 1 + (q − p)W 2 − qW 3] =
pq
W [ p(W 1 −W 2) + q(W 2 −W 3)]
∆s p =pq
W [ p(W 1 −W 2) + q(W 2 −W 3)]
3 Le polymorphisme
Comment expliquer que les individus d’une population (non-clonale) soient tous différents ?
3.1 Équilibre mutation-sélection chez les diploïdes
3.1.1 Calcul du fardeau génétique
On se place dans les mêmes conditions. On pose W 1 = 1, W 2 = 1 et W 3 = 1− s. On envisage donc le cas d’une
dominance de A sur a. 4
La fitness moyenne dans cette population vaut
W = p2 + 2 pq + q2(1−
s) = ( p + q)2
−sq2 = 1
−sq2
W = 1− sq2
On a alors, par le même calcul que pour les haploïdes :
p = p · 1− u
1− sq2
D’où
qeq = u
s
4. Dans le cas général, la valeur sélective d’un hétérozygote est posée égale à W 2 = 1 − hs où h est appelé coefficient de dominance.La situation de dominance est donc le cas h = 0 ou h = 1. La co-dominance est le cas h = 0, 5. La super-dominance, envisagée plus loin,correspond à h < 0.
subir la sélection et la population va évoluer vers les fréquences d’équilibre. La consanguinité n’est dangereuse
que dans une population qui vient de passer d’un régime allogame à un régime autogame.
Ainsi dans un génome haploïde d’individu diploïde, on estime qu’il y a environ 0,1% d’allèles létaux 5. Pour unhumain ça fait donc 40 à 60 gènes équivalents-létaux (sur les deux exemplaires du génome), et 20 à 30 par
gamète. On espère ainsi que le gamète complémentaire ne portera pas les mêmes allèles récessifs délétères.
D’où l’intérêt de ne pas faire des enfants avec sa sœur ou sa mère...
L’équilibre mutation sélection chez les diploïdes explique donc l’existence des maladies génétiques
et de certains autres polymorphismes. Mais cela n’explique pas la totalité du polymorphisme. En
particulier, l’équilibre mutation-sélection prévoit un allèle dominant à très haute fréquence et un allèle récessif
à basse fréquence. On parle de cryptopolymorphisme pour désigner le maintien de mutations désavantageuses
à une fréquence d’équilibre de mutation-sélection. La plupart des maladies génétiques humaines relèvent de
cryptopolymorphisme (exemple : phénylcétonurie, voir [2] pour un aspect historique très instructif.).
3.2 Polymorphisme vrai
3.2.1 Super-dominance
On a vu :
∆s p =pq
W [ p(W 1 −W 2) + q(W 2 −W 3)]
L’équilibre (non-trivial) n’est possible que si W 1−W 2 et W 2−W 3 ne sont pas de même signe. Cela se traduit bio-
logiquement par la super-dominance (over dominance) ou la sous-dominance (under dominance). Voir la figure
2.
La fréquence d’équilibre est alors :
peq =W 3 −W 2
W 1 + W 3 − 2W 2
£ Sous-dominance : l’équilibre est instable. Donc c’est une situation défavorisant l’hétérozygotie et pouvant
conduire à un isolement reproducteur. C’est un phénomène à l’origine de spéciations. Du point de vue compor-
temental, s’il existe un moyen pour l’animal de distinguer les différents génotypes, l’isolement reproducteur
sera prézygotique. Les AA se reproduisent entre eux, les aa aussi, les Aa sont mis à l’écart.5. Dans un génome humain haploïde, il y a entre 20 000 et 30 000 gènes. Il y a donc potentiellement 20 000 à 30 000 loci bialléliques
dont l’allèle récessif est létal. Un individu tiré au hasard dans une population à l’équilibre mutation-sélection a, pour un locus donné, uneprobabilité qeq ∼ 10−3 d’être porteur de l’allèle létal. Le nombre théorique d’allèles létaux dans le génome (haploïde) de cet individu estdonc de 20 à 30.
£ Super-dominance : au contraire, en cas de super-dominance, l’équilibre est stable et la distribution se main-
tient. Le cas d’école de la super-dominance est celui de la drépanocytose en Afrique.
On a constaté, assez tardivement, que les hétérozygotes AS 6 pour le gène de la globine ß étaient protégés
du paludisme. En Afrique, cela confère un avantage sélectif, d’autant que les AS présentent un phénotype
drépanocytaire atténué. La situation est la suivante :
AA AS SS
W 1− s 1 0
Fréquences 0, 7 0, 3 0
On en déduit les fréquences alléliques : p = 0, 85 et q = 0, 15 . A l’équilibre (supposé établi car les valeurs
mesurées sont stables) :
p(W 1–W 2)+q(W 2–W 3) = 0
−sp + q = 0
Ici : q−sp = 0 d’où s 0, 18.
Mais aux USA, où le paludisme est absent, il y a tout de même 12% d’AS dans la population afro-américaine.
Comment l’expliquer ?
Hypothèses : isolement reproducteur et panmixie pour la population afro-américaine.
AA AS SS
W 1 1 0
Fréquences 0, 88 0, 12 0
(on admet qu’aux USA les soins médicaux confèrent aux hétérozygotes une fitness égale à celle des homozygotes).
On a :
qt+1 =ptqt
p2t + 2 ptqt=
ptqt
1− q2t=
qt
1 + qt
On passe à l’inverse :1
qt+1= 1 +
1
qt
On reconnaît une suite arithmétique de raison 1 dont la forme explicite est :
1
qt=
1
q0+ t
où t est le nombre de générations. Soit
qt =q0
1 + q0t
Sans surprise, le modèle prévoit la disparition de l’allèle S au bout d’un grand nombre de générations. Aux USA,
on a qt = 0, 06 et q0 = 0, 15.
t =1
qt− 1
q0= 10
On trouve 10 générations écoulées depuis la disparition de la pression paludique, soit environ 300 ans en consi-dérant un temps de génération humain de 30 ans. Cela est globalement cohérent avec les données historiques.
Cet exemple illustre la puissance de la notion de super-dominance. Mais à part celui-ci, on en connaît très peu...
il est probable que, malgré la beauté du concept, l’importance réelle de la superdominance dans la nature soit
faible.
3.2.2 Sélection fréquence-dépendante
On a supposé que la fitness d’un génotype donné est constante. Cela peut ne pas être le cas et la fitness peut être
une fonction de la fréquence des génotypes. On pourra alors avoir de la sélection fréquence-dépendante. Si
le génotype rare est favorisé, on parle aussi de sélection apostatique.
Exemple fondamental : le sex ratio Considérons une population sexuée. Si l’un des sexes est beaucoup
moins fréquent que l’autre, chaque membre du sexe le plus rare aura plus de descendants en moyenne que les
membres du sexe le plus fréquent.
Dans une population de taille N , on note x la fréquence des mâles et 1
−x la fréquence des femelles. Soit
k le nombre moyen de descendants d’une femelle ; on a donc W f = k. Le nombre d’enfants produits par unegénération est donc N k(1− x). La fitness d’un mâle est le nombre moyen d’enfants par mâle; soit :
W m =N k(1− x)
N x= k
(1− x)
x
Soit encore :W m
W f =
1− x
x
A l’équilibre, c’est-à-dire lorsqu’il n’y a pas d’avantage à appartenir à un sexe ou à l’autre, on a donc x = 12
. Le
système chromosomique XY est une manière de réaliser cet équilibre.
Cependant, il existe des espèces (d’insectes par exemple) dans lesquelles le sex ratio à l’équilibre est fortementbiaisé.
Exemple fondamental : l’auto-incompatibilité gamétophytique (AIG) Pour le mécanisme de l’AIG, se
référer à un cours de biologie végétale.
Dans l’AIG, il y a rejet si l’allèle S exprimé par le grain de pollen (“étiquettes” présentes à la surface du tube
pollinique qui a commencé sa progression dans le style) est l’un des allèles S portés par le style. Avec ce système,
le taux d’hétérozygotie est de 100%. Il n’est viable que s’il existe au moins 3 allèles S différents.
Sélection fréquence-dépendante: l’exemple du jeu Hawk and Dove
Supposons ici une population théorique dont les membres sont en compétition pour une ressource rare qui est
le seul déterminant de la fitness. Supposons également que deux comportements (qui seront les phénotypes
possibles) coexistent: le faucon (hawk) et la colombe (dove). Notons x la proportion de faucons et y la proportion
de colombes. Les faucons sont agressifs alors que les colombes ne le sont pas. Lorsqu’un faucon rencontre unecolombe, il l’attaque et la colombe fuit. Cela induit une augmentation G de la fitness du faucon et ne modifie pas
la fitness de la colombe.
Si deux colombes se rencontrent, elles ne combattent pas et l’une d’entre elle abandonne les ressources à
l’autre. Une colombe donnée gagne en moyenne la moitié des rencontres colombe/colombe et donc toute ren-
contre colombe/colombe induit une augmentation 12
G de la fitness des colombes.
Si deux faucons se rencontrent, ils se battent. Chacun l’emporte en moyenne une fois sur deux. Par ailleurs les
deux faucons se partagent un coût C (blessures) et la fitness des faucons augmente donc de 12
(G− C ).
En termes de théorie des jeux, la matrice des gains (faucon, colombe) x (faucon, colombe) est:
G−C 2
G
0 G2
Le gain de fitness moyen d’un faucon est:
∆H = x · G− C
2+ y ·G
Le gain de fitness moyen d’une colombe est:
∆D = y · G
2
On suppose que seule la possession (ou non) de la ressource d’intérêt a une influence sur la fitness. Cela veut dire
qu’en l’absence du phénomène de compétition que nous étudions ici, faucons et colombes auraient exactement
la même fitness. Or on sait que la sélection agit sur des différences de fitness et non des fitnesses absolues. On
peut donc raisonner en terme de fitness et non de gain de fitness: ∆H est la fitness d’un faucon et ∆D la fitnessd’une colombe.
La fitness moyenne f de la population est donc:
f = x∆H + y∆D
Soit en développant:
f =G
2− Cx2
2
La fitness moyenne décroît donc quadratiquement avec la proportion de faucons.
On a comme précédemment a:
dx
dt = (∆H −f
)x
dydt
= (∆D − f )y
Pour connaître l’état de la population à l’équilibre, il faut étudier le cas où ∆H = ∆D = f . Le calcul b montre
que deux cas sont possibles:
1. Si G > C , le seul équilibre stable est x∗ = 1. La population est exclusivement faucon.
2. Si G < C , le seul équilibre stable est x∗ = GC . La fitness moyenne est alors:
f ∗ =G
2
1− G
C
or la fitness optimale serait f max =G2 .
Nous avons donc un cas où la fitness moyenne à l’équilibre n’est pas maximale. Autrement dit, la fitness moyenne
n’est pas ici un potentiel et le théorème de Fisher ne s’applique pas. C’est ce qui se passe en général.
a. En théorie des jeux, ces équations sont appelées équations du réplicateur.b. Il s’agit de la méthode classique d’étude de stabilité en théorie des systèmes dynamiques. Voir par exemple [8] pages 152 à 155.
FIGURE 4 – Mise en évidence du polymorphisme par électrophorèse de protéine
3.3 Le paradoxe du fardeau génétique
On a vu que le fardeau génétique est défini classiquement comme L = W max − W . On peut écrire :
N (t + 1) = N (t) pW A + (1 − p)N (t)W a = N (t)W = N (t) [W max − L] = N W max −N L
L mesure la perte d’efficacité reproductive (au niveau populationnel) venant du fait que toute la population n’est
pas porteuse du génotype à fitness maximale.
Lorsque les méthodes quantitatives de la génétique des populations ont commencé à être appliquées sur des cas
concrets, on imaginait que le génome d’une espèce était constitué d’une majorité de gènes communs à l’espèce
et quelques allèles présentant un polymorphisme (cryptopolymorphisme, polymorphisme transitoire...). Maisétudier un polymorphisme, c’est compliqué. Chez certaines espèces, il est facilement observable car il touche la
morphologie : phalène du bouleau, thym (odeurs), escargots (couleur de la coquille). A part cela, c’était difficile...
En 1966, R. Lewontin et J. Hubby développent une technique pour aller chercher la variabilité directement "à
la sortie des gènes". Le séquençage n’était pas encore au point, on a donc fait de l’électrophorèse des protéines.
L’électrophorèse se faisait sur gel d’amidon et l’on analysait un extrait protéique de drosophile (drosophile
écrasée sur du papier buvard). Certaines enzymes donnent un produit coloré. C’est elles que l’on a pu révéler en
premier (voir figure 4).
La génétique des populations transite alors vers la biochimie et la biologie moléculaire 7. On peut évaluer de
manière quantitative les proportions des différents allèles. On peut donc tester la loi de Hardy-Weinberg.
Exemple L’électrophorèse réalisée chez la Drosophile a permis d’identifier deux allèles pour l’enzyme donnant
le produit bleu, fast (F) et slow (S). Supposons que l’on ait la distribution génotypique suivante :
Génotype FF FS SS
Effectif 400 150 220 30
Soit p la fréquence de F, on a alors p = 0, 65 et q = 0, 35. Pour tester l’adéquation à la loi de Hardy-Weinberg, onréalise un test du χ2. On a :
7. Ce qui, d’après Lewontin [5], cause un appauvrissement des questions posées par les biologistes de l’Évolution, qui se restreignentaux sujets pouvant être étudiés par les analyses moléculaires de variabilité.
On réalise un test de conformité et on a estimé un paramètre de la loi théorique; il y a donc un degré de
liberté. La distance calculée vaut 17, 44. On compare avec la valeur donnée dans les tables : 3, 84. La distribution
phénotypique ne suit donc clairement pas la loi de Hardy-Weinberg (avec un risque d’erreur de 5%).
Une grande proportion des gènes sont variables : pour la plupart des espèces, entre un tiers et la moitié, sauf
chez les populations provenant d’un pool initial peu diversifié (lapin d’Australie) ou les espèces en voie d’extinc-
tion (guêpard). Chez l’Humain, il y a donc environ 10 000 gènes polymorphes. En supposant que chaque gène
polymorphe n’admet que deux allèles, il y a donc 210000 104000 génomes haploïdes possibles... c’est de très très
très loin supérieur au nombre d’atomes dans l’Univers (de l’ordre de 1081
, on est donc bien loin du compte...).C’est pour cela qu’il est absolument impensable d’avoir par hasard deux individus absolument identiques. Tout
génotype existant était totalement improbable avant d’exister.
La conclusion des nombreux travaux qui ont alors analysé les populations naturelles est que celles-ci sont très
polymorphes.
Un tel polymorphisme soulève un paradoxe : l’existence d’un polymorphisme suppose a priori l’existence d’un
fardeau génétique qui aurait du être éliminé par la sélection.
4 La théorie neutraliste de l’Évolution4.1 Présentation de la théorie
Plusieurs théoriciens, avec en tête de file le japonais Motoo Kimura, ont proposé la solution suivante au paradoxe
du fardeau génétique : il suffit que ce polymorphisme ne donne pas prise à la sélection, c’est-à-dire qu’il soit
neutre, pour n’entraîner aucun fardeau génétique. Kimura avance que la majorité du polymorphisme observé
est neutre, donnant naissance à la théorie neutraliste de l’Évolution. Dans cette théorie, qui au départ
est vue par ses fondateurs comme une véritable alternative au néodarwinisme, mutation et dérive sont les
pressions évolutives fondamentales et la sélection n’a qu’un rôle nul ou négligeable. Naît une controverse entre
neutralistes et sélectionnistes8
: les sélectionnistes objectent qu’une telle théorie prévoit justement de ne pasobserver de polymorphisme, ou très peu, puisque les différents allèles doivent être fixés. Pour Kimura, la vitesse
de fixation est inférieure à la vitesse de mutation, ce qui maintient le polymorphisme (figure 5).
On appelle transition l’intervalle de temps au cours duquel l’allèle le plus ancien est remplacé par un nouvel
allèle le plus ancien. La fréquence de mutation et la durée moyenne de fixation sont alors les grandeurs im-
portantes. Si les transitions sont rapides et peu fréquentes, la population est peu polymorphe. Pour calculer le
temps de fixation d’un allèle, Kimura a initialement utilisé une approximation de diffusion [3].
8. Bien résumée dans le livre de S. Samadi et P. David [4].
FIGURE 5 – Schéma de base de la théorie neutraliste : fixation ou disparition d’allèles nouveaux.
4.2 La théorie de la coalescence
L’approche moderne est plutôt de considérer que suivre la dérive, c’est suivre une généalogie de gènes. On utilise
la théorie de la coalescence pour calculer le nombre de générations nécessaires pour avoir coalescence de deux
lignées, et in fine coalescence de toutes les lignées, ce qui permet de retrouver le temps de fixation d’un allèle(figure 6). La coalescence est une vision rétrospective de la dérive par fusion de lignées au niveau d’ancêtres
communs quand on remonte dans le temps.
4.2.1 Modèle de Wright-Fisher
On part d’une population de N gènes (2N pour une population diploïde) à la génération 0. Attention, en coa-
lescence, l’axe du temps est inversé : la génération t est celle qui précède la génération t
−1. La population est
supposée de taille constante au cours du temps, les générations non chevauchantes, il n’y a pas de sélection etle régime panmictique s’applique : ce sont les hypothèses du modèle de Wright-Fisher.
4.2.2 Identité par ascendance et temps de coalescence
Quelle est la probabilité que deux gènes tirés au hasard partagent un même gène ancêtre à la génération
précédente ? Cette probabilité, appelée probabilité d’identité par ascendance, et notée P(T 2 = 1), vaut1
N (res-
pectivement1
2N pour des diploïdes). Le nombre de générations qu’il faut remonter pour avoir coalescence de
On réalise une décomposition en éléments simples en cherchant A et B tels que
A
k+
B
k − 1=
A(k − 1) + Bk
k(k − 1)=
(A + B)k −A
k(k − 1)=
1
k(k − 1)
soit A + B = 0 et A =
−1 d’où
1k(k − 1)
= 1k − 1
− 1k
On a donc une somme téléscopique :
N k=2
1
k(k − 1)=N −1j=1
1
j−N k=2
1
k= 1− 1
N
et donc :
E(T MRCA) = 2N
1− 1
N
2N
Le temps moyen de coalescence des N lignées est donc de 2N : cela correspond au temps de fixation d’un allèle
dans la population. Un nouvel allèle met donc en moyenne 2N générations ( 4N dans le cas diploïde) à se fixer
dans la population.
4.3 Prise en compte de la mutation
On introduit maintenant dans notre modèle un taux u de mutation par locus et par génération. A chaque
génération apparaissent donc N u mutations dans la population. La probabilité de fixation d’un nouvel allèle est1
N
; le taux de substitution (nombre de mutants atteignant la fixation par unité de temps) vaut donc N u
·1N = u,
il est égal au taux de mutation et ne dépend pas de la taille de la population. 9
Toutes les1
ugénérations environ apparaît une mutation qui se fixera. On peut alors définir le paramètre mu-
tationnel de la population, noté θ, comme le rapport du temps de fixation et du temps d’attente d’une mutation
qui se fixera :
θ =T fixation
T mutation= 4N u (2N u pour des haploïdes)
θ mesure la diversité génétique de la population : si θ 1, le temps de fixation est plus important que le temps
d’attente d’une mutation et on observera du polymorphisme. C’est le cas dans les grandes populations. Ceci est
illustré sur la figure 5.
4.4 Neutralistes contre sélectionnistes
Kimura distingue les mutations létales et les mutations neutres. Il néglige les mutations qui ne sont ni létales
ni neutres, par des arguments statistiques. Kimura l’emporte en 1985. Il a prédit que le taux d’apparition de
mutations est constant au cours du temps. Or on observe que la vitesse d’évolution du gène de l’hémoglobine
alpha est constante au cours du temps : le taux de divergence est globalement proportionnel au temps écoulé
depuis la divergence. Second argument : Kimura a prédit ce qu’on trouverait le jour où on saurait séquencer de
l’ADN. Il a annoncé que, puisque le polymorphisme est essentiellement neutre, le polymorphisme se concentrerasur les troisièmes bases de codons. L’argument est décisif. En effet, la théorie sélectionniste prédit un résultat
9. Dans une petite population apparaissent peu de nouveaux variants alléliques, mais ces derniers ont une probabilité élevée de se fixer ;dans une grande population, il apparaît plus de nouveaux allèles mais leur probabilité de fixation est comparativement plus faible.
inverse : si la sélection est le processus principal, ce sont les structures qui ne donnent pas prise à la sélection
qui doivent être les moins variables. Le séquençage a donné raison à Kimura. Toute la base théorique de la
phylogénétique moléculaire, permettant l’interprétation de l’évolution des séquences génétiques, est la théorie
de Kimura.
Néanmoins, la sélection n’est pas incompatible avec la théorie neutraliste et aujourd’hui la plupart des bio-logistes de l’Évolution reconnaissent l’existence de phénomènes sélectifs, sans en exagérer l’importance. La
présence de sélection sur un allèle a pour effet de biaiser la probabilité et le temps de fixation. Le modèle neutre
fournit alors un cas de référence par rapport auquel caractériser la sélection sur locus donné. C’est le principe
des tests de détection de la sélection.
4.5 Mettre en évidence la sélection dans une population soumise à la dérive
La sélection peut avantager un allèle (sélection positive) ou désavantager un allèle (sélection purifiante).
£ Si un locus est soumis à la sélection purifiante, on attend (par rapport au cas de référence neutre) :
– Un taux de substitution plus faible– Un polymorphisme plus faible
– Des fréquences alléliques plus faibles (des nouveaux allèles)
£ Si un locus est soumis à la sélection positive, on attend :
– Un taux de substitution plus élevé
– Un polymorphisme plus faible
– Des fréquences alléliques plus élevées
On recherche la sélection positive dans les régions codantes du génome.
4.5.1 Méthodes basées sur la divergence interspécifique
Par exemple, on considère un gène de l’Homme et son orthologue chez le Chimpanzé, et on mesure les taux de
substitution pour les sites synonymes 10 et les sites non-synonymes. La sélection agit (presque) uniquement sur
les sites non-synonymes. On mesure :
£ dS , taux de substitution sur les sites synonymes
£ dNS , taux de substitution sur les sites non-synonymes
£ On calcule ω = dNSdS
.
– Si ω 1, neutralité.
– Si ω < 1, sélection purifiante.
– Si ω >1
, sélection positive.
Cette méthode a permis de montrer que les gènes soumis à sélection positive sont notamment :
£ les gènes de l’immunité
£ les gènes impliqués dans l’olfaction, la perception sensorielle
£ les gènes impliqués dans la spermatogénèse
£ les gènes impliqués dans l’inhibition de l’apoptose (avantage : assure de ne pas être le globule polaire qui
– Aspects techniques : les différents types de mutations ne sont pas équiprobables; cela nécessite de com-
plexifier les modèles. Elle ne fonctionne que sur les séquences codantes.10. Mais, avec le biais d’usage du code, est-ce que ça existe vraiment un site synonyme?
– Aspects fondamentaux : il s’agit d’une méthode “statistique” au sens où elle est basée sur la comparaison
de plusieurs sites. Donc si la sélection n’agit que sur un seul acide aminé, on ne verra rien. Il faut que la
sélection ait agi longtemps pour avoir un signal observable.C’est une méthode spécifique (fiable : elle détecte uniquement de la sélection), mais peu puissante (ne détecte
pas toujours la sélection).
4.5.2 Méthodes basées sur le polymorphisme intraspécifique
Dans ces méthodes, l’hypothèse nulle est le modèle de Wright-Fisher (uniquement des mutations neutres et de
la dérive). Si on constate un écart au modèle, on peut parfois en inférer de la sélection.
4.5.3 Méthodes associant les deux approches
£ Test HKA (Hudson, Kreitman, Aguadé - 1987)
Le polymorphisme intraspécifique est caractérisé par le paramètre mutationnel de la population : θ = 4N u . La
divergence interspécifique peut se quantifier par D = 2uT où T est le temps écoulé depuis la divergence. Sousl’hypothèse de neutralité, θ et D sont corrélés :
r =θ
D=
2N
T
Cette grandeur doit être la même pour tous les loci. Le principe du test est alors de comparer le ratio r du locus
d’intérêt avec le ratio d’un locus que l’on sait être neutre (figure 7).
FIGURE 7 – Test HKA pour deux espèces A et B
£ Test de McDonald-Kreitman
Ce test suit le même principe que le test HKA mais n’utilise qu’un seul locus; les sites synonymes sont pris
comme référence. Sous le modèle neutre, on attend :
θS
θNS=
4N uS
4N uNS=
2T uS
2T uNS=
DS
DNS
SiθS
θNS DS
DNS, on est en situation de sélection positive, car la sélection accélère la fixation de mutations non-
synonymes. SiθS
θNS DS
DNS, on est en situation de sélection purifiante car la sélection ralentit la fixation des
On peut définir deux indicateurs pour étudier le polymorphisme d’un locus.
Premièrement, on peut, disposant de plusieurs séquences provenant d’individus différents et correctement ali-
gnées, réaliser toutes les comparaisons de paire possibles et en déduire le nombre moyen de différences par site
entre deux séquences. Cet indicateur ne dépend pas du nombre de séquences et est noté θπ. Il est peu sensible
à la fréquence des allèles rares.
Deuxièmement, on peut compter le nombre de sites polymorphes ; il est potentiellement d’autant plus grand que
notre échantillon compte de séquences. On obtient ainsi un indicateur noté θS . Il est sensible à la fréquence des
allèles rares.
Considérons un échantillon de n séquences alignées, de longueur L (en pb).
£ On note π le nombre moyen de nucléotides différents par site entre deux séquences de l’échan-
tillon. Établissons l’expression de π. Il y a
n
2
=
n(n− 1)
2alignements de paires possibles.
On note Πij le nombre total de différences entre la ieme et la jeme séquence. On a alors :
π =1
n(n−1)2
· 1
L·i<j
Πij
π est appelé la diversité nucléotidique. On a θπ = π.£ Notons S le nombre total de sites polymorphes (segregating sites). Watterson a montré que E (S ) =
Lθan où an =n−1i=1
1
i. Donc θS = S
Lanest un estimateur de θ. [12]
Fumoi Tajima a montré que ces deux indicateurs sont des estimateurs de θ et qu’ils en donnent une estimation
très similaire en cas de neutralité. Il a alors défini la statistique D (Tajima’s D) comme :
D =θπ − θS
Var(θπ − θS)
En cas d’excès de variants rares, on aura D < 0. Ce type de situation se produit lorsque le locus considéré asubi un balayage sélectif (voir 4.7.3) dans un passé relativement proche, ce qui permet de le mettre en évidence.
Néanmoins, on retrouve le même type de signature si la population a subi récemment une phase d’expansion
démographique. La dynamique de la population peut venir “parasiter” l’interprétation des données et conduire
à détecter de la sélection là où il n’y en a pas. Pour éviter cela, il faut se souvenir que la sélection n’affecte que
certains locus alors que la démographie touche l’ensemble du génome.
De même, en cas d’excès de variants de fréquence intermédiaire, on aura D > 0. C’est le cas si le locus est soumis
à la sélection balancée, ou si la population a subi un bottleneck partiel (laissant plusieurs variants).
4.6 Fixation d’allèles soumis à la sélectionEn 1962, Kimura a utilisé l’approximation de diffusion pour estimer la probabilité de fixation d’allèles présen-
tant un avantage sélectif (algébrique) s. Le détail des calculs peut être trouvé dans [3]. Le résultat principal est
La recombinaison tend à faire disparaître le déséquilibre gamétique au cours des générations.
4.7.2 Effet Hill-Robertson
On appelle effet Hill-Robertson ([6]) la réduction globale de l’efficacité de la sélection lorsque celle-ci s’ap-
plique sur plus d’un locus. Considérons une population diploïde et intéressons nous à deux loci sur le même
chromosome, notés α et β. Initialement, toute la population présente les mêmes allèles à ces loci ; nous noterons
respectivement a et b ces allèles. Supposons qu’apparaisse, par mutation, un allèle A au locus α conférant unavantage sélectif à son porteur. Cet allèle doit augmenter en fréquence jusqu’à se fixer. Supposons maintenant
qu’apparaisse chez un autre individu un allèle B conférant à son porteur un avantage sélectif comparable à
celui apporté par A. Il va alors y avoir compétition entre les deux allèles pour la fixation : il y a interférence
de Hill-Robertson entre les deux allèles, et on peut montrer que cela a pour conséquence d’augmenter le temps
moyen de fixation.
Dans le même ordre d’idée, des allèles neutres ou légèrement délétères peuvent voir leur fréquence augmenter
par déséquilibre de liaison avec un allèle positivement sélectionné.
De manière générale, l’effet Hill-Robertson décrit comment l’existence d’un déséquilibre gamétique
entre des sites soumis à la sélection va réduire l’efficacité globale de la sélection dans une popula-tion de taille finie.
La recombinaison (et donc par extension la sexualité) permet d’éviter l’interférence de Hill-Robertson
en brisant la liaison entre les loci.
Raisonnons maintenant sur 3 loci. Il y a 23 = 8 haplotypes possibles et
3
2
= 3 déséquilibres d’ordre 1
possibles. Mais apparait également une éventuelle interaction entre les 3 loci, que nous appellerons déséquilibre
de liaison d’ordre 2 (ddl 2).
11. Considérons un ensemble de n cellules germinales, à une seule paire de chromosomes, entrant en prophase I de méiose.Il y a donc en tout 2n chromosomes et donc n évènements de recombinaison au maximum (dans chaque cellule, 0 ou 1 recom-binaison possible). Les n cellules germinales donnent 4n gamètes parmi lesquels jusqu’à 2n portent un chromosome recombiné ;
1200 ans correspondent à environ 40 générations, donc on s’attend à trouver 240 ancêtres à cette époque, soit
environ 1012 personnes (ce qui est déjà près de 100 à 1000 fois plus que la population humaine actuelle). La
population humaine à l’époque était de quelques millions d’individus. Ceci démontre que chaque humain est
consanguin ; on parle de consanguinité diffuse.
5.1 Régimes de reproduction et consanguinité
Une population diploïde panmictique à l’équilibre de Hardy-Weinberg n’est pas consanguine. La consanguinité
provient de la taille finie des populations (voir le calcul du nombre d’ancêtres, celui-ci augmentant exponentiel-
lement à mesure que l’on remonte les générations) et de la réalisation de régimes de reproduction favorisant la
reproduction entre apparentés.
5.1.1 Autofécondation complète
On considère une espèce de plantes se reproduisant par autofécondation. Pour un locus biallélique donné, pré-sentant les variants A et a, on appelle D(t) la proportion d’homozygotes AA à la génération t, H (t) la proportion
d’hétérozygotes et R(t) la proportion d’homozygotes aa. On a bien sûr D(t) + H (t) + R(t) = 1.
L’autofécondation complète conduit à :
D(t + 1) = D(t) + 14
H (t)
H (t + 1) = 12
H (t)
R(t + 1) = R(t) + 14
H (t)
Ce système conduit donc à une disparition des hétérozygotes ; D tend vers p, la fréquence de A dans la popula-
tion, et R vers q, fréquence de a.
5.1.2 Autofécondation partielle
Supposons maintenant que l’espèce étudiée se reproduise par autofécondation avec un taux s et par allofécon-
dation panmictique avec un taux 1− s .
L’autofécondation va avoir pour conséquence un déficit en hétérozygotes (par rapport à ce qui est attendu sous la
distribution de Hardy-Weinberg). On pose :
H obs = 2 pq(1− F IS ) et H expected = H e = 2 pq
où p est la fréquence de l’allèle A et q la fréquence de a. On modifie les équations précédentes en ajoutant les
termes correspondant à l’allofécondation panmictique :
FIGURE 11 – Modèle en îles de Wright (schéma d’après F. Austerlitz)
A l’équilibre :
f
12N
2u + 2m +12N
=1
4N m + 4N u + 1
Par ailleurs, on a
F ST = 1− H S
H T = 1− H par hypothèse.
F ST 1
4N m + 4N u + 1
En général, on a u m et donc :
F ST
1
4N m + 1
Cette formule établie par Wright permet, par mesure de F ST , de déterminer N m (et donc de remonter au taux
de migration si on dispose de la taille de la population).
Supposons que seul un individu migre par génération (N m = 1). On aura alors F ST = 0, 2 ; un faible taux de
migrants est suffisant pour empêcher la différenciation des populations (qui correspondrait à F ST = 1) : la
migration est une force évolutive homogénéisante, comme on l’avait envisagé au 1.4.
F ST diminue avec N ; les populations de petites tailles tendent à se différencier sous l’effet de la dérive génétique.
La formule doit cependant être considérée avec précautions, à cause des hypothèses assez fortes du modèle. En
particulier, ce modèle ne tient aucun compte de la géographie, ce qui n’est pas du tout réaliste. Il existe d’autresmodèles prenant en compte une géographie simplifiée (comme les modèles stepping-stone) mais leur analyse est
5.5.2 Généralisation aux différents types d’hérédité
Le mode de transmission d’un gène est différent selon qu’il est porté par un autosome, un chromosome sexuel
ou un chromosome d’organite (mitochondrie ou chloroplaste).
A titre d’exemple, on a :
F (ADNmt)ST 1
2N f mf + 1
et
F (Y )ST
1
2N mmm + 1
Dans l’espèce humaine, on trouve généralement, au sein d’une même population, un F ST plus fort pour le chro-
mosome Y que l’ADN mitochondrial, indiquant un taux de migration des femmes plus important. Cela est relié
au fait que la patrilocalité est généralement la règle en cas de mariage entre sous-populations (patrilocalité : la
femme rejoint le foyer de son nouveau mari).
Cas des plantes Chez les plantes il y a deux possibilités de migration, par les graines (taux mS) et par le
pollen (taux mP ). On a alors :
£ Gène nucléaire : F (n)ST =
1
4N (mS + mP
2 )
£ Gène cytoplasmique à hérédité maternelle : F (m)ST =
1
1 + 2N mS
£ Gène cytoplasmique à hérédité paternelle : F (f )ST =
1
1 + 2N (mS + mP )
La mesure des F ST permet ainsi de calculer le ratio de migration pollen/graine.
Conclusion
La génétique des populations a un statut à part au sein de la biologie car il s’agit d’une discipline reposant sur
un formalisme mathématique plus développé que la majorité des autres domaines des sciences de la Vie. Elle
fournit le cadre théorique nécessaire à une formalisation de la théorie de l’Évolution et à une interprétation des
données de la génétique quantitative. Nous avons vu comment décrire les différentes pressions évolutives, et es-
quissé les raisonnements à la base des approches modernes de la dérive génétique. Par définition, l’influence de
la dérive sur la composition génétique d’une population est d’autant plus faible que cette dernière est grande. La
grande taille des populations naturelles peut donc laisser penser que la dérive est une force évolutive d’intensiténégligeable dès lors que l’on considère par exemple des espèces entières.
On peut néanmoins remarquer que, du point de vue évolutif, les seuls individus dont il faut tenir compte sont
ceux qui se reproduisent effectivement. La grandeur démographique sur laquelle raisonner devrait donc plutôt
être le nombre d’individus qui se reproduisent (breeding population size). Cependant, ce nombre ne prend pas
forcément en compte tous les facteurs pouvant influencer la composition de la population à la génération sui-
vante (par exemple, le sex-ratio au sein de la population reproductrice). C’est pour cela que les biologistes de
l’Évolution ont élaboré le concept de taille efficace de population ( effective population size).
On appelle taille de population efficace N e d’une population de taille totale N l’effectif d’une population idéalisée
(i.e. suivant le modèle de Wright-Fisher) qui présenterait la “même quantité de dérive”, ce qui peut admettreplusieurs définitions : même coefficient de consanguinité, même variance des fréquences alléliques...
[5] La Triple Hélice, Richard C. Lewontin, 2000, Éditions Seuil - Collection Science Ouverte.
[6] The Hill–Robertson effect : evolutionary consequences of weak selection and linkage in finite popu-
lations, J.M. Comeron, A. Williford & R.M. Kliman, 2008, Heredity.
[7] Un document en ligne sur les F-statistics : http ://www.library.auckland.ac.nz/subject-
guides/bio/pdfs/733Pop-g-stats2.pdf
[8] Modélisation Mathématique en Écologie, P. Auger, C. Lett, J.C. Poggiale, 2010, Dunod / IRD Édi-
tions.
[9] Genetics of Populations, P.W. Hedrick, 2011, Jones & Bartlett Learning.
[10] Population Genetics, a concise guide, J.H. Gillespie, 1998, The Johns Hopkins University Press.[11] Génétique statistique, S. Morgenthaler, 2008, Springer.
[12] Computational Molecular Evolution, Z. Yang, 2006, Oxford Series in Ecology and Evolution.
[13] Non-adaptive Origins Of Interactome Complexity, A. Fernandez & M. Lynch, 2011, Nature.
Enseignants
Le présent cours est basé sur les interventions des enseignants suivants que nous remercions chaleureusement :
F. Austerlitz E. BaudryR. Chaix F. Depaulis
C. Dillmann J. Fiévet
P.H. Gouyon E. Heyer
M. Lässig D. Manicacci
L. Schibler D. de Vienne
Toute erreur, imprécision ou autre serait bien entendu de notre fait exclusif...
Ce matin (23/10/11, date de sortie de la première version) le XV de France n’est pas passé loin d’une victoire face aux All Blacks en finale
de la Coupe du Monde de Rugby. C’est triste. Je tenais à le préciser.