Cours DeriveMigrationMetapopFstat ENS 2009 PDF
Cours DeriveMigrationMetapopFstat ENS 2009 PDF
Cours DeriveMigrationMetapopFstat ENS 2009 PDF
• A l’intérieur même
des individus
• Entre individus
Zea mais Cepea nemoralis
Répartition de la variabilité génétique
Variation entre sous-populations
Marsilea strigosa
Arabidopsis thaliana
• Extension d’amorce
(mini-séquençage)
• Ligation Allèle
Spécifique
• …
Les marqueurs génétiques
• Projet HapMap : bâtir une carte haplotypique
du génome humain pour décrire la distribution
du polymorphisme sur l’ensemble du génome
Appariement
• En l’absence de
sélection et de
mutation, les
Stade fréquences
Diploïde
(2N)
Stade alléliques parmi les
Haploïde
AA Aa aa
(N)
gamètes sont égales
D[t] H[t] H[t] aux fréquences
alléliques parmi les
p[t]
q[t]
p[t]
q[t]
adultes qui les ont
produits
Méiose
Rappel :
Evolution des fréquences alléliques et
génotypiques dans une population diploïde
Hypothèses: panmixie, pas de mutation, pas de sélection,
population de taille infinie
Gamètes femelles
• Appariement au
hasard des gamètes A a
p[t] q[t]
• Proportions de
Gamètes mâles
A AA Aa
Hardy-Weinberg p[t] p[t]2 p[t]q[t]
AA D[t+1] = p[t]2 a aA aa
q[t] q[t]p[t] q[t]2
Aa H[t+1] = 2 p[t] q[t]
aa R[t+1] = q[t]2
Rappel :
Evolution des fréquences alléliques et
génotypiques dans une population diploïde
Loi de Hardy-Weinberg
Conclusions :
• les proportions de Hardy-Weinberg (fréquences génotypiques
à l'équilibre en fonction des fréquences alléliques, p², 2pq, q²)
sont atteintes en une génération pour une espèce diploïde
De plus
p[t+1] = D[t+1] + H[t+1]/2 = p[t]2 + p[t]q[t] = p[t] ( p[t] + q[t] ) = p[t]
q[t+1] = R[t+1] + H[t+1]/2 = q[t]2 + p[t]q[t] = q[t] ( q[t] + p[t] ) = q[t]
AA Np2 N1
Aa 2Npq N2
aa Nq2 N3
En autofécondation totale :
AA D[t] Gamètes femelles
Aa H[t]
aa R[t] A a
Gamètes mâles
• Chacun des H[t]
A AA Aa
individus hétérozygotes
a 50% d’individus
aA aa
hétérozygotes dans sa a
descendance
Ecarts à Hardy Weinberg
Evolution des fréquences génotypiques : effet du
régime de reproduction
aa 100% aa
On a donc :
Puisque
AA p
Aa 0
aa q
Ecarts à Hardy Weinberg
Evolution des fréquences génotypiques : effet du
régime de reproduction
En autofécondation partielle (chaque individus produit un taux s de
descendants en autofécondation et (1 - s) en allofécondation), on s'attend
à un déficit en hétérozygote par rapport aux proportions d'Hardy-
Weinberg :
On définit FIS tel que Hobs = 2pq ( 1-FIS ) → FIS = 1 – Hobs / 2pq
AA p²+pqFIS
Aa 2pq(1-FIS)
aa q²+pqFIS
Ecarts à Hardy Weinberg
Evolution des fréquences génotypiques : effet du
régime de reproduction
En autofécondation partielle (chaque individus produit des
descendant en autofécondation avec un taux s et le reste (1 - s) en
allofécondation) :
A l’équilibre
H = s H / 2 + (1 - s) 2pq
H = 2pq (1 – s) / (1 - s / 2)
D’où :
Ecarts à Hardy Weinberg
Evolution des fréquences génotypiques : effet du
régime de reproduction
En autofécondation partielle : quel est la relation entre le FIS et
le taux d'autofécondation s?
Si s = 0 (panmixie) FIS = 0
Si s = 1 (autogamie complète) FIS = 1
Ecarts à Hardy Weinberg
Evolution des fréquences génotypiques : effet du
régime de reproduction
• Le FIS mesure l'écart à la panmixie (déficit d'hétérozygote) dû à
la consanguinité du régime de reproduction au sein d'une
population
la sélection naturelle
Evolution des fréquences alléliques dans les
population naturelles
la sélection naturelle
La mutation
• A l’équilibre ?
La mutation
• Taux de mutation de A vers a : µ
• Taux de mutation de a vers A : ν
• Si p[t] est la fréquence de A au temps t, alors à la
génération suivante, après la méiose, en l’absence de
sélection :
• p[t+1] = (1 - µ)p[t] + ν q[t]
• q[t+1] = (1 - ν)q[t] + µ p[t]
• A l’équilibre :
La mutation
0,5
La mutation
• Quelle est la fréquence d’équilibre lorsque µ = ν = 10-6 ➡ 0.5
1.15×106 générations !!
la sélection naturelle
Évolution en populations
finies
• On a supposé que les populations ont une taille infinie
Le modèle de
Wright-Fisher
• En l’absence de mutation et de
sélection, les fréquences
alléliques dérivent (augmentent
et diminuent) inévitablement
jusqu’à la fixation d’un allèle
t+1
t+1
N = 20
N = 40
N = 60
N = 80
N = 100
N = 200
N = 500
N = 1000
Dérive et consanguinité
• Puisque l’homozygotie augmente, l’hétérozygotie diminue.
N = 1000
• A l’équilibre :
• Quelle est la probabilité de 2 gènes pris au hasard aient le même gène parent?
• Ils doivent appartenir a 2 individus différents (sinon ils viennent d’un male et d’une
femelle)
• Prob = (N-1)/N
• Parmi les paires de gènes appartenant à 2 individus différents, ¼ de ces paires
proviennent de 2 gènes parents présents chez un male à la génération précédente,
¼ à des femelles, le reste provient d’un male et d’une femelle.
• Prob = (N-1)/N*(1/4 + 1/4)
• Ils ont ensuite les probabilités respectives 1/Nm et 1/Nf de provenir d’un même
individus parmi les males et femelles respectivement.
• Prob = (N-1)/N*(1/(4Nm) + 1/(4Nf))
• Et enfin une probabilité ½ d’avoir le même gène parent :
• Prob = (N-1)/N*(1/(8Nm) + 1/(8Nf))
• En considérant N suffisamment grand, on a donc Prob = 1/8 *(Nm + Nf)/NmNf
Effectif efficace : sexe-ratio
• Par analogie avec la consanguinité dans une population de Wright-
Fisher donnée par 1/(2N), on définie la taille efficace d’une
population avec un sexe-ratio déséquilibrée comme le double de la
moyenne harmonique des tailles de population de chaque sexe :
• 4 fois plus faible que sur les autosomes pour un sexe-ratio équilibré
Succès reproducteur
• Ne dépend du nombre d’adultes reproducteurs mais aussi de la
variance du nombre de descendants :
• Sur T générations, on a :
Avant El Niño (1996-97) : 24 481 individus (10 720 femelles, 2 903 mâles)
nA = 7
He = 0.75
• A l’équilibre :
Dérive et mutation
• Puisque :
• On a :
Motoo Kimura
L’horloge moléculaire
• En comparant les gènes de l’α-globine chez des vertébrés,
Motoo Kimura (1983) a montré que le nombre de différences
(substitutions nucléotidiques) entre paires d’espèces vérifie
cette prédiction
(Données : BRCA 1)
(Dickerson 1971)
Evolution des fréquences alléliques en populations
naturelles
la sélection naturelle
La migration
populations de taille N
migration, m
m
(1 – m)
m
Pool génique Si l’on part de p[0], au bout de
t générations :
m (1 – m)
La migration
Fréquences observées .
pAA = 9 / 16 = 0.5625 pAA = 1 / 16 = 0.0625
pAa = 6 / 16 = 0.375 pAa = 6 / 16 = 0.375
paa = 1 / 16 = 0.0625 paa = 9 / 16 = 0.5625
Fréquences attendues .
pAA = 0.75² = 0.5625 pAA = 0.25² = 0.0625
pAa = 2*0.75*0.25 = 0.375 pAa = 2*0.75*0.25 = 0.375
paa = 0.25² = 0.0625 paa = 0.75² = 0.5625
Mélanges de population panmictiques : l'effet
wahlund (Rappel)
Analyse des 2 population regroupées
Aa aa
AA AA aa aa
pA=0.5 AA AaAA Aa Aa AaAA Aa
AA aa AA Aa aa aa aa Aa
pa=0.5 AA Aa Aa aa Aa Aa
AA aa
AA aa
Fréquences observées
On observe un déficit d'hétérozygote (et donc un
pAA = 10 / 32 = 0.3125 excés d'homozygote) par rapport à l'équilibre de
pAa = 12 / 32 = 0.375 Hardy-Weinberg : c'est l'effet Walhund (1923)
paa = 10 / 32 = 0.3125
Fréquences attendues Un mélange de population (sous-populations)
pAA = 0.5² = 0.25 panmictiques n'est pas une population panmictique à
pAa = 2*0.5*0.5 = 0.5 cause de l'effet de la structuration et des flux de
gènes (migration entre populations) limités
paa = 0.5² = 0. 25
Formalisation de l'analyse de populations
subdivisées (i.e. structurées)
Considérons n populations panmictiques et un locus bi-allélique
avec Fréq[A]=pi, et Fréq[a]=qi dans chaque population i
aa q i2
aa E(qi2)
Formalisation de l'analyse de populations
subdivisées (i.e. structurées)
aa q2
aa q2
Ho = 2pq ( 1 – 2Var(p)/2pq)
AA pi²+piqiFIS i
Aa 2piqi (1-FIS i)
aa qi²+piqiFIS i
AA E[ pi²+piqiFIS i ]
Aa E[ 2piqi (1-FIS i) ]
aa E[ qi²+piqiFIS i ]
Formalisation de l'analyse de populations
subdivisées (i.e. structurées)
On suppose l'indépendance entre FISi et pi, on a alors
On a donc
Ho = Freq[Aa] = 2pq(1-FST)(1-FIS) ]
AA p²+pq(FIS+FST+FISFST)
Aa 2pq (1-FIS) (1-FST)
aa q²+pq(FIS+FST+FISFST)
Formalisation de l'analyse de populations
subdivisées (i.e. structurées)
FST est donc :
1. le déficit en hétérozygote du aux échanges limités par flux de
gènes/migration entre différentes populations (i.e. l'écart a la
panmixie entre les populations)
2. la variance des fréquences alléliques entre populations crée par
la dérive et ou la migration faible, standardisées par la variance
maximale
3. la proportion de la variance totale qui se trouve entre
populations
FST mesure donc la différenciation entre les populations
Q1
pop1 pop2
Probabilités d'identités et F-statistiques
On défini la relations entre F-statistiques et probabilités d'identités :
Q0 Q2
Q1
Calcul des Probabilités d'identités : formules de
récurrences
On cherche a calculer l'évolution des probabilités d'identités dans
le temps en fonction des paramètres démo-génétiques du modèle
(e.g. migration, mutation, tailles de pops), afin d'en prendre ensuite
les valeurs à l'équilibre.
On cherche donc a résoudre le système d'équation de récurrence
suivant :
Étape
2
:
on
regarde
d’où
ils
viennent
à
la
génération
précédente
:
a
≡ Probabilité
que
2
gènes
pris
dans
une
population
viennent
d'une
même
population
à
la
génération
précédente
t t
t+1 t+1
Étape 2 : on regarde d’où ils viennent à la génération précédente :
a
≡
Probabilité que 2 gènes pris dans une population soient les copies de
2 gènes provenant d'une même population à la génération précédente
a = (1-m)² + m² /(nd-1)
et (1-a) est alors la probabilité qu'ils soient les copies de gènes provenant
de deux populations distinctes à la génération précédente
Calcul des Probabilités d'identités : principe des
formules de récurrences
Étape 1 : on s'intéresse aux probabilité d'identité entre paires de gènes, il
faut donc que les 2 gènes n'aient pas muté entre t et (t+1) (avec une
probabilité (1-µ)² que l'on définie comme γ)
Étape
2
:
on
regarde
d’où
ils
viennent
à
la
génération
précédente
:
b
≡
Probabilité
que
2
gènes
pris
dans
deux
populations
distinctes
viennent
d'une
même
population
à
la
génération
précédente
t t
t+1 t+1
Prob(un des deux gène n'a pas Prob(migration de 2 gènes issus d'une
migré)=2*(1-m)*m/(nd-1) troisième population)=(nd-2)[m /(nd-1)]²
Calcul des Probabilités d'identités : principe des
formules de récurrences
Étape 1 : on s'intéresse aux probabilité d'identité entre paires de gènes, il
faut donc que les 2 gènes n'aient pas muté entre t et (t+1) (avec une
probabilité (1-µ)² que l'on définie comme γ)
Étape
2
:
on
regarde
d’où
ils
viennent
à
la
génération
précédente
:
b
≡
Probabilité
que
2
gènes
pris
dans
deux
populations
distinctes
soient
des
copies
de
2
gènes
provenant
d'une
même
population
à
la
génération
précédente
2m(1− m) m 2
b= + (nd − 2)
nd −1 nd −1
et (1-b) est alors la probabilité que 2 gènes pris dans deux populations
distinctes soient des copies de 2 gènes provenant de 2 populations
€ différentes à la génération précédente
Calcul des Probabilités d'identités : principe des
formules de récurrences
Étape 1 : on s'intéresse aux probabilité d'identité entre paires de gènes, il
faut donc que les 2 gènes n'aient pas muté entre t et (t+1) (avec une
probabilité (1-µ)² que l'on définie comme γ)
Étape
2
:
on
regarde
si
les
2
gènes
ont
migré
ou
non
à
la
génération
précédente
(probabilités
a,
(1-a),
b,
(1-b))
Étape 2 : la migration (a, (1-a), b, (1-b))
Un FST de 0.18 indique que 18% de la variance génétique est due la différenciation
entre population (et que 82% est due à la variabilité intrapopulation!)
Si l'on fait l'hypothèse d'un modèle en îles à l'équilibre migration-dérive, les flux de
gènes dans le système correspondent à :
D'après la formule
La migration : le modèle en îles et le FST
Cette formule a trop souvent été utilisée pour estimer un nombre de migrant entre
populations par génération mais :
• Modèles peu réalistes, mauvaise description de la dispersion
• Hypothèses de stabilité démographiques dans le temps et dans l'espace
• Hypothèses associées aux taux de mutation et processus mutationnels
• Hypothèses de neutralité des marqueurs utilisés
La migration : le modèle en îles et le FST
Un modèle plus réaliste pour une meilleure estimation de
la migration en populations structurées :
Le modèle d'isolement par la distance
Majorité de la
dispersion à très
courte distance
Population en dèmes
Chaque nœud du réseau correspond à une
sous population panmictique
Rousset 1997
L’isolement par la distance
Estimation de Dσ²
démographie génétique
Site 1 277 222
Site 2 249 259
Site 3 555 606
Les modèle d'isolement par la distance
Direct Indirect
(Demography) (genetic)
American Marten (Martes americana) 7.5 3.8
Kangaroo rats (Dipodomys) 1.43 2.58
intertidal snails (Bembicium vittatum) 2.4 3.6
Forest lizards (Gnypetoscincus 11.5 5.5
queenslandiae)
Cellule gènes X X
locus
XY
♂
Autosomes
Chloroplastes
(diploïdes) (haploïdes,
Hérédité
Chromosome Y paternelle)
(haploïdes, hérédité paternelle)
Différents types de marqueurs
• Pour un gène mitochondrial (haploïde, transmis de mère à enfant)
• Chez l’Homme, les FST sur le Y sont plus forts que sur les
mitochondries : dispersion biaisée en faveur des femmes
Chromosome Y vs. mtDNA
avant dispersion
après dispersion
Dispersion sexe-spécifique
On peut montrer que :
Nombre
de fondateurs : k
… et des recolonisations ?
FST et métapopulations
• La diversité
génétique en
fonction de l’âge des
populations et de
leur volume…
FST et métapopulations
• La différenciation
entre paires de
populations en
fonction de leur
âge…
FST et métapopulations