Table Des Matières: 3 Loi Des Grands Nombres
Table Des Matières: 3 Loi Des Grands Nombres
Table Des Matières: 3 Loi Des Grands Nombres
1
2 TABLE DES MATIÈRES
Chapitre 3
Soit (Ω, F, P) un espace de probabilité sur lequel sont définies toutes les variables aléatoires.
3.1 Loi du 0 − 1
Proposition 3.1.1 Inégalité de Markov. Soit X une variable aléatoire réelle intégrable et
t > 0, alors
E[X + ] E[|X|]
P(X ≥ t) ≤ ≤ .
t t
Démonstration. On a 1[t,∞[ (X) ≤ (X/t)1[t,∞[ (X) ≤ X + /t ≤ |X|/t et on intègre par rapport à
P.
Exemple 3.1.1. Soit X une variable aléatoire de loi exponentielle de paramètre λ. Alors
l’inégalité de Markov donne e−λt = P(X ≥ t) ≤ E[X] 1
t ≤ λt .
E[|X|p ]
P(|X| ≥ t) ≤ .
tp
Si X est de carré intégrable alors
Var(X)
P(|X − E[X]| ≥ t) ≤ .
t2
Démonstration. Utiliser l’inégalité de Markov pour |X|p car (X ≥ t) ⊂ (|X|p ≥ tp ) pour t > 0.
Puis utiliser le cas particulier p = 2 et reconnaître Var(X) = E[(X − E[X])2 ].
Exemple 3.1.2. Soit (Xn ) une suite de variables aléatoires indépendantes de même loi de
Bernoulli de paramètre p. On pose Sn = nk=1 Xk . Sn suit la loi binomiale de paramètres
P
3
4 CHAPITRE 3. LOI DES GRANDS NOMBRES
Remarquons que l’inégalité reste valable pour n’importe quelle loi de carré intégrable en
remplaçant p par son espérance et p(1 − p) par sa variance.
Définition 3.1.1. Soit (Fn )n∈N une famille indépendante de tribus sur (Ω, F, P). Soit F n la
tribu engendrée par (Fk , k ≥ n) et F ∞ = n∈N F n . La tribu F ∞ s’appelle tribu des événements
T
Exemple 3.1.3. Par exemple, Fn = σ(Xn ) pour une suite (Xn ) de variables aléatoires indé-
pendantes. La tribu terminale correspond aux événement qu’on peut définir à partir de la
suite (Xn ) mais qui ne dépendent pas des premiers termes (la limite par exemple).
C = {B ∈ F; P(A ∩ B) = P(A)P(B)}.
On veut montrer que F ∞ ⊂ C. Alors A est indépendant de lui-même donc sa probabilité est 0 ou
1.
Soit les tribus F n = σ(Fk , k ≤ n). Les tribus F n et F n+1 sont indépendantes, donc tout élément
de F n est indépendant de A pour tout n car F ∞ ⊂ F n+1 . Ainsi, F ∞ = ∪F n ⊂ C. Or, Ω ∈ F ∞ ,
F ∞ est stable par complémentaire et union finie (car union croissante de tribus). Le théorème π-δ
implique σ(F ∞ ) ⊂ C. De plus, pour tout k, on a Fk ⊂ F k ⊂ F ∞ ⊂ σ(F ∞ ), donc F n ⊂ σ(F ∞ )
pour tout n et F ∞ ⊂ σ(F ∞ ) ⊂ C, ce qui prouve le résultat.
Exemple 3.1.4. On dispose d’une infinité de pièces qu’on lance à tour de rôle. La n-ème pièce
a une probabilité pn de donner Pile. On suppose que les lancers sont indépendants. Soit An
l’événement “le lancer de la n-ème pièce a donné pile”. Alors l’événement
\ [
A= Am = (An est réalisé pour une infinité de n) = lim sup An
n∈N m≥n
Théorème 3.1.1 Lemme de Borel Cantelli. Soit (An )n∈N une suite d’événements.
— Si P(An ) < ∞ alors P(An is) = 0.
P
— Si les événements (An )n∈N sont indépendants et P(An ) = ∞ alors P(An is) = 1.
P
donc P(An is) = P(A) ≤ m≥n P(Am ) car intersection décroissante, et ce terme tend vers
P
2. Par indépendance
N
[ N
\
P( Am ) = 1 − P( Acm )
m=n m=n
N
Y
=1− (1 − P(Am )).
m=n
Exemple 3.1.6 Le singe dactylo. Un singe tape au hasard sur un clavier d’ordinateur pendant
un temps infini. Quelle est la probabilité que son texte contienne les oeuvres complètes de
Molière ?
La suite de lettres (et espaces, ponctuation...) tapées par le singe est une réalisation d’une
suite de variables aléatoires (Xn ) indépendantes et de même loi (uniforme sur le clavier).
Soit (a1 , · · · , aN ) la chaîne de caractères (finie) correspondent aux oeuvres complètes de
Molière. On pose Bk = (Xk = a1 , · · · , Xk+N −1 = aN ) pout k ≥ 0 et An = B(n−1)N +1 , n ≥ 1,
autrement dit A1 = B1 , A2 = BN +1 , A3 = B2N +1 ,. . . de sorte que les événements (An ) sont
indépendants. Chaque événement An est de probabilité nb touches−N > 0 donc P(An ) = ∞.
P
Le lemme de Borel Cantelli dit que P(An is) = 1 donc non seulement le singe tapera tout
Molière, mais en plus il le fera une infinité de fois avec probabilité 1.
Autrement dit, il existe A ⊂ Ω de mesure pleine tel que pour tout ω ∈ A, pour tout ε > 0, il
existe n0 (ω) tel que pour tout n ≥ n0 , |Xn (ω) − X(ω)| ≤ ε.
Exemple 3.2.1. Soit Ω = [0, 1] muni de la tribu des boréliens et de la mesure de Lebesgue.
Pour n ≥ 1, on pose
Xn (ω) = 1[0,1/n] (ω).
6 CHAPITRE 3. LOI DES GRANDS NOMBRES
Alors la suite (Xn ) converge ps vers 0 (même si Xn (0) = 1 pour tout n).
Définition 3.2.2. On dit que la suite (Xn ) converge en probabilité vers la variable aléatoire
P
X, noté Xn −→ X, si pour tout ε > 0
lim P(|Xn − X| ≥ ε) = 0.
n→∞
Autrement dit, pour tout ε, η > 0, il existe n0 tel que pour tout n ≥ n0 , P(|Xn − X| ≥ ε) ≤ η.
Exemple 3.2.2. Soit (Xn ) une suite de variables aléatoires indépendantes de même loi de
Bernoulli de paramètre p. On pose Sn = nk=1 Xk qui suit donc une loi binomiale de paramètres
P
Proposition 3.2.1. Si la suite (Xn ) converge presque sûrement vers la variable aléatoire X
alors la (Xn ) converge en probabilité vers X.
Démonstration.
C’est la plus petite limite d’une sous-suite convergente extraite de (xn ). De plus, une suite
réelle est convergente si et seulement si elle a une unique valeur d’adhérence donc si et
seulement si lim inf = lim sup.
Alors pour tout ω ∈]0, 1], lim inf Xi (ω) = 0 et lim sup Xi (ω) = 1, donc la suite (Xn ) ne
converge pas ps. Or pour tout 0 < ε < 1, P(|Xi | ≥ ε) = P(|Xi | = 1) = 2−n si i = 2n + k − 1
avec 1 ≤ k ≤ 2n . Donc la suite (Xi ) converge en probabilité vers 0.
Proposition 3.2.2. Soit (Xn ) une suite de variables aléatoires convergeant ps vers X et h une
fonction continue sur R. Alors h(Xn ) converge presque sûrement vers h(X). En particulier, si
(Xn ) et (Yn ) sont deux suites de variables aléatoires convergeant presque sûrement vers X et
Y respectivement, alors pour tous réels a et b la suite (aXn + bYn ) converge presque sûrement
vers aX + bY et la suite (Xn Yn ) converge presque sûrement vers XY .
3.3. CONVERGENCE DANS LP 7
Proposition 3.2.3. Soit (Xn ) et (Yn ) deux suites de variables aléatoires convergeant en proba-
bilité vers X et Y respectivement, alors
1. pour toute fonction continue h, on a h(Xn ) converge en probabilité vers h(X),
2. tous réels a et b la suite (aXn + bYn ) converge en probabilité vers aX + bY ,
3. (Xn Yn ) converge en probabilité vers XY
Démonstration. Admis.
Exemple 3.3.1. Soit Ω =]0, 1] muni de la tribu des boréliens et de la mesure de Lebesgue. Soit
α > 0 et pour n ≥ 1
Xn (ω) = ω −α 1]0,1/n] (ω).
On a que Xn ∈ Lp dès que αp < 1 puisque
ω 1−αp 1/n
Z 1/n
1
E[Xnp ] = ω −αp dω = [ ]0 = nαp−1 −−−→ 0,
0 1 − αp 1 − αp n→∞
Pour tout ε ∈]0, 1[, P(|Xn | ≥ ε) = 1/n. Donc la suite (Xn ) converge en probabilité vers 0.
/ Lp dès que αp ≥ 1 puisque
Mais Xn ∈
Z 1/n
E[Xnp ] = ω −αp dω = +∞.
0
Soit ε > 0. Pour tout n ≥ 1, P(|Xn | ≥ ε) = n−p , donc (Xn ) converge en probabilité vers 0. De
plus, P(|Xn | ≥ ε) < +∞ si p > 1, donc par le lemme de Borel-Cantelli P(|Xn | ≥ ε is) = 1,
P
autrement dit en passant au complémentaire ps pour tout ε > 0, il existe N tel que pour tout
n ≥ N , |Xn | < ε donc on a aussi la convergence ps vers 0. Mais E[Xnp ] = n−1 n = 1. La suite
ne converge donc pas vers 0 dans Lp .
Pour passer de la convergence en probabilité à la convergence dans Lp , on introduit la notion
d’équi-intégrabilité, ou intégrabilité uniforme.
Définition 3.3.3. Une famille quelconque (Xi )i∈I de variables aléatoires intégrables est équi-
intégrable ou uniformément intégrable si
Z
lim sup |Xi |dP = 0.
c→+∞ i∈I (|Xi |>c)
Proposition 3.3.2. La famille (Xi )i∈I de variables aléatoires intégrables est équi-intégrable si
et seulement si les deux conditions suivantes sont réalisées R
1. pour tout ε > 0, il existe η > 0 tel que pour tout A ∈ F, P(A) ≤ η implique A |Xi |dP ≤ ε
pour tout i ∈ I,
2. supi∈I E[|Xi |] < ∞.
Démonstration. Supposons que la famille est équi-intégrable. Pour tout ε > 0, il existe c > 0 tel
que Z
sup |Xi |dP ≤ ε/2.
i∈I (|Xi |>c)
Théorème 3.3.1. Soit (Xn ) une suite de variables aléatoires intégrables et X une variable
aléatoire. Alors les deux assertions suivantes sont équivalentes
P
1. Xn − → X et la famille (Xn ) est équi-intégrable,
2. X est intégrable et (Xn ) converge vers X dans L1 .
3.4. LOI DES GRANDS NOMBRES 9
P
Démonstration. 1 ⇒ 2 Comme Xn −
→ X, on peut en extraire une sous-suite (Xnk ) qui converge
ps vers X.
E[|X|] = E[lim inf |Xnk |] ≤ lim inf E[|Xnk |] ≤ sup E[|Xn |] < ∞.
Comme X est intégrable, la famille (Xn , X) est encore équi-intégrable. On applique la proposition
précédente. Soit η > 0. Pour n assez grand, on a P(|Xn − X| ≥ ε/3) ≤ η car la suite converge en
probabilité. Donc pour tout n assez grand, les deux intégrales ci-dessus sont inférieures à ε/3.
On obtient E[|Xn − X|] ≤ ε pour n assez grand, d’où la convergence de (Xn ) vers X dans L1 .
Réciproque 2 ⇒ 1. Soit ε > 0 et n0 tel que pour tout n ≥ n0 , kXn − Xk1 ≤ ε/2. Comme X et
les Xn sont dans L1 , la famille finie (X, Xn , n ≤ n0 ) est équi-intégrable. Donc il existe η tel que
si P(A) ≤ η alors Z Z
|Xn |dP ≤ ε/2, |X|dP ≤ ε/2
A A
pour n ≤ n0 . Pour n > n0 , on a par inégalité triangulaire
Z Z
|Xn |dP ≤ |X|dP + kXn − Xk1 ≤ ε.
A A
La suite (Xn ) vérifie donc les deux points de la proposition (pour le deuxième, E[|Xn |] ≤
E[|Xn − X|] + E[|X|]), elle est uniformément intégrable. Et on a déjà vu que convergence L1
implique convergence en proba.
de la suite (Sn ).
Théorème 3.4.1 Loi forte des grands nombres. Si E[|X|] < ∞, alors (Sn /n) converge ps et
dans L1 vers E[X] lorsque n tend vers l’infini.
Démonstration. Remarquons d’abord que la famille (Xn ) est équi-intégrable. En effet, elle est
dans L1 et
lim sup E[1(|Xn |>c) |Xn |] = lim sup E[1(|X1 |>c) |X1 |] = lim E[1(|X1 |>c) |X1 |] = 0
c→+∞ n c→+∞ n c→+∞
10 CHAPITRE 3. LOI DES GRANDS NOMBRES
puisque toutes les variables ont même loi. Donc pour tout ε > 0, il existe η > 0 tel que pour tout
A ∈ F et n ∈ N, on ait E[1A |Xn |] ≤ ε. On en déduit que
E[1A |Sn /n|] ≤ nE[1A |Xn |/n] = E[1A |Xn |] ≤ ε.
De plus, E[|Sn |/n] ≤ nE[|X1 |]/n ≤ E[|X1 |] est borné indépendamment de n. Donc la famille
Sn /n est également équi-intégrable. Ainsi, si on montre la convergence ps, on aura la convergence
en proba puis la convergence dans L1 par équi-intégrabilité.
Quitte à remplacer Xk par Xk − E[Xk ], on peut considérer que les Xk sont centrées. Quitte
également à regarder la convergence coordonnée par coordonnée (ce qui est équivalent à la
convergence du vecteur pour la convergence ps) on suppose qu’on est en dimension 1.
1. La première étape de la preuve consiste à prouver le résultat sous l’hypothèse plus forte
E[|X|4 ] < ∞. Dans ce cas, pour tout n ≥ 1 et δ > 0, l’inégalité de Markov donne
E[Sn4 ]
P(|Sn | ≥ nδ) ≤ .
δ 4 n4
On décompose maintenant E[Sn4 ]. On a
n
X 4
Sn4 = Xk
k=1
n
X n
X n
X n
X
= Xi Xj Xk X`
i=1 j=1 k=1 `=1
Xn X X
= Xi4 + 4 Xi3 Xj + 3 Xi2 Xj2
i=1 1≤i6=j≤n 1≤i6=j≤n
X X
+6 Xi Xj Xk2 + Xi Xj Xk X` .
1≤i,j,k distincts≤n 1≤i,j,k,` distincts≤n
On obtient donc
nE[X 4 ] + 3n(n − 1)E[X 2 ]2
P(|Sn | ≥ nδ) ≤ ,
δ 4 n4
qui est le terme générique d’une série convergente. Le lemme de Borel Cantelli donne donc
la convergence ps de (Sn /n) vers 0.
2. Deuxième étape : cas général. Soit ε > 0. Pour tout i ≥ 1, il existe des variables aléatoires
Yi étagées, centrées, indépendantes et de même loi telles que E[|Xi − Yi |] ≤ ε, par définition
de l’intégrale de Lebesgue. Soit Tn = nk=1 Yk . Alors on a
P
n
1 1X 1
|Sn | ≤ |Xi − Yi | + |Tn |.
n n i=1 n
3.4. LOI DES GRANDS NOMBRES 11
Les variables Yi sont étagées donc bornées, elles vérifient donc le premier point. On a ainsi
Tn /n qui tend vers 0. Il suffit donc de regarder la moyenne des différences |Xi − Yi |. Soit
Zi = |Xi − Yi |. On sait que le variables (Zi ) sont indépendantes, de même loi, intégrables,
positives et vérifient E[Zi ] ≤ ε pour tout i. On veut examiner lim sup nk=1 Zk /n. On utilise
P
un argument dit de bloc : on va découper selon les valeurs de n avec une partition en
puissances de 2 et minorer différemment sur chaque bloc. Soit k ≥ 0 et δ > 0. On a
n
1X
P max Zi ≥ 2E[1] + δ
2k <n≤2k+1 n
i=1
n
1X
≤ P(∃i ≤ 2k+1 , Zi > 2k ) + P( max Zi 1[0,2k ] (Zi ) ≥ 2E[Z1 ] + δ)
2k <n≤2k+1 n i=1
= Ak + B k ,
car soit tous les Zi sont inférieurs à 2k , soit il y en a au moins un qui est supérieur. D’une
part, en majorant l’union sur les i ≤ 2k+1 par la somme, on a
puisque E[Z1 ] ≥ E[Z1 1[0,2k ] (Z1 )]. On utilise maintenant l’inégalité de Tchébychev
1 k+1
Bk ≤ 2 Var[Z12 1[0,2k ] (Z1 )]
δ 2 22k
1
≤ 2 k 2E[Z12 1[0,2k ] (Z1 )].
δ 2
On a ainsi obtenu
n Z 2k
1X 1
P max Zi ≥ 2E[1] + δ ≤ 4 P(Z1 > t)dt + 2E[Z 2 1[0,2k ] (Z1 )].
2k <n≤2k+1 n i=1 2k−1 δ 2 2k
d’autre part
2−k E Z12 1[0,2k ] (Z1 ) = E Z12 2−k 1[0,2k ] (Z1 )
X X
k≥0 k≥0
X
2−k 1[0,2k ] (Z1 ))1Z1 ∈]2` ,2`+1 ]
X
=E (Z12
`≥0 k≥0
−k
X
+ (Z12 2 1[0,2k ] (Z1 ))1Z1 ∈[0,1] .
k≥0
k≥0
Ainsi, on obtient
n
X 1X
P max Zi ≥ 2E[Z1 ] + δ ≤ 4(1 + 2δ −2 )E[Z].
k
2k <n≤2k+1 n i=I
La série converge, donc le lemme de Borel Cantelli donne presque sûrement pour k assez
grand
n
1X
max Zi < 2E[Z] + δ,
2k <n≤2k+1 n
i=I
Exemple 3.4.1. Soit (Xn ) une suite de variables aléatoires indépendantes de même loi de
Bernoulli de paramètre p. On pose Sn = nk=1 Xk . On a déjà vu que Sn /n converge en
P
Tn = h(X1 , . . . , Xn ).
Démonstration. On a
d’où le résultat.
Plus l’erreur quadratique sera faible, plus l’estimateur sera considéré comme satisfaisant.
14 CHAPITRE 3. LOI DES GRANDS NOMBRES
Définition 3.5.3. Un estimateur est dit centré ou sans biais si E[Tn ] = θ. Un estimateur est
asymptotiquement sans biais si
lim E[Tn ] = θ.
n→∞
X1 + · · · + Xn
Xn =
n
est un estimateur sans biais de l’espérance car E[X n ] = E[X1 ]. C’est un estimateur convergent
d’après la loi des grands nombres.
La variance empirique
n
1X
Vn = (Xi − X n )2
n i=1
n
est un estimateur biaisé de la variance car E[V n ] = n−1 Var(X1 ). En effet, on a
n
1X
E[V n ] = E[(Xi − X n )2 ]
n i=1
n
1X
= E[(Xi − E[Xi ] + E[Xi ] − X n )2 ]
n i=1
n
1X
= E[(Xi − E[Xi ])2 ] + E[(E[Xi ] − X n )2 ] + 2E[(Xi − E[Xi ])(E[Xi ] − X n )]
n i=1
n
2X
= Var(X1 ) + Var(X n ) − Cov(Xi , X n ).
n i=1
Or on a par indépendance
X1 + · · · + Xn n
Var(X n ) = Var( ) = 2 Var(X1 ),
n n
et
n
= Var(X1 )
n−1
Cependant cet estimateur est asymptotiquement sans biais et convergent. On utilise plutôt sa
version sans biais n
2 1 X
Sn = (Xi − X n )2
n − 1 i=1
17