Cours Proba5
Cours Proba5
Cours Proba5
29 août 2022
Table des matières
1.2 Événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3 Probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.4 Inégalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
iii
3 Caractériser une loi 23
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1 Densités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.4 Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.4.2 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4 Vecteurs aléatoires 49
4.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
iv
4.1.4 Indépendance et lois produits . . . . . . . . . . . . . . . . . . . . . 55
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2.1 Inégalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2.4 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3.3 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.3.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5 Convergences 85
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
v
1
Rappels sur le modèle probabiliste
Le choix d’un modèle probabiliste, qui fixe un cadre formel où pourra se déployer la théorie
mathématique, commence par la donnée d’un « espace fondamental », appelé aussi « ensemble
des possibles », et souvent noté Ω. Il décrit l’ensemble des résultats possibles d’une expérience
aléatoire, que celle-ci soit précisée ou non. Ce peut être R+ si l’on mesure la durée de vie
d’une lampe, R3 si l’on observe la position d’une molécule de gaz, la population d’un pays
si l’on effectue des sondages, ou {1, . . . , 6}N si l’on suit une suite infinie de jets de dé. Très
souvent aussi, cet espace fondamental n’est que cité sans être décrit.
1.2 Événements
1
2 Rappels sur le modèle probabiliste
1.3 Probabilité
Après s’être donné un espace fondamental Ω et des événements, il reste à définir une
« probabilité » (ou « mesure de probabilité », ou « loi ») pour compléter le modèle probabiliste.
C’est une notion qui n’a émergé que relativement récemment alors que mathématiques d’un
côté, jeux de hasard ou systèmes d’assurance de l’autre, se sont développés depuis des
millénaires. L’idée intuitive que l’on peut en avoir est celle de fréquence : fréquence d’un
chiffre dans la suite des lancers d’un dé, ou fréquence d’un caractère donné (yeux bleus,...)
dans une population. La plupart des propriétés d’une probabilité s’en inspirent.
Définition-proposition 1 : Probabilité
On appelle probabilité sur l’espace Ω toute application P définie sur les événements de Ω et à
valeurs dans [0, 1] telle que :
k
!
\ \
P An = lim P An
k→+∞
n∈N n=0
Cette propriété de continuité connaît d’autres formulations équivalentes (cf cours d’Introduc-
tion aux probabilités) :
Remarque
Pour caractériser une probabilité, on peut se contenter de vérifier un sous-ensemble de ces
propriétés, par exemple P(Ω) = 1 et P ( n∈N An ) = n∈N P (An ) pour toute famille (An , n ∈ N)
S P
Jetons une pièce de monnaie équilibrée une infinité de fois. L’événement « la pièce tombe
toujours sur face » est un événement non vide de probabilité nulle ; il s’agit d’un événement
négligeable. La notion d’événements négligeables joue un rôle important en théorie des
probabilités.
3. Une propriété Π(ω) qui dépend de ω ∈ Ω est dite vraie P-presque sûrement si l’ensemble
{ω ∈ Ω / Π(ω) est fausse} est P-négligeable.
Exemple
Soit (Ω, P) un espace de probabilité.
∀ω ∈ Ω, ω ∈
/ N =⇒ lim Xn (ω) = X(ω)
n→+∞
Proposition 1.2
Soit (Ω, P) un espace de probabilité.
Preuve
C’est une conséquence immédiate des propriétés d’une probabilité et notamment des propriétés
de continuité. Montrons la première assertion, la deuxième assertion s’en déduisant par passage
au complémentaire.
[ X X
P An ≤ P (An ) = 0=0
n≥1 n≥1 n≥1
Exemple
Soit P la loi gaussienne centrée réduite définie sur R. Alors la probabilité de tout singleton
est nulle et l’on en déduit :
[ X
P(Z) = P {n} = P({n}) = 0
n∈Z n∈Z
Il faut faire attention à ce que la réunion ne concerne qu’un nombre au plus dénombrable
d’événements de probabilité nulle. À défaut, il est facile de trouver des contre-exemples,
comme celui-ci :
[
P(R) = P {x} = 1 6= 0
x∈R
1.5 Variable aléatoire 5
Lorsque E = R, on dit que X est une variable aléatoire réelle ; si E = Rd , on parle aussi de
vecteur aléatoire.
PX (A) = P {ω ∈ Ω/X(ω) ∈ A}
définit sur E une mesure de probabilité appelée loi de X.
Remarque
L’ensemble {ω ∈ Ω/X(ω) ∈ A} est aussi noté {X ∈ A} ou X −1 (A) : c’est l’image réciproque
de A par X.
Preuve
Cf propriété 3.5 du cours d’Introduction aux probabilités
Proposition 1.4
Soit X et Y deux variables aléatoires définies sur un même espace de probabilité (Ω, P) et
à valeurs dans un même espace E. Si X et Y sont égales presque sûrement, alors elles ont
même loi. On dit qu’elles sont égales en loi.
Attention
La réciproque n’est pas vraie ! Si X est une variable de Bernoulli de paramètre 1/2, alors X
est égale en loi à Y = 1 − X, mais P(X = Y ) = P(0 = 1) = 0.
Preuve
Soit N = {X 6= Y } = {ω ∈ Ω/X(ω) 6= Y (ω)} ; c’est par hypothèse un événement négligeable.
Soit A un événement quelconque de E. Alors
PX (A) = P(X ∈ A et Y ∈ A)
De même :
PY (A) = P(X ∈ A et Y ∈ A)
D’où PX (A) = PY (A). Comme l’égalité est vraie pour tout événement A de E, cela prouve
que les lois de X et Y sont égales.
2
Variables aléatoires réelles
Proposition 2.1
Soit (Ω, P) un espace de probabilité. Soit S ⊂ Ω défini par :
n o
S = ω ∈ Ω | P({ω}) > 0
Alors S est fini ou dénombrable.
Preuve
Remarquons que :
[ 1
n o
ω ∈ Ω | P({ω}) > 0 = ω ∈ Ω | P({ω}) > .
n≥1 n
n o
1
Or pour tout n ≥ 1, il ne peut y avoir plus de n éléments dans l’ensemble ω ∈ Ω | P({ω}) > no
,
n
sinon sa probabilité serait supérieure strictement à 1. L’ensemble ω ∈ Ω | P({ω}) > 0
s’écrit donc comme une réunion dénombrable et croissante d’ensembles finis : il ne peut être
que fini ou dénombrable.
Fondamental
La famille {ps = P({s}), s ∈ S} caractérise la loi P. En effet, la probabilité de tout événement
A de Ω s’écrit :
7
8 Variables aléatoires réelles
X X
P(A) = P({s}) = ps (2.1)
s∈A∩S s∈A∩S
La famille {ps = P({s}), s ∈ S} permet donc de déterminer la probabilité de tout événement.
Définition 2.3
On dit que X suit la loi de Dirac en a ∈ R si P(X = a) = 1. Autrement dit, X est alors
déterministe (non aléatoire).
Son support est réduit au singleton {a}.
Définition 2.4
On dit que X suit la loi de Bernoulli de paramètre p ∈ [0, 1] si
P(X = 1) = p, et P(X = 0) = 1 − p.
Son support est la paire {0, 1} si p ∈]0, 1[. Toute loi ayant pour support {0, 1} est une loi de
Bernoulli.
Exemple
On lance une pièce de monnaie non équilibrée (univers Ω = {P ile, F ace} et P(P ile) = p =
1 − P(F ace). Alors X(P ile) = 1 et X(F ace) = 0 suit une loi de Bernoulli de paramètre p.
!
n k
P(X = k) = p (1 − p)n−k .
k
Son support est l’ensemble {0, . . . , n} si p ∈]0, 1[.
Exemple
Si X est le nombre de Pile dans un lancer de n pièces indépendantes de probabilité de succès
p, alors X suit une loi binomiale de paramètres (n, p).
2.1 Variables aléatoires discrètes 9
Définition 2.6
On dit que X suit une loi de Poisson de paramètre λ ∈]0, +∞[ si pour tout k ≥ 0
λk
P(X = k) = e−λ .
k!
Son support est N.
10 Variables aléatoires réelles
Définition 2.7
On dit que X suit une loi géométrique de paramètre p ∈]0, 1[ si
Remarque
La loi géométrique modélise le nombre de lancers successifs et indépendants d’une pièce de
probabilité de Pile égale à p qu’il est nécessaire d’effectuer pour obtenir le premier Pile.
On notera alors SX le support de sa loi. C’est l’ensemble des valeurs prises par X avec une
probabilité strictement positive.
Pour définir l’espérance de X, on est amené à considérer des sommes finies, toujours définies,
ou des séries dont la somme peut ne pas être définie. Cela conduit à considérer deux situations,
le cas des variables positives et celui des variables d’espérance absolument convergente.
Exemple
Soit Y la variable aléatoire discrète à valeurs dans Z∗ telle que :
12 Variables aléatoires réelles
3
∀k ∈ Z∗ , P(Y = k) =
π2k2
3
k×
P
Peut-on évaluer E[Y ] avec la formule habituelle k∈Z∗ π 2 k2
? Si l’on somme de façon
symétrique, alors :
X 3
lim k× = lim 0 = 0
n→+∞
k=−n,...,n π2k2 n→+∞
k6=0
X 3
lim
lim k× = lim +∞ = +∞
m→−∞ n→+∞
k=m,...,n π2k2 m→−∞
k6=0
Pour pouvoir définir correctement l’espérance comme somme, il faut que le résultat de cette
somme ne dépende pas de l’ordre de sommation. Or on sait que c’est vrai dans deux cas, s’il
s’agit d’une somme de termes positifs ou s’il s’agit d’une somme absolument convergente.
X
E[X] = xPX ({x}) ∈ [0, +∞[∪{+∞}.
x∈SX
Il faut bien remarquer que la somme écrite ci-dessus est définie sans ambiguïté, que sa valeur
ne dépend pas de l’ordre dans lequel on effectue la somme, mais que cette valeur peut être
infinie. On dit que « X admet une espérance finie ou infinie ».
X
E[X] = xPX ({x}) ∈] − ∞, +∞[.
x∈SX
Dans ce cas, l’espérance de X est absolument convergente, sa valeur ne dépend pas de l’ordre
dans lequel on effectue la somme, et cette valeur est finie. On dit que « X admet une espérance
finie ».
Dans les autres cas, l’espérance de X n’est pas définie.
Soit ψ une fonction réelle définie sur SX . Alors ψ(X) est aussi une variable discrète et l’on
peut calculer son espérance à l’aide des définitions précédentes. On peut aussi utiliser la
formule de transfert.
X
E [ψ(X)] = ψ(x)PX ({x}) ∈ [0, +∞] ;
x∈SX
Preuve
Cf le cours d’Introduction aux probabilités, propriété 3.13.
Remarque
– Qu’entend-on par « suffisamment régulière pour être localement intégrable » ? Simple-
ment qu’on doit pouvoir évaluer l’intégrale de f (ou plus exactement de ses parties
positive f+ = max(f, 0) et négative f− = max(−f, 0)) sur des intervalles bornés. La
régularité demandée dépend de la définition de l’intégrale : intégrale de Riemann,
intégrale de Lebesgue, ou autre. En pratique, il suffit par exemple que la fonction
soit continue sauf sur un ensemble fini ou dénombrable de points pour qu’elle soit
suffisamment régulière, quelle que soit la théorie de l’intégration utilisée.
Dans ce cours, nous admettrons que toutes les fonctions rencontrées sont
suffisamment régulières.
R
– Par « ensemble de longueur nulle », il s’agit d’ensembles A tels que R 1A (x) dx = 0.
Fondamental
Par définition de la densité, on a pour tout intervalle A de la forme ]a, b] :
Z Z
P(A) = f (x) dx = 1A (x)f (x) dx
A R
On peut montrer que cette formule reste vraie pour tout événement A de R. Cela implique
en particulier que la densité d’une probabilité caractérise cette probabilité.
Comparons la formule ci-dessus avec la formule de calcul 2.1 de la probabilité d’un événement
pour une loi discrète :
14 Variables aléatoires réelles
X X
P(A) = ps = 1A (s)P({s})
s∈A∩S s∈S
On peut établir une correspondance formelle entre chaque terme des deux formules :
1A (s) ←→ 1A (x)
P({s}) ←→ fR (x)
s∈S ←→
P
R dx
La densité f = f (x), x ∈ R a pour correspondant la famille P({s}), s ∈ S que l’on peut
considérer comme une sorte de densité discrète. Cette correspondance nous sera utile lorsqu’il
s’agira de passer d’une propriété vue dans le cadre discret à la propriété équivalente dans le
cadre à densité, et inversement.
La proposition suivante rappelle a contrario que pour une loi à densité les probabilités des
singletons n’apportent aucune information.
Proposition 2.13
Avec les notations précédentes, si la loi P est à densité, alors P({x}) = 0 pour tout x ∈ R.
Preuve
Cf le cours d’Introduction aux probabilités, propriété 4.10.
Attention
La proposition précédente ne caractérise pas les lois à densité. Il existe des lois P qui ne sont
pas à densité (et encore moins discrètes !) et vérifiant néanmoins P({x}) = 0 pour tout x ∈ R.
Corollaire 2.14
Avec les notations précédentes, pour tous a, b ∈ R tels que a ≤ b,
Pour définir le support S d’une loi admettant la densité f — intuitivement, l’ensemble des
valeurs que peut effectivement prendre une variable aléatoire ayant cette loi — on peut
s’inspirer de la définition donnée pour une loi discrète. Si très naïvement on pose :
S = {x ∈ R/P({x}) > 0}
alors S = ∅ d’après la proposition précédente.
Un peu plus subtilement, inspirons-nous
de la
correspondance entre P({s}), s ∈ S pour une loi discrète et la densité f = f (x), x ∈ R
pour poser
Exemple
Le support d’une loi gaussienne de variance strictement positive est R, celui d’une loi
exponentielle est R+ , celui d’une loi uniforme sur [a, b] est [a, b].
2.2 Variables aléatoires continues 15
Propriété 2.15
Soit P une loi continue de support S. Alors P(S) = 1.
Preuve
Il est clair que la densité f est nulle sur {S. On en déduit :
Z Z
P {S = 1{S f (x) dx = 0 dx = 0
R R
Le résultat s’en déduit.
– Si le support de la loi de X est inclus dans R+ , autrement dit si fX est nulle sur R−
(sauf éventuellement sur un ensemble de longueur nulle), alors la fonction x 7→ xfX (x)
est positive (sauf éventuellement sur un ensemble intégrale nulle) et l’on peut définir
Z Z +∞
E [X] = xfX (x) dx = xfX (x) dx ∈ [0, +∞[∪{+∞}
R 0
On dit que X admet une espérance finie ou infinie.
– Si E[|X|] < +∞, autrement dit si l’intégrale de la fonction x 7→ xfX (x) est absolument
convergente, alors on peut définir
Z
E [X] = xfX (x) dx ∈] − ∞, +∞[
R
On dit que X admet une espérance finie.
Fondamental
Quelle que soit la loi de X, discrète, à densité, ou autre, on admet que son espérance est
définie si X est positive, ou si E[|X|] < +∞.
Remarque
Si X et Y sont des variables aléatoires admettant des espérances finies, alors pour tous
α, β ∈ R
Soit ψ une fonction réelle définie sur R. Alors ψ(X) est aussi une variable aléatoire réelle.
Ce peut être une variable discrète (penser à ψ = 1 !) ou à densité (penser à ψ = Id). Pour
calculer son espérance, on peut chercher à déterminer sa loi ou utiliser la formule de transfert.
Z
E[ϕ(X)] = ϕ(x)f (x) dx
R
pour toute fonction ϕ continue bornée ou pour toute fonction continue positive, alors la loi
de X admet la densité f .
Exemple
Soit X une variable aléatoire gaussienne centrée réduite. On souhaite déterminer la loi de
Y = X 2 . Soit ϕ une fonction continue bornée sur R. Alors, en utilisant la formule de transfert :
x2
2 e− 2 Z
2
E[ϕ(Y )] = E[ϕ(X )] = ϕ(x ) √ dx
R 2π
On ne peut faire directement le changement de variables y = x2 dans l’intégrale : s’il est C 1 ,
il n’est cependant pas injectif sur l’intervalle d’intégration. Pour contourner ce problème, il
suffit de couper l’intervalle d’intégration en parties sur lesquelles le changement de variables
sera bien injectif :
x2 x2 x2
− 2 − 2
Z
2 e
Z 0
2 e
Z +∞
e− 2
ϕ(x ) √ dx = ϕ(x ) √ dx + ϕ(x2 ) √ dx
R 2π −∞ 2π 0 2π
x2
Z 0
e− 2
Calculons d’abord ϕ(x2 ) √ dx.
−∞ 2π
√
y = x2 ⇐⇒ x = − y
2.3 Complément : théorèmes d’interversion pour l’espérance 17
√
– Calcul de l’élément différentiel : pour tous x ∈] − ∞, 0[, y ∈]0, +∞[, comme x = − y,
alors
√ 1
dx = (− y)0 dy = − √ dy
2 y
– Calcul des nouvelles bornes : comme y = x2 , alors
lim x2 = +∞, lim− x2 = 0
x→−∞ x→0
D’où :
x2 y y
Z 0
2 e− 2 Z 0
e− 2 1 1 Z +∞ e− 2
ϕ(x ) √ dx = ϕ(y) √ × − √ dy = ϕ(y) √ dy
−∞ 2π +∞ 2π 2 y 2 0 2πy
R +∞ − x2
Le changement de variables dans l’intégrale 0 ϕ(x2 ) e√2π2 dx donnant le même résultat, on
en déduit :
y
e− 2
Z +∞
E[ϕ(Y )] = ϕ(y) √ dy
0 2πy
On peut alors conclure que la loi de Y admet une densité donnée par la formule :
y
e− 2
fY (y) = √ 1y>0
2πy
1 1
On reconnaît une loi Gamma de paramètres ,
2 2
.
Soit (Xn , n ≥ 0) une suite de variables aléatoires définies sur un même espace de probabilité
(Ω, P). Si ces variables sont positives ou si l’espérance de chacune est absolument convergente,
alors la linéarité de l’espérance signifie que l’on peut intervertir somme et espérance : quel
que soit n ≥ 0
n
X n
X
E Xp = E [Xp ] .
p=0 p=0
Qu’en est-il lorsque la somme est infinie ? Autrement dit, quand peut-on intervertir série et
espérance ? Une question à peu près équivalente est de savoir quand on peut intervertir limite
et espérance : à quelle condition a-t-on E [limn→+∞ Xn ] = limn→+∞ E [Xn ] ? Les théorèmes
suivants résument les conditions suffisantes les plus utilisées en probabilité.
+∞
X +∞
X
E Xp = E [Xp ]
p=0 p=0
P+∞
si les variables aléatoires (Xn , n ≥ 0) sont positives ou si p=0 E [|Xp |] < +∞.
18 Variables aléatoires réelles
E lim Xn = lim E [Xn ]
n→+∞ n→+∞
si les variables aléatoires (Xn , n > 0) sont positives et leur suite croissante :
Remarque
Si les variables aléatoires sont des fonctions indicatrices, autrement dit si pour tout n ≥ 0 il
existe An ∈ A tel que Xn = 1An , alors la suite de variables aléatoires (Xn , n ≥ 0) est positive
et croissante si la suite d’événements (An , n ≥ 0) est croissante, et dans ce cas :
E
n→+∞
lim Xn = E 1S n≥0
An
[
= P An
n≥0
= lim P (An ) d’après la propriété de continuité de la probabilité
n→+∞
= lim E [1An ]
n→+∞
= lim E [Xn ]
n→+∞
Autrement dit, dans le cas particulier des variables aléatoires à valeurs dans {0, 1}, le théorème
de convergence monotone se réduit à la propriété de continuité de la probabilité.
Démonstration
Il n’y aura pas ici de démonstration générale des théorèmes précédents, seulement quelques
exemples où l’on reconnaîtra des résultats classiques.
+∞ +∞ +∞ +∞ +∞ +∞
!
X X X X X X
E Xp = Xp (n) P({n}) et E [Xp ] = Xp (n)P({n})
p=0 n=0 p=0 p=0 p=0 n=0
Il est alors bien connu que les deux sommes ci-dessus sont égales — i.e. on peut changer l’ordre
de sommation — s’il s’agit de séries à termes positifs ou de séries absolument convergentes.
On retrouve les conditions du théorème 2.20.
+∞
X Z +∞
X +∞
X +∞
X Z
E Xp = Xp (x) f (x) dx et E [Xp ] = Xp (x)f (x) dx
p=0 R p=0 p=0 p=0 R
Là encore, les conditions du théorème 2.20 sont bien celles dont on sait qu’elles permettent
d’intervertir série et intégrale.
+∞ n
lim Xn0
X X
E Xp = E lim Xp = E
n→+∞ n→+∞
p=0 p=0
+∞ n
E [Xp ] = lim E [Xn0 ]
X X
E [Xp ] = lim
n→+∞ n→+∞
p=0 p=0
2.4 Inégalités
Les inégalités classiques qui suivent font partie des outils standard de la théorie des probabilités.
Elles servent par exemple à déterminer des intervalles de confiance ou à établir des résultats
de convergence. Elles se déduisent de la positivité de la probabilité et de sa conséquence, à
savoir que l’espérance d’une variable positive est positive, éventuellement infinie :
Cette propriété se vérifie facilement si X et Y sont des variables aléatoires discrètes (resp.
continues), auquel cas il s’agit d’une simple conséquence des propriétés de la somme (resp. de
l’intégrale). Elle est vraie plus généralement, que les lois de X et Y soient un mélange de lois
discrètes et continues, ou qu’elles soient tout autres.
20 Variables aléatoires réelles
Tirons-en une première conséquence, souvent utile : si X est une variable aléatoire bornée
presque sûrement, alors X admet une espérance finie. En effet :
Autre conséquence, importante pour cette section : si X est une variable aléatoire réelle et
f, g deux fonctions continues par morceaux telles que 0 ≤ f ≤ g, alors
E [X+ ] E [|X|]
P(X ≥ t) ≤ ≤
t t
Preuve
Pour tout x ∈ R, on a les inégalités
x max(0, x) |x|
1[t,+∞[ (x) ≤ 1[t,+∞[ ≤ ≤
t t t
h i
La proposition s’en déduit en utilisant l’inégalité 2.2 et le fait que P(X ≥ t) = E 1[t,+∞[ (X) .
Corollaire 2.24
Soit X une variable aléatoire réelle. Alors l’inégalité suivante est vérifiée pour tous t > 0 et
p>0:
E [|X|p ]
P(X ≥ t) ≤ P(|X| ≥ t) ≤
tp
Preuve
Comme la fonction x 7→ xp est strictement croissante sur R+ , on a :
{X ≥ t} ⊂ {|X| ≥ t} = {|X|p ≥ tp }
D’où :
P (X ≥ t) ≤ P (|X| ≥ t) = P (|X|p ≥ tp )
Il reste à appliquer l’inégalité de Markov à |X|p et tp pour en déduire la dernière inégalité :
E [|X|p ]
P (|X|p ≥ tp ) ≤
tp
Le corollaire en résulte.
2.4 Inégalités 21
Proposition 2.25
Soit X une variable aléatoire presque sûrement positive (P(X ≥ 0) = 1). Alors
P(X = 0) = 1 ⇐⇒ E[X] = 0
Preuve
L’implication P(X = 0) = 1 =⇒ E[X] = 0 est évidente. Vérifions la réciproque. Remarquons
d’abord que
1 1
P(X > 0) = P ∪n≥1 X > = lim P X >
n n→+∞ n
Or d’après l’inégalité de Markov :
1
0≤P X> ≤ nE[X] = 0
n
1
pour tout n ≥ 1. On en déduit que limn→+∞ P X > n
= 0, puis que P(X = 0) = 1.
Soit X une variable aléatoire de support SX et admettant une espérance finie. Cette espérance
n’appartient pas nécessairement à SX (considérons par exemple une variable de Bernoulli de
paramètre 1/2 qui a pour support {0, 1} et pour espérance 1/2). Mais si I est un intervalle qui
contient SX , alors E[X] appartient à I. En effet, supposons par exemple que SX ⊂ I = [a, b] ;
alors :
a ≤ X ≤ b p.s.
D’où :
a ≤ E[X] ≤ b
autrement dit :
E[X] ∈ I
Le même raisonnement peut être suivi pour toutes les autres formes d’intervalles, par exemple
si I = [a, +∞[. Cette remarque préliminaire justifie la cohérence de l’énoncé suivant :
ϕ (E[X]) ≤ E [ϕ(X)]
22 Variables aléatoires réelles
Par définition, ϕ est convexe sur I si pour tous a, b ∈ I et p ∈ [0, 1], alors
ϕ (E[Y ]) ≤ E [ϕ(Y )]
Autrement dit, ϕ est une fonction convexe si elle vérifie l’inégalité de Jensen pour tout variable
aléatoire qui ne prend que deux valeurs. L’inégalité de Jensen nous apprend que dans ce cas,
elle la vérifie aussi pour n’importe quelle variable aléatoire admettant une espérance finie.
Si l’on applique l’inégalité de Jensen à la valeur absolue qui est une fonction convexe sur
R, on retrouve l’inégalité bien connue |E[X]| ≤ E [|X|]. Voyons-en une autre application,
importante :
Corollaire 2.27
Soit X une variable aléatoire réelle et p, q ∈ R∗+ tels que p < q. Alors
1 1
E [|X|p ] p ≤ E [|X|q ] q
Preuve
Appliquons l’inégalité de Jensen à la variable aléatoire |X|p à valeurs dans l’intervalle [0, +∞[
q
et à la fonction x 7→ x p qui est bien définie et convexe sur [0, +∞[ dès lors que pq > 1 :
q h q i
E [|X|p ] p ≤ E (|X|p ) p
1
Comme la fonction x 7→ x q est croissante sur R+ , le corollaire en résulte.
Introduction
Pour caractériser la loi d’une variable aléatoire réelle X, c’est-à-dire d’une probabilité sur R,
il y a bien sûr la densité pour les lois continues, ou la famille des probabilités des singletons
pour les lois discrètes. Mais il y a des lois qui ne sont ni continues ni discrètes, et quand
ce serait le cas, il y a des fois où le calcul de la densité ou de certaines probabilités est
inutilement compliqué. Il existe d’autres fonctions pour caractériser une loi, à l’instar de la
fonction génératrice d’une loi sur N. Nous en verrons trois, la fonction de répartition, la suite
des moments et la fonction caractéristique.
3.1 Densités
La façon sans doute la plus intuitive de caractériser une loi est d’utiliser sa densité, lorsque
celle-ci existe. Pour une loi discrète, cela correspond à la donnée des probabilités des singletons.
Rappelons quelques résultats bien connus.
Les masses ponctuelles caractérisent une loi discrète. Rappelons ce qui caractérise une famille
de masse ponctuelle :
Proposition 3.2
Soit S un ensemble au plus dénombrable. Soit (ps , s ∈ S) une famille de réels tels que :
X
∀s ∈ S, ps > 0 et ps = 1.
s∈S
23
24 Caractériser une loi
∀s ∈ S, P(X = s) = ps .
Proposition 3.3
Soit f une fonction suffisamment régulière sur R, presque partout positive, et d’intégrale
égale à 1. Alors il existe une variable aléatoire dont la loi admet la densité f .
Preuve
Il
R
s’agit simplement de remarquer que l’application qui à tout événement A de R associe
A f (x) dx vérifie bien les propriétés d’une probabilité. Cela est à peu près évident, quelle que
soit la notion d’intégrale utilisée.
Supposons que f et g soient deux densités pour la loi d’une variable aléatoire X et posons
A+ = {x ∈ R/f (x) > g(x)} A0 = {x ∈ R/f (x) = g(x)} A− = {x ∈ R/f (x) < g(x)}
|f (x) − g(x)| dx :
R
Calculons R
Z Z
|f (x) − g(x)| 1A+ (x) + 1A0 (x) + 1A− (x) dx
|f (x) − g(x)| dx =
R ZR Z
= |f (x) − g(x)|1A+ (x) dx + |f (x) − g(x)|1A0 (x) dx
RZ R
L’intégrale d’une fonction positive est nulle si et seulement si la fonction est nulle sauf sur
un ensemble d’intégrale (ou de longueur) nulle (le résultat équivalent en probabilité est la
deuxième assertion de la propriété 2.22). On entend par là un ensemble A tel que :
Z
dx = 0
A
C’est le cas par exemple si A est fini ou dénombrable.
On en déduit que |f − g| = 0 sauf sur un ensemble de longueur nulle. D’où la proposition
suivante :
Proposition 3.4
Soit X et Y deux variables aléatoires réelles, dont les lois admettent les densités fX et fY .
Alors X et Y ont même loi si et seulement si
fX = fY
sauf éventuellement sur un ensemble de longueur nulle.
3.2 Fonctionnelles caractérisant une loi : méthode générale 25
Montrer que les lois de deux variables aléatoires sont distinctes lorsqu’on en connaît des
densités est donc souvent assez évident mais pas toujours simple à démontrer rigoureusement :
il faut montrer que les densités diffèrent sur un ensemble non négligeable de points et pas
seulement en quelques points. Le critère suivant permet de faciliter la preuve.
Proposition 3.5
Soit X et Y de variables aléatoires réelles de densités fX et fY . S’il existe x0 ∈ R tel que fX
et fY soient continues en x0 , et fX (x0 ) 6= fY (x0 ), alors les lois de X et Y sont distinctes.
Soit X, Y deux variables aléatoires réelles de lois respectives PX et PY . On sait que pour tout
événement A de R, alors
PX = PY ⇐⇒ ∀ψ ∈ F, E[ψ(X)] = E[ψ(Y )]
De tels ensembles sont nombreux. Il y a l’ensemble des fonctions indicatrices d’événements,
comme on vient de le voir ; il y a aussi l’ensemble de fonctions continues bornées ou l’ensemble
des fonctions continues positives que l’on utilise pour la méthode de la fonction muette 2.19.
Supposons de plus que l’on puisse paramétrer les fonctions de F :
F = {ψλ , λ ∈ Λ}
Et pour tout λ ∈ Λ, définissons ϕX (λ) = E [ψλ (X)], et de façon similaire ϕY (λ). Alors :
PX = PY ⇐⇒ ∀ψ ∈ F, E[ψ(X)] = E[ψ(Y )]
⇐⇒ ∀λ ∈ Λ, E[ψλ (X)] = E[ψλ (Y )]
⇐⇒ ∀λ ∈ Λ, ϕX (λ) = ϕY (λ)
+∞
sk P (X = k)
X
GX (s) =
k=0
26 Caractériser une loi
pour tout s ∈ [−1, 1] (cf définition 3.47 du cours d’Introduction aux probabilités).
Comme le
développement en série entière est unique, elle détermine bien les probabilités P(X = k), k ∈ N
dont on sait qu’elles caractérisent la loi de X. Enfin, d’après la formule de transfert :
h i
GX (s) = E sX
n o
Elle suit donc bien le schéma général énoncé plus haut avec F = x 7→ sx , s ∈ [−1, 1]
C’est ce schéma général qui va se déployer dans les sections suivantes avec trois ensembles
paramétrés de fonctions tests :
– L’ensemble F = 1]−∞,x] , t ∈ R conduira à l’étude des fonctions de répartition ;
n o
FX : R −→ [0, 1]
x 7−→ FX (x) = P(X ≤ x) = PX (] − ∞, x])
avec PX la loi de X.
Propriété 3.7
Avec les notations précédentes :
Preuve
– Soit x, x0 ∈ R. Si x est inférieur à x0 , alors ] − ∞, x] est inclus dans ] − ∞, x0 ], ce qui
implique FX (x) = PX (] − ∞, x]) ≤ P(] − ∞, x0 ]) = FX (x0 ). La fonction FX est donc
bien croissante sur R.
– Elle admet donc des limites en −∞ et en +∞. On les détermine grâce à la pro-
priété de continuité 1 (monotone) de PX . En effet, comme les suites d’événements
(] − ∞, −n], n ≥ 1) et (] − ∞, n], n ≥ 1) sont respectivement décroissante et croissante,
on en déduit :
3.3 La fonction de répartition 27
– Soit x ∈ R. Comme FX est croissante, elle possède une limite à droite et une limite
à gauche en x. Là encore, on déterminei ces limites igrâce à la propriété
i de continuité
i
de PX . Comme les suites d’événements −∞, x − n , n ≥ 1 et −∞, x + n1 , n ≥ 1
1
1
lim FX (y) = lim FX x−
y→x− n→+∞ n
1
= lim PX −∞, x −
n→+∞
n
1
[
= PX −∞, x −
n≥1 n
= PX (] − ∞, x[)
= PX (] − ∞, x]) − PX ({x}) = FX (x) − P(X = x)
1
lim FX (y) = lim FX x+
y→x+ n→+∞ n
1
= lim PX −∞, x +
n→+∞
n
1
\
= PX −∞, x +
n≥1 n
= PX (] − ∞, x])
= FX (x)
Cela montre que FX est bien continue à droite en x et achève la preuve de la propriété.
Corollaire 3.8
Soit a, b ∈ R avec a < b. Alors, avec les notations précédentes :
28 Caractériser une loi
PX (] − ∞, a] = FX (a)
PX (] − ∞, a[) = lim− FX (x)
x→a
PX (]a, +∞[) = 1 − FX (a)
PX ([a, +∞[) = 1 − lim− FX (x)
x→a
PX (]a, b]) = FX (b) − FX (a)
PX ([a, b]) = FX (b) − lim− FX (x)
x→a
PX (]a, b[) = lim FX (x) − FX (a)
x→b−
PX ([a, b[) = lim FX (x) − lim− FX (x)
x→b− x→a
Corollaire 3.9
Avec les notations précédentes, la fonction de répartition FX admet au plus un nombre
dénombrable de discontinuités.
Preuve
D’après la propriété précédente, FX n’a de discontinuité que là où elle n’est pas continue à
gauche, c’est-à-dire en tout x ∈ R tel que P(X = x) > 0. Or de tels x ne peuvent être qu’en
nombre fini ou dénombrable, d’après la proposition 2.1.
Corollaire 3.10
Si X est une variable à densité, sa fonction de répartition FX est continue sur R.
Preuve
Il suffit de se rappeler que P(X = x) = 0 en tout x ∈ R si X est une variable à densité (cf
Proposition 2.13). Cela implique que la fonction de répartition FX est continue à gauche, et
donc continue, sur tout R.
Attention
Une fonction de répartition peut être continue sans que la loi soit à densité. Il faut davantage
pour que l’on puisse déduire de régularité de la fonction de répartition le fait que la loi admet
une densité, comme la proposition suivante l’illustre.
Proposition 3.11
Soit X une variable aléatoire réelle.
Preuve
La preuve
Rx
découle des résultats classiques reliant intégrale et dérivée, et de la relation
FX (x) = −∞ fX (y) dy.
3.3 La fonction de répartition 29
Loi uniforme
Loi binomiale
Loi de Poisson
30 Caractériser une loi
Loi géométrique
Loi uniforme
3.3 La fonction de répartition 31
Loi exponentielle
Loi normale
32 Caractériser une loi
Loi de Cauchy
Théorème 3.12
Soit F une fonction réelle. C’est la fonction de répartition d’une variable aléatoire réelle si et
seulement si
– lim−∞ F = 0 et lim+∞ F = 1 ;
– elle est continue à droite.
La condition nécessaire a déjà été établie à la propriété 3.7, la condition suffisante est admise.
Sa preuve fait appel à la théorie de la mesure.
Théorème 3.13
Soit X et Y deux variables aléatoires réelles. Elles ont même loi si et seulement si leurs
fonctions de répartition coïncident sur R.
Démonstration
La condition nécessaire est évidente : si X et Y ont même loi, alors en tout x ∈ R :
3.4 Moments
E [|X|n ] < +∞
Le moment d’ordre n de X vaut alors E [X n ], et est souvent noté mn (X).
Si X admet un moment d’ordre n pour tout n ∈ N∗ , on dit qu’elle admet des moments de
tout ordre.
34 Caractériser une loi
Remarque
1. Le moment d’ordre 1 de X est son espérance.
2. On peut étendre la définition précédente à n ∈ R∗+ , voire à n ∈ Z ou n ∈ R.
3. Enfin, rappelons que si X est une variable aléatoire presque sûrement positive (P(X ≥
0) = 1), alors l’espérance E [X n ] est toujours bien définie, mais peut valoir +∞.
Exemple
Soit X une variable aléatoire admettant la densité x 7→ x34 1x≥1 . C’est un exemple de variable
dite « de Pareto », du nom de l’économiste italien qui l’introduisit à la fin du XIXème siècle
pour modéliser la distribution des richesses. Elle est positive presque sûrement. Déterminons
ses moments, s’ils existent, avec la formule de transfert. Soit n ∈ N∗ :
E [|X|n ] = E [X n ]
Z
3
= xn 4 1x≥1 dx
R x
Z +∞
= 3 xn−4 dx
1
= +∞ si n ≥ 3
#+∞
xn−4+1
"
3
= 3 = si n < 3
n−4+1 1 3−n
On dit que X n’a pas de moment supérieur ou égal à 3.
Fondamental
Si une variable aléatoire possède un moment d’ordre q > 0, alors elle possède un moment
d’ordre p pour tout p ∈]0, q[ (cf corollaire 2.27).
Ainsi, pour vérifier qu’une variable aléatoire possède des moments de tout ordre, il suffit
de s’assurer qu’elle possède des moments d’ordre pair. Autre conséquence de la remarque
précédente :
Corollaire 3.15
Si X possède un moment d’ordre n, alors aX + b aussi pour tous a, b ∈ R.
Preuve
En effet :
" n ! n
# !
n k n−k n k n−k h k i
E [|aX + b|n ] ≤ E |a b | × |X|k =
X X
|a b |E |X| < +∞
k=0 k k=0 k
car X possède un moment d’ordre k pour tout k inférieur ou égal à n. Notons que l’on a
pu intervertir somme et espérance pour l’une ou l’autre de ces deux raisons : il s’agit d’une
combinaison linéaire à coefficients positives de variables aléatoires positives ; il s’agit d’une
combinaison linéaire de variables aléatoires admettant une espérance finie.
3.4.2 Variance
h i
var(X) = E X 2 − E[X]2
Son écart-type est égal à la racine carrée de sa variance.
Propriété 3.17
Sous les hypothèses précédentes, la variance de X est positive et vaut :
h i
var(X) = E (X − E[X])2
Preuve
La positivité résulte de la formule annoncée, que l’on établit en la développant :
h i h i
E (X − E[X])2 = E X 2 − 2XE[X] + E[X]2
h i
= E X 2 − 2E[X]2 + E[X]2
h i
= E X 2 − E[X]2 = var(X)
Corollaire 3.18
Soit a, b ∈ R, X une variable aléatoire réelle possédant un moment d’ordre 2. Alors
var(aX + b) = a2 var(X)
Preuve
C’est une conséquence immédiate de la propriété précédente et de la linéarité de l’espérance.
Corollaire 3.19
Une variable aléatoire de variance nulle est constante presque sûrement (elle ne varie pas...).
Preuve
Soit X une variable aléatoire de variance nulle. D’après la propriété précédente, (X − E[X])2
est une variable aléatoire positive d’espérance nulle. D’après la propriété 2.22, elle est nulle
presque sûrement, ce qui signifie
P (X = E[X]) = 1
La variable aléatoire X est donc bien constante presque sûrement.
var(X)
P (|X − E[X]| ≥ t) ≤
t2
h i
avec var(X) = E (X − E[X])2 la variance de X.
Preuve
Il suffit d’appliquer le corollaire 2.24 de l’inégalité de Markov à la variable aléatoire |X − E[X]|
et p = 2.
36 Caractériser une loi
– étant donné une suite de réels, existe-t-il une loi dont elle soit la suite des moments ?
Théorème 3.21
Soit (mn , n ≥ 1) une suite de réels ; on pose m0 = 1. Il existe une variable aléatoire X ayant
des moments de tous ordres telle que
∀n ≥ 1, E [X n ] = mn
1 m1 m2 ··· mk−1
m1 m2 m3 ··· mk
(mp+q−2 )kp,q=1 =
m2 m3 m4 ··· mk+1
.. .. .. .. ..
. . . . .
mk−1 mk mk+2 · · · m2k−2
est positive.
Remarque
Si la condition précédente est vérifiée, alors pour tout k ≥ 1 le déterminant de la matrice
(mp+q−2 )kp,q=1 est positif. Pour k = 2, ce déterminant est égal à
!
1 m1
det = m2 − m21 .
m1 m2
Si m1 et m2 sont les deux premiers moments d’une variable aléatoire X, alors ce déterminant
n’est autre que la variance de X, et il est bien positif.
Plus généralement, si la matrice (mp+q−2 )kp,q=1 est positive, les déterminants de ses mineurs
symétriques par rapport à la diagonale principale sont positifs. Notons qu’un résultat classique
d’algèbre linéaire donne une réciproque partielle : si pour tout k ≥ 1 le déterminant de la
matrice (mp+q−2 )kp,q=1 est strictement positif, alors pour tout k ≥ 1 la matrice (mp+q−2 )kp,q=1
est définie positive.
Démonstration
Nous ne démontrerons que la condition nécessaire. Soit X une variable aléatoire réelle dont
les moments sont décrits par la suite (mn , n ≥ 1). Soit k ≥ 1 et (α0 , . . . , αk−1 ) des réels
quelconques. Alors, comme m0 = 1 = E[X 0 ], on peut écrire :
3.4 Moments 37
2
k−1 k−1 k−1
αp X p αp X p αq X q
X X X
0≤ E
= E
p=0 p=0 q=0
k−1
αp αq X p+q
X
= E
p,q=0
k−1
X
= αp mp+q αq
p,q=0
m0 ··· mk−1 α0
.. .. ..
= α0 · · · αk−1
. .
.
mk−1 · · · m2k−2 αk−1
Lorsque l’on connaît les moments d’une loi, celle-ci n’est pas nécessairement caractérisée
par ses moments. Cette indétermination apparaît lorsque la suite des moments (mn , n ≥ 1)
croît trop vite vers l’infini. Il n’est pas facile de décrire l’ensemble des suites de moments qui
caractérisent une loi, mais il existe un critère simple qui permet de s’en assurer.
X 1
1 = +∞,
n≥1 (m2n ) 2n
alors leurs lois sont égales.
1
Si le critère de Carleman est vérifié, cela signifie que 1 ne tend pas "trop" vite vers 0, et
(m2n ) 2n
donc que m2n ne tend pas "trop" vite vers l’infini.
Démonstration
La première assertion est une conséquence immédiate des formules de transfert, la seconde
assertion est admise.
Exemple
Une
variable aléatoire
X de loi exponentielle de paramètre θ > 0 a pour moments la suite
mn (X) = θn!n , n ≥ 1 dont on peut majorer simplement la croissance :
nn
∀n ≥ 1, mn (X) ≤
θn
D’où :
1 θ
∀n ≥ 1, 1 ≥
m2n 2n 2n
P 1
On en déduit que la série n≥1 1 diverge vers +∞ et que le critère de Carleman est vérifié.
2n
m2n
La loi exponentielle est donc caractérisée par ses moments.
38 Caractériser une loi
Remarque
Si la loi d’une variable aléatoire X est caractérisée par ses moments, alors il en est de même
pour αX + β, quels que soient α, β ∈ R. En effet, connaître les moments de X permet d’en
déduire ceux de αX + β et inversement.
m1 m2 m3 ··· mk
m2 m3 m4 ··· mk+1
(mp+q−1 )kp,q=1 =
m3 m4 m5 ··· mk+2
.. .. .. .. ..
. . . . .
mk mk+1 mk+3 · · · m2k−1
est positive. La condition nécessaire est facile à vérifier et vient de ce que
k−1 2
∀α0 , . . . , αk−1 ∈ R, E X α0 + α1 X + · · · + αk−1 X ≥0
Soit X une variable aléatoire réelle. Son support SX est borné s’il existe α, β ∈ R tels que
−∞ < α ≤ β < +∞ et P(X ∈ [α, β]) = 1.
Exemple
– La loi uniforme sur [0, 1] ou sur {1, . . . , n}, les lois binomiales sont des exemples de loi
à support borné.
– Ni la loi géométrique, ni la loi gaussienne, ni la loi exponentielle ne sont à support
borné.
Théorème 3.23
Soit X une variable aléatoire réelle. Soit α ≥ 0. Les trois assertions suivantes sont équivalentes :
Démonstration
Nous allons montrer ces équivalences par implications circulaires. Les deux premières ne
posent aucune difficulté.
1 =⇒ 2. Soit n ∈ N∗ . Si P(X ∈ [−α, α]) = 1, alors |X| ≤ α presque sûrement, ce qui implique
|X|n ≤ αn presque sûrement, puis E [|X|n ] ≤ E [αn ] = αn .
2 =⇒ 3. C’est immédiat.
3 =⇒ 1. La preuve utilise l’inégalité de Markov, plus exactement son corollaire 2.24. Soit
ε > 0 et n ≥ 1. D’après ce corollaire, on a l’inégalité :
1 2n
E [X 2n ] E [X 2n ] 2n
P(|X| > α + ε) ≤ =
(α + ε)2n α+ε
D’après l’hypothèse,
1
E [X 2n ] 2n
lim sup <1
n→+∞ α+ε
Autrement dit :
1
E [X 2n ] 2n
lim sup <1
N →+∞ n≥N α+ε
ce qui implique qu’il existe β < 1 et N ≥ 0 tels que :
1
E [X 2n ] 2n
sup <β
n≥N α+ε
D’où :
1 2n
E [X 2n ] 2n
∀n ≥ N, < β 2n
α+ε
40 Caractériser une loi
et
1 1
P(|X| > α) = P ∪n≥1 |X| > α + = lim P |X| > α + =0
n n→+∞ n
Nous avons ainsi bien démontré que
Proposition 3.24
Si X est une variable aléatoire bornée, alors ses moments caractérisent sa loi.
Preuve
On peut le démontrer de différentes façons, directement en utilisant le théorème de Stone-
Weierstrass, ou en calculant la fonction caractéristique qui sera étudiée à la section suivante.
1
On peut aussi utiliser le critère de Carleman 3.22. D’après le théorème 3.23, m2n 2n
est borné
par α si X est presque sûrement à valeurs dans [−α, α]. On en déduit immédiatement que
1 1
1 ≥ α et
2n
m2n
X 1
1 = +∞.
m2n
2n
n≥1
Avec la fonction caractéristique, nous allons définir l’outil le plus utilisé pour caractériser une
loi. Comme la fonction de répartition, elle peut être définie pour toutes les lois de probabilité
et elle est particulièrement bien adaptée lorsque l’on traite de sommes de variables aléatoires
indépendantes - nous le verrons dans un chapitre ultérieur.
Du point de vue du cadre général, cela consiste à utiliser la famille de fonctions test
n o
F = x 7→ eitx , t ∈ R .
Il hs’agit ide fonctions à valeurs complexes
h i et bornées ; pour toute variable aléatoire réelle X,
itX iuX
E e = E[1] = 1 et donc E e est bien définie. Cela autorise la définition suivante :
h i
∀t ∈ R, ϕX (t) = E eitX = E [cos(tX)] + iE [sin(tX)] ∈ C
3.5 La fonction caractéristique 41
Propriété 3.26
Avec les hypothèses et les notations précédentes :
1. ϕX (0) = 1 ;
2. ∀t ∈ R, |ϕX (t)| ≤ 1 ;
3. ∀a, b, t ∈ R, ϕaX+b (t) = ϕX (at)eibt ;
4. ϕX est uniformément continue sur R ;
5. Si la loi de X admet une densité, alors ϕX tend vers 0 en ±∞.
Preuve
Les trois premières propriétés sont évidentes :
1. ϕX (0) = E [e0 ] = 1 ;
h i h i
2. ∀t ∈ R, |ϕX (t)| = E eitX ≤ E eitX = 1;
3. ∀a, b, t ∈ R, h i h i
ϕaX+b (t) = E eit(aX+b) = E eiatX eitb = ϕX (at)eibt ;
4. Soit t, u ∈ R ; il s’agit de montrer que l’on peut majorer |ϕX (t + u) − ϕX (t)| uniformé-
ment en t par une fonction h
de u qui tendi vers 0h quand
u tendvers
i
0 :h i
i(t+u)X itX itX iuX
|ϕX (t + u) − ϕX (t)| = E e −e ≤E e e − 1 = E eiuX − 1
D’où : h i
supt∈R |ϕX (t + u) − ϕX (t)| ≤ E eiuX − 1
h i
Pour montrer la continuité uniforme, ne reste plus qu’à montrer que E eiuX − 1
0. Soit (un , n ≥1) une suite quelconque qui tende vers
tend vers 0 quand u tend vers
0. Les variables aléatoires eiun X − 1 , n ≥ 1 sont uniformément bornées par 2 et
limn→+∞ eiun X − 1 = 0. On peut donc appliquer le théorème de convergence dominée
2.21 : h i h i
limn→+∞ E eiun X − 1 = E limn→+∞ eiun X − 1 = 0.
Comme c’est
h
vrai pour
i
toute suite convergeant vers 0, on en déduit :
limu→0 E eiuX − 1 = 0
Puis :
limu→0 (supt∈R |ϕX (t + u) − ϕX (t)|) = 0
Cela établit la continuité uniforme de ϕX .
5. La cinquième propriété est une conséquence du théorème de Riemann-Lebesgue et est
admise.
Loi de Bernoulli
Soit X suivant une loi de Bernoulli de paramètre p ∈ [0, 1] ; alors sa fonction caractéristique
est égale à : pour tout t ∈ R
Loi binomiale
Soit X suivant une loi binomiale de paramètres p ∈ [0, 1] et n ∈ N ; alors sa fonction
caractéristique est égale à : pour tout t ∈ R
n n
!
itk n n
pk (1 − p)n−k eikt = 1 − p + peit
X X
ϕX (t) = e P(X = k) =
k=0 k=0
k
Loi géométrique
Soit X suivant une loi géométrique de paramètre p ∈]0, 1] ; alors sa fonction caractéristique
est égale à : pour tout t ∈ R
+∞ +∞
peit
eitk P(X = k) = eitk p(1 − p)k−1 =
X X
ϕX (t) =
k=1 k=1 1 − (1 − p)eit
Loi de Poisson
Soit X suivant une loi de Poisson de paramètre λ ≥ 0 ; alors sa fonction caractéristique est
égale à : pour tout t ∈ R
+∞ +∞
λk −λ it it
itk
eitk e = eλe e−λ = eλ(e −1)
X X
ϕX (t) = e P(X = k) =
k=0 k=0 k!
eitb − eita
!
1 Z b itx a+b b−a
ϕX (t) = e dx = = et 2 sinc t
b−a a it(b − a) 2
sin x
avec sinc(x) = x
la fonction sinus cardinal.
Loi exponentielle
Soit X suivant une loi exponentielle de paramètre θ > 0 ; alors sa fonction caractéristique est
égale à : pour tout t ∈ R
Z +∞
θ
ϕX (t) = eitx θe−θx dx =
0 θ − it
Loi gamma
Soit X suivant une loi gamma de paramètres θ > 0 (paramètre d’échelle) et p > 0 (paramètre
de forme) ; rappelons qu’elle admet pour densité :
θp p−1 −θx
x e 1x>0
fθ,p (x) =
Γ(p)
D’après la formule de transfert, sa fonction caractéristique est égale à : pour tout t ∈ R
Z
itx
Z +∞
θp p−1 −θx
ϕX (t) = e fθ,p (x) dx = eitx x e dx
R 0 Γ(p)
3.5 La fonction caractéristique 43
#+∞
θp p−1 e(it−θ)x 1 Z +∞ θp
"
ϕX (t) = x − (p − 1)xp−2 e(it−θ)x dx
Γ(p) it − θ 0 it − θ 0 Γ(p)
Z +∞ p−1
θ θ
= 0+ xp−2 e(it−θ)x dx
θ − it 0 Γ(p − 1)
θ Z +∞ itx
= e fθ,p−1 (x) dx
θ − it 0
Par une récurrence immédiate, on en déduit :
!p−1 Z !p
θ +∞ θ
itx
ϕX (t) = e fθ,1 (x) dx =
θ − it 0 θ − it
Cette formule, établie pour p entier, reste vraie pour tout p ∈ R∗+ .
Loi gaussienne
Soit X suivant une loi gaussienne de moyenne µ et de variance σ 2 ; alors sa fonction caracté-
ristique est égale à : pour tout t ∈ R
σ 2 t2
ϕX (t) = eiµt− 2
Loi de Cauchy
a
Soit X suivant une loi de Cauchy, de densité x 7→ π(a2 +(x−x 2 avec un facteur d’échelle a > 0
0) )
et une médiane x0 ∈ R ; alors sa fonction caractéristique est égale à : pour tout t ∈ R
Théorème 3.27
Soit ϕ une fonction définie sur R et à valeurs dans C. Il existe une variable aléatoire réelle
dont elle est la fonction caractéristique si et seulement si :
1. ϕ(0) = 1 ;
2. ϕ est continue en 0 ;
3. ϕ est symétrique au sens où ϕ(−t) = ϕ(t) pour tout t ∈ R ;
44 Caractériser une loi
Démonstration
Nous n’établirons que la condition nécessaire. Supposons qu’il existe une variable aléatoire
réelle X dont ϕ soit la fonction caractéristique. Les assertions 1 et 2 ont déjà été vues à la
propriété 3.26. La troisième est évidente : soit t ∈ R ; alors
h i h i
ϕ(−t) = E e−itX = E eitX = E [eitX ] = ϕ(t)
Montrons la quatrième assertion. Soit k ≥ 1, t1 , . . . , tk ∈ R, α1 , . . . , αk ∈ C ; alors
2
k k k
αp eitp X = E αp eitp X
X X X
0 ≤ E αq eitq X
p=1 p=1 p=1
k k
αp eitp X ᾱq e−itq X
X X
= E
p=1 p=1
k
αp ᾱq ei(tp −tq )X
X
= E
p,q=1
k
X
= αp ᾱq ϕ(tp − tq )
p,q=1
ᾱ1
..
= α1 · · · αk
ϕ(tp − tq )
.
ᾱk
Théorème 3.28
Soit X et Y deux variables aléatoires. Elles ont même loi si et seulement si leurs fonctions
caractéristiques sont égales.
Démonstration
La condition nécessaire est une simple conséquence de la formule de transfert. La condition
suffisante est admise.
Si X est une variable aléatoire discrète et que l’on connaît les probabilités des singletons
{X = x} pour tout x dans le support SX , ou si elle est à densité et que l’on en connaisse
une densité, on peut calculer sa fonction caractéristique à l’aide de la formule de transfert.
Réciproquement, il est souvent possible de calculer les probabilités d’une variable discrète ou
la densité d’une variable continue à partir de sa fonction caractéristique.
3.5 La fonction caractéristique 45
Proposition 3.29
Soit X une variable aléatoire à valeurs dans Z, de fonction caractéristique ϕX . Alors
1 Z 2π
∀k ∈ Z, P(X = k) = ϕX (t)e−itk dt
2π 0
Dans ce cas particulier, cela montre que la fonction caractéristique caractérise bien la loi de
X.
Preuve
Notons pn = P(X = n) pour tout n ∈ Z. Alors ϕX est une fonction continue bornée sur
[0, 2π] et pour tout k ∈ Z
Z 2π Z 2π Z 2π
ϕX (t)e−ikt dt = eitn pn e−ikt dt = eit(n−k) pn dt
X X
0 0 n∈Z 0 n∈Z
Comme
Z 2π Z 2π Z 2π
eit(n−k) pn dt =
X X
pn dt = dt < +∞,
0 n∈Z 0 n∈Z 0
Z 2π X Z 2π
−ikt
ϕX (t)e dt = eit(n−k) pn dt
0 n∈Z 0
R 2π it(n−k)
Calculons 0 e p n dt :
– si n 6= k, alors
" #2π
Z 2π
it(n−k) 1
e pn dt = eit(n−k) pn =0;
0 i(n − k) 0
– si n = k, alors
Z 2π
eit(n−k) pn dt = 2πpk
0
D’où
Z 2π X Z 2π
ϕX (t)e−ikt dt = eit(n−k) pn dt = 2πpk
0 n∈Z 0
Remarque
Le résultat précédent ressort de l’étude des séries de Fourier : ϕX est une fonction continue
et périodique, développable en série de Fourier et dont les coefficients de Fourier sont
(ck = P(X = k), k ∈ Z)
46 Caractériser une loi
Lorsque la loi d’une variable aléatoire admet une densité, il est également possible de
déterminer cette densité par un calcul direct utilisant la fonction caractéristique, mais sous
conditions.
Théorème 3.30
Soit X une variable aléatoire réelle admettant une densité fX et de fonction caractéristique
ϕX . Si ϕX est intégrable, i.e. si
Z +∞
|ϕX (t)| dt < +∞
−∞
alors en tout point x0 où fX est continue :
1 Z +∞
fX (x0 ) = ϕX (t)e−itx0 dt
2π −∞
La preuve est admise.
Soit X une variable aléatoire réelle ayant des moments de tous ordres, ϕX sa fonction
caractéristique :
h i (it)n n
∀t ∈ R, ϕX (t) = E eitX
X
= E X
n≥0 n!
À supposer que l’on puisse intervertir somme et espérance, au moins pour certaines valeurs
de t dans un voisinage de 0, par exemple si
|t|n
E [|X|n ] est fini,
X
n≥0 n!
alors
(it)n
E [X n ] .
X
ϕX (t) =
n≥0 n!
Dans ce cas, les moments permettent de calculer la fonction caractéristique dans un voisinage
de 0 et, réciproquement, l’unicité du développement en série entière de ϕX permet d’en
déduire les moments.
La proposition suivante décrit plus généralement les relations entre la fonction caractéristique
de X et ses moments lorsque X possède seulement un moment d’ordre n.
Proposition 3.31
Soit X une variable aléatoire réelle, de fonction caractéristique ϕX et possédant un moment
d’ordre n ∈ N∗ . Alors ϕX est continûment dérivable jusqu’à l’ordre n et pour tout p = 1, . . . , n
et t ∈ R :
h i
(p)
ϕX (t) = ip E X p eitX
(p)
En particulier, ϕX (0) = ip E [X p ] et
(it)n
ϕX (t) = 1 + itE[X] + · · · + E [X n ] + o (tn )
n!
3.5 La fonction caractéristique 47
Preuve
Supposons d’abord que la loi de X admet la densité fX et montrons le résultat pour n = 1.
Posons
Z +∞ Z +∞
|g(x, t)| dx = fX (x) dx = 1 < +∞ ;
−∞ −∞
continûment dérivable en t :
∂g
(x, t) = ixeitx fX (x) ;
∂t
et sa dérivée partielle en t est uniformément majorée (en t) par |x|fX (x) qui est intégrable :
Z +∞
|x|fX (x) dx = E[|X|] < +∞.
−∞
D’après
R +∞
le théorème de dérivation sous l’intégrale, on en déduit que la fonction ϕX (·) =
−∞ g(x, ·) dx est dérivable sur R, de dérivée :
Z +∞ Z +∞
∂g h i
∀t ∈ R, ϕ0X (t) = (x, t) dx = ixeitx fX (x) dx = iE XeitX
−∞ ∂t −∞
Attention
La réciproque est fausse. Il existe des variables aléatoires dont la fonction caractéristique est
continûment dérivable et qui n’ont pas de moment d’ordre 1.
Exemple
Si X suit la loi de densité fX (x) = cte × 1|x|>2 x2 ln1 |x| , alors X ne possède aucun moment et
sa fonction caractéristique est continûment dérivable.
4
Vecteurs aléatoires
4.1.1 Définition
Soit X une variable aléatoire définie sur un espace de probabilité (Ω, P) et à valeurs dans Rn .
Si n est strictement plus grand que 1, on parle habituellement de vecteur aléatoire. On note
X = (X1 , . . . , Xn ) et PX la loi de X, autrement dit la probabilité définie sur Rn telle que,
pour tout événement B de Rn :
Définition 4.1
On dit que X est un vecteur aléatoire à densité s’il existe une fonction définie sur Rn , presque
partout positive, suffisamment régulière pour être localement intégrable, telle que pour tout
événement B de Rn :
Z
PX (B) = 1B (x1 , . . . , xn ) f (x1 , . . . , xn ) dx1 · · · dxn
Rn
Propriété 4.2
Une fonction f définie sur Rn est une densité de probabilité si :
Preuve
Vérifions que sous ces conditions l’application B 7→ B f définit bien une probabilité sur Rn .
R
R
– Comme f est presque partout positive et localement intégrable, on peut calculer B f
n
pour tout événement B de R , et B f ≥ 0
R
49
50 Vecteurs aléatoires
– Si B = Rn , alors
R
B f = 1;
– Soit (An , n) une famille finie ou dénombrable d’événements disjoints ; alors 1S An =
n
n 1An et
P
Z Z X XZ XZ
S f= 1A n f = 1An f = f
n
An n n n An
où l’on a pu se servir du théorème de Fubini-Tonelli, car 1An f est presque partout positif.
Remarque
Comme pour les densités sur R, il n’y a pas unicité de la densité associée à une loi de
probabilité. Il suffit (et il faut) que deux densités soient égales presque partout pour qu’elles
soient associées à la même loi.
Conseil
Comme dans le cas réel (cf proposition 3.5), il suffit de montrer que deux densités prennent
des valeurs distinctes en un point de Rn où elles sont toutes les deux continues pour prouver
qu’elles sont associées à des lois distinctes.
p ∈ J1, nK :
Z Z Z
ϕ (x1 , . . . , xn ) dx1 · · · dxn = ϕ (x1 , . . . , xn ) dx1 · · · dxp dxp+1 · · · dxn
Rn R n−p Rp
Z Z Z
= ··· ϕ (x1 , . . . , xn ) dx1 · · · dxn−1 dxn
R R R
Exemple
Soit la fonction définie par
n o
f (x, y) = 3(x + y)1(x,y)∈D avec D = (x, y) ∈ R2 | x ≥ 0, y ≥ 0, x + y ≤ 1 .
C’est une fonction positive, suffisamment régulière etc. Calculons son intégrale :
Z Z
f (x, y) dxdy = 3(x + y)10≤x,0≤y,x+y≤1 dxdy
R2 R2
On
R R
souhaite appliquer le théorème de Fubini-Tonelli et mettre l’intégrale sous la forme
( (x + y) dx) dy. Il faut déterminer avec soin les bornes des intégrales, en utilisant des
équivalences et en vérifiant que chaque inégalité dans le système initial est bien
R R
présente, éven-
tuellement transformée, dans le système final. Bien noter que si l’on calcule ( (x + y) dx) dy
en intégrant d’abord en x puis en y, le calcul des bornes se fait dans l’ordre inverse : on
détermine d’abord les bornes de y, puis, à y fixé, on détermine les bornes de x :
4.1 Vecteurs aléatoires à densité 51
0 ≤ x
0 ≤ y ⇐⇒ 0 ≤ y ≤ x + y ≤ 1
x+y ≤ 1
(
0 ≤ y ≤ 1
⇐⇒
0 ≤ x ≤ 1−y
Z Z 1 Z 1−y
3(x + y)1x+y≤1 dxdy = 3 (x + y) dx dy
R2+ 0 0
1−y
Z 1
1 2
= 3 (x + y) dy
20 0
1
Z 1
= 3 1 − y 2 dy
0 2
1 1
= 3 −
2 6
= 1
Soit X = (X1 , . . . , Xn ) un vecteur aléatoire défini sur un espace de probabilité (Ω, P) et dont
la loi admet la densité f . Soit ϕ une fonction réelle définie sur Rn . Alors Y = ϕ(X) est une
variable aléatoire réelle. L’objet de cette section est de définir l’espérance de Y à partir de la
loi de X en utilisant une formule de transfert.
Définition-proposition 3
Supposons d’abord ϕ ≥ 0. Alors Y admet une espérance finie ou infinie et
Z
E[Y ] = E [ϕ(X)] = ϕ (x1 , . . . , xn ) f (x1 , . . . , xn ) dx1 · · · dxn
Rn
Si ϕ n’est pas de signe constant, mais si E[|Y |] < +∞, alors Y admet une espérance finie et
on définit E[Y ] avec la même formule que précédemment. Cette fois, l’intégrale converge et
est à valeurs dans R.
Remarque
Si ϕ = 1B , avec B un événement de Rn , alors
Z
E [ϕ(X)] = f (x1 , . . . , xn ) dx1 · · · dxn = P(X ∈ B)
B
Exemple
Reprenons l’exemple de la section précédente, avec (X, Y ) couple de variables aléatoires dont
52 Vecteurs aléatoires
la loi admet la densité f (x, y) = 3(x + y)10≤x,0≤y,x+y≤1 . Calculons E[XY ]. Remarquons que
cette espérance est bien définie car XY est une variable positive presque sûrement. Elle l’est
aussi parce que XY est une variable aléatoire bornée presque sûrement. D’après la formule
de transfert, et en utilisant le théorème de Fubini comme précédemment :
Z
E[XY ] = xyf (x, y) dxdy
RZ2
Z
E [ϕ(X)] = ϕ (x1 , . . . , xn ) g (x1 , . . . , xn ) dx1 · · · dxn
Rn
alors la loi de X admet g comme densité.
Dans la pratique, on est amené à effectuer des changements de variables dans des intégrales
multiples de la forme :
Z
I= ϕ(ψ(x1 , . . . , xn ))f (x1 , . . . , xn ) dx1 · · · dxn
D
avec ϕ et f fonctions réelles définies sur Rn . On souhaite faire le changement de va-
riables (u1 , . . . , un ) = ψ(x1 , . . . , xn ). On suppose que D est un ouvert et que ψ est un
C 1 -difféomorphisme de D sur ψ(D) — c’est-à-dire que
– ψ est injective sur D ;
– ψ et sa réciproque ψ −1 de ψ(D) sur D sont C 1 ;
ou de façon équivalente :
– ψ est injective sur D ;
– ψ est C 1 et son jacobien Jψ ne s’annule pas sur D.
Alors
Z
I = ϕ(u1 , . . . , un )f (ψ −1 (u1 , . . . , un )) |Jψ−1 (u1 , . . . , un )| du1 · · · dun
ψ(D)
Z
1
= ϕ(u1 , . . . , un )f (ψ −1 (u1 , . . . , un )) du1 · · · dun
ψ(D) |Jψ ◦ ψ −1 (u 1 , . . . , un )|
4.1 Vecteurs aléatoires à densité 53
Exemple
Reprenons encore l’exemple précédent et tâchons de déterminer la loi du vecteur aléatoire
(U, V ) = (X + Y, X − Y ). Utilisons la méthode de la fonction muette. Soit ϕ une fonction
réelle, continue et bornée sur R2 . Calculons E[ϕ(U, V )] :
Z
E[ϕ(U, V )] = E[ϕ(X + Y, X − Y )] = ϕ(x + y, x − y) × 3(x + y) dxdy
D
On souhaite effectuer le changement de variables (u, v) = ψ(x, y) = (x + y, x − y).
Première étape : inverser le changement de variables.
Le changement de variables est clairement injectif sur D̊ = {x > 0, y > 0, x + y < 1} et même
sur R2 car l’on a : pour tous (x, y), (u, v) ∈ R2 :
( (
u+v
u = x+y x =
⇐⇒ 2
u−v
v = x−y y = 2
Dans l’intégrale, on remplacera donc ϕ(x + y, x − y) × 3(x + y) par ϕ(u, v) × 3u.
Deuxième étape : exprimer dxdy en fonction de dudv.
Il faut calculer le jacobien du changement de variables :
0 ≤ x
(x, y) ∈ D ⇐⇒ 0 ≤ y
x+y ≤ 1
0 ≤ u+v
2
⇐⇒ 0 ≤ u−v
2
u ≤ 1
−v ≤ u
⇐⇒ v ≤ u
u ≤ 1
54 Vecteurs aléatoires
Le nouveau domaine d’intégration est donc défini par D0 = {(u, v) ∈ R2 | |v| ≤ u ≤ 1}.
1
Z
I= dudvϕ(u) × 3u ×
2D0
On en déduit que la loi du couple (U, V ) admet la densité 3u 1
2 (u,v)∈D
0.
Remarquons pour conclure que D n’est pas un domaine ouvert, comme demandé dans le
rappel qui précède cet exemple. Mais c’est sans importance, car on a pu le remplacer par son
intérieur D̊ sans modifier la valeur de l’intégrale.
Soit X = (X1 , . . . , Xn ) un vecteur aléatoire défini sur un espace de probabilité (Ω, P). La loi
de X est aussi appelée « loi jointe », et les lois de X1 , . . . , Xn (ou de tout sous-vecteur de X)
sont appelées « lois marginales ». Voyons d’abord sur un exemple comment on peut calculer
une loi marginale à partir d’une loi jointe.
Exemple
On reprend l’exemple déjà étudié d’un vecteur aléatoire (X, Y ) dont la loi admet la densité
f (x, y) = 3(x + y)10≤x,0≤y,x+y≤1 . On cherche à déterminer la loi de X en utilisant la méthode
de la fonction muette. Soit ϕ une fonction réelle, continue et bornée, définie sur R. Calculons
E[ϕ(X)] :
Z
E[ϕ(X)] = ϕ(x)f (x, y) dxdy
2
ZR Z
= ϕ(x) f (x, y) dy dx en utilisant le théorème de Fubini
R R
Z 1 Z 1−x
= ϕ(x) 3(x + y) dy dx
0 0
Z 1
3
= ϕ(x) (1 − x2 ) dx
0 2
f (x, y) dy = 23 (1 − x2 )10≤x≤1 .
R
La loi de X admet donc la densité fX (x) = R
Proposition 4.3
Soit X = (X1 , . . . , Xn ) un vecteur aléatoire dont la loi admet la densité f . Pour tout p ∈ J1, nK,
Attention
Si la loi jointe admet une densité, les lois marginales aussi. Mais l’inverse n’est pas vrai.
Considérons par exemple X de loi uniforme sur [0, 1]. Alors la loi (jointe) du vecteur (X, X)
n’admet pas de densité, à l’opposé de ses marginales (strictes).
4.1 Vecteurs aléatoires à densité 55
Introduction
Soit (X, Y ) un couple de variables aléatoires à valeurs discrètes, définies sur un même espace
de probabilité (Ω, P). Elles sont indépendantes si et seulement si pour tous (x, y)
Les résultats de cette partie sont valables pour des vecteurs aléatoires discrets ou continus.
Définition 4.4
Soit X1 , . . . , Xp des vecteurs aléatoires définis sur un même espace de probabilité (Ω, P) et à
valeurs dans Rd1 , . . . , Rdp respectivement. Ils sont indépendants si et seulement si pour tous
événements B1 ⊂ Rd1 , . . . , Bp ⊂ Rdp , les événements (de Ω) {X1 ∈ B1 }, . . . , {Xp ∈ Bp } sont
indépendants.
Propriété 4.5
Avec les notations précédentes, X1 , . . . , Xp sont indépendants si et seulement si pour tous
événements B1 ⊂ Rd1 , . . . , Bp ⊂ Rdp :
Preuve
Notons d’abord que la définition implique la caractérisation 4.1. Supposons maintenant que
cette caractérisation soit vérifiée. Soit B1 ⊂ Rd1 , . . . , Bn ⊂ Rdp des événements quelconques.
Pour montrer que {X1 ∈ B1 }, . . . , {Xp ∈ Bp } sont indépendants, il faut vérifier que pour
tout (i1 , . . . , ip ) tel que 1 ≤ i1 < i2 < · · · < ik ≤ p on a
Proposition 4.6
Soit X1 , . . . , Xp des vecteurs aléatoires indépendants, à valeurs dans Rd1 , . . . , Rdp respective-
ment. Soit ϕ1 , . . . , ϕp des fonctions de Rd1 , . . . , Rdp dans Re1 , . . . , Rep respectivement. Alors
les vecteurs aléatoires ϕ1 (X1 ) , . . . , ϕp (Xp ) sont indépendants.
56 Vecteurs aléatoires
Preuve
Soit B1 ⊂ Re1 , . . . , Bp ⊂ Rep des événements. Alors pour tout i,
ϕi (Xi ) ∈ Bi ⇐⇒ Xi ∈ ϕ−1
i (Bi )
Une loi jointe n’est pas caractérisée par ses lois marginales, et les lois marginales peuvent
être à densité tandis que la loi jointe ne l’est pas. Mais si l’on se donne des lois à densités, on
peut construire une loi jointe à densité dont elles sont les marginales.
Proposition 4.7
Soit f1 , . . . , fn des densités de lois réelles. Soit f la fonction définie par
Alors f est une densité de probabilité sur Rn dont f1 , . . . , fn sont les densités des lois
marginales unidimensionnelles associées. Elle est appelée densité produit ou densité de la loi
produit et on la note f = f1 ⊗ · · · ⊗ fn .
Preuve
Il est clair que f est une fonction positive presque partout. On peut donc calculer son intégrale.
Il reste à vérifier qu’elle vaut 1 grâce au théorème de Fubini-Tonelli :
Z Z Z
f (x1 , . . . , xn ) dx1 · · · dxn = f1 (x1 ) · · · fn−1 (xn−1 ) fn (xn )dxn dx1 · · · dxn−1
Rn Rn−1 R
d’après le théorème de Fubini-Tonelli
Z Z
= f1 (x1 ) dx1 · · · fn (xn ) dxn en réitérant l’opération précédente
R R
= 1 × ··· × 1 = 1
La fonction f est donc bien une densité de probabilité. Déterminons les lois marginales. Soit
(X1 , . . . , Xn ) un vecteur aléatoire de densité f . Alors la loi de X1 admet la densité :
Z Z
fX1 (x1 ) = f (x1 , . . . , xn ) dx2 · · · dxn = f1 (x1 ) f2 (x2 ) · · · fn (xn ) dx2 · · · dxn = f1 (x1 )
Rn−1 Rn−1
Remarque
Ce théorème reste vrai si l’on suppose que fi est une densité sur Rdi et que l’on définit f
comme précédemment, mais cette fois comme densité d’une loi sur Rd1 +···+dn .
La densité ainsi construite a partie liée avec la notion d’indépendance de variables aléatoires.
Théorème 4.8
Soit X = (X1 , . . . , Xn ) un vecteur aléatoire de densité f . Soit fX1 , . . . , fXn les densités des
lois marginales. Alors il y a équivalence entre les assertions suivantes :
1. X1 , . . . , Xn sont indépendants ;
2. f = fX1 ⊗ · · · ⊗ fXn presque partout ;
3. il existe g1 , . . . , gn fonctions positives telles que f = g1 ⊗ · · · ⊗ gn presque partout ;
4. quelles que soient les fonctions réelles ϕ1 , . . . , ϕn , toutes positives ou telles que ϕ1 (X1 ), . . . , ϕn (Xn )
admettent toutes une espérance finie :
Remarque
Il ressort du théorème que si X1 , . . . , Xn sont des variables aléatoires réelles indépendantes
d’espérance finie, alors X1 · · · Xn est aussi d’espérance finie. Il est important de noter que
c’est bien sûr faux si X1 , . . . , Xn ne sont pas indépendants. Pour un contre-exemple, il suffit
de choisir X1 = X2 = · · · = Xn .
Démonstration
Montrons d’abord que les assertions 2 et 3 sont équivalentes. L’implication 2 =⇒ 3 est
évidente. Supposons l’assertion R3 vérifiée, c’est-à-dire f = g1 ⊗ · · · ⊗ gn presque partout, avec
g1 , . . . , gn ≥ 0. On note Ci = R gi (x) dx. On voit que Ci est positif pour tout i. De plus,
grâce au théorème de Fubini-Tonelli :
Z Z Z
1= f (x1 , . . . , xn ) dx1 · · · dxn = g1 (x1 )dx1 · · · gn (xn )dxn = C1 · · · Cn
Rn R R
En particulier on a 0 < Ci < +∞ pour tout i. Calculons fX1 grâce à la proposition précédente :
pour presque tout x1 ∈ R
Z
g1 (x1 )
fX1 (x1 ) = f (x1 , . . . , xn ) dx2 · · · dxn = · · · = g1 (x1 )C2 · · · Cn =
Rn−1 C1
où l’on a encore appliqué le théorème de Fubini-Tonelli. D’où pour presque tout (x1 , . . . , xn ) :
g1 (x1 ) · · · gn (xn )
f (x1 , . . . , xn ) = g1 (x1 ) · · · gn (xn ) = = fX1 (x1 ) · · · fXn (xn )
C1 · · · Cn
Ce qui établit l’assertion 2.
Vérifions maintenant que l’assertion 2 implique l’assertion 4. C’est une simple conséquence
des théorèmes de Fubini (comme d’ailleurs tous les résultats de cette section !). Si l’assertion
2 est vraie, c’est-à-dire si f = fX1 ⊗ · · · ⊗ fXn presque partout, alors, avec les notations de
l’énoncé et en supposant ϕ1 , . . . , ϕn positives :
58 Vecteurs aléatoires
Z
E [ϕ1 (X1 ) · · · ϕn (Xn )] = ϕ1 (x1 ) · · · ϕn (xn )fX1 (x1 ) · · · fXn (xn ) dx1 · · · dxn
n
ZR Z
= ϕ1 (x1 )fX1 (x1 ) dx1 × · · · × ϕn (xn )fXn (xn ) dxn
R R
en utilisant le théorème de Fubini-Tonelli
= E [ϕ1 (X1 )] · · · E [ϕn (Xn )]
Si ϕ1 (X1 ), . . . , ϕn (Xn ) admettent une espérance finie, alors leur produit ϕ1 (X1 ), . . . , ϕn (Xn )
aussi. Il suffit d’appliquer ce qui précède à |ϕ1 (X1 )| , . . . , |ϕn (Xn )| :
E [|ϕ1 (X1 ) · · · ϕn (Xn )|] = E [|ϕ1 (X1 )|] · · · E [|ϕn (Xn )|] < +∞
On peut donc reprendre les calculs précédents en utilisant cette fois le théorème de Fubini à
la place de Fubini-Tonelli. D’où
(
E [1B1 (X1 ) · · · 1Bn (Xn )] = P (X1 ∈ B1 , . . . , Xn ∈ Bn )
E [ϕ1 (X1 ) · · · ϕn (Xn )] =
E [ϕ1 (X1 )] · · · E [ϕn (Xn )] = P (X1 ∈ B1 ) · · · P (Xn ∈ Bn )
Ne reste plus qu’à montrer que l’assertion 1 implique l’assertion 2. On se contentera d’une
preuve partielle. Supposons l’assertion 1 vérifiée, c’est-à-dire X1 , . . . , Xn indépendants et
considérons B1 , . . . , Bn des événements de R. Alors, d’une part :
D’autre part :
Z Z
P (X1 ∈ B1 ) · · · P (Xn ∈ Bn ) = 1B1 (x1 )fX1 (x1 ) dx1 × · · · × 1Bn (xn )fXn (xn ) dxn
ZR R
= 1B1 (x1 )fX1 (x1 ) · · · 1Bn (xn )fXn (xn ) dx1 · · · dxn
Rn
Zen utilisant le théorème de Fubini-Tonelli
= 1B1 ×···×Bn (x1 , . . . , xn )fX1 (x1 ) · · · fXn (xn ) dx1 · · · dxn
Rn
Cela montre que les deux lois déterminées par les densités f et fX1 ⊗ · · · ⊗ fXn coïncident sur
les « pavés », c’est-à-dire sur les événements de la forme B1 × · · · × Bn . Il resterait à montrer
4.2 Vecteurs aléatoires : propriétés générales 59
rigoureusement que cela implique qu’elles coïncident sur n’importe quel événement de Rn .
On peut néanmoins s’en convaincre en songeant qu’en utilisant les propriétés des probabilités,
cette coïncidence reste vraie pour des réunions et intersections dénombrables de pavés, et que
l’on peut construire ainsi un très grand nombre d’événements... Une fois admis que les deux
lois coïncident, cela signifie que leurs densités sont égales presque partout, autrement dit que
l’assertion 2 est vérifiée.
Remarque
– Le théorème précédent se généralise sans difficulté si l’on considère des marginales
de dimension supérieure à 1. En particulier, supposons que (X1 , . . . , Xp ) ait f1 pour
densité, et (Xp+1 , . . . , Xn ) ait f2 pour densité. Alors les vecteurs aléatoires (X1 , . . . , Xp )
et (Xp+1 , . . . , Xn ) sont indépendants si et seulement si la loi du vecteur aléatoire
(X1 , . . . , Xn ) admet f1 ⊗ f2 pour densité.
– L’équivalence entre la première et la quatrième assertion est valable pour tout vecteur
aléatoire, qu’il soit à densité ou non.
4.2.1 Inégalités
q
|E[XY ]| ≤ E [|XY |] ≤ E [X 2 ] E [Y 2 ]
Preuve
Remarquons d’abord que
X2 + Y 2
|XY | ≤
2
Ce dont on déduit :
1 h 2i h i
E X + E Y 2 < +∞
E[|XY |] ≤
2
La variable aléatoire XY admet donc bien une espérance finie.
h i
P (t) = E (X + tY )2 ≥ 0
h i
= E X 2 + 2tXY + t2 Y 2
h i h i
= E X 2 + 2tE[XY ] + t2 E Y 2
Notons que l’on a pu développer linéairement l’espérance car chaque terme est bien fini.
Il s’agit donc d’un polynôme du second degré toujours positif. Cela implique que son
discriminant est négatif ou nul :
h i h i
∆ = 4E[XY ]2 − 4E X 2 E Y 2 ≤ 0
On en déduit l’inégalité :
q
|E [XY ]| ≤ E [X 2 ] E [Y 2 ]
Il reste à l’appliquer à |X| et |Y | pour retrouver celle annoncée dans l’énoncé.
h i
0 = P (t0 ) = E (X + t0 Y )2
Autrement dit, s’il existe t0 tel que X + t0 Y = 0 presque sûrement (ou l’inverse Y + t0 X = 0 :
n’oublions pas le cas Y = 0 presque sûrement).
Exemple
Avec Y = 1, on retrouve l’inégalité de Cauchy-Schwarz déjà vue.
1 1
E[|XY |] ≤ E [|X|p ] p E [|Y |q ] q
En conséquence, si E [|X|p ] < +∞ et E [|Y |q ] < +∞, alors E[|XY |] < +∞, l’espérance de
XY est bien définie et l’on a
1 1
|E[XY ]| ≤ E [|X|p ] p E [|Y |q ] q
4.2 Vecteurs aléatoires : propriétés générales 61
Remarque
Cette inégalité s’étend au cas p = +∞ et q = 1 dans la façon suivante : si X est une variable
aléatoire bornée (presque sûrement), posons
1
K∞ = lim E[X 2n ] 2n
n→+∞
|X| 6 K∞ p.s.
D’où :
Remarque
Dans le cas particulier Y = 1, on retrouve le corollaire de l’inégalité de Jensen.
1 1 1
E [|X + Y |p ] p ≤ E [|X|p ] p + E [|Y |p ] p
L’inégalité de Minkowski a comme conséquence que l’ensemble des variables aléatoires ayant
un moment d’ordre k est un espace vectoriel.
Remarque
– Pour p = 1, c’est une conséquence de l’inégalité triangulaire habituelle :
|X + Y | 6 |X| + |Y |
– Pour p = 2, c’est une conséquence de l’inégalité de Cauchy-Schwarz :
q q q 2
2 2 2 2
E[|X+Y | ] = E[X ]+2E[XY ]+E[Y ] 6 E[X ]+2 E[X 2 ]E[Y 2 ]+E[Y 2 ] = E[X 2 ] + E[Y 2]
Complément
Ces inégalités peuvent être généralisées en plus grande dimension. Soit (X1 , . . . , Xn ) un vecteur
aléatoire à valeurs dans Rn . La généralisation de l’inégalité de Minkowski est immédiate :
pour tout p ≥ 1
1 1 1
E [|X1 + · · · + Xn |p ] p ≤ E [|X1 |p ] p + · · · + E [|Xn |p ] p
1 1
Pour généraliser l’inégalité de Hölder, considérons p1 , . . . , pn > 1 tels que p1
+ ··· + pn
= 1.
Alors
1 1
E[|X1 · · · Xn |] ≤ E [|X1 |p1 ] p1 · · · E [|Xn |pn ] pn
62 Vecteurs aléatoires
Définition 4.12
– X = (X1 , . . . , Xn ) vecteur aléatoire à valeurs dans Rn .
On appelle fonction de répartition de X la fonction FX définie par :
Cette fonction est moins utilisée que pour des variables aléatoires réelles. Ses propriétés sont
similaires à celles qui ont déjà été vues. Indiquons-en deux d’importance.
Théorème 4.13
– X et Y deux vecteurs aléatoires à valeurs dans Rn
Alors
loi
X = Y ⇐⇒ FX = FY
Propriété 4.14
– X un vecteur aléatoire à valeurs dans Rn
– ayant une densité fX
Si fX est continue en x, alors
∂ ∂
··· FX (x) = fX (x)
∂x1 ∂xn
Corollaire 4.15
– X et Y deux vecteurs aléatoires à valeurs dans Rn ,
– ayant des densités fX et fY
S’il existe x ∈ Rn tel que
1. fX et fY sont continues en x
2. fX (x) 6= fY (x)
Définition 4.16
– X = (X1 , . . . , Xn ) un vecteur aléatoire à valeurs dans Rn ,
– t = (t1 , . . . , tn ) ∈ Rn
Pn
– hX, ti = k=1 tk Xk le produit scalaire usuel
4.2 Vecteurs aléatoires : propriétés générales 63
h i
∀t ∈ Rn , ϕX (t) = E eiht,Xi
Les propriétés vues dans le cas des variables aléatoires réelles s’étendent ici aussi facilement.
1. La fonction caractéristique est définie et uniformément continue sur Rn .
2. Elle est bornée par 1 qu’elle atteint en 0.
Théorème 4.17
Deux vecteurs aléatoires ont même loi si et seulement s’ils ont même fonction caractéristique.
Démonstration
Si deux vecteurs ont même loi, la formule de transfert implique qu’ils aient même fonction
caractéristique. La réciproque est admise.
Corollaire 4.18
– X = (X1 , . . . , Xn ) vecteur aléatoire à valeurs dans Rn
X1 , . . . , Xn sont indépendantes si et seulement si
ϕX = ϕX1 ⊗ · · · ⊗ ϕXn
Preuve
Supposons que X = (X1 , . . . , Xn ) soit un vecteur à densité, de densité fX . Si X1 , . . . , Xn sont
indépendants, alors pour tout t = (t1 , . . . , tn ) ∈ Rn :
h i
ϕX (t) = E ei(t1 X1 +···+tn Xn )
h i
= E eit1 X1 · · · eitn Xn
h i h i
= E eit1 X1 · · · E eitn Xn
= ϕX1 (t1 ) · · · ϕXn (tn )
où l’on s’est servi de l’assertion 4 du théorème 4.8 : l’espérance d’un produit de fonctions de
variables indépendantes est égale au produit des espérances.
ϕY = ϕY1 ⊗ · · · ⊗ ϕYn
loi
= ϕX1 ⊗ · · · ⊗ ϕXn car Xi = Yi pour tout i
= ϕX par hypothèse.
Comme la fonction caractéristique caractérise la loi, on en déduit que X et Y ont même loi,
donc que fX est égale à fX1 ⊗ · · · ⊗ fXn presque partout et que X1 , . . . , Xn sont indépendants
comme le sont Y1 , . . . , Yn .
Remarque
On pourrait montrer de façon très similaire, avec les fonctions de répartition, que X1 , . . . , Xn
sont indépendantes si et seulement si FX = FX1 ⊗ · · · ⊗ FXn .
Corollaire 4.19
– X et Y deux vecteurs aléatoires indépendants et à valeurs dans Rn
Alors
Preuve
Si X et Y sont indépendants, alors pour tout t ∈ Rn :
h i h i
ϕX+Y (t) = E eiht,X+Y i = E ei(ht,Xi+ht,Y i) = ϕ(X,Y ) (t, t) = ϕX (t)ϕY (t)
Attention
Il ne s’agit pas d’une équivalence. On peut avoir ϕX+Y = ϕX ϕY sans que X et Y ne soient
indépendants. Considérons par exemple X de loi de Cauchy de paramètre λ, de fonction
caractéristique ϕX (t) = e−λ|t| . Alors :
4.2.4 Covariance
Définition 4.20
– (X, Y ) vecteur aléatoire à valeurs dans R2
– E[X 2 ] < +∞ et E[Y 2 ] < +∞
Alors E[|X|], E[|Y |], E[|XY |] < +∞ et on définit la covariance de X et Y par :
Propriété 4.21
Sous les hypothèses précédentes :
1. cov(X, X) = var(X)
2. cov(X, Y ) = cov(Y, X)
3. cov(X, Y ) = E [(X − E[X]) (Y − E[Y ])]
Preuve
Les propriétés 1 et 2 sont évidentes. La propriété 3 se vérifie en développant l’expression :
E [(X − E[X]) (Y − E[Y ])] = E [XY − XE[Y ] − Y E[X] + E[X]E[Y ]] = E[XY ] − E[X]E[Y ]
Corollaire 4.22
Sous les mêmes hypothèses :
Preuve
Ces trois propriétés sont des conséquences de la formulation précédente de la covariance.
Attention
Cette implication fait partie de celles que les étudiants transforment inexorablement en
équivalence, en dépit de tous les contre-exemples qui leur auront été présentés. Insistons
donc, vainement certes, sur le fait que deux variables de covariance nulle (on dit décorrélées)
peuvent ne pas être indépendantes.
66 Vecteurs aléatoires
Exemple
Soit X et Y deux variables aléatoires indépendantes, X suivant une loi de Bernoulli de
paramètre 12 et Y à valeurs dans {−1, 1} telle que
1
P(Y = 1) = P(Y = −1) =
2
Posons Z = XY . On vérifie facilement que X et Z ne sont pas indépendants car la coïncidence
des événements {X = 0} = {Z = 0} implique :
2
1 1
P(X = 0, Z = 0) = 6= P(X = 0)P(Z = 0) =
2 2
Les variables X et Z sont néanmoins décorrélées :
1
cov(X, Z) = E X− Z
2
1
= E X− XY
2
1
= E X− X E [Y ] à cause de l’indépendance de X et Y
2
1
= E X− X ×0=0
2
Proposition 4.23
On note L2 (Ω, R, P) l’espace des variables aléatoires réelles ayant un moment d’ordre 2.
La covariance est une forme bilinéaire symétrique positive sur L2 (Ω, R, P) dont la variance
est la forme quadratique associée.
Preuve
Rappelons d’abord que L2 (Ω, R, P) est bien un espace vectoriel grâce à l’inégalité de Min-
kowski : quels que soient X, Y ∈ L2 (Ω, R, P), ∀a, b ∈ R :
h i1 h i1 h i1 h i1 h i1
E (aX + bY )2 2
6 E (aX)2 2
+ E (bY )2 2
= |a|E X 2 2
+ |b|E Y 2 2
< +∞
Vérifions la bilinéarité :
La covariance, qui est la différence de deux formes bilinéaires, est donc aussi bilinéaire.
Le fait qu’elle soit symétrique et que la variance en soit la forme quadratique associée a déjà
été vu. Comme la variance est positive, il s’agit d’une forme bilinéaire positive.
4.2 Vecteurs aléatoires : propriétés générales 67
Corollaire 4.24
– (X, Y, Z) vecteur aléatoire à valeurs dans R3
– E[X 2 ] < +∞, E[Y 2 ] < +∞ et E[Z 2 ] < +∞
– a, b ∈ R
Alors :
Preuve
Montrons d’abord la linéarité à gauche de la covariance :
La linéarité à droite s’en déduit par symétrie. Il ne reste plus qu’à vérifier la première égalité,
conséquence de la bilinéarité de la covariance :
Si l’on se restreint au sous-espace vectoriel engendré par une famille finie de variables, on
peut associer à la covariance, en tant que forme bilinéaire, une matrice qu’on appelle alors
matrice de covariance.
cov(X1 , X2 ) · · · cov(X1 , Xn )
var(X1 )
cov(X2 , X1 ) var(X2 ) cov(X2 , Xn )
(cov(Xi , Xj ))ni,j=1
ΓX = = .. .. ..
. . .
cov(Xn , X1 ) cov(Xn , X2 ) · · · var(Xn )
Proposition 4.26
– ΓX est une matrice symétrique et positive
– ∀(α1 , . . . , αn ), (β1 , . . . , βn ) ∈ Rn :
68 Vecteurs aléatoires
n n
!
αi2 var (Xi ) + 2
X X X
var α i Xi = αi αj cov(Xi , Xj )
i=1 i=1 i,j=1,...,n
i<j
n n
!
X X X
cov αi Xi , βi Xi = αi βj cov(Xi , Xj )
i=1 i=1 i,j=1,...,n
β1
.
= α1 ..
· · · αn ΓX
βn
Preuve
La symétrie et la positivité de la matrice de covariance sont la conséquence de la positivité
de la variance comme forme quadratique et de la symétrie de la covariance comme forme
bilinéaire. Les formules de calcul proposées sont également standard pour toute matrice
associée à une forme bilinéaire. Vérifions-le :
n n n n
!
X X X X
cov α i Xi , βi Xi = cov αi Xi , βj Xj pour éviter les collisions de variables
i=1 i=1 i=1 j=1
n
X n
X
= αi cov Xi , βj Xj par linéarité à gauche
i=1 j=1
n X
X n
= αi βj cov (Xi , Xj ) par linéarité à droite
i=1 j=1
β1
.
= α1 · · · αn ΓX ..
βn
La formule donnant var ( ni=1 αi Xi ) s’en déduit. La symétrie de la matrice de covariance est
P
évidente. Pour vérifier sa positivité, il faut montrer que pour tout (α1 , . . . , αn ) ∈ Rn , on a
α1
.
α1 .. ≥ 0
· · · αn ΓX
αn
Or
α1 n n
! n
!
. X X X
α1 · · · αn ΓX .. = cov
α i Xi , αi Xi = var αi X i ≥ 0
i=1 i=1 i=1
αn
La matrice de covariance de (X1 , . . . , Xn ) est positive, mais pas nécessairement définie positive.
Si elle n’est pas définie positive, cela signifie qu’elle est de rang strictement inférieur à n, que
son noyau n’est pas trivial, et qu’il existe donc (a1 , . . . , an ) ∈ Rn \ {(0, . . . , 0)} tel que
a1 0
. ..
ΓX ..
= .
an 0
4.2 Vecteurs aléatoires : propriétés générales 69
ce qui implique
n
! a1
X .
var ai X i = a1 · · · an .. = 0
ΓX
i=1
an
Pn
La variable aléatoire i=1 ai Xi est donc constante presque sûrement : il existe b ∈ R tel que
a1 X1 + · · · + an Xn = b p.s.
La matrice de covariance ΓX n’est donc pas définie positive si et seulement s’il existe une
liaison affine non triviale entre X1 , . . . , Xn .
Corollaire 4.27
– X = (X1 , . . . , Xn ) vecteur aléatoire à valeurs dans Rn
– E[X12 ] < +∞,..., E[Xn2 ] < +∞
– On note µX le vecteur moyenne et ΓX la matrice de covariance
Soit A une matrice m × n et Y = AX. Alors :
µY = AµX et ΓY = AΓX tA
Preuve
Rappelons d’abord que toute combinaison linéaire de variables aléatoires ayant un moment
d’ordre 2 possède aussi un moment d’ordre 2. Les composantes du vecteur Y ont donc bien
des moments d’ordre 2 et l’on peut en calculer la moyenne et la matrice de covariance.
" n # n
X X
E [Yk ] = E ak,l Xl = ak,l E [Xl ]
l=1 l=1
= (AΓX t A)(i, j)
cov(X, Y )
cor(X, Y ) = q
var(X) var(Y )
Propriété 4.29
Preuve
Laissée au lecteur.
Proposition 4.30
1. cor(X, Y ) ∈ [−1, 1]
2. cor(X, Y ) = ±1 si et seulement s’il existe une liaison affine presque sûre entre X et Y .
Preuve
La première assertion est une conséquence de l’inégalité de Cauchy-Schwarz. La seconde vient
du cas d’égalité dans cette inégalité :
Propriété 4.31
La fonction f est une densité de probabilité sur R.
Preuve
Il est clair que c’est une fonction positive et continue. Vérifions que son intégrale sur R est
égale à 1 :
4.3 Vecteurs gaussiens 71
Z 2 Z
f (x) dx = f (x)f (y) dxdy d’après le théorème de Fubini-Tonelli
R R2
1 Z
x2 +y 2
= e− 2 dxdy
2π R2
1 Z
ρ2
= e− 2 ρ dρdθ après un changement de variables en polaires
2π [0,2π]×R+
1 Z 2π Z +∞
ρ2
= dθ × ρe− 2 dρ d’après le théorème de Fubini-Tonelli
2π 0 0
+∞
2π 2
− ρ2
= −e =1
2π 0
Propriété 4.32
Soit X une variable aléatoire admettant la densité f . Alors X admet des moments de tous
ordres et pour tout k ≥ 0 :
h i (2k)! h i
E X 2k = et E X 2k+1
=0
2k k!
En particulier, E[X] = 0 et var(X) = 1.
Preuve
Soit k ≥ 1. Comme X 2k est positive, elle admet une espérance finie ou infinie que l’on peut
calculer par récurrence, grâce à une intégration par parties :
h i Z
E X 2k = x2k f (x) dx
R
1 Z A 2k−1 x2
= lim √ x × xe− 2 dx
A→+∞ 2π −A
A !
1 1 Z A
x2 x2
= lim √ −x2k−1 e− 2 +√ (2k − 1)x2k−2 e− 2 dx
A→+∞ 2π −A 2π −A
Z +∞
= 0 + (2k − 1) × x2k−2 f (x) dx
−∞
h i
2k−2
= (2k − 1) × E X
h i
= (2k − 1) × (2k − 3) × · · · × 3 × 1 × E X 0
= (2k − 1) × (2k − 3) × · · · × 3 × 1
(2k)!
=
2k × (2k − 2) · · · × 2
(2k)!
= < +∞
2k k!
Comme on sait que si X admet un moment d’ordre n, il admet aussi des moments pour tous
les ordres inférieurs,
h oni en déduit que X admet bien des moments de tous ordres. On peut
2k+1
donc calculer E X pour tout k ≥ 0 :
h i Z +∞
E X 2k+1 = x2k+1 f (x) dx = 0
−∞
car il s’agit de l’intégrale sur R d’une fonction impaire.
72 Vecteurs aléatoires
Corollaire 4.33
Avec les notations précédentes, la loi de X est caractérisée par ses moments.
Preuve
C’est une conséquence immédiate du critère de Carleman. On remarque en effet que pour
tout k ≥ 1 :
h i
E X 2k = (2k − 1) × (2k − 3) × · · · × 3 × 1 ≤ (2k)k
D’où :
X 1 X 1
1 ≥ √ = +∞
k≥1 E [X 2k ] 2k
k≥1 2k
Propriété 4.34
Avec les notations précédentes, pour tout λ ∈ C :
λ2
h i h i
E eλX < +∞ et E eλX = e 2
Preuve
Remarquons d’abord que pour tout x ∈ R et λ ∈ C :
D’où :
h i |λn X n | X |λ|2k X 2k X |λ|2k h i X |λ|2k |λ|2
E eλX E X 2k = 2
X
≤ E ≤ E 2 =2
k
= 2e 2 < +∞
n≥0 n! k≥0 (2k)! k≥0 (2k)! k≥0 2 k!
en utilisant le fait que l’espérance d’une somme de variables aléatoires positives est égale à la
somme des espérances. On en déduit :
h
λX
i λ X X λn
n n
E [X n ]
X
E e = E =
n≥0 n! n≥0 n!
n n
|λ X |
X
car d’après les calculs précédents E < +∞
n≥0 n!
X λ2k λ2
= k k!
= e 2
k≥0 2
4.3 Vecteurs gaussiens 73
Définition-proposition 4
Soit m ∈ R, σ > 0. Alors Y = m + σX est une variable aléatoire d’espérance m et de variance
σ 2 . Sa loi est dite gaussienne ou normale et est notée N (m, σ 2 ).
λ2 σ 2
Pour tout λ ∈ C, eλY admet une espérance finie égale à eλm+ 2 . En particulier, la fonction
caractéristique vaut :
σ 2 t2
∀t ∈ R, ϕY (t) = eimt− 2
Preuve
Les quelques assertions sont à peu près évidentes. Par exemple :
h i h i (λσ)2 λ2 σ 2
E eλY = E eλm e(λσ)X = eλm e 2 = eλm+ 2
Notons que les variables aléatoires constantes font partie de la famille de variables aléatoires
gaussiennes, celles de variance nulle.
Propriété 4.35
Avec les notations précédentes, si σ est strictement positive, alors la loi de Y admet la densité
fY définie par :
(y−m)2
e− 2σ2
∀y ∈ R, fY (y) = √
2πσ 2
Preuve
On peut le vérifier avec l’aide de la fonction muette ou en dérivant la fonction de répartition :
pour tout y ∈ R
(y−m)2
1 y−m 1 y−m e− 2σ2
∀y ∈ R, fY (y) = FY0 (y) = FX0 = f = √
σ σ σ σ 2πσ 2
n n n
!
αi2 σi2
X X X
α i Xi ∼ N α i µi ,
i=1 i=1 i=1
74 Vecteurs aléatoires
Preuve
On peut le vérifier en utilisant la fonction caractéristique : soit t ∈ R
n
Y
ϕPn
k=1
αk Xk (t) = ϕαk Xk (t) car les variables sont indépendantes
k=1
n α2 σ 2 t2
Y
iαk µk t− k k
= e 2
k=1
Pn Pn
αk µk )t− 12 (
= e i( k=1 k=1
α2k σk2 )t2
Pn
On reconnaît la fonction caractéristique d’une loi gaussienne de moyenne k=1 αk µk et de
variance nk=1 αk2 σk2 .
P
D’autres preuves sont possibles, par un calcul de densité ou de moment. Commençons par
remarquer qu’il suffit de prouver la proposition pour la somme de deux variables gaussiennes
indépendantes : une simple récurrence permet de passer au cas général. Soit donc X, X 0
deux gaussiennes indépendantes de moyennes m, m0 ∈ R et de variances σ, σ 0 ≥ 0 respectives.
Notons que si σ ou σ 0 est nul, alors X + X 0 est la somme d’une gaussienne et d’une constante,
et l’on sait déjà que c’est une gaussienne. On peut donc également supposer σ, σ 0 > 0 et
m = m0 = 0. Alors X et X 0 sont de variables à densité, et la loi de leur somme admet la
densité définie par : pour tout x ∈ R
L’intégrale est égale à 1 car c’est l’intégrale de la densité d’une loi gaussienne de moyenne
σ2 2 σ 02
σ 2 +σ 02
x et de variance σσ2 +σ 02 .
On reconnaît ainsi dans fX+X 0 la densité d’une loi gaussienne centrée de variance σ 2 + σ 02 .
n n
! !
0 n
X n h k 0n−k i X n h k i h 0n−k i
E [(X + X ) ] = E X X = E X E X
k=0 k k=0 k
l’espérance du produit étant égale au produit des espérances car les variables sont indépen-
dantes.
Comme les moments impairs sont nuls, on en déduit E [(X + X 0 )n ] = 0 si n est impair, et, si
n = 2p,
4.3 Vecteurs gaussiens 75
p !
0 n
X 2p h 2l i h 02(p−l) i
E [(X + X ) ] = E X E X
l=0 2l
p
(2p)! (2l)! 2(p − l)!
× σ 2l l × σ 02(p−l) p−l
X
=
l=0 (2l)!(2(p − l))! 2 l! 2 (p − l)!
p
(2p)! X p!
= p
σ 2l σ 02(p−l)
2 p! l=0 l!(p − l)!
(2p)! 2 02 p
= σ + σ
2p p!
On reconnaît les moments d’une variable gaussienne centrée de variance σ 2 + σ 02 . Comme la
loi gaussienne est caractérisée par ses moments, cela permet également de conclure.
Définition 4.37
Un vecteur aléatoire X = (X1 , . . . , Xn ) est dit « gaussien » si pour tout α = (α1 , . . . , αn ) ∈ Rn
la variable aléatoire
n
X
hα, Xi = α i Xi
i=1
Remarque
– D’après la proposition précédente, il existe bien des vecteurs gaussiens.
– Les vecteurs constants sont gaussiens.
4.3.3 Propriétés
Propriété 4.38
Si X = (X1 , . . . , Xn ) est un vecteur gaussien, alors Xi suit une loi gaussienne pour tout
i = 1, . . . , n.
Preuve
C’est évident d’après la définition car, quel que soit i ∈ J1, nK, Xi est une combinaison linéaire
(simple !) de X1 , . . . , Xn et suit donc une loi gaussienne.
Remarque
Plus généralement, et pour les mêmes raisons, tout sous-vecteur (Xi1 , . . . , Xik ) d’un vecteur
gaussien est un vecteur gaussien.
Attention
La réciproque est fausse ! Considérons par exemple X variable gaussienne centrée réduite et
Y variable aléatoire indépendante telle que P(Y = 1) = P(Y = −1) = 12 . Posons Z = XY .
On voit facilement que les moments de X et Z sont égaux :
( )
n n n 0×0 si n est impair
∀ ∈ N, E [Z ] = E [X ] × E [Y ] = (2p)! = E [X n ]
2p p!
× 1 si n = 2p
76 Vecteurs aléatoires
Comme la loi de X est caractérisée par ses moments, on en déduit que Z est également
une variable gaussienne centrée réduite. Pour autant, le vecteur (X, Z) n’est pas un vecteur
gaussien. En effet, on remarque que la combinaison linéaire X + Z ne suit pas une loi
gaussienne :
1
P(X + Z = 0) = P(X(1 + Y ) = 0) = P(Y = −1) =
2
La variable aléatoire X + Z n’est donc ni une constante, ni à densité : ce ne peut être une
variable gaussienne.
Une conséquence de la propriété précédente est que tout vecteur gaussien possède un vecteur
moyenne et une matrice de covariance.
Proposition 4.39
La fonction caractéristique d’un vecteur gaussien X = (X1 , . . . , Xn ), de vecteur moyenne µX
et de matrice de covariance ΓX , est égale à :
1
n
∀t = (t1 , . . . , tn ) ∈ R , ϕX (t) = exp iht, µX i − ht, ΓX ti
2
Preuve
Soit t = (t1 , . . . , tn ) ∈ Rn . Alors ht, Xi = nk=1 tk Xk est une variable gaussienne, d’après la
P
" n # n
X X
E tk Xk = tk E [Xk ] = ht, µX i
k=1 k=1
et de variance :
n
! t1
X .
var tk Xk = t1 · · · tn ΓX ..
= ht, ΓX ti
k=1
tn
On en déduit :
1
h i
ϕX (t) = E eiht,Xi = ϕht,Xi (1) = eiht,µX i− 2 ht,ΓX ti
Corollaire 4.40
La loi d’un vecteur gaussien X est caractérisée par sa moyenne µX et sa matrice de covariance
ΓX ; elle est notée N (µX , ΓX ).
Preuve
C’est une simple conséquence du fait que la fonction caractéristique caractérise la loi d’un
vecteur aléatoire.
Propriété 4.41
Soit X = (X1 , . . . , Xn ) ∼ N (µX , ΓX ). Soit A une matrice de dimensions p × n et b ∈ Rp .
Alors AX + b est un vecteur gaussien, de vecteur moyenne AµX + b et de matrice de covariance
AΓX tA.
4.3 Vecteurs gaussiens 77
Preuve
Toute combinaison linéaire de AX + b est la somme d’une combinaison linéaire de X — qui
est une gaussienne car X est un vecteur gaussien — et d’une constante : c’est donc une
gaussienne, ce qui montre que AX + b est un vecteur gaussien. Ne reste donc qu’à déterminer
sa moyenne et sa matrice de covariance pour finir de caractériser sa loi. Leur calcul découle
directement du corollaire 4.27.
Proposition 4.42
Soit µ ∈ Rn et Γ matrice symétrique positive de dimensions n × n. Alors il existe un vecteur
gaussien de moyenne µ et de matrice de covariance Γ.
Preuve
Comme Γ est une matrice symétrique, elle est diagonalisable : soit D = diag (λ1 , . . . , λn ) la
matrice diagonale des valeurs propres de Γ et soit O matrice orthogonale telle que Γ = ODO−1 .
Comme Γ est positive, ses valeurs propres sont positives. On peut donc définir X1 , . . . , Xn
des variables gaussiennes centrées indépendantes de variances λ1 , . . . , λn . Le vecteur moyenne
du vecteur gaussien X = (X1 , . . . , Xn ) est nul et sa matrice de covariance est égale à D car
les variables X1 , . . . , Xn sont décorrélées.
Proposition 4.43
Soit X ∼ N (µX , ΓX ). Si ΓX est définie positive, alors la loi de X admet la densité :
1 1
∀x ∈ Rn , fX (x) = q exp − hx − µX , Γ−1
X (x − µX )i
(2π)n det ΓX 2
Preuve
On reprend la décomposition de la matrice de covariance utilisée dans la preuve de la
proposition précédente. Soit O matrice orthogonale et D = diag(λ1 , . . . , λn ) matrice diagonale
des valeurs propres, cette fois strictement positives, telles que ΓX = ODO−1 . Soit U1 , . . . , Un
variables gaussiennes centrées indépendantes de variances λ1 , . . . , λn respectivement. Alors
U = (U1 , . . . , Un ) est un vecteur gaussien admettant fU = fU1 ⊗ · · · ⊗ fUn pour densité
d’après le théorème 4.8, avec fUi la densité de la variable gaussienne Ui centrée de variance
strictement positive.
Nous avons vu que X est égale en loi à OU + µX . Utilisons cela pour déterminer la loi de
X à l’aide de la méthode de la fonction muette. Soit ϕ une fonction réelle continue bornée
définie sur Rn . Alors :
78 Vecteurs aléatoires
Z
E[ϕ(X)] = E [ϕ (OU + µX )] = ϕ(Ou + µX )fU1 (u1 ) · · · fUn (un ) du1 · · · dun
Rn
Effectuons le changement de variables x = Ou + µx . Il s’agit d’un changement de variables
affine clairement inversible de Rn sur Rn : pour tous x, u ∈ Rn
x = Ou + µx ⇐⇒ u = O−1 (x − µX )
Il est tout aussi évidemment C 1 dans les deux sens : c’est bien un C 1 -difféomorphisme de Rn
sur Rn .
du1 · · · dun = det O−1 dx1 · · · dxn = dx1 · · · dxn
En effet, det O−1 est égal à 1 ou −1 car O est orthogonale. Il reste à exprimer fU1 (u1 ) · · · fUn (un )
en fonction de (x1 , . . . , xn ) :
u2 u2
− 2λ1 n
e 1 e− 2λn
fU1 (u1 ) · · · fUn (un ) = √ ··· √
2πλ1 2πλn
u2 2
− 12 1 +···+ un
λ1 λn
e
= q
(2π)n λ1 · · · λn
λ1 · · · λn = det D = det ODO−1 = det (ΓX )
Puis que :
u21 u2
+ · · · + n = hu, D−1 ui
λ1 λn
= hO−1 (x − µX ), D−1 O−1 (x − µX )i
= hx − µX , OD−1 O−1 (x − µX )i car O−1 = t O
−1
= hx − µX , ODO−1 (x − µX )i
= hx − µX , Γ−1
X (x − µX )i
D’où la formule intégrale suivante pour E[ϕ(X)] :
1 −1
Z
e− 2 hx−µX ,ΓX (x−µX )i
E[ϕ(X)] = ϕ(x) q dx1 · · · dxn
Rn (2π)n det (ΓX )
Cela montre que la loi de X admet bien la densité annoncée.
Propriété 4.44
Soit X = (X1 , . . . , Xn ) un vecteur gaussien. Alors les variables X1 , . . . , Xn sont indépendantes
si elles sont décorrélées.
4.3 Vecteurs gaussiens 79
Remarque
Ce résultat se généralise aux sous-vecteurs d’un vecteur gaussien : si (X1 , . . . , Xn ) est un
vecteur gaussien, alors (X1 , . . . , Xp ) et (Xp+1 , . . . , Xn ) sont indépendants si et seulement si
Preuve
Notons µi = E [Xi ] et σi2 = var (Xi ) pour tout i = 1, . . . , n. Si X1 , . . . , Xn sont décorrélées, la
matrice de covariance de X est diagonale :
σ12 0
..
ΓX = diag σ12 , . . . , σn2 =
.
0 σn2
On en déduit que la fonction caractéristique de X s’écrit comme le produit des fonctions
caractéristiques de X1 , . . . , Xn : pour tout t = (t1 , . . . , tn ) ∈ Rn
1
ϕX (t) = eiht,µX i− 2 ht,ΓX ti
Pn Pn
t µ −1 t2 σ 2
= ei k=1 i i 2 k=1 i i
n t2 σ 2
itk µk − k2 k
Y
= e
k=1
Yk
= ϕXk (tk )
k=1
Attention
C’est faux si l’on suppose seulement que X1 , . . . , Xn sont des variables aléatoires gaussiennes.
Reprenons l’exemple vu précédemment avec X variable normale centrée réduite, Y indépen-
dante et uniforme sur {−1, 1}, et Z = XY . Nous avons vu que Z est également une variable
gaussienne centrée réduite, mais que (X, Z) n’est pas un vecteur gaussien. Elles ne sont donc
pas indépendantes d’après la proposition 4.36. Elles sont néanmoins décorrélées :
Il faut bien se rappeler qu’en règle générale la décorrélation n’implique pas l’indépendance,
et que les vecteurs gaussiens constituent l’exception à cette règle.
4.3.4 Exemples
! !
0 1
µ = ,
0 2
!
1 0
Γ = λ avec λ = 1, 0.5, 2
0 1
! !
0.5 0 1.8 −0.4
= ,
0 2 −0.4 1.2
!
1 1 1−α
= √ avec α = 0, 0.5, 0.1, 0.01
2α − α2 1−α 1
!
P lim sup An = 0.
n∈N
+∞
\ +∞
[
Rappelons ( ?) que lim supn∈N An = Ak est l’événement : « une infinité des événements
n=0 k=n
An ont lieu ».
Preuve
Pour tout N ≥ 1 :
+∞
\ +∞ +∞ +∞
! !
[ [ X
P Ak ≤ P Ak ≤ P (An )
n=0 k=n k=N n=N
X
Si la série P (An ) est convergente, alors
n∈N
+∞
X
lim P (An ) = 0.
N →+∞
n=N
On en déduit le résultat annoncé :
+∞
\ +∞
!
[
P Ak = 0.
n=0 k=n
85
86 Convergences
+∞
\ +∞
! !
[
P lim sup An = P Ak = 1.
n∈N n=0 k=n
Remarque
Si les événements ne sont pas indépendants, cette réciproque est fausse. Pour un contre-
exemple élémentaire, il suffit de prendre An = A avec P(A) ∈]0, 1[.
Preuve
Supposons que les ensembles An , n ∈ N soient indépendants et que
X
P(An ) = +∞
n∈N
m m m m
! !
Ack P (Ack )
[ \ Y Y
P Ak = 1 − P =1− =1− (1 − P (Ak )) .
k=n k=n k=n k=n
m n
!
Y X
(1 − P (Ak )) ≤ exp − P (Ak )
k=n k=m
et donc
m m
! !
[ X
P Ak ≥ 1 − exp − P (Ak ) .
k=n k=n
En faisant tendre m vers +∞, on obtient par continuité monotone de P :
+∞
!
[
∀n ∈ N, P Ak ≥ 1
k=n
et donc
+∞
!
[
∀n ∈ N, P Ak = 1
k=n
S
+∞
Par ailleurs, la suite k=n Ak , n ∈ N est une suite décroissante d’événements. Donc par
continuité monotone (décroissante) de P :
+∞
\ +∞ +∞
! !
[ [
P Ak = lim P Ak = 1
n→+∞
n=0 k=n k=n
5.2 Convergences d’une suite de variables aléatoires 87
Introduction
Dans cette partie, nous nous intéressons au comportement asymptotique d’une suite de
variables aléatoires définies sur un même espace (Ω, P). Nous supposons ici que ces variables
aléatoires sont à valeurs dans Rd pour un certain d ≥ 1 et notons k · k la norme euclidienne
sur Rd .
Exemple
Soit X une variable aléatoire de loi uniforme sur [0, 1]. Pour tout n ∈ N∗ , posons
Xn = X + n2 1X≤1/n .
Pour tout n ∈ N∗ :
si ε ≥ n2
(
2
0
P(|X − Xn | > ε) = P n 1X≤1/n > ε =
P(X ≤ 1/n) si ε < n2 .
Étant donné que X suit une loi uniforme sur [0, 1],
0 si ε ≥ n2
(
P(|X − Xn | > ε) = 1
n
si ε < n2 .
Par conséquent,
La limite en probabilité d’une suite de variables aléatoires est unique presque sûrement.
Preuve
Pour tout ε > 0,
Proposition 5.5
Soit (Xn , n ≥ 1) et (Yn , n ≥ 1) deux suites de variables aléatoires à valeurs dans Rd et Rl
respectivement, et convergeant en probabilité vers X et Y . Alors la suite ((Xn , Yn ), n ≥ 1)
converge en probabilité vers (X, Y ).
Preuve
Il suffit de remarquer que
ε ε
{k(Xn , Yn ) − (X, Y )k > ε} ⊂ kXn − Xk > ∪ kYn − Y k >
2 2
pour tout ε > 0. La proposition s’en déduit aisément.
Proposition 5.6
Soit (Xn , ≥ 1) une suite de variables aléatoires qui converge en probabilité vers X, et f une
fonction continue sur Rd à valeurs dans Rl . Alors (f (Xn ), n ≥ 1) converge en probabilité vers
f (X).
Preuve
Nous allons faire la démonstration dans le cas où f est uniformément continue, et l’admettrons
dans le cas général.
5.2 Convergences d’une suite de variables aléatoires 89
On suppose donc que f est uniformément continue sur Rd . Soit ε > 0 ; il existe η > 0 tel que :
Comme nous l’avons établi pour tout ε > 0, cela montre que la suite (f (Xn ) , n ≥ 1) tend
vers f (X) en probabilité.
Corollaire 5.7
Soit (Xn , n ≥ 1) et (Yn , n ≥ 1) deux suites à valeurs dans Rd et convergeant en probabilité
vers X et Y respectivement. Alors la suite (αXn + βYn , n ≥ 1) converge en probabilité vers
αX + βY , pour tous α, β ∈ R.
Preuve
C’est une conséquence immédiate des deux propositions précédentes.
Exemple
Soit X une variable aléatoire de loi uniforme sur [0, 1]. Pour tout n ∈ N,
Xn = 1[0,1/n] (X)
90 Convergences
lim Xn (ω) = 0.
n→+∞
p.s.
Or P(X 6= 0) = 1 car X suit une loi uniforme sur [0, 1]. Par conséquent, Xn −→ 0.
On reconnaît dans la convergence presque sûre d’une suite de variables aléatoires la convergence
simple d’une suite de fonctions en dehors d’un ensemble négligeable. On peut vérifier facilement
que cela en partage toutes les propriétés.
Propriété 5.9
Soit (Ω, P) un espace de probabilité, (Xn , n ≥ 0) , (Yn , n ≥ 0) deux suites de vecteurs aléatoires
à valeurs dans Rd et Rl respectivement.
Preuve
La seule différence de la convergence presque sûre avec la convergence ponctuelle des fonctions
est qu’il faut s’occuper d’un ensemble négligeable. Il est bien rare que cela pose un problème.
Voyons-le avec l’unicité presque sûre de la limite. On suppose qu’il existe NX ⊂ Ω et NY ⊂ Ω
deux ensembles négligeables tels que
Alors
Tout le reste n’est pas plus compliqué. Notons simplement que la quatrième assertion est la
conséquence de deux précédentes, et qu’en ce qui concerne la seconde assertion, on pourrait
en affaiblir légèrement les hypothèses en supposant seulement que f est continue sur un
ensemble A ⊂ Rd tel que P(X ∈ A) = 1. En effet, avec les notations précédentes, l’ensemble
B = {X ∈ A} \ NX est encore un ensemble de probabilité 1, et pour tout ω ∈ B :
La convergence presque sûre est une convergence "plus forte" que le convergence en probabilité
au sens où elle l’implique.
Preuve
Supposons que (Xn )n∈N converge presque sûrement vers la variable aléatoire X. Soit ε > 0.
Pour tout n ∈ N, posons
Yn = 1kX−Xn k>ε
Étant donné que la suite (Xn )n∈N converge presque sûrement vers la variable aléatoire X, la
suite (Yn )n∈N converge presque sûrement vers 0. Comme les variables aléatoires Yn , n ≥ 1,
sont uniformément bornées par 1, on peut utiliser le théorème de convergence dominée 2.21
et en déduire :
lim P(kX − Xn k > ε) = lim E[Yn ] = E lim Yn = 0
n→+∞ n→+∞ n→+∞
Comme c’est établi pour tout ε > 0, cela signifie que la suite de variables aléatoires (Xn )n∈N
converge en probabilité vers la variable aléatoire X.
Il n’existe pas à proprement parler de réciproque. Il existe des suites de variables aléatoires qui
convergent en probabilité, mais pas presque sûrement. Mais il existe des réciproques partielles
comme le résultat suivant qui montre qu’une suite de variables aléatoires qui converge en
probabilité "suffisamment vite" converge presque sûrement. "Suffisamment vite" signifie ici
que pour tout ε > 0, non seulement P(kXn − Xk > ε) tend vers 0, mais la série l’ayant pour
terme général converge.
X
P (kXn − Xk ≥ ε) < +∞,
n∈N
Preuve
Soit p ∈ N∗ . Pour tout n ∈ N, posons
( )
1
An,p = kXn − Xk ≥ .
p
Alors, d’après l’assertion du lemme de Borel-Cantelli 5.1 appliquée à la suite (An,p )n∈N ,
P(Ap ) = 0,
+∞
\ +∞
[
avec Ap = Ak,p . Alors :
n=0 k=n
92 Convergences
[
P Ap = 0
p∈N∗
Autrement dit :
c )
\ +∞
[ +∞
(
[ \ 1
1 = P Ap = P kXk − Xk <
p∈N∗ p∈N∗ n=0 k=n p
Traduisons : pour presque tout ω, pour tout p ∈ N∗ , il existe n ∈ N tel que pour tout k ≥ n,
1
kXk (ω) − X(ω)k < .
p
Par conséquent, la suite (Xn )n∈N converge presque sûrement vers X.
Définition 5.12
Soit (Ω, P) un espace de probabilité, (Xn , n ≥ 1) et X des vecteurs aléatoires définis sur Ω et
à valeurs dans Rk . Soit p ≥ 1.
Si kXk et kXn k pour tout n ≥ 0 possèdent un moment d’ordre p, alors on dit que la suite
(Xn , n ≥ 1) converge en moyenne d’ordre p vers X si
Notons que kXn − Xk possède bien un moment d’ordre p sous les hypothèses de la définition,
car d’après l’inégalité triangulaire
Preuve
C’est une conséquence de l’inégalité de Minkowski. Soit n ≥ 1. Alors :
1 1 1
E [kX − Y kp ] p ≤ E [kX − Xn kp ] p + E [kXn − Y kp ] p
Il ne reste plus qu’à faire tendre n vers l’infini pour en déduire que
1
E [kX − Y kp ] p = 0
5.2 Convergences d’une suite de variables aléatoires 93
kX − Y k = 0 p.s.
D’où le résultat annoncé.
Propriété 5.14
Soit (Xn , n ≥ 0) une suite de vecteurs aléatoires à valeurs dans Rd . Si (Xn , n ≥ 0) converge
en moyenne d’ordre
p vers X, et si f est une fonction uniformément continue sur Rd , alors
f (Xn ), n ≥ 0 converge en moyenne d’ordre p vers f (X).
Remarquons que c’est faux si l’on suppose si l’on suppose f continue car rien ne garantirait
alors que kf (Xn ) − f (X)k ait un moment d’ordre p.
Preuve
Comme f est uniformément continue, elle est presque lipschitzienne : pour tout ε > 0, il
existe A > 0 tel que :
1 1
E [kf (Xn ) − f (X)kp ] p ≤ ε + AE [kXn − Xkp ] p
Ne reste plus qu’à faire tendre n vers l’infini pour en déduire :
1
lim sup E [kf (Xn ) − f (X)kp ] p ≤ ε
n→+∞
Propriété 5.15
Soit (Ω, P) un espace de probabilité, (Xn , n ≥ 0) , (Yn , n ≥ 0) deux suites de vecteurs aléatoires
à valeurs dans Rd et Rl respectivement.
Preuve
Pour démontrer la première assertion, il suffit de remarquer qu’avec la norme euclidienne
canonique on a
Propriété 5.16
Soit (Xn , n ≥ 1) une suite de vecteurs aléatoires convergeant en moyenne d’ordre p vers X.
Alors :
1. pour tout q ∈ {1, . . . , p}, la suite (Xn , n ≥ 1) converge en moyenne d’ordre q vers X ;
2. la suite (E [kXn kp ] , n ≥ 1) converge vers E [kXkp ] ;
3. si les variables aléatoires sont réelles, la suite (E [Xnp ] , n ≥ 1) converge vers E [X p ].
Preuve
La première assertion est une simple conséquence de l’inégalité de Hölder : pour tout
q ∈ {1, . . . , p}
1 1
E [kX − Xn kq ] q ≤ E [kX − Xn kp ] p
La deuxième assertion est une conséquence de l’inégalité de Minkowsky : de
1 1 1 1 1 1
E [kXkp ] p ≤ E [kX − Xn kp ] p + E [kXn kp ] p et E [kXn kp ] p ≤ E [kXn − Xkp ] p + E [kXkp ] p
on déduit :
1 1 1
E [kXkp ] p − E [kXn kp ] p ≤ E [kXn − Xkp ] p
Il ne reste plus qu’à passer à la limite pour en déduire :
∀x, y ∈ R, |xp − y p | ≤ p|x − y| sup |up−1 | = p|x − y| max |x|p−1 , |y|p−1
u∈[x,y] ou [y,x]
lim E [Xnp ] = E [X p ]
n→+∞
5.2 Convergences d’une suite de variables aléatoires 95
Proposition 5.17
Soit (Xn , n ≥ 1) une suite de vecteurs aléatoires convergeant en moyenne d’ordre p vers X.
Alors elle converge aussi en probabilité vers X.
Preuve
Soit ε > 0. Alors, d’après l’inégalité de Markov :
E [kX − Xn kp ]
P (kX − Xn k > ε) ≤
εp
Sous les hypothèses de l’énoncé, cela implique que P (kX − Xn k > ε) tend vers 0 quand n
tend vers l’infini, et permet d’établir la convergence en probabilité.
Proposition 5.18
Soit (Xn , n ≥ 1) une suite de vecteurs aléatoires convergeant en probabilité vers X. Si ces
vecteurs aléatoires sont uniformément bornés, autrement dit s’il existe A ≥ 0 tel que :
∀n ≥ 1, kXn k ≤ A p.s.
alors la suite (Xn , n ≥ 1) converge vers X en moyenne d’ordre p, pour tout p ≥ 1.
Preuve
Remarquons d’abord que X est également borné presque sûrement par A :
1
P (kXk > A) = lim P kXk ≥ A + =0
k→+∞ k
Les variables Xn , n ≥ 1 et X étant presque sûrement bornées, elles possèdent donc des
moments de tous ordres. Pour tout p ≥ 1 et ε > 0, on peut donc calculer :
1 h p i 1
(E [kXn − Xkp ]) p = E kXn − Xk1kXn −Xk≤ε + kXn − Xk1kXn −Xk>ε p
h i 1 h i 1
≤ E kXn − Xkp 1kXn −Xk≤ε p + E kXn − Xkp 1kXn −Xk>ε p
On en déduit :
1
lim sup (E [kXn − Xkp ]) p ≤ ε
n→+∞
Comme l’inégalité est vérifiée pour tout ε > 0, cela établit le résultat attendu :
Étant donné une suite de variables aléatoires, on souhaite savoir comment évoluent leurs
moyennes empiriques successives. La loi des grands nombres, faible comme forte, montre
que sous certaines conditions, essentiellement une absence de liaison entre les variables, la
moyenne empirique devient "de moins en moins aléatoire" et converge vers son espérance.
La première preuve rigoureuse, c’est-à-dire mathématique, est due à Jacques Bernoulli.
∀n, m ∈ N, n 6= m =⇒ cov(Xn , Xm ) = 0
Posons
n
1X
Xn = Xi .
n i=1
Alors la suite X n , n ≥ 1 converge en moyenne quadratique vers µ.
Preuve
Remarquons d’abord que pour tout n ≥ 1, la variable aléatoire X n est une combinaison
linéaire de variables aléatoires ayant un moment d’ordre 2 et possède donc elle-même un
moment d’ordre 2.
n
h i 1 1X
E Xn = E[Sn ] = E[Xi ] = µ
n n i=1
Montrons maintenant que sa variance tend vers 0 (autrement dit que X n devient "de plus en
plus constant" et donc proche de sa moyenne). Soit M > 0 tel que
∀n ∈ N, var(Xn ) ≤ M.
Les variables aléatoires Xn , n ∈ N étant deux à deux décorrélées,
5.2 Convergences d’une suite de variables aléatoires 97
n n
!
1 X 1 X nM M
var X n = 2 var Xi = 2 var (Xi ) ≤ 2 = .
n i=1 n i=1 n n
Comme par définition :
i 2
h 2
var X n = E Xn − E Xn = E Xn − µ
2
lim E Xn − µ = 0.
n→+∞
Syntaxe : Notation
Les variables aléatoires Xn , n ∈ N sont i.i.d. (indépendantes identiquement distribuées) si
elles sont indépendantes et si elles ont toutes même loi.
n
1X
Xn = Xi .
n i=1
Si 1 |) < +∞, c’est-à-dire si les variables aléatoires Xn ont un moment d’ordre 1, alors
E(|X
Xn ∗
converge presque sûrement vers E [X1 ].
n∈N
Remarque
On peut montrer que si E(|X1 |) = +∞, alors la suite Xn diverge presque sûrement.
n∈N∗
Démonstration
Pour simplifier, fortement, la démonstration, nous supposerons de plus que E[X14 ] < +∞.
Yn = Xn − E[Xn ] = Xn − µ
La suite (Yn , n ≥ 1) est une suite de variables aléatoires centrées, indépendantes, de même
loi et ayant un moment d’ordre 4. Comme pour tout n ≥ 1
Yn = Xn − µ
98 Convergences
on en déduit que la suite Xn , n ≥ 1 converge presque sûrement vers µ si et seulement si la
suite Yn , n ≥ 1 converge presque sûrement vers 0.
Pour toute variable aléatoire U centrée ayant un moment d’ordre 4, introduisons les quantités
suivantes :
h i h i h i2
c2 (U ) = var(U ) = E U 2 et c4 (U ) = E U 4 − 3E U 2
Le coefficient c4 (U ) est le cumulant d’ordre 4 de U , une quantité qui généralise à l’ordre 4 les
propriétés de la variance comme on peut le voir avec les deux observations suivantes :
– pour tout λ ∈ R,
c4 (λU ) = λ4 c4 (U )
– si V est une variable aléatoire centrée ayant un moment d’ordre 4 et indépendante de
U , alors :
h i h i2
c4 (U + V ) = E U 4 + 4U 3 V + 6U 2 V 2 + 4U V 3 + V 4 − 3 E U 2 + 2U V + V 2
h i h i h i h i h i
= E U 4 + 4E U 3 V + 6E U 2 V 2 + 4E U V 3 + E V 4
h i h i2
−3 E U 2 + 2E [U V ] + E V 2
h i h i h i h i h i h i
= E U 4 + 4E U 3 E [V ] + 6E U 2 E V 2 + 4E [U ] E V 3 + E V 4
h i h i2
−3 E U 2 + 2E [U ] E [V ] + E V 2
car U et V sont indépendantes
h i h i h i h i h i h i2
= E U 4 + 6E U 2 E V 2 + E V 4 − 3 E U 2 + E V 2
car
h i
U et V h sonti
centrées
h i2 h i2
4
= E U + E V − 3E U 2 − 3E V 2
4
= c4 (U ) + c4 (V )
n n n
! !
1X 1 X 1 X 1
c2 Y n = c2 Y k = 2 c2 Yk = 2 c2 (Yk ) = c2 (Y1 )
n k=1 n k=1 n k=1 n
et de la même façon :
n n n
! !
1X 1 X 1 X 1
c4 Y n = c4 Y k = 4 c4 Yk = 4 c4 (Yk ) = 3 c4 (Y1 )
n k=1 n k=1 n k=1 n
D’où :
h 4
i 1 3 2
E Yn 3
c4 (Y1 ) + 2 c2 (Y1 )2
= c4 Y n + 3c2 Y n =
n n
Soit ε > 0. Appliquons le corollaire de l’inégalité de Markov : pour tout n ≥ 1
5.3 Convergence en loi 99
4
h i
E Yn 1
P |Yn | > ε ≤ =O 2 en + ∞
ε4 n
D’où :
+∞
X
P |Yn | > ε < +∞
n=1
et ne reste plus qu’à appliquer le corollaire du lemme de Borel-Cantelli pour en déduire :
lim Yn = 0 p.s.
n→+∞
ce qui achève la démonstration.
Exemple : Loi forte des grands nombres pour des variables exponentielles
Dans cet exemple, on s’intéresse à la convergence des trajectoires d’une moyenne empirique
de variables exponentielles de paramètre 1 et d’espérance 1.
Exemple : Loi forte des grands nombres pour des variables géométriques
Dans cet exemple, on s’intéresse à la convergence des trajectoires d’une moyenne empirique
de variables de loi géométrique de paramètre 0.2 et d’espérance 5.
Exemple : Loi forte des grands nombres pour des fréquences empiriques
Dans cet exemple, on s’intéresse à la convergence des trajectoires d’une moyenne empirique de
variables de Bernoulli de paramètre 0.2, représentant la fréquence empirique d’un événement
de probabilité 0.2 dans une succession d’épreuves indépendantes.
Exemple : Loi forte des grands nombres pour des variables de Cauchy ( ? ?)
Dans cet exemple, on s’intéresse à la (non-)convergence des trajectoires d’une moyenne
empirique de variables de Cauchy standard, de médiane 0, mais qui ne possèdent pas de
moment d’ordre 1. On observe des sauts, rares mais importants, aussi loin que l’on aille, et
qui manifestent une absence de convergence.
Dans cette partie, il n’est plus nécessaire de supposer que toutes les variables aléatoires
soient définies sur un même espace de probabilité. Elles restent à valeurs dans un même
espace vectoriel Rd .
Définition 5.21
Soit (Xn , n ≥ 1) et X des vecteurs aléatoires à valeurs dans Rd .
On dit que la suite (Xn , n ≥ 1) « converge en loi » vers X si pour toute fonction continue
bornée f de Rd dans R :
Remarque
Il y a unicité de la loi limite, mais pas de la variable aléatoire limite. Plus précisément, si la
suite de variables aléatoires (Xn )n∈N converge en loi vers la variable aléatoire X, alors elle
converge aussi en loi vers la variable aléatoire Y si et seulement si X et Y ont même loi. La
convergence en loi n’affirme pas que X et Xn sont proches dans E mais que la loi de Xn est
proche de celle de X pour n grand.
Fondamental
La convergence en loi d’une suite de variables aléatoires est improprement nommée : il s’agit
en réalité de la convergence de lois définies sur Rd , et non de la convergence des variables
aléatoires. Voilà pourquoi il n’importe pas que les variables aléatoires soient définies sur un
même espace de probabilité, mais seulement que leurs lois soient définies sur le même espace
vectoriel Rd .
Exemple
Soit Xn une variable aléatoire de loi PXn = 12 δ1/n + 12 δn/(n+1) . Alors, pour toute fonction f
continue bornée sur R,
1 1 1 n
E(f (Xn )) = f + f .
2 n 2 n+1
Par conséquent, pour toute fonction f continue bornée sur R,
1 1
lim E(f (Xn )) = f (0) + f (1) = E(f (X))
n→+∞ 2 2
L
avec X de loi de Bernoulli de paramètre p = 1/2. Par conséquent, Xn −→ X.
Propriété 5.22
Soit (Xn , n ≥ 0) une suite de vecteurs aléatoires, à valeurs dans Rd , qui converge en loi vers
X. Soit f une fonction continue sur Rd , à valeurs dans Rk . Alors la suite (f (Xn ), n ≥ 0)
converge en loi vers f (X).
Remarque
La convergence presque sûre et la convergence en moyenne d’ordre p impliquant la convergence
en probabilité, elles impliquent aussi la convergence en loi. La convergence en loi est donc la
plus faible de toutes les convergences étudiées jusqu’à présent.
Preuve
Supposons que la suite Xn converge en probabilité vers X. Soit f : E → R une fonction
continue bornée. Alors la suite f (Xn ) converge en probabilité vers f (X) d’après la proposition
5.6. De plus, f étant bornée, il existe A ∈ R tel que
∀n ∈ N, |f (Xn )| 6 A partout.
D’après la proposition 5.18, f (Xn ) converge vers f (X) en moyenne. Par conséquent,
5.3 Convergence en loi 101
Étant donné que f est une fonction continue bornée arbitraire, nous venons de montrer que
L
Xn −→ X.
On peut caractériser la convergence en loi avec les mêmes outils que ceux qui permettent de
caractériser une loi : densité, fonction de répartition, moments et fonction caractéristique.
Suivant les situations, l’une ou l’autre des méthodes se révélera plus appropriée.
L
Xn −→ X
n→+∞
si et seulement si
en tout k ∈ Z.
Attention
Des variables aléatoires discrètes peuvent converger en loi vers une variable aléatoire à densité.
Remarque
Ce résultat s’étend aux vecteurs aléatoires à valeurs dans un même ensemble discret.
Exemple
Soit λ > 0. Pour tout n ≥ λ1 , soit Xn une variable aléatoire suivant une loi binomiale de
paramètres n et nλ . Étudions la limite de P(Xn = k) pour tout k ∈ Z, quand n tend vers
l’infini :
!n−k
n λk
!
λ
P(Xn = k) = 1 − pour n ≥ k
k nk n
λk n × (n − 1) × · · · × (n − k + 1)
!!
λ
= exp (n − k) ln 1 −
k! nk n
k
λ
−→ × 1 × exp (−λ)
n→+∞ k!
car
! !
λ λ
(n − k) ln 1 − ∼ (n − k) × − −→ −λ
n n→+∞ n n→+∞
k
On reconnaît dans λk! e−λ la probabilité P(X = k) quand X suit une loi de Poisson de
paramètre λ. On en déduit que la suite (Xn , n ≥ 1) converge en loi vers X.
102 Convergences
Attention
Il ne suffit pas que chacune des probabilités P(Xn = k), k ∈ Z, converge pour impliquer la
convergence en loi : il faut qu’elle converge vers une famille de probabilités qui caractérisent
une loi, c’est-à-dire qui soit de somme égale à 1. Considérons par exemple la suite de variables
aléatoires constantes Xn = n, n ∈ N. Il n’est pas difficile de voir que limn→+∞ P(Xn = k) = 0
pour tout k ∈ Z. Pour autant, il n’y a pas convergence en loi car il n’existe pas de variable
aléatoire X à valeurs dans Z telle que P(X = k) = 0 pour tout k ∈ Z.
L
Xn −→ X
n→+∞
si
Bien noter qu’il s’agit ici d’une condition suffisante et non nécessaire.
Exemple
(n) (n)
Soit X1 , . . . , Xn+1 un vecteur de loi uniforme (c’est-à-dire invariante par rotation) sur la
(0)
sphère unité de Rn+1 . La loi de X1 est discrète — c’est bien sûr la loi uniforme sur {−1, 1}
(n)
— mais pour n ≥ 1, on peut montrer que la loi de X1 admet la densité
Γ(n) n
fn (x) = (1 − x2 ) 2 −1 1−1<x<1 , x ∈ R
2n−1 Γ(n/2)2
√
(n)
D’après un résultat célèbre de Poincaré, la suite nX1 , n ≥ 1 converge en loi vers une
variable gaussienne centrée réduite. Vérifions-le en étudiant la convergence des densités.
√ (n)
Soit gn la densité de nX1 :
! ! n −1
1 x Γ(n) x2 2
gn (x) = √ fn √ = n−1 √ 1 − 1−√n<x<√n , x ∈ R
n n 2 Γ(n/2)2 n n
Soit x ∈ R. Quand n tend vers +∞ :
Attention
Là encore, notons que des vecteurs aléatoires à densité peuvent converger en loi vers un vecteur
qui n’en a pas, et que ce n’est pas parce que les densités convergent qu’il y a convergence en
loi. Comme contre-exemple, on peut considérer Xn = Xn et Xn0 = nX avec X une variable
gaussienne centrée réduite. Pour tout n ≥ 1, Xn et Xn0 sont des gaussiennes de variance
strictement positives, donc des variables à densité. On peut vérifier que la suite (Xn , n ≥ 1)
converge presque sûrement, donc en loi, vers la constante 0 dont la loi n’admet pas de densité,
tandis que les densités des lois de Xn0 convergent vers la fonction nulle qui n’est la densité
d’aucune variable aléatoire. La suite (Xn0 , n ≥ 1) ne converge donc pas en loi.
Propriété 5.26
Soit F, F1 , F2 , . . . les fonctions de répartition des vecteurs aléatoires X, X1 , X2 , . . . ; alors
L
Xn −→ X
n→+∞
si et seulement si
Exemple
Considérons la suite des variables aléatoires constantes Xn = n1 dont on voit aisément, d’après
la définition de la convergence en loi, qu’elles convergent en loi vers X = 0 (elles convergent
d’ailleurs aussi presque sûrement). Qu’en est-t-il de leurs fonctions de répartition ? Soit t ∈ R :
Elles convergent bien vers la fonction de répartition FX (t) = 1t≥0 sauf en 0, point de
discontinuité de FX .
Exemple
Soit X1 , X2 , . . . une suite de variables aléatoires de loi uniforme sur [0, 1].
Attention
Les fonctions de répartition peuvent converger simplement sans qu’il y ait convergence en
loi. On peut reprendre un exemple précédent en considérant la suite des variables constantes
Xn = n dont les fonctions de répartition convergent partout vers la fonction nulle qui n’est
pas une fonction de répartition.
Propriété 5.27
Soit X1 , X2 , . . . sont des variables aléatoires réelles ayant des moments de tous ordres.
h i
lim E Xnk = αk
n→+∞
h i
alors il existe une variable aléatoire X telle que E X k = αk pour tout k ∈ N∗ .
L
– Si de plus la loi de X est caractérisée par ses moments, alors Xn −→ X.
n→+∞
L
– Réciproquement, si Xn −→ X et s’il existe l ≥ 1 tel que
n→+∞
h i
sup E |Xn |l < +∞,
n≥1
h i h i
E X k = lim E Xnk
n→+∞
5.3 Convergence en loi 105
Exemple
Soit X1 , X2 , . . . une suite de variables aléatoires indépendantes telle que, pour tout n ≥ 1, la
loi de Xn ait la densité :
h n i
∀k, n ≥ 1, E Xnk =
n+k
Posons Yn = nX1 · · · Xn pour tout n. Il s’agit également de variables aléatoires bornées dont
les moments sont donnés par : pour tout k ≥ 1
h i h i h i
E Ynk = nk E X1k · · · E Xnk car X1 , . . . , Xn sont indépendantes
1 × 2 × ··· × n
= nk
(1 + k)(2 + k) · · · (n + k)
n!k!
= nk
(n + k)!
nk
= k!
(n + 1)(n + 2) · · · (n + k)
−→ k!
n→+∞
On reconnaît dans (k!, k ≥ 1) la suite des moments d’une variable aléatoire Y de loi
exponentielle de paramètre 1, dont on sait qu’elle est caractérisée par ses moments. On en
déduit que la suite (Yn , n ≥ 1) converge en loi vers Y .
Propriété 5.28
Soit ϕ, ϕ1 , ϕ2 , . . . les fonctions caractéristiques des vecteurs aléatoires X, X1 , X2 , . . . ; alors
L
Xn −→ X
n→+∞
si et seulement si
en tout x ∈ Rd .
Comme exemple d’application, nous verrons dans la section suivante l’un des théorèmes les
plus importants des probabilités, le théorème central limite.
Attention
Les fonctions caractéristiques peuvent converger simplement sans qu’il y ait convergence en
loi. Là encore, on peut considérer la suite des fonctions caractéristiques de Xn = nX, avec X
gaussienne centrée réduite, pour s’en convaincre.
Complément
Si (ϕn , n ≥ 1) converge simplement vers une fonction continue en 0, alors cette fonction est
la fonction caractéristique d’une loi et les vecteurs aléatoires (Xn , n ≥ 1) convergent en loi.
106 Convergences
Le théorème central limite, comme la loi forte des grands nombres, a pour objet le compor-
tement asymptotique d’une moyenne empirique de variables aléatoires indépendantes. Si
la loi forte des grands nombres en donne la limite, le théorème central√ limite en étudie les
fluctuations autour de cette limite. En les grossissant avec un facteur n, il montre qu’elles
se comportent de façon gaussienne. Il y faut une hypothèse supplémentaire : que les variables
aléatoires possèdent désormais un moment d’ordre 2, et plus seulement un moment d’ordre 1.
n
1X
Xn = Xi .
n i=1
Alors,
√
L
n Xn − µ −→ Z
avec Z une variable gaussienne centrée de variance σ 2 .
Démonstration
Notons ϕX1 la fonction caractéristique de X1 et ϕYn celle de
√ X1 + · · · + Xn √
Yn = n Xn − µ = √ −µ n
n
Calculons sa fonction caractéristique. Soit t ∈ R :
h i
ϕYn (t) = E eitYn
√
i √tn (X1 +···+Xn )
= E e e−itµ n
!
t √
= ϕX1 +···+Xn √ e−itµ n
n
! !
t t √
= ϕX1 √ · · · ϕXn √ e−itµ n car X1 , . . . , Xn sont indépendants
n n
!n
t √
= ϕX1 √ e−itµ n car X1 , . . . , Xn ont même loi
n
5.3 Convergence en loi 107
1 E[X12 ] 2 2 µ2 + σ 2 2 2
ϕX1 (s) = 1+ϕ0X1 (0)s+ ϕ00X1 (0)s2 +o s2 = 1+iE[X1 ]s− s +o s = 1+iµs− s +o s
2 2 2
On en déduit, à t fixé et quand n tend vers l’infini :
!n !n
t t µ2 + σ 2 2 1
ϕX1 √ = 1 + iµ √ − t +o
n n 2n n
!!
t µ2 + σ 2 2 1
= exp n ln 1 + iµ √ − t +o
n 2n n
√ √
! !
2 2
µ +σ 2 1 2 2 σ2 2
= exp iµt n − t − (iµ) t + o(1) = exp iµt n − t + o(1)
2 2 2
en utilisant un développement limité à l’ordre 2 de x 7→ ln (1 + x) en 0. D’où :
√
! !
σ2 2 √
−itµ n σ2 2
lim ϕYn (t) = lim exp iµt n − t + o(1) e = exp − t
n→+∞ n→+∞ 2 2
On reconnaît la fonction caractéristique
√ d’une variable
gaussienne Z centrée de variance σ 2 .
On en déduit que la suite n X n − µ , n ≥ 1 converge en loi vers Z.
Ce résultat montre le caractère universel de la loi gaussienne. Il se généralise dans le cas des
vecteurs aléatoires grâce à la notion de vecteur gaussien.
Théorème
5.30 : Théorème central limite vectoriel
(n)
Soit X une suite de vecteurs aléatoires indépendants, de même loi et à valeurs dans
n∈N∗
d
R . On suppose que leurs coordonnées possèdent un moment d’ordre 2. On note µ le vecteur
moyenne de X (1) et Γ sa matrice de covariance.
Alors,
√ n
!
1X L
n X (i) − µ −−−−→ Z
n i=1 n→+∞
Démonstration
Comme pour le théorème précédent, nous allons établir la convergence en√loi grâce à la conver-
gence ponctuelle des fonctions caractéristiques. Soit t ∈ Rd . Posons Yn = n n1 ni=1 X (i) − µ .
P
Alors
h i
ϕYn (t) = E eiht,Yn i
Or
√ 1X n √ n
! !
1X
ht, Yn i = ht, n X (i) − µ i = n ht, X (i) i − ht, µi
n i=1 n i=1
108 Convergences
Il découle des hypothèses que la suite Un = ht, X (n) i, n ≥ 1 est une suite de variables
aléatoires indépendantes, de même loi et ayant un moment d’ordre 2. De plus :
h i
E [U1 ] = E ht, X (1) i = ht, µi et var (U1 ) = var ht, X (1) i = ht, Γti
√ P
D’après le théorème précédent, la suite n n1 ni=1 Ui − ht, µi , n ≥ 1 converge en loi vers
une gaussienne centrée V de variance ht, Γti. On en déduit la convergence des fonctions
caractéristiques sur tout R et en particulier en 1 :
√ Pn
1
n( n Ui −ht,µi)
h i
ϕYn (t) = E eiht,Yn i = E ei i=1
ht,Γti
= ϕ√n( 1 Pn −→
U −ht,µi) (1) n→+∞ ϕV (1) = e− 2
n i=1 i
ht,Γti
Comme on reconnaît dans l’application t 7→ e− 2 la fonction caractéristique d’un vecteur
gaussien Z centré de matrice de covariance Γ, cela prouve que la suite (Yn , n ≥ 1) converge
en loi vers Z.