Polycop de Probabilités

Statistique Descriptive et Probabilités
S4 : SMA
FSR
Printemps 2013
Pr. A. ZOGLAT
La première partie de ce cours traite les notions de base de la statistique descriptive. Le deuxième partie
est une introduction au calcul de probabilité où sont présentées quelques notions fondamentales prérequises
pour un cours de statistique inférentielle.
Ce polycopié reète en partie mon enseignement des probabilités au cours de ces dernières années. Il est
certainement loin d'être parfait et ne cesse d'être amélioré. Mes remerciements vont à tous mes étudiants qui
m'ont aidé à l'améliorer. Je serai reconnaissant à tout lecteur qui aura l'amabilité de me signaler des erreurs
que peut comporter ce polycopié ou de me suggérer une idée pour le parfaire.
A. Zoglat.
i
Table des matières
1 Statistiques descriptives 1
1.1 Généralités et principales dénitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Représentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.1 Représentation d'une variable catégorielle ou numérique discrète . . . . . . . . . . . . 4
1.3.2 Représentation d'une variable numérique continue . . . . . . . . . . . . . . . . . . . . 6
1.4 Mesures de position . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.1 Mode d'un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.2 Moyenne d'un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.3 Médiane d'un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5 Mesures de variabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.1 Étendue d'un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.2 Les quartiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.3 Variance et écart-type d'un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5.4 Coecient de variation d'un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.6 Mesures de forme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.6.1 Distribution symétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.6.2 Coecient d'asymétrie d'un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.6.3 Diagramme de Boîte-à-Moustaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.7 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2 Éléments de Probabilités 1
2.1 Méthodes de dénombrement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2.2 Expériences et événements aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Bases axiomatiques des probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
ii
2.5 Formule de BAYES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.6 Événements indépendants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3 Variables Aléatoires 14
3.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1.1 Loi de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.1.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.3 Fonction densité de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.4 Loi d'une fonction d'une v.a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1.5 Variables aléatoires à valeurs dans Rp . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1.6 Indépendance de v.a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Espérance mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.1 Propriétés de l'espérance mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3.1 Propriétés de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4 Lois de Probabilité Classiques 25

4.1 Lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.1.1 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.1.2 Loi Binômiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.1.3 Loi Multinômiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.1.4 Loi Géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.1.5 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.1.6 Approximation d'une loi binômiale par une loi de Poisson . . . . . . . . . . . . . . . . 31
4.2 Lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.2.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.2.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2.3 Loi Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.2.4 Loi Normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.3 Autres Lois Importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.3.1 Transformation de vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.3.2 Lois fonctions de lois normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.4 Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.4.1 Cas de lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.4.2 Cas de lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.4.3 Espérance Conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5 Théorèmes limites 49
5.1 Modes de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3 Fonction génératrice et fonction caractéristique . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.4 Le théorème central limite (TCL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
0
Partie I : Statistique Descriptive
Chapitre 1
Statistiques descriptives
La statistique peut être dénie par l'ensemble des méthodes pour recueillir, présenter, résumer et analyser
des données. Il existe deux catégories de statistique : La statistique descriptive et la statistique inférentielle.
La statistique descriptive est un ensemble de méthodes pour décrire les données et dégager l'essentiel de
l'information qu'elles contiennent. Cette information peut être résumée par des représentations graphiques,
des tableaux ou des caractéristiques obtenues par un calcul algébrique. Tandis que la statistique inférentielle
a pour but d'analyser les données recueillies auprès d'une partie de la population an de tirer des conclusions
concernant toute la population.
1.1 Généralités et principales dénitions

Wow
Avant de présenter des outils de la statistique descriptive, nous allons préciser quelques dénitions utiles.
Population : La population est l'ensemble de référence sur lequel porte l'étude dans le cadre de laquelle les
données ont été recueillies.
Individu ou unité statistique : Un individu est un élément de la population. L'ensemble des individus
constitue la population. Chaque observation est associée à un individu.
Échantillon : L'échantillon est un sous-groupe de la population, composé des individus pour lesquelles des
observations ont été recueillies.
Variable : Un individu peut être décrit selon une ou plusieurs caractéristiques qu'on appelle variable.
On distingue deux types de variables (déterminés par le type de valeurs prises) :
Variables catégorielles : Une variable catégorielle, aussi appelée variable qualitative, prend comme
valeurs des caractères ou modalités que l'on ne peut pas mesurer numériquement.
Exemple 1.1.1.
1
1.1 Généralités et principales dénitions A. Zoglat
1. L'état civil d'une personne est une variable catégorielle qui peut prendre comme valeurs céliba-
taire, mariée, divorcée. . . etc.
2. Le niveau de satisfaction d'un service peut être représenté par un chire de 1 à 3 où 1 signie
pas satisfait, 2 signie moyennement satisfait et 3 signie très satisfait.
On peut même dénir deux types de variables catégorielles : nominales et ordinales. Les variables
catégorielles nominales, tel l'état civil d'une personne, prennent des valeurs qui ne suivent pas un ordre
naturel. À l'opposé, les variables catégorielles dont les modalités peuvent être classées dans un ordre
naturel, tel un niveau de satisfaction, sont dites ordinales.
Variables numériques : Les variables numériques, tel que leur nom l'indique, peuvent être mesurées nu-
mériquement. Elles portent aussi le nom de variables quantitatives. Attention, une variable décrite
par un nombre n'est pas obligatoirement numérique. C'est le cas par exemple du niveau de satisfac-
tion représenté par un nombre de 1 à 3 décrit précédemment. On distingues deux types de variables
numériques :
Variables discrètes : Une variable discrète est une variable qui prend ces valeurs dans un sous-
ensemble de R qui peut être ni ou inni mais dénombrable.
Exemple 1.1.2.
1. Le nombre d'étudiants possédants un ordinateur portable est une variable discrète à valeurs
dans un sous-ensemble de N ni (pourquoi ?).
2. Les nombre de lancers, dans une parties de Pile ou Face, nécessaires pour obtenir Face
est une variable discrète à valeurs dans N.
Variables continues : Une variable est dite continue si elle prend ses valeurs dans un sous-ensemble
de R qui est un intervalle ou une réunion d'intervalles.
Exemple 1.1.3. Les variables telles le temps, le poids ou la taille sont le plus souvent consi-
dérées comme des variables continues, un point de vue qui facilite généralement leur étude. Bien
sûr, en raison de la précision limitée des instruments de mesures, on n'observe en pratique qu'un
nombre ni de valeurs de ces variables.
2
A. Zoglat 1.2 Fréquences
An de décrire une variable prise séparément, on utilise des outils de la statistique descriptive univariée.
Les statistiques univariées calculables sur une variable dépendent du type de celle-ci.
1.2 Fréquences
Dans le cas des variables catégorielles ou discrètes, on appelle :
- Eectif ni , associée à la valeur xi de la variable, le nombre d'apparitions de cette variable dans
l'échantillon.
- Fréquence, associée à la valeur xi de la variable, le nombre

ni
fi = ,
n
où ni est l'eectif et n le nombre total de données.
- Eectif cumulé, associée à une valeur xi de la variable, le nombre d'individus dont la mesure est
inférieure ou égale à xi .
X
Ni = nj .
j:xj ≤xi
- Fréquence cumulée, associée à une valeur xi de la variable, la somme des fréquences relatives asso-
ciées aux valeurs inférieures ou égales à xi :
X
Fi = fj .
j:xj ≤xi
Remarque. On peut calculer l'eectif et la fréquence pour tous les types de variables, alors que l'eectif cumulé
et la fréquence cumulée ne sont calculés que pour les variables numériques.
Exemple 1.2.1.
- Un fabricant d'ordinateurs portables teste 100 machines choisies dans la production du jour et compte
le nombre de défauts sur chaque machine. Le variable d'intérêt ici est le nombre de défauts par machine.
Le fabricant a trouvé les résultats suivants :
xi 0 1 2 3 4 5
ni 53 25 11 6 3 2
Ni 53 78 89 95 98 100
fi 0.53 0.25 0.11 0.06 0.03 0.02
Fi 0.53 0.78 0.89 0.95 0.98 1
Une étude a été menée pour explorer les diérents moyens de transport des étudiants pour se rendre à
l'université. Le tableau suivant résume les résultats de cette étude :
3
1.3 Représentations graphiques A. Zoglat
Modalité Eectif ni Fréquence fi

Auto 51 0.23
Autobus 64 0.29
Marche 92 0.40
Moto 6 0.03
Vélo 11 0.05
Totaux n = 224 1
Soit x1 , . . . , x n un échantillon de n valeurs d'une variable numérique (discrète ou continue) X. On peut
distinguer trois caractéristiques d'un tel échantillon : la position, la variabilité (ou dispersion) et la forme.
Nous examinons ces caractéristiques plus loin.
1.3 Représentations graphiques

les graphiques ont l'avantage de faire ressortir simultanément plusieurs caractéristiques d'un échantillon,
et cela de manière simple et directe. Le choix d'un graphique dépend du type des variables étudiées ainsi que
du genre d'analyse que l'on souhaite faire. Une représentation graphique peut avoir 4 utilités principales en
statistique :
1. L'exploration du contenu d'un jeu de données,
2. la recherche de structures dans des données,
3. la vérication des postulats d'un modèle,
4. la communication des résultats d'une analyse statistique.
Pour faire de bons graphiques, il faut d'abord savoir identier l'information importante à présenter et choisir
le bon type de graphique pour mettre en lumière cette information. Nous allons présenter diérents types de
graphiques, qui dépendent notamment du type des variables à représenter.
1.3.1 Représentation d'une variable catégorielle ou numérique discrète

Les deux types de graphiques les plus utilisées pour les variables catégorielles ou numériques discrètes
comprenant un petit nombre de valeurs possibles sont le diagramme en secteurs (ou diagramme en
Camembert ou circulaire) et le diagramme en bâtons (ou diagramme en tuyaux d'orgue).
Diagramme en secteurs
Dans un diagramme en secteurs, chaque modalité est représentée par un secteur circulaire dont l'angle
est proportionnel à l'eectif de cette modalité. La gure 1.1 présente un exemple de diagramme en secteurs.
4
A. Zoglat 1.3 Représentations graphiques
Diagramme en tuyaux d'orgue

Pour le diagramme en tuyaux d'orgue, chaque modalité est représentée par un rectangle dont la hauteur
est proportionnelle à l'eectif de cette modalité et dont la largeur est la même pour toutes les modalités. Ce
diagramme est réservé aux variables catégorielles (les modalités sont sur l'axe des abscisses dans un ordre
quelconque). La gure 1.2 présente un exemple de diagramme en tuyaux d'orgue.
Exemple 1.3.1. Reprenons l'exemple sur les moyens de transport des étudiants :
Modalité Auto Autobus Marche Moto Vélo Total
Eectif ni 51 64 92 6 11 n= 224
Fréquence fi 0.23 0.29 0.40 0.03 0.05 1
Figure 1.1 Diagramme en Secteur
Diagramme en bâtons
Pour le diagramme en bâtons, chaque modalité (valeur numérique) est représentée par un rectangle dont
la hauteur est proportionnelle à l'eectif de cette modalité et dont la largeur est la même pour toutes les
modalités. La gure 1.3 présente un exemple de diagramme en bâtons.
5
Figure 1.2 Diagramme en Tuyaux d'Orgue
Exemple 1.3.2. On a relevé le nombre d'enfants de 100 familles choisies au hasard. Le tableau suivant
donne les principales caractéristiques de cette étude.
xi 0 1 2 3 4 5 6 7 Total
ni 20 25 30 10 5 5 3 2 100
fi 0,20 0,25 0,30 0,10 0,05 0,05 0,03 0,02 1
Fi 0,20 0,45 0,75 0,85 0,90 0,95 0,98 1
1.3.2 Représentation d'une variable numérique continue

Pour la représentation d'une variable continue ou d'une variable discrète ayant un grand nombre de
valeurs possibles, nous présentons cinq types de graphiques : l'histogramme, le polygone des fréquences, le
polygone des fréquences cumulées, le diagramme tige-et-feuilles et le diagramme en boîte à moustaches.
6
Figure 1.3 Diagramme en bâtons
Histogramme
Pour la représentation d'une variable numérique X, on convient de diviser l'ensemble des valeurs de cette
variable en k intervalles disjoints contigus ([ai , ai+1 [, i = 1, . . . , k ) recouvrant la totalité de cet ensemble.
Ces intervalles sont aussi appelés classes. Toutes les valeurs appartenant à une même classe sont alors
regroupées, faisant ainsi de chaque classe une modalité. On prendra toujours des classes de même amplitude
a = ai+1 − ai =constante. Pour tout i, on note ni le nombre de valeurs de X dans la classe [ai , ai+1 [ que l'on
appelle l'eectif de cette classe.
Le nombre de classes ne doit être ni trop petit (perte d'informations) ni trop grand (le regroupement en
classes est alors inutile et de plus, certaines classes pourraient avoir des eectifs trop faibles). En général,
le nombre de classes est compris entre 5 et 15 ; il dépend du nombre n d'observations et de l'étalement des
données. La formule de Sturges donne une valeur approximative du nombre k de classes :
k ' 1 + 3, 222 × log10 n.
Voici quelques exemples :
Taille de l'échantillon 13 ≤ n ≤ 24 25 ≤ n ≤ 50 51 ≤ n ≤ 104 105 ≤ n ≤ 212

Nombre de classes 5 6 7 8
Pour dresser le tableau des distributions des eectifs (ou de fréquences) on pourra suivre les étapes
suivantes :
Etape 1 : Déterminer k le nombre de classes à considérer dans l'étude.
7
Etape 2 : Calculer l'étendue : e = x(n) − x(1) , où x(1) est la valeur minimale de l'échantillon et x(n) est
sa valeur maximale.
Etape 3 : Diviser l'étendue par k, pour avoir une idée sur la valeur de l'amplitude des classes que l'on
notera a. On alors a ' e/k .

Etape 4 : On construit alors les classes [a1 , a1 + a[, [a1 + a, a1 + 2a[, . . . , [a1 + (k − 1)a, a1 + ka[, où
a1 ≤ x(1) et a1 + ka ≥ x(n) .
Etape 5 : S'assurer que chaque observation appartient à une classe et une seule.
Exemple 1.3.3. Les données suivantes sont les poids (en kg) de 32 étudiants :
64; 59; 64; 62; 75; 60; 68; 63; 54; 70; 66; 54; 53; 65; 59; 60;
64; 72; 76; 55; 80; 67; 62; 68; 71; 72; 69; 70; 51; 68; 60; 61.
En appliquant la formule de Sturges, on a 1 + 3.222 × log10 (32) = 5.846, nous prendrons k = 6 classes.
Nous avons x(1) = 51 et x(n) = 80. D'où e = 80 − 51 = 29 et a = 29/6 = 4.68 ' 5.
On a alors le tableau de distribution des fréquences suivant :
Classe Eectif ni Fréquence fi Fréquence cumulée F
[50, 55[ 4 4/32 4/32
[55, 60[ 3 3/32 7/32
[60, 65[ 10 10/32 17/32
[65, 70[ 7 7/32 24/32
[70, 75[ 5 5/32 29/32
[75, 80] 3 3/32 1
Remarquons que la dernière colonne contient les fréquences cumulées associées aux bornes supérieures
des classes.
La Figure 1.4 représente l'histogramme associé au tableau de distribution des fréquences ci-dessus.
Polygone de fréquences
Il permet de représenter sous forme de courbe, la distribution des fréquences. Il est obtenu en joignant,
par des segments de droite, les milieux des côtés supérieurs de chaque rectangle de l'histogramme. Pour
fermer ce polygone, on ajoute à chaque extrémité une classe de fréquence nulle.
Exemple 1.3.4. Reprenons l'Exemple 1.3.3, le polygone de fréquences pour les données de cet exemple est
présenté dans la Figure 1.5 ci-dessous.
8
Figure 1.4 Histogramme
Polygone de fréquences cumulées

On l'appelle aussi Courbe cumulative croissante : on joint les points ayant pour abscisses la limite
supérieure des classes et pour ordonnées les fréquences cumulées.
Exemple 1.3.5. Reprenons l'Exemple 1.3.3, le polygone de fréquences cumulées pour les données de cet
exemple est présenté dans la Figure 1.6.
Le polygone des fréquences cumulées permet d'estimer le pourcentage d'observations inférieures ou égales
à un nombre donné. Nous illustrons cela dans l'exemple suivant
Exemple 1.3.6. Reprenons l'Exemple 1.3.3. Calculons, par exemple, le pourcentage d'observations infé-
rieures ou égales à 73. Notons F (73) la fréquence cumulée correspondant à 73 (F(73) est la fréquence des
observations se trouvant dans l'intervalle [50, 73]). Comme 73 est situé dans la classe [70, 75[ et comme F est
une fonction croissante, on a :
70 ≤ 73 ≤ 75
F(70) ≤ F(73) ≤ F(75)
F (73) − F (70) F (75) − F (70)

Par interpolation linéaire, on a = d'où
73 − 70 75 − 70
F (75) − F (70) 0.91 − 0.75

F (73) = F (70) + (73 − 70) = 0.75 + 3 × = 0.846,
75 − 70 5
d'où l'on peut conclure qu'à peu près 85% des étudiants pèsent 73 kg ou moins.
9
Figure 1.5 Polygone des Fréquences
Diagramme Tige-et-Feuilles
Cette représentation est une sorte d'histogramme horizontal. On décompose une donnée numérique en
deux parties :
1. la tige qui comprend le premier ou les deux premiers chires,
2. la feuille qui comprend les autres chires.
On écrit les tiges les unes sous les autres et en regard de chaque tige, les feuilles correspondantes. Les tiges
et feuilles sont séparées par un trait vertical.
Lorsque les données sont des nombres à deux chires, le choix est clair : On prend les dizaines comme
tiges et les unités comme feuilles. Quand les données sont des nombres à trois chires ou plus, il est possible
de prendre les chires des unités comme feuilles et les deux autres comme tiges. Une autre possibilité serait
d'arrondir les données de sorte que le chire des unités soit toujours 0. On peut ensuite l'ignorer et procéder
comme si les données étaient à deux chires. Ces techniques sont illustrées par l'exemple suivant :
Exemple 1.3.7. Les données ci-dessous sont les tailles (en mm) de 34 spectateurs choisis au hasard à la
781 956 1016 1056 1149 1248 1519
917 984 1021 1081 1162 1338 1530
sortie d'un stade après un match de football. 945 994 1030 1086 1171 1390 1668
953 996 1049 1105 1199 1419 1714
954 996 1049 1131 1244 1490
10
Figure 1.6 Polygone des fréquences cumulées
780 960 1020 1060 1150 1250 1520
920 980 1020 1080 1160 1340 1530
Après avoir arrondi ces données on obtient : 950 990 1030 1090 1170 1390 1670
950 1000 1050 1110 1200 1420 1710
950 1000 1050 1130 1240 1490
En rajoutant un 0 à gauche si cela est nécessaire, on peut considérer que ces données arrondies sont à
quatre chires avec 0 comme chire des unités. On peut ensuite laisser tomber le chire des unités, et dénir
le chire des dizaines comme feuilles et les deux chires des centaines et milliers comme tiges. On obtient
alors :
07 8
08
09 2 5 5 5 6 8 9
10 0 0 2 2 3 5 5 6 8 9
11 1 3 5 6 7
12 0 4 5
13 4 9
14 2 9
15 2 3
16 7
17 1
11
1.4 Mesures de position A. Zoglat
1.4 Mesures de position

On les appelle aussi mesures de tendance centrale parce qu'elles dénissent une certaine notion de
centre de l'échantillon.
1.4.1 Mode d'un échantillon

On appelle mode d'un échantillon toute observation apparaissant avec la fréquence la plus grande. C'est
donc dire que la ou les catégories associées à la plus grande fréquence sont les modes de la variable. Ainsi, le
mode peut ne pas être unique.
Exemple 1.4.1.
- Considérons l'échantillon suivant :
x1 = 1.5, x2 = 1.8, x3 = 1.5, x4 = 1.2, x5 = 1.8, x6 = 1.5, x7 = 1.5
xi 1.5 1.8 1.2

Le tableau des fréquences associé est donné par : D'où le mode= 1.5.
ni 4 2 1
x1 = 1.5, x2 = 1.8, x3 = 1.5, x4 = 1.2, x5 = 1.8, x6 = 1.5, x7 = 1.8
xi 1.5 1.8 1.2

Le tableau des fréquences associé est donné par : Il existe deux modes 1.5 et 1.8.
ni 3 3 1
x1 = 1.5, x2 = 1.8, x3 = 1.4, x4 = 1.3, x5 = 1.7, x6 = 2, x7 = 2.5
Toutes les valeurs sont de même fréquence =1, il n'y a pas de mode.
1.4.2 Moyenne d'un échantillon

C'est la moyenne arithmétique bien connue que l'on note x :
n
1 X
x= xi .
n
i=1
S'il y a à peu près autant de petites valeurs que de grandes valeurs dans l'échantillon, la moyenne de
l'échantillon permet d'obtenir une notion satisfaisante du centre de l'échantillon. Cette mesure a cependant
l'inconvénient d'être très sensible aux valeurs extrêmes. En fait, un seul xi extrême sut pour rendre la
moyenne x très grande (petite). On exprime ce phénomène en disant que la moyenne est une mesure de
position très sensibles aux observations extrêmes.
12
A. Zoglat 1.4 Mesures de position
Exemple 1.4.2. L'échantillon suivant représente les salaires de 7 joueurs de football en milliers d'Euros :
x1 = 900, x2 = 750, x3 = 1200, x4 = 1020, x5 = 1350, x6 = 1050, x7 = 10530.
L'observationx7 est beaucoup plus large que toutes les autres. C'est une valeur extrême. Le salaire moyen
7
1 X 16800
est x= xi = = 2400. L'observation extrême x7 est si inuente que la moyenne est supérieure
7 7
i=1
à toutes les autres observations au lieu d'être au milieu d'elles.
1.4.3 Médiane d'un échantillon

C'est une valeur telle que la moitié des observations lui sont inférieures ou égales et l'autre moitié des
observations lui sont supérieures ou égales.
On ordonne les éléments x1 , . . . , x n de l'échantillon dans l'ordre croissant et on note x(i) l'observation se
trouvant à la ième position : x(1) ≤ x(2) ≤ . . . ≤ x(n) .

La médiane de l'échantillon est donnée par :

x(k+1)

si n = 2k + 1
x̃ =
 x(k) + x(k+1)

si n = 2k.
2
Contrairement à la moyenne de l'échantillon, x̃ est insensible aux valeurs extrêmes. On la qualie en ce sens
de mesure de position robuste. En fait, on peut constater que x̃ reste inchangée lorsqu'on modie quelques
valeurs se trouvant aux extrémités de l'échantillon.
Exemple 1.4.3. Reprenons l'exemple des salaires des joueurs de football en milliers d'Euros :
x1 = 900, x2 = 750, x3 = 1200, x4 = 1020, x5 = 1350, x6 = 1050, x7 = 10530.
Après avoir ordonné ces données, on obtient :
x(1) = 750, x(2) = 900, x(3) = 1020, x(4) = 1050, x(5) = 1200, x(6) = 1350, x(7) = 10530.
La médiane est x̃ = x(4) = 1050.
Les mesures de position présentées ont en commun deux propriétés :
- Si l'on additionne une même constante à chacune des données, chacune des mesures est augmentée de
la même constante.
- Si l'on multiplie chacune des données par la même constante, chacune des mesures est multipliée par
la même constante.
13
1.5 Mesures de variabilité A. Zoglat
1.5 Mesures de variabilité

Elles mesurent la dispersion des valeurs d'un échantillon x1 , . . . , x n . On en distingue quatre.
1.5.1 Étendue d'un échantillon

L'étendue, notée e, est dénie par e = x(n) − x(1) . L'étendue est la mesure de variabilité la moins utilisée.
Elle a l'inconvénient d'être très sensible aux données extrêmes.
Exemple 1.5.1.
- Reprenons l'exemple des salaires des joueurs de football en milliers d'Euros :
x1 = 900, x2 = 750, x3 = 1200, x4 = 1020, x5 = 1350, x6 = 1050, x7 = 10530.
L'étendue de cet échantillon est donnée par e = 10530 − 750 = 9780.

- Reprenons le même exemple mais en rectiant le dernier salaire :
x1 = 900, x2 = 750, x3 = 1200, x4 = 1020, x5 = 1350, x6 = 1050, x7 = 1530.
L'étendue de cet échantillon est donnée par e = 1530 − 750 = 780.
1.5.2 Les quartiles

On les note Q1 , Q2 et Q3 et ils sont tels que :
Q1 ≤ Q2 ≤ Q3 ,
25% des observations sont inférieures ou égales à Q1 , 25% des observations sont entre Q1 et Q2 , 25%
des observations sont entre Q2 et Q3 et les 25% restantes sont supérieures ou égales à Q3 .
On calcule des valeurs approximatives des quartiles en procédant comme suit :
1- On ordonne les observations x1 , . . . , xn de la plus petite à la plus grande :
x(1) ≤ x(2) ≤ . . . ≤ x(k) ≤ . . . ≤ x(n) .
n+1
2- Pour i = 1, 2 ou 3, on calcule αi = i .
4
3- Pour i = 1, 2 ou 3, on note pi la partie entière de αi (l'entier vériant pi ≤ αi < pi + 1).
Si αi − pi < 0.5, alors Qi = x(pi ) i.e ; Qi est la pi ème observation.
Si αi − pi > 0.5, Qi = x(pi +1) i.e ; Qi est la (pi + 1)ème observation.

alors
x(pi ) + x(pi +1)
Si αi − pi = 0.5, alors Qi = ème
i.e ; Qi est la moyenne de la pi et la (pi + 1)ème
2
observation.
14
A. Zoglat 1.5 Mesures de variabilité
Exemple 1.5.2. Calculons les quartiles pour l'échantillon suivant :
12, 14, 4, 10, 5, 7, 8, 11, 4, 13.
En ordonnant ces 10 observations suivant l'ordre croissant, on obtient : 4, 4, 5, 7, 8, 10, 11, 12, 13, 14. D'où,
10 + 1
α1 = 1 × = 2.75, d'où Q1 = x(3) = 5,
4
10 + 1 x(5) + x(6) 8 + 10
α2 = 2 × = 5.5, d'où Q1 = = = 9,
4 2 2
10 + 1
α3 = 3 × = 8.25, d'où Q3 = x(8) = 12.
4
L'intervalle [Q1 , Q3 ] contient 50% des observations, le reste des observations se réparti avec 25% à gauche de
Q1 et 25% à droite de Q3 . On l'appelle l'intervalle interquartile et on note IRQ=Q3 − Q1 sa largeur.
1.5.3 Variance et écart-type d'un échantillon

Ce sont les deux mesures les plus couramment utilisées. La variance d'un échantillon, notée S 2 , représente
en gros la moyenne des carrés des diérences entre chaque xi et la moyenne x. Nous la dénissons de manière
précise par
n
1 X
S2 = (xi − x)2 .
n−1
i=1
Par dénition, la variance d'échantillon est donc toujours positive ou nulle, et il est facile de voir qu'elle
s'annule seulement dans le cas extrême où toutes les observations sont égales. Dans ce cas il n'y a pas de
variabilité.
On mesure aussi très souvent la dispersion à l'aide de S (la racine carrée de S 2 ), que l'on appelle écart-
type de l'échantillon. Remarquons que si les xi s'expriment en kg, S2 2
s'exprimera en kg . Comme racine
carrée de la variance, l'écart-type S s'exprimera dans la même unité que les xi . Si une seule observation xi est
extrême, les diérences xj − x deviennent très grandes et donc S 2 et S également. La variance et l'écart-type
d'échantillon sont donc sensibles aux données extrêmes. En ce sens, ce sont des mesures de variabilité peu
robustes.
Exemple 1.5.3.
Données x S2 S
{1, 0, 2, 0, 3, 0, 4, 0, 5, 0} 1.50 3.61 1.90
{1, 0, 2, 0, 3, 0, 4, 0, 10, 0} 2.0 10.00 3.16
{1, 0, 2, 0, 3, 0, 4, 0, 100, 0} 11 980 31.30
15
1.5 Mesures de variabilité A. Zoglat
La formule suivante est utile pour le calcul de la variance d'un échantillon :
n
1 hX 2 i
S2 = xi − n x2 .
n−1
i=1
L'exemple suivant montre que la variance ne dépend pas de la position des observations. Il montre également
que si on multiplie les données par une constante c, l'écart-type et la variance sont multipliées respectivement
par |c| et c2 .
Exemple 1.5.4.
Données x S2 S
{25, 8, 14, 33, 16} 19.2 96.7 9.8
{11, −6, 0, 19, 2} 5.2 96.7 9.8
{5.8, −11.2, −5.2, 13.8, −3.2} 0 96.7 9.8
{75, 24, 42, 99, 48} 57.6 870.3 29.5
{−75, −24, −42, −99, −48} -57.6 870.3 29.5
Calcul de la variance pour le premier échantillon du tableau ci-dessus :
i xi (xi − x) (xi − x)2 x2i

1 25 5.8 33.64 625
2 8 -11.2 125.44 64
3 14 -5.2 27.04 196
4 33 13.8 190.44 1089
5 16 -3.8 10.24 256
Total 96 0 386.80 2230
n
ère formule de la variance donne : 1 X 1
La 1 S2 = (xi − x)2 = × 386.80 = 96.7.
n−1 5−1
i=1
n
ème formule de la variance donne : 2 1 hX 2 i 1
xi − n x2 = × 2230 − 5 × 19.22 = 96.7.

La 2 S =
n−1 5−1
i=1
1.5.4 Coecient de variation d'un échantillon

Les mesures de variabilité ci-dessus, exceptes les quartiles, sont indépendantes de la position. Dans certains
cas, il peut cependant être intéressant de relativiser la mesure de variabilité par rapport à la moyenne. Ainsi
une variation de poids de quelques kg dans un échantillon de baleines n'a pas la même signication que la
même variation observée dans un échantillon de bovins. Le coecient de variation est un exemple de mesure
de variabilité relative.
16
A. Zoglat 1.6 Mesures de forme
Pour un échantillon x1 , . . . , x n de valeurs d'une variable numérique positive, on dénit le coecient de
variation par :
S
C.V. = .
x
On exprime parfois le coecient de variation en pourcentage. Ainsi, un C.V. de 0.35 signie que l'écart-type
est égal à 35% de la moyenne.
Le coecient de variation n'a pas d'unité. Il est utilisé pour comparer la variabilité de deux jeux de données
exprimées dans des unités diérentes.
Exemple 1.5.5. Le tableau suivant contient les données concernant le poids (en kg) et la taille (en cm) de
10 garçons âgés de 8 ans.
Variable x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x s C.V
Poids 27 25 28 26 30 25 26 27 24 28 26.6 1.78 0.07
Taille 110 125 130 115 105 132 117 120 95 90 113.9 14.07 0.12
On peut conclure qu'il y a plus de variabilité dans la variable taille que dans la variable poids.
1.6 Mesures de forme

1.6.1 Distribution symétrique
On dit qu'une distribution est symétrique si son histogramme (et donc son polygone des fréquences)
est approximativement symétrique par rapport à la droite passant par la médiane.
Remarque : Une distribution est symétrique si le polygone des fréquences a la forme d'une cloche :
Une distribution qui n'est pas symétrique est dite asymétrique à gauche (respectivement asymétrique
à droite) si la moitié gauche (respectivement à droite) de son histogramme est plus allongée que sa moitié
droite (respectivement gauche).
Les notions de symétrie et d'asymétrie sont illustrées dans la gure ci-dessous
17
1.6 Mesures de forme A. Zoglat
1.6.2 Coecient d'asymétrie d'un échantillon

Le coecient d'asymétrie est une mesure du degré de symétrie présent dans un échantillon. Il est déni
par
n
µ3 1X
γ1 = , où µ3 = (xi − x)3 .
S3 n
i=1
Ce nombre peut être positif ou négatif, le signe étant déterminé par les grandes déviations de la forme (xi −x).
- Si γ1 > 0, la distribution est étalée vers la droite. On dit que la distribution est asymétrique (avec
une queue) à droite.
- Si γ1 < 0, la distribution est étalée vers la gauche. On dit que la distribution est asymétrique (avec
une queue) à gauche.
- Si la distribution est symétrique, γ1 = 0.
Exemple 1.6.1. Soient les observations 1, 1, 1, 1, 2, 6. Alors x = 2, S 2 = 4 et les (xi − x)3 valent respective-
10
ment -1,-1,-1,-1, 0, 64, et donc γ1 = > 0. D'où une distribution asymétrie avec une queue à droite.
8
1.6.3 Diagramme de Boîte-à-Moustaches

Ce graphique permet de représenter simultanément la médiane, les quartiles et les observations extérieures
à l'intervalle interquartile [Q1 , Q3 ]. Ce type de représentation est particulièrement utile pour décrire les
propriétés fondamentales d'un échantillon telles que la position, la variabilité, l'asymétrie, mais aussi pour
faire ressortir les observations extrêmes.
Le centre de ce graphique est une boîte, délimitée par les quartiles Q1 et Q2 , coupée en deux par un
segment placé à la hauteur de Q2 . De chaque coté de la boîte, on trace ensuite une moustache (un segment
de droite) de longueur 1.5(Q3 − Q1 ). Toutes les observations à l'extérieur des moustaches sont considérées
comme des données extrêmes.
Exemple 1.6.2. Reprenons les données concernant les poids (en kg) de 32 étudiants (avec un modication
de la plus grande valeur)
18
A. Zoglat 1.7 Applications
64; 59; 64; 62; 75; 60; 68; 63; 54; 70; 66; 54; 53; 65; 59; 60;
64; 72; 76; 55; 85; 67; 62; 68; 71; 72; 69; 70; 51; 68; 60; 61.
Les quartiles sont Q1 = 60, Q2 = 64 et Q3 = 69.75. Sur le diagramme de la boîte à moustaches suivant,
on constate que la plus grande observation est une valeur extrême. En eet 69.75 + 1.5 × (69.75 − 60) =
84.375 < 85.
Figure 1.7 Boite à Moustaches
1.7 Applications
Nous avons vu qu'il existe plusieurs mesures de positions et de dispersion. La moyenne est sans doute la
mesure de position la plus répandue alors que la variance et l'écart-type sont les mesures de dispersion les
plus utilisées. Nous allons voir comment estimer le pourcentage de données se trouvant autour de la moyenne.
Le théorème de Tchebychev : Il permet d'évaluer le pourcentage des données qui se trouvent à k écart-
types de la moyenne, pour un réel k donné.
Théorème : Pour tout réel k > 1, au moins (1 − 1/k 2 )100% des observations d'une série de données, se
trouvent à k écart-types de la moyenne de cette série.
Exemple 1.7.1. Les notes de 100 étudiants d'un contrôle de statistique ont une moyenne x = 14 avec un
écart-type S = 1. Combien d'étudiants ont eu une note entre 12 et 16 ?
Remarquons que 12 = x − 2S et que 16 = x + 2S . Ainsi, d'après le théorème de Tchebychev, le pourcentage
d'étudiants ayant obtenus une note entre 12 et 16 est supérieur ou égal à (1 − 1/22 )% = 75%.
Le pourcentage garanti par le théorème de Tchebychev est mieux évalué sous la condition de symétrie.
Règle Empirique : Si la distribution des observation est symétrique, alors :

Approximativement 68% des valeurs sont à un écart-type de la moyenne.
Approximativement 95% des valeurs sont à deux écart-types de la moyenne.
Approximativement toutes les valeurs sont à trois écart-types de la moyenne.
19
Partie II : Probabilités
Chapitre 2
Éléments de Probabilités
Les origines de la théorie des probabilités remontent au 17
ème siècle lorsque les deux célèbres mathé-
maticiens français Blaise Pascal et Pierre De Fermat tentaient de résoudre certains problèmes liés aux jeux
du hasard. Des problèmes analogues à ceux qui ont été résolus par Pascal et De Fermat ont incité d'autres
mathématiciens tels que Huygens, Bernoulli, De Moivre et d'autres à établir les bases d'une théorie ma-
thématique des probabilités. De nos jours, la théorie des probabilités est une branche mathématique bien
développée dont les domaines d'application sont aussi multiples que variés. Elle peut, par exemple, fournir
des outils précieux pour le traitement des les d'attente, la modélisation de la propagation d'une épidémie,
la prédiction de la météo ... etc.
Ce chapitre est une introduction aux calculs des probabilités où nous allons présenter les concepts fonda-
mentaux qui sont nécessaires pour le développement des éléments de base de la statistique mathématique.
2.1 Méthodes de dénombrement

En théorie des probabilités, on est souvent devant des situations où il est indispensable de dénombrer les
possibilités pour qu'un événement donné se réalise. Nous allons, dans ce paragraphe, étudier les méthodes
de dénombrement les plus courantes.
Principe élémentaire de comptage
Considérons une expérience qui se réalise en n étapes. Pour i = 1, . . . , n, on note mi le nombre de résultats
possibles à la ième étape.
Résultat Le nombre total des résultats possibles à la n d'une telle expérience est égal à
m = m1 × m2 × . . . × mn .
21
2.1 Méthodes de dénombrement A. Zoglat
Exemple : Dans un restaurant, un menu comprend une entrée (2 choix :une salade verte ou une soupe),
un plat principal (3 choix : de la viande, du poulet ou du poisson) et un dessert (2 choix : une glace ou un
fruit de saison). De combien de façons est-il possible de composer un menu ?
Il y a 2 possibilités de choix d'entrée, pour chaque choix d'entrée il y a 3 possibilités de choix de plat
principal et pour chaque choix d'entrée et de plat principal il y 2 possibilités de choix de dessert. Ainsi,
comme le montre la gure2.1 ci-dessous, le nombre de façons de composer un menu est égal à 2 × 3 × 2 = 12.
Glace (1)
Viande
@
@ Fruit (2)
Glace (3)
Salade Poulet
@ @
@ Fruit (4)
@
Glace (5)
@
@
Poisson
@
Début @
@ Fruit (6)
@
Glace (7)
Viande
@
@ @
@ Fruit (8)
@
Glace (9)
@
@ Soupe Poulet
@ @
@ Fruit (10)
@
Glace (11)
@
Poisson
@
@
@ Fruit (12)
Figure 2.1 Arbre des Menus
Permutations
Une permutation est un rangement ou classement ordonné de n objets.
Permutations sans répétitions
Exemple : Les permutations sans répétitions possibles des lettres A, B et C sont : ABC, ACB, BAC,
BCA, CAB et CBA. Soient 6 permutations au total.
Résultat Le nombre de permutations de n objets distincts est égal à
n! = 1 × 2 × 3 . . . × n.
22
A. Zoglat 2.1 Méthodes de dénombrement
Permutations avec répétitions

Le nombre de permutations lorsque certains objets sont indiscernables est inférieur au nombre de per-
mutations lorsque tous les objets sont distincts.
Exemple Les permutations possibles des lettres A, A, B, B et B sont : AABBB, ABABB, ABBAB,
ABBBA, BAABB, BABAB, BABBA, BBAAB, BBABA, BBBAA.
Il n'est pas toujours facile d'énumérer toutes les possibilités et pourtant on a besoin de connaître leur
nombre. Un moyen permettant de faire le calcul consiste à dénombrer toutes les permutations comme si
toutes les lettres étaient distinctes (5 !=120) puis diviser par le nombre de permutations possibles des lettres
A (2 !=2) et celui des lettres B (3 !=6) puisque ces permutations ne sont pas discernables. Ainsi on a
120
= 10 possibilités de ranger les lettres A, A, B, B et B.
2×6
Résultat Un ensemble E contient n1 objets identiques de type T1 , n2 objets identiques de type T2 , ...
et nr objets identiques de type Tr . Le nombre de possibilités pour ranger les éléments de E est donné par
n!
, où n = n1 + n2 + . . . + nr .
n1 !n2 ! . . . nr !
Arrangements et Combinaisons
Considérons une urne contenant n boules numérotées de 1 à n. L'expérience consiste à tirer p boules
de cette urne. Quel est le nombre de résultats possibles ? Pour répondre à cette question, on distingue les
diérents cas de gures suivants :
a. Tirages avec remise :
a1. L'ordre des résultats est pris en considération.
a2. L'ordre des résultats n'est pas pris en considération.
b. Tirages sans remise :
b1. L'ordre des résultats est pris en considération.
b2. L'ordre des résultats n'est pas pris en considération.
Lorsque l'ordre des résultats est pris en considération, on parle d'arrangements. Lorsque l'ordre des résultats
n'est pas pris en considération, on parle de combinaisons.
Arrangements avec répétitions

Avec n objets discernables O1 , . . . , On , combien de p−uplets (Oi1 , Oi2 , . . . , Oip ), où les O ij ne sont pas
forcément distincts, est-il est possible de former ?
23
Pour répondre à cette question, remarquons que la formation d'un p−uplet (Oi1 , Oi2 , . . . , Oip ), où les Oij
ne sont pas forcément distincts, est une expérience qui se réalise en p étapes. À chaque étape, le nombre de
possibilités est égale à n. Cela justie donc, compte tenu du principe de comptage évoqué au paragraphe 2.1,
le résultat suivant.
Résultat Le nombre d'arrangements avec répétitions de p objets choisis parmi n est égal à np .
Exercice Montrer que le nombre d'applications d'un ensemble à p éléments vers un ensemble à n éléments
est égal à np .
Arrangements sans répétitions

Avec n objets discernables O1 , . . . , On , combien de p−uplets (Oi1 , Oi2 , . . . , Oip ), où les Oij sont tous
distincts, est-il est possible de former ?
Remarquons que cela n'est possible que si n ≥ p. On supposera alors qu'il en est ainsi quand c'est
indispensable.
Ici, la formation d'un p−uplet (Oi1 , Oi2 , . . . , Oip ), où les Oij sont tous distincts, est une expérience qui
se réalise en p étapes. Mais, à la ième étape le nombre de réalisations possibles est égale à n − (i − 1). Cela
justie donc le résultat suivant.
Résultat Le nombre d'arrangements sans répétitions de p objets choisis parmi n, noté Apn , est donné par
n!
Apn = n(n − 1) . . . (n − (p − 1)) = .
(n − p)!
Exercice Montrer que le nombre d'applications injectives d'un ensemble à p éléments vers un ensemble
à n éléments est égal à Apn .
Exercice Un entraîneur dispose d'un groupe de 20 joueurs. Combien d'équipes, de 11 joueurs chacune,
est-il possible de former ? On suppose que chaque joueur est capable d'occuper n'importe quel poste sur le
terrain.
Combinaisons sans répétitions

Exemple Reprenons l'exemple de l'urne contenant n boules numérotées de 1 à n parmi lesquelles on choisit,
sans remise, p boules. Sans tenir compte de l'ordre d'apparition des numéros tirés, quel est le nombre de
combinaisons possibles ?
24
A. Zoglat 2.1 Méthodes de dénombrement
On sait que si l'on tenait compte de l'ordre on aurait Apn cas possibles. Dans ce cas chaque groupe de p
numéros engendre p! combinaisons ordonnée. Pour obtenir le nombre de combinaisons non ordonnées, il suf-
t de diviser Apn par p!. Le problème revient à calculer le nombre de possibilités de choisir p boules parmi les n.
Résultat Le nombre de possibilités de choisir p objets parmi n objets distincts est
n!
Cnp = .
p!(n − p)!
Applications : Montrer la formule du binôme :
X
(a + b)n = Cnp ap bn−p .
p
Exercice Montrer que

k
X
k
∀k ≤ n + m, Cn+m = Cni Cm
k−i
.
i=0
Indication : Remarquer que (1 + X)n+m = (1 + X)n (1 + X)m et identier les coecients de Xk dans les
deux expressions.
Combinaisons avec répétitions

Dans ce paragraphe nous allons répondre à la question suivante :
Question Supposons que l'on eectue p tirages avec remise dans une urne contenant n boules numérotées
de 1 à n. Sans tenir compte de l'ordre, quel est le nombre combinaisons possibles ?

Pn
Dans chaque combinaison, la boule numéro i peut apparaître xi fois, avec 0 ≤ xi ≤ p et i=1 xi = p . Ainsi
Pn
le nombre de combinaisons possibles est égal au nombre de solutions dans N de l'équation i=1 xi = p .
Ce problème classique peut également être présenté comme suit :
On dispose de p enveloppes identiques que l'on aimerait répartir dans n boîtes aux lettres numérotées de 1
à n. Notons xi le nombre d'enveloppes dans la boîte numéro i, avec 0 ≤ xi ≤ p . Le nombre de répartitions

Pn
possibles est égal au nombre de solutions dans N de l'équation i=1 xi = p . Pour bien illustrer la solution
nous commençons par un exemple simple.
Exemple Une personne est chargée de distribuer des prospectus aux habitants d'un quartier. A la n de
sa tournée, cette personne dispose encore de 6 prospectus qu'elle décide de distribuer au hasard dans les 4
boîtes aux lettres du dernier immeuble. De combien de façons est-il possible de répartir 6 prospectus dans
les 4 boîtes ?
Numérotons les boîtes de 1 à 4 et soit xi le nombre de prospectus dans la boîte numéro i.
25
Le quadruplet (x1 , . . . , x4 ) = (2, 3, 0, 1) est une possibilité que nous schématisons par
bP P | PPP | |P c
où deux barres verticales symbolisent une boîte et P un prospectus. Le schéma
bP P P P P | | |P c
correspond donc à (x1 , . . . , x4 ) = (5, 0, 0, 1).

D'une manière générale, on obtient une possibilité de répartir les 6 prospectus dans les 4 boîtes en
permutant les P et les barres verticales. Pour calculer le nombre de solutions possibles, remarquons d'abord
que l'on doit toujours avoir une barre à l'extrémités gauche et une autre à l'extrémité droite car elles délimitent
respectivement la première et la dernière boîte. On ne doit donc permuter que les 3 barres verticales qui sont
au milieu et les 6 P. D'après le résultat sur les permutations avec répétitions, le nombre de permutations
possibles est égal à

(6 + (4 − 1))!
(4 − 1)! 6!
= C66+(4−1).
En utilisant les mêmes arguments, on peut prouver le résultat général suivant :
Résultat Le nombre de possibilités de répartir p objets identiques dans n cases est égal à Cpp+n−1 .
Remarque Nous avons déjà signalé que C p

p+n−1 est le nombre de solutions dans N de l'équation
Pn
i=1 xi =
p. Ce nombre représente également le nombre de résultats, sans tenir compte de l'ordre, de p tirages avec
remises eectués dans une urnes contenants n objets distincts.
Jusqu'ici nous avons considéré le nombre de possibilités de diviser un ensemble de n éléments en 2 sous-
ensembles : l'un contenant p éléments et l'autre n−p éléments. Quel serait ce nombre si on divisait un ensemble
de n éléments en r sous-ensembles contenants respectivement p1 , . . . , pr éléments ? (où p1 + . . . + pr = n.)
Résultat Le nombre de possibilités de diviser un ensemble à n éléments en r partitions contenant respec-
tivement p1 , . . . , pr éléments est donné par
n!
Cnp1 ,...,pr = .
p1 ! . . . pr !
Démonstration.
p2 pr
Cnp1 Cn−p 1
. . . Cn−p 1 −p2 −...−pr−1
= Cnp1 ,...,pr
Exemple De combien de façons est-il possibles de répartir 12 étudiants en équipes pour travailler sur 3
projets, sachant que pour le projet A on a besoin de 3 étudiants, pour le projet B on a besoin de 2 étudiants
26
A. Zoglat 2.2 Expériences et événements aléatoires
et pour le projet C on a besoin de 4 étudiants ?

On doit donc diviser l'ensemble des étudiants en 4 sous-ensembles. Trois équipes d'eectifs respectifs 3, 2 et
4 qui vont travailler sur les projets et une équipe des 3 étudiants restants qui ne vont travailler sur aucun
projet. Le nombre de possibilités est donc :
3, 2, 4, 3 12
C12 = .
3!2!4!3!
Applications Formule du binôme généralisée :
Cnp1 ,...,pr ap11 . . . apr r .

X
(a1 + a2 + . . . + ar )n =
p1+p2+...+pr =n
2.2 Expériences et événements aléatoires

Une expérience est dite aléatoire lorsque ses résultats dépendent du hasard. Même si l'ensemble des
résultats possibles d'une expérience aléatoire est connu, il est impossible de prédire avec certitude une issue.
Par exemple, on sait d'avance qu'en lançant un dé à six faces numérotées de 1 à 6, le résultat qui sera indiqué
sur la face supérieure du dé est un chire entre 1 et 6. Et pourtant personne ne peut prédire avec certitude
le résultat d'un lancer de dé (sauf si celui-ci est truqué auquel cas le résultat ne dépend pas du hasard !)
Dénition 2.2.1. L'ensemble des résultats possibles d'une expérience aléatoire est noté Ω. On l'appelle l'ensemble
fondamental ou univers des possibles. Ses éléments sont notés ω.
Exemples
1. Une expérience consiste à lancer d'un dé à 6 faces numérotées de 1 à 6 et noter le numéro marqué
sur la face supérieure. L'ensemble fondamental relatif à cette expérience est Ω = {1, 2, 3, 4, 5, 6}. Ici
l'ensemble fondamental est ni.
2. Une expérience consiste à compter le nombre de lancers, d'un dé à 6 faces numérotées, nécessaires pour
obtenir un 6 pour la première fois. Dans ce cas, on a Ω = N∗ . Il s'agit ici d'un ensemble fondamental
inni et dénombrable.
3. Une expérience consiste à mesurer le temps séparant deux appels consécutifs qui arrivent à un cen-
tral téléphonique. Dans ce cas, on a Ω =]0, ∞[. Il s'agit ici d'un ensemble fondamental inni et non
dénombrable.
Dénition 2.2.2. On appelle événement tout sous-ensemble de Ω. Les singletons sont appelés des événe-
ments simples ou élémentaires. Un événement contenant au mois deux éléments de Ω est appelé événement
composite.
Remarque En tant que sous-ensembles de Ω, ∅ et Ω sont deux événements appelés respectivement
l' événement impossible et l'événement certain.

27
2.3 Bases axiomatiques des probabilités A. Zoglat
Exemples Une expérience consiste à lancer un dé à 6 faces numérotées de 1 à 6 et noter le numéro marqué
sur la face supérieure.
1. L'événement obtenir le numéro 3 est un événement simple.
2. L'événement obtenir un numéro pair, c'est à dire obtenir un 2, un 4 ou un 6, est un événement
composite.
3. L'événement obtenir le numéro 7 est un événement qui ne peut pas se réaliser. C'est un événement
impossible.
4. L'événement obtenir un numéro < 7 se réalise toujours. C'est un événement certain.
Opérations sur les événements

Soient A et B deux événements (i.e. deux sous-ensembles de Ω).
1. Le complémentaire de A dans Ω, noté A, c'est l' événement contraire de A.
2. L'intersection de A et B (A ∩ B ) est un événement. Il se réalise si, et seulement si, A et B se réalisent
simultanément. Si A ∩ B = ∅, on dit que A et B sont incompatibles.

3. La réunion de A et B (A ∪ B ) est un événement. Il se réalise si, et seulement si, au moins l'un des
événements A et B se réalise.
4. Lorsque A ⊂ B, la réalisation de A implique la réalisation de B.
2.3 Bases axiomatiques des probabilités

Soient Ω un ensemble non vide et P(Ω) l'ensemble des parties de Ω.
Dénition 2.3.1. On dit qu'une fonction P : (Ω, P(Ω)) → [0, 1] est une probabilité si elle vérie les axiomes
suivants :
A1. P{Ω} = 1 et P{∅} = 0,

A2. Pour toute suite (An )n d'éléments de P(Ω) deux à deux disjoints ( Ai ∩ Aj = ∅, lorsque i 6= j ) on a :
n[ o X
P An = P{An }.
n n
Ci-après sont quelques propriétés qui découlent directement de la dénition.
Propriétés.
a- L'axiome A2 reste bien entendu valable lorsque (An )n est une suite nie.
b- Pour tout A ∈ P(Ω), P{A} = 1 − P{A}. En eet, comme A ∪ A = Ω, le résultat découle des axiomes
A1 et A2.
28
A. Zoglat 2.3 Bases axiomatiques des probabilités
c- Soient A et B deux éléments de P(Ω). On note A\B = A ∩ B . Lorsque B⊂A on a
P{B} ≤ P{A} et P{A\B} = P{A} − P{B}.
En eet, il sut de remarquer que A = B ∪ (A\B).

d- Soient A et B deux éléments de P(Ω), alors
P{A ∪ B} = P{A} + P{B} − P{A ∩ B}.
S
e- Soit (An )n une suite croissante d'éléments de F (i.e. ∀n, An ⊂ An+1 ) et soit A= n An . Alors
P{A} = lim P{An }.

n→∞
Démonstration. On pose B1 = A1 et pour tout n ≥ 2, Bn = An \An−1 . Ainsi les Bn sont disjoints et

S S
on a pour tout n ∈ N, An = k≤n Ak = k≤n Bk . D'où
n[ o n
X
∀k ∈ N, P{An } = P Bk = P{Bk }.
k≤n k=1
limn P{An } = ∞
P
En passant à la limite on obtient k=1 P{Bk }. Pour conclure, il sut de remarquer que
nS o P
P k≥1 Bk = ∞
S S
k=1 P{Bk } et que k≥1 Bk = k≥1 Ak .
T
f- Soit (An )n une suite décroissante d'éléments de F (i.e. ∀n, An+1 ⊂ An ) et soit A= n An . Alors
P{A} = lim P{An }.

n→∞
A0n = An A0 = 0 (A0n )n
S
Démonstration. Pour tout n ∈ N, on pose et n An . La suite est croissante. On
a donc, d'après la propriété précédente, P{A0 } = limn→∞ P{A0n }. Pour conclure il sut de remarquer
que A0 = A et d'utiliser la deuxième propriété.
Événements équiprobables
Pour certaines expériences, l'ensemble fondamental est ni ( Ω = {ω1 , . . . , ωn }) et les événements simples
ont la même probabilité :
P{ω1 } = P{ω2 } = . . . = P{ωn } = p ∈ [0, 1].
On dit aussi que les ωi sont équiprobables.

Comme Ω = {ω1 } ∪ {ω2 } ∪ . . . ∪ {ωn }, on a la relation
1
P{Ω} = P{ω1 } + . . . + P{ωn } = n p ou encore p=
n
29
2.4 Probabilités conditionnelles A. Zoglat
Résultat Soit Ω = {ω1 , . . . , ωn } un espace fondamental dont les éléments sont équiprobables. Alors pour
tout A⊂Ω on a
Card(A)
P{A} = ,
Card(Ω)
où Card(B) désigne le nombre d'éléments de l'ensemble B.
Exemple Une urne contient 6 boules blanches et 5 boules noires. On en tire au hasard et sans remise 2
boules. Quelle est la probabilité que l'on tire une boule blanche et une boule noire ?
Ce problème peut être traité
(1) En tenant compte de l'ordre dans lequel les deux boules sont tirées (dans ce cas on numérote les
boules an de pouvoir les distinguer), ou
(2) Sans tenir compte de l'ordre dans lequel les deux boules sont tirées.
Nous allons considérer les deux cas de gure et nous allons voir qu'ils conduisent au même résultat. Remar-
quons tout d'abord que puisque les tirages se font au hasard, toutes les boules ont la même chance d'être
choisies. Nous sommes donc dans le cas d'événements élémentaires équiprobables.
(1) Lorsque l'ordre des tirages est pris en considération, il y a 11 possibilités de choisir la première boule
et 10 possibilités de choisir la deuxième, et donc Card(Ω) = 11 × 10 = 110.

De plus il y a 6×5 possibilités de tirer une boules blanche puis une boule noire et 5×6 possibilités de tirer
une boules noire puis une boule blanche. Notons A, A1 et A2 les événements dénis par
A = on tire une boule blanche et une boule noire,
A1 = la première boule tirée est blanche,
A2 = la première boule tirée est noire.
On a alors A=A1 ∪ A2 . D'où
30 30 6
P{A} = P{A1 } + P{A2 }= + = .
110 110 11
(2) Lorsque l'ordre n'est pas pris en considération, il y a C211 = 55 possibilités de tirer deux boules et
donc Card(Ω) = 55. Le nombre de possibilités de choisir une boule blanche et une boule noire est égale à
C ×C
1
6
1
5 = 30. D'où la probabilité de tirer une boule blanche et une boule noire est égale à
30
55
6
= .
11
2.4 Probabilités conditionnelles

Nous somme souvent amené à calculer une probabilité à la lumière d'une information supplémentaire
concernant le résultat de l'expérience. On parle alors de probabilités conditionnelles.
30
A. Zoglat 2.5 Formule de BAYES
Exemple Une expérience consiste à lancer un dé équilibré à 6 faces numérotées de 1 à 6 et à noter X

le numéro sur la face supérieure. L'ensemble fondamental est Ω = {1, 2, 3, 4, 5, 6}. Soient B l'événement
{X = 6} et A l'événement {X > 4}. Comme tous les événements simples sont équiprobables nous avons
1 1 1
P{B} = , P{A} = , P{A ∩ B} = .
6 3 6
Supposons maintenant que le dé a été jeté et que nous savons que l'événement A s'est réalisé, quelle est
la probabilité que B se réalise ? Désignons cette probabilité par P{B/A}. Pour la calculer on considère
comme nouvel ensemble fondamental Ω0 = {5, 6} = A. Comme les éléments de Ω, ceux de Ω0 sont également
équiprobables et on a
Card(B ∩ A)
1 Card(B ∩ A) Card(Ω) P{B ∩ A}
P{B/A} = = 0
= = .
2 Card(Ω ) Card(A) P{A}
Card(Ω)
Dénition 2.4.1. Soient Ω un ensemble fondamental et E et F deux sous ensembles de Ω avec P{F } =
6 0. On
appelle probabilité conditionnelle de E sachant F et on note P{E/F } la quantité
P{E ∩ F }
P{E/F } =
P{F }
Remarques
1. Comme P{E/F } désigne la probabilité que E se réalise sachant que F s'est réalisé, il est possible de
lui donner un sens en convenant que P{E/F } = 0 lorsque P{F } = 0. Cela signie que puisque F ne
peut pas se réaliser, l'événement E se sachant F est impossible.
2. De la dénition on déduit que
P{E ∩ F } = P{E/F }P{F }
3. Sur P(Ω), on dénit la fonction PB par :
∀A ∈ P(Ω), PB {A} = P{A/B}.
On peut facilement montrer que la fonction PB est une probabilité.
2.5 Formule de BAYES

S
Soient Ω un ensemble fondamental et A1 , A2 , . . . An une partition de Ω (i.e. i Ai = Ω et Ai ∩ Aj = ∅,
si i 6= j ) telle que, pour tout i, P{Ai } =
6 0.
Théorème. [Théorème de Bayes] Pour tout E ⊂ Ω, on a
n
X
P{E} = P{E/Ai } × P{Ai }, (Formule de probabilité totale),
i=1
31
2.6 Événements indépendants A. Zoglat
P{E/Ai } × P{Ai }
∀i ∈ {1, 2, . . . , n}, P{Ai /E} = Pn (Formule de Bays).
j=1 P{E/Aj } × P{Aj }
Exemple Une société d'assurance classe ses clients en 3 catégories ; HR : client à haut risque , MR :
client à moyen risque et FR : client à faible risque . Sachant qu'un client est classé HR ( respectivement
MR et FR), la probabilité qu'il fasse une réclamation est de 0.30 (respectivement 0.15 et 0.05). Par ailleurs,
les Clients classés HR représentent 10% des clients de la société. Alors que ceux classés FR représentent
70%.
a- Quelle est la probabilité qu'un client choisi au hasard fasse une réclamation ?
b- Si un client n'a fait aucune réclamation, quelle est la probabilité qu'il s'agisse d'un client à haut
risque ?
Soit Ω l'ensemble fondamental formé par tous les clients de la société. Notons A1 l'ensemble des clients classés
HR, A2 l'ensemble des clients classés MR et A3 l'ensemble des clients classés FR. Les événements A1 , A2 et
A3 forment une partition de Ω, et on a : P{A1 } = 0.10, P{A3 } = 0.70 et P{A2 } = 0.20.

Notons B l'événement le client fait une réclamation. On a
P{B/A1 } = 0.30, P{B/A2 } = 0.15 et P{B/A3 } = 0.05.
a- D'après le théorème de Bayes, P{B} = P{B/A1 }P{A1 } + P{B/A2 }P{A2 } + P{B/A3 }P{A3 }.
P{B/A1 }P{A1 }
b- On cherche P{A1 /B}. D'après le théorème de Bayes, P{A1 /B} = P{B}
.
2.6 Événements indépendants

Intuitivement, deux événements A et B sont indépendants si la réalisation de l'un n'a aucun eet sur la
réalisation de l'autre. Dans ce paragraphe nous allons donner une dénition précise et quelques propriétés
de l'indépendance.
Dénition. On dit que l'événement A est indépendant de l'événement B si
P{A/B} = P{A}.
Exemple On tire au hasard une carte d'un jeu de 52 cartes bien mélangées. On désigne par A l'événement
la carte tirée est une dame et par B l'événement la carte tirée est un carreau. Alors A est indépendant
de B. Pour le monter calculons

P{A/B}.
4 1 13 1 1 P{A ∩ B} 4
On a P{A} = = , P{B} = = et P{A ∩ B} = . D'où P{A/B} = = = P{A}.
52 13 52 4 52 P{B} 52
Propriétés.
32
A. Zoglat 2.6 Événements indépendants
1- L'événement A est indépendant de l'événement B si, et seulement si, P{A ∩ B} = P{A} × P{B}. Cette
caractérisation montre que Si A est indépendant de B alors B est indépendant de A. On dit que A et B
sont indépendants.
3- Si A et B sont indépendants alors :
(a) A et B sont indépendants, (b) A et B sont indépendants et (c) A et B sont indépendants.
Supposons que A est indépendant de B1 et de B2 . Pourrait-on conclure que A est indépendant de B1 ∩B2 ?
La réponse est non en général comme le montre l'exemple suivant.
Exemple Une urne contient 4 boules ; elles portent respectivement les nombres 1, 2, 3 et 123. On tire une
boule de l'urne et on considère les événements A : " on observe le chire 1 sur la boule tirée", B1 : " on
observe le chire 2 sur la boule tirée", et B2 : " on observe le chire 3 sur la boule tirée". Ces événements
sont deux à deux indépendants mais ne sont pas mutuellement indépendants :
On a P{A} = P{B1 } = P{B2 } = 1/2. Il est facile de voir que P{A ∩ B1 } = P{A}P{B1 }, P{A ∩ B2 } =
P{A}P{B2 } et P{B1 ∩ B2 } = P{B1 }P{B2 }. Mais P{A ∩ (B1 ∩ B2 )} =
6 P{A}P{B1 }P{B2 }.
Cet exemple montre que pour que A indépendant de B1 et A indépendant de B2 impliquent que A
est indépendant de B1 ∩ B2 , on a besoin d'une notion plus forte que l'indépendance 2 à 2.
Dénition. On dit que les événements A1 , A2 , . . . , An sont mutuellement indépendants si

n\ o Y
∀I ⊂ {1, 2, . . . , n}, P Ai = P{Ai }.
i∈I i∈I
Plus généralement, (An )n∈N est une suite d'événements mutuellement indépendants si pour tout n ∈ N les
événements Ai1 , . . . , A in sont mutuellement indépendants.
Souvent, par abus de langage et lorsqu'aucune confusion n'est à craindre, on laisse tomber le terme mu-
tuellement.
Exemple Un système électrique a n composants qui tombent en panne indépendamment. Soient Ai l'évé-
nement le i
ème composant est défaillant, avec P{Ai } = pi . L'événement B le système est défaillant se
produit si le courant ne peut pas passer d'un bout du système à l'autre. Calculer la probabilité que le sys-
tème fonctionne selon que les composants sont montés en parallèle ou en série.
Si les composants sont montés en parallèle, alors

n
Y n
Y
PP {B} = P{A1 ∩ A2 ∩ . . . ∩ An } = pi , et donc P{le système fonctionne} = 1 − PP {B} = 1 − pi .
i=1 i=1
Si les composants sont montés en série, alors
n
Y
PS {B} = P{A1 ∪ A2 ∪ . . . ∪ An } = 1 − P{A1 ∪ A2 ∪ . . . ∪ An } = 1 − P{A1 ∩ A2 ∩ . . . ∩ An } = 1 − (1 − pi ).
i=1
Qn
D'où P{le système fonctionne} = 1 − PS {B} = 1 − i=1 (1 − pi ).
33
Chapitre 3
Variables Aléatoires
3.1 Généralités
Dans de nombreuses situations les événements d'intérêt ne constituent qu'un sous-ensemble de P(Ω). Ce
sous-ensemble doit posséder certaines propriétés qui garantissent les opérations sur les événements.
Dénition 3.1.1. Soient Ω un ensemble non vide et F un sous-ensemble de P(Ω). On dit que F est une
σ -algèbre (ou une tribu) de Ω si
1- F est non vide.
2- F est stable par passage au complémentaire : A ∈ F ⇒ A ∈ F.

[
3- F est stable pour une réunion dénombrable : ∀(An )n ⊂ F, An ∈ F.
n
Remarque 3.1.1. Si F σ -algèbre, alors elle est stable pour une intersection dénombrable
est une :
\ \ [
∀(An )n ⊂ F, An ∈ F. En eet, An = An ∈ F.
n n n
Exemple 3.1.1.
• {Ω, ∅} et P(Ω) sont deux σ -algèbres. Elles sont dites triviales.
• Si F1 et F2 sont 2 σ -algèbres, alors F1 ∪ F 2 est une σ -algèbre.

• Si (Fi )i∈I est une famille de σ -algèbres, alors ∩i∈I Fi est une σ -algèbre.
• Soit A ⊂ P(Ω), et soit F(A) = {F : F est uneσ -algèbre contenant A}. Alors
\
σ(A) = F
F ∈F (A)
est une σ -algèbre. Elle s'appelle la σ -algèbre engendrée par A.

• Soient Ω⊂R et I(Ω) = {I : I ⊂ Ω est un intervalle}. La σ -algèbre engendrée par I(Ω) sera notée
BΩ . On l'appelle la σ -algèbre borelienne de Ω.

• Si Ω⊂R est ni ou dénombrable alors BΩ = P(Ω).
34
A. Zoglat 3.1 Généralités
Convention
Pour simplier, nous allons supposer dans tout ce qui suit que, les σ -algèbres sont boreliennes.
Dénition 3.1.2. Soient Ω un ensemble non vide et F une σ -algèbre de Ω. Le couple (Ω, F) est appelé espace
probabilisable.
Dénition 3.1.3. Soit (Ω, F) un espace probabilisable. On dit qu'une fonction P : F → [0, 1] est une proba-
bilité si elle vérie les axiomes suivants :
A1. P{Ω} = 1 et P{∅} = 0
A2. Pour toute suite (An )n d'éléments de F deux à deux disjoints ( Ai ∩ Aj = ∅, lorsque i 6= j ) on a :
n[ o X
P An = P{An }.
n n
Après avoir réalisé une expérience, il arrive bien souvent qu'on s'intéresse plus à une fonction du résultat
qu'au résultat lui-même. Expliquons ceci au moyen des exemples suivants : lorsqu'on joue aux dés, certains
jeux accordent de l'importance à la somme obtenue sur deux dés, 7 par exemple, plutôt qu'à la question de
savoir si c'est la paire (1,6) qui est apparue, ou (2,5), (3,4), (4,3), (5,2) ou plutôt (6,1). Dans le cas du jet
d'une pièce, il peut être plus intéressant de connaître le nombre de fois où pile est apparue plutôt que la
séquence détaillée des piles et faces. Ces grandeurs auxquelles on s'intéresse sont en fait des fonctions réelles
dénies sur l'ensemble fondamental et sont appelées variables aléatoires (v.a.).Ci-après nous en donnons
une dénition plus précise.
Dénition 3.1.4. Soient (Ω1 , F1 ) et (Ω2 , F2 ) deux espaces probabilisables et X : (Ω1 , F1 ) → (Ω2 , F2 ) une
fonction. On dit que X est une variable aléatoire (v.a.) si
∀B ∈ F2 , X −1 (B) ∈ F1 .
Exemple 3.1.2.
Une expérience consiste à lancer 2 dés identiques à six faces numérotées de 1 à 6. L'espace fondamental
est Ω = {(i, j); 1 ≤ i, j ≤ 6}. On s'intéresse à la somme des deux numéros obtenus. On note E =
{2, 3, . . . 12}. Alors
X: Ω, P(Ω) −→ E, P(E)
(i, j) 7−→ i+j
est une v.a.
Soient X et Y deux v.a., alors
X + Y, XY, X ◦ Y, max(X, Y ) . . . etc. sont des v.a.
35
3.1 Généralités A. Zoglat
Du fait que la valeur d'une v.a. est déterminée par le résultat de l'expérience, il est possible d'attribuer une
probabilité aux diérentes valeurs que la v.a. peut prendre.
Les v.a. que nous allons considérer dans ce cours sont toutes des fonctions à valeurs dans R ou une partie
de R muni de sa σ -algèbre borélienne.
Dans toute la suite (Ω, BΩ , P) désignera un espace probabilisé et (S, BS ) un espace probabilisable. La
plupart du temps S désignera R tout entier ou un sous-ensemble de R ni ou dénombrable.
3.1.1 Loi de probabilité

Soit X : (Ω, BΩ , P) −→ (S, BS ) une v.a. Elle induit sur BS une fonction notée PX et dénie par :
∀B ∈ BS , PX (B) = P{X −1 (B)},
où X −1 (B) = {ω ∈ Ω : X(ω) ∈ B}.
Proposition 1. La fonction PX ainsi dénie sur BS est une probabilité.
Démonstration. D'après la dénition, il est clair que X est à valeur dans

P [0, 1]. D'autre part on a X −1 (S) = Ω,
d'où PX (S) = 1.
Soit (Bn )n une suite d'éléments disjoints de BS . La suite de terme général An = X −1 (Bn ) est une suite
−1 −1 (B ), d'où
S S
d'éléments disjoints de BΩ . X
De plus on a n Bn = nX n
[ n[ o X X
PX Bn = P An = P{An } = PX {Bn }.
n n n n
Dénition 3.1.5. La fonction PX ainsi dénie sur BS est appelée la loi de probabilité de X.
Par abus de langage, PX est souvent appelée la loi de X .

Exemple 3.1.3.
On lance une pièce de monnaie à deux faces : P=Pile et F=Face . On considère comme succès l'évé-
nement obtenir F. Supposons que la pièce est telle que la probabilité d'obtenir F est p ∈]0, 1[ et la
probabilité d'obtenir P est q = 1 − p.
Soient X le nombre de succès observés après 1 lancer et Y le nombre de succès observés après 3 lancers
dont les résultats sont indépendants. Ainsi on a :

1- X est une v.a. dénie sur Ω = {P, F}, à valeurs dans S = {0, 1}. De plus on a :
PX (1) = P{X −1 (1)} = P{F} = p, et
PX (0) = P{X −1 (0)} = P{P} = 1 − p.
36
2- Y de Ω = {(P, P, P), (P, P, F), (P, F, P), (F, P, P), (F, F, P), (F, P, F),(P, F, F), (F, F, F)} dans
{0, 1, 2, 3} est une v.a. L'événement (P, F, P), par exemple, signie obtenir successivement P puis
F puis P . Par indépendance on a donc
P{(P, F, P)} = (1 − p) p (1 − p).
Nous sommes à présent en mesure de déterminer la loi de Y.
PY (0) = P{Y −1 (0)} = P{(P, P, P)} = (1 − p)3 .
PY (1) = P{Y −1 (1)} = P{(F, P, P), (P, F, P), (P, P, F)}
= 3(1 − p)2 p.
PY (2) = P{Y −1 (2)} = P{(F, F, P), (P, F, F), (F, P, F)}
= 3(1 − p) p2 .
PY (3) = P{Y −1 (3)} = P{(F, F, F)} = p3 .
Remarque 3.1.2. Dans le cas d'une v.a. discrète X , PX est également appelée fonction masse de proba-
bilité de X (f.m.p).
3.1.2 Fonction de répartition

Soit X : Ω → S une v.a. On appelle fonction de répartition de X (f.r.) et on note FX la fonction
dénie de R dans [0, 1] par :

∀x ∈ R, FX (x) = P{ω : X(ω) ≤ x}.
Notation : Pour simplier les notations, on écrit {X ≤ x} pour désigner {ω ∈ Ω : X(ω) ≤ x}.
Propriétés. La f.r. FX d'une v.a. X jouit des propriétés suivantes :
1- FX est croissante et continue à droite.
Démonstration. La croissance de FX découle directement de la croissance de P. Montrons que FX est
continue à droite. Soient x ∈ R et (xn )n une suite qui décroît vers x (i.e. ∀n, xn ≥ xn+1 et limn xn = x).
Montrons que limn FX (xn ) = FX (x).
T
Posons, pour n ≥ 1, An =]−∞, xn ] et A =]−∞, x]. La suite (An )n est décroissante et on a n An = A.
D'où limn P{An } = P{A}.
2- limx→−∞ FX (x) = 0, et limx→∞ FX (x) = 1.

T S
En eet, il sut de remarquer que n] − ∞, −n] = ∅ et que n] − ∞, n] = R.
37
3- De plus on a n o
∀a, b ∈ R, P X ∈]a, b] = FX (b) − FX (a).
En eet, on a {X ∈]a, b]} = {X ∈] − ∞, b]} \ {X ∈] − ∞, a]}, d'où
n o n o n o
P X ∈]a, b] = P X ∈] − ∞, b] − P X ∈] − ∞, b] = FX (b) − FX (a).
Exemple 3.1.4. La f.r. FY , où Y est la v.a. de l'exemple précédent avec p = 0.5 est donnée par




0.000 si x < 0,



0.125 0 ≤ x < 1,



 si


FY (x) = 0.500 si 1 ≤ x < 2,




0.875 si 2 ≤ x < 3,








1.000 si x ≥ 3.
La gure 3.1, ci-dessous, montre le graphe de la f.r. FY .
Figure 3.1 Représentation graphique de FY
3.1.3 Fonction densité de probabilité

Soient X : Ω −→ S une v.a. et FX sa f.r. Lorsqu'elle est dérivable, on note fX sa fonction dérivée et on a
n o Z b
∀a, b ∈ R, P X ∈]a, b] = FX (b) − FX (a) = fX (t)dt,
a
Dénition 3.1.6. La fonction fX , lorsqu'elle existe, s'appelle la fonction densité de probabilité ( fdp) de X .
38
Remarque 3.1.3. La fdp fX , d'une v.a. X, est à valeurs dans R+ et vérie

Z ∞
fX (t)dt = 1.
−∞
Lorsque la fdp fX existe, la f.r. FX est continue et on a
∀x ∈ R, P{X = x} = 0.
La loi de probabilité d'une v.a. X est parfaitement déterminée si l'on connaît sa f.r. FX ou sa fdp fX .
Exemple 3.1.5. Soit X la durée de vie, en heures, d'une lampe électrique. On suppose que sa f.r. est
donnée par

1 − e−x

si x ≥ 0,
∀x ∈ R, FX (x) =

0 sinon.
La fonction FX est dérivable, sauf au point 0, et on a


e−x

si x ≥ 0,
∀x ∈ R, fX (x) =

0 sinon.
Calculons la probabilité que la durée de vie X soit comprise entre 10 et 15 heures.
n o Z 15 h i15
P X ∈ [10, 15] = e−t dt = −e−t = FX (15) − FX (10).
10 10
3.1.4 Loi d'une fonction d'une v.a.

Proposition 2. Soient X:Ω→S⊂R une v.a., fX sa fdp et g:S→R une fonction dérivable et croissante.
Alors Y = g(X) est une v.a. qui admet une fdp donnée par
1
∀y ∈ g(S), fY (y) = f (g −1 (y)). (3.1)
g 0 (g −1 (y)) X
Démonstration. Comme g est croissante de S dans g(S), elle admet une fonction réciproque g −1 .
FY (y) = P{Y ≤ y} = P{g(X) ≤ y} = P{X ≤ g −1 (y)} = FX (g −1 (y)).
En dérivant par rapport à y, on obtient le résultat.
Exemple 3.1.6. Soit X la durée de vie d'une lampe électrique dont la fdp est donnée par fX (x) = e−x si
x≥0 et 0 sinon (voir Exemple 3.1.5). Déterminons la loi de la v.a. Y = X 2. Ici la fonction g : R+ −→ R+
dénie par ∀x ≥ 0, g(x) = x2 . En appliquant la formule (3.1), on a

1 √
 √ e− y

 si y > 0,
fY (y) = 2 y

0

sinon.
39
3.1.5 Variables aléatoires à valeurs dans R p
Xi : (Ω, BΩ , P) −→ (Si , BSi ), i = 1, . . . , p, des v.a. dénies sur le même espace probabilisé. On note
Soient
Q
S = S1 ×S2 ×. . .×Sp et BS sa σ -algèbre borelienne i.e. BS = σ I
i i ; où I i est un ouvert de S i , i = 1, . . . , p .

La fonction X : (Ω, BΩ , P) −→ (S, BS ) dénie par ∀ω ∈ Ω, X(ω) = X1 (ω), X2 (ω), . . . , Xp (ω) est une v.a.
à valeurs dans Rp . On dit aussi que c'est un vecteur aléatoire.
Dénition 3.1.7. La fonction FX dénie sur Rp par
n o
p
∀(x1 , x2 , . . . , xp ) ∈ R , FX (x1 , x2 , . . . , xp ) = P {X1 ≤ x1 } ∩ {X2 ≤ x2 , . . . , Xp ≤ xp }
est appelée la fonction de répartition (f.r.) de X.

Notation :
n
Pour simplier on notera {X1 ≤ x1 , X2 ≤ x2 , . . . , Xp ≤ xp } pour désigner {X1 ≤ x1 }∩{X2 ≤
o
x2 ∩ . . . ∩ {Xp ≤ xp } .
Remarque 3.1.4.
• La fonction FX possède des propriétés analogues à celles d'une f.r. d'une v.a. réelle :
1- Si x1 ≤ y1 ,x2 ≤ y2 ,. . . , xp ≤ yp , alors FX (x1 , x2 , . . . , xp ) ≤ FX (y1 , y2 , . . . , yp ).

2- Soient x1 , . . . , x p des réels et (xin )n i = 1, . . . , p des suites décroissantes respectivement vers x1 , x2 ,
..., xp . Alors
FX (x1 , x2 , . . . , xp ) = lim FX (x1n , x2n , . . . , xpn ).

n→∞
3- limx1 ,x2 ,...,xp →−∞ FX (x1 , x2 , . . . , xp ) = 0 et limx1 ,x2 ,...,xp →∞ FX (x1 , x2 , . . . , xp ) = 1

• Si les v.a. X1 , . . . , Xp sont discrètes (i.e.S1 , . . . , Sp sont nis ou dénombrables), alors
n o
∀(x1 , x2 , . . . , xp ) ∈ Rp , FX (x1 , x2 , . . . , xp ) = P X1 ≤ x1 , X2 ≤ x2 , . . . , Xp ≤ xp
X
= P{X1 = u1 , X2 = u2 , . . . , Xp = up }.
ui ≤xi
i=1,...,p
Comme dans le cas de v.a. réelles, certaines v.a. à valeurs dans Rp peuvent avoir des fdp.
Dénition 3.1.8. Soient X : (Ω, BΩ , P) −→ (S, BS ) un vecteur aléatoire et fX : Rp → [0, ∞[ une fonction telle
que
Z x1 Z x2 Z xp
p
∀(x1 , x2 , . . . , xp ) ∈ R , FX (x1 , x2 , . . . , xp ) = ... fX (u1 , u2 , . . . , up ) du1 du2 . . . dup .
−∞ −∞ −∞
On dit alors que X est un vecteur aléatoire de loi continue et que fX est sa fdp.
Remarque 3.1.5. La fdp fX vérie la condition

Z ∞Z ∞ Z ∞
... fX (u1 , u2 , . . . , up ) du1 du2 . . . dup = 1.
−∞ −∞ −∞
40
3.1.6 Indépendance de v.a.

Soient (Ω, BΩ , P) un espace probabilisé et (S, BS ) un espace probabilisable.
Dénition 3.1.9. Soit X : (Ω, BΩ , P) −→ (S, BS ) une v.a. La σ -algèbre
σ(X) = σ {X −1 (B), B ∈ BS }

s'appelle laσ -algèbre engendrée par X .
Dénition 3.1.10. Soient X1 : (Ω, BΩ , P) −→ (S1 , BS1 ) et X2 : (Ω, BΩ , P) −→ (S2 , BS2 ) deux v.a. dénies sur
le même espace probabilisé. On dit qu'elle sont indépendantes si les σ-algèbres engendrées par X1 et X2 sont
indépendantes, c'est à dire,
∀A1 ∈ σ(X1 ), ∀A2 ∈ σ(X2 ), P{A1 ∩ A2 } = P{A1 }P{A2 }.
La notion d'indépendance de deux v.a. se généralise de manière naturelle comme suit :
Dénition 3.1.11. Soit (Xn )n une suite de v.a. toutes dénies sur un même espace probabilisé (Ω, BΩ , P). On
dit que les Xn sont mutuellement indépendantes si pour tout I ⊂ N ni, on a
n\ o Y
∀Ai ∈ σ(Xi ), i ∈ I, P Ai = P{Ai }.
i∈I i∈I
Proposition 3. Soient X1 : (Ω, BΩ , P) −→ (S1 , BS1 ) et X2 : (Ω, BΩ , P) −→ (S2 , BS2 ) deux v.a. dénies sur le
même espace probabilisé et X = (X1 , X2 ).

• Si les v.a. X1 et X2 sont indépendantes alors
∀(x1 , x2 ) ∈ R2 , FX (x1 , x2 ) = FX1 (x1 )FX2 (x2 ).
• Si les v.a. X1 et X2 sont indépendantes et si fX et fX existent alors

1 2
∀(x1 , x2 ) ∈ R2 , fX (x1 , x2 ) = fX1 (x1 )fX2 (x2 ).
Remarque 3.1.6. Les résultats ci-dessus sont également valables dans le cas d'un vecteur aléatoire X=
(X1 , . . . , Xn ). Par exemple, si X1 , . . . , Xn sont des v.a. indépendantes alors,
n
Y
∀(x1 , . . . , xn ) ∈ Rn , FX (x1 , . . . , xn ) = FXi (xi ).
i=1
41
3.2 Espérance mathématique A. Zoglat
3.2 Espérance mathématique

Dénition 3.2.1. Soit X:Ω→S⊂R une v.a. On appelle espérance mathématique ou moyenne de X
et on note E[X] ou µX la quantité

P
x PX (x) si S est ni ou dénombrable,


x∈S
E[X] =
R ∞ x f (x) dx

si FX est dérivable.
−∞ X
Exemple 3.2.1.
• Soit X la v.a. dont la loi est donnée par
1 3 2
PX (−3) = , PX (1) = , PX (2) = .
6 6 6
Comme PX (−3) + PX (1) + PX (2) = 1, la v.a. X est à valeurs dans S = {−3, 1, 2}. Son espérance
mathématique est donnée par
1 3 2 2
E[X] = −3 × +1× +2× = .
6 6 6 3
• Soit X la durée de vie, en heures, d'une lampe électrique (voir Exemple 3.1.5). Sa fdp est donnée par
fX (x) = e−x si x≥0 et 0 sinon. Calculons E[X].

Z ∞
E[X] = xfX (x) dx
Z−∞
∞
= xfX (x) dx car fX (x) = 0 pour x<0
0
Z a
= lim xe−x dx
a→∞ 0
Z a
−x a −x

= lim −xe 0
+ e dx
a→∞ 0
= 1.
3.2.1 Propriétés de l'espérance mathématique

Ci-après sont quelques propriétés de l'espérance mathématique qui nous seront utiles plus tard.
1- Pour tout a ∈ R, on a E[a] = a.

2- Pour a, b ∈ R et X, Y : Ω → S deux v.a. E[a X + b Y ] = a E[X] + b E[Y ].
3- Soient X : Ω −→ S une v.a. et g : S −→ R une fonction. Quand ça existe,

 X


 g(x) P{X = x} Si S est ni ou dénombrable,
E[g(X)] = x∈S
Z

 g(x) fX (x) dx fX

 Si existe.
R
42
A. Zoglat 3.3 Variance
4- Si X, Y : Ω → S sont deux v.a. telles que P{X ≤ Y } = 1, alors E[X] ≤ E[Y ]

5- Soient X, Y : Ω → S deux v.a. indépendantes. Alors
E[X Y ] = E[X] E[Y ].
3.3 Variance
Dénition 3.3.1. Soit X:Ω→S une v.a. de moyenne µX On appelle variance de X et on note Var[X] la
quantité
h i
Var[X] = E (X − µX )2 .
Le résultat suivant est souvent utile pour calculer une variance.
Proposition 4. Soit X:Ω→S une v.a., alors on a
Var(X) = E[X 2 ] − µX2 .
Remarque 3.3.1. La variance d'une v.a. aléatoire X mesure la dispersion des valeurs de X par rapport à
la moyenne µX . En particulier, lorsque Var(X) = 0 on a X ≡ µX .
3.3.1 Propriétés de la variance

Soient a, b ∈ R deux constantes et X, Y : Ω → S deux v.a.
• Var(X + a) = Var(X).
• Var(a X) = a2 Var(X).

• Var(X + Y ) = Var(X) + Var(Y ) + 2E (X − µX )(Y − µY ) .
Démonstration. Nous allons démontrer ces propriétés pour des v.a. discrètes, le cas de v.a. admettant des
fdp peut être traité en utilisant les même arguments et en remplaçant les sommes par des intégrales.
• Posons Y = a X + b = f (X), avec f (x) = ax + b. Alors
X X X X
E Y2 = (f (x))2 PX (x) = a2 x2 PX (x) + b2 PX (x) + 2ab x PX (x)
x∈S x∈S x∈S x∈S
= a2 E X 2 + b2 + 2ab µX .

D'autre part, on a
µY2 = (a µX + b)2 = a2 µX2 + 2ab µX + b2 .

2
D'où, Var(Y ) = E Y − µY2 = a2 E X 2 − µX2 = a2 Var(X).
h 2 i
• On a Var(X + Y ) = E (X − µX ) + (Y − µY ) . Il sut donc de développer le carré et d'appliquer les
propriétés de linéarité de l'espérance mathématique pour avoir le résultat.
43
3.3 Variance A. Zoglat
Dénition 3.3.2. covariance

h i
Soient X, Y : Ω → S deux v.a. La quantité E (X − µX )(Y − µY ) s'appelle la
de X et Y.
Proposition 5. indépendantes, alors E

h i
Si X, Y : Ω → S sont deux v.a. (X − µX )(Y − µY ) = 0 et
∀a, b ∈ R, Var(a X + b Y ) = a2 Var(X) + b2 Var(Y ).
Plus généralement, si X1 , X2 , . . . , Xn : Ω → S sont des v.a. 2 à 2 indépendantes alors
Var(X1 + . . . + Xn ) = Var(X1 ) + . . . + Var(Xn ).
44
Chapitre 4
Lois de Probabilité Classiques

Dans ce chapitre nous allons présenter quelques lois de probabilités parmi les plus utilisées dans la
pratique. Nous commençons par des exemples de v. a., dites discrètes, à valeurs dans des ensembles nis ou
dénombrables. Les v. a. dont la loi de probabilité admet une fonction densité de probabilité (fdp) sont dites
continues. Quelques exemples de v. a. continues font l'objet de la deuxième partie de ce chapitre.
4.1 Lois discrètes

4.1.1 Loi de Bernoulli
Une loi de Bernoulli est celle d'une v. a. résultat d'une expérience à deux issues possibles : succès et
échec.
Dénition 4.1.1. On dit qu'une v. a. X suit une loi de Bernoulli de paramètre p ∈ [0, 1] et on note
X ∼ Bernoulli(p) si sa loi est donnée par
PX (1) = p et PX (0) = 1 − p.
Proposition 6. Soit X ∼ Bernoulli(p), alors
E[X] = p et Var(X) = p(1 − p).
4.1.2 Loi Binômiale

Une expérience à deux issues possibles,succès et échec, est répétées n fois dans les mêmes conditions
de sortes que les résultats soient mutuellement indépendants. Notons p ∈ [0, 1] la probabilité du succès
et, pour i = 1, . . . , n, Xi le résultat de la i

ème expérience. Ces v. a. sont mutuellement indépendantes
et suivent la même loi de Bernoulli(p). Avec ces notations, si X désigne le nombre total de succès, alors
45
4.1 Lois discrètes A. Zoglat
X = X1 + X2 + . . . + Xn . Il est alors facile de calculer E[X] et Var[X] avant même de calculer PX . En eet
on a
E[X] = E[X1 + X2 + . . . + Xn ] = E[X1 ] + E[X2 ] + . . . + E[Xn ] = np,
Var(X) = Var(X1 + X2 + . . . + Xn ) = Var(X1 ) + Var(X2 ) + . . . + Var(Xn ) = np(1 − p).
La v. a. X est à valeurs dans {0, 1, 2, . . . , n}. Déterminons sa loi PX .

Pour tout i ∈ {1, 2, . . . , n}, on note Ai l'événement le résultat de la i
ème expérience et un succès et Ai son
complémentaire. Par indépendance on a
∀k ∈ {0, 1, 2, . . . , n}, P{Ai1 ∩ Ai2 ∩ . . . ∩ Aik ∩ Aik+1 ∩ Aik+2 ∩ . . . ∩ Ain } = pk (1 − p)n−k .
L'événement Ai1 ∩ Ai2 ∩ . . . ∩ Aik ∩ Aik+1 ∩ Aik+2 ∩ . . . ∩ Ain signie en particulier qu'il y a eu k succès et
n−k échecs. Le nombre des diérents événements de ce genre est égal au nombre de possibilités de choisir
k expériences parmi n. Ils sont tous de même probabilité et leur réunion est égale à l'événement {X = k}.
Ainsi on a
∀k ∈ {0, 1, 2, . . . , n}, PX (k) = P{X = k} = Ckn pk (1 − p)n−k .

Dénition 4.1.2. On dit qu'une v. a. X : Ω → {0, 1, 2, . . . , n} suit une loi binômiale de paramètres n et
p et on note X ∼ Binômiale(n, p) si
∀k ∈ {0, 1, 2, . . . , n}, PX (k) = Ckn pk (1 − p)n−k .
Exemple 4.1.1. Les réacteurs d'un avion peuvent, chacun avec probabilité 1−p, tomber en panne en cours de
vol. Les défaillances se produisent indépendamment les unes des autres. L'avion peut terminer sans diculté
son vol si au moins la moitié de ses réacteurs fonctionnent. Pour quelles valeurs de p les quadriréacteurs
sont-ils préférables aux biréacteurs ?
Du fait de l'indépendance des défaillances le nombre X de réacteurs opérationnels jusqu'à la n du vol
est une variable aléatoire qui suit une loi Binômiale. La probabilité pour un quadriréacteur d'achever son vol
est donc
P{X ≥ 2} = P{X = 2} + P{X = 3} + P{X = 4} = C24 p2(1 − p)2 + C34p3(1 − p) + C44p4(1 − p)0
= 6p2 (1 − p)2 + 6p3 (1 − p) + p4 .
Alors que pour un biréacteur, cette probabilité vaut
P{X ≥ 1} = P{X = 1} + P{X = 2} = C12 p(1 − p) + C22p2(1 − p)0

= 2p(1 − p) + p2 .
46
A. Zoglat 4.1 Lois discrètes
Le quadriréacteur est donc plus sûr lorsque 6p2 (1 − p)2 + 6p3 (1 − p) + p4 ≥ 2p(1 − p) + p2 ou de façon
équivalente, si 6p(1 − p)2 + 6p2 (1 − p) + p3 ≥ 2 − p. Après simplication et factorisation cette inéquation

2
devient (p − 1)2 (3p − 2) ≥ 0. Ce qui est équivalent à p≥ .
3
Ainsi les quadriréacteurs sont préférables sur le point de la sécurité du système de propulsion lorsque
2
chaque réacteur fonctionne jusqu'à la n du vol avec une probabilité supérieure ou égale à . Dans le cas
3
contraire, un biréacteur est plus sûr.
4.1.3 Loi Multinômiale

C'est une généralisation immédiate de la loi Binômiale. Considérons une expérience dont les résultats
possibles R1 , R2 , . . . , Rk peuvent se réaliser avec les probabilités respectives p1 , p2 , . . . , pk . On répète cette
expérience n fois et on note xi le nombre de fois où le résultat Ri se réalise, pour i ∈ {1, 2, . . . , k}. Il est clair
que
k
X k
X
pi = 1 et xi = n.
i=1 i=1
Résultat : Soient x1 , x2 , . . . , xk ∈ {0, 1, 2, . . . , n} tels que x1 +x2 +. . .+xk = n et A(x1 , . . . , xk ) l'événement

Obtenir xi fois le résultat Ri , pour i = 1, 2, . . . , k . Alors
n!
P{A(x1 , . . . , xk )} = px1 px2 . . . pxk k .
x 1 ! x 2 ! . . . xk ! 1 2
Exemple 4.1.2. On jette 6 fois deux pièces équilibrées. Calculer la probabilité d'obtenir 2 fois 2 Faces, 1
fois 2 Piles et 3 fois 1 Pile et 1 Face.
On dénit les résultats d'un lancer des 2 pièces suivants :
R1 = Obtenir 2 Faces, R2 = Obtenir 2 Piles et R3 = Obtenir 1 Face et 1 Pile. On a alors,
1 1 1
P{R1 } = = p1 , P{R2 } = = p2 , P{R3 } = = p3 .
4 4 2
Pour i = 1, 2 ou 3, on note xi le nombre de fois l'événement Ri a été observé. Alors on a
6!
P{A(2, 1, 3)} = (0.25)2 (0.25)1 (0.5)3 .
2!1! 3!
Exemple 4.1.3. Dans une chaîne de production, 95% des articles ne présentent aucun défaut de fabrication,
3% présentent un défaut de type 1 et 2% présentent un défaut de type 2. Un contrôleur de qualité prélève
20 articles pour inspection. Quelle est la probabilité qu'il trouve au moins 2 articles qui présentent un défaut
de type 1 ou au moins 2 articles qui présentent un défaut de type 2.
47
On dénit les résultats, d'inspection d'un articles, suivants :
R0 = l'article ne présente aucun défaut ,
R1 = l'article présente un défaut de type 1 et
R2 = l'article présente un défaut de type 2 .
On a alors,
P{R0 } = p0 = 0.95, P{R1 } = p1 = 0.03, P{R2 } = p2 = 0.02.
Pour i = 0, 1 ou 2, on note Xi le nombre de fois l'événement Ri a été observé. Soit A l'événement déni par
A = {X1 ≥ 2} ∪ {X2 ≥ 2}. on alors,
P{A} = 1 − P{A}

= 1 − P{A(20, 0, 0)} + P{A(19, 1, 0)} + P{A(19, 0, 1)} + P{A(18, 1, 1)}
X 20! 20−i−j
=1− p0 pi1 pj2 .
i! j!
0≤i,j≤1
4.1.4 Loi Géométrique

Considérons une expérience aléatoire à deux issues possibles,succès et échec, et soit p la probabilité
du succès. On répète cette expérience jusqu'à l'obtention du premier succès et on note X le nombre d'essais
eectués. La v. a. X est à valeurs dans N∗ et sa loi est donnée par
∀k ≥ 1, fX (k) = p (1 − p)k−1 .
On dit que X suit la loi géométrique de paramètre p et on note X ∼ G éométrique(p).
Exemple 4.1.4. Une urne contient N boules blanches et M noires. On tire des boules une par une avec
remise jusqu'à l'apparition d'une noire. Quelle est la probabilité qu'il faille exactement n tirages ?
Désignons par X le nombre de tirages nécessaires jusqu'à l'apparition de la première boule noire. La
M
probabilité de succès est p= , d'où
N +M
N n−1 M
P{X = n} = .
N +M N +M
Proposition 7. Soit X ∼ G éométrique(p) une v. a., alors
1 1−p
E[X] = et Var(X) = .
p p2
Démonstration. La preuve de ce résultat est laissée en exercice.
48
4.1.5 Loi de Poisson

La loi de Poisson est un modèle approprié pour certains types de v. a. qui comptent le nombre de
réalisation d'un événement rare pendant un intervalle de temps ou d'espace donné. On cite ci-dessous
quelques exemples :
• le nombre de fautes de frappe par page ou groupe de pages d'un livre,
• le nombre d'individus dépassant l'âge de 100 ans dans une communauté humaine,
• le nombre de faux numéros téléphoniques composés en un jour,
• le nombre de paquets de biscuits pour chien vendus dans un magasin donné en l'espace d'un jour,
• le nombre de particules α émises par un matériau radioactif pendant un certain laps de temps.
Dénition 4.1.3. On dit qu'une v. a. X suit une loi de poisson de paramètre λ et on note X ∼ Poisson(λ) si
sa loi est donnée par

λk
∀k ∈ N, PX (k) = P{X = k} = e−λ .
k!
Les situations où un événement particulier se reproduit à intervalles réguliers au cours du temps peuvent
fournir des cas d'application de la loi de Poisson. On peut citer comme exemple d'un tel événement un trem-
blement de terre, ou l'entrée d'une personne dans un établissement donné (banque, poste, station d'essence,
etc.) Supposons que l'on ait aaire à de tels événements et qu'en plus il existe une constante positive λ pour
laquelle les conditions suivantes soient vériées :
Condition I : La probabilité qu'exactement 1 événement se produise dans un intervalle de temps de durée

h est la même pour tous les intervalles de ce genre et vaut λh + o(h), où o(h) désigne toute fonction f (h)
f (h)
telle que limh→0 = 0.
h
Condition 2 : La probabilité que deux événements ou plus se produisent dans un laps de temps de durée h
est la même pour tous les laps de temps de même durée et vaut o(h).
Condition 3 : Pour tout ensemble {I1 , I2 , . . . , In } d'intervalles disjoints, on note XIi le nombre d'événements
qui se produisent durant l'intervalle Ii . Les v. a. X1 , . . . , Xn sont mutuellement indépendantes.
En termes approximatifs, les conditions 1 et 2 établissent que lorsque h est petit, la probabilité d'observer
exactement 1 événement durant un intervalle de longueur h est λh plus quelque chose de petit comparé à h,
tandis que celle d'observer deux événements ou plus est petite comparée à h. La condition 3 garantit que ce
qui se passe au cours d'un intervalle n'a pas d'inuence sur ce qui arrive durant tout autre intervalle disjoint
du premier.
On montre que sous les trois conditions précitées, le nombre d'événements survenant dans un laps de
temps d'origine quelconque et de durée t est une variable aléatoire de Poisson avec paramètre λt.
Remarque 4.1.1. Le paramètre λ pour une loi de Poisson représente le taux moyen d'événements par unité
49
de temps (ou d'espace).
Proposition 8. Soit X une v. a. qui suit une loi de Poisson(λ), alors
E[X] = λ et Var(X) = λ.
Démonstration. D'après la dénition de l'espérance on a
X λk X λk−1 X λj
E[X] = e−λ k = e−λ λ = λ e−λ = λ.
k! (k − 1)! j!
k≥0 k≥1 j≥0
X λk X λk−1 X λk−1
E(X 2 ) = e−λ k 2 = e−λ λ k = e−λ λ (1 + (k − 1))
k! (k − 1)! (k − 1)!
k≥0 k≥1 k≥1
X λj X λj
= λ e−λ + e−λ j = λ(1 + λ).D'où
j! j!
j≥0 j≥0
2
Var(X) = E[X 2 ] − E[X] = λ.
Proposition 9. Soient X1 et X2 deux v. a. indépendantes et telles que :

X1 ∼ Poisson(λ1 ) et X2 ∼ Poisson(λ2 ).
Alors X1 + X2 ∼ Poisson(λ1 + λ2 ).
Démonstration. Soit n ∈ N,
n
X n
X
P{X1 + X2 = n} = P{X1 + X2 = n, X2 = k} = P{X1 = n − k, X2 = k}
k=0 k=0
Xn
= P{X1 = n − k}P{X2 = k} (par indépendance)
k=0
n
X λn−k
1 e−λ1 λk2 e−λ2
=
(n − k)! k!
k=0
n
1 X n!
= e−(λ1 +λ2 ) λn−k λk2
n! k! (n − k)! 1
k=0
(λ1 + λ2 )n
= exp (−λ1 − λ2 ) .
n!
Remarque 4.1.2. Il est clair que si X1 , . . . , Xn sont des v. a. mutuellement indépendantes telles que Xi ∼
Poisson(λi ), alors X1 + X2 + . . . + Xn ∼ Poisson(λ1 + λ2 + . . . + λn ).
Exemple 4.1.5. Les clients arrivent à un guichet automatique au taux moyen de 1.9 clients par minute.
50
1- Quelle est la probabilité qu'au cours d'une minute donnée, le nombre de clients qui arrivent au guichet
est égal à 5.
2- Quelle est la probabilité qu'au cours d'un intervalle de 3 minutes, le nombre de clients qui arrivent
au guichet est égal à 8.
Solution :
1- Soit X le nombre de clients qui arrivent au guichet au cours d'une minute. C'est une v. a. qui suit
e−1.9 (1.9)5
une loi de Poisson(λ = 1.9). Ainsi P{X = 5} = .
5!
2- Notons Xi le nombre de clients qui arrivent au guichet durant la ième minute pour i = 1, 2 ou 3. Les
Xi sont indépendantes et suivent la même loi Poisson(λ) = 1.9. Soit Y = X1 + X2 + X3 le nombre de
clients qui arrivent au guichet au cours d'un intervalle de 3 minutes. C'est une v. a. qui suit une loi de
e−5.7 (5.7)8
Poisson(λ0 = 3λ = 5.7). D'où P{Y = 8} = .
8!
4.1.6 Approximation d'une loi binômiale par une loi de Poisson

La loi de Poisson peut être obtenue comme la limite d'une loi Binômiale lorsque le nombre de répétitions
n tend vers l'inni et la probabilité de succès p tend vers 0 de sorte que le produit np = λ reste constant.
Soit X une v. a. qui suit la loi Binômiale(n, p). Pour tout k ∈ {0, 1, . . . n} on a :
n!
PX (k) = pk (1 − p)n−k
k!(n − k)!
n! λ k λ n−k
= 1−
k!(n − k)! n n
λ k n! 1 λ n λ −k
= 1 − 1 −
k! (n − k)! nk n n
Lorsque n → ∞,
λ n! 1 λ n λ −k λk e−λ
→ 0, → 1, 1− → e−λ , et 1− → 1. D'où PX (k) → .
n (n − k)! nk n n k!
Résultat : L'approximation d'une loi de Binômiale(n, p) par une une loi de Poisson(λ = np) est d'autant
meilleure que n est grand et p est petit.
En règle générale l'approximation est satisfaisante lorsque n ≥ 25 et p ≤ 0.05.
Exemple 4.1.6. On lance deux dés équilibrés 100 fois et on note X le nombre de fois où l'on a obtenu un
double 6. Il est clair que X ∼Binômiale(100, 1/36). Comme n ≥ 25 et p = 1/36 = 0.0278 ≤ 0.05, on peut
faire l'approximation de la loi de X par la loi de Poisson(λ = 2.78). Le tableau suivant donne PX (k) et son
approximation pour diérentes valeurs de k.
51
4.2 Lois continues A. Zoglat
k 0 1 2 3 4 5
PX (k) 0.0596 0.1705 0.2414 0.2255 0.1564 0.0858
Approxiamtion 0.0620 0.1725 0.2397 0.2221 0.1544 0.0858
k 6 7 8 9 10 11
PX (k) 0.0389 0.0149 0.0050 0.0015 0.0004 0.0001
Approxiamtion 0.0398 0.0158 0.0055 0.0017 0.0005 0.0001
Exemple 4.1.7. Un manufacturier sait que 2% des articles qu'il produit sont défectueux. Il choisit au
hasard un échantillon de 30 articles pour inspection. Quelle est la probabilité qu'il trouve au plus 5 articles
défectueux ?
Notons X le nombre d'articles défectueux dans l'échantillon. On a X ∼Binômiale(n, p), avec n = 30 et p=

0.02. Comme n ≥ 25 et p ≤ 0.05 on peut faire l'approximation de la loi de X par la loi de Poisson(λ = 0.6).
Ainsi on a
5 5
X X λk
P{X ≤ 5} = P{X = k} ' e−λ .
k!
k=0 k=0
P5 λk
En calculant les deux sommes, on trouve P{X ≤ 5} = 0.999975 ' k=0 e−λ k! = 0.999961.
4.2 Lois continues

Dans ce paragraphe nous allons présenter quelques lois continues parmi les plus connues.
4.2.1 Loi uniforme

Dénition 4.2.1. On dit qu'une v. a. X suit la loi uniforme sur [a, b], avec a < b et on note X ∼ Uniforme[a, b],
si 
 1
 si x ∈ [a, b],
fX (x) = b − a

0 sinon.
Proposition 10. Si X ∼ Uniforme[a, b] alors on a
• Pour tout A ⊂ R, P{X ∈ A} = P{X ∈ A ∩ [a, b]}.

• La f.r de X est donnée par

0 si x ≤ a,





x−a

FX (x) = si x ∈ [a, b],


 b−a

1 x ≥ b.

si
52
A. Zoglat 4.2 Lois continues
• L'espérance et la variance de X sont données par
a+b (b − a)2
2 12
En eet,
Z Z b
1 a+b
E[X] = x fX (x) dx = x dx = .
R b − a a 2
Z b
b2 + ab + a2
Z
1
E[X 2 ] = x2 fX (x) dx = x2 dx = .
R b−a a 3
4.2.2 Loi exponentielle

Considérons une expérience où le nombre d'événements qui se produisent par unité de temps est une v.
a. N ∼ Poisson(λ), pour un λ > 0 donné. On note T le temps qui sépare deux événements consécutifs. C'est
une v. a. dont nous allons déterminer la loi. Il est clair que T est à valeurs dans ]0, ∞[, donc FT (t) = 0 pour
tout t < 0. Soit t ≥ 0, et soit N[0,t] le nombre d'événements qui se produisent au cours de l'intervalle [0, t].
On a N[0,t] ∼ Poisson(λt) et donc
(λt)0
P{T > t} = P{N[0,t] = 0} = e−λt = e−λt .
0!
D'où
 
1 − e−λt

si t ≥ 0, λ e−λt

si t ≥ 0,
FT (t) = et fT (t) =

0 
0
sinon. sinon.
Dénition 4.2.2. On dit qu'une v. a. X suit une loi exponentielle de paramètre λ > 0

et on note X ∼
Exponentielle(λ) si sa fdp est donnée par λ e−λx

si x ≥ 0,
fX (x) =

0 sinon.
Calculons la moyenne et la variance d'une v. a. X ∼ Exponentielle(λ).

Z ∞ Z b h 1
ib Z b
E[X] = xfX (x)dx = lim λx e−λx dx = lim −xe−λx
e−λx dx = . +
0 b→∞ 0 b→∞ 0 0 λ
Z ∞ Z b Z b
h ib 2
E[X 2 ] = x2 fX (x)dx = lim λx2 e−λx dx = lim −x2 e−λx + 2 x e−λx dx = 2 .
0 b→∞ 0 b→∞ 0 0 λ
Ainsi
1 1
λ λ2
La loi exponentielle fait partie de la famille des lois Gamma que nous introduisons maintenant.
53
4.2.3 Loi Gamma

La loi Gamma est une loi continue qui dépendant de deux paramètres positifs.
Dénition 4.2.3. Soit Y une v. a. à valeurs dans R+ . On dit que Y suit une loi gamma de paramètres α > 0
et β > 0, et on note Y ∼ Γ(α, β), si sa fdp fY est donnée par
β α y α−1 e−β y
∀y ∈ R, fY (y) = I[0,∞[ (y), où
Γ(α)

∞ 1 si y∈A
Z 
Γ(α) = uα−1 e−u du et IA (y) =
0 
0 sinon.
Remarque 4.2.1.
• On a Γ(α + 1) = α Γ(α). En particulier, pour tout n ∈ N, Γ(n + 1) = n!.
Γ(α + 1)
• Un calcul simple montre que si Y ∼ Γ(α, β), alors E[Y ] = .
β Γ(α)
• Lorsque α = 1, on a Γ(1, β) = Exponentielle(1/β).
4.2.4 Loi Normale

La loi normale est sans doute la plus célèbre de toutes les lois de probabilité.
Dénition 4.2.4. On dit que Z suit la loi normale (ou gaussienne) standard et on note Z ∼ N (0, 1) si sa
fdp est donnée par

1 2
∀z ∈ R, fZ (z) = √ e−z /2 .
2π
Proposition 11. Soit Z une v. a. qui suit une loi normale standard N (0, 1). Alors on a
E[Z] = 0 et Var(Z) = 1.
Notation : Dans toute la suite Z désignera une v. a. qui suit la loi normale standard.
La fr FZ est donnée par

Z z
1 2 /2
∀z ∈ R, FZ (z) = √ e−x dx.
2π −∞
Pour tout z ∈ R, FZ (z) est égale à la surface délimitée par l'axe x0 ox, la courbe de la fonction fZ et la droite
x = z.
Remarque 4.2.2. Il existe des tables qui donnent FZ (z) pour les diérentes valeurs de z. Une table de la
loi normale standard est donnée à la n du chapitre. Comme la fdp de Z est une fonction paire, donc admet
un graphe symétrique par rapport à l'axe y'oy, on a :
a- FZ (0) = P{Z ≤ 0} = 0.5. D'où P{Z ≤ z} ≤ 0.5 ⇐⇒ z ≤ 0.
54
A. Zoglat 4.2 Lois continues
Figure 4.1 FZ (z)=surface sous la courbe et à gauche de la droite x=z
b- Pour tout z ≥ 0, FZ (−z) = P{Z ≤ −z} = P{Z ≥ z} = 1 − FZ (z).

c- Pour tout z ≥ 0, P{|Z| ≥ z} = 2P{Z ≤ −z} = 2P{Z ≥ z}.
d- Pour tout z ≥ 0, P{|Z| ≤ z} = 1 − P{|Z| ≥ z} = 1 − 2P{Z ≤ −z} = 1 − 2P{Z ≥ z}.
Ainsi une table de de la loi normale standard permet de calculer P{a ≤ Z ≤ b} pour a, b ∈ R. En eet
P{a ≤ Z ≤ b} = P{Z ≤ b} − P{Z ≤ a}.
Les deux derniers termes sont disponibles sur une table de la loi normale standard.
Il existe d'autres lois normales qui peuvent être obtenues à partir de la loi normale standard.
Soient Z ∼ N (0, 1), µ ∈ R et σ > 0. Déterminons la loi de X = σZ + µ. Il est clair que E[X] = µ et
Var(X) = σ 2 . Soit x ∈ R,
n x − µo x − µ
FX (x) = P{X ≤ x} = P Z ≤ = FZ , d'où
σ σ
1 x−µ 1 (x − µ)2
fX (x) = fZ = √ exp − .
σ σ σ 2π 2σ 2
Dénition 4.2.5. On dit qu'une v. a. X suit une loi normale de moyenne µ et de variance σ 2 , et on note
X ∼ N (µ, σ 2 ), si sa fdp est donnée par
1 (x − µ)2
∀x ∈ R, fX (x) = √ exp − .
σ 2π 2σ 2
X −µ
Remarque 4.2.3. On peut facilement vérier que si X ∼ N (µ, σ 2 ) alors ∼ N (0, 1).
σ
Exemple 4.2.1. Soit X ∼ N (23, 1.52 ). P{20 ≤ X ≤ 25}.
Calculer
n 20 − 23 25 − 23 o
P{20 ≤ X ≤ 25} = P ≤Z≤
1.5 1.5
= P{−2 ≤ Z ≤ 1.33} = P{Z ≤ 1.33} − P{Z ≤ −2}
= P{Z ≤ 1.33} − (1 − P{Z ≤ 2})
= 0.90824 − (1 − 0.97725) = 0.88549
55
Proposition 12. Soient X1 ∼ N (µ1 , σ12 ), et a, b ∈ R deux constantes données. Alors
a X1 + b ∼ N (aµ1 + b, (aσ1 )2 ).
Si X2 ∼ N (µ2 , σ22 ) est une v. a. indépendante de X1 , alors
a X1 + b X2 ∼ N (aµ1 + bµ2 , a2 σ12 + b2 σ22 ).
Démonstration. La démonstration de la première assertion est laissée en exercice. Nous démontrons la
deuxième assertion, et sans perdre de généralité (justier !), dans le cas de v. a. normales standards. Pour
simplier les notations, on prendra a=1 et b = 1, le cas général peut être traité selon la même démarche.
Soit t∈R et soit D = {(x, y) ∈ R; x + y ≤ t},

Z
P{Z1 + Z2 ≤ t} = P{(Z1 , Z2 ) ∈ D} = fZ1 (u) fZ2 (v) du dv
D
Z ∞ Z t−u
= fZ1 (u) fZ2 (v) du dv
−∞ −∞
Z t Z ∞
= fZ1 (u) fZ2 (v − u) du dv
−∞ −∞
Cela montre que la fdp de la v. a. Z1 + Z2 est donnée par
Z ∞
fZ1 +Z2 (v) = fZ1 (u) fZ2 (v − u) du.
−∞
Après un simple calcul de cette intégrale on obtient
2
exp −t
∀t ∈ R, fZ1 +Z2 (v) = √ √2×2 .
2 2π
Nous résumons, dans le tableau suivant, quelques lois de probabilités discrètes :
Loi de Probabilité Paramètres P{X = k} µX σX2
Bernoulli p ∈]0, 1[ pk (1 − p)( 1 − k) p p(1 − p)

Binômiale n ≥ 1, p ∈]0, 1[ Ckn pk (1 − p)n−k np np(1 − p)
1 1−p
Géométrique p ∈]0, 1[ p (1 − p)k−1
p p2
λk
Poisson λ>0 e−λ k! λ λ
Nous résumons, dans le tableau suivant, quelques lois de probabilités continues :
56
A. Zoglat 4.3 Autres Lois Importantes
Loi de Probabilité de X Paramètres fX (x) µX σX2

1 a+b (b − a)2
Uniforme[a, b] a<b∈R I I (x)
b − a [a,b] [a,b] 2 12
1 1
Exponentielle(λ) λ>0 λe−λx I[0,∞[ (x)(x)
λ λ2
1 α α
Gamma(α, β) α, β > 0 β α xα−1 e−βx I[0,∞[ (x)
Γ(α) β β2
1 −(x − µ)2
N (µ, σ 2 ) µ ∈ R, σ > 0 √ exp µ σ2
σ 2π 2σ 2
4.3 Autres Lois Importantes

Dans ce paragraphe nous allons présenter quelques lois classiques qui sont obtenues à partir de la loi
normale. Nous commençons d'abord par quelques préliminaires.
4.3.1 Transformation de vecteurs aléatoires

Transformation de Rd dans R
Soient X = (X1 , . . . , Xd ) un vecteur aléatoire et FX sa fr. Soit ϕ : Rd → R une application telle que
Y = ϕ(X) soit une v.a. Alors l'espérance mathématique de Y , lorsqu'elle existe, est donnée par :
E[Y ] = E[ϕ(X1 , . . . , Xd )]
Z
= ϕ(x1 , . . . , xd )fX (x1 , . . . , xd ) dx1 . . . dxd si fX existe, et
Rd
E[Y ] = E[ϕ(X1 , . . . , Xd )]
X
= ϕ(x1 , . . . , xd )PX (x1 , . . . , xd )
(x1 ,...,xd )
si les Xi sont des v.a. discrètes.
Pour simplier l'écriture on notera
Z
E[Y ] = E[ϕ(X1 , . . . , Xd )] = ϕ(x1 , . . . , xd ) dFX (x1 , . . . , xd ).
Rd
Transformation de Rd dans Rd
Soient X = (X1 , . . . , Xd ) un vecteur aléatoire et FX sa fr. Soit φ = (ϕ1 , . . . , ϕd ) : Rd → Rd une application
telle que Y = φ(X) soit un vecteur aléatoire.
57
4.3 Autres Lois Importantes A. Zoglat
Le Jacobien de φ, noté Jφ , est la fonction dénie sur Rk par
∂ϕ1 ∂ϕ1

(t) . . . (t)
∂t1 ∂tk
. .
∀t = (t1 , . . . , tk ) ∈ Rk ,

Jφ (t) = .. .
.

∂ϕ ∂ϕk
k
(t) . . . (t)
∂t1 ∂tk

Le théorème suivant, connu sous le nom de théorème de changement de variables, est très utile.
Théorème 4.3.1. [de changement de variables] Soit φ = (ϕ1 , . . . , ϕd ) une fonction dénie sur un ouvert B ⊂ Rd
et à valeurs dans Rd . On suppose que
1- Les dérivées partielles premières de φ sont continues sur B.

2- La fonction φ est bijective.
3- Le Jacobien Jφ (.) ne s'annule pas sur B.

Soit f : φ(B) −−−−→ R une fonction (mesurable) telle que
Z
|f (x)| dx < ∞.
φ(B)
Alors pour tout K ⊂ φ(B) (mesurable) on a
Z Z
f (x) dx = f (φ(t)) |Jφ (t)| dt.
K φ−1 (K)
Dans ces expressions et dans la suite, du désigne du1 . . . duk et φ−1 désigne la fonction inverse de φ.
1
Rappelons que Jφ−1 (t) = . Il s'ensuit que si φ vérie les conditions du théorème de changement
Jφ (φ−1 (t))
de variables, alors φ−1 les vérie aussi.
Le théorème suivant permet de calculer la fdp de Y = φ(X) à partir de celle de X.
Théorème 4.3.2. Soient X = (X1 , . . . , Xd ) un vecteur aléatoire à valeurs dans un ouvert S ⊂ Rd , fX sa fdp et
g = (g1 , . . . , gd ) : Rd → Rd une fonction vériant les conditions du Théorème 4.3.1.
Posons Y = g(X), alors on a
fX g −1 (y)

−1

fY (y) = fX g (y) |Jg−1 (y)| = .
|Jg g −1 (y) |
Pour illustrer ce théorème, nous démontrons le résultat suivant :
Proposition 13. Soient Z1 ∼ N (0, 1) et Z2 ∼ N (0, 1) deux v.a. indépendantes. Alors, pour tout couple de
réels (a1 , a2 ) 6= (0, 0), la v.a. X = a1 Z1 + a2 Z2 est normale de moyenne µ=0 et variance σ 2 = a21 + a22 .
58
Démonstration. Il est clair que la moyenne et la variance de X sont données par les formules ci-dessus. Seule
l'assertion X ∼ N (0, σ 2 ), lorsque a1 6= 0 et a2 6= 0, mérite une preuve.
Considérons la bijection g : (x, y) 7→ (x, a1 x + a2 y). Sa fonction réciproque est donnée par g −1 : (u, v) 7→
(u, a2−1 (v − a1 u)). On a alors |Jg−1 (u, v)| = |1/a2 |, d'où
v − a u 1
1
f(Z1 ,X) (u, v) = f( Z1 ,Z2 ) u, (Théorème 4.3.1)
a2 |a2 |
1 v − a1 u
= fZ1 (u) fZ2 (Indépendance)
|a2 | a2
La densité de X s'obtient en intégrant f(Z ,X) (u, v) par rapport à

1
u, i.e.
Z
fX (v) = f(Z1 ,X) (u, v)du.
R
on obtient alors

v − a1 u
Z
1
fX (v) = f (u) fZ2 du
|a2 | R Z1 a2
(v − a1 u)2
Z
1 1 1 1
= √ √ exp − u2 + du
|a2 | 2π 2π R 2 a22
1 a22 u2 + (v − a1 u)2
Z
1 1 1
= √ √ exp − du.
|a2 | 2π 2π R 2 a22
Or,
a22 u2 + (v − a1 u)2 a2 u2 + v 2 + a21 u2 − 2u(a1 v)

2 = 2
a2 a22
v 2 + u2 (a22 + a21 ) − 2u(a1 v)
=
a22
!2
p a1 v a21 v 2
v2 + u a22 + a21 − p 2 −
a2 + a21 a22 + a21
= ,
a22
!2
p a1 v
u a22 + a21 − p 2
v2 a2 + a21
= + , d'où
a22 + a21 a22
59
v2

1
fX (v) = √ exp − ×
|a2 | 2π 2(a22 + a21 )
2
a v
p
Z u a2 + a1 − √ 2 2
2 2 1
1 1 a2 +a1
√ exp − 2 du
2π R 2 a2
v2 (a22 + a21 ) 2
Z
1 1
= √ exp − √ exp − u du
|a2 | 2π 2(a22 + a21 ) 2π R 2a22
v2 u2
Z
α 1
= √ exp − √ exp − 2 du,
|a2 | 2π 2(a22 + a21 ) α 2π R 2α
s
v2 a22

α 1
= √ exp − où α =
|a2 | 2π 2(a22 + a21 ) a21 + a22
v2

1
=p exp − .
2π(a22 + a21 ) 2(a22 + a21 )
Le Théorème 4.3.2 prend une forme particulière dans le cas d'une application ane dans Rn .
Rappelons qu'une application g : Rd −−−−→ Rd est dite ane s'il existe une d × d matrice A et un vecteur
c = (c1 , . . . , cd ) ∈ Rd tels que, pour tout x = (x1 , . . . , xd ) ∈ Rd , g(x) = x A + c. Si c = 0, on dit que g est
une application linéaire.
Soit g(x) = x A + c une application ane sur Rd . On montre facilement que g est injective si, et seulement
si, la matrice A est inversible. Dans ce cas on a
∀y ∈ Rd , g −1 (y) = (y − c) A−1 .
Corollaire. Soient g est une application ane injective sur Rd , et X un vecteur aléatoire de Rd . Alors la fdp
de Y = g(X) est donnée par

fX (y − c) A−1

d
∀y ∈ R , fY (y) = .
| det A|
4.3.2 Lois fonctions de lois normales

Comme applications des résultats du paragraphe précédent, nous allons construire de nouvelles v.a. et
établir des résultats très utiles en statistique.
Proposition 14. Soient X1 et X2 deux v.a. indépendantes dont les fdp respectives sont notées f1 et f2 . Alors
la v.a. X = X1 + X2 admet une fdp donnée par
Z
∀x ∈ R, fX (x) = f1 (x − u) f2 (u) du.
R
60
Démonstration. Soit la fonction g : R2 → R2 dénie par : ∀(x1 , x2 ) ∈ R2 , g(x1 , x2 ) = (x1 + x2 , x2 ). La
fonction g est inversible et on a g −1 (y1 , y2 ) = (y1 −y2 , y2 ) et |Jg−1 (y1 , y2 )| = 1. D'où, en posant X = (X1 , X2 )
et Y = g(X),
fY (y1 , y2 ) = fX g −1 (y1 , y2 ) |Jg−1 (y1 , y2 )|

= fX y1 − y2 , y2 ) = f1 (y1 − y2 ) f2 (y2 ).
En intégrant par rapport à y2 on obtient le résultat.
Proposition 15. Soient Y1 ∼ Γ(α1 , β) et Y2 ∼ Γ(α2 , β) deux v.a. indépendantes. Alors
Y1 + Y2 ∼ Γ(α1 + α2 , β).
Démonstration. Posons Y = Y1 + Y2 et notons fY sa fdp. Par indépendance de Y1 et Y2 , on a pour tout y ∈ R

Z
fY (y) = fY1 (y − t) fY1 (t) dt
R
Z y
1
= β α1 +α2 (y − t)α1 −1 tα2 −1 exp(−β y) dt
Γ(α1 )Γ(α2 ) 0
β α1 +α2 y α1 +α2 −1 e−β y y t α1 −1 t α2 −1 dt
Z
= 1−
Γ(α1 )Γ(α2 ) 0 y y y
Z 1
1
= β α1 +α2 y α1 +α2 −1 e−β y (1 − u)α1 −1 uα2 −1 du
Γ(α1 )Γ(α2 ) 0
| {z }
=C
α1 +α2 α1 +α2 −1 −β y
=Cβ y e .
1 R∞
Comme fY est une fdp, on a = 0 β α1 +α2 y α1 +α2 −1 e−β y dy = Γ(α1 + α2 ).
C
Remarquons que cette dernière égalité montre que
Z 1
Γ(α1 )Γ(α2 )
(1 − u)α1 −1 uα2 −1 du = .
0 Γ(α1 + α2 )
Loi de Khi-deux
1
Dénition 4.3.1. Soit Y une v.a. qui suit une loi Γ(α, β). Si 2α = n ∈ N∗ et β= , on dit que Y suit une loi
2
de khi-deux à n degrés de liberté et on note Y ∼ χ2n .
Nous sommes maintenant en mesure d'énoncer et démontrer le résultat suivant :
Théorème. [Expression de χ2 ] Soit Z1 , . . . , Z n des v.a. indépendantes et de même loi N (0, 1). La v.a. X =
Z12 + . . . + Zn2 suit une loi de khi-deux à n degrés de liberté, i.e. X ∼ χ2n .
61
Démonstration. Il sut de montrer que Z12 ∼ χ21 puis d'appliquer la Proposition 15 pour conclure.
Soit x≥0 un réel,
√ √
P{Z12 ≤ x} = P{|Z1 | ≤ x} = 2P{0 ≤ Z1 ≤ x}
Z √x
1 −u2
= 2√ exp du
2π 0 2
Z x
1 1 −v 2
=√ √ exp dv (On pose u = v )
2π 0 v 2
On en déduit que la fdp de Z12 est donnée par
1 −x
fZ 2 (x) = √ x−1/2 exp I (x)
1 2π 2 [0,∞[
qui est bien la fdp d'une v.a. de loi Γ( 12 , 21 ).
Corollaire. Soit X1 , . . . , Xn des v.a. indépendantes et de même loi N (µ, σ 2 ), alors
n
Xi − µ 2
X
∼ χ2n .
σ
i=1
Loi de Student
Dénition 4.3.2. On dit qu'une v.a. T suit une loi de Student à n degrés de liberté, et on note T ∼ tn , si sa
fdp est donnée par

Γ( n+1
2 ) √1 1
∀t ∈ R, fT (t) = n p .
Γ( 2 ) nπ (1 + t2 /n)n+1
Remarque. La loi de Student à n=1 degrés de liberté s'appelle la loi de Cauchy.
Théorème. [Expression de tn ] Soient Z ∼ N (0, 1) et X ∼ χ2n deux v.a. indépendantes. Alors
Z
p ∼ tn .
X/n
Démonstration. Nous allons simplement indiquer les diérentes étapes de la démonstration. Les détails re-
posent sur les techniques d'intégration.

√
x n
Considérons la fonction h : R × R∗+
→ R2 dénie par
h(x, y) = x, √ . En utilisant le théorème de chan-
y
√
Z n R
gement de variable on a la fdp de la v.a. (Z, U ) = Z, p . D'où on déduit f (u) =
U R f(Z,U ) (z, u) dz .
χ2n
Le théorème suivant est très utile et s'applique dans de nombreuses situations.
Théorème. Soit Z1 , . . . , Z n des v.a. indépendantes et de même loi normale standard, alors
62
Pn Pn
i=1 Zi 2 − Z)2
i=1 (Zi
1- La moyenne Z= et la variance S = sont indépendantes.
n n−1
2- La v.a. (n − 1) S 2 ∼ χ2n−1 .
√ Z
3- La v.a. n ∼ tn−1 .
S
Démonstration. Nous démontrons d'abord le lemme suivant.
Lemme. Soit Z = (Z1 , . . . , Zn ) un vecteur dont les composantes sont des v.a. indépendantes et de même loi
N (0, 1), et soit A une matrice orthogonale (i.e. AAt = I ou encore A−1 = At , où At est la matrice transposée
de A).
Le vecteur aléatoire Z A = Y = (Y1 , . . . , Yn ) est à composantes indépendantes et de même loi N (0, 1).
Preuve du Lemme : Posons A = (aij )1≤i,j≤n . Alors , pour tout i ∈ {1, . . . , n}, on a Yi =
P
j aji Zi .
σi2 = a2ji .
P
D'après la Proposition 13, Yi est une v.a. normale de moyenne 0 et de variance j Comme
At A = I, a2ji = 1 σi2 = 1.
P
on a j et donc
Pour montrer l'indépendance calculons la fdp de Y. D'après le Corollaire de la page 40, on a
fZ (yAt )
∀y ∈ Rn , fY (y) = = fZ (yAt ) car | det A| = 1.
| det A|
Posons yAt = u = (u1 , . . . , un ), on a alors
X
∀i ∈ {1, . . . , n} ui = aij yj , d'où
j
n n
Y 1 −1 X 2
fY (y) = fi (ui ) = √ exp ui . où fi est la fdp de Zi .
( 2π)n 2
i=1 i=1
Remarquons que
n
X XX X X
u2i = aij yj aik yk = yk yj aij aik .
i=1 i j,k j,k i

1

si j=k
AAt = I,
P
Et comme on a i aij aik =

, d'où
0 sinon
n
1 −1 X 2
fY (y) = √ exp yi .
( 2π)n 2
i=1
Ce qui termine la preuve du lemme.
Preuve du Théorème : Soit A = (aij )1≤i,j≤n une matrice orthogonale dont la première colonne est
 
√1
n
.

a1 =  . .
 
.
 
√1
n
63
La construction d'une telle matrice peut se faire selon le procédé de Gram-Schmidt pour la construction
d'une base orthonormale.
Posons Y = Z A. D'après le Lemme, Y est un vecteur dont les composantes sont indépendantes et de même
Y1 2
loi N (0, 1). D'après la dénition de A, on a Z=√ et donc nZ = Y12 .
n
Comme A est orthogonale, on a
n
X n
X
t
Yi2 t
= YY = (Z A) (Z A) = Zi2 , d'où
i=1 i=1
n n n n
X X X 2 X 2
Yi2 = Zi2 − Y12 = Zi2 − nZ = Zi − Z .
i=2 i=1 i=1 i=1
Pn
Les Yi étant indépendantes, on conclut que (n − 1)S 2 = Yi2 , est indépendante de Z
i=2 qui est fonction
(n − 1)S 2 = ni=2 Yi2 ∼ χ2n−1 .

P
de Y1 . De plus les Yi sont de même loi N (0, 1), d'où
La troisième assertion découle des deux précédentes.
Dans le cas de v.a. de loi normale quelconque,le théorème précédent s'énonce
Corollaire. Soit X1 , . . . ,P
Xn des v.a. indépendantes et de même loi normale N (µ, σ 2 ), alors
n
i=1 Xi S2 1 Pn Xi − X 2
1- La moyenne X= et la variance = sont indépendantes.
n σ2 n − 1 i=1 σ
S2
2- La v.a. (n − 1) 2 ∼ χ2n−1 .
σ
√ X −µ
3- La v.a. n ∼ tn−1 .
S
Xi − µ
Démonstration. Il sut de remarquer que, pour tout i = 1, . . . , n, = Zi ∼ N (0, 1) et d'appliquer le
σ
théorème précédent.
Loi de Snedecor
Cette loi a été introduite par Snedecor et est notée F en l'honneur de Sir Ronald Fisher.
Dénition 4.3.3. On dit qu'une v.a. U suit une loi F à n et m degrés de liberté, et on note U ∼ Fn,m , si sa
fdp est donnée par
Γ( n+m2 )
n n/2 u(n/2)−1
∀u ∈ R+ , fU (u) = n m p .
Γ( 2 ) Γ( 2 ) m (1 + (n/m)u)n+m
64
A. Zoglat 4.4 Lois conditionnelles
En pratique, les v.a. qui suivent une la loi de Snedecor sont souvent sous la forme décrite dans le théorème
suivant
X1 /n
Théorème. Soient X1 ∼ χ2n et X2 ∼ χ2m deux v.a. indépendantes. Alors le ratio ∼ Fn,m .
X2 /m
1
Corollaire 1. Soit U ∼ Fn,m , alors ∼ Fm,n .
U
Il existe des tables où l'on trouve les valeurs usuelles des probabilités relatives aux lois de student, de
khi-deux et de Fisher.
4.4 Lois conditionnelles

Nous avons déjà vu que, pour toute paire d'événements E et F, la probabilité conditionnelle de E sous
condition que F soit réalisé est, pour autant que P{F } =

6 0,
P{E ∩ F }
P{E/F } = .
P{F }
Dans ce paragraphe, nous étudierons la notion de loi de probabilité conditionnelle.
4.4.1 Cas de lois discrètes

Soit X = (X, Y ) un vecteur aléatoire à valeur dans un espace discret S = S1 × S2 . On sait que, pour tout
(x, y) ∈ S ,
P{X = (x, y)} = P{X1 = x|X2 = y}P{X2 = y},
d'où la dénition suivante
Dénition 4.4.1. On appelle loi conditionnelle de X sachant que Y = y, et on note PX|Y =y , la quantité
dénie par
P{X = x, Y = y}
∀x, PX|Y =y (x) = .
P{Y = y}
Remarque.
P
En remarquant que, pour tout y , P{Y = y} = x PX (x, y), la loi conditionnelle de X sachant
Y =y s'écrit
PX (x, y)
∀x, PX|Y =y (x) = P .
u PX (u, y)
On dénit également la F. r. conditionnelle de X sachant que Y = y, pour autant que PY (y) 6= 0, par
X
FX/Y =y (x) = P{X ≤ x/Y = y} = PX/Y =y (u, y).
u≤x
On constate donc que les dénitions sont exactement les mêmes que dans le cas où il n'existe pas de condition.
Simplement, les probabilités sont toutes modiées par le fait que l'on sache que Y = y.
65
4.4 Lois conditionnelles A. Zoglat
Proposition 16. Lorsque X et Y sont indépendantes, les lois conditionnelles et non conditionnelles sont iden-
tiques :
∀x, y, P{X = x/Y = y} = P{X = x}.
Exemple 4.4.1. La loi de probabilité conjointe P(X,Y ) de deux variables X et Y est donnée par :
P(X,Y ) (0, 0) = 0.4, P(X,Y ) (0, 1) = 0.2, P(X,Y ) (1, 0) = 0.1, P(X,Y ) (1, 1) = 0.3.
Déterminons la loi conditionnelle de X lorsque Y = l. Calculons d'abord PY (1),
PY (1) = P(X,Y ) (0, 1) + P(X,Y ) (1, 1) = 0.2 + 0.3 = 0.5
La v. a. X ne prend que les valeurs 0 et 1. On a alors
P(X,Y ) (0, 1) 0.2 P(X,Y ) (1, 1) 0.3

PX/Y =1 (0) = = , PX/Y =1 (1) = = .
PY (1) 0.5 PY (1) 0.5
Exemple 4.4.2. Soient X et Y deux variables indépendantes qui suivent respectivement les lois de Poisson
Poisson(λ1 ) et Poisson(λ2 ). Déterminons la loi conditionnelle de X lorsqu'on sait que X + Y = n.
P{X = k, X + Y = n}
PX/X+Y =n (k) = P{X = k/X + Y = n} =
P{X + Y = n}
P{X = k, Y = n − k} P{X = k} P{Y = n − k}
= =
P{X + Y = n} P{X + Y = n}
e−λ1 λk1 e−λ2 λn−k
2
k! (n − k)! n! λ
1
k λ
2
n−k
= −(λ +λ ) = .
e 1 2 (λ1 + λ2 )n k!(n − k)! λ1 + λ2 λ1 + λ2
n!
λ1
La loi conditionnelle de X sachant X +Y =n est une B inômiale n, .
λ1 + λ2
4.4.2 Cas de lois continues

La dénition de la loi conditionnelle dans le cas continu est une extension naturelle du cas discret.
Dénition 4.4.2. Soient X et Y deux v. a. admettant une densité conjointe f(X,Y ) . On dénit la densité
conditionnelle de X sous la condition Y = y, et lorsque fY (y) > 0 par
f(X,Y ) (x, y) f(X,Y ) (x, y)

fX/Y =y (x) = =Z .
fY (y)
f(X,Y ) (u, y) du
66
A. Zoglat 4.4 Lois conditionnelles
L'usage des densités conditionnelles rend possible le calcul de probabilités d'événements relatifs à une variable
X, sous condition qu'une variable Y ait pris une valeur connue. Nommément, lorsque X et Y possèdent une
fdp conjointe, pour tout événement A relatif à X, on aura

Z
P{X ∈ A/Y = y} = fX/Y =y (u) du.
A
Si en particulier on choisit A = (∞, x], on aboutit à la dénition de la fonction de répartition conditionnelle
de X sous la condition Y = y,
Z x
FX/Y =y (x) = fX/Y =y (u) du.
∞
Exemple 4.4.3. Soient X et Y deux variables ayant pour densité conjointe
12
f(X,Y ) (x, y) = (2 − x − y) I]0,1[×]0,1[ (x, y).
5
Déterminons la densité conditionnelle de X, sachant que Y = y, où 0 < y < 1. Soit 0 < x < 1,
f(X,Y ) (x, y) f(X,Y ) (x, y)
fX/Y =y (x) = =Z ∞
fY (y)
f(X,Y ) (u, y) du
−∞
2−x−y 2−x−y
=Z 1 =
2/3 − y/2
u(2 − u − y) du
0
Exemple 4.4.4. Supposons que X et Y aient pour densité conjointe

x

exp − y +y
f(X,Y ) (x, y) = I]0,∞[×]0,∞[ (x, y).
y
Calculons P{X > 1/Y = y}. Pour cela calculons d'abord la densité conditionnelle de X lorsque Y = y,
x x

exp − y +y exp − y +y
y 1 x
fX/Y =y (x) = Z = Z ∞y = exp − .
exp − uy + y exp −y

∞ u y y
du exp − du
y y 0 y
0
Z ∞ Z ∞
1 x 1
P{X > 1/Y = y} = fX/Y =y (x) dx = exp − dx = exp − .
1 1 y y y
4.4.3 Espérance Conditionnelle

L'espérance conditionnelle de X sachant que Y = y est notée E[X/Y = y]. Elle est dénie de façon
naturelle par
X
x PX/Y =y (x) dans le cas de v. a. discrètes,





 x

E[X/Y = y] =



Z

 x fX/Y =y (x) dx
 dans le cas de v. a. à densité.
67
4.4 Lois conditionnelles A. Zoglat
Remarque.

E X/Y = y est donc l'espérance de X prise par rapport à sa loi conditionnelle PX/Y =y . Ainsi elle
possède toutes les propriétés d'une espérance.

Notons que E X/Y = y est une fonction de y . Ainsi E X/Y une v.a. qui prend les valeurs E X/Y = y
pour les diérentes valeurs y.
Dénition 4.4.3.

La v.a. E X|Y s'appelle l'espérance conditionnelle de X sachant Y.
Théorème. [de l'espérance totale]

h i
E E X/Y = E X .
Démonstration. Nous démontrerons ce résultat dans le cas discret.
h i X
E E X|Y = E X|Y = y PY (y)
y
XX
= x PX/Y =y (x) PY (y)
y x
X X
= x PX/Y =y (x) PY (y)
x y
X X X
= x P(X,Y ) (x, y) = x PX (x)
x y x

=E X .
Proposition 17. Si X et Y deux v.a. indépendantes, alors E[X/Y ] = E[X].
Exemple 4.4.5. [Exemple4.4.2 (suite)] Nous avons déjà vu que si X ∼ Poisson(λ1 ), Y ∼ Poisson(λ2 ) et si X
λ1
et Y sont indépendantes, alors la loi conditionnelle de X sachant X + Y = n est une B inômiale n, .
λ1 + λ2
D'où,
n
Cnk λ1 k λ2 n−k λ1
X
∀n ∈ N, E[X/X + Y = n] = k =n .
λ1 + λ2 λ1 + λ2 λ1 + λ2
k=0
λ1
Ainsi, E[X/X + Y ] = (X + Y ) .
λ1 + λ2
Exemple 4.4.6. [Exemple4.4.4, suite]
Nous avons déjà vu que si X et Y ont pour densité conjointe

x

exp − y +y
f(X,Y ) (x, y) = I]0,∞[×]0,∞[ (x, y),
y
alors la loi conditionnelle de X sachant Y =y est donnée par
1 x
fX/Y =y (x) = exp − . i.e. sachant que Y = y , X ∼ Exponentielle(1/y),
y y
d'où, E[X/Y = y] = y et donc E[X/Y ] = Y .
68
Chapitre 5
Théorèmes limites
Dans ce chapitre nous nous intéressons particulièrement aux comportements asymptotiques des sommes
de v.a. indépendantes et de même loi. Parmi les principaux théorèmes limites qui occupent une place privi-
légiée, aussi bien en théorie qu'en pratique, on peut citer la loi des grands nombres et le théorème central
limite. Nous présenterons ces théorèmes après quelques résultats préliminaires.
5.1 Modes de convergence

Dénition 5.1.1. Soient X, X1 , X2 , . . ., une suite v.a. dénies sur (Ω, F, P). On dit que (Xn )n converge presque
p.s.
sûrement (p.s.) vers X, et on note Xn −−−→ X , si
n→∞

P ω ∈ Ω : lim Xn (ω) = X(ω) = 1.
n
La convergence p.s. pour les v.a. est l'analogue de la convergence simple pour les suites de fonctions. La
proposition suivante caractérise la convergence p.s.
Proposition 18. Soient X, X1 , X2 , . . ., une suite v.a. dénies sur le même espace probabilisé (Ω, F, P). La suite
(Xn )n converge p.s. vers X si, et seulement si, pour tout > 0,
n o
lim P ω ∈ Ω : sup |Xk (ω) − X(ω)| > = 0.
n→∞ k≥n
Une version plus faible de ce critère dénit un autre mode de convergence.
Dénition 5.1.2. Soient X, X1 , X2 , . . ., une suite v.a. dénies sur le même espace probabilisé (Ω, F, P). On dit
P
que (Xn )n converge en probabilité vers X, et on note Xn −−−→ X , si pour tout > 0,
n→∞

lim P ω ∈ Ω : |Xn (ω) − X(ω)| > = 0.
n
69
5.1 Modes de convergence A. Zoglat
En remarquant que

∀n ≥ 1, P ω ∈ Ω : |Xn (ω) − X(ω)| > ≤ P ω ∈ Ω : sup |Xn (ω) − X(ω)| > ,
k≥n
on montre la proposition suivante.
Proposition 19. Soient X, X1 , X2 , . . ., une suite v.a. dénies sur le même espace probabilisé (Ω, F, P), alors
p.s. P
Xn −−−→ X =⇒ Xn −−−→ X.
n→∞ n→∞
La convergence p.s. et la convergence en probabilité sont conservées par les opérations algébriques :
Proposition 20. Soient X, X1 , X2 , . . ., et Y, Y1 , Y2 , . . . deux suites v.a. dénies sur le même espace probabilisé
(Ω, F, P).
p.s. p.s. p.s.
1- Si Xn −−−→ X et Yn −−−→ Y alors Xn + Yn −−−→ X + Y.
n→∞ n→∞ n→∞
P
2- Si
P
Xn −−−→ X et
P
Yn −−−→ Y alors Xn + Yn −−−→ X + Y.
n→∞ n→∞ n→∞
Démonstration. Nous allons démontré la première assertion, la seconde peut être démontrée de la même
manière. Soit > 0, on sait que

lim P sup |Xn − X| > /2 = 0, et lim P sup |Yn − Y | > /2 = 0, d'où
n k≥n n k≥n

lim P sup(Xn + Yn ) − (X + Y ) > ≤ lim P sup |Xn − X| > /2 + lim P sup |Yn − Y | > /2 = 0.
n k≥n n k≥n n k≥n
La proposition suivante est un autre résultat sur sur les opérations algébriques. Nous allons l'admettre
sans démonstration.
Proposition 21. Soient X, X1 , X2 , . . ., et Y, Y1 , Y2 , . . . deux suites v.a. dénies sur le même espace probabilisé
(Ω, F, P).
p.s. p.s. p.s.
1- Si Xn −−−→ X et Yn −−−→ Y alors Xn Yn −−−→ X Y.
n→∞ n→∞ n→∞
P
2- Si
P
P
Yn −−−→ Y alors Xn Yn −−−→ X Y.
n→∞ n→∞ n→∞
Remarquons que dans le cas de la convergence p.s. ou de la convergence en probabilité les v.a. sont toutes
dénies sur le même espace probabilisé. Il existe un autre mode de convergence qui ne fait appel aux v.a.
qu'à travers leurs lois et ne nécessite donc pas que les v.a. soient dénies sur le même espace probabilisé.
Dénition 5.1.3. Soient X, X1 , X2 , . . ., une suite v.a. ( pas nécessairement dénies sur le même espace proba-
L
bilisé). On dit que (Xn )n converge en loi vers X, et on note Xn −−−→ X si, pour tout x point de continuité de
n→∞
FX , FXn (x) −−−→ FX (x).
n→∞
70
A. Zoglat 5.1 Modes de convergence
Nous avons déjà vu que la convergence p.s. implique la convergence en probabilité. Quelle relation y t-il avec
la convergence en loi ? La proposition suivante fournit une réponse partielle à cette question.
Proposition 22. Soient X, X1 , X2 , . . ., une suite v.a. dénies sur le même espace probabilisé (Ω, F, P). Alors
P L
Xn −−−→ X =⇒ Xn −−−→ X.
n→∞ n→∞
Démonstration. Soit x un point de continuité de FX . Pour tout >0 et tout n ∈ N, on a
FXn (x) = P{Xn ≤ x}
= P{Xn ≤ x, |Xn − X| ≤ } + P{Xn ≤ x, |Xn − X| > }
≤ P{X ≤ x + } + P{|Xn − X| > }
= FX (x + ) + P{|Xn − X| > }
En passant à la limite sur n puis en laissant tendre vers 0, on obtient lim supn FXn (x) ≤ FX (x). De la même
manière on a
FX (x − ) = P{X ≤ x − }
= P{X ≤ x − , |Xn − X| ≤ } + P{X ≤ x − , |Xn − X| > }
≤ FXn (x) + P{|Xn − X| > }
En passant à la limite sur n puis en laissant tendre vers 0, on obtient lim inf n FXn (x) ≥ FX (x). Ainsi nous
avons montré que, pour tout x point de continuité de FX ,
FX (x) ≤ lim inf FXn (x) ≤ lim sup FXn (x) ≤ FX (x),
n n
ce qui prouve la proposition.
La réciproque de l'assertion de la proposition précédente est en général fausse. Nous avons toutefois le
résultat suivant
Proposition 23. Soient X1 , X2 , . . ., une suite v.a. dénies sur le même espace probabilisé (Ω, F, P) et c une
constante. Alors
L P
Xn −−−→ c =⇒ Xn −−−→ c.
n→∞ n→∞
Démonstration. Soit > 0,
P{|Xn − c| > } = FXn (c − ) + 1 − FXn (c + ).
71
Comme Fc est continue partout sauf en c, on a
lim P{|Xn − c| > } = lim FXn (c − ) + 1 − lim FXn (c + ) = 0.

n→∞ n→∞ n→∞
La proposition suivante est une caractérisation de la convergence en loi.
Proposition 24. On a Xn −−−→ X

n→∞
L
si, et seulement si, pour toute fonction f continue et bornée
lim E [f (Xn )] = E [f (X)] .

n→∞
Démonstration. Nous aurons besoin du
Lemme. Si
L
Xn −−−→ X
n→∞
alors pour tout >0 il existe un réel K>1 tel que :
a- FX soit continue en ±K ,
b- P{|X| > K} < et,
c- P{|Xn | > K} < 2 pour n assez grand.
La première assertion est vraie car l'ensemble de points de discontinuité de FX est au plus dénombrable.
La deuxième est vraie car limx→∞ P{|X| > x} = 0. La troisième résulte du fait que FXn (−K) −→ FX (−K)
et FXn (K) −→ FX (K).
L
=⇒: Supposons que Xn −−−→ X . Soit f une fonction continue et bornée et soit M = supx |f (x)| < ∞.
n→∞
D'après le lemme, pour > 0, il existe K >0 tel que FX soit continue en ±K , P{|X| > K} < /M et il
existe N ∈N tel que pour n ≥ N , P{|Xn | > K} < 2/M .
Soit g la fonction dénie par

k
X
∀x ∈ R, g(x) = ai I]xi−1 ,xi ] (x),
i=1
où les xi sont des points de continuité de FX tels que −K = x0 < x1 < . . . < xk = K . On choisit
1 les ai et
les xi de sorte que
sup |f (x) − g(x)| < .

x∈[−K,K]
1. Ce choix est possible car f est uniformément continue sur le compact [−K, K].
72
A. Zoglat 5.1 Modes de convergence
Ainsi pour n assez grand on a
h i h i
|E[Xn ] − E[X]| ≤ E f (Xn ) I[−K,K] (Xn ) − E f (X) I[−K,−K] (X)

h i h i
+ E |f (Xn )| I[K,∞[ (|Xn |) + E |f (X)| I[K,∞[ (|X|)
h i h i
≤ E f (Xn ) I[−K,K] (Xn ) − E f (X) I[−K,−K] (X) + 3

h i
≤ 3 + E f (Xn ) I[−K,K] (Xn ) − E[g(Xn )]

h i
+ E f (X) I[−K,−K] (X) − E[g(X)] + E[g(Xn )] − E[g(X)]

≤ 5 + E[g(Xn )] − E[g(X)].

L
Comme Xn −−−→ X et puisque les xi sont des points de continuité de FX , on a
n→∞
k
X k
X
E[g(Xn )] = ai FXn (xi ) − FXn (xi−1 ) −→ ai FX (xi ) − FX (xi−1 ) = E[g(X)].
i=1 i=1
D'où, E[f (Xn )] −→ E[f (X)].

⇐= Supposons que E[f (Xn )] −→ E[f (X)] pour toute fonction f continue et bornée. Soient t un point
de continuité de FX et > 0. h
On dénit la fonction par

1 x ≤ t,


 si


h(x) = 0 si x ≥ t + ,


t + − x


si t < x < t + .


La fonction h est continue, bornée et telle que I]−∞,t] ≤ h ≤ I]−∞,t+] . Ainsi
FXn (t) = E[I]−∞,t] (Xn )] ≤ E[h(Xn )] et E[h(X)] ≤ E[I]−∞,t+] (X)] = FX (t + ).
D'où, en faisant tendre n vers l'inni,
lim sup FXn (t) ≤ lim E[h(Xn )] = E[h(X)] ≤ FX (t + ).

n→∞ n→∞
En faisant tendre vers 0 et puisque FX est continue à droite, on obtient lim supn→∞ FXn (t) ≤ FX (t).
Ensuite, pour ∗ > 0, on construit une fonction h∗ continue, bornée et telle que I]−∞,t−∗ ] ≤ h∗ ≤ I]−∞,t] .
Ainsi
FX (t − ∗ ) ≤ E[h∗ (X)] = lim E[h∗ (Xn )] ≤ lim inf FXn (t).

n→∞ n→∞
En faisant tendre ∗ vers 0, on obtient FX (t) = FX (t− ) ≤ lim inf n→∞ FXn (t). Nous avons donc montré que,
pour tout t point de continuité de FX ,
FX (t) ≤ lim inf FXn (t) ≤ lim sup FXn (t) ≤ FX (t).
n→∞ n→∞
Cela prouve que FXn (t) −→ FX (t).
73
L
Les fonctions h et h∗ qui nous ont servi pour montrer que Xn −−−→ X sont uniformément continues et
n→∞
bornées. Nous avons donc montré le corollaire suivant :
Corollaire 2.
L
Xn −−−→ X ⇐⇒ E[f (Xn )] −→ E[f (Xn )] pour toute fonction f uniformément continue et bornée.
n→∞
Nous sommes à présent en mesure de montrer le résultat suivant :
Théorème 5.1.1. [Théorème de Slutsky] Si

n→∞
L
P
Yn −−−→ c,
n→∞
une constante, alors
L L
a- Xn + Yn −−−→ X + c b- Yn Xn −−−→ cX
n→∞ n→∞
Démonstration.
a− D'après le Corollaire 2 il sut de montrer que, pour toute fonction f uniformément continue et bornée,
E[f (Xn + Yn )] −→ E[f (X + c)]. Soit > 0, il existe δ>0 tel que |x − y| < δ =⇒ |f (x) − f (y)| < . Posons
M = supx |f (x)| < ∞. Alors,

h i
(X + Y )] − (X + c)] ≤ f (X + Y )] − f (X + c) (|Y − c|)

E[f n n E[f E n n n
I ]δ,∞[ n
h i
+ E f (Xn + Yn )] − f (Xn + c)I]−δ,δ[ (Yn − c)

+ E[f (Xn + c)] − E[f (X + c)]

≤ 2M P{|Yn − c| > δ} + + E[f (Xn + c)] − E[f (X + c)].

La fonction h : x 7−→ f (x + c) est continue et bornée. D'où, limn E[f (Xn + c)] − E[f (X + c)] = 0. D'autre

part on a limn P{|Yn − c| > δ} = 0, d'où limn E[f (Xn + Yn )] − E[f (X + c)] ≤ . Comme > 0 est quelconque,

on a bien limn E[f (Xn + Yn )] − E[f (X + c)] = 0.

b− Soit f une fonction uniformément continue et bornée. Ainsi pour > 0, il existe δ < 0 tel que
|x − y| < δ =⇒ |f (x) − f (y)| < . Posons M = supx |f (x)| < ∞.

D'autre part, d'après de le Lemme de la page 52, il existe un réel K >1 tel que FX soit continue en ±K ,
P{|X| > K} < et, P{|Xn | > K} < 2 pour n assez grand.
h i
E[f (Xn Yn )] − E[f (c X)] ≤ E f (Xn Yn )] − f (c Xn )I]δ/K,∞[ (|Yn − c|)

h i
+ E f (Xn Yn )] − f (c Xn ) I]−δ/K,δ/K[ (Yn − c) I]K,∞[ (|Xn |)
h i
+ E f (Xn Yn )] − f (c Xn ) I]−δ/K,δ/K[ (Yn − c) I]−K,K[ (Xn )
h i
+ E f (c Xn ) − f (c X)

≤ 2M P{|Yn − c| > δ} + 3 + E[f (c Xn )] − E[f (c X)], pour n assez grand.

La fonction h : x 7−→ f (c x) est continue et bornée, d'où limn E[f (c Xn )] − E[f (c X)] = 0.

74
A. Zoglat 5.2 Lois des grands nombres
5.2 Lois des grands nombres

Intuitivement, dans une partie de Pile ou Face si une pièce équilibrée est lancée un grand nombre de
1
fois, on peut s'attendre à ce que la fréquence de Pile soit voisine de . Dans ce paragraphe, nous allons
2
donner une justication d'une telle intuition.
Théorème 5.2.1. [Loi faible des Grands Nombres (LGN)] Soit (Xn )n une suite de v.a. indépendantes, de même
moyenne µ et de même variance σ 2 < ∞. Alors,
∞
1 X P
X= Xk −−−→ µ
n n→∞
n=1
Avant de démontrer ce théorème, nous énonçons un résultat très utile.
Proposition 25. [Inégalité de Chebyshev] Soit X une v.a. de moyenne µ et de variance σ2. Alors pour tout
t > 0,
σ2
P{|X − µ| > t} ≤ .
t2
Démonstration. Nous allons démontrer ce résultat dans le cas d'une v.a. continue, le cas discret peut être
traité en utilisant des arguments similaires. Soit A = {x : |x − µ| > t}, alors
∞
(x − µ)2 (x − µ)2 σ2
Z Z Z
P{|X − µ| > t} = fX (x) dx ≤ fX (x) dx ≤ f (x) dx = .
A A t2 −∞ t2 X
t2
Corollaire 3. Si Var(X) = 0 alors P{X = µ} = 1.
S
Démonstration. Supposons que Var(X) = 0 et que P{X = µ} < 1. Comme {X = µ} = t>0 {|X − µ| > t},
il existerait alors t>0 tel que P{|X − µ| ≥ t} > 0, ce qui est absurde d'après l'inégalité de Chebyshev.
σ2
Démonstration. [du Théorème] Nous avons E[X] = µ, et Var(X) = . D'après l'inégalité de Chebyshev,
n
σ2
on a ∀ > 0, P{|X − µ| > } ≤ . En passant à la limite sur n on a le résultat.
2 n
Exemple 5.2.1. Dans une partie de Pile ou Face, on note Xi ième lancer : Xi = 1 si
le résultat du
X1 + X2 + . . . + Xn
on obtient Pile et 0 sinon. Soit p la probabilité d'obtenir Pile. La v.a. X = , qui
n
représente la fréquence d'apparitions de Pile, converge en probabilité vers p. Nous allons montrer qu'en
75
5.2 Lois des grands nombres A. Zoglat
p.s.
h 4 i
fait, X −−−→ p. Pour cela nous avons besoin de calculer E X1 + X2 + . . . + Xn − np . Remarquons que
n→∞
n
4 X X
(X1 + X2 + . . . + Xn − np = (Xi − p)4 + 4 (Xi − p)3 (Xj − p)
i=1 {i,j}⊂{1,...,n}
X
+3 (Xi − p)2 (Xj − p)2
{i,j}⊂{1,...,n}
X
+6 (Xi − p)(Xj − p)(Xk − p)2
{i,j,k}⊂{1,...,n}
X
+ (Xi − p)(Xj − p)(Xk − p)(Xl − p).
{i,j,k,l}⊂{1,...,n}
En utilisant la linéarité de l'espérance et l'indépendance, on obtient
h 4 i h 4 i 2
E X1 + X2 + . . . + Xn − np = nE X1 − p + 3n(n − 1) Var(X1 ) .
En utilisant l'inégalité de Chebyshev on a, ∀ > 0,

h i
n X + . . . + X o E X1 + X2 + . . . + Xn − np 4
1 n
− p > ≤

P
n h n4 4
4 i 2
nE X1 − p + 3n(n − 1) Var(X1 )
=
n4 4
1
≤ C() 2 .
n
On en déduit que
n X + . . . + X o X n X1 + . . . + Xk o 1
1 k
X
lim P sup − p > ≤ lim − p > ≤ lim C() 2 = 0.

P
n→∞ k≥n k n→∞ k n→∞ k
k≥n k≥n
Cela montre que

X1 + . . . + Xn p.s.
X= −−−→ p.
n n→∞
Les arguments utilisés dans cet exemple montrent que si (Xn )n est une suite de v.a. indépendantes et de
même loi de moyenne µ et ayant un moment d'ordre quatre ni, i.e. E[X14 ] < ∞, alors
X1 + . . . + Xn p.s.
−−−→ µ.
n n→∞
La proposition suivante, qui sera admise, améliore ce résultat.
Proposition 26. [Loi Forte des Grands Nombres (LFGN)] Soit (Xn )n une suite de v.a. indépendantes et de
même loi telle que E[|X1 |] < ∞. Alors
X1 + . . . + Xn p.s.
−−−→ E[X1 ].
n n→∞
Nous allons à présent illustrer l'utilité de ce résultat par quelques exemples.
76
A. Zoglat 5.3 Fonction génératrice et fonction caractéristique
Exemple 5.2.2. [Méthode de Monte-Carlo] Supposons que l'on cherche une valeur approximative de
Z 1
I(f ) = f (x) dx,
0
lorsque f est une fonction telle que I(f ) ne peut être calculée par les techniques d'intégration. La fonction
2 /2
x 7−→ e−x est un exemple d'une telle situation. On génère une suite (Xn )n de v.a. indépendante et de
même loi Uniforme[0, 1] puis on calcule
n
1X
f (X) = f (Xk ).
n
k=1
h i
D'après la LFGN, pour n assez grand, f (X) est une bonne approximation de E f (X1 ) = I(f ).
Exemple 5.2.3. La durée de vie d'une lampe électrique de marque M, est une v.a. X de moyenne µ et
de variance σ2 inconnues. Pour avoir une valeur approximative de µ, on allume n lampes de marque M
X1 , . . . , Xn leurs durées de vies observées. Si n est assez

jusqu'à ce qu'elles soient hors d'usage et on note
1 Pn
grand, la LFGN nous incite à espérer que X = Xi , la durée de vie moyenne observée, est proche
n i=1
de la durée de vie moyenne théorique µ. La diérence |X − µ| entre la valeur théorique et la valeur estimée
dépend aussi de la variance des durées de vie σ2. En eet, d'après l'inégalité de Chebyshev, on a
1 2 σ2
P{|X − µ| > } ≤ E[(X − µ) ] = .
2 n2 2
La LFGN permet également de trouver une valeur approximative de σ2.

Notons que, par la LFGN, on a
n
1 X 2 p.s. p.s.
Xi −−−→ E[X 2 ], et (X)2 −−−→ µ2 .
n n→∞ n→∞
i=1
D'où
n n
1X 2 2 1X p.s.
Xi − X = (Xi − X)2 −−−→ E[X 2 ] − µ2 = σ 2
n n n→∞
i=1 i=1
Au paragraphe suivant nous présentons des outils précieux qui permettent, entre autres, d'identier la lois
de probabilité d'une v. a.
5.3 Fonction génératrice et fonction caractéristique

La fonction génératrice d'une v.a. caractérise la loi de cette dernière.
Dénition 5.3.1. On appelle fonction génératrice (fg) de la v.a. X , et on note gX , la fonction dénie sur
R par
gX (t) = E etX .

∀t ∈ R
77
5.3 Fonction génératrice et fonction caractéristique A. Zoglat
Si X est une v.a. discrète, alors

X
gX (t) = etx PX (x).
x
Si X est une v.a. ayant une fdp fX , alors
Z
gX (t) = etx fX (x) dx.
R
Remarque. La fg d'une v.a. peut prendre la valeur ∞ dans certains cas. Mais elle est nie sur tout sous
ensemble borné de R.
La proposition suivante est un premier résultat montrant l'utilité de la fg. Sa démonstration fait appel
aux propriétés de la transformé de Laplace qui ne rentre pas dans le cadre de ce cours. Elle sera alors admise.
Proposition 27. S'il existe un voisinage de 0 sur lequel gX ≡ gY , alors les v.a. X et Y ont la même loi de
probabilité, i.e. PX ≡ PY .
La fg peut également servir pour calculer les diérents moments d'une v.a.
Proposition 28. Si la fg de X existe dans un intervalle ouvert contenant 0, alors
gX(r) (0) = E[X r ].
Démonstration. [Cas continu] La fonction gX existe et est ni dans tout voisinage de 0 borné. Il est
alors possible de permuter le signe de dérivation et le signe intégrale, i.e.,
Z ∞ Z ∞
0 d tx d tx
gX (t) = e fX (x) dx= e fX (x) dx
dt −∞ −∞ dt
D'où
Z ∞
0
gX (t)= xetx fX (x) dx.
−∞
En prenant t = 0, on a le résultat.
Exemples
a- Soit X ∼ Poisson(λ), calculons sa fg.
∞ ∞
X λk −λ X (et λ)k −λ t t
gX (t) = etk
e = e = e−λ eλe = eλ(e −1) .
k! k!
k=0 k=0
En dérivant on obtient,
t −1) t −1) t −1)

gX0 (t) = λ eλt eλ(e et gX00 (t) = λ et eλ(e + λ2 e2t eλ(e .
D'où E[X] = gX0 (0) = λ et E[X 2 ] = gX00 (0) = λ + λ2 , d'où Var(X) = λ.
78
A. Zoglat 5.3 Fonction génératrice et fonction caractéristique
b- Soit Y ∼ Γ(α, β), sa fg est donnée par
∞ ∞
β α xα−1 −βx βα
Z Z
gY (t) = etx e dx = xα−1 ex(t−β) dx.
0 Γ(α) Γ(α) 0
La dernière intégrale est convergente pour t < β. Dans ce cas on a
βα Γ(α) β α
gY (t) = = .
Γ(α) (β − t)α β−t
En dérivant on obtient
α α(α + 1) α(α + 1) α 2 α
gY0 (0) = E[Y ] = , et gY00 (0) = E[Y 2 ] = , d'où Var(Y ) = − = 2.
β β2 β 2 β β
c- Soit Z ∼ N (0, 1), calculons sa fg,
Z ∞
1 2 /2
gZ (t) = √ etx e−x dx.
2π −∞
Remarquons que cette intégrale est convergente pour tout t∈R et que
x2 1 t2 1 t2
− tx = (x2 − 2tx + t2 ) − = (x − t)2 − .
2 2 2 2 2
D'où, 2 ∞
et /2
Z
2 /2 2 /2
gZ (t) = √ e−(x−t) dx = et .
2π −∞
Ainsi gZ0 (0) = E[Z] = 0 et gY00 (0) = E[Z 2 ] = 1 = Var(Z).
les résultats suivants sont des propriétés de la fg qui découlent directement de la dénition.
Proposition 29. Soient X une v.a., gX sa fg et Y = a + bX où a, b ∈ R. Alors, pour tout t ∈ R,
gY (t) = eat gX (bt).
t2 σ 2
Exemple 5.3.1. Soit X ∼ N (µ, σ 2 ), alors gX (t) = eµt gZ (t σ) = eµt− 2 .
Proposition 30. Si X et Y sont deux v.a. indépendantes alors, lorsque les fg existent,
gY +X (t) = gX (t) gY (t).
Ce résultat, combiné avec la Proposition 27, permet de montrer par exemple que
a- Si X1 ∼ Poisson(λ)1 et X2 ∼ Poisson(λ)2 sont indépendantes alors X1 + X2 ∼ Poisson(λ1 + λ2 ).

b- Si X1 ∼ N (µ1 , σ12 ) et X2 ∼ N (µ2 , σ22 ) sont indépendantes alors,
∀a, b ∈ R, aX1 + bX2 ∼ N (aµ1 + bµ2 , a2 σ12 + b2 σ22 ).
79
5.3 Fonction génératrice et fonction caractéristique A. Zoglat
L'inconvénient majeur de la fg est qu'elle peut être innie. Il existe une fonction équivalente à la fg et
qui a le mérite d'être toujours nie.
Dénition 5.3.2. La fonction caractéristique (fc) d'une v.a. X, notée ϕX , est donnée par
ϕX (t) = E ei t X = E cos(t X) + i sin(t X) ,

∀t ∈ R, où i est le nombre complexe dont le carré est −1.
Comme la fg, la fc caractérise la loi de la v.a. Plus précisément, on a
Proposition 31. S'il existe un voisinage de 0 sur lequel ϕX ≡ ϕY , alors les v.a. X et Y ont la même loi de
probabilité, i.e. PX ≡ PY .
En fait nous avons la formule d'inversion de la transformée de Fourier permettant d'obtenir la loi de X
connaissant sa fc :
Théorème.
R∞
Si
−∞ |ϕX (t)| dt <∞ alors X admet une fdp fX donnée par
Z ∞
1
fX (x) = ϕX (t) e−i t x dt.
2π −∞
Sinon, on a toujours
T
e−i t a − e−i t b
Z
1
∀a, b ∈ R, FX (b) − FX (a) = lim ϕX (t) dt.
T →∞ 2π −T it
La démonstration de ce résultat est très technique et ne fait pas partie des objectifs de ce cours. Ce théorème
sera alors admis.
Remarque.
1- Comme |ei t X | ≤ 1, la fc est toujours nie.
2- De plus, pour tout t ∈ R,

X


 ei t x PX (x), si X est discrète, et

 x

ϕX (t) =

Z

ei t x fX (x) dx,


 si fX existe.
R
3- Pour tout a, b ∈ R,
ϕaX+b (t) = eibt ϕX (at).
4- Si X et Y sont deux v.a. indépendantes alors
∀t ∈ R, ϕX+Y (t) = ϕX (t) ϕY (t).
80
A. Zoglat 5.4 Le théorème central limite (TCL)
5- Si les dérivées existent jusqu'à l'ordre k, on a
ϕX(k) (o) = ik E[X k ].
La fc permet de caractériser la convergence en loi.
Théorème 5.3.1. Soient X, X1 , X2 , . . . une suite de v. a., alors
L
Xn −−−→ X ⇐⇒ ∀t ∈ R, ϕXn (t) −−−→ ϕX (t).
n→∞ n→∞
Exemples
a- Soit X ∼ Bernoulli(p), alors
ϕX (t) = pei t + (1 − p).
b- Soit X ∼ B inômiale(n, p), alors

n
ϕX (t) = pei t + (1 − p) .
c- Soit X ∼ Poisson(λ), alors
ϕX (t) = exp(λ(ei t − 1)).
d- Soit X ∼ Uniforme[−a, a], alors

sin a t
ϕX (t) = .
at
e- Soit Z ∼ N (0, 1), alors
2 /2
ϕZ (t) = e−t .
5.4 Le théorème central limite (TCL)

En pratique, on est souvent amené à calculer P{a < X < b} alors que la loi de la v.a. X n'est pas
totalement connue. Il est parfois possible de faire cela si l'on dispose d'une suite qui converge en loi vers X.
Théorème 5.4.1. [TCL] (Xn )n une suite de

Soit v.a. indépendantes et de même loi de moyenne µ et de
Pn
variance σ 2 < ∞. Posons Sn = i=1 Xi = nX , alors
Sn − E[Sn ] √ X − µ L
p = n −−−→ Z ∼ N (0, 1).
Var(Sn ) σ n→∞
En d'autres termes,
n√ X − µ o
∀x ∈ R, lim P n ≤ x = P{Z ≤ x}.
n→∞ σ
81
5.4 Le théorème central limite (TCL) A. Zoglat

Démonstration. D'après le Théorème 5.3.1, il sut de montrer que la suite de fonctions ϕ√ X−µ
converge
n σ n
simplement vers ϕZ (t).
Sans perdre de généralité, quitte remplacer Xi par Xi − µ, on peut supposer que les v.a. sont centrées,
i.e. µ = E[Xi ] = 0. Soit t ∈ R, on a
t t n
ϕ√ (t) = ϕSn ( √ ) = ϕX1 ( √ ) , par indépendance.
X−µ
n σ σ n σ n
Le développement de MacLaurin de ϕX1 à l'ordre 2 d'écrit
u2 00
ϕX1 (u) = 1 + u ϕX0 (0) + ϕ (0) + ◦(u2 ).
1 2! X1
Comme µ = 0, on a ϕX0 (0) = 0 et ϕX00 (0) = −σ 2 . D'où

1 1
t n t2 t2 n 2
ϕX1 ( √ ) = 1 − + ◦( 2 ) −−−→ e−t /2 = ϕZ (t).
σ n n σ n n→∞
Remarque. Sous les hypothèses du Théorème 5.4.1, le TCL conduit souvent à faire, pour n assez grand,
l'approximation suivante :
n√ X − µ √ x − µ o n √ x − µo
∀x ∈ R, P{X1 + . . . + Xn ≤ x} = P n ≤ n 'P Z≤ n .
σ σ σ
En pratique on considère souvent que n est assez grand dès que n ≥ 30.
Exemple 5.4.1. Soit X une v.a. qui suit une loi B inômiale(n, p). Nous savons que X peut s'écrire comme
somme de n v.a. indépendantes et de même loi de B ernoulli(P ), i.e. X = X1 + . . . + Xn . D'où, si n ≥ 30,

n X − np x − np o n x − np o
∀x ∈ R, P{X ≤ x} = P p ≤p 'P Z≤ p .
np(1 − p) np(1 − p) np(1 − p)
82

Polycop de Probabilités

Transféré par

Droits d'auteur :

Formats disponibles

Polycop de Probabilités

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Polycop de Probabilités

Transféré par

Droits d'auteur :

Formats disponibles

Statistique Descriptive et Probabilités

pour un cours de statistique inférentielle.

que peut comporter ce polycopié ou de me suggérer une idée pour le parfaire.

1.3 Représentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3.1 Représentation d'une variable catégorielle ou numérique discrète . . . . . . . . . . . . 4

1.3.2 Représentation d'une variable numérique continue . . . . . . . . . . . . . . . . . . . . 6

1.4 Mesures de position . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4.1 Mode d'un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4.2 Moyenne d'un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4.3 Médiane d'un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.5 Mesures de variabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.5.1 Étendue d'un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.5.2 Les quartiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.5.3 Variance et écart-type d'un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.5.4 Coecient de variation d'un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.6 Mesures de forme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.6.1 Distribution symétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.6.2 Coecient d'asymétrie d'un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.6.3 Diagramme de Boîte-à-Moustaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.2 Expériences et événements aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.3 Bases axiomatiques des probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.4 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.6 Événements indépendants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.1.1 Loi de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.1.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.1.3 Fonction densité de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.1.4 Loi d'une fonction d'une v.a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.1.5 Variables aléatoires à valeurs dans Rp . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.1.6 Indépendance de v.a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.2 Espérance mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.2.1 Propriétés de l'espérance mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.3.1 Propriétés de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4 Lois de Probabilité Classiques 25

4.1.1 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.1.2 Loi Binômiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.1.3 Loi Multinômiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.1.4 Loi Géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.1.5 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.1.6 Approximation d'une loi binômiale par une loi de Poisson . . . . . . . . . . . . . . . . 31

4.2 Lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.2.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.2.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.2.3 Loi Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4.2.4 Loi Normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4.3 Autres Lois Importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.3.1 Transformation de vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.3.2 Lois fonctions de lois normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.4 Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.4.1 Cas de lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.4.3 Espérance Conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

5.2 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5.3 Fonction génératrice et fonction caractéristique . . . . . . . . . . . . . . . . . . . . . . . . . . 57

5.4 Le théorème central limite (TCL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

concernant toute la population.

1.1 Généralités et principales dénitions

données ont été recueillies.

constitue la population. Chaque observation est associée à un individu.

observations ont été recueillies.

On distingue deux types de variables (déterminés par le type de valeurs prises) :

1.5.4 Coecient de variation d'un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.6.2 Coecient d'asymétrie d'un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.1 Généralités et principales dénitions

taire, mariée, divorcée. . . etc.

ensemble de R qui peut être ni ou inni mais dénombrable.

dans un sous-ensemble de N ni (pourquoi ?).

nombre ni de valeurs de ces variables.

- Eectif ni , associée à la valeur xi de la variable, le nombre d'apparitions de cette variable dans

où ni est l'eectif et n le nombre total de données.

Modalité Eectif ni Fréquence fi

3. la vérication des postulats d'un modèle,

quelconque). La gure 1.2 présente un exemple de diagramme en tuyaux d'orgue.

Figure 1.1 Diagramme en Secteur

modalités. La gure 1.3 présente un exemple de diagramme en bâtons.

Figure 1.2 Diagramme en Tuyaux d'Orgue

Figure 1.3 Diagramme en bâtons

appelle l'eectif de cette classe.

Classe Eectif ni Fréquence fi Fréquence cumulée F

Figure 1.4 Histogramme

Figure 1.5 Polygone des Fréquences

1. la tige qui comprend le premier ou les deux premiers chires,

2. la feuille qui comprend les autres chires.