Polycop de Probabilités

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 88

Statistique Descriptive et Probabilités

S4 : SMA

FSR

Printemps 2013

Pr. A. ZOGLAT
La première partie de ce cours traite les notions de base de la statistique descriptive. Le deuxième partie

est une introduction au calcul de probabilité où sont présentées quelques notions fondamentales prérequises

pour un cours de statistique inférentielle.

Ce polycopié reète en partie mon enseignement des probabilités au cours de ces dernières années. Il est

certainement loin d'être parfait et ne cesse d'être amélioré. Mes remerciements vont à tous mes étudiants qui

m'ont aidé à l'améliorer. Je serai reconnaissant à tout lecteur qui aura l'amabilité de me signaler des erreurs

que peut comporter ce polycopié ou de me suggérer une idée pour le parfaire.

A. Zoglat.

i
Table des matières
1 Statistiques descriptives 1
1.1 Généralités et principales dénitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 Représentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3.1 Représentation d'une variable catégorielle ou numérique discrète . . . . . . . . . . . . 4

1.3.2 Représentation d'une variable numérique continue . . . . . . . . . . . . . . . . . . . . 6

1.4 Mesures de position . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4.1 Mode d'un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4.2 Moyenne d'un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4.3 Médiane d'un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.5 Mesures de variabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.5.1 Étendue d'un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.5.2 Les quartiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.5.3 Variance et écart-type d'un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.5.4 Coecient de variation d'un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.6 Mesures de forme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.6.1 Distribution symétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.6.2 Coecient d'asymétrie d'un échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.6.3 Diagramme de Boîte-à-Moustaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.7 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2 Éléments de Probabilités 1
2.1 Méthodes de dénombrement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

2.2 Expériences et événements aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.3 Bases axiomatiques des probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.4 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

ii
2.5 Formule de BAYES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.6 Événements indépendants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3 Variables Aléatoires 14
3.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.1.1 Loi de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.1.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.1.3 Fonction densité de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.1.4 Loi d'une fonction d'une v.a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.1.5 Variables aléatoires à valeurs dans Rp . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.1.6 Indépendance de v.a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.2 Espérance mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.2.1 Propriétés de l'espérance mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.3 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.3.1 Propriétés de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4 Lois de Probabilité Classiques 25


4.1 Lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.1.1 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.1.2 Loi Binômiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.1.3 Loi Multinômiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.1.4 Loi Géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.1.5 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.1.6 Approximation d'une loi binômiale par une loi de Poisson . . . . . . . . . . . . . . . . 31

4.2 Lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.2.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.2.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.2.3 Loi Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4.2.4 Loi Normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4.3 Autres Lois Importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.3.1 Transformation de vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.3.2 Lois fonctions de lois normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.4 Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.4.1 Cas de lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45


4.4.2 Cas de lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.4.3 Espérance Conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

5 Théorèmes limites 49
5.1 Modes de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

5.2 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5.3 Fonction génératrice et fonction caractéristique . . . . . . . . . . . . . . . . . . . . . . . . . . 57

5.4 Le théorème central limite (TCL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

0
Partie I : Statistique Descriptive
Chapitre 1

Statistiques descriptives
La statistique peut être dénie par l'ensemble des méthodes pour recueillir, présenter, résumer et analyser

des données. Il existe deux catégories de statistique : La statistique descriptive et la statistique inférentielle.

La statistique descriptive est un ensemble de méthodes pour décrire les données et dégager l'essentiel de

l'information qu'elles contiennent. Cette information peut être résumée par des représentations graphiques,

des tableaux ou des caractéristiques obtenues par un calcul algébrique. Tandis que la statistique inférentielle

a pour but d'analyser les données recueillies auprès d'une partie de la population an de tirer des conclusions

concernant toute la population.

1.1 Généralités et principales dénitions


Wow

Avant de présenter des outils de la statistique descriptive, nous allons préciser quelques dénitions utiles.

Population : La population est l'ensemble de référence sur lequel porte l'étude dans le cadre de laquelle les

données ont été recueillies.

Individu ou unité statistique : Un individu est un élément de la population. L'ensemble des individus

constitue la population. Chaque observation est associée à un individu.

Échantillon : L'échantillon est un sous-groupe de la population, composé des individus pour lesquelles des

observations ont été recueillies.

Variable : Un individu peut être décrit selon une ou plusieurs caractéristiques qu'on appelle variable.

On distingue deux types de variables (déterminés par le type de valeurs prises) :

Variables catégorielles : Une variable catégorielle, aussi appelée variable qualitative, prend comme

valeurs des caractères ou modalités que l'on ne peut pas mesurer numériquement.

Exemple 1.1.1.
1
1.1 Généralités et principales dénitions A. Zoglat

1. L'état civil d'une personne est une variable catégorielle qui peut prendre comme valeurs céliba-

taire, mariée, divorcée. . . etc.

2. Le niveau de satisfaction d'un service peut être représenté par un chire de 1 à 3 où 1 signie

pas satisfait, 2 signie moyennement satisfait et 3 signie très satisfait.

On peut même dénir deux types de variables catégorielles : nominales et ordinales. Les variables
catégorielles nominales, tel l'état civil d'une personne, prennent des valeurs qui ne suivent pas un ordre

naturel. À l'opposé, les variables catégorielles dont les modalités peuvent être classées dans un ordre

naturel, tel un niveau de satisfaction, sont dites ordinales.

Variables numériques : Les variables numériques, tel que leur nom l'indique, peuvent être mesurées nu-

mériquement. Elles portent aussi le nom de variables quantitatives. Attention, une variable décrite
par un nombre n'est pas obligatoirement numérique. C'est le cas par exemple du niveau de satisfac-

tion représenté par un nombre de 1 à 3 décrit précédemment. On distingues deux types de variables

numériques :

Variables discrètes : Une variable discrète est une variable qui prend ces valeurs dans un sous-

ensemble de R qui peut être ni ou inni mais dénombrable.

Exemple 1.1.2.
1. Le nombre d'étudiants possédants un ordinateur portable est une variable discrète à valeurs

dans un sous-ensemble de N ni (pourquoi ?).

2. Les nombre de lancers, dans une parties de Pile ou Face, nécessaires pour obtenir Face

est une variable discrète à valeurs dans N.

Variables continues : Une variable est dite continue si elle prend ses valeurs dans un sous-ensemble

de R qui est un intervalle ou une réunion d'intervalles.

Exemple 1.1.3. Les variables telles le temps, le poids ou la taille sont le plus souvent consi-

dérées comme des variables continues, un point de vue qui facilite généralement leur étude. Bien

sûr, en raison de la précision limitée des instruments de mesures, on n'observe en pratique qu'un

nombre ni de valeurs de ces variables.

2
A. Zoglat 1.2 Fréquences

An de décrire une variable prise séparément, on utilise des outils de la statistique descriptive univariée.

Les statistiques univariées calculables sur une variable dépendent du type de celle-ci.

1.2 Fréquences
Dans le cas des variables catégorielles ou discrètes, on appelle :

- Eectif ni , associée à la valeur xi de la variable, le nombre d'apparitions de cette variable dans

l'échantillon.

- Fréquence, associée à la valeur xi de la variable, le nombre


ni
fi = ,
n

où ni est l'eectif et n le nombre total de données.

- Eectif cumulé, associée à une valeur xi de la variable, le nombre d'individus dont la mesure est

inférieure ou égale à xi .
X
Ni = nj .
j:xj ≤xi

- Fréquence cumulée, associée à une valeur xi de la variable, la somme des fréquences relatives asso-
ciées aux valeurs inférieures ou égales à xi :

X
Fi = fj .
j:xj ≤xi

Remarque. On peut calculer l'eectif et la fréquence pour tous les types de variables, alors que l'eectif cumulé

et la fréquence cumulée ne sont calculés que pour les variables numériques.

Exemple 1.2.1.
- Un fabricant d'ordinateurs portables teste 100 machines choisies dans la production du jour et compte

le nombre de défauts sur chaque machine. Le variable d'intérêt ici est le nombre de défauts par machine.

Le fabricant a trouvé les résultats suivants :

xi 0 1 2 3 4 5

ni 53 25 11 6 3 2

Ni 53 78 89 95 98 100

fi 0.53 0.25 0.11 0.06 0.03 0.02

Fi 0.53 0.78 0.89 0.95 0.98 1

 Une étude a été menée pour explorer les diérents moyens de transport des étudiants pour se rendre à

l'université. Le tableau suivant résume les résultats de cette étude :

3
1.3 Représentations graphiques A. Zoglat

Modalité Eectif ni Fréquence fi


Auto 51 0.23

Autobus 64 0.29

Marche 92 0.40

Moto 6 0.03

Vélo 11 0.05

Totaux n = 224 1

Soit x1 , . . . , x n un échantillon de n valeurs d'une variable numérique (discrète ou continue) X. On peut

distinguer trois caractéristiques d'un tel échantillon : la position, la variabilité (ou dispersion) et la forme.

Nous examinons ces caractéristiques plus loin.

1.3 Représentations graphiques


les graphiques ont l'avantage de faire ressortir simultanément plusieurs caractéristiques d'un échantillon,

et cela de manière simple et directe. Le choix d'un graphique dépend du type des variables étudiées ainsi que

du genre d'analyse que l'on souhaite faire. Une représentation graphique peut avoir 4 utilités principales en

statistique :

1. L'exploration du contenu d'un jeu de données,

2. la recherche de structures dans des données,

3. la vérication des postulats d'un modèle,

4. la communication des résultats d'une analyse statistique.

Pour faire de bons graphiques, il faut d'abord savoir identier l'information importante à présenter et choisir

le bon type de graphique pour mettre en lumière cette information. Nous allons présenter diérents types de

graphiques, qui dépendent notamment du type des variables à représenter.

1.3.1 Représentation d'une variable catégorielle ou numérique discrète


Les deux types de graphiques les plus utilisées pour les variables catégorielles ou numériques discrètes
comprenant un petit nombre de valeurs possibles sont le diagramme en secteurs (ou diagramme en
Camembert ou circulaire) et le diagramme en bâtons (ou diagramme en tuyaux d'orgue).

Diagramme en secteurs
Dans un diagramme en secteurs, chaque modalité est représentée par un secteur circulaire dont l'angle

est proportionnel à l'eectif de cette modalité. La gure 1.1 présente un exemple de diagramme en secteurs.

4
A. Zoglat 1.3 Représentations graphiques

Diagramme en tuyaux d'orgue


Pour le diagramme en tuyaux d'orgue, chaque modalité est représentée par un rectangle dont la hauteur

est proportionnelle à l'eectif de cette modalité et dont la largeur est la même pour toutes les modalités. Ce

diagramme est réservé aux variables catégorielles (les modalités sont sur l'axe des abscisses dans un ordre

quelconque). La gure 1.2 présente un exemple de diagramme en tuyaux d'orgue.

Exemple 1.3.1. Reprenons l'exemple sur les moyens de transport des étudiants :

Modalité Auto Autobus Marche Moto Vélo Total

Eectif ni 51 64 92 6 11 n= 224

Fréquence fi 0.23 0.29 0.40 0.03 0.05 1

Figure 1.1  Diagramme en Secteur

Diagramme en bâtons
Pour le diagramme en bâtons, chaque modalité (valeur numérique) est représentée par un rectangle dont

la hauteur est proportionnelle à l'eectif de cette modalité et dont la largeur est la même pour toutes les

modalités. La gure 1.3 présente un exemple de diagramme en bâtons.

5
1.3 Représentations graphiques A. Zoglat

Figure 1.2  Diagramme en Tuyaux d'Orgue

Exemple 1.3.2. On a relevé le nombre d'enfants de 100 familles choisies au hasard. Le tableau suivant

donne les principales caractéristiques de cette étude.

xi 0 1 2 3 4 5 6 7 Total

ni 20 25 30 10 5 5 3 2 100

fi 0,20 0,25 0,30 0,10 0,05 0,05 0,03 0,02 1

Fi 0,20 0,45 0,75 0,85 0,90 0,95 0,98 1

1.3.2 Représentation d'une variable numérique continue


Pour la représentation d'une variable continue ou d'une variable discrète ayant un grand nombre de

valeurs possibles, nous présentons cinq types de graphiques : l'histogramme, le polygone des fréquences, le

polygone des fréquences cumulées, le diagramme tige-et-feuilles et le diagramme en boîte à moustaches.

6
A. Zoglat 1.3 Représentations graphiques

Figure 1.3  Diagramme en bâtons

Histogramme
Pour la représentation d'une variable numérique X, on convient de diviser l'ensemble des valeurs de cette

variable en k intervalles disjoints contigus ([ai , ai+1 [, i = 1, . . . , k ) recouvrant la totalité de cet ensemble.

Ces intervalles sont aussi appelés classes. Toutes les valeurs appartenant à une même classe sont alors

regroupées, faisant ainsi de chaque classe une modalité. On prendra toujours des classes de même amplitude
a = ai+1 − ai =constante. Pour tout i, on note ni le nombre de valeurs de X dans la classe [ai , ai+1 [ que l'on

appelle l'eectif de cette classe.

Le nombre de classes ne doit être ni trop petit (perte d'informations) ni trop grand (le regroupement en

classes est alors inutile et de plus, certaines classes pourraient avoir des eectifs trop faibles). En général,

le nombre de classes est compris entre 5 et 15 ; il dépend du nombre n d'observations et de l'étalement des

données. La formule de Sturges donne une valeur approximative du nombre k de classes :

k ' 1 + 3, 222 × log10 n.

Voici quelques exemples :

Taille de l'échantillon 13 ≤ n ≤ 24 25 ≤ n ≤ 50 51 ≤ n ≤ 104 105 ≤ n ≤ 212


Nombre de classes 5 6 7 8

Pour dresser le tableau des distributions des eectifs (ou de fréquences) on pourra suivre les étapes

suivantes :

Etape 1 : Déterminer k le nombre de classes à considérer dans l'étude.

7
1.3 Représentations graphiques A. Zoglat

Etape 2 : Calculer l'étendue : e = x(n) − x(1) , où x(1) est la valeur minimale de l'échantillon et x(n) est

sa valeur maximale.

Etape 3 : Diviser l'étendue par k, pour avoir une idée sur la valeur de l'amplitude des classes que l'on

notera a. On alors a ' e/k .


Etape 4 : On construit alors les classes [a1 , a1 + a[, [a1 + a, a1 + 2a[, . . . , [a1 + (k − 1)a, a1 + ka[, où

a1 ≤ x(1) et a1 + ka ≥ x(n) .
Etape 5 : S'assurer que chaque observation appartient à une classe et une seule.

Exemple 1.3.3. Les données suivantes sont les poids (en kg) de 32 étudiants :

64; 59; 64; 62; 75; 60; 68; 63; 54; 70; 66; 54; 53; 65; 59; 60;
64; 72; 76; 55; 80; 67; 62; 68; 71; 72; 69; 70; 51; 68; 60; 61.

En appliquant la formule de Sturges, on a 1 + 3.222 × log10 (32) = 5.846, nous prendrons k = 6 classes.
Nous avons x(1) = 51 et x(n) = 80. D'où e = 80 − 51 = 29 et a = 29/6 = 4.68 ' 5.
On a alors le tableau de distribution des fréquences suivant :

Classe Eectif ni Fréquence fi Fréquence cumulée F

[50, 55[ 4 4/32 4/32

[55, 60[ 3 3/32 7/32

[60, 65[ 10 10/32 17/32

[65, 70[ 7 7/32 24/32

[70, 75[ 5 5/32 29/32

[75, 80] 3 3/32 1

Remarquons que la dernière colonne contient les fréquences cumulées associées aux bornes supérieures

des classes.

La Figure 1.4 représente l'histogramme associé au tableau de distribution des fréquences ci-dessus.

Polygone de fréquences
Il permet de représenter sous forme de courbe, la distribution des fréquences. Il est obtenu en joignant,

par des segments de droite, les milieux des côtés supérieurs de chaque rectangle de l'histogramme. Pour

fermer ce polygone, on ajoute à chaque extrémité une classe de fréquence nulle.

Exemple 1.3.4. Reprenons l'Exemple 1.3.3, le polygone de fréquences pour les données de cet exemple est

présenté dans la Figure 1.5 ci-dessous.

8
A. Zoglat 1.3 Représentations graphiques

Figure 1.4  Histogramme

Polygone de fréquences cumulées


On l'appelle aussi Courbe cumulative croissante : on joint les points ayant pour abscisses la limite

supérieure des classes et pour ordonnées les fréquences cumulées.

Exemple 1.3.5. Reprenons l'Exemple 1.3.3, le polygone de fréquences cumulées pour les données de cet

exemple est présenté dans la Figure 1.6.

Le polygone des fréquences cumulées permet d'estimer le pourcentage d'observations inférieures ou égales

à un nombre donné. Nous illustrons cela dans l'exemple suivant

Exemple 1.3.6. Reprenons l'Exemple 1.3.3. Calculons, par exemple, le pourcentage d'observations infé-

rieures ou égales à 73. Notons F (73) la fréquence cumulée correspondant à 73 (F(73) est la fréquence des

observations se trouvant dans l'intervalle [50, 73]). Comme 73 est situé dans la classe [70, 75[ et comme F est

une fonction croissante, on a :

70 ≤ 73 ≤ 75

F(70) ≤ F(73) ≤ F(75)

F (73) − F (70) F (75) − F (70)


Par interpolation linéaire, on a = d'où
73 − 70 75 − 70

F (75) − F (70) 0.91 − 0.75


F (73) = F (70) + (73 − 70) = 0.75 + 3 × = 0.846,
75 − 70 5

d'où l'on peut conclure qu'à peu près 85% des étudiants pèsent 73 kg ou moins.

9
1.3 Représentations graphiques A. Zoglat

Figure 1.5  Polygone des Fréquences

Diagramme Tige-et-Feuilles

Cette représentation est une sorte d'histogramme horizontal. On décompose une donnée numérique en

deux parties :

1. la tige qui comprend le premier ou les deux premiers chires,

2. la feuille qui comprend les autres chires.

On écrit les tiges les unes sous les autres et en regard de chaque tige, les feuilles correspondantes. Les tiges

et feuilles sont séparées par un trait vertical.

Lorsque les données sont des nombres à deux chires, le choix est clair : On prend les dizaines comme

tiges et les unités comme feuilles. Quand les données sont des nombres à trois chires ou plus, il est possible

de prendre les chires des unités comme feuilles et les deux autres comme tiges. Une autre possibilité serait

d'arrondir les données de sorte que le chire des unités soit toujours 0. On peut ensuite l'ignorer et procéder

comme si les données étaient à deux chires. Ces techniques sont illustrées par l'exemple suivant :

Exemple 1.3.7. Les données ci-dessous sont les tailles (en mm) de 34 spectateurs choisis au hasard à la

781 956 1016 1056 1149 1248 1519

917 984 1021 1081 1162 1338 1530

sortie d'un stade après un match de football. 945 994 1030 1086 1171 1390 1668

953 996 1049 1105 1199 1419 1714

954 996 1049 1131 1244 1490

10
A. Zoglat 1.3 Représentations graphiques

Figure 1.6  Polygone des fréquences cumulées

780 960 1020 1060 1150 1250 1520

920 980 1020 1080 1160 1340 1530

Après avoir arrondi ces données on obtient : 950 990 1030 1090 1170 1390 1670

950 1000 1050 1110 1200 1420 1710

950 1000 1050 1130 1240 1490

En rajoutant un 0 à gauche si cela est nécessaire, on peut considérer que ces données arrondies sont à

quatre chires avec 0 comme chire des unités. On peut ensuite laisser tomber le chire des unités, et dénir

le chire des dizaines comme feuilles et les deux chires des centaines et milliers comme tiges. On obtient

alors :

07 8

08

09 2 5 5 5 6 8 9

10 0 0 2 2 3 5 5 6 8 9

11 1 3 5 6 7

12 0 4 5

13 4 9

14 2 9

15 2 3

16 7

17 1

11
1.4 Mesures de position A. Zoglat

1.4 Mesures de position


On les appelle aussi mesures de tendance centrale parce qu'elles dénissent une certaine notion de

centre de l'échantillon.

1.4.1 Mode d'un échantillon


On appelle mode d'un échantillon toute observation apparaissant avec la fréquence la plus grande. C'est

donc dire que la ou les catégories associées à la plus grande fréquence sont les modes de la variable. Ainsi, le

mode peut ne pas être unique.

Exemple 1.4.1.
- Considérons l'échantillon suivant :

x1 = 1.5, x2 = 1.8, x3 = 1.5, x4 = 1.2, x5 = 1.8, x6 = 1.5, x7 = 1.5

xi 1.5 1.8 1.2


Le tableau des fréquences associé est donné par : D'où le mode= 1.5.
ni 4 2 1

- Considérons l'échantillon suivant :

x1 = 1.5, x2 = 1.8, x3 = 1.5, x4 = 1.2, x5 = 1.8, x6 = 1.5, x7 = 1.8

xi 1.5 1.8 1.2


Le tableau des fréquences associé est donné par : Il existe deux modes 1.5 et 1.8.
ni 3 3 1

- Considérons l'échantillon suivant :

x1 = 1.5, x2 = 1.8, x3 = 1.4, x4 = 1.3, x5 = 1.7, x6 = 2, x7 = 2.5

Toutes les valeurs sont de même fréquence =1, il n'y a pas de mode.

1.4.2 Moyenne d'un échantillon


C'est la moyenne arithmétique bien connue que l'on note x :

n
1 X
x= xi .
n
i=1

S'il y a à peu près autant de petites valeurs que de grandes valeurs dans l'échantillon, la moyenne de

l'échantillon permet d'obtenir une notion satisfaisante du centre de l'échantillon. Cette mesure a cependant

l'inconvénient d'être très sensible aux valeurs extrêmes. En fait, un seul xi extrême sut pour rendre la

moyenne x très grande (petite). On exprime ce phénomène en disant que la moyenne est une mesure de

position très sensibles aux observations extrêmes.

12
A. Zoglat 1.4 Mesures de position

Exemple 1.4.2. L'échantillon suivant représente les salaires de 7 joueurs de football en milliers d'Euros :

x1 = 900, x2 = 750, x3 = 1200, x4 = 1020, x5 = 1350, x6 = 1050, x7 = 10530.

L'observationx7 est beaucoup plus large que toutes les autres. C'est une valeur extrême. Le salaire moyen
7
1 X 16800
est x= xi = = 2400. L'observation extrême x7 est si inuente que la moyenne est supérieure
7 7
i=1
à toutes les autres observations au lieu d'être au milieu d'elles.

1.4.3 Médiane d'un échantillon


C'est une valeur telle que la moitié des observations lui sont inférieures ou égales et l'autre moitié des

observations lui sont supérieures ou égales.

On ordonne les éléments x1 , . . . , x n de l'échantillon dans l'ordre croissant et on note x(i) l'observation se

trouvant à la ième position : x(1) ≤ x(2) ≤ . . . ≤ x(n) .


La médiane de l'échantillon est donnée par :


x(k+1)

si n = 2k + 1
x̃ =
 x(k) + x(k+1)

si n = 2k.
2
Contrairement à la moyenne de l'échantillon, x̃ est insensible aux valeurs extrêmes. On la qualie en ce sens

de mesure de position robuste. En fait, on peut constater que x̃ reste inchangée lorsqu'on modie quelques

valeurs se trouvant aux extrémités de l'échantillon.

Exemple 1.4.3. Reprenons l'exemple des salaires des joueurs de football en milliers d'Euros :

x1 = 900, x2 = 750, x3 = 1200, x4 = 1020, x5 = 1350, x6 = 1050, x7 = 10530.

Après avoir ordonné ces données, on obtient :

x(1) = 750, x(2) = 900, x(3) = 1020, x(4) = 1050, x(5) = 1200, x(6) = 1350, x(7) = 10530.

La médiane est x̃ = x(4) = 1050.

Les mesures de position présentées ont en commun deux propriétés :

- Si l'on additionne une même constante à chacune des données, chacune des mesures est augmentée de

la même constante.

- Si l'on multiplie chacune des données par la même constante, chacune des mesures est multipliée par

la même constante.

13
1.5 Mesures de variabilité A. Zoglat

1.5 Mesures de variabilité


Elles mesurent la dispersion des valeurs d'un échantillon x1 , . . . , x n . On en distingue quatre.

1.5.1 Étendue d'un échantillon


L'étendue, notée e, est dénie par e = x(n) − x(1) . L'étendue est la mesure de variabilité la moins utilisée.
Elle a l'inconvénient d'être très sensible aux données extrêmes.

Exemple 1.5.1.
- Reprenons l'exemple des salaires des joueurs de football en milliers d'Euros :

x1 = 900, x2 = 750, x3 = 1200, x4 = 1020, x5 = 1350, x6 = 1050, x7 = 10530.

L'étendue de cet échantillon est donnée par e = 10530 − 750 = 9780.


- Reprenons le même exemple mais en rectiant le dernier salaire :

x1 = 900, x2 = 750, x3 = 1200, x4 = 1020, x5 = 1350, x6 = 1050, x7 = 1530.

L'étendue de cet échantillon est donnée par e = 1530 − 750 = 780.

1.5.2 Les quartiles


On les note Q1 , Q2 et Q3 et ils sont tels que :

 Q1 ≤ Q2 ≤ Q3 ,
 25% des observations sont inférieures ou égales à Q1 , 25% des observations sont entre Q1 et Q2 , 25%

des observations sont entre Q2 et Q3 et les 25% restantes sont supérieures ou égales à Q3 .

On calcule des valeurs approximatives des quartiles en procédant comme suit :

1- On ordonne les observations x1 , . . . , xn de la plus petite à la plus grande :

x(1) ≤ x(2) ≤ . . . ≤ x(k) ≤ . . . ≤ x(n) .

n+1
2- Pour i = 1, 2 ou 3, on calcule αi = i .
4
3- Pour i = 1, 2 ou 3, on note pi la partie entière de αi (l'entier vériant pi ≤ αi < pi + 1).
Si αi − pi < 0.5, alors Qi = x(pi ) i.e ; Qi est la pi ème observation.

Si αi − pi > 0.5, Qi = x(pi +1) i.e ; Qi est la (pi + 1)ème observation.


alors
x(pi ) + x(pi +1)
Si αi − pi = 0.5, alors Qi = ème
i.e ; Qi est la moyenne de la pi et la (pi + 1)ème
2
observation.

14
A. Zoglat 1.5 Mesures de variabilité

Exemple 1.5.2. Calculons les quartiles pour l'échantillon suivant :

12, 14, 4, 10, 5, 7, 8, 11, 4, 13.

En ordonnant ces 10 observations suivant l'ordre croissant, on obtient : 4, 4, 5, 7, 8, 10, 11, 12, 13, 14. D'où,

10 + 1
α1 = 1 × = 2.75, d'où Q1 = x(3) = 5,
4
10 + 1 x(5) + x(6) 8 + 10
α2 = 2 × = 5.5, d'où Q1 = = = 9,
4 2 2
10 + 1
α3 = 3 × = 8.25, d'où Q3 = x(8) = 12.
4
L'intervalle [Q1 , Q3 ] contient 50% des observations, le reste des observations se réparti avec 25% à gauche de
Q1 et 25% à droite de Q3 . On l'appelle l'intervalle interquartile et on note IRQ=Q3 − Q1 sa largeur.

1.5.3 Variance et écart-type d'un échantillon


Ce sont les deux mesures les plus couramment utilisées. La variance d'un échantillon, notée S 2 , représente
en gros la moyenne des carrés des diérences entre chaque xi et la moyenne x. Nous la dénissons de manière
précise par
n
1 X
S2 = (xi − x)2 .
n−1
i=1
Par dénition, la variance d'échantillon est donc toujours positive ou nulle, et il est facile de voir qu'elle

s'annule seulement dans le cas extrême où toutes les observations sont égales. Dans ce cas il n'y a pas de

variabilité.

On mesure aussi très souvent la dispersion à l'aide de S (la racine carrée de S 2 ), que l'on appelle écart-
type de l'échantillon. Remarquons que si les xi s'expriment en kg, S2 2
s'exprimera en kg . Comme racine

carrée de la variance, l'écart-type S s'exprimera dans la même unité que les xi . Si une seule observation xi est

extrême, les diérences xj − x deviennent très grandes et donc S 2 et S également. La variance et l'écart-type

d'échantillon sont donc sensibles aux données extrêmes. En ce sens, ce sont des mesures de variabilité peu

robustes.

Exemple 1.5.3.
Données x S2 S
{1, 0, 2, 0, 3, 0, 4, 0, 5, 0} 1.50 3.61 1.90

{1, 0, 2, 0, 3, 0, 4, 0, 10, 0} 2.0 10.00 3.16

{1, 0, 2, 0, 3, 0, 4, 0, 100, 0} 11 980 31.30

15
1.5 Mesures de variabilité A. Zoglat

La formule suivante est utile pour le calcul de la variance d'un échantillon :

n
1 hX 2 i
S2 = xi − n x2 .
n−1
i=1

L'exemple suivant montre que la variance ne dépend pas de la position des observations. Il montre également

que si on multiplie les données par une constante c, l'écart-type et la variance sont multipliées respectivement
par |c| et c2 .

Exemple 1.5.4.
Données x S2 S
{25, 8, 14, 33, 16} 19.2 96.7 9.8

{11, −6, 0, 19, 2} 5.2 96.7 9.8

{5.8, −11.2, −5.2, 13.8, −3.2} 0 96.7 9.8

{75, 24, 42, 99, 48} 57.6 870.3 29.5

{−75, −24, −42, −99, −48} -57.6 870.3 29.5

Calcul de la variance pour le premier échantillon du tableau ci-dessus :

i xi (xi − x) (xi − x)2 x2i


1 25 5.8 33.64 625

2 8 -11.2 125.44 64

3 14 -5.2 27.04 196

4 33 13.8 190.44 1089

5 16 -3.8 10.24 256

Total 96 0 386.80 2230

n
ère formule de la variance donne : 1 X 1
La 1 S2 = (xi − x)2 = × 386.80 = 96.7.
n−1 5−1
i=1
n
ème formule de la variance donne : 2 1 hX 2 i 1
xi − n x2 = × 2230 − 5 × 19.22 = 96.7.
 
La 2 S =
n−1 5−1
i=1

1.5.4 Coecient de variation d'un échantillon


Les mesures de variabilité ci-dessus, exceptes les quartiles, sont indépendantes de la position. Dans certains

cas, il peut cependant être intéressant de relativiser la mesure de variabilité par rapport à la moyenne. Ainsi

une variation de poids de quelques kg dans un échantillon de baleines n'a pas la même signication que la

même variation observée dans un échantillon de bovins. Le coecient de variation est un exemple de mesure

de variabilité relative.

16
A. Zoglat 1.6 Mesures de forme

Pour un échantillon x1 , . . . , x n de valeurs d'une variable numérique positive, on dénit le coecient de

variation par :
S
C.V. = .
x
On exprime parfois le coecient de variation en pourcentage. Ainsi, un C.V. de 0.35 signie que l'écart-type

est égal à 35% de la moyenne.

Le coecient de variation n'a pas d'unité. Il est utilisé pour comparer la variabilité de deux jeux de données

exprimées dans des unités diérentes.

Exemple 1.5.5. Le tableau suivant contient les données concernant le poids (en kg) et la taille (en cm) de

10 garçons âgés de 8 ans.

Variable x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x s C.V

Poids 27 25 28 26 30 25 26 27 24 28 26.6 1.78 0.07

Taille 110 125 130 115 105 132 117 120 95 90 113.9 14.07 0.12

On peut conclure qu'il y a plus de variabilité dans la variable taille que dans la variable poids.

1.6 Mesures de forme


1.6.1 Distribution symétrique
On dit qu'une distribution est symétrique si son histogramme (et donc son polygone des fréquences)
est approximativement symétrique par rapport à la droite passant par la médiane.

Remarque : Une distribution est symétrique si le polygone des fréquences a la forme d'une cloche :

Une distribution qui n'est pas symétrique est dite asymétrique à gauche (respectivement asymétrique
à droite) si la moitié gauche (respectivement à droite) de son histogramme est plus allongée que sa moitié
droite (respectivement gauche).

Les notions de symétrie et d'asymétrie sont illustrées dans la gure ci-dessous

17
1.6 Mesures de forme A. Zoglat

1.6.2 Coecient d'asymétrie d'un échantillon


Le coecient d'asymétrie est une mesure du degré de symétrie présent dans un échantillon. Il est déni

par
n
µ3 1X
γ1 = , où µ3 = (xi − x)3 .
S3 n
i=1
Ce nombre peut être positif ou négatif, le signe étant déterminé par les grandes déviations de la forme (xi −x).
- Si γ1 > 0, la distribution est étalée vers la droite. On dit que la distribution est asymétrique (avec
une queue) à droite.
- Si γ1 < 0, la distribution est étalée vers la gauche. On dit que la distribution est asymétrique (avec
une queue) à gauche.
- Si la distribution est symétrique, γ1 = 0.

Exemple 1.6.1. Soient les observations 1, 1, 1, 1, 2, 6. Alors x = 2, S 2 = 4 et les (xi − x)3 valent respective-
10
ment -1,-1,-1,-1, 0, 64, et donc γ1 = > 0. D'où une distribution asymétrie avec une queue à droite.
8

1.6.3 Diagramme de Boîte-à-Moustaches


Ce graphique permet de représenter simultanément la médiane, les quartiles et les observations extérieures

à l'intervalle interquartile [Q1 , Q3 ]. Ce type de représentation est particulièrement utile pour décrire les

propriétés fondamentales d'un échantillon telles que la position, la variabilité, l'asymétrie, mais aussi pour

faire ressortir les observations extrêmes.

Le centre de ce graphique est une boîte, délimitée par les quartiles Q1 et Q2 , coupée en deux par un

segment placé à la hauteur de Q2 . De chaque coté de la boîte, on trace ensuite une moustache (un segment

de droite) de longueur 1.5(Q3 − Q1 ). Toutes les observations à l'extérieur des moustaches sont considérées

comme des données extrêmes.

Exemple 1.6.2. Reprenons les données concernant les poids (en kg) de 32 étudiants (avec un modication

de la plus grande valeur)

18
A. Zoglat 1.7 Applications

64; 59; 64; 62; 75; 60; 68; 63; 54; 70; 66; 54; 53; 65; 59; 60;
64; 72; 76; 55; 85; 67; 62; 68; 71; 72; 69; 70; 51; 68; 60; 61.

Les quartiles sont Q1 = 60, Q2 = 64 et Q3 = 69.75. Sur le diagramme de la boîte à moustaches suivant,

on constate que la plus grande observation est une valeur extrême. En eet 69.75 + 1.5 × (69.75 − 60) =
84.375 < 85.

Figure 1.7  Boite à Moustaches

1.7 Applications
Nous avons vu qu'il existe plusieurs mesures de positions et de dispersion. La moyenne est sans doute la

mesure de position la plus répandue alors que la variance et l'écart-type sont les mesures de dispersion les

plus utilisées. Nous allons voir comment estimer le pourcentage de données se trouvant autour de la moyenne.

Le théorème de Tchebychev : Il permet d'évaluer le pourcentage des données qui se trouvent à k écart-
types de la moyenne, pour un réel k donné.

Théorème : Pour tout réel k > 1, au moins (1 − 1/k 2 )100% des observations d'une série de données, se

trouvent à k écart-types de la moyenne de cette série.

Exemple 1.7.1. Les notes de 100 étudiants d'un contrôle de statistique ont une moyenne x = 14 avec un

écart-type S = 1. Combien d'étudiants ont eu une note entre 12 et 16 ?

Remarquons que 12 = x − 2S et que 16 = x + 2S . Ainsi, d'après le théorème de Tchebychev, le pourcentage

d'étudiants ayant obtenus une note entre 12 et 16 est supérieur ou égal à (1 − 1/22 )% = 75%.

Le pourcentage garanti par le théorème de Tchebychev est mieux évalué sous la condition de symétrie.

Règle Empirique : Si la distribution des observation est symétrique, alors :


Approximativement 68% des valeurs sont à un écart-type de la moyenne.

Approximativement 95% des valeurs sont à deux écart-types de la moyenne.

Approximativement toutes les valeurs sont à trois écart-types de la moyenne.

19
Partie II : Probabilités
Chapitre 2

Éléments de Probabilités
Les origines de la théorie des probabilités remontent au 17
ème siècle lorsque les deux célèbres mathé-

maticiens français Blaise Pascal et Pierre De Fermat tentaient de résoudre certains problèmes liés aux jeux

du hasard. Des problèmes analogues à ceux qui ont été résolus par Pascal et De Fermat ont incité d'autres

mathématiciens tels que Huygens, Bernoulli, De Moivre et d'autres à établir les bases d'une théorie ma-

thématique des probabilités. De nos jours, la théorie des probabilités est une branche mathématique bien

développée dont les domaines d'application sont aussi multiples que variés. Elle peut, par exemple, fournir

des outils précieux pour le traitement des les d'attente, la modélisation de la propagation d'une épidémie,

la prédiction de la météo ... etc.

Ce chapitre est une introduction aux calculs des probabilités où nous allons présenter les concepts fonda-

mentaux qui sont nécessaires pour le développement des éléments de base de la statistique mathématique.

2.1 Méthodes de dénombrement


En théorie des probabilités, on est souvent devant des situations où il est indispensable de dénombrer les

possibilités pour qu'un événement donné se réalise. Nous allons, dans ce paragraphe, étudier les méthodes

de dénombrement les plus courantes.

Principe élémentaire de comptage

Considérons une expérience qui se réalise en n étapes. Pour i = 1, . . . , n, on note mi le nombre de résultats
possibles à la ième étape.

Résultat Le nombre total des résultats possibles à la n d'une telle expérience est égal à

m = m1 × m2 × . . . × mn .

21
2.1 Méthodes de dénombrement A. Zoglat

Exemple : Dans un restaurant, un menu comprend une entrée (2 choix :une salade verte ou une soupe),

un plat principal (3 choix : de la viande, du poulet ou du poisson) et un dessert (2 choix : une glace ou un

fruit de saison). De combien de façons est-il possible de composer un menu ?

Il y a 2 possibilités de choix d'entrée, pour chaque choix d'entrée il y a 3 possibilités de choix de plat

principal et pour chaque choix d'entrée et de plat principal il y 2 possibilités de choix de dessert. Ainsi,

comme le montre la gure2.1 ci-dessous, le nombre de façons de composer un menu est égal à 2 × 3 × 2 = 12.

Glace (1)
Viande
@
@ Fruit (2)

Glace (3)
Salade Poulet
@ @
@ Fruit (4)
@
Glace (5)
@
@
Poisson
@
Début @
@ Fruit (6)
@
Glace (7)
Viande
@
@ @
@ Fruit (8)
@
Glace (9)
@
@ Soupe Poulet
@ @
@ Fruit (10)
@
Glace (11)
@
Poisson
@
@
@ Fruit (12)
Figure 2.1  Arbre des Menus

Permutations

Une permutation est un rangement ou classement ordonné de n objets.

Permutations sans répétitions

Exemple : Les permutations sans répétitions possibles des lettres A, B et C sont : ABC, ACB, BAC,

BCA, CAB et CBA. Soient 6 permutations au total.

Résultat Le nombre de permutations de n objets distincts est égal à

n! = 1 × 2 × 3 . . . × n.

22
A. Zoglat 2.1 Méthodes de dénombrement

Permutations avec répétitions


Le nombre de permutations lorsque certains objets sont indiscernables est inférieur au nombre de per-

mutations lorsque tous les objets sont distincts.

Exemple Les permutations possibles des lettres A, A, B, B et B sont : AABBB, ABABB, ABBAB,

ABBBA, BAABB, BABAB, BABBA, BBAAB, BBABA, BBBAA.

Il n'est pas toujours facile d'énumérer toutes les possibilités et pourtant on a besoin de connaître leur

nombre. Un moyen permettant de faire le calcul consiste à dénombrer toutes les permutations comme si

toutes les lettres étaient distinctes (5 !=120) puis diviser par le nombre de permutations possibles des lettres

A (2 !=2) et celui des lettres B (3 !=6) puisque ces permutations ne sont pas discernables. Ainsi on a
120
= 10 possibilités de ranger les lettres A, A, B, B et B.
2×6

Résultat Un ensemble E contient n1 objets identiques de type T1 , n2 objets identiques de type T2 , ...
et nr objets identiques de type Tr . Le nombre de possibilités pour ranger les éléments de E est donné par
n!
, où n = n1 + n2 + . . . + nr .
n1 !n2 ! . . . nr !

Arrangements et Combinaisons
Considérons une urne contenant n boules numérotées de 1 à n. L'expérience consiste à tirer p boules

de cette urne. Quel est le nombre de résultats possibles ? Pour répondre à cette question, on distingue les

diérents cas de gures suivants :

a. Tirages avec remise :

a1. L'ordre des résultats est pris en considération.

a2. L'ordre des résultats n'est pas pris en considération.

b. Tirages sans remise :

b1. L'ordre des résultats est pris en considération.

b2. L'ordre des résultats n'est pas pris en considération.

Lorsque l'ordre des résultats est pris en considération, on parle d'arrangements. Lorsque l'ordre des résultats

n'est pas pris en considération, on parle de combinaisons.

Arrangements avec répétitions


Avec n objets discernables O1 , . . . , On , combien de p−uplets (Oi1 , Oi2 , . . . , Oip ), où les O ij ne sont pas

forcément distincts, est-il est possible de former ?

23
2.1 Méthodes de dénombrement A. Zoglat

Pour répondre à cette question, remarquons que la formation d'un p−uplet (Oi1 , Oi2 , . . . , Oip ), où les Oij
ne sont pas forcément distincts, est une expérience qui se réalise en p étapes. À chaque étape, le nombre de

possibilités est égale à n. Cela justie donc, compte tenu du principe de comptage évoqué au paragraphe 2.1,
le résultat suivant.

Résultat Le nombre d'arrangements avec répétitions de p objets choisis parmi n est égal à np .

Exercice Montrer que le nombre d'applications d'un ensemble à p éléments vers un ensemble à n éléments
est égal à np .

Arrangements sans répétitions


Avec n objets discernables O1 , . . . , On , combien de p−uplets (Oi1 , Oi2 , . . . , Oip ), où les Oij sont tous

distincts, est-il est possible de former ?

Remarquons que cela n'est possible que si n ≥ p. On supposera alors qu'il en est ainsi quand c'est

indispensable.

Ici, la formation d'un p−uplet (Oi1 , Oi2 , . . . , Oip ), où les Oij sont tous distincts, est une expérience qui

se réalise en p étapes. Mais, à la ième étape le nombre de réalisations possibles est égale à n − (i − 1). Cela

justie donc le résultat suivant.

Résultat Le nombre d'arrangements sans répétitions de p objets choisis parmi n, noté Apn , est donné par

n!
Apn = n(n − 1) . . . (n − (p − 1)) = .
(n − p)!

Exercice Montrer que le nombre d'applications injectives d'un ensemble à p éléments vers un ensemble
à n éléments est égal à Apn .

Exercice Un entraîneur dispose d'un groupe de 20 joueurs. Combien d'équipes, de 11 joueurs chacune,

est-il possible de former ? On suppose que chaque joueur est capable d'occuper n'importe quel poste sur le

terrain.

Combinaisons sans répétitions


Exemple Reprenons l'exemple de l'urne contenant n boules numérotées de 1 à n parmi lesquelles on choisit,
sans remise, p boules. Sans tenir compte de l'ordre d'apparition des numéros tirés, quel est le nombre de

combinaisons possibles ?

24
A. Zoglat 2.1 Méthodes de dénombrement

On sait que si l'on tenait compte de l'ordre on aurait Apn cas possibles. Dans ce cas chaque groupe de p
numéros engendre p! combinaisons ordonnée. Pour obtenir le nombre de combinaisons non ordonnées, il suf-

t de diviser Apn par p!. Le problème revient à calculer le nombre de possibilités de choisir p boules parmi les n.

Résultat Le nombre de possibilités de choisir p objets parmi n objets distincts est

n!
Cnp = .
p!(n − p)!

Applications : Montrer la formule du binôme :

X
(a + b)n = Cnp ap bn−p .
p

Exercice Montrer que


k
X
k
∀k ≤ n + m, Cn+m = Cni Cm
k−i
.
i=0

Indication : Remarquer que (1 + X)n+m = (1 + X)n (1 + X)m et identier les coecients de Xk dans les

deux expressions.

Combinaisons avec répétitions


Dans ce paragraphe nous allons répondre à la question suivante :

Question Supposons que l'on eectue p tirages avec remise dans une urne contenant n boules numérotées

de 1 à n. Sans tenir compte de l'ordre, quel est le nombre combinaisons possibles ?


Pn
Dans chaque combinaison, la boule numéro i peut apparaître xi fois, avec 0 ≤ xi ≤ p et i=1 xi = p . Ainsi
Pn
le nombre de combinaisons possibles est égal au nombre de solutions dans N de l'équation i=1 xi = p .
Ce problème classique peut également être présenté comme suit :

On dispose de p enveloppes identiques que l'on aimerait répartir dans n boîtes aux lettres numérotées de 1

à n. Notons xi le nombre d'enveloppes dans la boîte numéro i, avec 0 ≤ xi ≤ p . Le nombre de répartitions


Pn
possibles est égal au nombre de solutions dans N de l'équation i=1 xi = p . Pour bien illustrer la solution

nous commençons par un exemple simple.

Exemple Une personne est chargée de distribuer des prospectus aux habitants d'un quartier. A la n de

sa tournée, cette personne dispose encore de 6 prospectus qu'elle décide de distribuer au hasard dans les 4

boîtes aux lettres du dernier immeuble. De combien de façons est-il possible de répartir 6 prospectus dans

les 4 boîtes ?

Numérotons les boîtes de 1 à 4 et soit xi le nombre de prospectus dans la boîte numéro i.

25
2.1 Méthodes de dénombrement A. Zoglat

Le quadruplet (x1 , . . . , x4 ) = (2, 3, 0, 1) est une possibilité que nous schématisons par

bP P | PPP | |P c

où deux barres verticales symbolisent une boîte et P un prospectus. Le schéma

bP P P P P | | |P c

correspond donc à (x1 , . . . , x4 ) = (5, 0, 0, 1).


D'une manière générale, on obtient une possibilité de répartir les 6 prospectus dans les 4 boîtes en

permutant les P et les barres verticales. Pour calculer le nombre de solutions possibles, remarquons d'abord

que l'on doit toujours avoir une barre à l'extrémités gauche et une autre à l'extrémité droite car elles délimitent

respectivement la première et la dernière boîte. On ne doit donc permuter que les 3 barres verticales qui sont

au milieu et les 6 P. D'après le résultat sur les permutations avec répétitions, le nombre de permutations

possibles est égal à


(6 + (4 − 1))!
(4 − 1)! 6!
= C66+(4−1).
En utilisant les mêmes arguments, on peut prouver le résultat général suivant :

Résultat Le nombre de possibilités de répartir p objets identiques dans n cases est égal à Cpp+n−1 .

Remarque Nous avons déjà signalé que C p


p+n−1 est le nombre de solutions dans N de l'équation
Pn
i=1 xi =
p. Ce nombre représente également le nombre de résultats, sans tenir compte de l'ordre, de p tirages avec

remises eectués dans une urnes contenants n objets distincts.

Jusqu'ici nous avons considéré le nombre de possibilités de diviser un ensemble de n éléments en 2 sous-

ensembles : l'un contenant p éléments et l'autre n−p éléments. Quel serait ce nombre si on divisait un ensemble
de n éléments en r sous-ensembles contenants respectivement p1 , . . . , pr éléments ? (où p1 + . . . + pr = n.)

Résultat Le nombre de possibilités de diviser un ensemble à n éléments en r partitions contenant respec-

tivement p1 , . . . , pr éléments est donné par

n!
Cnp1 ,...,pr = .
p1 ! . . . pr !

Démonstration.

p2 pr
Cnp1 Cn−p 1
. . . Cn−p 1 −p2 −...−pr−1
= Cnp1 ,...,pr

Exemple De combien de façons est-il possibles de répartir 12 étudiants en équipes pour travailler sur 3

projets, sachant que pour le projet A on a besoin de 3 étudiants, pour le projet B on a besoin de 2 étudiants
26
A. Zoglat 2.2 Expériences et événements aléatoires

et pour le projet C on a besoin de 4 étudiants ?


On doit donc diviser l'ensemble des étudiants en 4 sous-ensembles. Trois équipes d'eectifs respectifs 3, 2 et

4 qui vont travailler sur les projets et une équipe des 3 étudiants restants qui ne vont travailler sur aucun

projet. Le nombre de possibilités est donc :

3, 2, 4, 3 12
C12 = .
3!2!4!3!
Applications Formule du binôme généralisée :

Cnp1 ,...,pr ap11 . . . apr r .


X
(a1 + a2 + . . . + ar )n =
p1+p2+...+pr =n

2.2 Expériences et événements aléatoires


Une expérience est dite aléatoire lorsque ses résultats dépendent du hasard. Même si l'ensemble des

résultats possibles d'une expérience aléatoire est connu, il est impossible de prédire avec certitude une issue.

Par exemple, on sait d'avance qu'en lançant un dé à six faces numérotées de 1 à 6, le résultat qui sera indiqué

sur la face supérieure du dé est un chire entre 1 et 6. Et pourtant personne ne peut prédire avec certitude

le résultat d'un lancer de dé (sauf si celui-ci est truqué auquel cas le résultat ne dépend pas du hasard !)

Dénition 2.2.1. L'ensemble des résultats possibles d'une expérience aléatoire est noté Ω. On l'appelle l'ensemble
fondamental ou univers des possibles. Ses éléments sont notés ω.
Exemples

1. Une expérience consiste à lancer d'un dé à 6 faces numérotées de 1 à 6 et noter le numéro marqué

sur la face supérieure. L'ensemble fondamental relatif à cette expérience est Ω = {1, 2, 3, 4, 5, 6}. Ici

l'ensemble fondamental est ni.

2. Une expérience consiste à compter le nombre de lancers, d'un dé à 6 faces numérotées, nécessaires pour

obtenir un 6 pour la première fois. Dans ce cas, on a Ω = N∗ . Il s'agit ici d'un ensemble fondamental
inni et dénombrable.

3. Une expérience consiste à mesurer le temps séparant deux appels consécutifs qui arrivent à un cen-

tral téléphonique. Dans ce cas, on a Ω =]0, ∞[. Il s'agit ici d'un ensemble fondamental inni et non

dénombrable.

Dénition 2.2.2. On appelle événement tout sous-ensemble de Ω. Les singletons sont appelés des événe-
ments simples ou élémentaires. Un événement contenant au mois deux éléments de Ω est appelé événement
composite.
Remarque En tant que sous-ensembles de Ω, ∅ et Ω sont deux événements appelés respectivement

l' événement impossible et l'événement certain.


27
2.3 Bases axiomatiques des probabilités A. Zoglat

Exemples Une expérience consiste à lancer un dé à 6 faces numérotées de 1 à 6 et noter le numéro marqué

sur la face supérieure.

1. L'événement obtenir le numéro 3 est un événement simple.

2. L'événement obtenir un numéro pair, c'est à dire obtenir un 2, un 4 ou un 6, est un événement

composite.

3. L'événement obtenir le numéro 7 est un événement qui ne peut pas se réaliser. C'est un événement
impossible.
4. L'événement obtenir un numéro < 7 se réalise toujours. C'est un événement certain.

Opérations sur les événements


Soient A et B deux événements (i.e. deux sous-ensembles de Ω).
1. Le complémentaire de A dans Ω, noté A, c'est l' événement contraire de A.
2. L'intersection de A et B (A ∩ B ) est un événement. Il se réalise si, et seulement si, A et B se réalisent

simultanément. Si A ∩ B = ∅, on dit que A et B sont incompatibles.


3. La réunion de A et B (A ∪ B ) est un événement. Il se réalise si, et seulement si, au moins l'un des

événements A et B se réalise.

4. Lorsque A ⊂ B, la réalisation de A implique la réalisation de B.

2.3 Bases axiomatiques des probabilités


Soient Ω un ensemble non vide et P(Ω) l'ensemble des parties de Ω.

Dénition 2.3.1. On dit qu'une fonction P : (Ω, P(Ω)) → [0, 1] est une probabilité si elle vérie les axiomes
suivants :

A1. P{Ω} = 1 et P{∅} = 0,


A2. Pour toute suite (An )n d'éléments de P(Ω) deux à deux disjoints ( Ai ∩ Aj = ∅, lorsque i 6= j ) on a :

n[ o X
P An = P{An }.
n n

Ci-après sont quelques propriétés qui découlent directement de la dénition.

Propriétés.
a- L'axiome A2 reste bien entendu valable lorsque (An )n est une suite nie.

b- Pour tout A ∈ P(Ω), P{A} = 1 − P{A}. En eet, comme A ∪ A = Ω, le résultat découle des axiomes

A1 et A2.

28
A. Zoglat 2.3 Bases axiomatiques des probabilités

c- Soient A et B deux éléments de P(Ω). On note A\B = A ∩ B . Lorsque B⊂A on a

P{B} ≤ P{A} et P{A\B} = P{A} − P{B}.

En eet, il sut de remarquer que A = B ∪ (A\B).


d- Soient A et B deux éléments de P(Ω), alors

P{A ∪ B} = P{A} + P{B} − P{A ∩ B}.

S
e- Soit (An )n une suite croissante d'éléments de F (i.e. ∀n, An ⊂ An+1 ) et soit A= n An . Alors

P{A} = lim P{An }.


n→∞

Démonstration. On pose B1 = A1 et pour tout n ≥ 2, Bn = An \An−1 . Ainsi les Bn sont disjoints et


S S
on a pour tout n ∈ N, An = k≤n Ak = k≤n Bk . D'où

n[ o n
X
∀k ∈ N, P{An } = P Bk = P{Bk }.
k≤n k=1

limn P{An } = ∞
P
En passant à la limite on obtient k=1 P{Bk }. Pour conclure, il sut de remarquer que
nS o P
P k≥1 Bk = ∞
S S
k=1 P{Bk } et que k≥1 Bk = k≥1 Ak .
T
f- Soit (An )n une suite décroissante d'éléments de F (i.e. ∀n, An+1 ⊂ An ) et soit A= n An . Alors

P{A} = lim P{An }.


n→∞

A0n = An A0 = 0 (A0n )n
S
Démonstration. Pour tout n ∈ N, on pose et n An . La suite est croissante. On

a donc, d'après la propriété précédente, P{A0 } = limn→∞ P{A0n }. Pour conclure il sut de remarquer

que A0 = A et d'utiliser la deuxième propriété.

Événements équiprobables
Pour certaines expériences, l'ensemble fondamental est ni ( Ω = {ω1 , . . . , ωn }) et les événements simples
ont la même probabilité :

P{ω1 } = P{ω2 } = . . . = P{ωn } = p ∈ [0, 1].

On dit aussi que les ωi sont équiprobables.


Comme Ω = {ω1 } ∪ {ω2 } ∪ . . . ∪ {ωn }, on a la relation

1
P{Ω} = P{ω1 } + . . . + P{ωn } = n p ou encore p=
n

29
2.4 Probabilités conditionnelles A. Zoglat

Résultat Soit Ω = {ω1 , . . . , ωn } un espace fondamental dont les éléments sont équiprobables. Alors pour

tout A⊂Ω on a
Card(A)
P{A} = ,
Card(Ω)
où Card(B) désigne le nombre d'éléments de l'ensemble B.

Exemple Une urne contient 6 boules blanches et 5 boules noires. On en tire au hasard et sans remise 2

boules. Quelle est la probabilité que l'on tire une boule blanche et une boule noire ?

Ce problème peut être traité

(1) En tenant compte de l'ordre dans lequel les deux boules sont tirées (dans ce cas on numérote les

boules an de pouvoir les distinguer), ou

(2) Sans tenir compte de l'ordre dans lequel les deux boules sont tirées.

Nous allons considérer les deux cas de gure et nous allons voir qu'ils conduisent au même résultat. Remar-

quons tout d'abord que puisque les tirages se font au hasard, toutes les boules ont la même chance d'être

choisies. Nous sommes donc dans le cas d'événements élémentaires équiprobables.

(1) Lorsque l'ordre des tirages est pris en considération, il y a 11 possibilités de choisir la première boule

et 10 possibilités de choisir la deuxième, et donc Card(Ω) = 11 × 10 = 110.


De plus il y a 6×5 possibilités de tirer une boules blanche puis une boule noire et 5×6 possibilités de tirer

une boules noire puis une boule blanche. Notons A, A1 et A2 les événements dénis par

A = on tire une boule blanche et une boule noire,

A1 = la première boule tirée est blanche,

A2 = la première boule tirée est noire.

On a alors A=A1 ∪ A2 . D'où

30 30 6
P{A} = P{A1 } + P{A2 }= + = .
110 110 11

(2) Lorsque l'ordre n'est pas pris en considération, il y a C211 = 55 possibilités de tirer deux boules et

donc Card(Ω) = 55. Le nombre de possibilités de choisir une boule blanche et une boule noire est égale à

C ×C
1
6
1
5 = 30. D'où la probabilité de tirer une boule blanche et une boule noire est égale à
30
55
6
= .
11

2.4 Probabilités conditionnelles


Nous somme souvent amené à calculer une probabilité à la lumière d'une information supplémentaire

concernant le résultat de l'expérience. On parle alors de probabilités conditionnelles.

30
A. Zoglat 2.5 Formule de BAYES

Exemple Une expérience consiste à lancer un dé équilibré à 6 faces numérotées de 1 à 6 et à noter X


le numéro sur la face supérieure. L'ensemble fondamental est Ω = {1, 2, 3, 4, 5, 6}. Soient B l'événement

{X = 6} et A l'événement {X > 4}. Comme tous les événements simples sont équiprobables nous avons

1 1 1
P{B} = , P{A} = , P{A ∩ B} = .
6 3 6
Supposons maintenant que le dé a été jeté et que nous savons que l'événement A s'est réalisé, quelle est

la probabilité que B se réalise ? Désignons cette probabilité par P{B/A}. Pour la calculer on considère

comme nouvel ensemble fondamental Ω0 = {5, 6} = A. Comme les éléments de Ω, ceux de Ω0 sont également

équiprobables et on a

Card(B ∩ A)
1 Card(B ∩ A) Card(Ω) P{B ∩ A}
P{B/A} = = 0
= = .
2 Card(Ω ) Card(A) P{A}
Card(Ω)
Dénition 2.4.1. Soient Ω un ensemble fondamental et E et F deux sous ensembles de Ω avec P{F } =
6 0. On
appelle probabilité conditionnelle de E sachant F et on note P{E/F } la quantité

P{E ∩ F }
P{E/F } =
P{F }

Remarques

1. Comme P{E/F } désigne la probabilité que E se réalise sachant que F s'est réalisé, il est possible de

lui donner un sens en convenant que P{E/F } = 0 lorsque P{F } = 0. Cela signie que puisque F ne

peut pas se réaliser, l'événement  E se sachant F  est impossible.

2. De la dénition on déduit que

P{E ∩ F } = P{E/F }P{F }

3. Sur P(Ω), on dénit la fonction PB par :

∀A ∈ P(Ω), PB {A} = P{A/B}.

On peut facilement montrer que la fonction PB est une probabilité.

2.5 Formule de BAYES


S
Soient Ω un ensemble fondamental et A1 , A2 , . . . An une partition de Ω (i.e. i Ai = Ω et Ai ∩ Aj = ∅,
si i 6= j ) telle que, pour tout i, P{Ai } =
6 0.

Théorème. [Théorème de Bayes] Pour tout E ⊂ Ω, on a

n
X
P{E} = P{E/Ai } × P{Ai }, (Formule de probabilité totale),
i=1

31
2.6 Événements indépendants A. Zoglat

P{E/Ai } × P{Ai }
∀i ∈ {1, 2, . . . , n}, P{Ai /E} = Pn (Formule de Bays).
j=1 P{E/Aj } × P{Aj }

Exemple Une société d'assurance classe ses clients en 3 catégories ; HR :  client à haut risque , MR : 

client à moyen risque  et FR :  client à faible risque . Sachant qu'un client est classé HR ( respectivement

MR et FR), la probabilité qu'il fasse une réclamation est de 0.30 (respectivement 0.15 et 0.05). Par ailleurs,

les Clients classés HR représentent 10% des clients de la société. Alors que ceux classés FR représentent

70%.

a- Quelle est la probabilité qu'un client choisi au hasard fasse une réclamation ?

b- Si un client n'a fait aucune réclamation, quelle est la probabilité qu'il s'agisse d'un  client à haut

risque ?

Soit Ω l'ensemble fondamental formé par tous les clients de la société. Notons A1 l'ensemble des clients classés

HR, A2 l'ensemble des clients classés MR et A3 l'ensemble des clients classés FR. Les événements A1 , A2 et

A3 forment une partition de Ω, et on a : P{A1 } = 0.10, P{A3 } = 0.70 et P{A2 } = 0.20.


Notons B l'événement  le client fait une réclamation. On a

P{B/A1 } = 0.30, P{B/A2 } = 0.15 et P{B/A3 } = 0.05.

a- D'après le théorème de Bayes, P{B} = P{B/A1 }P{A1 } + P{B/A2 }P{A2 } + P{B/A3 }P{A3 }.

P{B/A1 }P{A1 }
b- On cherche P{A1 /B}. D'après le théorème de Bayes, P{A1 /B} = P{B}
.

2.6 Événements indépendants


Intuitivement, deux événements A et B sont indépendants si la réalisation de l'un n'a aucun eet sur la

réalisation de l'autre. Dans ce paragraphe nous allons donner une dénition précise et quelques propriétés

de l'indépendance.

Dénition. On dit que l'événement A est indépendant de l'événement B si

P{A/B} = P{A}.

Exemple On tire au hasard une carte d'un jeu de 52 cartes bien mélangées. On désigne par A l'événement

la carte tirée est une dame et par B l'événement la carte tirée est un carreau. Alors A est indépendant

de B. Pour le monter calculons


P{A/B}.
4 1 13 1 1 P{A ∩ B} 4
On a P{A} = = , P{B} = = et P{A ∩ B} = . D'où P{A/B} = = = P{A}.
52 13 52 4 52 P{B} 52

Propriétés.
32
A. Zoglat 2.6 Événements indépendants

1- L'événement A est indépendant de l'événement B si, et seulement si, P{A ∩ B} = P{A} × P{B}. Cette

caractérisation montre que Si A est indépendant de B alors B est indépendant de A. On dit que A et B
sont indépendants.

3- Si A et B sont indépendants alors :

(a) A et B sont indépendants, (b) A et B sont indépendants et (c) A et B sont indépendants.

Supposons que A est indépendant de B1 et de B2 . Pourrait-on conclure que A est indépendant de B1 ∩B2 ?
La réponse est non en général comme le montre l'exemple suivant.
Exemple Une urne contient 4 boules ; elles portent respectivement les nombres 1, 2, 3 et 123. On tire une
boule de l'urne et on considère les événements A : " on observe le chire 1 sur la boule tirée", B1 : " on

observe le chire 2 sur la boule tirée", et B2 : " on observe le chire 3 sur la boule tirée". Ces événements

sont deux à deux indépendants mais ne sont pas mutuellement indépendants :

On a P{A} = P{B1 } = P{B2 } = 1/2. Il est facile de voir que P{A ∩ B1 } = P{A}P{B1 }, P{A ∩ B2 } =
P{A}P{B2 } et P{B1 ∩ B2 } = P{B1 }P{B2 }. Mais P{A ∩ (B1 ∩ B2 )} =
6 P{A}P{B1 }P{B2 }.
Cet exemple montre que pour que  A indépendant de B1  et  A indépendant de B2  impliquent que A
est indépendant de B1 ∩ B2 , on a besoin d'une notion plus forte que l'indépendance 2 à 2.

Dénition. On dit que les événements A1 , A2 , . . . , An sont mutuellement indépendants si


n\ o Y
∀I ⊂ {1, 2, . . . , n}, P Ai = P{Ai }.
i∈I i∈I

Plus généralement, (An )n∈N est une suite d'événements mutuellement indépendants si pour tout n ∈ N les

événements Ai1 , . . . , A in sont mutuellement indépendants.

Souvent, par abus de langage et lorsqu'aucune confusion n'est à craindre, on laisse tomber le terme mu-

tuellement.

Exemple Un système électrique a n composants qui tombent en panne indépendamment. Soient Ai l'évé-

nement le i
ème composant est défaillant, avec P{Ai } = pi . L'événement B le système est défaillant se

produit si le courant ne peut pas passer d'un bout du système à l'autre. Calculer la probabilité que le sys-

tème fonctionne selon que les composants sont montés en parallèle ou en série.

Si les composants sont montés en parallèle, alors


n
Y n
Y
PP {B} = P{A1 ∩ A2 ∩ . . . ∩ An } = pi , et donc P{le système fonctionne} = 1 − PP {B} = 1 − pi .
i=1 i=1
Si les composants sont montés en série, alors
n
Y
PS {B} = P{A1 ∪ A2 ∪ . . . ∪ An } = 1 − P{A1 ∪ A2 ∪ . . . ∪ An } = 1 − P{A1 ∩ A2 ∩ . . . ∩ An } = 1 − (1 − pi ).
i=1
Qn
D'où P{le système fonctionne} = 1 − PS {B} = 1 − i=1 (1 − pi ).

33
Chapitre 3

Variables Aléatoires
3.1 Généralités
Dans de nombreuses situations les événements d'intérêt ne constituent qu'un sous-ensemble de P(Ω). Ce

sous-ensemble doit posséder certaines propriétés qui garantissent les opérations sur les événements.

Dénition 3.1.1. Soient Ω un ensemble non vide et F un sous-ensemble de P(Ω). On dit que F est une

σ -algèbre (ou une tribu) de Ω si

1- F est non vide.

2- F est stable par passage au complémentaire : A ∈ F ⇒ A ∈ F.


[
3- F est stable pour une réunion dénombrable : ∀(An )n ⊂ F, An ∈ F.
n

Remarque 3.1.1. Si F σ -algèbre, alors elle est stable pour une intersection dénombrable
est une :

\  \ [ 
∀(An )n ⊂ F, An ∈ F. En eet, An = An ∈ F.
n n n
Exemple 3.1.1.
• {Ω, ∅} et P(Ω) sont deux σ -algèbres. Elles sont dites triviales.

• Si F1 et F2 sont 2 σ -algèbres, alors F1 ∪ F 2 est une σ -algèbre.


• Si (Fi )i∈I est une famille de σ -algèbres, alors ∩i∈I Fi est une σ -algèbre.
• Soit A ⊂ P(Ω), et soit F(A) = {F : F est uneσ -algèbre contenant A}. Alors

\
σ(A) = F
F ∈F (A)

est une σ -algèbre. Elle s'appelle la σ -algèbre engendrée par A.


• Soient Ω⊂R et I(Ω) = {I : I ⊂ Ω est un intervalle}. La σ -algèbre engendrée par I(Ω) sera notée

BΩ . On l'appelle la σ -algèbre borelienne de Ω.


• Si Ω⊂R est ni ou dénombrable alors BΩ = P(Ω).

34
A. Zoglat 3.1 Généralités

Convention
Pour simplier, nous allons supposer dans tout ce qui suit que, les σ -algèbres sont boreliennes.

Dénition 3.1.2. Soient Ω un ensemble non vide et F une σ -algèbre de Ω. Le couple (Ω, F) est appelé espace

probabilisable.

Dénition 3.1.3. Soit (Ω, F) un espace probabilisable. On dit qu'une fonction P : F → [0, 1] est une proba-
bilité si elle vérie les axiomes suivants :
A1. P{Ω} = 1 et P{∅} = 0
A2. Pour toute suite (An )n d'éléments de F deux à deux disjoints ( Ai ∩ Aj = ∅, lorsque i 6= j ) on a :

n[ o X
P An = P{An }.
n n

Après avoir réalisé une expérience, il arrive bien souvent qu'on s'intéresse plus à une fonction du résultat

qu'au résultat lui-même. Expliquons ceci au moyen des exemples suivants : lorsqu'on joue aux dés, certains

jeux accordent de l'importance à la somme obtenue sur deux dés, 7 par exemple, plutôt qu'à la question de

savoir si c'est la paire (1,6) qui est apparue, ou (2,5), (3,4), (4,3), (5,2) ou plutôt (6,1). Dans le cas du jet

d'une pièce, il peut être plus intéressant de connaître le nombre de fois où pile est apparue plutôt que la

séquence détaillée des piles et faces. Ces grandeurs auxquelles on s'intéresse sont en fait des fonctions réelles

dénies sur l'ensemble fondamental et sont appelées variables aléatoires (v.a.).Ci-après nous en donnons
une dénition plus précise.

Dénition 3.1.4. Soient (Ω1 , F1 ) et (Ω2 , F2 ) deux espaces probabilisables et X : (Ω1 , F1 ) → (Ω2 , F2 ) une

fonction. On dit que X est une variable aléatoire (v.a.) si

∀B ∈ F2 , X −1 (B) ∈ F1 .

Exemple 3.1.2.
 Une expérience consiste à lancer 2 dés identiques à six faces numérotées de 1 à 6. L'espace fondamental

est Ω = {(i, j); 1 ≤ i, j ≤ 6}. On s'intéresse à la somme des deux numéros obtenus. On note E =
{2, 3, . . . 12}. Alors  
X: Ω, P(Ω) −→ E, P(E)
(i, j) 7−→ i+j
est une v.a.

 Soient X et Y deux v.a., alors

X + Y, XY, X ◦ Y, max(X, Y ) . . . etc. sont des v.a.

35
3.1 Généralités A. Zoglat

Du fait que la valeur d'une v.a. est déterminée par le résultat de l'expérience, il est possible d'attribuer une

probabilité aux diérentes valeurs que la v.a. peut prendre.

Les v.a. que nous allons considérer dans ce cours sont toutes des fonctions à valeurs dans R ou une partie
de R muni de sa σ -algèbre borélienne.

Dans toute la suite (Ω, BΩ , P) désignera un espace probabilisé et (S, BS ) un espace probabilisable. La

plupart du temps S désignera R tout entier ou un sous-ensemble de R ni ou dénombrable.

3.1.1 Loi de probabilité


Soit X : (Ω, BΩ , P) −→ (S, BS ) une v.a. Elle induit sur BS une fonction notée PX et dénie par :

∀B ∈ BS , PX (B) = P{X −1 (B)},

où X −1 (B) = {ω ∈ Ω : X(ω) ∈ B}.

Proposition 1. La fonction PX ainsi dénie sur BS est une probabilité.

Démonstration. D'après la dénition, il est clair que X est à valeur dans


P [0, 1]. D'autre part on a X −1 (S) = Ω,
d'où PX (S) = 1.
Soit (Bn )n une suite d'éléments disjoints de BS . La suite de terme général An = X −1 (Bn ) est une suite

−1 −1 (B ), d'où
S  S
d'éléments disjoints de BΩ . X
De plus on a n Bn = nX n
[  n[ o X X
PX Bn = P An = P{An } = PX {Bn }.
n n n n

Dénition 3.1.5. La fonction PX ainsi dénie sur BS est appelée la loi de probabilité de X.

Par abus de langage, PX est souvent appelée la loi de X .


Exemple 3.1.3.
On lance une pièce de monnaie à deux faces : P=Pile et F=Face . On considère comme succès l'évé-
nement obtenir F. Supposons que la pièce est telle que la probabilité d'obtenir F est p ∈]0, 1[ et la

probabilité d'obtenir P est q = 1 − p.

Soient X le nombre de succès observés après 1 lancer et Y le nombre de succès observés après 3 lancers

dont les résultats sont indépendants. Ainsi on a :


1- X est une v.a. dénie sur Ω = {P, F}, à valeurs dans S = {0, 1}. De plus on a :

PX (1) = P{X −1 (1)} = P{F} = p, et

PX (0) = P{X −1 (0)} = P{P} = 1 − p.

36
A. Zoglat 3.1 Généralités

2- Y de Ω = {(P, P, P), (P, P, F), (P, F, P), (F, P, P), (F, F, P), (F, P, F),(P, F, F), (F, F, F)} dans

{0, 1, 2, 3} est une v.a. L'événement (P, F, P), par exemple, signie  obtenir successivement P puis
F puis P . Par indépendance on a donc

P{(P, F, P)} = (1 − p) p (1 − p).

Nous sommes à présent en mesure de déterminer la loi de Y.

PY (0) = P{Y −1 (0)} = P{(P, P, P)} = (1 − p)3 .

PY (1) = P{Y −1 (1)} = P{(F, P, P), (P, F, P), (P, P, F)}

= 3(1 − p)2 p.

PY (2) = P{Y −1 (2)} = P{(F, F, P), (P, F, F), (F, P, F)}

= 3(1 − p) p2 .

PY (3) = P{Y −1 (3)} = P{(F, F, F)} = p3 .

Remarque 3.1.2. Dans le cas d'une v.a. discrète X , PX est également appelée fonction masse de proba-
bilité de X (f.m.p).

3.1.2 Fonction de répartition


Soit X : Ω → S une v.a. On appelle fonction de répartition de X (f.r.) et on note FX la fonction

dénie de R dans [0, 1] par :


∀x ∈ R, FX (x) = P{ω : X(ω) ≤ x}.

Notation : Pour simplier les notations, on écrit {X ≤ x} pour désigner {ω ∈ Ω : X(ω) ≤ x}.

Propriétés. La f.r. FX d'une v.a. X jouit des propriétés suivantes :

1- FX est croissante et continue à droite.

Démonstration. La croissance de FX découle directement de la croissance de P. Montrons que FX est

continue à droite. Soient x ∈ R et (xn )n une suite qui décroît vers x (i.e. ∀n, xn ≥ xn+1 et limn xn = x).
Montrons que limn FX (xn ) = FX (x).
T
Posons, pour n ≥ 1, An =]−∞, xn ] et A =]−∞, x]. La suite (An )n est décroissante et on a n An = A.
D'où limn P{An } = P{A}.

2- limx→−∞ FX (x) = 0, et limx→∞ FX (x) = 1.


T S
En eet, il sut de remarquer que n] − ∞, −n] = ∅ et que n] − ∞, n] = R.

37
3.1 Généralités A. Zoglat

3- De plus on a n o
∀a, b ∈ R, P X ∈]a, b] = FX (b) − FX (a).

En eet, on a {X ∈]a, b]} = {X ∈] − ∞, b]} \ {X ∈] − ∞, a]}, d'où

n o n o n o
P X ∈]a, b] = P X ∈] − ∞, b] − P X ∈] − ∞, b] = FX (b) − FX (a).

Exemple 3.1.4. La f.r. FY , où Y est la v.a. de l'exemple précédent avec p = 0.5 est donnée par





0.000 si x < 0,



0.125 0 ≤ x < 1,



 si


FY (x) = 0.500 si 1 ≤ x < 2,




0.875 si 2 ≤ x < 3,








1.000 si x ≥ 3.

La gure 3.1, ci-dessous, montre le graphe de la f.r. FY .

Figure 3.1  Représentation graphique de FY

3.1.3 Fonction densité de probabilité


Soient X : Ω −→ S une v.a. et FX sa f.r. Lorsqu'elle est dérivable, on note fX sa fonction dérivée et on a

n o Z b
∀a, b ∈ R, P X ∈]a, b] = FX (b) − FX (a) = fX (t)dt,
a

Dénition 3.1.6. La fonction fX , lorsqu'elle existe, s'appelle la fonction densité de probabilité ( fdp) de X .

38
A. Zoglat 3.1 Généralités

Remarque 3.1.3. La fdp fX , d'une v.a. X, est à valeurs dans R+ et vérie


Z ∞
fX (t)dt = 1.
−∞

Lorsque la fdp fX existe, la f.r. FX est continue et on a

∀x ∈ R, P{X = x} = 0.

La loi de probabilité d'une v.a. X est parfaitement déterminée si l'on connaît sa f.r. FX ou sa fdp fX .

Exemple 3.1.5. Soit X la durée de vie, en heures, d'une lampe électrique. On suppose que sa f.r. est

donnée par

1 − e−x

si x ≥ 0,
∀x ∈ R, FX (x) =

0 sinon.

La fonction FX est dérivable, sauf au point 0, et on a



e−x

si x ≥ 0,
∀x ∈ R, fX (x) =

0 sinon.

Calculons la probabilité que la durée de vie X soit comprise entre 10 et 15 heures.

n o Z 15 h i15
P X ∈ [10, 15] = e−t dt = −e−t = FX (15) − FX (10).
10 10

3.1.4 Loi d'une fonction d'une v.a.


Proposition 2. Soient X:Ω→S⊂R une v.a., fX sa fdp et g:S→R une fonction dérivable et croissante.

Alors Y = g(X) est une v.a. qui admet une fdp donnée par

1
∀y ∈ g(S), fY (y) = f (g −1 (y)). (3.1)
g 0 (g −1 (y)) X

Démonstration. Comme g est croissante de S dans g(S), elle admet une fonction réciproque g −1 .

FY (y) = P{Y ≤ y} = P{g(X) ≤ y} = P{X ≤ g −1 (y)} = FX (g −1 (y)).

En dérivant par rapport à y, on obtient le résultat.

Exemple 3.1.6. Soit X la durée de vie d'une lampe électrique dont la fdp est donnée par fX (x) = e−x si

x≥0 et 0 sinon (voir Exemple 3.1.5). Déterminons la loi de la v.a. Y = X 2. Ici la fonction g : R+ −→ R+
dénie par ∀x ≥ 0, g(x) = x2 . En appliquant la formule (3.1), on a

1 √
 √ e− y

 si y > 0,
fY (y) = 2 y

0

sinon.

39
3.1 Généralités A. Zoglat

3.1.5 Variables aléatoires à valeurs dans R p

Xi : (Ω, BΩ , P) −→ (Si , BSi ), i = 1, . . . , p, des v.a. dénies sur le même espace probabilisé. On note
Soient
 Q 
S = S1 ×S2 ×. . .×Sp et BS sa σ -algèbre borelienne i.e. BS = σ I
i i ; où I i est un ouvert de S i , i = 1, . . . , p .
 
La fonction X : (Ω, BΩ , P) −→ (S, BS ) dénie par ∀ω ∈ Ω, X(ω) = X1 (ω), X2 (ω), . . . , Xp (ω) est une v.a.
à valeurs dans Rp . On dit aussi que c'est un vecteur aléatoire.
Dénition 3.1.7. La fonction FX dénie sur Rp par

n o
p
∀(x1 , x2 , . . . , xp ) ∈ R , FX (x1 , x2 , . . . , xp ) = P {X1 ≤ x1 } ∩ {X2 ≤ x2 , . . . , Xp ≤ xp }

est appelée la fonction de répartition (f.r.) de X.


Notation :
n
Pour simplier on notera {X1 ≤ x1 , X2 ≤ x2 , . . . , Xp ≤ xp } pour désigner {X1 ≤ x1 }∩{X2 ≤
o
x2 ∩ . . . ∩ {Xp ≤ xp } .

Remarque 3.1.4.
• La fonction FX possède des propriétés analogues à celles d'une f.r. d'une v.a. réelle :

1- Si x1 ≤ y1 ,x2 ≤ y2 ,. . . , xp ≤ yp , alors FX (x1 , x2 , . . . , xp ) ≤ FX (y1 , y2 , . . . , yp ).


2- Soient x1 , . . . , x p des réels et (xin )n i = 1, . . . , p des suites décroissantes respectivement vers x1 , x2 ,
..., xp . Alors

FX (x1 , x2 , . . . , xp ) = lim FX (x1n , x2n , . . . , xpn ).


n→∞

3- limx1 ,x2 ,...,xp →−∞ FX (x1 , x2 , . . . , xp ) = 0 et limx1 ,x2 ,...,xp →∞ FX (x1 , x2 , . . . , xp ) = 1


• Si les v.a. X1 , . . . , Xp sont discrètes (i.e.S1 , . . . , Sp sont nis ou dénombrables), alors

n o
∀(x1 , x2 , . . . , xp ) ∈ Rp , FX (x1 , x2 , . . . , xp ) = P X1 ≤ x1 , X2 ≤ x2 , . . . , Xp ≤ xp
X
= P{X1 = u1 , X2 = u2 , . . . , Xp = up }.
ui ≤xi
i=1,...,p

Comme dans le cas de v.a. réelles, certaines v.a. à valeurs dans Rp peuvent avoir des fdp.

Dénition 3.1.8. Soient X : (Ω, BΩ , P) −→ (S, BS ) un vecteur aléatoire et fX : Rp → [0, ∞[ une fonction telle

que
Z x1 Z x2 Z xp
p
∀(x1 , x2 , . . . , xp ) ∈ R , FX (x1 , x2 , . . . , xp ) = ... fX (u1 , u2 , . . . , up ) du1 du2 . . . dup .
−∞ −∞ −∞

On dit alors que X est un vecteur aléatoire de loi continue et que fX est sa fdp.

Remarque 3.1.5. La fdp fX vérie la condition


Z ∞Z ∞ Z ∞
... fX (u1 , u2 , . . . , up ) du1 du2 . . . dup = 1.
−∞ −∞ −∞

40
A. Zoglat 3.1 Généralités

3.1.6 Indépendance de v.a.


Soient (Ω, BΩ , P) un espace probabilisé et (S, BS ) un espace probabilisable.

Dénition 3.1.9. Soit X : (Ω, BΩ , P) −→ (S, BS ) une v.a. La σ -algèbre

σ(X) = σ {X −1 (B), B ∈ BS }


s'appelle laσ -algèbre engendrée par X .

Dénition 3.1.10. Soient X1 : (Ω, BΩ , P) −→ (S1 , BS1 ) et X2 : (Ω, BΩ , P) −→ (S2 , BS2 ) deux v.a. dénies sur
le même espace probabilisé. On dit qu'elle sont indépendantes si les σ-algèbres engendrées par X1 et X2 sont
indépendantes, c'est à dire,

∀A1 ∈ σ(X1 ), ∀A2 ∈ σ(X2 ), P{A1 ∩ A2 } = P{A1 }P{A2 }.

La notion d'indépendance de deux v.a. se généralise de manière naturelle comme suit :

Dénition 3.1.11. Soit (Xn )n une suite de v.a. toutes dénies sur un même espace probabilisé (Ω, BΩ , P). On
dit que les Xn sont mutuellement indépendantes si pour tout I ⊂ N ni, on a

n\ o Y
∀Ai ∈ σ(Xi ), i ∈ I, P Ai = P{Ai }.
i∈I i∈I

Proposition 3. Soient X1 : (Ω, BΩ , P) −→ (S1 , BS1 ) et X2 : (Ω, BΩ , P) −→ (S2 , BS2 ) deux v.a. dénies sur le

même espace probabilisé et X = (X1 , X2 ).


• Si les v.a. X1 et X2 sont indépendantes alors

∀(x1 , x2 ) ∈ R2 , FX (x1 , x2 ) = FX1 (x1 )FX2 (x2 ).

• Si les v.a. X1 et X2 sont indépendantes et si fX et fX existent alors


1 2

∀(x1 , x2 ) ∈ R2 , fX (x1 , x2 ) = fX1 (x1 )fX2 (x2 ).

Remarque 3.1.6. Les résultats ci-dessus sont également valables dans le cas d'un vecteur aléatoire X=
(X1 , . . . , Xn ). Par exemple, si X1 , . . . , Xn sont des v.a. indépendantes alors,

n
Y
∀(x1 , . . . , xn ) ∈ Rn , FX (x1 , . . . , xn ) = FXi (xi ).
i=1

41
3.2 Espérance mathématique A. Zoglat

3.2 Espérance mathématique


Dénition 3.2.1. Soit X:Ω→S⊂R une v.a. On appelle espérance mathématique ou moyenne de X
et on note E[X] ou µX la quantité


P
x PX (x) si S est ni ou dénombrable,


x∈S
E[X] =
R ∞ x f (x) dx

si FX est dérivable.
−∞ X

Exemple 3.2.1.
• Soit X la v.a. dont la loi est donnée par

1 3 2
PX (−3) = , PX (1) = , PX (2) = .
6 6 6

Comme PX (−3) + PX (1) + PX (2) = 1, la v.a. X est à valeurs dans S = {−3, 1, 2}. Son espérance

mathématique est donnée par

1 3 2 2
E[X] = −3 × +1× +2× = .
6 6 6 3

• Soit X la durée de vie, en heures, d'une lampe électrique (voir Exemple 3.1.5). Sa fdp est donnée par

fX (x) = e−x si x≥0 et 0 sinon. Calculons E[X].


Z ∞
E[X] = xfX (x) dx
Z−∞

= xfX (x) dx car fX (x) = 0 pour x<0
0
Z a
= lim xe−x dx
a→∞ 0
 Z a 
−x a −x

= lim −xe 0
+ e dx
a→∞ 0

= 1.

3.2.1 Propriétés de l'espérance mathématique


Ci-après sont quelques propriétés de l'espérance mathématique qui nous seront utiles plus tard.

1- Pour tout a ∈ R, on a E[a] = a.


2- Pour a, b ∈ R et X, Y : Ω → S deux v.a. E[a X + b Y ] = a E[X] + b E[Y ].
3- Soient X : Ω −→ S une v.a. et g : S −→ R une fonction. Quand ça existe,

 X


 g(x) P{X = x} Si S est ni ou dénombrable,

E[g(X)] = x∈S
Z

 g(x) fX (x) dx fX

 Si existe.
R

42
A. Zoglat 3.3 Variance

4- Si X, Y : Ω → S sont deux v.a. telles que P{X ≤ Y } = 1, alors E[X] ≤ E[Y ]


5- Soient X, Y : Ω → S deux v.a. indépendantes. Alors

E[X Y ] = E[X] E[Y ].

3.3 Variance
Dénition 3.3.1. Soit X:Ω→S une v.a. de moyenne µX On appelle variance de X et on note Var[X] la

quantité
h i
Var[X] = E (X − µX )2 .

Le résultat suivant est souvent utile pour calculer une variance.

Proposition 4. Soit X:Ω→S une v.a., alors on a

Var(X) = E[X 2 ] − µX2 .

Remarque 3.3.1. La variance d'une v.a. aléatoire X mesure la dispersion des valeurs de X par rapport à

la moyenne µX . En particulier, lorsque Var(X) = 0 on a X ≡ µX .

3.3.1 Propriétés de la variance


Soient a, b ∈ R deux constantes et X, Y : Ω → S deux v.a.

• Var(X + a) = Var(X).
• Var(a X) = a2 Var(X).
 
• Var(X + Y ) = Var(X) + Var(Y ) + 2E (X − µX )(Y − µY ) .

Démonstration. Nous allons démontrer ces propriétés pour des v.a. discrètes, le cas de v.a. admettant des

fdp peut être traité en utilisant les même arguments et en remplaçant les sommes par des intégrales.

• Posons Y = a X + b = f (X), avec f (x) = ax + b. Alors

  X X X X
E Y2 = (f (x))2 PX (x) = a2 x2 PX (x) + b2 PX (x) + 2ab x PX (x)
x∈S x∈S x∈S x∈S

= a2 E X 2 + b2 + 2ab µX .
 

D'autre part, on a

µY2 = (a µX + b)2 = a2 µX2 + 2ab µX + b2 .


 2    
D'où, Var(Y ) = E Y − µY2 = a2 E X 2 − µX2 = a2 Var(X).
h 2 i
• On a Var(X + Y ) = E (X − µX ) + (Y − µY ) . Il sut donc de développer le carré et d'appliquer les

propriétés de linéarité de l'espérance mathématique pour avoir le résultat.

43
3.3 Variance A. Zoglat

Dénition 3.3.2. covariance


h i
Soient X, Y : Ω → S deux v.a. La quantité E (X − µX )(Y − µY ) s'appelle la

de X et Y.

Proposition 5. indépendantes, alors E


h i
Si X, Y : Ω → S sont deux v.a. (X − µX )(Y − µY ) = 0 et

∀a, b ∈ R, Var(a X + b Y ) = a2 Var(X) + b2 Var(Y ).

Plus généralement, si X1 , X2 , . . . , Xn : Ω → S sont des v.a. 2 à 2 indépendantes alors

Var(X1 + . . . + Xn ) = Var(X1 ) + . . . + Var(Xn ).

44
Chapitre 4

Lois de Probabilité Classiques


Dans ce chapitre nous allons présenter quelques lois de probabilités parmi les plus utilisées dans la

pratique. Nous commençons par des exemples de v. a., dites discrètes, à valeurs dans des ensembles nis ou

dénombrables. Les v. a. dont la loi de probabilité admet une fonction densité de probabilité (fdp) sont dites

continues. Quelques exemples de v. a. continues font l'objet de la deuxième partie de ce chapitre.

4.1 Lois discrètes


4.1.1 Loi de Bernoulli
Une loi de Bernoulli est celle d'une v. a. résultat d'une expérience à deux issues possibles : succès et

échec.

Dénition 4.1.1. On dit qu'une v. a. X suit une loi de Bernoulli de paramètre p ∈ [0, 1] et on note

X ∼ Bernoulli(p) si sa loi est donnée par

PX (1) = p et PX (0) = 1 − p.

Proposition 6. Soit X ∼ Bernoulli(p), alors

E[X] = p et Var(X) = p(1 − p).

4.1.2 Loi Binômiale


Une expérience à deux issues possibles,succès et échec, est répétées n fois dans les mêmes conditions

de sortes que les résultats soient mutuellement indépendants. Notons p ∈ [0, 1] la probabilité du succès

et, pour i = 1, . . . , n, Xi le résultat de la i


ème expérience. Ces v. a. sont mutuellement indépendantes

et suivent la même loi de Bernoulli(p). Avec ces notations, si X désigne le nombre total de succès, alors

45
4.1 Lois discrètes A. Zoglat

X = X1 + X2 + . . . + Xn . Il est alors facile de calculer E[X] et Var[X] avant même de calculer PX . En eet

on a

E[X] = E[X1 + X2 + . . . + Xn ] = E[X1 ] + E[X2 ] + . . . + E[Xn ] = np,

Var(X) = Var(X1 + X2 + . . . + Xn ) = Var(X1 ) + Var(X2 ) + . . . + Var(Xn ) = np(1 − p).

La v. a. X est à valeurs dans {0, 1, 2, . . . , n}. Déterminons sa loi PX .


Pour tout i ∈ {1, 2, . . . , n}, on note Ai l'événement le résultat de la i
ème expérience et un succès et Ai son

complémentaire. Par indépendance on a

∀k ∈ {0, 1, 2, . . . , n}, P{Ai1 ∩ Ai2 ∩ . . . ∩ Aik ∩ Aik+1 ∩ Aik+2 ∩ . . . ∩ Ain } = pk (1 − p)n−k .

L'événement Ai1 ∩ Ai2 ∩ . . . ∩ Aik ∩ Aik+1 ∩ Aik+2 ∩ . . . ∩ Ain signie en particulier qu'il y a eu k succès et

n−k échecs. Le nombre des diérents événements de ce genre est égal au nombre de possibilités de choisir

k expériences parmi n. Ils sont tous de même probabilité et leur réunion est égale à l'événement {X = k}.
Ainsi on a

∀k ∈ {0, 1, 2, . . . , n}, PX (k) = P{X = k} = Ckn pk (1 − p)n−k .


Dénition 4.1.2. On dit qu'une v. a. X : Ω → {0, 1, 2, . . . , n} suit une loi binômiale de paramètres n et
p et on note X ∼ Binômiale(n, p) si

∀k ∈ {0, 1, 2, . . . , n}, PX (k) = Ckn pk (1 − p)n−k .

Exemple 4.1.1. Les réacteurs d'un avion peuvent, chacun avec probabilité 1−p, tomber en panne en cours de
vol. Les défaillances se produisent indépendamment les unes des autres. L'avion peut terminer sans diculté

son vol si au moins la moitié de ses réacteurs fonctionnent. Pour quelles valeurs de p les quadriréacteurs

sont-ils préférables aux biréacteurs ?

Du fait de l'indépendance des défaillances le nombre X de réacteurs opérationnels jusqu'à la n du vol

est une variable aléatoire qui suit une loi Binômiale. La probabilité pour un quadriréacteur d'achever son vol

est donc

P{X ≥ 2} = P{X = 2} + P{X = 3} + P{X = 4} = C24 p2(1 − p)2 + C34p3(1 − p) + C44p4(1 − p)0
= 6p2 (1 − p)2 + 6p3 (1 − p) + p4 .

Alors que pour un biréacteur, cette probabilité vaut

P{X ≥ 1} = P{X = 1} + P{X = 2} = C12 p(1 − p) + C22p2(1 − p)0


= 2p(1 − p) + p2 .

46
A. Zoglat 4.1 Lois discrètes

Le quadriréacteur est donc plus sûr lorsque 6p2 (1 − p)2 + 6p3 (1 − p) + p4 ≥ 2p(1 − p) + p2 ou de façon

équivalente, si 6p(1 − p)2 + 6p2 (1 − p) + p3 ≥ 2 − p. Après simplication et factorisation cette inéquation


2
devient (p − 1)2 (3p − 2) ≥ 0. Ce qui est équivalent à p≥ .
3
Ainsi les quadriréacteurs sont préférables sur le point de la sécurité du système de propulsion lorsque
2
chaque réacteur fonctionne jusqu'à la n du vol avec une probabilité supérieure ou égale à . Dans le cas
3
contraire, un biréacteur est plus sûr.

4.1.3 Loi Multinômiale


C'est une généralisation immédiate de la loi Binômiale. Considérons une expérience dont les résultats

possibles R1 , R2 , . . . , Rk peuvent se réaliser avec les probabilités respectives p1 , p2 , . . . , pk . On répète cette

expérience n fois et on note xi le nombre de fois où le résultat Ri se réalise, pour i ∈ {1, 2, . . . , k}. Il est clair

que
k
X k
X
pi = 1 et xi = n.
i=1 i=1

Résultat : Soient x1 , x2 , . . . , xk ∈ {0, 1, 2, . . . , n} tels que x1 +x2 +. . .+xk = n et A(x1 , . . . , xk ) l'événement


Obtenir xi fois le résultat Ri , pour i = 1, 2, . . . , k . Alors

n!
P{A(x1 , . . . , xk )} = px1 px2 . . . pxk k .
x 1 ! x 2 ! . . . xk ! 1 2

Exemple 4.1.2. On jette 6 fois deux pièces équilibrées. Calculer la probabilité d'obtenir 2 fois  2 Faces, 1

fois  2 Piles et 3 fois  1 Pile et 1 Face.

On dénit les résultats d'un lancer des 2 pièces suivants :

R1 = Obtenir 2 Faces, R2 = Obtenir 2 Piles et R3 = Obtenir 1 Face et 1 Pile. On a alors,

1 1 1
P{R1 } = = p1 , P{R2 } = = p2 , P{R3 } = = p3 .
4 4 2

Pour i = 1, 2 ou 3, on note xi le nombre de fois l'événement Ri a été observé. Alors on a

6!
P{A(2, 1, 3)} = (0.25)2 (0.25)1 (0.5)3 .
2!1! 3!

Exemple 4.1.3. Dans une chaîne de production, 95% des articles ne présentent aucun défaut de fabrication,

3% présentent un défaut de  type 1 et 2% présentent un défaut de  type 2. Un contrôleur de qualité prélève

20 articles pour inspection. Quelle est la probabilité qu'il trouve au moins 2 articles qui présentent un défaut

de type 1 ou au moins 2 articles qui présentent un défaut de type 2.

47
4.1 Lois discrètes A. Zoglat

On dénit les résultats, d'inspection d'un articles, suivants :

R0 = l'article ne présente aucun défaut  ,

R1 = l'article présente un défaut de type 1  et

R2 = l'article présente un défaut de type 2 .

On a alors,

P{R0 } = p0 = 0.95, P{R1 } = p1 = 0.03, P{R2 } = p2 = 0.02.

Pour i = 0, 1 ou 2, on note Xi le nombre de fois l'événement Ri a été observé. Soit A l'événement déni par

A = {X1 ≥ 2} ∪ {X2 ≥ 2}. on alors,

P{A} = 1 − P{A}
 
= 1 − P{A(20, 0, 0)} + P{A(19, 1, 0)} + P{A(19, 0, 1)} + P{A(18, 1, 1)}
X 20! 20−i−j
=1− p0 pi1 pj2 .
i! j!
0≤i,j≤1

4.1.4 Loi Géométrique


Considérons une expérience aléatoire à deux issues possibles,succès et échec, et soit p la probabilité

du succès. On répète cette expérience jusqu'à l'obtention du premier succès et on note X le nombre d'essais

eectués. La v. a. X est à valeurs dans N∗ et sa loi est donnée par

∀k ≥ 1, fX (k) = p (1 − p)k−1 .

On dit que X suit la loi géométrique de paramètre p et on note X ∼ G éométrique(p).

Exemple 4.1.4. Une urne contient N boules blanches et M noires. On tire des boules une par une avec

remise jusqu'à l'apparition d'une noire. Quelle est la probabilité qu'il faille exactement n tirages ?

Désignons par X le nombre de tirages nécessaires jusqu'à l'apparition de la première boule noire. La
M
probabilité de succès est p= , d'où
N +M
 N n−1 M
P{X = n} = .
N +M N +M

Proposition 7. Soit X ∼ G éométrique(p) une v. a., alors

1 1−p
E[X] = et Var(X) = .
p p2

Démonstration. La preuve de ce résultat est laissée en exercice.

48
A. Zoglat 4.1 Lois discrètes

4.1.5 Loi de Poisson


La loi de Poisson est un modèle approprié pour certains types de v. a. qui comptent le nombre de

réalisation d'un événement rare pendant un intervalle de temps ou d'espace donné. On cite ci-dessous

quelques exemples :

• le nombre de fautes de frappe par page ou groupe de pages d'un livre,

• le nombre d'individus dépassant l'âge de 100 ans dans une communauté humaine,

• le nombre de faux numéros téléphoniques composés en un jour,

• le nombre de paquets de biscuits pour chien vendus dans un magasin donné en l'espace d'un jour,

• le nombre de particules α émises par un matériau radioactif pendant un certain laps de temps.

Dénition 4.1.3. On dit qu'une v. a. X suit une loi de poisson de paramètre λ et on note X ∼ Poisson(λ) si

sa loi est donnée par


λk
∀k ∈ N, PX (k) = P{X = k} = e−λ .
k!

Les situations où un événement particulier se reproduit à intervalles réguliers au cours du temps peuvent

fournir des cas d'application de la loi de Poisson. On peut citer comme exemple d'un tel événement un trem-

blement de terre, ou l'entrée d'une personne dans un établissement donné (banque, poste, station d'essence,

etc.) Supposons que l'on ait aaire à de tels événements et qu'en plus il existe une constante positive λ pour

laquelle les conditions suivantes soient vériées :

Condition I : La probabilité qu'exactement 1 événement se produise dans un intervalle de temps de durée


h est la même pour tous les intervalles de ce genre et vaut λh + o(h), où o(h) désigne toute fonction f (h)
f (h)
telle que limh→0 = 0.
h
Condition 2 : La probabilité que deux événements ou plus se produisent dans un laps de temps de durée h
est la même pour tous les laps de temps de même durée et vaut o(h).
Condition 3 : Pour tout ensemble {I1 , I2 , . . . , In } d'intervalles disjoints, on note XIi le nombre d'événements
qui se produisent durant l'intervalle Ii . Les v. a. X1 , . . . , Xn sont mutuellement indépendantes.

En termes approximatifs, les conditions 1 et 2 établissent que lorsque h est petit, la probabilité d'observer
exactement 1 événement durant un intervalle de longueur h est λh plus quelque chose de petit comparé à h,
tandis que celle d'observer deux événements ou plus est petite comparée à h. La condition 3 garantit que ce

qui se passe au cours d'un intervalle n'a pas d'inuence sur ce qui arrive durant tout autre intervalle disjoint

du premier.

On montre que sous les trois conditions précitées, le nombre d'événements survenant dans un laps de

temps d'origine quelconque et de durée t est une variable aléatoire de Poisson avec paramètre λt.

Remarque 4.1.1. Le paramètre λ pour une loi de Poisson représente le taux moyen d'événements par unité

49
4.1 Lois discrètes A. Zoglat

de temps (ou d'espace).

Proposition 8. Soit X une v. a. qui suit une loi de Poisson(λ), alors

E[X] = λ et Var(X) = λ.

Démonstration. D'après la dénition de l'espérance on a

X λk X λk−1 X λj
E[X] = e−λ k = e−λ λ = λ e−λ = λ.
k! (k − 1)! j!
k≥0 k≥1 j≥0
X λk X λk−1 X λk−1
E(X 2 ) = e−λ k 2 = e−λ λ k = e−λ λ (1 + (k − 1))
k! (k − 1)! (k − 1)!
k≥0 k≥1 k≥1
 X λj X λj 
= λ e−λ + e−λ j = λ(1 + λ).D'où
j! j!
j≥0 j≥0
2
Var(X) = E[X 2 ] − E[X] = λ.

Proposition 9. Soient X1 et X2 deux v. a. indépendantes et telles que :


X1 ∼ Poisson(λ1 ) et X2 ∼ Poisson(λ2 ).
Alors X1 + X2 ∼ Poisson(λ1 + λ2 ).

Démonstration. Soit n ∈ N,
n
X n
X
P{X1 + X2 = n} = P{X1 + X2 = n, X2 = k} = P{X1 = n − k, X2 = k}
k=0 k=0
Xn
= P{X1 = n − k}P{X2 = k} (par indépendance)
k=0
n
X λn−k
1 e−λ1 λk2 e−λ2
=
(n − k)! k!
k=0
n
1 X n!
= e−(λ1 +λ2 ) λn−k λk2
n! k! (n − k)! 1
k=0
(λ1 + λ2 )n
= exp (−λ1 − λ2 ) .
n!

Remarque 4.1.2. Il est clair que si X1 , . . . , Xn sont des v. a. mutuellement indépendantes telles que Xi ∼
Poisson(λi ), alors X1 + X2 + . . . + Xn ∼ Poisson(λ1 + λ2 + . . . + λn ).

Exemple 4.1.5. Les clients arrivent à un guichet automatique au taux moyen de 1.9 clients par minute.

50
A. Zoglat 4.1 Lois discrètes

1- Quelle est la probabilité qu'au cours d'une minute donnée, le nombre de clients qui arrivent au guichet

est égal à 5.

2- Quelle est la probabilité qu'au cours d'un intervalle de 3 minutes, le nombre de clients qui arrivent

au guichet est égal à 8.

Solution :
1- Soit X le nombre de clients qui arrivent au guichet au cours d'une minute. C'est une v. a. qui suit
e−1.9 (1.9)5
une loi de Poisson(λ = 1.9). Ainsi P{X = 5} = .
5!
2- Notons Xi le nombre de clients qui arrivent au guichet durant la ième minute pour i = 1, 2 ou 3. Les

Xi sont indépendantes et suivent la même loi Poisson(λ) = 1.9. Soit Y = X1 + X2 + X3 le nombre de

clients qui arrivent au guichet au cours d'un intervalle de 3 minutes. C'est une v. a. qui suit une loi de
e−5.7 (5.7)8
Poisson(λ0 = 3λ = 5.7). D'où P{Y = 8} = .
8!

4.1.6 Approximation d'une loi binômiale par une loi de Poisson


La loi de Poisson peut être obtenue comme la limite d'une loi Binômiale lorsque le nombre de répétitions

n tend vers l'inni et la probabilité de succès p tend vers 0 de sorte que le produit np = λ reste constant.

Soit X une v. a. qui suit la loi Binômiale(n, p). Pour tout k ∈ {0, 1, . . . n} on a :

n!
PX (k) = pk (1 − p)n−k
k!(n − k)!
n!  λ k  λ n−k
= 1−
k!(n − k)! n n
λ k n! 1  λ n  λ −k
= 1 − 1 −
k! (n − k)! nk n n

Lorsque n → ∞,

λ n! 1  λ n  λ −k λk e−λ
→ 0, → 1, 1− → e−λ , et 1− → 1. D'où PX (k) → .
n (n − k)! nk n n k!

Résultat : L'approximation d'une loi de Binômiale(n, p) par une une loi de Poisson(λ = np) est d'autant

meilleure que n est grand et p est petit.

En règle générale l'approximation est satisfaisante lorsque n ≥ 25 et p ≤ 0.05.

Exemple 4.1.6. On lance deux dés équilibrés 100 fois et on note X le nombre de fois où l'on a obtenu un

double 6. Il est clair que X ∼Binômiale(100, 1/36). Comme n ≥ 25 et p = 1/36 = 0.0278 ≤ 0.05, on peut

faire l'approximation de la loi de X par la loi de Poisson(λ = 2.78). Le tableau suivant donne PX (k) et son

approximation pour diérentes valeurs de k.

51
4.2 Lois continues A. Zoglat

k 0 1 2 3 4 5

PX (k) 0.0596 0.1705 0.2414 0.2255 0.1564 0.0858

Approxiamtion 0.0620 0.1725 0.2397 0.2221 0.1544 0.0858

k 6 7 8 9 10 11

PX (k) 0.0389 0.0149 0.0050 0.0015 0.0004 0.0001

Approxiamtion 0.0398 0.0158 0.0055 0.0017 0.0005 0.0001

Exemple 4.1.7. Un manufacturier sait que 2% des articles qu'il produit sont défectueux. Il choisit au

hasard un échantillon de 30 articles pour inspection. Quelle est la probabilité qu'il trouve au plus 5 articles

défectueux ?

Notons X le nombre d'articles défectueux dans l'échantillon. On a X ∼Binômiale(n, p), avec n = 30 et p=


0.02. Comme n ≥ 25 et p ≤ 0.05 on peut faire l'approximation de la loi de X par la loi de Poisson(λ = 0.6).
Ainsi on a
5 5
X X λk
P{X ≤ 5} = P{X = k} ' e−λ .
k!
k=0 k=0
P5 λk
En calculant les deux sommes, on trouve P{X ≤ 5} = 0.999975 ' k=0 e−λ k! = 0.999961.

4.2 Lois continues


Dans ce paragraphe nous allons présenter quelques lois continues parmi les plus connues.

4.2.1 Loi uniforme


Dénition 4.2.1. On dit qu'une v. a. X suit la loi uniforme sur [a, b], avec a < b et on note X ∼ Uniforme[a, b],
si 
 1
 si x ∈ [a, b],
fX (x) = b − a

0 sinon.

Proposition 10. Si X ∼ Uniforme[a, b] alors on a

• Pour tout A ⊂ R, P{X ∈ A} = P{X ∈ A ∩ [a, b]}.


• La f.r de X est donnée par

0 si x ≤ a,





x−a

FX (x) = si x ∈ [a, b],


 b−a

1 x ≥ b.

si

52
A. Zoglat 4.2 Lois continues

• L'espérance et la variance de X sont données par

a+b (b − a)2
E[X] = et Var(X) = .
2 12

En eet,

Z Z b
1 a+b
E[X] = x fX (x) dx = x dx = .
R b − a a 2
Z b
b2 + ab + a2
Z
1
E[X 2 ] = x2 fX (x) dx = x2 dx = .
R b−a a 3

4.2.2 Loi exponentielle


Considérons une expérience où le nombre d'événements qui se produisent par unité de temps est une v.

a. N ∼ Poisson(λ), pour un λ > 0 donné. On note T le temps qui sépare deux événements consécutifs. C'est

une v. a. dont nous allons déterminer la loi. Il est clair que T est à valeurs dans ]0, ∞[, donc FT (t) = 0 pour

tout t < 0. Soit t ≥ 0, et soit N[0,t] le nombre d'événements qui se produisent au cours de l'intervalle [0, t].
On a N[0,t] ∼ Poisson(λt) et donc

(λt)0
P{T > t} = P{N[0,t] = 0} = e−λt = e−λt .
0!

D'où
 
1 − e−λt

si t ≥ 0, λ e−λt

si t ≥ 0,
FT (t) = et fT (t) =

0 
0
sinon. sinon.

Dénition 4.2.2. On dit qu'une v. a. X suit une loi exponentielle de paramètre λ > 0

et on note X ∼
Exponentielle(λ) si sa fdp est donnée par λ e−λx

si x ≥ 0,
fX (x) =

0 sinon.

Calculons la moyenne et la variance d'une v. a. X ∼ Exponentielle(λ).


Z ∞ Z b h  1
ib Z b
E[X] = xfX (x)dx = lim λx e−λx dx = lim −xe−λx
e−λx dx = . +
0 b→∞ 0 b→∞ 0 0 λ
Z ∞ Z b Z b
h ib  2
E[X 2 ] = x2 fX (x)dx = lim λx2 e−λx dx = lim −x2 e−λx + 2 x e−λx dx = 2 .
0 b→∞ 0 b→∞ 0 0 λ

Ainsi

1 1
E[X] = et Var(X) = .
λ λ2

La loi exponentielle fait partie de la famille des lois Gamma que nous introduisons maintenant.

53
4.2 Lois continues A. Zoglat

4.2.3 Loi Gamma


La loi Gamma est une loi continue qui dépendant de deux paramètres positifs.

Dénition 4.2.3. Soit Y une v. a. à valeurs dans R+ . On dit que Y suit une loi gamma de paramètres α > 0

et β > 0, et on note Y ∼ Γ(α, β), si sa fdp fY est donnée par

β α y α−1 e−β y
∀y ∈ R, fY (y) = I[0,∞[ (y), où
Γ(α)

∞ 1 si y∈A
Z 
Γ(α) = uα−1 e−u du et IA (y) =
0 
0 sinon.

Remarque 4.2.1.
• On a Γ(α + 1) = α Γ(α). En particulier, pour tout n ∈ N, Γ(n + 1) = n!.
Γ(α + 1)
• Un calcul simple montre que si Y ∼ Γ(α, β), alors E[Y ] = .
β Γ(α)
• Lorsque α = 1, on a Γ(1, β) = Exponentielle(1/β).

4.2.4 Loi Normale


La loi normale est sans doute la plus célèbre de toutes les lois de probabilité.

Dénition 4.2.4. On dit que Z suit la loi normale (ou gaussienne) standard et on note Z ∼ N (0, 1) si sa

fdp est donnée par


1 2
∀z ∈ R, fZ (z) = √ e−z /2 .

Proposition 11. Soit Z une v. a. qui suit une loi normale standard N (0, 1). Alors on a

E[Z] = 0 et Var(Z) = 1.

Notation : Dans toute la suite Z désignera une v. a. qui suit la loi normale standard.

La fr FZ est donnée par


Z z
1 2 /2
∀z ∈ R, FZ (z) = √ e−x dx.
2π −∞

Pour tout z ∈ R, FZ (z) est égale à la surface délimitée par l'axe x0 ox, la courbe de la fonction fZ et la droite

x = z.

Remarque 4.2.2. Il existe des tables qui donnent FZ (z) pour les diérentes valeurs de z. Une table de la

loi normale standard est donnée à la n du chapitre. Comme la fdp de Z est une fonction paire, donc admet

un graphe symétrique par rapport à l'axe y'oy, on a :

a- FZ (0) = P{Z ≤ 0} = 0.5. D'où P{Z ≤ z} ≤ 0.5 ⇐⇒ z ≤ 0.

54
A. Zoglat 4.2 Lois continues

Figure 4.1  FZ (z)=surface sous la courbe et à gauche de la droite x=z

b- Pour tout z ≥ 0, FZ (−z) = P{Z ≤ −z} = P{Z ≥ z} = 1 − FZ (z).


c- Pour tout z ≥ 0, P{|Z| ≥ z} = 2P{Z ≤ −z} = 2P{Z ≥ z}.
d- Pour tout z ≥ 0, P{|Z| ≤ z} = 1 − P{|Z| ≥ z} = 1 − 2P{Z ≤ −z} = 1 − 2P{Z ≥ z}.
Ainsi une table de de la loi normale standard permet de calculer P{a ≤ Z ≤ b} pour a, b ∈ R. En eet

P{a ≤ Z ≤ b} = P{Z ≤ b} − P{Z ≤ a}.

Les deux derniers termes sont disponibles sur une table de la loi normale standard.

Il existe d'autres lois normales qui peuvent être obtenues à partir de la loi normale standard.

Soient Z ∼ N (0, 1), µ ∈ R et σ > 0. Déterminons la loi de X = σZ + µ. Il est clair que E[X] = µ et

Var(X) = σ 2 . Soit x ∈ R,
n x − µo x − µ
FX (x) = P{X ≤ x} = P Z ≤ = FZ , d'où
σ σ
1  x−µ  1  (x − µ)2 
fX (x) = fZ = √ exp − .
σ σ σ 2π 2σ 2
Dénition 4.2.5. On dit qu'une v. a. X suit une loi normale de moyenne µ et de variance σ 2 , et on note

X ∼ N (µ, σ 2 ), si sa fdp est donnée par

1  (x − µ)2 
∀x ∈ R, fX (x) = √ exp − .
σ 2π 2σ 2
X −µ
Remarque 4.2.3. On peut facilement vérier que si X ∼ N (µ, σ 2 ) alors ∼ N (0, 1).
σ
Exemple 4.2.1. Soit X ∼ N (23, 1.52 ). P{20 ≤ X ≤ 25}.
Calculer
n 20 − 23 25 − 23 o
P{20 ≤ X ≤ 25} = P ≤Z≤
1.5 1.5
= P{−2 ≤ Z ≤ 1.33} = P{Z ≤ 1.33} − P{Z ≤ −2}

= P{Z ≤ 1.33} − (1 − P{Z ≤ 2})

= 0.90824 − (1 − 0.97725) = 0.88549

55
4.2 Lois continues A. Zoglat

Proposition 12. Soient X1 ∼ N (µ1 , σ12 ), et a, b ∈ R deux constantes données. Alors

a X1 + b ∼ N (aµ1 + b, (aσ1 )2 ).

Si X2 ∼ N (µ2 , σ22 ) est une v. a. indépendante de X1 , alors

a X1 + b X2 ∼ N (aµ1 + bµ2 , a2 σ12 + b2 σ22 ).

Démonstration. La démonstration de la première assertion est laissée en exercice. Nous démontrons la

deuxième assertion, et sans perdre de généralité (justier !), dans le cas de v. a. normales standards. Pour

simplier les notations, on prendra a=1 et b = 1, le cas général peut être traité selon la même démarche.

Soit t∈R et soit D = {(x, y) ∈ R; x + y ≤ t},


Z
P{Z1 + Z2 ≤ t} = P{(Z1 , Z2 ) ∈ D} = fZ1 (u) fZ2 (v) du dv
D
Z ∞ Z t−u
= fZ1 (u) fZ2 (v) du dv
−∞ −∞
Z t Z ∞ 
= fZ1 (u) fZ2 (v − u) du dv
−∞ −∞

Cela montre que la fdp de la v. a. Z1 + Z2 est donnée par

Z ∞
fZ1 +Z2 (v) = fZ1 (u) fZ2 (v − u) du.
−∞

Après un simple calcul de cette intégrale on obtient

2
exp −t
∀t ∈ R, fZ1 +Z2 (v) = √ √2×2 .
2 2π

Nous résumons, dans le tableau suivant, quelques lois de probabilités discrètes :

Loi de Probabilité Paramètres P{X = k} µX σX2

Bernoulli p ∈]0, 1[ pk (1 − p)( 1 − k) p p(1 − p)


Binômiale n ≥ 1, p ∈]0, 1[ Ckn pk (1 − p)n−k np np(1 − p)
1 1−p
Géométrique p ∈]0, 1[ p (1 − p)k−1
p p2
λk
Poisson λ>0 e−λ k! λ λ

Nous résumons, dans le tableau suivant, quelques lois de probabilités continues :

56
A. Zoglat 4.3 Autres Lois Importantes

Loi de Probabilité de X Paramètres fX (x) µX σX2


1 a+b (b − a)2
Uniforme[a, b] a<b∈R I I (x)
b − a [a,b] [a,b] 2 12
1 1
Exponentielle(λ) λ>0 λe−λx I[0,∞[ (x)(x)
λ λ2
1 α α
Gamma(α, β) α, β > 0 β α xα−1 e−βx I[0,∞[ (x)
Γ(α) β β2
1 −(x − µ)2
N (µ, σ 2 ) µ ∈ R, σ > 0 √ exp µ σ2
σ 2π 2σ 2

4.3 Autres Lois Importantes


Dans ce paragraphe nous allons présenter quelques lois classiques qui sont obtenues à partir de la loi

normale. Nous commençons d'abord par quelques préliminaires.

4.3.1 Transformation de vecteurs aléatoires


Transformation de Rd dans R

Soient X = (X1 , . . . , Xd ) un vecteur aléatoire et FX sa fr. Soit ϕ : Rd → R une application telle que

Y = ϕ(X) soit une v.a. Alors l'espérance mathématique de Y , lorsqu'elle existe, est donnée par :

E[Y ] = E[ϕ(X1 , . . . , Xd )]
Z
= ϕ(x1 , . . . , xd )fX (x1 , . . . , xd ) dx1 . . . dxd si fX existe, et
Rd

E[Y ] = E[ϕ(X1 , . . . , Xd )]
X
= ϕ(x1 , . . . , xd )PX (x1 , . . . , xd )
(x1 ,...,xd )

si les Xi sont des v.a. discrètes.

Pour simplier l'écriture on notera

Z
E[Y ] = E[ϕ(X1 , . . . , Xd )] = ϕ(x1 , . . . , xd ) dFX (x1 , . . . , xd ).
Rd

Transformation de Rd dans Rd

Soient X = (X1 , . . . , Xd ) un vecteur aléatoire et FX sa fr. Soit φ = (ϕ1 , . . . , ϕd ) : Rd → Rd une application

telle que Y = φ(X) soit un vecteur aléatoire.

57
4.3 Autres Lois Importantes A. Zoglat

Le Jacobien de φ, noté Jφ , est la fonction dénie sur Rk par

∂ϕ1 ∂ϕ1

(t) . . . (t)
∂t1 ∂tk
. .
∀t = (t1 , . . . , tk ) ∈ Rk ,

Jφ (t) = .. .
.


∂ϕ ∂ϕk
k
(t) . . . (t)
∂t1 ∂tk

Le théorème suivant, connu sous le nom de théorème de changement de variables, est très utile.

Théorème 4.3.1. [de changement de variables] Soit φ = (ϕ1 , . . . , ϕd ) une fonction dénie sur un ouvert B ⊂ Rd
et à valeurs dans Rd . On suppose que

1- Les dérivées partielles premières de φ sont continues sur B.


2- La fonction φ est bijective.

3- Le Jacobien Jφ (.) ne s'annule pas sur B.


Soit f : φ(B) −−−−→ R une fonction (mesurable) telle que

Z
|f (x)| dx < ∞.
φ(B)

Alors pour tout K ⊂ φ(B) (mesurable) on a

Z Z
f (x) dx = f (φ(t)) |Jφ (t)| dt.
K φ−1 (K)

Dans ces expressions et dans la suite,  du désigne  du1 . . . duk  et φ−1 désigne la fonction inverse de φ.
1
Rappelons que Jφ−1 (t) = . Il s'ensuit que si φ vérie les conditions du théorème de changement
Jφ (φ−1 (t))
de variables, alors φ−1 les vérie aussi.

Le théorème suivant permet de calculer la fdp de Y = φ(X) à partir de celle de X.

Théorème 4.3.2. Soient X = (X1 , . . . , Xd ) un vecteur aléatoire à valeurs dans un ouvert S ⊂ Rd , fX sa fdp et

g = (g1 , . . . , gd ) : Rd → Rd une fonction vériant les conditions du Théorème 4.3.1.

Posons Y = g(X), alors on a

fX g −1 (y)

−1

fY (y) = fX g (y) |Jg−1 (y)| = .
|Jg g −1 (y) |

Pour illustrer ce théorème, nous démontrons le résultat suivant :

Proposition 13. Soient Z1 ∼ N (0, 1) et Z2 ∼ N (0, 1) deux v.a. indépendantes. Alors, pour tout couple de

réels (a1 , a2 ) 6= (0, 0), la v.a. X = a1 Z1 + a2 Z2 est normale de moyenne µ=0 et variance σ 2 = a21 + a22 .

58
A. Zoglat 4.3 Autres Lois Importantes

Démonstration. Il est clair que la moyenne et la variance de X sont données par les formules ci-dessus. Seule

l'assertion X ∼ N (0, σ 2 ), lorsque a1 6= 0 et a2 6= 0, mérite une preuve.

Considérons la bijection g : (x, y) 7→ (x, a1 x + a2 y). Sa fonction réciproque est donnée par g −1 : (u, v) 7→
(u, a2−1 (v − a1 u)). On a alors |Jg−1 (u, v)| = |1/a2 |, d'où

 v − a u 1
1
f(Z1 ,X) (u, v) = f( Z1 ,Z2 ) u, (Théorème 4.3.1)
a2 |a2 |
1  v − a1 u 
= fZ1 (u) fZ2 (Indépendance)
|a2 | a2

La densité de X s'obtient en intégrant f(Z ,X) (u, v) par rapport à


1
u, i.e.

Z
fX (v) = f(Z1 ,X) (u, v)du.
R

on obtient alors

 
v − a1 u
Z
1
fX (v) = f (u) fZ2 du
|a2 | R Z1 a2
(v − a1 u)2
Z   
1 1 1 1
= √ √ exp − u2 + du
|a2 | 2π 2π R 2 a22
1 a22 u2 + (v − a1 u)2
Z  
1 1 1
= √ √ exp − du.
|a2 | 2π 2π R 2 a22

Or,

a22 u2 + (v − a1 u)2 a2 u2 + v 2 + a21 u2 − 2u(a1 v)


2 = 2
a2 a22
v 2 + u2 (a22 + a21 ) − 2u(a1 v)
=
a22
!2
p a1 v a21 v 2
v2 + u a22 + a21 − p 2 −
a2 + a21 a22 + a21
= ,
a22
!2
p a1 v
u a22 + a21 − p 2
v2 a2 + a21
= + , d'où
a22 + a21 a22

59
4.3 Autres Lois Importantes A. Zoglat

v2
 
1
fX (v) = √ exp − ×
|a2 | 2π 2(a22 + a21 )
 2
a v
p
Z u a2 + a1 − √ 2 2
2 2 1
1 1 a2 +a1
√ exp − 2 du
2π R 2 a2
v2 (a22 + a21 ) 2
  Z  
1 1
= √ exp − √ exp − u du
|a2 | 2π 2(a22 + a21 ) 2π R 2a22
v2 u2
  Z  
α 1
= √ exp − √ exp − 2 du,
|a2 | 2π 2(a22 + a21 ) α 2π R 2α
s
v2 a22
 
α 1
= √ exp − où α =
|a2 | 2π 2(a22 + a21 ) a21 + a22
v2
 
1
=p exp − .
2π(a22 + a21 ) 2(a22 + a21 )

Le Théorème 4.3.2 prend une forme particulière dans le cas d'une application ane dans Rn .
Rappelons qu'une application g : Rd −−−−→ Rd est dite ane s'il existe une d × d matrice A et un vecteur
c = (c1 , . . . , cd ) ∈ Rd tels que, pour tout x = (x1 , . . . , xd ) ∈ Rd , g(x) = x A + c. Si c = 0, on dit que g est

une application linéaire.

Soit g(x) = x A + c une application ane sur Rd . On montre facilement que g est injective si, et seulement

si, la matrice A est inversible. Dans ce cas on a

∀y ∈ Rd , g −1 (y) = (y − c) A−1 .

Corollaire. Soient g est une application ane injective sur Rd , et X un vecteur aléatoire de Rd . Alors la fdp

de Y = g(X) est donnée par


fX (y − c) A−1

d
∀y ∈ R , fY (y) = .
| det A|

4.3.2 Lois fonctions de lois normales


Comme applications des résultats du paragraphe précédent, nous allons construire de nouvelles v.a. et

établir des résultats très utiles en statistique.

Proposition 14. Soient X1 et X2 deux v.a. indépendantes dont les fdp respectives sont notées f1 et f2 . Alors

la v.a. X = X1 + X2 admet une fdp donnée par

Z
∀x ∈ R, fX (x) = f1 (x − u) f2 (u) du.
R

60
A. Zoglat 4.3 Autres Lois Importantes

Démonstration. Soit la fonction g : R2 → R2 dénie par : ∀(x1 , x2 ) ∈ R2 , g(x1 , x2 ) = (x1 + x2 , x2 ). La

fonction g est inversible et on a g −1 (y1 , y2 ) = (y1 −y2 , y2 ) et |Jg−1 (y1 , y2 )| = 1. D'où, en posant X = (X1 , X2 )
et Y = g(X),

fY (y1 , y2 ) = fX g −1 (y1 , y2 ) |Jg−1 (y1 , y2 )|




= fX y1 − y2 , y2 ) = f1 (y1 − y2 ) f2 (y2 ).

En intégrant par rapport à y2 on obtient le résultat.

Proposition 15. Soient Y1 ∼ Γ(α1 , β) et Y2 ∼ Γ(α2 , β) deux v.a. indépendantes. Alors

Y1 + Y2 ∼ Γ(α1 + α2 , β).

Démonstration. Posons Y = Y1 + Y2 et notons fY sa fdp. Par indépendance de Y1 et Y2 , on a pour tout y ∈ R


Z
fY (y) = fY1 (y − t) fY1 (t) dt
R
Z y
1
= β α1 +α2 (y − t)α1 −1 tα2 −1 exp(−β y) dt
Γ(α1 )Γ(α2 ) 0
β α1 +α2 y α1 +α2 −1 e−β y y t α1 −1 t α2 −1 dt
Z    
= 1−
Γ(α1 )Γ(α2 ) 0 y y y

Z 1
1
= β α1 +α2 y α1 +α2 −1 e−β y (1 − u)α1 −1 uα2 −1 du
Γ(α1 )Γ(α2 ) 0
| {z }
=C
α1 +α2 α1 +α2 −1 −β y
=Cβ y e .

1 R∞
Comme fY est une fdp, on a = 0 β α1 +α2 y α1 +α2 −1 e−β y dy = Γ(α1 + α2 ).
C
Remarquons que cette dernière égalité montre que

Z 1
Γ(α1 )Γ(α2 )
(1 − u)α1 −1 uα2 −1 du = .
0 Γ(α1 + α2 )

Loi de Khi-deux
1
Dénition 4.3.1. Soit Y une v.a. qui suit une loi Γ(α, β). Si 2α = n ∈ N∗ et β= , on dit que Y suit une loi
2
de khi-deux à n degrés de liberté et on note Y ∼ χ2n .

Nous sommes maintenant en mesure d'énoncer et démontrer le résultat suivant :

Théorème. [Expression de χ2 ] Soit Z1 , . . . , Z n des v.a. indépendantes et de même loi N (0, 1). La v.a. X =
Z12 + . . . + Zn2 suit une loi de khi-deux à n degrés de liberté, i.e. X ∼ χ2n .

61
4.3 Autres Lois Importantes A. Zoglat

Démonstration. Il sut de montrer que Z12 ∼ χ21 puis d'appliquer la Proposition 15 pour conclure.

Soit x≥0 un réel,

√ √
P{Z12 ≤ x} = P{|Z1 | ≤ x} = 2P{0 ≤ Z1 ≤ x}
Z √x
1 −u2
= 2√ exp du
2π 0 2
Z x
1 1 −v 2
=√ √ exp dv (On pose u = v )
2π 0 v 2

On en déduit que la fdp de Z12 est donnée par

1 −x
fZ 2 (x) = √ x−1/2 exp I (x)
1 2π 2 [0,∞[

qui est bien la fdp d'une v.a. de loi Γ( 12 , 21 ).

Corollaire. Soit X1 , . . . , Xn des v.a. indépendantes et de même loi N (µ, σ 2 ), alors

n 
Xi − µ 2
X 
∼ χ2n .
σ
i=1

Loi de Student
Dénition 4.3.2. On dit qu'une v.a. T suit une loi de Student à n degrés de liberté, et on note T ∼ tn , si sa

fdp est donnée par


Γ( n+1
2 ) √1 1
∀t ∈ R, fT (t) = n p .
Γ( 2 ) nπ (1 + t2 /n)n+1

Remarque. La loi de Student à n=1 degrés de liberté s'appelle la loi de Cauchy.

Théorème. [Expression de tn ] Soient Z ∼ N (0, 1) et X ∼ χ2n deux v.a. indépendantes. Alors

Z
p ∼ tn .
X/n

Démonstration. Nous allons simplement indiquer les diérentes étapes de la démonstration. Les détails re-

posent sur les techniques d'intégration.



x n
Considérons la fonction h : R × R∗+
→ R2 dénie par
h(x, y) = x, √ . En utilisant le théorème de chan-
y

Z n R
gement de variable on a la fdp de la v.a. (Z, U ) = Z, p . D'où on déduit f (u) =
U R f(Z,U ) (z, u) dz .
χ2n

Le théorème suivant est très utile et s'applique dans de nombreuses situations.

Théorème. Soit Z1 , . . . , Z n des v.a. indépendantes et de même loi normale standard, alors

62
A. Zoglat 4.3 Autres Lois Importantes

Pn Pn
i=1 Zi 2 − Z)2
i=1 (Zi
1- La moyenne Z= et la variance S = sont indépendantes.
n n−1
2- La v.a. (n − 1) S 2 ∼ χ2n−1 .
√ Z
3- La v.a. n ∼ tn−1 .
S

Démonstration. Nous démontrons d'abord le lemme suivant.

Lemme. Soit Z = (Z1 , . . . , Zn ) un vecteur dont les composantes sont des v.a. indépendantes et de même loi

N (0, 1), et soit A une matrice orthogonale (i.e. AAt = I ou encore A−1 = At , où At est la matrice transposée

de A).
Le vecteur aléatoire Z A = Y = (Y1 , . . . , Yn ) est à composantes indépendantes et de même loi N (0, 1).

Preuve du Lemme : Posons A = (aij )1≤i,j≤n . Alors , pour tout i ∈ {1, . . . , n}, on a Yi =
P
j aji Zi .
σi2 = a2ji .
P
D'après la Proposition 13, Yi est une v.a. normale de moyenne 0 et de variance j Comme

At A = I, a2ji = 1 σi2 = 1.
P
on a j et donc

Pour montrer l'indépendance calculons la fdp de Y. D'après le Corollaire de la page 40, on a

fZ (yAt )
∀y ∈ Rn , fY (y) = = fZ (yAt ) car | det A| = 1.
| det A|
Posons yAt = u = (u1 , . . . , un ), on a alors

X
∀i ∈ {1, . . . , n} ui = aij yj , d'où
j

n n
Y 1 −1 X 2
fY (y) = fi (ui ) = √ exp ui . où fi est la fdp de Zi .
( 2π)n 2
i=1 i=1

Remarquons que
n
X XX X X
u2i = aij yj aik yk = yk yj aij aik .
i=1 i j,k j,k i

1

si j=k
AAt = I,
P
Et comme on a i aij aik =

, d'où
0 sinon

n
1 −1 X 2
fY (y) = √ exp yi .
( 2π)n 2
i=1

Ce qui termine la preuve du lemme.

Preuve du Théorème : Soit A = (aij )1≤i,j≤n une matrice orthogonale dont la première colonne est

 
√1
n
.

a1 =  . .
 
.
 
√1
n

63
4.3 Autres Lois Importantes A. Zoglat

La construction d'une telle matrice peut se faire selon le procédé de Gram-Schmidt pour la construction

d'une base orthonormale.

Posons Y = Z A. D'après le Lemme, Y est un vecteur dont les composantes sont indépendantes et de même
Y1 2
loi N (0, 1). D'après la dénition de A, on a Z=√ et donc nZ = Y12 .
n

Comme A est orthogonale, on a

n
X n
X
t
Yi2 t
= YY = (Z A) (Z A) = Zi2 , d'où
i=1 i=1

n n n n
X X X 2 X 2
Yi2 = Zi2 − Y12 = Zi2 − nZ = Zi − Z .
i=2 i=1 i=1 i=1
Pn
Les Yi étant indépendantes, on conclut que (n − 1)S 2 = Yi2 , est indépendante de Z
i=2 qui est fonction

(n − 1)S 2 = ni=2 Yi2 ∼ χ2n−1 .


P
de Y1 . De plus les Yi sont de même loi N (0, 1), d'où

La troisième assertion découle des deux précédentes.

Dans le cas de v.a. de loi normale quelconque,le théorème précédent s'énonce

Corollaire. Soit X1 , . . . ,P
Xn des v.a. indépendantes et de même loi normale N (µ, σ 2 ), alors
n
i=1 Xi S2 1 Pn Xi − X 2
1- La moyenne X= et la variance = sont indépendantes.
n σ2 n − 1 i=1 σ
S2
2- La v.a. (n − 1) 2 ∼ χ2n−1 .
σ
√ X −µ
3- La v.a. n ∼ tn−1 .
S

Xi − µ
Démonstration. Il sut de remarquer que, pour tout i = 1, . . . , n, = Zi ∼ N (0, 1) et d'appliquer le
σ
théorème précédent.

Loi de Snedecor
Cette loi a été introduite par Snedecor et est notée F en l'honneur de Sir Ronald Fisher.

Dénition 4.3.3. On dit qu'une v.a. U suit une loi F à n et m degrés de liberté, et on note U ∼ Fn,m , si sa

fdp est donnée par

Γ( n+m2 )
 n n/2 u(n/2)−1
∀u ∈ R+ , fU (u) = n m p .
Γ( 2 ) Γ( 2 ) m (1 + (n/m)u)n+m

64
A. Zoglat 4.4 Lois conditionnelles

En pratique, les v.a. qui suivent une la loi de Snedecor sont souvent sous la forme décrite dans le théorème

suivant

X1 /n
Théorème. Soient X1 ∼ χ2n et X2 ∼ χ2m deux v.a. indépendantes. Alors le ratio ∼ Fn,m .
X2 /m

1
Corollaire 1. Soit U ∼ Fn,m , alors ∼ Fm,n .
U
Il existe des tables où l'on trouve les valeurs usuelles des probabilités relatives aux lois de student, de

khi-deux et de Fisher.

4.4 Lois conditionnelles


Nous avons déjà vu que, pour toute paire d'événements E et F, la probabilité conditionnelle de E sous

condition que F soit réalisé est, pour autant que P{F } =


6 0,
P{E ∩ F }
P{E/F } = .
P{F }
Dans ce paragraphe, nous étudierons la notion de loi de probabilité conditionnelle.

4.4.1 Cas de lois discrètes


Soit X = (X, Y ) un vecteur aléatoire à valeur dans un espace discret S = S1 × S2 . On sait que, pour tout
(x, y) ∈ S ,
P{X = (x, y)} = P{X1 = x|X2 = y}P{X2 = y},

d'où la dénition suivante

Dénition 4.4.1. On appelle loi conditionnelle de X sachant que Y = y, et on note PX|Y =y , la quantité

dénie par
P{X = x, Y = y}
∀x, PX|Y =y (x) = .
P{Y = y}

Remarque.
P
En remarquant que, pour tout y , P{Y = y} = x PX (x, y), la loi conditionnelle de X sachant

Y =y s'écrit
PX (x, y)
∀x, PX|Y =y (x) = P .
u PX (u, y)

On dénit également la F. r. conditionnelle de X sachant que Y = y, pour autant que PY (y) 6= 0, par

X
FX/Y =y (x) = P{X ≤ x/Y = y} = PX/Y =y (u, y).
u≤x

On constate donc que les dénitions sont exactement les mêmes que dans le cas où il n'existe pas de condition.

Simplement, les probabilités sont toutes modiées par le fait que l'on sache que Y = y.

65
4.4 Lois conditionnelles A. Zoglat

Proposition 16. Lorsque X et Y sont indépendantes, les lois conditionnelles et non conditionnelles sont iden-

tiques :

∀x, y, P{X = x/Y = y} = P{X = x}.

Exemple 4.4.1. La loi de probabilité conjointe P(X,Y ) de deux variables X et Y est donnée par :

P(X,Y ) (0, 0) = 0.4, P(X,Y ) (0, 1) = 0.2, P(X,Y ) (1, 0) = 0.1, P(X,Y ) (1, 1) = 0.3.

Déterminons la loi conditionnelle de X lorsque Y = l. Calculons d'abord PY (1),

PY (1) = P(X,Y ) (0, 1) + P(X,Y ) (1, 1) = 0.2 + 0.3 = 0.5

La v. a. X ne prend que les valeurs 0 et 1. On a alors

P(X,Y ) (0, 1) 0.2 P(X,Y ) (1, 1) 0.3


PX/Y =1 (0) = = , PX/Y =1 (1) = = .
PY (1) 0.5 PY (1) 0.5

Exemple 4.4.2. Soient X et Y deux variables indépendantes qui suivent respectivement les lois de Poisson

Poisson(λ1 ) et Poisson(λ2 ). Déterminons la loi conditionnelle de X lorsqu'on sait que X + Y = n.

P{X = k, X + Y = n}
PX/X+Y =n (k) = P{X = k/X + Y = n} =
P{X + Y = n}
P{X = k, Y = n − k} P{X = k} P{Y = n − k}
= =
P{X + Y = n} P{X + Y = n}
e−λ1 λk1 e−λ2 λn−k
2
k! (n − k)! n!  λ
1
k  λ
2
n−k
= −(λ +λ ) = .
e 1 2 (λ1 + λ2 )n k!(n − k)! λ1 + λ2 λ1 + λ2
n!
 λ1 
La loi conditionnelle de X sachant X +Y =n est une B inômiale n, .
λ1 + λ2

4.4.2 Cas de lois continues


La dénition de la loi conditionnelle dans le cas continu est une extension naturelle du cas discret.

Dénition 4.4.2. Soient X et Y deux v. a. admettant une densité conjointe f(X,Y ) . On dénit la densité

conditionnelle de X sous la condition Y = y, et lorsque fY (y) > 0 par

f(X,Y ) (x, y) f(X,Y ) (x, y)


fX/Y =y (x) = =Z .
fY (y)
f(X,Y ) (u, y) du

66
A. Zoglat 4.4 Lois conditionnelles

L'usage des densités conditionnelles rend possible le calcul de probabilités d'événements relatifs à une variable

X, sous condition qu'une variable Y ait pris une valeur connue. Nommément, lorsque X et Y possèdent une

fdp conjointe, pour tout événement A relatif à X, on aura


Z
P{X ∈ A/Y = y} = fX/Y =y (u) du.
A

Si en particulier on choisit A = (∞, x], on aboutit à la dénition de la fonction de répartition conditionnelle

de X sous la condition Y = y,
Z x
FX/Y =y (x) = fX/Y =y (u) du.

Exemple 4.4.3. Soient X et Y deux variables ayant pour densité conjointe

12
f(X,Y ) (x, y) = (2 − x − y) I]0,1[×]0,1[ (x, y).
5
Déterminons la densité conditionnelle de X, sachant que Y = y, où 0 < y < 1. Soit 0 < x < 1,
f(X,Y ) (x, y) f(X,Y ) (x, y)
fX/Y =y (x) = =Z ∞
fY (y)
f(X,Y ) (u, y) du
−∞
2−x−y 2−x−y
=Z 1 =
2/3 − y/2
u(2 − u − y) du
0

Exemple 4.4.4. Supposons que X et Y aient pour densité conjointe


x

exp − y +y
f(X,Y ) (x, y) = I]0,∞[×]0,∞[ (x, y).
y
Calculons P{X > 1/Y = y}. Pour cela calculons d'abord la densité conditionnelle de X lorsque Y = y,
x x
 
exp − y +y exp − y +y
y 1 x
fX/Y =y (x) = Z = Z ∞y = exp − .
exp − uy + y exp −y

∞ u y y
du exp − du
y y 0 y
0
Z ∞ Z ∞
1 x 1
P{X > 1/Y = y} = fX/Y =y (x) dx = exp − dx = exp − .
1 1 y y y

4.4.3 Espérance Conditionnelle


L'espérance conditionnelle de X sachant que Y = y est notée E[X/Y = y]. Elle est dénie de façon

naturelle par
X
x PX/Y =y (x) dans le cas de v. a. discrètes,





 x

E[X/Y = y] =



Z

 x fX/Y =y (x) dx
 dans le cas de v. a. à densité.

67
4.4 Lois conditionnelles A. Zoglat

Remarque.
 
E X/Y = y est donc l'espérance de X prise par rapport à sa loi conditionnelle PX/Y =y . Ainsi elle

possède toutes les propriétés d'une espérance.

     
Notons que E X/Y = y est une fonction de y . Ainsi E X/Y une v.a. qui prend les valeurs E X/Y = y
pour les diérentes valeurs y.

Dénition 4.4.3.
 
La v.a. E X|Y s'appelle l'espérance conditionnelle de X sachant Y.

Théorème. [de l'espérance totale]


h  i  
E E X/Y = E X .

Démonstration. Nous démontrerons ce résultat dans le cas discret.

h  i X  
E E X|Y = E X|Y = y PY (y)
y
XX
= x PX/Y =y (x) PY (y)
y x
X X
= x PX/Y =y (x) PY (y)
x y
X X X
= x P(X,Y ) (x, y) = x PX (x)
x y x
 
=E X .

Proposition 17. Si X et Y deux v.a. indépendantes, alors E[X/Y ] = E[X].

Exemple 4.4.5. [Exemple4.4.2 (suite)] Nous avons déjà vu que si X ∼ Poisson(λ1 ), Y ∼ Poisson(λ2 ) et si X
 λ1 
et Y sont indépendantes, alors la loi conditionnelle de X sachant X + Y = n est une B inômiale n, .
λ1 + λ2
D'où,
n
Cnk λ1 k  λ2 n−k λ1
X 
∀n ∈ N, E[X/X + Y = n] = k =n .
λ1 + λ2 λ1 + λ2 λ1 + λ2
k=0
λ1
Ainsi, E[X/X + Y ] = (X + Y ) .
λ1 + λ2
Exemple 4.4.6. [Exemple4.4.4, suite]

Nous avons déjà vu que si X et Y ont pour densité conjointe


x

exp − y +y
f(X,Y ) (x, y) = I]0,∞[×]0,∞[ (x, y),
y
alors la loi conditionnelle de X sachant Y =y est donnée par

1 x
fX/Y =y (x) = exp − . i.e. sachant que Y = y , X ∼ Exponentielle(1/y),
y y
d'où, E[X/Y = y] = y et donc E[X/Y ] = Y .

68
Chapitre 5

Théorèmes limites
Dans ce chapitre nous nous intéressons particulièrement aux comportements asymptotiques des sommes

de v.a. indépendantes et de même loi. Parmi les principaux théorèmes limites qui occupent une place privi-

légiée, aussi bien en théorie qu'en pratique, on peut citer la loi des grands nombres et le théorème central

limite. Nous présenterons ces théorèmes après quelques résultats préliminaires.

5.1 Modes de convergence


Dénition 5.1.1. Soient X, X1 , X2 , . . ., une suite v.a. dénies sur (Ω, F, P). On dit que (Xn )n converge presque
p.s.
sûrement (p.s.) vers X, et on note Xn −−−→ X , si
n→∞


P ω ∈ Ω : lim Xn (ω) = X(ω) = 1.
n

La convergence p.s. pour les v.a. est l'analogue de la convergence simple pour les suites de fonctions. La

proposition suivante caractérise la convergence p.s.

Proposition 18. Soient X, X1 , X2 , . . ., une suite v.a. dénies sur le même espace probabilisé (Ω, F, P). La suite
(Xn )n converge p.s. vers X si, et seulement si, pour tout  > 0,
n o
lim P ω ∈ Ω : sup |Xk (ω) − X(ω)| >  = 0.
n→∞ k≥n

Une version plus faible de ce critère dénit un autre mode de convergence.

Dénition 5.1.2. Soient X, X1 , X2 , . . ., une suite v.a. dénies sur le même espace probabilisé (Ω, F, P). On dit
P
que (Xn )n converge en probabilité vers X, et on note Xn −−−→ X , si pour tout  > 0,
n→∞


lim P ω ∈ Ω : |Xn (ω) − X(ω)| >  = 0.
n

69
5.1 Modes de convergence A. Zoglat

En remarquant que

 
∀n ≥ 1, P ω ∈ Ω : |Xn (ω) − X(ω)| >  ≤ P ω ∈ Ω : sup |Xn (ω) − X(ω)| >  ,
k≥n

on montre la proposition suivante.

Proposition 19. Soient X, X1 , X2 , . . ., une suite v.a. dénies sur le même espace probabilisé (Ω, F, P), alors

p.s. P
Xn −−−→ X =⇒ Xn −−−→ X.
n→∞ n→∞

La convergence p.s. et la convergence en probabilité sont conservées par les opérations algébriques :

Proposition 20. Soient X, X1 , X2 , . . ., et Y, Y1 , Y2 , . . . deux suites v.a. dénies sur le même espace probabilisé

(Ω, F, P).
p.s. p.s. p.s.
1- Si Xn −−−→ X et Yn −−−→ Y alors Xn + Yn −−−→ X + Y.
n→∞ n→∞ n→∞
P
2- Si
P
Xn −−−→ X et
P
Yn −−−→ Y alors Xn + Yn −−−→ X + Y.
n→∞ n→∞ n→∞

Démonstration. Nous allons démontré la première assertion, la seconde peut être démontrée de la même

manière. Soit  > 0, on sait que

 
lim P sup |Xn − X| > /2 = 0, et lim P sup |Yn − Y | > /2 = 0, d'où
n k≥n n k≥n
  
lim P sup (Xn + Yn ) − (X + Y ) >  ≤ lim P sup |Xn − X| > /2 + lim P sup |Yn − Y | > /2 = 0.
n k≥n n k≥n n k≥n

La proposition suivante est un autre résultat sur sur les opérations algébriques. Nous allons l'admettre

sans démonstration.

Proposition 21. Soient X, X1 , X2 , . . ., et Y, Y1 , Y2 , . . . deux suites v.a. dénies sur le même espace probabilisé

(Ω, F, P).
p.s. p.s. p.s.
1- Si Xn −−−→ X et Yn −−−→ Y alors Xn Yn −−−→ X Y.
n→∞ n→∞ n→∞
P
2- Si
P
Xn −−−→ X et
P
Yn −−−→ Y alors Xn Yn −−−→ X Y.
n→∞ n→∞ n→∞

Remarquons que dans le cas de la convergence p.s. ou de la convergence en probabilité les v.a. sont toutes

dénies sur le même espace probabilisé. Il existe un autre mode de convergence qui ne fait appel aux v.a.

qu'à travers leurs lois et ne nécessite donc pas que les v.a. soient dénies sur le même espace probabilisé.

Dénition 5.1.3. Soient X, X1 , X2 , . . ., une suite v.a. ( pas nécessairement dénies sur le même espace proba-
L
bilisé). On dit que (Xn )n converge en loi vers X, et on note Xn −−−→ X si, pour tout x point de continuité de
n→∞
FX , FXn (x) −−−→ FX (x).
n→∞

70
A. Zoglat 5.1 Modes de convergence

Nous avons déjà vu que la convergence p.s. implique la convergence en probabilité. Quelle relation y t-il avec

la convergence en loi ? La proposition suivante fournit une réponse partielle à cette question.

Proposition 22. Soient X, X1 , X2 , . . ., une suite v.a. dénies sur le même espace probabilisé (Ω, F, P). Alors

P L
Xn −−−→ X =⇒ Xn −−−→ X.
n→∞ n→∞

Démonstration. Soit x un point de continuité de FX . Pour tout >0 et tout n ∈ N, on a

FXn (x) = P{Xn ≤ x}

= P{Xn ≤ x, |Xn − X| ≤ } + P{Xn ≤ x, |Xn − X| > }

≤ P{X ≤ x + } + P{|Xn − X| > }

= FX (x + ) + P{|Xn − X| > }

En passant à la limite sur n puis en laissant tendre  vers 0, on obtient lim supn FXn (x) ≤ FX (x). De la même

manière on a

FX (x − ) = P{X ≤ x − }

= P{X ≤ x − , |Xn − X| ≤ } + P{X ≤ x − , |Xn − X| > }

≤ FXn (x) + P{|Xn − X| > }

En passant à la limite sur n puis en laissant tendre  vers 0, on obtient lim inf n FXn (x) ≥ FX (x). Ainsi nous

avons montré que, pour tout x point de continuité de FX ,

FX (x) ≤ lim inf FXn (x) ≤ lim sup FXn (x) ≤ FX (x),
n n

ce qui prouve la proposition.

La réciproque de l'assertion de la proposition précédente est en général fausse. Nous avons toutefois le

résultat suivant

Proposition 23. Soient X1 , X2 , . . ., une suite v.a. dénies sur le même espace probabilisé (Ω, F, P) et c une

constante. Alors
L P
Xn −−−→ c =⇒ Xn −−−→ c.
n→∞ n→∞

Démonstration. Soit  > 0,

P{|Xn − c| > } = FXn (c − ) + 1 − FXn (c + ).

71
5.1 Modes de convergence A. Zoglat

Comme Fc est continue partout sauf en c, on a

lim P{|Xn − c| > } = lim FXn (c − ) + 1 − lim FXn (c + ) = 0.


n→∞ n→∞ n→∞

La proposition suivante est une caractérisation de la convergence en loi.

Proposition 24. On a Xn −−−→ X


n→∞
L
si, et seulement si, pour toute fonction f continue et bornée

lim E [f (Xn )] = E [f (X)] .


n→∞

Démonstration. Nous aurons besoin du

Lemme. Si
L
Xn −−−→ X
n→∞
alors pour tout >0 il existe un réel K>1 tel que :

a- FX soit continue en ±K ,
b- P{|X| > K} <  et,

c- P{|Xn | > K} < 2 pour n assez grand.

La première assertion est vraie car l'ensemble de points de discontinuité de FX est au plus dénombrable.

La deuxième est vraie car limx→∞ P{|X| > x} = 0. La troisième résulte du fait que FXn (−K) −→ FX (−K)
et FXn (K) −→ FX (K).
L
=⇒: Supposons que Xn −−−→ X . Soit f une fonction continue et bornée et soit M = supx |f (x)| < ∞.
n→∞
D'après le lemme, pour  > 0, il existe K >0 tel que FX soit continue en ±K , P{|X| > K} < /M et il

existe N ∈N tel que pour n ≥ N , P{|Xn | > K} < 2/M .

Soit g la fonction dénie par


k
X
∀x ∈ R, g(x) = ai I]xi−1 ,xi ] (x),
i=1

où les xi sont des points de continuité de FX tels que −K = x0 < x1 < . . . < xk = K . On choisit
1 les ai et

les xi de sorte que

sup |f (x) − g(x)| < .


x∈[−K,K]

1. Ce choix est possible car f est uniformément continue sur le compact [−K, K].

72
A. Zoglat 5.1 Modes de convergence

Ainsi pour n assez grand on a

h i h i
|E[Xn ] − E[X]| ≤ E f (Xn ) I[−K,K] (Xn ) − E f (X) I[−K,−K] (X)

h i h i
+ E |f (Xn )| I[K,∞[ (|Xn |) + E |f (X)| I[K,∞[ (|X|)
h i h i
≤ E f (Xn ) I[−K,K] (Xn ) − E f (X) I[−K,−K] (X) + 3

h i
≤ 3 + E f (Xn ) I[−K,K] (Xn ) − E[g(Xn )]

h i
+ E f (X) I[−K,−K] (X) − E[g(X)] + E[g(Xn )] − E[g(X)]


≤ 5 + E[g(Xn )] − E[g(X)] .

L
Comme Xn −−−→ X et puisque les xi sont des points de continuité de FX , on a
n→∞

k
X   k
X  
E[g(Xn )] = ai FXn (xi ) − FXn (xi−1 ) −→ ai FX (xi ) − FX (xi−1 ) = E[g(X)].
i=1 i=1

D'où, E[f (Xn )] −→ E[f (X)].


⇐= Supposons que E[f (Xn )] −→ E[f (X)] pour toute fonction f continue et bornée. Soient t un point
de continuité de FX et  > 0. h
On dénit la fonction par

1 x ≤ t,


 si


h(x) = 0 si x ≥ t + ,


t +  − x


si t < x < t + .


La fonction h est continue, bornée et telle que I]−∞,t] ≤ h ≤ I]−∞,t+] . Ainsi

FXn (t) = E[I]−∞,t] (Xn )] ≤ E[h(Xn )] et E[h(X)] ≤ E[I]−∞,t+] (X)] = FX (t + ).

D'où, en faisant tendre n vers l'inni,

lim sup FXn (t) ≤ lim E[h(Xn )] = E[h(X)] ≤ FX (t + ).


n→∞ n→∞

En faisant tendre  vers 0 et puisque FX est continue à droite, on obtient lim supn→∞ FXn (t) ≤ FX (t).
Ensuite, pour ∗ > 0, on construit une fonction h∗ continue, bornée et telle que I]−∞,t−∗ ] ≤ h∗ ≤ I]−∞,t] .
Ainsi

FX (t − ∗ ) ≤ E[h∗ (X)] = lim E[h∗ (Xn )] ≤ lim inf FXn (t).


n→∞ n→∞

En faisant tendre ∗ vers 0, on obtient FX (t) = FX (t− ) ≤ lim inf n→∞ FXn (t). Nous avons donc montré que,

pour tout t point de continuité de FX ,

FX (t) ≤ lim inf FXn (t) ≤ lim sup FXn (t) ≤ FX (t).
n→∞ n→∞

Cela prouve que FXn (t) −→ FX (t).

73
5.1 Modes de convergence A. Zoglat

L
Les fonctions h et h∗ qui nous ont servi pour montrer que Xn −−−→ X sont uniformément continues et
n→∞
bornées. Nous avons donc montré le corollaire suivant :

Corollaire 2.
L
Xn −−−→ X ⇐⇒ E[f (Xn )] −→ E[f (Xn )] pour toute fonction f uniformément continue et bornée.
n→∞

Nous sommes à présent en mesure de montrer le résultat suivant :

Théorème 5.1.1. [Théorème de Slutsky] Si


n→∞
L
Xn −−−→ X et
P
Yn −−−→ c,
n→∞
une constante, alors

L L
a- Xn + Yn −−−→ X + c b- Yn Xn −−−→ cX
n→∞ n→∞

Démonstration.

a− D'après le Corollaire 2 il sut de montrer que, pour toute fonction f uniformément continue et bornée,

E[f (Xn + Yn )] −→ E[f (X + c)]. Soit  > 0, il existe δ>0 tel que |x − y| < δ =⇒ |f (x) − f (y)| < . Posons

M = supx |f (x)| < ∞. Alors,


h i
(X + Y )] − (X + c)] ≤ f (X + Y )] − f (X + c) (|Y − c|)

E[f n n E[f E n n n
I ]δ,∞[ n
h i
+ E f (Xn + Yn )] − f (Xn + c) I]−δ,δ[ (Yn − c)

+ E[f (Xn + c)] − E[f (X + c)]


≤ 2M P{|Yn − c| > δ} +  + E[f (Xn + c)] − E[f (X + c)] .


La fonction h : x 7−→ f (x + c) est continue et bornée. D'où, limn E[f (Xn + c)] − E[f (X + c)] = 0. D'autre


part on a limn P{|Yn − c| > δ} = 0, d'où limn E[f (Xn + Yn )] − E[f (X + c)] ≤ . Comme  > 0 est quelconque,


on a bien limn E[f (Xn + Yn )] − E[f (X + c)] = 0.

b− Soit f une fonction uniformément continue et bornée. Ainsi pour  > 0, il existe δ < 0 tel que

|x − y| < δ =⇒ |f (x) − f (y)| < . Posons M = supx |f (x)| < ∞.


D'autre part, d'après de le Lemme de la page 52, il existe un réel K >1 tel que FX soit continue en ±K ,
P{|X| > K} <  et, P{|Xn | > K} < 2 pour n assez grand.
h i
E[f (Xn Yn )] − E[f (c X)] ≤ E f (Xn Yn )] − f (c Xn ) I]δ/K,∞[ (|Yn − c|)

h i
+ E f (Xn Yn )] − f (c Xn ) I]−δ/K,δ/K[ (Yn − c) I]K,∞[ (|Xn |)
h i
+ E f (Xn Yn )] − f (c Xn ) I]−δ/K,δ/K[ (Yn − c) I]−K,K[ (Xn )
h i
+ E f (c Xn ) − f (c X)

≤ 2M P{|Yn − c| > δ} + 3 + E[f (c Xn )] − E[f (c X)] , pour n assez grand.


La fonction h : x 7−→ f (c x) est continue et bornée, d'où limn E[f (c Xn )] − E[f (c X)] = 0.

74
A. Zoglat 5.2 Lois des grands nombres

5.2 Lois des grands nombres


Intuitivement, dans une partie de  Pile ou Face si une pièce équilibrée est lancée un grand nombre de
1
fois, on peut s'attendre à ce que la fréquence de Pile soit voisine de . Dans ce paragraphe, nous allons
2
donner une justication d'une telle intuition.

Théorème 5.2.1. [Loi faible des Grands Nombres (LGN)] Soit (Xn )n une suite de v.a. indépendantes, de même

moyenne µ et de même variance σ 2 < ∞. Alors,


1 X P
X= Xk −−−→ µ
n n→∞
n=1

Avant de démontrer ce théorème, nous énonçons un résultat très utile.

Proposition 25. [Inégalité de Chebyshev] Soit X une v.a. de moyenne µ et de variance σ2. Alors pour tout

t > 0,
σ2
P{|X − µ| > t} ≤ .
t2

Démonstration. Nous allons démontrer ce résultat dans le cas d'une v.a. continue, le cas discret peut être

traité en utilisant des arguments similaires. Soit A = {x : |x − µ| > t}, alors


(x − µ)2 (x − µ)2 σ2
Z Z Z
P{|X − µ| > t} = fX (x) dx ≤ fX (x) dx ≤ f (x) dx = .
A A t2 −∞ t2 X
t2

Corollaire 3. Si Var(X) = 0 alors P{X = µ} = 1.

S
Démonstration. Supposons que Var(X) = 0 et que P{X = µ} < 1. Comme {X = µ} = t>0 {|X − µ| > t},
il existerait alors t>0 tel que P{|X − µ| ≥ t} > 0, ce qui est absurde d'après l'inégalité de Chebyshev.

σ2
Démonstration. [du Théorème] Nous avons E[X] = µ, et Var(X) = . D'après l'inégalité de Chebyshev,
n
σ2
on a ∀ > 0, P{|X − µ| > } ≤ . En passant à la limite sur n on a le résultat.
2 n

Exemple 5.2.1. Dans une partie de Pile ou Face, on note Xi ième lancer : Xi = 1 si
le résultat du
X1 + X2 + . . . + Xn
on obtient Pile et 0 sinon. Soit p la probabilité d'obtenir Pile. La v.a. X = , qui
n
représente la fréquence d'apparitions de Pile, converge en probabilité vers p. Nous allons montrer qu'en

75
5.2 Lois des grands nombres A. Zoglat

p.s.
h 4 i
fait, X −−−→ p. Pour cela nous avons besoin de calculer E X1 + X2 + . . . + Xn − np . Remarquons que
n→∞

n
4 X X
(X1 + X2 + . . . + Xn − np = (Xi − p)4 + 4 (Xi − p)3 (Xj − p)
i=1 {i,j}⊂{1,...,n}
X
+3 (Xi − p)2 (Xj − p)2
{i,j}⊂{1,...,n}
X
+6 (Xi − p)(Xj − p)(Xk − p)2
{i,j,k}⊂{1,...,n}
X
+ (Xi − p)(Xj − p)(Xk − p)(Xl − p).
{i,j,k,l}⊂{1,...,n}

En utilisant la linéarité de l'espérance et l'indépendance, on obtient

h 4 i h 4 i  2
E X1 + X2 + . . . + Xn − np = nE X1 − p + 3n(n − 1) Var(X1 ) .

En utilisant l'inégalité de Chebyshev on a, ∀ > 0,


h  i
n X + . . . + X o E X1 + X2 + . . . + Xn − np 4
1 n
− p >  ≤

P
n h n4  4
4 i  2
nE X1 − p + 3n(n − 1) Var(X1 )
=
n4 4
1
≤ C() 2 .
n

On en déduit que

n X + . . . + X o X n X1 + . . . + Xk o 1
1 k
X
lim P sup − p >  ≤ lim − p >  ≤ lim C() 2 = 0.

P
n→∞ k≥n k n→∞ k n→∞ k
k≥n k≥n

Cela montre que


X1 + . . . + Xn p.s.
X= −−−→ p.
n n→∞

Les arguments utilisés dans cet exemple montrent que si (Xn )n est une suite de v.a. indépendantes et de

même loi de moyenne µ et ayant un moment d'ordre quatre ni, i.e. E[X14 ] < ∞, alors

X1 + . . . + Xn p.s.
−−−→ µ.
n n→∞

La proposition suivante, qui sera admise, améliore ce résultat.

Proposition 26. [Loi Forte des Grands Nombres (LFGN)] Soit (Xn )n une suite de v.a. indépendantes et de

même loi telle que E[|X1 |] < ∞. Alors

X1 + . . . + Xn p.s.
−−−→ E[X1 ].
n n→∞

Nous allons à présent illustrer l'utilité de ce résultat par quelques exemples.

76
A. Zoglat 5.3 Fonction génératrice et fonction caractéristique

Exemple 5.2.2. [Méthode de Monte-Carlo] Supposons que l'on cherche une valeur approximative de

Z 1
I(f ) = f (x) dx,
0

lorsque f est une fonction telle que I(f ) ne peut être calculée par les techniques d'intégration. La fonction
2 /2
x 7−→ e−x est un exemple d'une telle situation. On génère une suite (Xn )n de v.a. indépendante et de

même loi Uniforme[0, 1] puis on calcule

n
1X
f (X) = f (Xk ).
n
k=1
h i
D'après la LFGN, pour n assez grand, f (X) est une bonne approximation de E f (X1 ) = I(f ).

Exemple 5.2.3. La durée de vie d'une lampe électrique de marque M, est une v.a. X de moyenne µ et

de variance σ2 inconnues. Pour avoir une valeur approximative de µ, on allume n lampes de marque M

X1 , . . . , Xn leurs durées de vies observées. Si n est assez


jusqu'à ce qu'elles soient hors d'usage et on note
1 Pn
grand, la LFGN nous incite à espérer que X = Xi , la durée de vie moyenne observée, est proche
n i=1
de la durée de vie moyenne théorique µ. La diérence |X − µ| entre la valeur théorique et la valeur estimée

dépend aussi de la variance des durées de vie σ2. En eet, d'après l'inégalité de Chebyshev, on a

1 2 σ2
P{|X − µ| > } ≤ E[(X − µ) ] = .
2 n2 2

La LFGN permet également de trouver une valeur approximative de σ2.


Notons que, par la LFGN, on a

n
1 X 2 p.s. p.s.
Xi −−−→ E[X 2 ], et (X)2 −−−→ µ2 .
n n→∞ n→∞
i=1

D'où
n n
1X 2 2 1X p.s.
Xi − X = (Xi − X)2 −−−→ E[X 2 ] − µ2 = σ 2
n n n→∞
i=1 i=1

Au paragraphe suivant nous présentons des outils précieux qui permettent, entre autres, d'identier la lois

de probabilité d'une v. a.

5.3 Fonction génératrice et fonction caractéristique


La fonction génératrice d'une v.a. caractérise la loi de cette dernière.

Dénition 5.3.1. On appelle fonction génératrice (fg) de la v.a. X , et on note gX , la fonction dénie sur
R par

gX (t) = E etX .
 
∀t ∈ R

77
5.3 Fonction génératrice et fonction caractéristique A. Zoglat

Si X est une v.a. discrète, alors


X
gX (t) = etx PX (x).
x
Si X est une v.a. ayant une fdp fX , alors

Z
gX (t) = etx fX (x) dx.
R

Remarque. La fg d'une v.a. peut prendre la valeur  ∞ dans certains cas. Mais elle est nie sur tout sous

ensemble borné de R.

La proposition suivante est un premier résultat montrant l'utilité de la fg. Sa démonstration fait appel

aux propriétés de la transformé de Laplace qui ne rentre pas dans le cadre de ce cours. Elle sera alors admise.

Proposition 27. S'il existe un voisinage de 0 sur lequel gX ≡ gY , alors les v.a. X et Y ont la même loi de

probabilité, i.e. PX ≡ PY .

La fg peut également servir pour calculer les diérents moments d'une v.a.

Proposition 28. Si la fg de X existe dans un intervalle ouvert contenant 0, alors

gX(r) (0) = E[X r ].

Démonstration. [Cas continu] La fonction gX existe et est ni dans tout voisinage de 0 borné. Il est

alors possible de permuter le signe de dérivation et le signe intégrale, i.e.,

Z ∞ Z ∞
0 d tx d tx
gX (t) = e fX (x) dx= e fX (x) dx
dt −∞ −∞ dt

D'où
Z ∞
0
gX (t)= xetx fX (x) dx.
−∞

En prenant t = 0, on a le résultat.

Exemples
a- Soit X ∼ Poisson(λ), calculons sa fg.

∞ ∞
X λk −λ X (et λ)k −λ t t
gX (t) = etk
e = e = e−λ eλe = eλ(e −1) .
k! k!
k=0 k=0

En dérivant on obtient,

t −1) t −1) t −1)


gX0 (t) = λ eλt eλ(e et gX00 (t) = λ et eλ(e + λ2 e2t eλ(e .

D'où E[X] = gX0 (0) = λ et E[X 2 ] = gX00 (0) = λ + λ2 , d'où Var(X) = λ.

78
A. Zoglat 5.3 Fonction génératrice et fonction caractéristique

b- Soit Y ∼ Γ(α, β), sa fg est donnée par

∞ ∞
β α xα−1 −βx βα
Z Z
gY (t) = etx e dx = xα−1 ex(t−β) dx.
0 Γ(α) Γ(α) 0

La dernière intégrale est convergente pour t < β. Dans ce cas on a

βα Γ(α)  β α
gY (t) = = .
Γ(α) (β − t)α β−t

En dérivant on obtient

α α(α + 1) α(α + 1)  α 2 α
gY0 (0) = E[Y ] = , et gY00 (0) = E[Y 2 ] = , d'où Var(Y ) = − = 2.
β β2 β 2 β β

c- Soit Z ∼ N (0, 1), calculons sa fg,

Z ∞
1 2 /2
gZ (t) = √ etx e−x dx.
2π −∞

Remarquons que cette intégrale est convergente pour tout t∈R et que

x2 1 t2 1 t2
− tx = (x2 − 2tx + t2 ) − = (x − t)2 − .
2 2 2 2 2

D'où, 2 ∞
et /2
Z
2 /2 2 /2
gZ (t) = √ e−(x−t) dx = et .
2π −∞

Ainsi gZ0 (0) = E[Z] = 0 et gY00 (0) = E[Z 2 ] = 1 = Var(Z).

les résultats suivants sont des propriétés de la fg qui découlent directement de la dénition.

Proposition 29. Soient X une v.a., gX sa fg et Y = a + bX où a, b ∈ R. Alors, pour tout t ∈ R,

gY (t) = eat gX (bt).

t2 σ 2
Exemple 5.3.1. Soit X ∼ N (µ, σ 2 ), alors gX (t) = eµt gZ (t σ) = eµt− 2 .

Proposition 30. Si X et Y sont deux v.a. indépendantes alors, lorsque les fg existent,

gY +X (t) = gX (t) gY (t).

Ce résultat, combiné avec la Proposition 27, permet de montrer par exemple que

a- Si X1 ∼ Poisson(λ)1 et X2 ∼ Poisson(λ)2 sont indépendantes alors X1 + X2 ∼ Poisson(λ1 + λ2 ).


b- Si X1 ∼ N (µ1 , σ12 ) et X2 ∼ N (µ2 , σ22 ) sont indépendantes alors,

∀a, b ∈ R, aX1 + bX2 ∼ N (aµ1 + bµ2 , a2 σ12 + b2 σ22 ).

79
5.3 Fonction génératrice et fonction caractéristique A. Zoglat

L'inconvénient majeur de la fg est qu'elle peut être innie. Il existe une fonction équivalente à la fg et

qui a le mérite d'être toujours nie.

Dénition 5.3.2. La fonction caractéristique (fc) d'une v.a. X, notée ϕX , est donnée par

ϕX (t) = E ei t X = E cos(t X) + i sin(t X) ,


   
∀t ∈ R, où i est le nombre complexe dont le carré est −1.

Comme la fg, la fc caractérise la loi de la v.a. Plus précisément, on a

Proposition 31. S'il existe un voisinage de 0 sur lequel ϕX ≡ ϕY , alors les v.a. X et Y ont la même loi de

probabilité, i.e. PX ≡ PY .

En fait nous avons la formule d'inversion de la transformée de Fourier permettant d'obtenir la loi de X
connaissant sa fc :

Théorème.
R∞
Si
−∞ |ϕX (t)| dt <∞ alors X admet une fdp fX donnée par

Z ∞
1
fX (x) = ϕX (t) e−i t x dt.
2π −∞

Sinon, on a toujours

T
e−i t a − e−i t b
Z
1
∀a, b ∈ R, FX (b) − FX (a) = lim ϕX (t) dt.
T →∞ 2π −T it

La démonstration de ce résultat est très technique et ne fait pas partie des objectifs de ce cours. Ce théorème

sera alors admis.

Remarque.
1- Comme |ei t X | ≤ 1, la fc est toujours nie.

2- De plus, pour tout t ∈ R,


X


 ei t x PX (x), si X est discrète, et

 x

ϕX (t) =

Z

ei t x fX (x) dx,


 si fX existe.
R

3- Pour tout a, b ∈ R,
ϕaX+b (t) = eibt ϕX (at).

4- Si X et Y sont deux v.a. indépendantes alors

∀t ∈ R, ϕX+Y (t) = ϕX (t) ϕY (t).

80
A. Zoglat 5.4 Le théorème central limite (TCL)

5- Si les dérivées existent jusqu'à l'ordre k, on a

ϕX(k) (o) = ik E[X k ].

La fc permet de caractériser la convergence en loi.

Théorème 5.3.1. Soient X, X1 , X2 , . . . une suite de v. a., alors

L
Xn −−−→ X ⇐⇒ ∀t ∈ R, ϕXn (t) −−−→ ϕX (t).
n→∞ n→∞

Exemples
a- Soit X ∼ Bernoulli(p), alors

ϕX (t) = pei t + (1 − p).

b- Soit X ∼ B inômiale(n, p), alors


n
ϕX (t) = pei t + (1 − p) .

c- Soit X ∼ Poisson(λ), alors

ϕX (t) = exp(λ(ei t − 1)).

d- Soit X ∼ Uniforme[−a, a], alors


sin a t
ϕX (t) = .
at
e- Soit Z ∼ N (0, 1), alors
2 /2
ϕZ (t) = e−t .

5.4 Le théorème central limite (TCL)


En pratique, on est souvent amené à calculer P{a < X < b} alors que la loi de la v.a. X n'est pas

totalement connue. Il est parfois possible de faire cela si l'on dispose d'une suite qui converge en loi vers X.

Théorème 5.4.1. [TCL] (Xn )n une suite de


Soit v.a. indépendantes et de même loi de moyenne µ et de
Pn
variance σ 2 < ∞. Posons Sn = i=1 Xi = nX , alors

Sn − E[Sn ] √ X − µ L
p = n −−−→ Z ∼ N (0, 1).
Var(Sn ) σ n→∞

En d'autres termes,
n√ X − µ o
∀x ∈ R, lim P n ≤ x = P{Z ≤ x}.
n→∞ σ

81
5.4 Le théorème central limite (TCL) A. Zoglat

 
Démonstration. D'après le Théorème 5.3.1, il sut de montrer que la suite de fonctions ϕ√ X−µ
converge
n σ n
simplement vers ϕZ (t).
Sans perdre de généralité, quitte remplacer Xi par Xi − µ, on peut supposer que les v.a. sont centrées,

i.e. µ = E[Xi ] = 0. Soit t ∈ R, on a

t  t n
ϕ√ (t) = ϕSn ( √ ) = ϕX1 ( √ ) , par indépendance.
X−µ
n σ σ n σ n

Le développement de MacLaurin de ϕX1 à l'ordre 2 d'écrit

u2 00
ϕX1 (u) = 1 + u ϕX0 (0) + ϕ (0) + ◦(u2 ).
1 2! X1

Comme µ = 0, on a ϕX0 (0) = 0 et ϕX00 (0) = −σ 2 . D'où


1 1

 t n  t2 t2 n 2
ϕX1 ( √ ) = 1 − + ◦( 2 ) −−−→ e−t /2 = ϕZ (t).
σ n n σ n n→∞

Remarque. Sous les hypothèses du Théorème 5.4.1, le TCL conduit souvent à faire, pour n assez grand,

l'approximation suivante :

n√ X − µ √ x − µ o n √ x − µo
∀x ∈ R, P{X1 + . . . + Xn ≤ x} = P n ≤ n 'P Z≤ n .
σ σ σ

En pratique on considère souvent que n est assez grand dès que n ≥ 30.

Exemple 5.4.1. Soit X une v.a. qui suit une loi B inômiale(n, p). Nous savons que X peut s'écrire comme

somme de n v.a. indépendantes et de même loi de B ernoulli(P ), i.e. X = X1 + . . . + Xn . D'où, si n ≥ 30,


n X − np x − np o n x − np o
∀x ∈ R, P{X ≤ x} = P p ≤p 'P Z≤ p .
np(1 − p) np(1 − p) np(1 − p)

82

Vous aimerez peut-être aussi