Statistique Cours-2-1-39-1
Statistique Cours-2-1-39-1
Statistique Cours-2-1-39-1
Statistique Inférentielle
GINF1& GSTR1& GSEA1
Ahmed DRISSI
[email protected]
Ces notes de cours sont destinées aux étudiants de la première année du cycle des ingénieurs,
des filières : Génie Informatique, Génie des Systèmes de Télécommunications et Réseaux ;
Génie des Systèmes Electroniques et Automatique de l’Ecole Nationale des Sciences
Appliquées, Tanger. Elles ont été rédigées, conformément au programme accrédité, dans le
but d’aider les étudiants à consolider leurs acquis en statistiques et probabilités et à maitriser
les nouvelles notions introduites dans ce cours. Les démonstrations de certains résultats de ce
polycopié, ainsi que plusieurs exemples et exercices seront données au tableau pendant les
séances de cours. Il est donc indispensable que l’étudiant assiste au cours et prend des notes,
pour qu’il puisse bien assimiler ce cours de statistiques inférentielle. Je serai reconnaissant à
tout lecteur qui aura l’amabilité de me signaler des erreurs que peut comporter ce manuscrit
ou de me suggérer une idée pour le parfaire.
Ahmed DRISSI
Pré-requis
Ouvrages Conseillés
1. Les fondements probabilistes des méthodes statistiques. Composé par Economica. Paris. France
janvier 1989. Europe Media Duplication SA.
2. FOUNDATIONS OF DESCRIPTIVE AND INFERENTIAL STATISTICS. HENK VAN ELST
August 30, 2019
3. An Introduction to Statistical Inference and Data Analysis. Michael W. Trosset1 April 3, 2001
200 1 1
𝑝(𝑋 > 200) = 1 − 𝑝(𝑋 ≤ 200) = 1 − 𝐹 (200) = 1 − 200000 ∫−∞ 𝑑𝑥 = 4.
𝑥3
ii) La variance
Définition
La variance d’une variable aléatoire 𝑋 notée 𝑉 (𝑋) = 𝐸 (𝑋 2 ) − (𝐸(𝑋))2
+∞
Avec 𝐸 (𝑋 2 ) = ∫−∞ 𝑥 2 𝑓 (𝑥 )𝑑𝑥 dans le cas continu et 𝐸 (𝑋 2 ) = ∑ 𝑘 2 𝑝(𝑋 = 𝑘) dans le cas
discret.
𝜎(𝑋) = √𝑉(𝑋) : l’écart type de la variable aléatoire 𝑋.
Propriétés
Soient 𝑎 et 𝑏 deux canstantes et 𝑋 une variable aléatoire
1. 𝐸 (𝑎) = 𝑎 et 𝑉 (𝑎) = 0
2. 𝐸 (𝑎𝑋 + 𝑏) = 𝑎𝐸 (𝑋) + 𝑏
3. 𝑉 (𝑎𝑋 + 𝑏𝑌) = 𝑎2 𝑉 (𝑋) + 𝑏2 𝑉 (𝑌) + 2𝑎. 𝑏. 𝑐𝑜𝑣(𝑋, 𝑌) où 𝑐𝑜𝑣 (𝑋, 𝑌) = 𝐸(𝑋 −
𝐸 (𝑋))(𝑌 − 𝐸 (𝑌)) = 𝐸 (𝑋𝑌) − 𝐸 (𝑋). 𝐸(𝑌) et 𝑌 une variable aléatoire continue.
Exemple
1 2
𝑥 𝑠𝑖 0 < 𝑥 < 3
Soit 𝑋 une variable aléatoire de fonction de densité 𝑓 définie par 𝑓(𝑥 ) = {9
0 𝑠𝑖𝑛𝑜𝑛
2 2
𝐸 (𝑋) = 2.25. 𝑉 (𝑋) = 𝐸 (𝑋 ) − (𝐸(𝑋)) = 5.4 − 5.06 = 0.34
Exercice 1
Soit 𝑋 une variable aléatoire qui désigne la demande mensuelle d’un produit dont la fonction
de densité est définie par :
𝑎𝑒 −𝑎𝑥 𝑠𝑖 𝑥 ≥ 0
𝑓 (𝑥 ) = {
0 𝑠𝑖𝑛𝑜𝑛
1. La loi de Bernoulli
La loi de Bernoulli intervient dans le cas d’une seule expérience aléatoire à laquelle on
associe un évènement aléatoire quelconque. On dit que 𝑋~𝐵(𝑝) = 𝐵 (1, 𝑝) si la variable
aléatoire 𝑋 caractérise le nombre de succès au cours d’une seule expérience, elle prend les
valeurs 0 (échec) ou 1 (succès) avec 𝑝(𝑋 = 1) = 𝑝 et 𝑝(𝑋 = 0) = 1 − 𝑝
2. La loi binomiale
Soit 𝑋 une variable aléatoire qui caractérise le nombre de succès au cours de n expériences
aléatoires indépendantes 𝑋 prend une valeur 𝑘 ∈ {0,1, … 𝑛} avec la probabilité 𝑝(𝑋 = 𝑘) =
𝐶𝑛𝑘 𝑝𝑘 (1 − 𝑝)𝑛−𝑘 . On dit que 𝑋 suit la loi binomiale de paramétre (𝑛, 𝑝). On note 𝑋~𝐵(𝑛, 𝑝).
𝐸 (𝑋) = 𝑛𝑝; 𝑉 (𝑋) = 𝑛𝑝(1 − 𝑝); 𝜎(𝑋) = √𝑛𝑝(1 − 𝑝).
Exemples
- Le lancement d’une pièce de monnaie n fois (pile ou face) ;
- La qualité d’un produit (bon ou défectueux) dans un échantillon de n pièces.
- Sondage électorale (pour ou contre) sur un échantillon de n voix.
3. La loi de poisson
Elle convient pour la description des événements, dont les chances de réalisation sont faibles
et le nombre de réalisations varie de 0 à l’infini, ainsi que la fréquence moyenne est connue.
Exemples
Nombre de naissances dans un intervalle de temps.
Nombre d’appels reçus par un standard téléphonique.
Nombre de visiteurs d’un centre commercial.
𝜆𝑘 𝑒 −𝜆
𝑝( 𝑋 = 𝑘 ) = , 𝑘 = 0,1,2 … ; 𝑋~𝑃(𝜆) ; 𝐸 (𝑋) = 𝜆 = 𝑣𝑎𝑟(𝑋)
𝑘!
Exercice d’application
Le nombre moyen de patients qui arrivent à la salle d’urgence d’un hôpital par heure est de
10. Quelle est la probabilité que dans la prochaine heure moins de 4 patients arrivent ?
10
𝑋~𝑃(10) ; 𝑝(𝑋 < 4) = 𝑝(𝑋 = 0) + 𝑝(𝑋 = 1) + 𝑝(𝑋 = 2) + 𝑝(𝑋 = 3) = 𝑒 −10 (1 + 1! +
102 103
+ ) ≈ 0.01
2! 3!
Exemple
2. La loi exponentielle
Description
La loi exponentielle est l’intervalle de temps qui sépare deux événements par exemple :
- L’intervalle de temps séparant deux pannes consécutives.
- Durée de vie d’une pièce
- Intervalle de temps séparant deux arrivés consécutifs à un guichet.
Définition
Une variable aléatoire 𝑋 suit une loi exponentielle de paramétre 𝜆 si sa fonction de densité 𝑓
est définie par
−𝜆𝑥
𝑓 (𝑥 ) = {𝜆𝑒 𝑠𝑖 𝑥 ≥ 0 et on écrit 𝑋~𝐸𝑥𝑝(𝜆)
0 𝑠𝑖𝑛𝑜𝑛
Les caractéristiques de la loi exponentielle
−𝜆𝑥
Fonction de répartition 𝐹(𝑥 ) = {1 − 𝑒 𝑠𝑖 𝑥 ≥ 0
0 𝑠𝑖𝑛𝑜𝑛
1 1
L’espérance 𝐸 (𝑋) = 𝜆 ; la variance 𝑉 (𝑋) = 𝜆2
Exemple
Soit 𝑋 une variable aléatoire continue qui désigne la durée d’une conversation téléphonique
1
mesurée en min (i.e 𝑋~𝐸𝑥𝑝(𝜆) où 𝜆 = 10. Supposons qu’un étudiant arrive à un cabinet
téléphonique et quelqu’un passe juste devant lui. Quelle est la probabilité d’attente par cet
étudiant
i) Plus de 10min
ii) Entre 10 et 12 min.
𝑝(𝑋 > 10) = 1 − 𝑝(𝑋 ≤ 10) = 1 − 𝐹(10) = 𝑒 −1 .
𝑝(10 ≤ 𝑋 ≤ 12) = 𝐹(20) − 𝐹 (10) = 𝑒 −1 − 𝑒 −2 .
Exercice d’application
Soit 𝑋 une variable aléatoire continue qui représente la durée de vie d’un système
électronique. Supposons que la durée de vie moyenne est 400h.
i) Quelle est la loi de 𝑋 ?
ii) Donner la fonction de répartition de 𝑋.
iii) Calculer 𝐸(𝑋) et 𝑉(𝑋).
1
𝐸 (𝑋) = 400ℎ = 𝜆.
𝑋~𝑒 1/400 .
Définition
Une variable aléatoire 𝑋 suit une loi normale de paramètres 𝜇 et 𝜎 si sa fonction de densité
1 𝑥−𝜇 2
1
𝑒 −2( )
est définie par 𝑓 (𝑥 ) = 𝜎 , ∀𝑥 ∈ 𝑅 ; on écrit 𝑋~𝑁(𝜇, 𝜎).
𝜎 √2𝜋
Les caractéristiques de 𝑁(𝜇, 𝜎).
+∞ 1 𝑥−𝜇 2
1
𝐸 (𝑋 ) = ∫ 𝑥𝑒 −2( 𝜎
)
𝑑𝑥 =𝜇
−∞𝜎√2𝜋
𝑉 (𝑋 ) = 𝐸 (𝑋 2 ) − 𝐸 (𝑋 )2 = 𝜎 2
Remarque1
𝑋−𝜇
- 𝑋~𝑁(𝜇, 𝜎) ⇔ 𝜎 ~𝑁(0,1)
- Si 𝑌~𝑁(0,1) on dit que 𝑌 suit une loi normale centré réduite.
Preuve de la remarque 1
𝑋−𝜇 𝑎−𝜇
𝑋≤𝑎⇔ ≤ .
𝜎 𝜎
1 𝑥−𝜇 2
𝑋−𝜇 𝑎−𝜇 1 𝑎 − ( )
⇔ 𝑝( ≤ ) = 𝑝 (𝑋 ≤ 𝑎 ) = 𝜎 ∫ 𝑒 2 𝜎 𝑑𝑥 .
𝜎 𝜎 √ 2𝜋 −∞
𝑥−𝜇 1 𝑥−𝜇 1
1 − (𝑢)2 1 − (𝑢)2
=𝜎 ∫𝜎 𝑒 2 𝜎𝑑𝑢 = ∫ 𝜎 𝑒 2 𝑑𝑢 (par changement
√ 𝜋 −∞ √ 𝜋 −∞
variable).
Remarque 2
La loi normale est symétrique : le mode=la moyenne= la médiane.
Remarque 3
La loi normale centrée réduite est tabulée.
1 −𝑎 −1𝑡 2
𝑝(𝑋 ≤ −𝑎) = ∫ 𝑒 2 𝑑𝑡
√𝜋 −∞
1 𝑎 −1𝑡 2 1 +∞ −1𝑡 2
=− ∫ 𝑒 2 𝑑𝑡 = ∫ 𝑒 2 𝑑𝑡 = 𝑝(𝑋 ≥ 𝑎) = 1 − 𝑝(𝑋 ≤ 𝑎)
√𝜋 +∞ √𝜋 𝑎
On note ∅(𝑎) = 𝐹 (𝑎) = 𝑝(𝑋 ≤ 𝑎) = l’aire hachurée sur le graphe.
La valeur de ∅(𝑎) est déterminée à partir de la table normale centré réduite.
Exemple
Exercice d’application
Soit 𝑋 une variable aléatoire qui désigne le poids en kg d’un type de poisson. On suppose que
1 2
1
𝑋 suit la loi normale de fonction de densité 𝑓(𝑥 ) = 𝜎 𝑒 −18(𝑥−10) .
√ 18𝜋
- Donner 𝐸(𝑋) et 𝑉(𝑋)
- Donner la probabilité pour le poids d’un poisson donné est inférieur à 12kg.
- Sachant que le poids d’un type de poisson donné est supérieur à 8kg, donner la probabilité
pour que son poids soit inférieur à 12kg.
5. La loi de Student
6. Loi de Fisher
𝑋1
La loi de Fisher 𝐹(𝑢,𝑣) de paramètres (𝑢, 𝑣) est la loi 𝑌 = 𝑢
𝑋2 lorsque 𝑋1 ~𝜒𝑢2 et 𝑋2 ~𝜒𝑣2 et 𝑋1 et
𝑣
𝑋2 sont indépendantes.
𝑣
La moyenne 𝐹(𝑢,𝑣) est 𝑣−2 pour 𝑣 ≥ 3. Une valeur proche de 1 lorsque v est grand.
Une variable qui suit la loi de Fisher ne prend que les valeurs positives.
Propriété (admise)
La convergence en probabilité entraine la convergence en loi.
Exemple
Considérons 400 étudiants qui se sont présentés au guichet de la photocopie de
l’établissement pour faire des copies de cours. Sachant que chacun d’eux a payé à la caisse un
montant 𝑀𝑖 , 𝑖 = 1 … 𝑛. Supposons que les 𝑀𝑖 sont des variables aléatoires indépendantes de
Exemple 1
Etant donné une entreprise qui a distribué des produits de publicité à 1000 ménages. Sachant
que la probabilité pour qu’un ménage ayant reçu le produit soit intéressé par celui-ci est égale
à 0,45. Quelle est la probabilité d’avoir parmi les 1000 ménage 470 ménages intéressés par le
produit da publicité.
Soit 𝑋 le nombre de ménages intéressés par le produit parmi les 1000 ménages. On écrit
𝑋~𝛽 (1000; 0.45).
470
La probabilité recherché est égale à 𝑝(𝑋 = 470) = 𝐶1000 0.45470 0.55530 . vu de la difficulté
du calcul de cette probabilité on sera amené à utiliser l’approximation d’une loi binomiale par
la loi normale.
La probabilité 𝑝 = 0.45 est ni proche de 1 ni proche de 0 or 𝑛 = 100 ≥ 20 donc 𝑛𝑝 ≥ 10 et
𝑛(1 − 𝑝) ≥ 10 alors 𝑋~𝑁(𝑛𝑝; 𝑛(1 − 𝑝)𝑝) = 𝑁(450; 1553) on obtient 𝑝(𝑋 = 470) =
0.0113.
Exemple 2
On lance une pièce de monnaie 1000 fois. Quelle est la probabilité d’obtenir au moins 548
piles ?
Soit 𝑋 la variable aléatoire qui désigne le nombre de piles obtenues ; 𝑝(𝑋 ≥ 548) = 1 −
𝑝(𝑋 < 548) = 1 − 𝑝(𝑋 ≤ 547) ; on peut approcher par la loi normale car 𝑛 = 1000, 𝑛𝑝 =
500 et 𝑛𝑝(1 − 𝑝) = 250 donc
547.5−500
𝑝(𝑋 ≤ 547) = 𝑝 (𝑁(0,1) ≤ 5 10 ) = 0.99863 d’où 𝑝(𝑋 ≥ 548) = 0.00135 une chance
√
sur 1000.
𝑋̅−10.44 10−10.44
Nous obtenons alors par centrage et réduction:𝑝(𝑋̅ ≥ 10) = 𝑝 ( 1.46 ≥ 1.46 )=
√35 √35
𝑝(𝑇 ≥ −1.78) = 𝑝(𝑇 ≤ 1.78) = 𝜙 (1.78)
Et par lecture directe de la table de la loi normale centrée-réduite : 𝜙(1.87)= 0,9625
Conclusion: il y a environ 96% de chance que, dans cette classe de BTS, la moyenne des
notes au baccalauréat de Mathématiques soit supérieure à 10.
II- Étude d'une proportion dans un échantillon
Cette fois-ci, on suppose une population sur laquelle on étudie un caractère (ou attribut) A
dont on connaît la proportion 𝑝 dans la population. On s'intéresse aux échantillons de taille 𝑛.
La proportion du caractère A dans les échantillons sera-t-elle toujours la même ?
Evidemment non, cette proportion varie en fonction de l'échantillon choisi. Notons 𝐹 la
variable aléatoire qui, à chaque échantillon de taille 𝑛, associe sa proportion du caractère A (F
s'appelle distribution des fréquences des échantillons). Que peut-on dire de cette variable
aléatoire 𝐹?
Théorème
Une population sur laquelle on étudie un caractère A répandu avec une fréquence 𝑝. On
prélève, au hasard, un échantillon (tirage avec remise de taille ≥ 30 ). On note 𝐹 la variable
aléatoire correspondante à la fréquence du caractère A dans l'échantillon. Alors la variable
𝑝(1−𝑝)
aléatoire F suit approximativement une loi normale : 𝐹~𝑁 (𝑝; √ ).
𝑛
Démonstration
Nous allons avoir ici un modèle binomial dont on sait qu'il converge vers la loi normale. Pour
tout 𝑖 compris entre 1 et , notons 𝑋𝑖 , la variable aléatoire définie par :
En analysant l’exercice ci-dessus on constate que l’on dispose des informations sur la
population (ici l’ensemble des votes) parce que l’élection a déjà eu lieu. On en déduit des
informations sur l’échantillon. Mais dans la pratique, c’est souvent le phénomène réciproque
que nous étudierons : les élections n’ont pas encore eu lieu et on voudrait retrouver les
informations sur la population grâce un sondage réalisé sur un échantillon. D’où la deuxième
partie de ce polycopié est consacrée à l’estimation.
Définitions
- Un estimateur d’un paramètre 𝜃 d’une population est une fonction de valeurs
observées 𝑋1 , 𝑋2 , … . 𝑋𝑛 susceptibles de servir à estimer 𝜃 ; on écrit 𝑇𝜃 =
𝑓 (𝑋1 , 𝑋2 , … . 𝑋𝑛 ).
- On appelle erreur d’estimation 𝑇 − 𝜃 ; on écrit 𝑇 − 𝜃 = 𝑇 − 𝐸 [𝑇] + 𝐸 [𝑇] − 𝜃 ; le
terme 𝑇 − 𝐸 [𝑇] traduit la fluctuation de 𝑇 autour de son espérance. Le terme 𝐵(𝑇) =
𝐸 [𝑇] − 𝜃 représente l’erreur systématique et s’appelle biais de l’estimateur.
- Un estimateur 𝑇 de 𝜃 est dit sans biais si 𝐵(𝑇) = 0 (𝐸 [𝑇] = 𝜃 ).
- Un estimateur 𝑇 de 𝜃 est dit asymptotiquement sans biais si 𝐸 [𝑇] → 𝜃, 𝑛 → ∞.
- Si 𝑇 et 𝑇0 deux estimateurs sans biais de 𝜃 ; on dit que 𝑇 est plus efficace que 𝑇0 si
𝑉(𝑇) ≤ 𝑉 (𝑇0 ).
- L’estimateur sans biais et de variance minimale est appelé estimateur efficace.
Remarque
Pour un même paramètre, il peut y avoir plusieurs estimateurs possibles. Par exemple le
paramètre 𝜆 d’une loi de poisson admet comme estimateurs possible la moyenne empirique et
la variance empirique.
Soit 𝑋 une variable aléatoire dont on veut estimer la moyenne 𝜇 = 𝐸[𝑋] à partir d’un n-
échantillon (𝑋1 , 𝑋2 , … . 𝑋𝑛 ) de 𝑋 .
Théorème
𝑋 +𝑋 +⋯+𝑋𝑛
La moyenne empirique 𝑋̅ = 1 2 est un estimateur efficace de 𝜇.
𝑛
Preuve
𝑋̅ est sans biais car 𝐸[𝑋̅] = 𝜇.
𝑉(𝑋)
𝑉 (𝑋̅) = 𝑛 → 0, 𝑛 → ∞. Si 𝑇 un autre estimateur de 𝜇 on aura 𝑉(𝑋̅) < 𝑉(𝑇) .
Le cas 1 : 𝜇 connue
Théorème
Soit 𝑋 une variable aléatoire qui suit une loi de paramètres 𝜇, 𝜎 avec 𝜇 connue.
∑𝑛 (𝑋𝑖 −𝜇)2
𝑇𝑛2 = 𝑖=1 est un estimateur efficace de 𝜎 2 .
𝑛
Preuve
∑𝑛
𝑖=1(𝑋𝑖 −𝜇)
2 ∑𝑛 2 2
𝑖=1((𝑋𝑖 ) −2𝑋𝑖 𝜇+𝜇 ) ∑𝑛 2 2
𝑖=1(𝐸((𝑋𝑖 ) )−2𝐸(𝑋𝑖 )𝜇+𝜇 )
𝐸 (𝑇𝑛2 ) = 𝐸 ( )=𝐸( )= .
𝑛 𝑛 𝑛
∑𝑛 2 2 2
𝑖=1(𝐸((𝑋𝑖 ) )−2𝜇 +𝜇 ) ∑𝑛 2 2
𝑖=1(𝐸((𝑋𝑖 ) )−𝜇 ) ∑𝑛 2
𝑖=1 𝐸((𝑋𝑖 ) )−𝑛𝜇
2
= = = ..
𝑛 𝑛 𝑛
𝑛
1
= ∑(𝑉(𝑋𝑖 ) + (𝐸(𝑋𝑖 ))2 ) − 𝜇2 = 𝜎 2 +𝜇2 − 𝜇2 = 𝜎 2
𝑛
𝑖=1
∑𝑛
𝑖=1(𝑋𝑖 −𝜇)
2 1 1
𝑉 (𝑇𝑛2 ) = 𝑉 ( )= ∑𝑛𝑖=1 𝑉 ((𝑋𝑖 − 𝜇)2 ) = ∑𝑛𝑖=1 𝐸 ((𝑋𝑖 − 𝜇)4 ) − (𝐸((𝑋𝑖 −
𝑛 𝑛2 𝑛2
2
𝜇)2 )) .
=⋯→0
Le cas 2 : 𝜇 inconnue
Théorème
Soit 𝑋 une variable aléatoire qui suit une loi de paramètres 𝜇, 𝜎 avec 𝜇 inconnue. La
∑𝑛 ̅ 2
𝑖=1(𝑋𝑖 −𝑋 )
variance empirique 𝑆𝑛2 = est un estimateur biaisé de 𝜎 2 mais asymptotiquement
𝑛
sans biais.
Preuve
∑𝑛 ̅ 2
𝑖=1(𝑋𝑖 −𝑋 ) 1
𝐸 (𝑆𝑛2 ) = 𝐸 ( ) = 𝐸 (𝑛 ∑𝑛𝑖=1(𝑋𝑖2 − 2𝑋𝑖 𝑋̅ + 𝑋̅ 2 )).
𝑛
𝑛 𝑛
1 1 1
= 𝐸 ( ∑ 𝑋𝑖2 − 2𝑋̅ ∑ 𝑋𝑖 + 𝑛 𝑋̅ 2 )
𝑛 𝑛 𝑛
𝑖=1 𝑖=1
𝑛
1
= 𝐸 ( ∑ 𝑋𝑖2 − 2𝑋̅ 2 + 𝑋̅ 2 )
𝑛
𝑖=1
𝑛
1
= 𝐸 ( ∑ 𝑋𝑖2 − 𝑋̅ 2 )
𝑛
𝑖=1
𝑛
1
= ∑ 𝐸(𝑋𝑖2 ) − 𝐸(𝑋̅ 2 )
𝑛
𝑖=1
𝑛
1 2 2
= ∑ 𝜎 2 + (𝐸(𝑋𝑖 )) − (𝜎𝑋2̅ + (𝐸(𝑋̅)) )
𝑛
𝑖=1
1
= (𝑛𝜎 2 ) + 𝜇2 − 𝜎𝑋2̅ − 𝜇2
𝑛
𝜎2
= 𝜎 2 − 𝜎𝑋2̅ = 𝜎 2 −
𝑛
𝑛−1 2
= 𝜎 .
𝑛
𝑛−1 1
𝐵(𝑆𝑛2 )
= 𝐸 (𝑆𝑛2 )
−𝜎 = 2
𝜎 − 𝜎 = − 𝑛 𝜎2.
2 2
𝑛
𝐵(𝑆𝑛2 )
→ 0; 𝑛 → +∞.
Théorème
Remarque
On constate ici que le fait de ne pas connaitre 𝜇 n’est pas gênant.
On ne retient pas ces formules. Dans la pratique on refait les calculs.
Exemple
Un club de sport comporte 1500 membres. On mesure la taille de 20 d’entre eux. La moyenne
𝜇0 et l’écart type 𝜎0 calculé à partir de cet échantillon sont 𝜇0 = 176 𝑐𝑚 et 𝜎0 = 6 𝑐𝑚. Nous
avons déjà estimé ponctuellement les paramètres de la population 𝜇̅ = 176 𝑐𝑚 et 𝜎̅ =
20
√19 6 ≈ 6.16 𝑐𝑚. Déterminons maintenant une estimation de 𝜇 par intervalle de confiance à
95% (ou au risque de 5%). Notons 𝑋̅ la variable aléatoire correspondant à la moyenne d’un
𝜎 𝜎
échantillon de taille 20 pris au hasard. On sait que 𝑋̅ ~𝑁 (𝜇, ) = 𝑁 (𝜇, ) ; on calcule un
√𝑛 √20
𝑋̅−𝑟
rayon r tel que 𝑝(𝜇 − 𝑟 ≤ 𝑋̅ ≤ 𝜇 + 𝑟) = 0.95. on pose 𝑇 = 𝜎/ ainsi 𝑇~𝑁(0,1) et donc
√20
√20 √20 √20 √20
𝑝 (−𝑟 ≤𝑇≤𝑟 ) = 0.95 donc 2∅ (𝑟 ) − 1 = 0,95 alors ∅ (𝑟 ) = 0,975 où
𝜎 𝜎 𝜎 𝜎
√20
𝑡= 𝑟 𝜎 .Nous cherchons donc, par lecture inverse de la table de la loi normale centré
réduite une borne t tel que ∅(𝑡) = 0,975 la borne t=1,96 convient. Ainsi notre réel r cherché
√20 𝜎
est tel que 𝑟 = 1.96 et 𝑟 = 1.96 mains une fois l’échantillon tiré, nous avons obtenu
𝜎 √20
un écart type estimant 𝜎̅ = 6.16 𝑐𝑚 d’où 𝑟 ≈ 2.7. la réalisation de l’intervalle de confiance à
95% sur cet échantillon est 𝐼𝐶 = [12.776 − 2.7; 176 +] + [173.3; 178.7] . Nous pouvons
donc estimer, avec une confiance de 95% que la taille moyenne de la population est comprise
entre 173.3 et 178.7 cm.
Lemme
𝐸 (F) = p donc F est un estimateur sans biais de p.
p(1−p)
V(F) = donc F est un estimateur convergent de p.
n
Exemple 1
Deux sondages différents portant sur la même caractéristique d’une population sont effectués.
Dans le premier sondage, on a pris un petit échantillon de taille 𝑛 = 5, on a trouvé X = 3
𝑋 3
donc 𝑝̅ = 𝑛 = 5 = 60%. Dans le second sondage, on a pris un petit échantillon de taille 𝑛 =
100, cet échantillon a donné 𝑋 = 60 donc 𝑝̅ = 60%. Ces deux sondages donnent-ils la même
information ?
Réponse : Non, le second résultat est beaucoup plus précis que le premier. (Comparant les
variances des deux cas).
Exemple
A quelques jours d’une élection, un candidat fait effectuer un sondage. Sur les 150 personnes
interrogées, 45 se disent prêtes à voter pour lui aux prochaines élections. La proportion
I- Généralités
Un test statistique est une procédure permettant de trancher entre deux hypothèses en prenant
une décision à partir d’informations fournies par un échantillon. L’hypothèse nulle, notée 𝐻0 ,
qui est supposée vraie en faveur du décideur jusqu’à preuve du contraire, dont on cherche à
vérifier par un raisonnement statistique. C’est l’hypothèse principal que l’on considère vraie à
priori. L’hypothèse alternative, notée 𝐻1 , est l’hypothèse qui sera acceptée si 𝐻0 est
{𝐻0 }
rejetée. {𝐻1 } ⊆ 𝐶 .
1. Concept de risque
Toute décision statistique comporte des risques d’erreur :
Risque de première espèce
C’est le risque de rejeter 𝐻0 alors qu’elle est vraie. Ce risque est appelé aussi le seuil de
signification du test et noté 𝛼. 𝛼 = 𝑝(𝑟𝑒𝑗𝑒𝑡 𝑑𝑒 𝐻0 / 𝐻0 𝑒𝑠𝑡 𝑣𝑟𝑎𝑖𝑒).
Risque de deuxième espèce
C’est le risque de ne pas rejeter 𝐻0 alors qu’elle est fausse. 𝛽 = 𝑝(𝑟𝑒𝑗𝑒𝑡 𝐻1 / 𝐻1 𝑒𝑠𝑡 𝑣𝑟𝑎𝑖𝑒).
La décision
𝐻0 𝐻1
𝐻0 Conclusion correcte Risque de première espèce 𝛼
La vérité Niveau de confiance 1 − 𝛼
𝐻1 Risque de deuxième espèce 𝛽 Conclusion correcte
Puissance de test 1 − 𝛽
Exemple
Soit 𝜇 la moyenne du niveau de radioactivité en picocuries par litre. La valeur 𝜇0 = 5 est
considérée comme la valeur critique entre eau potable et non potable. Considérons les deux
hypothèses 𝐻0 vs 𝐻1 :
𝐻0 : 𝜇0 ≥ 5 (eau toxique).et 𝐻1 : 𝜇0 < 5 (eau potable).
𝛼 = 𝑝(𝑟𝑒𝑗𝑒𝑡𝑒𝑟 𝐻0 / 𝐻0 𝑣𝑟𝑎𝑖𝑒 ) ce qui correspond à laisser boire de l’eau toxique
𝛽 = 𝑝(𝑎𝑐𝑐𝑒𝑝𝑡𝑒𝑟 𝐻0 / 𝐻0 𝑓𝑎𝑢𝑠𝑠𝑒 ) ce qui conduit seulement à rejeter de l’eau potable
1 − 𝛽 représente la puissance de test.
Remarque
Les tests ne sont pas faits pour «démontrer» H0 mais pour «rejeter» H0 . L’aptitude d’un test
à rejeter H0 alors qu’elle est fausse constitue la puissance du test.
Pour quantifier le risque 𝛽, il faut connaître la loi de probabilité de la statistique sous
l’hypothèse 𝐻1 .
2. La variable de décision
Preuve
σ σ
On a ̅̅̅
X1 ~N (μ1 , 1 ) et X2 ~N (μ2 , 1 ) et ona E(̅̅̅
X1 − ̅̅̅
X2 ) = E(̅̅̅
X1 ) − E(̅̅̅
X2 ) = μ1 − μ2 et
n1 n2
σ21 σ22
V(̅̅̅
X1 − ̅̅̅
X2 ) = V(̅̅̅
X1 ) + V(̅̅̅
X2 ) = n + n (puisque les deux variables ̅̅̅
X1 et ̅̅̅
X2 sont
1 2
indépendantes).
Remarque
Dans le cas où la distribution de la population est inconnue, on utilise le théorème central
̅̅̅1̅−X
X ̅̅̅2̅
limite pour déterminer la loi de ̅̅̅
X1 − ̅̅̅
X2 avec ~N(0,1)
σ2 σ2
√ 1+ 2
n1 n2
Etant donné le risque 𝛼, on va rejetter 𝐻0 si l’écart 𝐷 est trop grand. Ainsi on déterminera la
zone de rejet de la forme 𝑅 = [𝑑 ∗ , +∞[ à partir de la table de loi on détermine le réel 𝑡 tel que
1 − 𝛼 = 𝑝( 𝐷 < 𝑡 ) .
Théorème fondamental (admis)
(𝑁 −𝑛𝑝 )2
Si 𝑋~𝑄, alors 𝐷 = ∑𝑘𝑖=1 𝑖 𝑖 ~𝜒𝑘−1 2
approximativement (𝑘 le nombre de classes de 𝑋).
𝑛𝑝𝑖
En pratique «la convergence» est traduite par «𝑛𝑝𝑖 ≥ 5 ».
La preuve
Montrons tout d’abord que les variables aléatoires 𝑁1 , 𝑁2 … 𝑁𝑘 obéissent à la loi
𝑛 𝑛
𝑝1 1 𝑝𝑘 𝑘
multinomiale :𝑝( 𝑁1 = 𝑛1 , 𝑁2 = 𝑛2 … 𝑁𝑘 = 𝑛𝑘 ) = 𝑛! … ou 𝑝𝑗
𝑛1 𝑛𝑘
Soient 𝑋 la variable aléatoire étudiée et (𝑋1 , 𝑋2 … 𝑋𝑛 ) un n-échantillon de 𝑋. Et 𝑄 la loi qui
suit 𝑋 lorsque 𝐻0 est vraie.
Pour tout 𝑗 = 1 … 𝑘, on note 𝑝𝑗 la probabilité théorique de la classe 𝐶𝑗 donnée la loi 𝑄 avec
𝑝𝑗 = 𝑝(𝑋 ∈ 𝐶𝑗 ).
On note 𝑁𝑗 le nombre de variable 𝑋𝑗 prenant leur valeur dans 𝐶𝑗 si 𝐻0 est vraie.
1 𝑠𝑖 𝑋𝑙 ∈ 𝐶𝑗
On suppose que 𝑌𝑗𝑙 = { alors 𝑁𝑗 = ∑𝑛𝑙=1 𝑌𝑗𝑙 et on a 𝑝(𝑌𝑗𝑙 ) = 𝑝𝑗 . 𝑙 étant fixé , la
0 𝑠𝑖𝑛𝑜𝑛
fonction caractéristique de (𝑌1𝑙 , 𝑌2𝑙 … 𝑌𝑘𝑙 ) est 𝐸 (𝑒𝑥𝑝(∑𝑘𝑗=1 𝑡𝑗 𝑌𝑗𝑙 )).
Si 𝑌𝑗𝑙 = 1 i.e 𝑋𝑙 ∈ 𝐶𝑗 donc tous les autres 𝑌𝑚𝑙 sont nuls est cet événement a pour probabilité
𝑝𝑗 et pour conséquent la fonction caractéristique pour 𝑙 fixé est ∑𝑘𝑗=1 𝑝𝑗 exp(i𝑡𝑗 ).
Les 𝑌𝑗𝑙 pour les valeurs différentes de 𝑙 sont indépendants d’où la fonction caractéristique de
l’ensemble de 𝑌𝑗𝑙 est ∏𝑛𝑙=1(∑𝑘𝑗=1 𝑝𝑗 exp(i𝑡𝑗 ) ) donc la fonction caractéristique de
(𝑁1 , 𝑁2 … 𝑁𝑘 ) est
𝐸 (𝑒𝑥𝑝(𝑖 ∑𝑘𝑗=1 𝑁𝑗 𝑡𝑗 )) = 𝐸 (𝑒𝑥𝑝(𝑖 ∑𝑗𝑙 𝑌𝑗𝑙 𝑡𝑗 )) = ∏𝑛𝑙=1(∑𝑘𝑗=1 𝑝𝑗 exp(i𝑡𝑗 ) ) =
𝑛
(∑𝑘𝑗=1 𝑝𝑗 exp(i𝑡𝑗 )) qui est la fonction caractéristique de la loi multinomiale.
𝑛 𝑛
𝑝1 1 𝑝𝑘 𝑘
En conclusion 𝑝( 𝑁1 = 𝑛1 , 𝑁2 = 𝑛2 … 𝑁𝑘 = 𝑛𝑘 ) = 𝑛! … .
𝑛1 𝑛𝑘
Maintenant montrons que lorsque 𝑛 tend vers l’infini, la loi de probabilité des variables 𝑈𝑗 =
𝑁𝑗 −𝑛𝑝𝑗
, 𝑗 = 1 … 𝑘 tend vers une loi normale 𝑁(0,1).
√𝑛𝑝𝑗
En effet, la fonction caractéristique des 𝑈𝑗 est
𝑁𝑗 −𝑛𝑝𝑗
𝐸 (𝑒𝑥𝑝(𝑖 ∑𝑘𝑗=1 𝑡𝑗 𝑈𝑗 )) = 𝐸 (𝑒𝑥𝑝 (𝑖 ∑𝑘𝑗=1 𝑡𝑗 ))
√𝑛𝑝𝑗
𝑘 𝑘
𝑡𝑗
= exp (−𝑖 ∑ √𝑛𝑝𝑗 𝑡𝑗 ) 𝐸 (𝑒𝑥𝑝 (𝑖 ∑ 𝑁𝑗 ))
𝑗=1 𝑗=1
√𝑛𝑝𝑗
𝑝 𝑡𝑗 1 2 1 2
𝑒𝑥𝑝 (−𝑖 ∑𝑘𝑗=1 𝑡𝑗 √ 𝑛𝑗 ) ∑𝑘𝑗=1 𝑒𝑥𝑝 (𝑖 ) = 1 − 2𝑛 (∑𝑘𝑗=1 𝑡𝑗 √𝑝𝑗 ) + 𝑛 (∑𝑘𝑗=1 𝑡𝑗 √𝑝𝑗 ) −
√𝑛𝑝𝑗
1 1 1
∑𝑘𝑗=1 𝑡𝑗2 + 𝜀 ( )
2𝑛 𝑛 𝑛
1 2 1 1
= 1 − 2𝑛 ∑𝑘𝑗=1 𝑡𝑗2 − (∑𝑘𝑗=1 𝑡𝑗 √𝑝𝑗 ) + 𝑛 𝜀 (𝑛)
1
Lorsque 𝑛 tend vers l’infini, la puissance 𝑛 de ce produit tend vers 𝑒𝑥𝑝 (− 2 [∑𝑘𝑗=1 𝑡𝑗2 −
2
(∑𝑘𝑗=1 𝑡𝑗 √𝑝𝑗 ) ]) qui est la fonction, caractéristique d’un vecteur d’une loi normale 𝑁(0,1).
Lorsque 𝑛 tend vers l’infini 𝑈𝑗 tend vers 𝑁(0,1)
Exemple (Ajustement par la loi de Poisson)
Le responsable des stocks d’un laboratoire de produits pharmaceutiques souhaite savoir
combien de doses de vaccin il doit tenir en stock. Il relève donc les ventes de ce vaccin sur les
100 derniers jours, supposés représentatifs, à savoir :
On constate que 𝑇5 et 𝑇6 <5 or la condition du lemme est que 𝑛𝑝𝑖 > 5 pour tout i. donc on
regroupe les deux classes 5 et 6 en une le tableau ci-dessus devient
X 0 1 2 3 4 >=5 Total
𝑛𝑖 14 27 26 18 9 6 100
𝑇𝑖 13.4 26.93 27.07 18.13 9.11 5 .36 100
(𝑛𝑖 −𝑇𝑖 )2
On calcule 𝑑 = ∑6𝑖=1 = 0.15
𝑇𝑖
Le seuil critique 1 − 𝛼 = 0.95 et à partir du tableau des probabilités de la loi 𝜒52 on extrait t
vérifiant 𝑝(𝐷 ≤ 𝑡) = 0.95 on obtient t=11.07 or d=0.15<t=11.07 alors on accepte
l’hypothèse nulle ; c’est-à-dire les ventes de vaccin sont distribués selon la loi de poisson.
B- Test du χ2 d’indépendance
Le test d’indépendance ou d’association consiste à prouver l’existence d’une liaison entre 2
variables. On considère deux variables aléatoires 𝑋 et 𝑌 et on souhaite tester le fait que ces
deux variables sont indépendantes.
Exemple
Est-ce que la distribution de la couleur des yeux observée dans la population européenne est
indépendante du sexe des individus ?
Formulation des hypothèses
On calcule la distance entre les valeurs observées (ou les valeurs empiriques) et les valeurs
2
attendues s’il y avait indépendance. On montre que la loi de 𝜒𝑜𝑏𝑠 suit asymptotiquement une
2
loi du 𝜒𝑘−1 . Supposons que 𝑋 et 𝑌 deux variables aléatoires définies sur la même population
Ω mesurant deux caractères.𝑋: Ω → M, M étant un ensemble de modalités divisé en 𝑘 classes
𝐶1 , 𝐶2 … 𝐶𝑘 ; 𝑌: Ω → M′, M′ étant un ensemble de modalités divisé en 𝑙 classes 𝐷1 , 𝐷2 … 𝐷𝑙 .
On veut savoir s’il existe une liaison significative entre 𝑋 et 𝑌
𝐻0 : 𝑋 et 𝑌 sont indépendantes vs 𝐻1 : 𝑋 et 𝑌 sont dépendantes.
Détermination de la variable de décision
On dispose d’un échantillon 𝑋 et d’un échantillon de 𝑌 dont les résultats peuvent se mettre
sous la forme du tableau de contingence suivant :
𝐷1 𝐷𝑗 𝐷𝑙 Effectif des 𝐶𝑖
𝐶1 𝑛1∗
𝐶𝑖 𝑛𝑖𝑗 𝑛𝑖∗
𝐶𝑘 𝑛𝑘∗
Effectif des 𝑛∗1 𝑛∗𝑗 𝑛∗𝑙 𝑛
𝐷𝑖
C- Test du χ2 d’homogénéité
On considère 𝑟 populations 𝑃2 … . 𝑃𝑟 chacune divisées en 𝑘 classes distinctes 𝐶1 , 𝐶2 … . 𝐶𝑘
selon une même variable aléatoire 𝑋. On dira que les populations sont homogènes si la
distribution est la même dans les 𝑟 populations.
Formulation des hypothèses
𝐻0 : Les 𝑟 populations sont de même distributions vs 𝐻1 : les 𝑟 populations ne sont pas
homogènes.
On note 𝑝𝑖𝑗 la probabilité de la classe 𝐶𝑗 dans la population 𝑃𝑖 . les 𝑟 populations sont
homogènes si les 𝑝𝑖𝑗 ne dépendent pas de la population 𝑃𝑖 ce qui se traduit par 𝐻0 𝑝𝑖𝑗 =
𝑝𝑗 ∀𝑖 = 1 … 𝑟 , ∀𝑗 = 1 … 𝑘 avec ∑𝑘𝑗=1 𝑝𝑗 = 1 mais les 𝑝𝑗 sont inconnues puisque on ne
connait pas la loi de probabilité théorique de 𝑋. (𝑝𝑗 = 𝑝(𝑋 ∈ 𝐶𝑗 )). On dispose d’un
𝑛-échantillon de 𝑋 dans chacune des r populations dont les résultats peuvent se mettre sous la
forme du tableau de contingence suivant :
𝐶1 ⋯ 𝐶𝑗 ⋯ 𝐶𝐾 Taille des
échantillons
𝑃1 𝑛11 ⋯ 𝑛1𝑗 ⋯ 𝑛1𝑘 𝑛1∗
⋮ ⋮ ⋮
𝑃𝑖 𝑛𝑖1 𝑛𝑖𝑗 𝑛𝑖𝑘 𝑛𝑖∗
⋮ ⋮ ⋮
𝑃𝑟 𝑛
𝑛𝑟1 ⋯ 𝑟𝑗 ⋯ 𝑛𝑟𝑘 𝑛𝑟∗
Effectif 𝑛∗1 ⋯ 𝑛∗𝑗 ⋯ 𝑛∗𝑘 𝑛
des 𝐶𝑗
Avec 𝑛∗𝑗 = ∑𝑟𝑖=1 𝑛𝑖𝑗 ; 𝑛𝑖∗ = ∑𝑘𝑗=1 𝑛𝑖𝑗 et 𝑛 = ∑𝑟𝑖=1 ∑𝑘𝑗=1 𝑛𝑖𝑗 . On estimera naturellement le
𝑛
paramètre 𝑝𝑗 par la proportion correspondante dans l’échantillon 𝑝𝑗 ≈ 𝑛∗𝑗 ainsi si 𝐻0 est
vraie, l’effectif théorique de la classe 𝐶𝑗 dans la population 𝑃𝑖 est à peu près 𝑡𝑖𝑗 = 𝑛𝑖∗ × 𝑝𝑗 =
Exercice 2
La consommation d’essence en (L/100km) d’un certain modèle d’automobile est distribué
selon une loi normale. On note la consommation de 25 voitures de ce modèle. On obtient une
moyenne d’échantillon de 8.7L /100km et un écart type corrigé d’échantillon de 0.09L/km.
Estimer la variance de la population par intervalle avec 90%.
Exercice 3
Une entreprise comporte un grand nombre d’employés avec un système de pointage des
heures d’arrivée. Chaque employé doit arriver à 8h. On a relevé le retard d’un échantillon de
25 employés. On a obtenu un retard moyen de 6.47 min pour un écart type moyen 1.12 min. a
partir de ces informations, donner un intervalle de confiance au seuil de 0.9 pour l’écart type
du temps de retard
Exercice 4
Dans une population d’étudiants en License on a prélevé indépendamment deux échantillons
de tailles 𝑛1 = 120 et 𝑛2 = 150 ; On considère que les 48 étudiants du premier échantillon et
66 du deuxième ont une formation scientifique secondaire. Soit 𝜋 la proportion d’étudiants
ayant suivi une formation scientifique. Calculer 3 estimations ponctuelles de 𝜋.
Exercice 6
L’entreprise BOX, spécialisée dans la commercialisation de pomme de qualité, adresse à l’un
de ses clients un envoi massif de fruits. Au préalable, un contrôle de qualité portant sur un
échantillon de 1000 pommes a permis de dénombrer 80 fruits défectueux. On se propose de
calculer au seuil de confiance 90% et 95% entre quelles limites est compris le pourcentage de
fruits défectueux dans l’envoi.
Exercice 7
Le montant annuel versé à un régime d'épargne retraite par les 35 000 contribuables d'une région
donnée du pays varie selon une distribution inconnue. La moyenne par individu vaut 2 000 $ et l'écart
type est de 500 $. Un échantillon aléatoire et avec remise de 80 contribuables est prélevé parmi la
population de la région.
a) Calculer la probabilité pour que le montant versé moyen de l'échantillon soit compris
entre 1950 $ et 2100 $
b) Calculer la probabilité pour que le montant total annuel versé par l'ensemble des
contribuables de l'échantillon soit supérieur à 170 000 $ :
Exercice 8