Chapitre 4 - Statistique Inferentielle
Chapitre 4 - Statistique Inferentielle
Chapitre 4 - Statistique Inferentielle
Exemple:
1. Estimation // Estimateur :
Une estimation est la valeur spécifique ou fourchette de valeurs d’un estimateur pour un
échantillon déterminé.
Un estimateur est tout procédé qui permet, à partir d’un échantillon, d’apprécier la valeur
d’un paramètre statistique dans une population.
Pourquoi orienter notre choix vers telle méthode plutôt qu’une autre ?
Ou comment savoir si un estimateur est de meilleur qualité qu’un autre ?
Pour répondre à ces questions, il faut analyser les deux qualités que doit rencontrer un « bon »
estimateur
Les deux échantillons distincts A et B sont habituellement caractérisés par des paramètres
différents (par exemple xA ≠ x B ). En effet, ces différences sont exclusivement dues au hasard
et non à un éventuel biais introduit lors de la constitution des échantillons.
Intervalle de confiance :
o Au lieu d’estimer le paramètre par une seul valeur, on préfèrera donner un intervalle de
valeurs « plausibles » pour celui-ci.
o Intervalle, déterminé à partir des données d’un échantillon, dans lequel on peut parier que
se situe la vraie valeur de la population cible.
(avec un risque de se tromper acceptable)
➢ De la taille de l’échantillon;
α/2 α/2
Limite inférieure Limite supérieure
« Marge d’erreur ME »
E µ E
o Risque d’erreur : α
Avec E=
Conditions:
11
Conditions:
Valeur de Z α/2 que l'on retrouve dans la table normale réduite N(0,1)
o Si niveau de risque α = 10 % ou niveau de confiance 90% : Coefficient critique Z α/
2 = 1,645
α = 10 % α=5% α=1%
12
Conditions:
13
Exemple:
14
Calcule de la marge d’erreur (1/2 IC) sur la moyenne (α inconnu) :
= est la valeur t qui donne une surface de α/2 dans la queue supérieure d’une
distribution t avec n-1 degrés de liberté.
15
o Si X est une variable aléatoire approximativement gaussienne, alors la v.a. définie par
17
Application 1:
18
2. Tests d’hypothèses
2. Tests d’hypothèses
Bien que leur domaine d’application soient différents, la structure générale des tests
d’hypothèse est sensiblement toujours la même. Elle se présente en cinq étapes :
a. La définition des hypothèses
21
➔ Hypothèse :
On observe:
➔Région critique :
23
25
Application :
Un responsable étudie la longueur d’un processus de fabrication d’un produit alimentaire. Dans
l’expérimentation, il trouve que la moyenne théorique µ est de 375 min et la variance est de 225
min.
1. Dans le même cadre, un échantillon a été prélevé à 404,5 min. Ce temps est-elle
anormalement grand par rapport le processus avec α = 5% ?
1.1. Déterminer les hypothèses;
1.2. Convertir la valeur observée en une valeur réduite;
1.3. Trouver le seuil de signification;
1.4. Que peut-on conclure de cette première expérience (Type de test et crédibilité
de l’hypothèse ).
2. Dans le même cadre, on a mesuré un autre échantillon dont le temps de prélèvement est de
409 min. Cette valeur est-elle plus grande que celle attendue par rapport le processus de α =
5% ? Qu'en est-il avec un intervalle de confiance de 99% ?
2.1. Déterminer les hypothèses;
2.2. Convertir la valeur observée en une valeur réduite;
2.3. Trouver le seuil de signification;
2.4.Que peut-on conclure de cette deuxième expérience (Type de test et crédibilité
de l’hypothèse ).
26
4. Signification statistique :
4. 1. Valeur p (p-value)
27
8. règle de décision :
o Il existe deux stratégies pour prendre une décision en ce qui concerne un test d’hypothèse :
o La première stratégie fixe a priori la valeur du seuil de signification α et la seconde établit
la valeur de la probabilité critique αobs a posteriori.
28
8. règle de décision :
o Il existe deux stratégies pour prendre une décision en ce qui concerne un test d’hypothèse :
o La première stratégie fixe a priori la valeur du seuil de signification α et la seconde établit
la valeur de la probabilité critique αobs a posteriori.
Règles de décision 2:
29
o Comparer plusieurs échantillons est un problème qui se rencontre très souvent en pratique.
o Par exemple, parmi les nombreuses questions qu’elle doit se poser par un scientifique
élaborant un nouveau traitement doit trouver une solution aux situations suivantes :
1. Le traitement est-il efficace (c’est-à-dire donne-t-il de meilleurs résultats qu’un
autre) ?
2. Est-il supérieur à d’autres traitements existants ? ...
o Habituellement, la comparaison de plusieurs échantillons se fait sur base des paramètres
statistiques suivants :
A. Les moyennes ;
B. Les variances (c’est-à-dire des dispersions) ;
C. Les pourcentages ;
D. Les distributions (les deux échantillons sont issus de la même population).
30
o Comparer plusieurs échantillons est un problème qui se rencontre très souvent en pratique.
o Par exemple, parmi les nombreuses questions qu’elle doit se poser par un scientifique
élaborant un nouveau traitement doit trouver une solution aux situations suivantes :
1. Le traitement est-il efficace (c’est-à-dire donne-t-il de meilleurs résultats qu’un
autre) ?
2. Est-il efficace à d’autres traitements existants ? ...
32
Méthodologie
1. Prélever les échantillons (couples 4. Calculer le critère
d’observations) (N1 = N2 = N) ;
2. Évaluer la moyenne xd et l’écart-type sd
pour ces différences;
3. Fixer le risque de première espèce α ; La v.a. Z est distribuée selon une N(0; 1) et la
v.a. T selon une loi de STUDENT à N − 1 ddl. 33
Processus A B C D E F G H I J K L
Après x2 200 174 198 170 179 182 193 209 185 155 169 210
Avant x1 191 170 177 167 159 151 176 183 159 145 146 177
Diff d 9 4 21 3 20 31 17 26 26 10 23 33
• Les effectifs sont grands : N1 > 50 et N2 > 50 et les variances des populations sont égales
(homoscédastiques) : σ2 1= σ2 2
• Les effectifs sont grands : N1 > 50 et N2 > 50 et les variances des populations sont
différentes : σ2 1/= σ2 2
• Un au moins des effectifs est petit : N1 ≤ 50 ou N2 ≤ 50 et les variances des populations sont
égales (homoscédastiques) : σ2 1= σ2 2
• Un au moins des effectifs est petit : N1 ≤ 50 ou N2 ≤ 50 et les variances des populations sont
différentes : σ2 1/= σ2 2
35
1. Prélever deux échantillons d’effectif respectif N1 et N2 (N1 non nécessairement égal à N2);
2. Évaluer leur moyenne (x1 et x2) et leur écart-type (s1 et s2) respectifs;
3. Fixer le risque de première espèce α ;
4. Calculer le critère :
La v.a. Z (N1 > 50 et N2 > 50) est distribuée selon une loi N(0 ; 1) tandis que T (N1 ≤ 50 ou N2
≤ 50) est distribuée selon une loi de STUDENT à N1 +N2 −2 degrés de liberté.
5. On rejette l’hypothèse nulle H0 si
36
Le levain est utilisé dans des pâtes sucrées, l’avantage de cet ingrédient tient essentiellement à l'acidité
apportée par l'acide lactique et l'acide acétique. En se référant à la table suivante, montrer que l’utilisation
du levain réduit significativement le taux d’acidité dans ces pâtes sucrées.
taux d’acidité
Avec 16 15 16 14 16 12 16 18 10 14 12 11 14 13 13 13 16 16 8 16 11
Sans 23 23 24 26 25 26 21 24
37