TD5 TH 2020

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 6

Université de Manouba Méthodes 2ème année

École Nationale des Sciences statistiques A.U: 2020-2021


de l’Informatique Sem: I
TD:5 Janvier 2021

Tests d’hypothèses

1 Cours
On considère une hypothèse nulle H0 contre une hypothèse alternative H1 . On veut
décider de rejeter ou ne pas rejeter H0 . Si on rejette H0 c’est qu’on accepte H1 . Il est possi-
ble de rejeter H0 alors que H0 est vraie comme il est possible d’accepter H0 alors que H0 est
fausse. On pose α = P ( rejeter H0 |H0 est vraie) et β = P ( accepter H0 |H0 est fausse).
α s’appelle erreur de première espèce. β s’appelle erreur de deuxième espèce. Le nombre
1 − β = P ( rejeter H0 |H0 est fausse ) s’appelle la puissance du test.
La question qui se pose dans un test d’hypothèses s’écrit:

(*) Si on se permet d’un risque d’erreur α ∈ [0, 1], peut-on rejeter H0 (en faveur de H1 )?

Les deux valeurs extrêmes de α ne demandent pas de calcul:


Pour α = 0, on ne se permet d’aucun risque d’erreur. Décision: On ne rejette pas H0 .
Pour α = 1, on se permet d’un risque d’erreur de 100%. On rejette H0 .
Entre les deux valeurs α = 0 et α = 1, il y a une valeur critique αc tels que si 0 ≤ α < αc
alors on ne peut pas rejeter H0 même si on se permet d’une erreur α de se tromper, par
contre, si αc < α ≤ 1 alors on peut rejeter H0 (en faveur de H1 ) avec un risque α de
se tromper. αc s’appelle la p-valeur du test. Si la p-valeur du test est assez grand c’est
qu’on ne peut rejeter H0 que si on se permet d’un grand risque d’erreur. En statistiques,
généralement, on veut tester si un paramètre θ est conforme à une valeur θ0 donnée (Tests
de conformité) ou si deux paramètres θ1 et θ2 de deux populations différentes sont égale
(Tests de comparaison).
La procédure générale qui permet de répondre à la question (*) est:

a. Écrire les deux hypothèses:


H0 : égalité: θ = θ0 : hypothèse nulle, contre H1 : hypothèse alternative, dépend de la
question qu’on veut répondre:
Si H1 s’écrit θ 6= θ0 alors on dit que le test est bilatéral.
Si H1 s’écrit θ > θ0 alors on dit que le test est unilatéral à droite
Si H1 s’écrit θ < θ0 alors on dit que le test est unilatéral à gauche.

b. On suppose que H0 est satisfaite. On construit une statistique U qui fait intervenir la
différence θ − θ0 de sorte que:

• la loi de U est approchable par une loi connue.


• on peut calculer, grâce à un échantillon, une valeur observée u de U .
• la statistique U permet de traduire mathématiquement P ( rejeter H0 |H0 est vraie) =
α. Cette traduction dépend de l’hypothèse alternative en faveur de laquelle on
rejette H0 .

c. On détermine un nombre uα > 0 tel que:

1
• P ( rejeter H0 |H0 est vraie) = P (U ∈]
/ − uα , uα [) = α, si le test est bilatéral.
• P ( rejeter H0 |H0 est vraie) = P (U > uα ) = α, si le test est unilatéral à droite.
• P ( rejeter H0 |H0 est vraie) = P (U < −uα ) = α, si le test est unilatéral à gauche

Ainsi, on obtient une région de rejet de H0 (qui s’appelle aussi région critique). Notons
Iα cette région.

d. Décision: u étant la valeur observée de U .

• Si u ∈ Iα alors on rejette H0 avec un risque α de se tromper.


• Si u ∈
/ Iα alors on ne rejette pas H0 .

A. Tests de conformité:

a. Conformité d’une proportion H0 : p = p0 contre H1 : dépend de la question à traiter.

T − E[T ]
U= N (0, 1)
σ(T )

Avec T la v.a qui donne le nombre d’individus vérifiant le caractère étudié parmis
n individus. n est supposé assez grand
b. Conformité d’une moyenne: H0 : m = m0 contre H1 : dépend de la question à
traiter.
1. Population normale: σ connu

X̄n − m0
U= √ N (0, 1
σ/ n

2. Population normale: σ inconnu, Test de Student

X̄n − m0
T = √ t(n − 1)
Sn−1 / n

3. Population de grande taille

X̄n − m0
U= √ N (0, 1)
Sn−1 / n

c. Conformité d’une variance: Test de χ2 H0 : σ = σ0 contre H1 : dépend de la question


à traiter.
(n − 1)Sn−1
W = χ2 (n − 1)
σ02
B. Tests de comparaison

a. Comparaison de deux proportions H0 : p1 = p2 contre H1 : dépend de la question à


traiter.
T1 /n1 − T2 /n2
U=p N (0, 1)
p(1 − p)(1/n1 + 1/n2
n1 et n2 sont supposés assez grands pour pouvoir appliquer le TCL. Sous H0 la
valeur commune p de p1 et p2 est inconnue, elle est estimée par F = nT11 +n
+T2
2
.

2
b. Comparaison de deux variances: Test de Fisher H0 : σ12 = σ22 Contre H1 : σ12 6= σ 2
2
Sc,1
F = 2
F (n1 − 1, n2 − 1)
Sc,2

Sans perte de généralité on suppose que la valeur observée s2c,1 de σ12 est > à celle
de σ22 . (Sinon on inverse). La zone de rejet de H0 est définie par P (F > fα ) = α2 .
c. Comparaison de deux moyennes:
(n1 −1)Sc,1 +(n2 −1)Sc,2
1. Échantillons Gaussiens indépendants On pose Sc,1,2 = n1 +n2 −2
χ2 (n1 + n2 − 2)).
2. Échantillons Gaussiens appariés

2 Exercices
Exercice 1. Supposons que la statistique du test U N (0.1). Soit u une valeur observée
de U .
1. Calculer uα dans chacun des trois types de test.

2. Commenter les deux valeurs extrêmes de uα dans ce cas.

3. Déterminer la p-valeur de chaque type de test.

4. Pour u = 1.45, est ce qu’on peut rejeter H0 avec un risque 5% de se tromper? (On
discutera le cas du test bilatéral).
Problème 1. À partir des statistiques compilées dans le passé, on sait que 40% des
individus d’une certaine région achètent le savon de toilette de marque ”C”. On vient
de déterminer une compagne publicitaire dans cette région en faveur du savon ”C”. Soit
p la proportion des individus qui achètent ”C” après la campagne publicitaire. Pour
vérifier l’efficacité, on tire un échantillon aléatoire de 500 personnes de la région, et on
leur demande si maintenant elles achètent ou non le savon ”C”. 220 personnes répondent
”oui”.
A) L’agence de publicité prétend que, moyennant une erreur de α = 5%, la proportion
des individus qui achètent ”C” a augmenté au moins de pc = 5%.

1. Déterminer un intervalle de confiance unilatéral à droite (de la forme [a, 1]) pour
p au coefficient de risque 2%.
2. Est ce que cet intervalle confirme ce que l’agence prétend? sinon, comment rectifier
α ou pc pour que la parole de l’agence soit cohérent avec l’intervalle de confiance?

B) On veut tester si la compagne publicitaire a été efficace à un niveau de signification


α. On considère les deux hypothèses:

H0 :la compagne publicitaire n’est pas efficace


H1 : la compagne publicitaire est efficace

1. Comment s’appelle chacune des deux d’hypothèses H0 et H1 ?


2. Comment s’exprime mathématiquement H0 et H1 ?
3. Comment classer ce type de tests?

3
4. En utilisant H0 , comment se traduit en terme de probabilité le fait d’affirmer que la
compagne publicitaire est efficace avec un pourcentage α de se tremper? Comment
s’appelle cette probabilité?
5. Soit β = P ( ne pas rejeter H0 |H0 est faux). Comment s’appelle cette probabilité?
6. En fonction de β, calculer P (rejeter H0 |H0 est faux ). Comment s’appelle cette
probabilté?
7. Avec un risque α = 1%, peut-on affirmer que la compagne publicitaire est efficace?
8. Avec un risque α = 5%, peut-on affirmer que la compagne publicitaire est efficace?
9. Avec un risque α = 10%, peut-on affirmer que la compagne publicitaire est efficace?
10. Calculer la p-valeur du test et retrouver les réponses aux questions B7, B8 et B9.
11. Écrire le code R qui permet de faire automatiquement ce test. Expliquer ce que
R retourne en exécutant ce code.

Problème 2. Pour apaiser un certain type de maux de tête, on a l’habitude de traiter les
malades avec un médicament A. Une étude statistique a montré que la durée de disparition
de la douleur chez les malades traités avec A était une variable aléatoire de loi normale
N (m0 ; σ02 ), avec m0 = 30 mn et σ0 = 5 mn. Un laboratoire pharmaceutique a conçu
un nouveau médicament B et désire tester son effcacité. Pour cela, On a administré le
médicament B à 12 malades et relevé les durées de disparition de la douleur suivantes:

25, 28, 20, 32, 17, 24, 41, 28, 25, 30, 27, 24.

On décide de ne commercialiser B que si on est sûr à 95% qu’il est plus efficace que A.

1. Traduire cette situation au moyen d’un test d’hypothèses.

2. Comment classifier ce test?

3. Peut-on lancer la commercialisation du médicament B?

4. Caluler la p-valeur de ce test.

5. Écrire et expliquer la commande R qui permet de faire automatiquement ce test.

Problème 3. Dans une usine du secteur de l’agroalimentaire, une machine à embouteiller


est alimentée par un réservoir d’eau et par une file d’approvisionnement en bouteilles
vides. Pour contrôler le bon fonctionnement de la machine, on veut construire un test
d’hypothèse bilatéral qui sera mis en œuvre toutes les heures. Pour une production d’une
heure, on suppose que la variable aléatoire X qui à toute bouteille, prise au hasard dans
cette production, associe le volume d’eau (en litres) qu’elle contient, est une variable
aléatoire d’espérance m et d’écart-type σ inconnus. On considère que la machine est
bien réglée lorsque le volume d’eau moyen dans une bouteille est 1.5 l. On a prélevé un
échantillon de n = 100 bouteilles, et on a obtenu un volume d’eau moyen de x̄ = 1.495 l
et un écart-type corrigé de sc = 0, 01 l.

1. Peut-on conclure, au risque 5%, que la machine est bien réglée ?

2. Reprendre la même question avec sc = 0.04. Interpréter le résultat.

4
Problème 4. Supposons que le temps X nécessaire aux candidats pour un test écrit
exigé pour l’obtention d’un permis de conduire suit une distribution Normale. Le préposé
au test affirme que selon son expérience, la variance de ce temps est de 64 mn. A priori,
on n’a pas la raison particulière de croire que cette variance pourrait être plus grande ou
plus petite que 64 mn (c’est à dire que l’affirmation du préposé est fausse). Pour vérifier
son affirmation, on choisit au hasard 25 individus qui ont passé ce test, et l’on obtient
une variance corrigée s2c = 38.44. Devrait-on rejeter l’affirmation du préposé au niveau
α = 5%.

Problème 5. Soient p1 et p2 les proportion de pièces défectueuses produites, respective-


ment, par une machin 1 et une machine 2. La machine 1 a produit 96 pièces dont 12
défectueuses. La machine 2 a produit 55 pièces dont 10 défectueuses. On se pose la
question si on peut en conclure que la machine 1 est significativement plus performante
que la machine 2.

1. Écrire le test d’hypothèses adéquat pour cette question: préciser les deux hypothèses
H0 et H1 .

2. Supposons que H0 est vraie. Soient T1 et T2 les v.a qui représentent le nombre
de pièces défectueuse produites, respectivement, par la machine 1 et la machine 2.
Construire une statistique U qui permet de décider le rejet de H0 avec un risque α
de se tremper.

3. Si on se permet d’une erreur de 5%, est ce qu’on peut conclure que la machine 1 est
plus performante que la machine 2?

4. Calculer la p-valeur de ce test.

5. Quel est le risque d’erreur qu’il faudrait prendre pour rejeter H0 . Conclure.

6. Écrire le code R qui permet de réaliser ce test.

Problème 6. Dans un article de la revue ”Biometrica”, le biologiste Latter donne la


longueur (en mm) des oeufs de Coucou trouvés dans les nids de deux espèces d’oiseaux:

• dans des nids de petite taille (Roitelet):

19.8, 22.1, 21.5, 20.9, 22.0, 21.0, 22.3, 21.0, 20.3, 20.9, 22.0, 22.0, 20.8, 21.2, 21.0

• dans des nids de taille plus grande (Fauvette):

22.0, 23.9, 20.9, 23.8, 25.0, 24.0, 23.8, 21.7, 22.8, 23.1, 23.5, 23.0, 23.1, 23.0

5
On se demande si le Coucou adapte la taille de ses œufs à la taille du nid.

Soient X1 et X2 les v.a mesurant, respectivement, la longueur des oeufs dans les nids
de Roitelet et ceux dans les nids de P Fauvette. On suppose que X1 N (m1 , σ12 ) et
2 n1 P n2
X2 N (mP2 , σ2 ). On pose X̄1 = 1/n1 Pi=1 X1,i , X̄2 = 1/n2 i=1 X2,i ,
n n
S1 = 1/n1 i=1 (X1,i − X̄1 ) , S2 = 1/n2 i=1 (X2,i − X̄2 ) , Sc,1 = (n1n−1)
2 1 2 2 2 2 2 1
S12 , Sc,2
2
= (n2n−1)
2
S22 .
Soit α = 0.05.
1. Calculer les estimations ponctuelles de la moyenne et de la variance corrigée pour
chaque échantillon.

2. Considérons le test H0 : σ12 = σ22 contre l’hypothèse H1 : σ12 6= σ22 .


2
Sc,1
(a) Si H0 est vraie, qu’elle est la lois de F = 2 .
Sc,2
s2c,1 s2c,2
(b) Calculer f = s2c,2
et f 0 = s2c,1
.
1
(c) Soit F 0 = .Trouver a tel que P (F 0 ≥ a) = α/2.
F
(d) Décider si les variances des deux populations ne sont pas différentes significa-
tivement au risque α.
(e) Écrire et expliquer la commande R qui permet de faire automatiquement ce
test.
(f) Calculer une estimation de la valeur commune σ 2 de σ12 et σ22 .

3. On veut tester H0 : m1 = m2 contre H0 : m1 6= m2 . On pose


2 2
2
(n1 − 1)Sc,1 + (n2 − 1)Sc,2
Sc,1,2 =
n1 + n2 − 2
X̄ − X̄2
(a) Sous H0 , qu’elle est la lois de T = p1 .
Sc,1,2 1/n1 + 1/n2
(b) Déterminer tα tel que P (−tα < T < tα ) = 1 − α.
(c) Justifier si on peut rejeter H0 avec une probabilité α de se tromper.
(d) Écrire le code mr qui permet de faire automatiquement ce test.

4. Refaire ce problème avec α = 0.02.


Problème 7. Deux échantillons sont dits appariés si et seulement si ils sont constitués de
deux mesures successives de la même variable sur les mêmes individus. Afin de mesurer
les effets d’un nouveau régime amaigrissant, celui-ci a été teste sur 15 individus pris au
hasard dans une population. Le tableau suivant donne leur poids en kg avant et après le
régime:
avant: 70 75 80 60 64 66 70 74 78 80 82 90 101 84 77
après: 68 76 74 58 65 60 70 70 75 79 78 95 103 80 74

On se contentera ici de supposer que les deux échantillons sont gaussiens,


1. Le régime est-il efficace?

2. Écrire le code R qui permet de faire automatiquement ce test.

Vous aimerez peut-être aussi