TD Test With Solution
TD Test With Solution
TD Test With Solution
1 Estimation ponctuelle
Exercice 1.
Soient X1 , . . . , Xn i.i.d. de loi de Poisson de moyenne λ. Déterminez le MLE pour le
paramètre λ.
Solution :
5. Pour X ∼ Poisson(λ), et x ∈ N
λx −λ
P(X = x) = e
x!
Donc pour X1 , . . . , Xn i.i.d ∼ Poisson (λ), (il s’git d’une loi discrète ici) pour un échantillor
(x1 , · · · , xn ) donné, la vraisemblance s’écrit
n
Y
L (λ; x1 , · · · , xn ) = P (Xi = xi )
i=1
n
Y λ xi
= e−λ
xi !
i=1
e−nλ
= λx1 +···+xn
x1 ! · · · xn !
La log-vraisemblance s’écrit
L’ensemble des valeurs possibles est {0, 1}. Le paramètre inconnu est p. Si (x1 , . . . , xn ) ∈
{0, 1}n est un échantillon, la vraisemblance vaut :
P P
xi
L(x1 , . . . , xn , p) = p (1 − p)n− xi
.
Son logarithme est :
X X
log(L(x1 , . . . , xn , p)) = ( xi ) log p + (n − xi ) log(1 − p) .
La dérivée par rapport à p est :
∂ log(L(x1 , . . . , xn , p)) X 1 X 1
=( xi ) − (n − xi ) .
∂p p 1−p
Elle s’annule pour : P
xi
pb = .
n
La dérivée seconde est :
∂ 2 log(L(x1 , . . . , xn , p)) X 1 X 1
2
= −( xi ) 2 − (n − xi ) .
∂p p (1 − p)2
Elle est strictement négative, la valeur pb est bien un maximum. Si (X1 , . . . , Xn ) est un
échantillon de la loi de Binomiale (Bernoulli) de paramètre p, l’estimateur du maximum
de vraisemblance de p est : P
Xi
,
n
à savoir la fréquence empirique.
Exercice 3.
Soit (X1 , . . . , Xn ) un échantillon aléatoire simple issu d’une population de densité
1 e− θ1 (x−γ) si x > γ
fθ (x) = θ
0 sinon
Cette dernière quantité n’est jamais nulle. Souhaitant maximiser la vraisemblance, on re-
marque qu’à θ fixé, la vraisemblance est une fonction croissante de γ. Quand γ prend sa
valeur maximale, la vraisemblance sera maximale. Or, γ ≤ X(1) .
On trouve alors
γ̂ = X(1) = Xmin et θ̂ = X̄ − X(1)
Exercice 4.
Soit X1 , . . . , Xn un échantillon aléatoire simple issu d’une population de densité
( 2θ−1
θ
x 1−θ si 0 < x < 1
fθ (x) = 1−θ
0 sinon
Exercice 6.
Les éléments d’une population possèdent un caractère X qui suit une loi de densité
√
θ 2
fθ (x) = √ e−θx /2
2π
où θ > 0. Pour étudier le paramètre θ, on a effectué une suite de n expériences indépen-
dantes qui ont donné les réalisations x1 , . . . , xn de n v.a. X1 , . . . , Xn i.i.d. de même loi que
X.
1. Déterminez un estimateur θ̂ du paramètre θ par la méthode du maximum de vrai-
semblance.
2. θ̂ est-il exhaustif ?
3. Calculez la moyenne et la variance de θ̂. Déduisez-en un estimateur θ̂1 de θ non
biaisé. Quelle est la variance de θ̂1 ? Est-il convergent ?
Exercice 7.
Les éléments d’une population possèdent un caractère X qui suit une loi de densité
2 2
fθ (x) = √ 3/2
x2 e−x /θ
πθ
2 Tests statistique
Exercice 9.
On veut savoir si la résistance moyenne de composants produits dans une usine est 400Ω.
On considère que la distribution des résistances est normale, et on mesure pour 16 compo-
sants les valeurs 392, 396, 386, 389, 388, 387, 403, 397, 401, 391, 400, 402, 394, 406, 406, 400.
(a) Donner les estimations ponctuelles des moyenne et variance.
(b) Peut-on considérer, au seuil de signification α = 5%, que le lot respecte la norme
de 400 ? Même question avec un seuil de α = 1%.
Solution :
b) Si l’on fait l’hypothèse H0 : "le lot respecte la norme de 400Ω00 , alors dans 95% des
cas la moyenne sur un échantillon d’effectif 16 se trouve dans l’intervalle
soit
√ X̄ − µ
P −t ≤ n = 0.95, et donc 1 − F (−t) = F (t) = 0.95 : t = 1.64
s
Ainsi, dans I’ hypothèse H0 , la durée de vie moyenne d’un échantillon d’effectif 100se
trouve, dans 95% des cas, dans l’intervalle [2000 − 1.64 ∗ 130/10, +∞[= [1978.68, +∞[. La
mesure de 1975 h sur l’échantillon n’ étant pas dans cet intervalle,
H0 doit être rejetée : il est probable que le fabriquant mente.
Exercice 11.
Un fabricant annonce que la masse d’un composant de l’un de ses produits est de
75mg. Les mesures pour le vérifier étant coûteuses, trois seulement sont réalisées, dont les
résultats sont 70, 72 et 74mg. Peut-on, au risque de 5% de se tromper, dénoncer la publicité
du fabriquant ?
Solution :
Notons X la variable aléatoire correspondante. (on doit supposer que la loi de X est une loi
normale pour pouvoir appliquer les méthodes du cours). On note µ = E(X) : il s’agit donc
icl d’effectuer un test bilatéral de l’hypothèse H0 : µ = 75. On obtient sur un échantillon
de 3 mesures : n = 3, x̄ = 72, σ 02 = 8/3 et s2 = 8/2 = 4 donc l’estimation ponctuelle de
√
l’écart-type est s = 2. On sait que n X̄−µ s suit une loi de Student à 2 degrés de liberté,
donc si α = 0.05,
t(α) = 4.3027
Ainsi, la moyenne des durées de vie mesurées
√ sur un échantillon√ d’effectif 3 sera, dans 95%
des cas, dans l’intervalle [75−4.3027×s/ 3, 75+4.3027×s/ 3] = [70.03, 79.97]. La valeur
moyenne 72 mesurée sur l’échantillon étant bien dans cet intervalle, on n’ a pas de raisons,
au vu de ces mesures, de rejeter H0 .
Exercice 12.
Un laboratoire pharmaceutique désire étudier les effets secondaires potentiels d’un mé-
dicament sur le taux de cholestérol des patients. Cent volontaires sains sont donc choisis
pour tester le médicament.
(a) Avant l’expérience, le taux de cholestérol moyen de ces volontaires est de 2.02 ±
0.2g/l. Le taux de cholestérol moyen dans la population étant de 2 g/l, vérifier que
cet échantillon est représentatif au risque 5
(b) Après un mois de traitement, seuls 97 volontaires reviennent faire un test. Leur
taux moyen de cholestérol est passé à 2.09g/l avec un écart-type d’échantillon de
0.25g/l.
La différence est-elle significative au risque 5% ? Au risque 1% ?
Solution :
(a) Soit X1 la variable aléatoire qui mesure le taux de cholestérol d’un individu ; E (X1 ) =
µ1 = 2 X1 est le taux moyen mesuré sur un échantillon de taille n1 = 100 Alors
√
n1 étant plus grand que 30, on peut considérer que n1 Xs11−2 suit une loi normale,
avec s1 = 0.2 estimation ponctuelle de l’écart-type de X1 . Ainsi, dans 95% des cas
le taux moyen observé sur un échantillon sera compris dans [2 − 1.96 × 0.2/10, 2 +
1.96 × 0.2/10] = [1.961, 2.039].
Le taux de cholestérol moyen des volontaires étant bien dans cet intervalle, on peut
considérer que cet échantillon est représentatif.
b) Soit X2 la variable aléatoire mesurant le taux de cholestérol d’un individu après
un mois de traitement ; son espérance µ2 est inconnue. X2 est le taux moyen d’un
échantillon de taille n2 = 97.
On fait l’hypothèse H0 : "est les taux de cholestérol moyens sont les mêmes avant
et après traitement".
Alors µ1 = µ2 , et on peut considérer que
X1 − X2
p ∼ N (0, 1)
s1 /n1 + s22 /n2
2
Comme la différence entre les taux moyens mesurés 2.02−2.09 = 0.07 n’est pas dans
cet intervalle, elle est significative, et on rejette H0 donc on considère, au risque 5%
de se tromper, que le médicament a un effet.
En revanche, l’intervalle de confiance au risque 1% est
q q
2 2 2 2
−2.57 s1 /n1 + s2 /n2 , 2.57 s1 /n1 + s2 /n2 = [−0.083, 0.083],
intervalle qui contient la valeur 2.02 − 2.09 = 0.07, donc la différence n’est pas
significative au risque de 1%.
Exercice 13.
Pour étudier un nouvel alliage métallique, on a soumis un échantillon aléatoire de 16
tiges aux essais pour obtenir les résistances suivantes en kg/cm2 :
1895, 1920, 1886, 1890, 1864, 1880, 1875, 1915, 1850, 1927, 1910, 1912, 1886, 1903, 1854, 1880.
On suppose la résistance distribuée normalement.
(a) Estimer par intervalle avec un niveau de confiance de 95%, la résistance moyenne à
la rupture.
(b) Avant l’introduction de ce nouvel alliage la résistance moyenne à la rupture des
tiges était de 1840kg/cm2 . Que peut-on conclure des essais effectués avec le nouvel
alliage ?
Exercice 14.
Les habitants d’une région aéroportuaire se plaignent que le bruit des avions dépasse
la limite autorisée de 80 décibels en moyenne imposée par la législation. On admet que
I’intensité du bruit causé par les avions est une variable aléatoire X de loi gaussienne
d’espérance µ et de variance 64 .
On mesure un échantillon journalier de n = 16 variables aléatoires indépendantes
X1 , . . . , Xn de I’intensité du bruit, et on effectue le test statistique suivant.
H0 : µ = µ0 = 80 décibels
H1 : µ = µ1 = 85 décibels
1. Expliciter les risques de première et deuxième espèces. De quel point de vue est fait
ce test ? Celui des habitant ou celui des responsables de I’aéroport ?
2. Quelle variable de décision faut-il choisir et quelle est sa loi ?
3. Calculer le seuil de la région critique pour un risque α = 5%.
4. Calculer la puissance du test.
5. Enoncer les règles de décision avec les probabilités d’erreur.
6. La moyenne calculée sur l’échantillon est x̄ = 83 décibels. Les habitants ont-ils raison
de se plaindre ? Le test d’hypothèses ainsi établi leur est-il favorable ou défavorable ?
7. Combien faudrait-il faire de relevés journaliers, pour que le risque de deuxième
espèce soit de 5% ?
8. Quelle serait alors le seuil de décision ?
Exercice 15.
Sur un échantillon de 900 naissances, on constate qu’il y a 470 garçons. Un généticien
décide d’utiliser ces données pour effectuer le test suivant relatif aux proportions p et 1 -p
de naissances respectivement masculines et féminines :
H0 : p = 0.5
H1 : p = 0.55
1) Construire un test pour ces hypothèses avec un risque α = 5%. Peut-on être satisfait
du test ? Si non comment peut-on I’améliorer ?
2) Ce généticien effectue une nouvelle étude sur un échantillon de même taille. II sou-
haite cette fois tester les hypothèses :
H0 : p = 0.5
H1 : p 6= 0.5
Solution :
1)
HO : p = 0.5
H1 : p = 0.55
Variable de décision La fréquence empirique Fn est un estimateur de p et avec un
échantillon de taille 900, on peut considérer grâce au TCL que Fn suit une loi normale
N (p, p(1 − p)/n) où p = 0.5 sous I’hypothèse H0 et p = 0.55 sous I’hypothèse H1 .
La région critique W est la région d’acceptation de H1 d’où W = {Fn ≥ C}. (c)
Calcul du seuil On sait que α = P (W | H0 vraie ) = P (Fn ≥ C | H0 vraie ). Supposons
2 2
H0 vraie alors Fn suit une
√ √ N 0.5, σ0 où σ0 = 0.5 ∗ 0.5/n, d’où α = P (Fn ≥ C) =
n −0.5
P √F0.5∗0.5 n ≥ C−0.5
0.5 n ⇔ P (Z ≥ C 0 ) = 0.05 où Z suit une loi N (0, 1)
0.5
⇒ C 0 = 1.64 ⇒ C = 0.5 + 1.64 ∗ √
n
∗
⇒ C ≈ 0.5 + 1.64 0.5/30 ≈ 0.53
(d) Calcul de la puissance On sait que 1 − β = P (W | H1 vraie ) = P (Fn ≥ C | H0 vraie
). Supposons H1 vraie alors Fn suit une N 0.55, σ12 où σ 2 = 0.45∗ 0.55/n, d0 où
Fn − 0.55 √ C − 0.55 √
1−β = P (Fn ≥ C) = P √ n≥ √ n = P (Z ≥ −1.21) = P (Z < 1.21) = 0.89
0.55 ∗ 0.45 0.55 ∗ 0.45
⇒ B = 0.11
(d) Règles de décision Si fn ≥ 0.53 alors on accepte H1 , i.e on considère qu’il y a plus
de garçons que de filles avec 5% de risque de se tromper. Si fn < 0.53 alors on garde H0 ,
i.e on considère qu’il y a autant de filles que de garçons avec 11% de risque se tromper.
L’échantillon considéré indique fn = 470/900 = 0.52 donc le généticien conclut qu’il y
autant de garçons que de filles avec 11% de risque de se tromper. (e) Taille échantillon Le
risque de 2ème espèce n’est pas acceptable. Pour le réduire nous allons jouer sur la taille
de I’échantillon. L’erreur de première espèce donne une première équation
0.5
C = 0.5 + 1.64∗ √
n
Et si on impose une erreur de seconde espèce de 0.05 alors on obtient une deuxième équation
Fn − 0.55 √ C − 0.55 √
1 − β = P (Fn ≥ C) = P √ n≥ √ n
0.55∗ 0.45 0.55∗ 0.45
⇔ 0.95 = P Z ≥ C 2 ⇔ 0.95 = P Z ≤ −C t ⇒ −C 0 = 1.64
√
∗
∗ 0.55 0.45
C = 0.55 − 1.64 √
n
d0 ou √
∗
C = 0.55 − 1.64 ∗ 0.55
√ 0.45 = 0.5 + 1.64 ∗ √
n
0.5
n
√
⇔ 0.55 − 0.5 = 1.64
√ (0.5 + 0.55 ∗ 0.45)
n
√
⇔ n = 32.72 ⇒ n = 1070
Si on souhaite diminuer I’erreur de 2ème espèce, il faut tester un échantillon de taille au
moins 1070 . 2)
HO : p = 0.5
H1 : p 6= 0.5
Le test est maintenant bilatéral. Même estimateur, même lois. (a) Région critique La région
critique W est la région d’acceptation de H1 d’où W = {F < C1 ouF> C2 }
et West la région d’acceptation de H0 d’où W = {C1 ≤ F ≤ C2 } (cf. dessin). (b)
Calcul des seuils On sait que α = P (W | H0 vraie ) = P (F < C1 ou F > C2 | H0
vraie). Afin de simplifier le calcul de probabilité, on passe à 1 − α = P W̄ | H0 vraie
) = P (C1 ≤ F ≤ C2 | H0 vraie ). Supposons H0 vraie alors F suit une N 0.5, σ0 2 où
σ0 2 = 0.5∗ 0.5/n, d0 où
C1 − 0.5 √ F − 0.5 √ C2 − 0.5 √
1 − α = P (C1 ≤ F ≤ C2 ) = P √ n≤ √ n≤ √ n
0.5∗ 0.5 0.5∗ 0.5 0.5∗ 0.5
⇔ P (C1 ≤ Z ≤ C20 ) = 0.05 On suppose que le risque est symétrique, or la loi normale
centrée est aussì symétrique par rapport à 0, on a donc C01 = −C02 . D’où P (C01 ≤ Z ≤ C02 ) =
0.05 ⇔
P (−C02 ≤ Z ≤ C02 ) = 0.05 ⇔ F (C0 2 ) − F (−C0 2 ) = 0.05 où F est la fonction de répar-
tition de z ⇔ F (C 0 2) √ − [1 − F (C 0 2)] = 0.05 ⇔ F (C 0 2) =√ 1.95/2 = 0.975 ⇒ C 0 2 =
∗ √ ∗ √
1.96 ⇒ C2 = 0.5 + 1.96 0.5 0.5/ n = 0.53 et C1 = 0.5 − 1.96 0.5∗ 0.5/ n = 0.47
∗
l’estimateur :
√
m(X̄m −µ) √
σ m X̄m − µ
Tm = q = ∼ T (m − 1)
2
(m−1)Sm Sm
σ2
/(m − 1)
tn−1 0
1−α/2 Sn
n−1
t1−α/2 Sn0
X̄n0 − √ ≤ µ0 ≤ X̄n0 + √
n n
σ2
/(m − 1) σ 2 Sm2
Fm,n = 02 = ∼ F(m − 1, n − 1),
(n−1)Sn
/(n − 1) σ 2 Sn02
σ 02
σ 0 /σ ∈ [0.537, 1.58]
3 Intervalle de Confiance
Exercice 17. Des essais en laboratoire sur 20 lampes miniatures donnent les durées de
vie suivantes, en heures :
451, 412, 412, 375, 407, 454, 375, 393, 355, 364, 414, 413, 345, 432, 392, 329, 439, 381, 451, 413.
pour c21 ' 32.8523 et c22 ' 8.9065 (lus dans la table du χ2 à 19 degrés de liberté), soit
2
σ ∈ [750.11, 2766.86], et donc l’écart-type a 95% de chances de vérifier σ ∈ [27.39, 52.6]
Exercice 18.
Une machine fabrique des billes métalliques dont le poids, mesuré en grammes, suit
une loi normale. Nous prélevons au hasard 10 billes. Leurs poids sont
19, 6; 20; 20, 2; 20, 1; 20; 19, 9; 20; 20, 3; 20, 1; 19, 8.
1. Quel est l’intervalle de confiance à 95% du poids des billes métalliques fabriquées ?
2. En réalité, l’écart-type σ de la population est connu et égal à 0, 2. Quel est l’intervalle
de confiance à 95% du poids des billes métalliques fabriquées ?
Solution :
1. On calcule la moyenne µ
b de l’échantillon :
µ
b = 20
puis p
sc = 0, 04 = 0, 2
Dans la table de la loi de Student, pour 9ddl, on trouve
Solution :
La moyenne des notes
1. L’intervalle de confiance de la moyenne des 200 copies est :
h i
11 − 1, 96 × √27 ; 11 + 1, 96 × √27
' [9, 52; 12, 48].
1
2. Si l’amplitude de l’intervalle de confiance est égale à 2, on doit avoir
2
1, 96 × √ = 1
n
ce qui donne
n ' 15, 4
En corrigeant 16 copies, l’enseignant peut situer la moyenne de ses étudiants.
3. Il faut que l’intervalle de confiance à 99% soit égal à [10; 12]. On doit donc avoir :
2
2, 575 × √ = 1
n
ce qui donne
n ' 26, 5
Si l’enseignant corrige 27 copies et qu’il trouve une moyenne égale à 11, il peut dire
que la moyenne de ses étudiants est supérieure à 10 , avec un risque d’erreur de 1%.
Exercice 20.
Une entreprise fabrique un certain type de composants électroniques dont la durée
de vie X, exprimée en heures, est une variable aléatoire. Des mesures effectuées sur un
échantillon aléatoire de taille 50 ont donné les résultats suivants :
50
X 50
X
xi = 60000; x2i = 74 × 106
i=1 i=1
D’où
sc ' 202
4. Puisque l’on souhaite avoir une amplitude de 60 heures, la taille de l’échantillon est
nécessairement supérieure à 50 et nous sommes dans les conditions d’utilisation de
la loi normale. On doit avoir :
202
1, 96 × √ = 30
n
ce qui donne
n ' 175
Exercice 21.
À la veille d’une consultation électorale, nous effectuons un sondage.
1. Dans un échantillon représentatif de 1000 personnes, 500 personnes déclarent vouloir
voter pour X, 250 pour Y et 50 pour Z. Donner les intervalles de confiance à 95%
et 99% du pourcentage de personnes ayant l’intention de voter X, Y ou Z.
2. Nous évaluons le pourcentage de personnes ayant l’intention de voter pour un qua-
trième candidat, H, à 17% ? Combien faut-il interroger de personnes pour obtenir
un intervalle de confiance à 95% du pourcentage de personnes ayant l’intention de
voter H, avec une précision de 1%?
Solution :
Puisque l’on veut une précision de 1%, cet intervalle de confiance doit être l’intervalle
[0, 16; 0, 18] Et on doit avoir
r
0, 17 × 0, 83
1, 96 × = 0, 01
n
ce qui donne
n ' 5420.
Exercice 22.
On veut étudier la proportion p de gens qui vont au cinéma chaque mois. On prend
donc un échantillon de taille n = 100. Soit N le nombre de personnes dans l’échantillon
qui vont au cinéma mensuellement.
1. Quelle est la loi de N ? Par quelle loi peut-on l’approcher et pourquoi ? En déduire
une approximation de la loi de F = N/n.
2. On observe une proportion f de gens qui vont chaque mois au cinéma. Donner la
forme d’un intervalle de confiance pour p, de niveau de confiance 1 − α.
1. On suppose que les personnes ont bien été interrogées indépendamment. Ainsi, on
a un schéma de Bernoulli : une personne interrogée va au cinéma chaque mois −→
SUCCES, sinon, ECHEC. Et donc N suit une loi binomiale B(n = 100, p)
100
P[X = k] = pk (1 − p)100−k , k = 0, . . . , 100
k