Stat Drill Q2
Stat Drill Q2
Stat Drill Q2
INFERENCE
STATISTIQUE
Réponses attendues
• Sous-question 1 (1)
Propriété d’additivité : Si X1 , . . . , Xn sont i.i.d. N (µ, 2 ), alors X1 +X2 +. . . Xn ⇠ N (nµ, n 2 ).
2 2
Implications : • V̄ = (V1 + V2 + . . . + Vn1 )/n1 ⇠ N ( nn11µ , nn1 2 ) = N (µ, n1 ).
1
2 2
• W̄ = (W1 + W2 + . . . + Wn2 )/n2 ⇠ N ( nn22µ , nn2 2 ) = N (µ, n2 ).
2
2 2
• W̄ V̄ ⇠ N (µ2 µ1 , n1 + = N (µ2 2( 1 1
n2 ) µ1 , n1 + n2 )).
• Sous-question 2 (1,25)
Par le lemme de Fisher, on a :
n s2
(i) 1 2 1 ⇠ 2n1 1
n2 s22
(ii) 2 ⇠ 2
n2 1
1
vers l’infini et biais nul ! estimateur convergence au sens faible (condition suffisante).
• Sous-question 3 (1)
Par le lemme de Fisher et les propriétés d’additivité, on sait que :
(i) W̄ V̄ ⇠ N (µ2 µ1 , 2 ( n11 + n12 ))
S2
(ii) 2 (n1 + n2 2) ⇠ 2
n1 +n2 2
(iii) W̄ V̄ indépendant S 2 .
• Sous-question 4 (0,75)
2 3
W̄ V̄ (µ2 µ1 )
P rob 4tn1 +n2 2;↵/2 q tn1 +n2 2;1 ↵/2
5=1 ↵
S n11 + n12
r r
1 1 1 1
P rob W̄ V̄ tn1 +n2 2;1 ↵/2 S + µ2 µ1 W̄ V̄ + tn1 +n2 2;1 ↵/2 S + =1 ↵
n1 n2 n1 n2
• Sous-question 5 (0,25) [±0.25 en fonction de la clarté et de la validité de l’interprétation]
Si la valeur 0 (valeur sous l’hypothèse nulle) n’appartient pas à l’intervalle de confiance (1 ↵)
alors on rejette l’hypothèse nulle, sinon non rejet.
2
ESTIMATION
par intervalle
ESTIMATION par intervalle :
Question 1 (6 points)
Soient X une observation décrite par un modèle {P✓ : ✓ 2 ⇥} et {H0 , H1 } une partition de ⇥ (H0
est l’hypothèse nulle et H1 est la contre hypothèse). On considère ici un test pour H0 contre H1 .
2
Question 3 (5 points)
Soient X1 , X2 , . . . , Xn i.i.d. de loi uniforme continue sur [0; θ] avec θ > 0 inconnu. La densité de X1
est donc donnée par (voir le rappel pour la définition de la fonction indicatrice)
1
f (x) = 1[0;θ] (x).
θ
1. Calculez E[X] et Var[X], où X est de loi uniforme continue sur [0; θ].
2. (a) Déterminez l’estimateur θ! de θ obtenu par la méthode des moments.
(b) l’estimateur θ! est-il sans biais ?
(c) l’estimateur θ! est-il convergent ?
3. (a) Déterminez l’estimateur θ" de θ obtenu par la méthode du maximum de vraisemblance.
(b) l’estimateur θ" est-il exhaustif ?
Rappel :
⎧
⎪ si x ∈ A
⎨ 1
⎪
1A (x) =
⎪
⎪
⎩ 0 sinon
6
Question 6 (3.50 points)
Soit X une variable aléatoire continue de densité :
8
< k x e x✓2 , x>0
f✓ (x) =
: 0 , ailleurs;
12
Question 6 4 (3.50 points)
Soit X une variable aléatoire continue de densité :
8
< k x e x✓2 , x > 0
f✓ (x) =
: 0 , ailleurs;
Z +1
E[X] = xf✓ (x) dx
1
Z +1
2 2 x2
= x e ✓ dx
0 ✓
⇣ ⌘2
r Z +1
1p 2 1
1
2
px ✓
= 2⇡ q p x2 e 2 dx
2 ✓ 1 ✓
2⇡
2
| {z }
q
✓
Variance de N (0, 2
)
r
⇡ ✓ 1p
= = ✓⇡.
✓ 2 2
⇡
3. Montrez que : V (X) = ✓ (1 4 ).
Hint : Vous pouvez utiliser la loi de Y = X 2 .
x2 y
Soit Y = X 2 , on a f✓ (x) = 2✓ x e ✓ . Donc, f✓ (y) = 1
✓ e ✓ , i.e. Y ⇠ Exp(✓).
1 ⇡
Par suite, V (X) = E[X 2 ] E[X]2 = E[Y ] 4 ✓⇡ = ✓ (1 4 ).
4
n
Y 2 Xi2
L(X1 , ..., Xn ; ✓) = Xi e ✓
✓
i=1
⇣ 2 ⌘n 1 Pn n
Y
Xi2
= e ✓ i=1 Xi
✓
i=1
n n
1X 2 X
l(✓) = ln L(X1 , ..., Xn ; ✓) = n ln(2) n ln(✓) Xi + ln(Xi )
✓
i=1 i=1
n
X
@l n 1
= + 2 Xi2
@✓ ✓ ✓
i=1
Xn
@l 1
= 0 , ✓ˆ = Xi2
@✓ n
i=1
Pn 2
@2l n 2 i=1 Xi n 2n✓ n
| 1 Pn 2 = 2 = 2 = <0
@✓2 ✓= n i=1 Xi ✓ ✓ 3 ✓ ✓3 ✓2
P
Donc, ✓bM V = n1 ni=1 Xi2 .
(b) L’estimateur ✓bM V est-il sans biais ?
n
1X 1 1
E[✓bM V ] = E[Xi2 ] = nE[Y ] = n✓ = ✓
n n n
i=1
n
b 1 X 1 1 ✓2 n!1
V ar(✓M V ) = 2 V ar(Xi2 ) = 2 nV ar(Y ) = 2 n✓2 = ! 0
n n n n
i=1
Comme, ✓ˆ est un estimateur sans biais, on déduit qu’il est aussi convergent.
@2l
I(✓) = E[ ]
@✓2 P
n 2 ni=1 Xi2
= E[ 2 + ]
✓ P ✓3
n 2 ni=1 E[Xi2 ]
= +
✓2 Pn ✓
3
n 2 i=1 E[Y ]
= 2
+ 3
✓ Pn ✓
n 2 i=1 ✓
= 2
+
✓ ✓3
n
= = (V ar(✓bM V )) 1
✓2
5
Et comme I(✓) = (V ar(✓bM V )) 1, ✓bM V est efficace.
1 x/
Rappel : X ⇠ Exp( ) si f (x) = e pour x 0 (et f (x) = 0 ailleurs). Dans ce cas,
E[X] = , Var[X] = 2.
6
5. Soit la fonction réelle f : R+ ⇥ R+ 7! R+ ⇥ R+ définie par
( 1 x+y)
ke (✓ si 0 x, y 1
f (x, y) =
0 sinon ,
avec ✓ > 0.
(a) Déterminez la constante k de sorte que la fonction f!(x, y) soit une fonction de densité
X
de probabilitÈ associée à un vecteur aléatoire .
Y
(b) Déterminez la fonction de densité marginale fX (x; ✓) de la variable aléatoire X.
(c) Soient X1 , . . . , Xn indépendantes et identiquement distribuées de densité fX (x; ✓). Déterminez
l’estimateur maximum de vraisemblance du paramètre ✓.
(d) L’estimateur obtenu en (c) est-il
(i) sans biais?
(ii) convergent?
(iii) efficace?
7
Tests d’hypothèses
Tests d’hypothèses :
6. Dans le but d’une étude sur le cancer de la peau, on s’intéresse à la proportion de Belges qui
partent en vacances durant la période des fêtes de fin d’année (les e↵ets du soleil dit “d’hiver”
semblent intéresser les chercheurs). On prélève un échantillon aléatoire simple de 100 Belges.
Parmi eux, 14 sont partis en vacance cette année pendant le congé de Noël.
(a) La proportion de Belges qui sont partis pendant ce congé de Noël est-elle significative-
ment (au niveau 5%) inférieure (strictement) à 10%?
(b) Donnez un intervalle de confiance au niveau 90% pour la vraie proportion de Belges qui
sont partis en vacances.
8
ANOVA
ANOVA :
Question 2 (3 points)
On effectue une enquête pour savoir si les tarifs moyens des hôtels de grandes capitales eu-
ropéennes diffèrent les uns des autres. On est en particulier intéressé par les villes de Paris,
Londres et Berlin. Pour cela, on échantillonne aléatoirement 5 hôtels dans chaque ville et on
observe leurs tarifs journaliers pour une chambre double.
Voici les résultats obtenus :
Hôtel Paris Londres Berlin
Hôtel 1 95 99 85
Hôtel 2 93 95 92
Hôtel 3 85 99 87
Hôtel 4 87 94 93
Hôtel 5 90 96 95
P5
x 450 483 452
P5i=1 2i
i=1 ix 40568 46679 40932
1. On aimerait d’abord vérifier, au moyen d’un test, si la variance du prix par chambre à
Paris est plus grande qu’à Londres.
(a) Spécifiez les hypothèses requises pour pouvoir réaliser ce test.
(b) Effectuez le test au niveau de signification de 5 %.
2. Ecrivez le modèle théorique sous-jacent et donnez les hypothèses adéquates pour réaliser
l’enquête qui nous permet de vérifier si les tarifs moyens des hôtels de grandes capitales
européennes sont différents.
3. Dressez le tableau d’ANOVA.
4. Supposons que toutes les hypothèses classiques du modèle gaussien soient vérifiées
(pas besoin ici d’effectuer le test de Bartlett). Au niveau de probabilité de 5%, peut-on
affirmer que les tarifs moyens de ces trois capitales sont différents les uns des autres ?
Utilisez la p-valeur.
5. Représentez graphiquement la p-valeur et la région critique associées à ce test.
4
Solution de l’examen de Statistique ECON2 & ING2
Partie 2 - Première Session 2013-2014
23 juin 2014
1. Quelle est la première observation que vous pouvez directement déduire des données de cette
enquête ?
2. Citez une méthode statistique, vue au cours, pour corroborer votre observation. Ecrivez le
modèle et les hypothèses nécessaires pour l’application de cette méthode.
3. Faites le test (au niveau de signification de 5%) pour l’une des hypothèses nécessaires que
vous avez citez au point 2.
4. Les résultats de l’enquête permettent-ils d’affirmer (au niveau de signification de 5%) qu’il y
a une évolution dans la fréquence des violences à l’approche du mondial ?
1
Question 2 (3.25 points)
Le jury 2011 du concours musical international Reine Elisabeth se demande si une di↵érence phy-
siologique entre les larynx des chanteurs peut indiquer leurs registres de voix et ainsi déterminer
leurs performances vocales. Pour répondre à cette question, le jury a mesuré la hauteur des larynx
en mm des finalistes du concours et a également noté leur tessiture. Les données recueillies sont
présentées dans le tableau ci-dessous.
1. Proposez une méthode statistique, vue au cours, qui peut aider le jury à répondre à sa
question. Ecrivez le modèle et les hypothèses nécessaires pour l’application de cette méthode.
2. Complétez le tableau ci-dessous.
3. Au vu des résultats, peut-on dire qu’il y a (au niveau de signification de 5%) une di↵érence
entre les hauteurs moyennes des larynx correspondant aux quatre tessitures.
4. Quelle conclusion le jury peut-il tirer de cette analyse quant à sa question de départ ?
4
Solution de l’examen de Statistique : Partie 2
ECON2
Première Session juin 2011
1. Proposez une méthode statistique, vue au cours, qui peut aider le jury à répondre
à sa question. Ecrivez le modèle et les hypothèses nécessaires pour l’application
de cette méthode.
Le jury peut utiliser la méthode d’analyse de variance (ANOVA) pour répondre à sa question.
Dans ce cas le modèle sera : xik = µ + ↵k + "ik , avec :
xik l’hauteur du larynx du chanteur i ayant une tessiture de type k,
µ la moyenne globale des hauteurs des larynx toutes tessitures confondues,
1. corrigé par Mohammed Sraieb
2. corrigé par Mohammed Sraieb
1
↵k l’e↵et moyen de la tessiture de type k sur la hauteur du larynx (augmentation ou diminu-
tion)
et "ik l’erreur du modèle.
Les hypothèses nécessaires pour l’application de cette méthode sont la normalité et l’ho-
moscédasticité, c’est-à-dire "ik ⇠ N (0, 2 ).
Règle de comportement : RHO si FA > F3, 16; 1 ↵ = F3, 16; 0.95 = 3.24 ) RH0 car 10.5 >
3.24.
On peut donc dire que les hauteurs moyennes des larynx sont di↵érentes selon le type de
tessiture.
4. Quelle conclusion le jury peut-il tirer de cette analyse quant à sa question de
départ ?
Le jury peut conclure que les propriétés physiologiques du larynx, en particulier l’hauteur,
peuvent indiquer le registre de la voix d’un chanteur.
⇣ ⌘
Propriété d’additivité : Si X1 , . . . , Xn i.i.d. N (µ, 2 ),
alors X1+X2+. . . , +Xn ⇠ N nµ, n 2 ,
⇣ 2⌘
de sorte que X̄ = (X1 + X2 + . . . , +Xn)/n ⇠ N µ, .
n
3. corrigé par El Maâti ALLAOUI
2
Régression linéaire
Régression linéaire :
Question 2 (5 points)
A Vellain (petit hameau fictif de la ville belge de Tournai dans lequel tout le monde se chauffe
à l’énergie solaire), une étude a été réalisée pour analyser la relation entre la consommation
d’électricité et le revenu des ménages. Pour ce faire, on a interrogé 10 ménages à Vellain afin
de collecter leurs revenus ainsi que leurs factures annuelles d’électricité (voir le tableau ci-dessous).
Revenu (en milliers d’euros/mois) Xi 2.5 4.2 2.95 3.125 2.79 6.2 4.26 7.3 5.63 3.685
Facture annuelle (euros/an) Yi 371 514 429 445 408 629 480 771 630 502
1. Existe-il une corrélation positive entre la consommation d’électricité et le revenu des ménages ?
2. Déterminez la droite de régression (au sens des moindres carrés) de Y en X.
3. La facture énergétique d’un ménage augmente-t-elle de plus de 50 euros lorsque le revenu
(mensuel) de celui-ci augmente de 1000 euros ? Testez au niveau de signification de 5%.
4. Donnez un intervalle de confiance (au niveau de confiance 95%) pour cette augmentation (ou
diminution).
5. Donnez un intervalle de confiance (au niveau de confiance 95%) pour la facture énergétique
d’un ménage disposant d’un revenu mensuel de 3500 euros.
4
Question 4 (3.25 points)
Suite à la catastrophe nucléaire de Fukushima, des agronomes japonais ont voulu déterminer une
zone d’exclusion alimentaire. La consommation et la vente de produit provenant de cette zone
seront interdites. Ils ont donc évalué la contamination radioactive Y de certains produits provenant
de dix villes proches de la centrale de Fukushima et ont essayé de l’expliquer par la distance X en
km séparant ces villes de la centrale.
P P10
Voici quelques statistiques de l’analyse des agronomes : 10 i=1 yi = 6862; i=1 xi = 768;
P10 2 P10 2 P10
i=1 yi = 33897542; i=1 xi = 68748; i=1 yi xi = 107440.