0% ont trouvé ce document utile (0 vote)
60 vues15 pages

Echantillonnage

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1/ 15

Echantillonnage

Echantillonnage

Outils Mathématiques & Statistique Décisionnelle


Licence 3 Management, Economie de la firme, CCF
Faculté d’économie, gestion & AES
Université de Bordeaux - Collège DSPEG

Automne 2023

A. Lourme
[email protected]

1 / 15
Echantillonnage
Introduction

Outline

Introduction

La théorie

La pratique

2 / 15
Echantillonnage
Introduction

Problème
µ : le revenu moyen (inconnu) des salariés italiens.
x̄ : le revenu moyen de n salariés italiens choisis au hasard.
x̄ = ni=1 xi /n avec xi : revenu du salarié i de l’échantillon.
P

x1 , . . . , xn sont aléatoires (ils dépendent de l’échantillon choisi) donc x̄ est aléatoire.


Quelle est la loi de probabilité de x̄ ?
◦ Elle dépend de la façon dont l’échantillon est constitué (protocole d’échantillonnage).
◦ CH 4 donne la loi de x̄ sous des conditions standard d’échantillonnage.
Quel intérêt la réponse à une telle question présente-t-elle ?
◦ Intervalles de confiance (CH 5) : déterminer un intervalle aléatoire dépendant de x̄
qui contiendrait µ avec une probabilité voulue.
◦ Tests d’hypothèses (CH 6) : émettre une hypothèse sur la valeur de µ ; comparer
l’hypothèse sur µ à la valeur observée de x̄ ; juger la vraisemblance de l’hypothèse
émise.
◦ Plus généralement : contrôler de façon probabiliste l’erreur commise quand on
remplace l’information sur la population (µ) par une information sur l’échantillon (x̄).
3 / 15
Echantillonnage
Introduction

Echantillonnage aléatoire simple


L’échantillonnage aléatoire simple (EAS) regroupe l’ensemble des méthodes assurant à
tous les échantillons possibles les mêmes chances d’être sélectionnés.
Une telle méthode assure que pour une taille d’échantillon donnée, tous les individus
de la population ont les mêmes chances d’appartenir à l’échantillon.
Exemple. On souhaite estimer le revenu moyen des Artisans Auto Entrepreneurs
(AAE) inscrits au registre des entreprises.
L’échantillonnage aléatoire simple consiste à :
(i) attribuer à chacun des N AAE du pays un entier entre 1 et N qui l’identifie,
(ii) tirer n nombres au hasard parmi les N identifiants selon un protocole assurant que
les Nn échantillons de taille n possibles ont autant de chances d’être choisis,


(iii) calculer la moyenne empirique du revenu des n AAE choisis.

Nota Bene. Dans ce cours, le terme échantillon aléatoire fait référence à un


protocole d’échantillonnage aléatoire simple.

4 / 15
Echantillonnage
Introduction

Echantillonnage stratifé
Quand la population est divisée en catégories identifiées, on procéde par
échantillonnage stratifié : un échantillon est choisi par EAS dans chaque catégorie à
raison du poids de cette catégorie.
Exemple. Les AAE parisiens (AAE-Pa) sont plus riches que les AAE provinciaux
(AAE-Pr) et representent 20% des AAE. Pour estimer le revenu moyen des AAE du
pays par échantillonnage stratifié avec un échantillon de taille 100 :
(i) choisir 20 AAE-Pa et 80 AAE-Pr, par échantillonnage simple,
(ii) calculer le revenu moyen dans chaque échantillon,
(iii) calculer la moyenne pondérée des revenus moyens issus des échantillons.
En quoi les échantillonnages : stratifié et simple sont-ils différents ?
Un échantillon stratifié ne peut contenir autant d’AAE-Pa que d’AAE-Pr ; tous les
échantillons possibles de taille 100 n’ont donc pas les mêmes chances d’être
sélectionnés.

5 / 15
Echantillonnage
Introduction

Echantillonnage par degrés


Quand la population est divisée en catégories nombreuses, ne structurant pas la
variable d’intérêt on peut, pour réduire le coût d’échantillonnage, procéder à
l’échantillonnage par degrés : m catérories, appelées unités primaires, sont choisies par
EAS ; un nouvel EAS des individus (unités secondaires) est réalisé dans chacune des m
catégories sélectionnées.
Exemple. Estimer le revenu moyen des AAE par une méthode d’échantillonnage par
degrés consisterait, par exemple, à :
(i) choisir cinq départements françaises, par échantillonnage aléatoire simple,
(ii) choisir vingt AAE dans chaque département sélectionné,
(iii) estimer : le revenu des AAE par département, le revenu des AEE dans le pays, le
revenu par AEE.
En quoi les échantillonnages : stratifié et par degrés sont-ils différents ?
Dans un échantillonnage par degrés, l’aléa porte à la fois sur les unités primaires et sur
les unités secondaires. En échantillonnage stratifié aucune des catégories n’est omise
sous peine de biais.

6 / 15
Echantillonnage
La théorie

Outline

Introduction

La théorie

La pratique

7 / 15
Echantillonnage
La théorie

Théorème Central Limit (TCL)


Si x1 , . . . , xn est un échantillon aléatoire d’une loi de probabilité L d’espérance finie µ
et de variance finie σ 2 , alors x̄ est approximativement distribuée selon N (µ, σ 2 /n).
Le terme approximativement masque une convergence en loi (hors programme) selon
laquelle
√ : plus la taille n de l’échantillon est grande, plus la fonction de répartition de
n(x̄ − µ)/σ est proche de celle de N (0, 1).
Généralement, on considère l’approximation établie par le TCL acceptable dans les
calculs pour une taille d’échantillon n ≥ 30.
La force du TCL tient à sa généralité : il établit la distribution de x̄ quelle que soit la
loi de probabilité L , pour peu qu’elle admette une espérance et une variance.
Illustration. Un gain est modélisé par E (0, 1). Quelle est la loi de probabilité de x̄, le
gain moyen sur quarante parties ? Sous R :
curve(dexp(x,0.1),from=0,to=30) : densité de E (0, 1)
rexp(40,0.1) : un échantillon de quarante gains issus de E (0, 1)
mean(rexp(40,0.1)) : gain moyen x̄ dans un échantillon de quarante gains
xx = NULL ; for (i in 1:1000){xx[i]=mean(rexp(40,0.1))} : mille valeurs de x̄
plot(density(xx)) : la densité estimée de x̄.
curve(dnorm(x,10,10/sqrt(40)),add=TRUE) : loi théorique de x̄ (TCL)
8 / 15
Echantillonnage
La théorie

Distribution de la fréquence empirique

p : proportion de sujets de type A dans une population.


f : fréquence empirique de A dans un échantillon aléatoire de n sujets.
Quelle est la loi de probabilité de f ?
Pour n grand (n ≥ 30), f est approximativement distribuée selon N (p, p(1 − p)/n).
Justification. (
1 si le sujet i est de type A
f = ni=1 xi /n où xi =
P
0 si le sujet i est de type Ā

Ainsi, x1 , . . . , xn est un échantillon aléatoire d’une loi de Bernoulli de paramètre p


dont l’espérance est : E (B(p)) = p et la variance : V (B(p)) = p(1 − p).
Donc (TCL) : f ∼ N (p, p(1 − p)/n).
ap.

Application. Si 48% des français sont favorables à M. Li, avec quelle probabilité y
aura-t-il une majorité de partisans de M. Li parmi les deux cents invités à mon
anniversaire ?

9 / 15
Echantillonnage
La théorie

Distribution de la variance empirique


x1 , . . . , xn est un échantillon aléatoire d’une loi de probabilité de variance σ 2 .
Deux statistiques pour estimer la variance.
s 2 = ni=1 (xi − x̄)2 /n : variance observée
P

s 02 = ni=1 (xi − x̄)2 /(n − 1) : variance corrigée


P

Pourquoi deux statistiques pour la variance ?


L’une est biaisée : E (s 2 ) = σ 2 × (n − 1)/n ; l’autre ne l’est pas : : E (s 02 ) = σ 2
Comment passer de l’une à l’autre ? (n − 1) × s 02 = n × s 2
Distribution d’échantillonnage.
Si x1 , . . . , xn est un échantillon aléatoire d’une loi normale de variance σ 2 , alors
ns 2 /σ 2 = (n − 1)s 02 /σ 2 est distribuée selon χ2n−1 .
Justification. Admise.
Application. Si les salaires français sont distribués selon une loi normale de variance
104 (e2 ), avec quelle probabilité la variance corrigée calculée sur dix salaires sera-t-elle
supérieure à 2000 (e2 ) ?

10 / 15
Echantillonnage
La théorie


Distribution de la statistique t = n(x̄ − µ)/s 0
√ x1 , . . . , xn 0est un échantillon aléatoire d’une loi normale de moyenne µ, alors
Si
n(x̄ − µ)/s est distribuée selon Tn−1 .
Justification.
√ √ √
n(x̄ − µ)/s 0 = [ n(x̄ − µ)/σ]/ (n − 1)s 02 /σ 2 }/(n − 1). Or x = n(x̄ − µ)/σ et
p

y = (n − 1)s /σ sont indépendantes ; x ∼ N (0, 1) ; y ∼ χn−1 .


02 2 2

Application. Dans un échantillon de dix français, on observe un salaire moyen : 2060


(e) et une variance corrigée des salaires : 104 (e2 ). M. Li affirme : en France, la
moyenne de l’ensemble des salaires est 2000 e. Qu’en pensez-vous ?
Supposons les salaires français distribués selon une loi normale de moyenne µ. Notons,
x̄ la moyenne dans un échantillon aléatoire de n salaires et s 02 la variance corrigée des
salaires de l’échantillon.

Si M. Li a raison, alors µ = 2000 et la statistique t = n(x̄ − 2000)/s 0 est distribuée
selon Tn−1 . Pour un échantillon de taille n = 10, t devrait être distribuée selon T9 et
la valeur observée de t devrait être supérieure à t0.95,9 ≈ 1, 83 dans 5% des cas.
√ √
Les données d’observations donnent : tobs = 10 × (2060 − 2000)/ 104 ≈ 1, 90.
Ainsi, il se peut que M. Li ait raison, mais la valeur observée de t tombe alors dans
l’intervalle où se situent 5% des valeurs les plus grandes de t.
11 / 15
Echantillonnage
La pratique

Outline

Introduction

La théorie

La pratique

12 / 15
Echantillonnage
La pratique

Nota Bene

Exercice 1 : Théorème Central Limit


CC & EXAM
Exercice 2 : distribution de la féquence empirique

Exercice 3 : distribution de la variance empirique


√ Non Evalué
Exercice 4 : distribution de la statistique n(x̄ − µ)/s 0

13 / 15
Echantillonnage
La pratique

Exercices Types
Exercice 1
La masse (en g) des noix produites par M. Sa est distribuée selon une loi normale de
moyenne µ = 5 et de variance σ 2 = 16.
(1) Avec quelle probabilité :
(a) la masse moyenne d’une noix calculée sur un échantillon de trente noix est-elle
supérieure à 6 g ?
(b) la masse moyenne d’une noix calculée sur un échantillon de cinquante noix
est-elle comprise entre 4, 8 et 5, 2 g ?
(2) Quelle doit être la taille d’un échantillon pour que la masse moyenne d’une noix
calculée sur cet échantillon soit comprise entre 4, 8 et 5, 2 g avec 90% de chances ?
Exercice 2
80% des anglais aiment le thé.
(1) Avec quelle probabilité un échantillon de cent anglais compte-t-il au mois 75%
d’amateurs de thé ?
(2) Quelle doit être la taille d’un échantillon pour que la proportion d’amateurs de thé
dans l’échantillon soit supérieure à 0, 75 avec 95% de chances ?
14 / 15
Echantillonnage
La pratique

Exercices Types

Exercice 3
Le revenu annuel d’un auto-entrepreneur choisi au hasard est distribué selon une loi
normale de variance σ 2 = 25 × 106 . Avec quelle probabilité la variance des revenus
calculée sur un échantillon de vingt auto-entrepreneurs est-elle supérieure à 35 × 106 ?
Exercice 4
Le rendement journalier moyen du titre NorTech sur trente jours est : 0, 05 et la
variance observée des rendements : 0, 01.
M. Li affirme : la moyenne de l’ensemble des rendements journaliers de NorTech est
nulle. Qu’en pensez-vous ?

15 / 15

Vous aimerez peut-être aussi