Chapitre 1 TACHFINE Echantillonnage

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 20

Département

« Economie et Gestion »

Cours d’Echantillonnage et Estimation


Avec applications corrigées

Semestre 3

Professeur Tachfine Youssef

Année universitaire 2020-2021

1
Sommaire

Chapitre 1 : Echantillonnage : concepts de base et taille de


l’échantillon
I- Présentation et concepts de base
II- Détermination de la taille d’échantillon

Chapitre 2 : Méthodes d’échantillonnage


I. Echantillonnage probabiliste
II. Echantillonnage empirique par choix raisonné : la méthode des quotas

Chapitre 3 : Estimations
I- Estimations ponctuelles
II- Estimations par intervalles de confiance

2
Chapitre 1 : Echantillonnage : concepts de base et taille de
l’échantillon
Dans une première section, on vise à connaître l’objectif de l’échantillonnage et
on présentera ses concepts de base 1. Dans une deuxième section, on répondra
à une question essentielle qui est de savoir la taille à prendre pour un
échantillon. Toutefois, la taille de l’échantillon ne pose pas généralement un
problème car, souvent, elle n’est pas très grande. Par contre, ce qui peut poser
un problème c’est le passage à l’action, au choix proprement dit des individus
appartenant à l’échantillon. Dans ce cas, il faut choisir la méthode
d’échantillonnage appropriée au problème étudié. Cela fera l’objet du chapitre
suivant.
I- Présentation et concepts de base
Pour étudier ou collecter des informations sur une population statistique P
donnée, on dispose en principe de deux méthodes :
 La méthode exhaustive ou recensement : on examine dans ce cas chacun
des individus de cette population selon le ou les caractères étudiés ;
 La méthode de sondage : on examine une fraction représentative de la
population appelée échantillon.
La première méthode est utilisée par exemple pour le recensement général de
la population et de l’habitat (R.G.P.H) qui se fait chaque 10 ans au Maroc par le
Haut-Commissariat au Plan.
Toutefois, dans la vie économique et sociale, il est souvent impossible d’étudier
toute la population pour des raisons de coût et de temps. Même si on peut faire
face au problème du coût, l’étude doit être faite dans un délai raisonnable pour
les décideurs. Aujourd’hui, avec les changements technologiques et sociétales
rapides, une étude peut devenir rapidement vétuste si elle prend un temps
considérable.
Pour ces raisons, on applique donc la deuxième méthode. Cette dernière
comprend les étapes suivantes :
 On extrait un échantillon de la population qui possède une taille suffisante
suivant une méthode d’échantillonnage appropriée ;
 On décrit sur cet échantillon la distribution du (es) caractère (s) ;

1
Les éléments de cours que nous développons ici dans ce chapitre font largement référence au polycopié de
Mme Zerbet, professeur de statistiques à la FSJES d’Agadir. Nous lui avons ajouté quelques explications et
applications pour le rendre plus compréhensible pour les étudiants. A cette occasion, nous la remercions et nous
la félicitons pour ses efforts. Par contre, le deuxième chapitre concernant l’estimation émane de notre travail
personnel à partir de plusieurs références bibliographiques.

3
 On établit une estimation des paramètres de la population à partir des
paramètres observés sur l’échantillon.
L’objectif de l’échantillonnage est ainsi de connaître avec une bonne précision
certains paramètres de la population à partir de l’échantillon pris, ce qui permet
d’économiser le coût et le délai de l’étude. Sachant qu’une précision à 100%
n’est possible que dans le cas de l’étude exhaustive de la population.
Un échantillon S de taille n est dit représentatif si la proportion d’individus des
sous-populations Ph dans S est égale à la proportion d’individus des mêmes sous-
populations dans P.
𝑛ℎ 𝑁ℎ
Mathématiquement, on écrit : ∀ ℎ = 1, 2, … . , 𝑘: = ; avec N la taille de la
𝑛 𝑁
𝑁ℎ
population. Ce qui donne, 𝑛ℎ = .
𝑁/𝑛

Par exemple, si on considère une population de 20.000 étudiant(e)s d’une


faculté composée de 10.000 étudiants en économie, 8000 en droit et 2000 en
techniques de communication, dans ce cas on a trois sous-populations. Un
𝑁
échantillon de taille 400 sera représentatif s’il est composé de 𝑛1 = 1 =
𝑁/𝑛
10.000 𝑁2 8.000
= 200 étudiants en économie, 𝑛2 = = = 160 étudiants
20.000/400 𝑁/𝑛 20.000/400
𝑁3 2.000
en droit et 𝑛3 = = = 40 étudiants en techniques de
𝑁/𝑛 20.000/400
communication.
La taille d’échantillon de 400 étudiants peut être suffisante ou non, mais au vu
cette composition, ce dernier est représentatif. Le calcul de la taille suffisante de
l’échantillon fera l’objet de la section II juste après.
La liste complète de tous les individus de la population sans omission (oubli) ni
répétition est appelée base de sondage.
Le taux de sondage t désigne le rapport entre la taille de l’échantillon n et la
𝑛
taille de la population N. Soit t = .
𝑁
𝑁
Le rapport inverse désigne le pas de sondage.
𝑛
Lorsqu’un ou plusieurs individus de la population ont été omis quand on a pris
l’échantillon, on dit qu’on a commis une erreur d’échantillonnage. Par contre,
toute erreur qui n’est pas d’échantillonnage est dite erreur d’observation. Elle
peut s’agir d’une erreur de saisie par exemple lorsqu’on a collecté les réponses
(auprès de l’échantillon), ou bien d’une erreur de réponse due à la mauvaise
formulation même de la question.

4
II- Détermination de la taille d’échantillon
On détermine la taille d’échantillon suffisante soit en utilisant l’inégalité
Bienaymé-Tchebychev (I.B.T.) lorsqu’on ignore la loi de probabilité de la variable
étudiée de la population, soit en utilisant la loi normale quand la variable étudiée
suit cette loi.
Avant de passer au calcul de la taille d’échantillon selon les deux méthodes, on
s’arrêtera d’abord sur le principal fondement théorique de l’échantillonnage, à
savoir cette inégalité de Bienaymé-Tchebychev2. Un autre principe important
émane du théorème de la limite centrale (voir encadré 1 sur la loi normale, la loi
normale centrée réduite et le théorème central limite).
1- L’inégalité Bienaymé-Tchebychev
Soit X une variable aléatoire de loi quelconque, d’espérance mathématique E(X)=
m et de variance V(X) =σ². Soient deux réels t et a.
1
Alors, ∀ 𝑡 > 0, 𝑃(|𝑋 − 𝑚| ≤ 𝑡. 𝜎) ≥ 1 − (1)
𝑡²
1
Ce qui donne aussi 𝑃(|𝑋 − 𝑚| ≥ 𝑡. 𝜎) ≤ (2)
𝑡²
𝑉(𝑋)
Ou bien 𝑃 (|𝑋 − 𝑚| ≤ 𝑎) ≥ 1 − ; avec a= t.𝜎 (3)
𝑎²
𝑉(𝑋)
Et finalement 𝑃 (|𝑋 − 𝑚| ≥ 𝑎) ≤ (4)
𝑎²
Généralement, la troisième formule est la plus utilisée.
L’inégalité donne la probabilité minimale qu’une variable aléatoire quelconque
se trouve éloignée de sa moyenne d’une certaine quantité et ce dans les deux
sens. Cela dépendra de sa variance si on voit l’autre côté de l’inégalité. Plus elle
est minimale plus cette probabilité est grande.
Pour comprendre l’utilité de l’I.B.T. pour l’échantillonnage, on va prendre trois
exemples.

2
Irénée-Jules Bienaymé (1796) est un probabiliste et statisticien français. Pafnouti Lvovitch Tchebychev
(1821) est un mathématicien russe.

5
Encadré 1 : la loi normale et le théorème central limite
1. Définition de la loi normale : Une variable aléatoire continue X suit une loi normale
de moyenne m et de variance σ², notée 𝑋~𝑁(𝜇, 𝜎²), quand sa fonction de densité de
1 1 𝑥−𝜇
probabilité f est définie par : 𝑓 (𝑥 ) = 𝑒 −2 (𝜎

, avec > 0 𝑒𝑡 − ∞ < 𝑥 < +∞ .
𝜎√2𝜋

La loi normale modélise les variables aléatoires qui résultent de nombreuses causes
dont les effets s’additionnent, sans que l’une soit prépondérante. Elle est la plus
répandue car elle traduit la complexité des phénomènes physiques et socio-
économiques souvent distribués normalement.
La courbe de f est sous forme « d’une cloche » symétrique par rapport à la droite
d’équation x = 𝜇. Notons E(X) = M0 = Me = 𝜇, V(X) = σ² et σ(X) = σ.
La moyenne ou l’espérance 𝜇 est aussi le mode de X (M0) et sa médiane (Me). C’est-à-
1
dire que : F(𝜇) = P (X≤ 𝜇) = 0,5 et f (𝜇) =
𝜎√2𝜋

2. La loi normale centrée réduite : Si X est une variable aléatoire normale de paramètre
𝑋− 𝜇
𝜇 et σ², alors la variable 𝑇 = suit une loi normale centrée réduite notée 𝑁(0, 1).
𝜎

T est dite centrée car E(T) = 0 et réduite car V(T) = 1 et σ (T) = 1.


𝑋− 𝜇 1 𝐸(𝑋) 𝜇
E(T) = 𝐸 ( )= 𝐸 (𝑋 − 𝜇) = − =0
𝜎 𝜎 𝜎 𝜎
𝑋− 𝜇 1 1 𝜎²
V(T) = 𝑉 ( )= 𝑉(𝑋 − 𝜇) = 𝑉(𝑋) = = 1. La variance d’une constante (𝜇
𝜎 𝜎² 𝜎² 𝜎²
dans ce cas) est par définition nulle.
1 𝑡²
La fonction de densité de T est définie par : f(t) = 𝑒 −2 ; avec −∞ < 𝑡 < +∞. Elle est
√2𝜋
aussi sous forme d’une cloche et symétrique par rapport à l’axe t = 0.
La fonction de répartition F, notée aussi 𝜋, est définie par :
𝑡 1 𝑥²
F(t) = 𝜋(𝑡) = 𝑃(𝑇 ≤ 𝑡) = ∫−∞ 𝑒 − 2 𝑑𝑥. La variable T étant continue, P(T≤ 𝑡) =
√2𝜋
P(T< 𝑡). La symétrie par rapport à 0 de la fonction de densité de probabilité fait que :
P (𝑇 ≤ 0) = 𝜋(0) = 0,5.

6
De même, on a 𝜋(−𝑡) = 𝑃(𝑇 ≤ −𝑡) = 𝑃(𝑇 ≥ 𝑡) = 1 − 𝑃(𝑇 ≤ 𝑡) = 1 − 𝜋 (𝑡).
f(t)

𝜋(−𝑡) 1 − 𝜋(𝑡)

-∞ -t 0 t +∞
3. Calcul de probabilité
Par exemple, on a 𝑋~𝑁(2, 4), et on veut calculer la probabilité 𝑃(1 < 𝑋 < 3). La
réponse directe demande le calcul très long d’un intégral. On peut passer par la loi
𝑋− 𝜇 𝑋− 2
normale centrée réduite comme suit : Soit 𝑇 = = . 𝑇~𝑁(0, 1),
𝜎 2
1−2 3−2
𝑃(1 < 𝑋 < 3) = 𝑃 ( <𝑇< ) = 𝑃(−0,5 < 𝑇 < 0,5) = 𝑃(𝑇 < 0,5) − 𝑃(𝑇 <
2 2
−0,5) = 𝜋(0,5) − 𝜋 (−0,5) = 𝜋(0,5) − (1 − 𝜋 (0,5)) = 2𝜋(0,5) − 1 = 2.0,6915 −
1 = 0,383. Remarquons sur la table de la loi normale centrée réduite que 𝜋 (0,5) =
0,6915. Cette probabilité se trouve à l’intérieur de la table (voir encadré 2 ci-dessous).
4. Théorème de la limite centrale :
D’abord énonçons le théorème suivant : Soient X1, X2, X3, …., Xn n variables aléatoires
indépendantes les unes aux autres suivant toutes une loi normale, telles que
𝑋𝑖 ~𝑁(𝜇𝑖 , 𝜎𝑖 ²), ∀ 𝑖 𝜖 {1,2,3, … , 𝑛}. Soit la variable 𝑌 = ∑𝑛𝑖=1 𝑋𝑖 , alors 𝑌~𝑁(𝜇, 𝜎²), avec
𝜇 = ∑𝑛𝑖=1 𝜇𝑖 et 𝜎² = ∑𝑛𝑖=1 𝜎𝑖 ².
Le théorème central limite énonce que si nous avons X1, X2, X3, …., Xn n variables
aléatoires indépendantes les unes aux autres suivant toutes une même loi quelconque
D, avec E(D) = 𝜇 et V(D) = 𝜎², alors, pour 𝑛 ≥ 30, la variable 𝑌 = ∑𝑛𝑖=1 𝑋𝑖 suivra une loi
normale de moyenne m = 𝑛𝜇 et de variance 𝑛𝜎². On note : 𝑌~𝑁(𝑛𝜇, 𝑛𝜎²).

7
Encadré 2 : Extrait de la table d’une loi normale centrée réduite (T)
Par exemple : P (T ≤ 0,5) = π (0,5) =0,6915 ; de même : P (T ≤ t = 1,24) = π (1,24) =0,8925

8
Exemple 1
Le producteur de lampes d’éclairage affirme que ses lampes durent en moyenne
3 ans avec un écart-type de 0,4 ans. Une lampe a été choisie au hasard dans sa
production. Quelle la probabilité que cette lampe dure entre 18 mois et 54
mois ?
Réponse :
La durée de vie des lampes est une variable aléatoire X qui a pour moyenne 3
ans et écart-type 0,4 ans. La probabilité demandée s’écrit comme suit :
𝑃 (1,5 ≤ 𝑋 ≤ 4,5).
𝑃 (1,5 ≤ 𝑋 ≤ 4,5) = 𝑃(1,5 − 3 ≤ 𝑋 − 3 ≤ 4,5 − 3) = 𝑃 (−1,5 ≤ 𝑋 − 3 ≤ 1,5)=
𝑃 (|𝑋 − 3| ≤ 1,5). Puisque 3 est la moyenne ou l’espérance de X, on peut
appliquer l’I.B.T. (formule 3) comme suit :
0,4²
𝑃 (|𝑋 − 3| ≤ 1,5) ≥ 1 − , ce qui donne 𝑃 (|𝑋 − 3| ≤ 1,5) ≥ 0,9289.
1,5²

Ainsi, il y a une forte probabilité qu’une lampe prise au hasard de la production


dure au moins 1,5 ans mais sans dépasser 4,5 ans aussi. Avec un écart-type plus
réduit, on peut avoir une probabilité plus grande.
Exemple 2
Dans une production de N = 10.000 lampes, la proportion de lampes
défectueuses déclarée par le producteur est de p= 0,1. Il connaît cette
proportion car il dispose d’importantes statistiques anciennes. On prélève de
cette production, un échantillon de n = 500 lampes. Quelle est la probabilité que
la fréquence des lampes défectueuses dans l’échantillon ne s’écarte pas de p (la
proportion dans la population) de plus de 0,05 ?
Réponse :
D’abord, il faut écrire mathématiquement la probabilité demandée. Il s’agit de :
𝑃 (|𝑓𝑛 − 𝑝| ≤ 0,05), avec 𝑓𝑛 la proportion ou la fréquence observée dans
l’échantillon.
La différence de 0,05 entre le paramètre de la population et le paramètre de
l’échantillon est faible. La question sous-jacente est de savoir si l’échantillon de
500 lampes est bon pour que nous ayons de grandes chances pour cet
événement.
𝑉(𝑓𝑛 )
L’I.B.T. résout ce problème comme suit : 𝑃(|𝑓𝑛 − 𝑝| ≤ 0,05) ≥ 1 − .
0,05²

Mais, pour appliquer l’inégalité, il faut s’assurer que f n est une variable aléatoire,
que sa moyenne est belle et bien égale à p et ensuite connaître sa variance V(f n).

9
Notre population comprend des individus A (lampes défectueuses) en
proportion p=0,1 et des individus Ā (lampes non défectueuses) en proportion
q=1-p =0,9. L’échantillon tiré peut aussi contenir des lampes défectueuses ou
non défectueuses.
Soit X la variable aléatoire désignant le nombre des individus A dans
l’échantillon. X(Ω) = {0,1,2,3, …..n}. C’est-à-dire que dans un échantillon (de taille
n) le nombre de lampes défectueuses peut être 0 ou 1 ou 2…. avec un maximum
de n. Pour chaque possibilité, il y a une probabilité donnée. C’est ce qui définit
une variable aléatoire (en plus de la condition que la somme des probabilités est
égale à 1).
Dans le ca d’un tirage avec remise dans la production, X suivra une loi
binomiale ℬ (𝑛𝑝, 𝑛𝑝𝑞) avec E(X) = np et V(X) = npq. Dans le cas d’un tirage sans
remise X suivra une loi hypergéométrique ℋ (𝑁, 𝑛, 𝑝) avec E(X) = np et V(X) =
𝑁−𝑛
𝑛𝑝𝑞 .
𝑁−1
𝑋
Soit maintenant fn = la fréquence des individus A dans l’échantillon. f n est une
𝑛
belle et bien une variable aléatoire. Dans le cas d’un tirage avec remise, f n suit
𝑝𝑞 𝑋 𝑛𝑝 𝑋 1
une loi binomiale ℬ (𝑝, ) avec E (fn) = E( ) = = p et V(fn) = V( ) = V(X) =
𝑛 𝑛 𝑛 𝑛 𝑛²
𝑛𝑝𝑞 𝑝𝑞
= . Dans le cas d’un tirage sans remise, f n suit une loi hypergéométrique
𝑛² 𝑛
𝑋 𝑛𝑝 1 𝑛𝑝𝑞 𝑁−𝑛 𝑝𝑞 𝑁−𝑛
ℋ (𝑁, 𝑛, 𝑝) avec E (fn) = E( ) = = p et V (fn)= V(X) = = .
𝑛 𝑛 𝑛² 𝑛² 𝑁−1 𝑛 𝑁−1
Ainsi, notre fréquence d’échantillon f n est une variable aléatoire qui a pour
espérance p et sa variance dépend du mode de tirage de cet échantillon.
𝑉(𝑓𝑛 )
Dans ce cas, on peut appliquer l’I.B.T : 𝑃 (|𝑓𝑛 − 𝑝| ≤ 0,05) ≥ 1 −
0,05²

Dans le cas d’un tirage avec remise, c’est-à-dire qui n’exclue pas la possibilité de
0,1.0,9
répéter des éléments tirés, 𝑃(|𝑓𝑛 − 𝑝| ≤ 0,05) ≥ 1 − = 0,928.
500.0,05²

Dans le cas d’un tirage sans remise, c’est-à-dire qui exclue toute possibilité de
0,1.0,9 10.000−500
répéter des éléments tirés, 𝑃(|𝑓𝑛 − 𝑝| ≤ 0,05) ≥ 1 − 2
=
500.0,05 10.000−1
0,9316. On a fait un effort de plus pour ne pas répéter les éléments, ce qui a
donné une probabilité plus élevée par rapport au tirage avec remise. Mais, la
différence entre les deux tirages n’est pas importante du moment où on prend
un échantillon parmi une population très grande. Il faut rappeler aussi que la loi
hypergéométrique tend vers la loi binomiale lorsque le facteur d’exhaustivité
𝑁−𝑛
tend vers 1. Dans la pratique, un tirage sans remise peut être assimilé à un
𝑁−1
𝑛
tirage avec remise lorsque le taux de sondage est inférieur à 0,1.
𝑁

10
En général, on peut remarquer que la variance de f n dépend de n. Plus n est
grand, plus la variance est petite et plus les chances sont grandes qu’on ne
s’écarte pas trop de la vraie proportion p dans la population.
Exemple 3
Une machine fabrique des disques pleins en grande quantité. Soit X la variable
aléatoire qui, à chaque disque tiré au hasard, associe son diamètre en millimètre,
avec E(X) = m= 10 mm et 𝜎 = 1 mm. Soi𝑡 𝑋̅ la variable aléatoire qui, à chaque
échantillon aléatoire tiré (avec remise 3) de taille n = 49, associe la moyenne des
diamètres des disques de cet échantillon. Quelle est la probabilité que la
moyenne d’échantillon 𝑋̅ ne s’écarte pas trop de la moyenne de la population m
de plus de 0,28 mm ?
Réponse :
La probabilité demandée est 𝑃(|𝑋̅ − 𝑚| ≤ 0,28) et la réponse est donnée par
𝑉(𝑋̅)
l’I.B.T. Soit : 𝑃(|𝑋̅ − 𝑚| ≤ 0,28) ≥ 1 − .
0,28²

On sait que 𝑋̅ est une variable aléatoire (varie d’un échantillon à l’autre, de
même taille n). Mais, on doit s’assurer que m est son espérance et calculer sa
variance.
Notons les diamètres des disques de l’échantillon par X 1, X2, X3, …., Xn. En fait, il
s’agit de n variables aléatoires indépendantes (chaque disque est produit en
général indépendamment de l’autre même si on en a une grande quantité). Ces
n variables aléatoires suivent cependant une même loi quelconque (ils sont
produits par la même machine) qui a pour espérance m (la moyenne de chaque
Xi est la moyenne de la population) et pour écart-type 𝜎.
X1+ X2+ X3+,….+ Xn
Leur moyenne 𝑋̅ = est une variable aléatoire qui a pour
𝑛
𝜎²
espérance mathématique m et écart-type .
𝑛
X1+ X2+ X3+,….+ Xn 1
En effet, E(𝑋̅) = 𝐸( )= [E(X1) + E(X2) + E(X3) + ….+ E(Xn)] =
𝑛 𝑛
1 𝑛.𝑚
[m + m + m + ….+ m]= = m.
𝑛 𝑛
X1+ X2+ X3+,….+ Xn 1
De même, V(𝑋̅) = 𝑉 ( )= [V(X1) + V(X2) + V(X3) + ….+ V(Xn)] =
𝑛 𝑛²
1 𝑛.𝜎² 𝜎²
[𝜎²+ 𝜎² + 𝜎² ….+ 𝜎²]= = .
𝑛² 𝑛² 𝑛

3
Le tirage à la base est avec remise, c’est-à-dire que malgré les efforts on n’exclue pas la possibilité de répéter
parfois des éléments. Si le tirage est dit sans remise, c’est que nous avons adopté une méthode rigoureuse
permettant de ne répéter aucun élément.

11
Ainsi, la moyenne d’échantillon 𝑋̅ est une variable aléatoire qui a pour espérance

m et écart-type .
49

Ce qui donne : 𝑃(|𝑋̅ − 𝑚| ≤ 0,28) ≥ 1 − = 0,73968.
49.0,28²

Ou bien : 𝑃 ( 9,72 ≤ 𝑋̅ ≤ 10,28) ≥ 0,73968. C’est-à-dire qu’on a au moins


presque 74% de chances que, lorsqu’on tire un échantillon de taille n=49, la
moyenne de ce dernier ne s’écartera pas de plus de 0,28 mm de la moyenne de
la population. Cette probabilité est importante mais elle n’est pas très grande.
Pour avoir plus de chances, le seul moyen c’est donc d’augmenter la taille de
l’échantillon.
2- Détermination de la taille d’échantillon avec l’inégalité Bienaymé-
Tchebychev
On utilise l’I.B.T. lorsqu’on ignore la loi de probabilité (le comportement) de la
variable considérée. D’autre part, la méthode à suivre pour déterminer la taille
d’échantillon dépendra du paramètre qu’on cherche à estimer dans la
population. En pratique, on cherche le plus souvent une fréquence ou bien une
moyenne.
2.1. Le cas d’une fréquence
D’abord, il faut commencer chaque fois par bien poser le problème. Dans ce cas,
on veut déterminer la taille d’échantillon nécessaire pour que la fréquence
observée sur l’échantillon 𝑓𝑛 se trouve dans l’intervalle 𝑝 ± 𝑡 avec une
probabilité d’au moins1 − 𝛼.
p : la proportion observée du phénomène dans la population ;
t : la précision souhaitée ou la marge d’erreur acceptée ;
𝛼 : un paramètre déterminé par le décideur ;
1 − 𝛼 : le niveau de confiance.
Le problème s’écrit comme suit : 𝑃 (|𝑓𝑛 − 𝑝| ≤ 𝑡) ≥ 1 − 𝛼
Ou bien, 𝑃 (𝑝 − 𝑡 ≤ 𝑓𝑛 ≤ 𝑝 + 𝑡) ≥ 1 − 𝛼.
𝑉(𝑓𝑛 )
Or, on sait d’après l’I.B.T. que : 𝑃(|𝑓𝑛 − 𝑝| ≤ 𝑡) ≥ 1 −
𝑡²
𝑉(𝑓𝑛 )
Ce qui veut implique que : 𝛼 = .
𝑡²
Dans le cas d’un tirage avec remise, comme on l’a vu dans l’exemple 2 ci-dessus,
𝑝𝑞 𝑝𝑞 𝑝𝑞
fn suit une loi binomiale ℬ (𝑝, ) et V(fn) = . Ce qui donne, 𝛼 = et donc
𝑛 𝑛 𝑛𝑡²
𝑝𝑞
n= .
𝛼𝑡²

12
Dans le cas d’un tirage sans remise, f n suit une loi hypergéométrique
𝑝𝑞 𝑁−𝑛 𝑝𝑞 𝑁−𝑛 1
ℋ (𝑁, 𝑛, 𝑝) et V (fn)= . Ce qui donne, 𝛼 = et donc, après
𝑛 𝑁−1 𝑛 𝑁−1 𝑡²
𝑝𝑞 𝑁
développement, on trouve n = .
𝛼(𝑁−1)𝑡 2 +𝑝𝑞

Toutefois, pour calculer la taille d’échantillon, il faut avoir la valeur de p et dans


le cas d’un tirage sans remise, il faut aussi avoir N la taille de la population.
Il y a deux cas qui se présentent. Soit, on a une idée sur p à partir d’une étude
sérieuse récente, soit on lui donne la valeur de 0,5.
En effet, personne ne sait la vraie proportion p actuelle dans la population. Si
non, ce n’est pas la peine de faire l’échantillonnage. Donc, on lui substitue une
valeur approchée raisonnable.
Par contre, lorsqu’on n’a pas une information sur p, on la considère comme égale
à 0,5 par prudence. Parce que la valeur de p=0,5 implique que q = 0,5, ce donnera
𝑝𝑞
la plus grande valeur (égale à 0, 25) pour le terme 𝑝𝑞 en haut du rapport et
𝛼𝑡²
donc aboutira à la plus grande taille d’échantillon à prendre par précaution.
On remarque qu’en principe, moins on dispose d’informations précises sur le
phénomène étudié, plus on a besoin d’une taille d’échantillon plus grande.
2.2. Le cas d’une moyenne
On veut déterminer la taille d’échantillon nécessaire pour que la moyenne
observée sur l’échantillon 𝑋̅ se trouve dans l’intervalle 𝑚 ± 𝑡 avec une
probabilité au moins égale à 1 − 𝛼. Sachant que m est la moyenne observée du
phénomène ou de la variable étudiée dans la population.
Le problème s’écrit comme suit : 𝑃 (|𝑋̅ − 𝑚| ≤ 𝑡) ≥ 1 − 𝛼
Ou bien, 𝑃 (𝑚 − 𝑡 ≤ 𝑋̅ ≤ 𝑚 + 𝑡) ≥ 1 − 𝛼.
𝑉(𝑋̅)
Or, d’après l’I.B.T., on sait que : 𝑃 (|𝑋̅ − 𝑚| ≤ 𝑡) ≥ 1 −
𝑡²
𝑉(𝑋̅)
Ce qui implique que 𝛼 = .
𝑡²
𝜎²
Nous avons déjà démontré dans l’exemple 3 ci-dessus que V(𝑋̅) = . Dans le cas
𝑛
d’un tirage vraiment sans remise, on lui ajoute le facteur d’exhaustivité et on
𝜎² 𝑁−𝑛
aura : V(𝑋̅) = .
𝑛 𝑁−1

13
Ainsi, dans le cas (général) d’un tirage avec remise, la taille d’échantillon à
𝜎² 𝜎²𝑁
prendre est n = et dans le cas d’un tirage sans remise n = .
𝛼𝑡² 𝜎2 +𝛼𝑡 2 (𝑁−1)

𝜎 est l’écart-type de la variable étudiée dans la population. Il est bien sûr inconnu
actuellement.
Si la valeur de 𝜎 n’est pas donnée à partir d’une étude similaire récente et
sérieuse, on a deux solutions. Soit, on calcule l’écart-type de la variable X étudiée
dans un échantillon test d’une taille au moins égale à 30 individus. Soit, on prend
𝐸𝑡𝑒𝑛𝑑𝑢𝑒 𝑋max − 𝑋𝑚𝑖𝑛
comme estimation de 𝜎 la valeur 𝜎 ′ = = . C’est-à-dire, qu’on
6 6
doit avoir une idée sur la valeur maximale possible de X dans la population (X max)
et sa valeur minimale possible (Xmin).
3- Détermination de la taille d’échantillon avec la loi normale
On applique la loi normale quand certaines conditions sont réunies ou bien
lorsqu’on déclare que la variable étudiée suit une loi normale (voir encadré 1 en
haut sur le comportement normal d’une distribution). Là aussi, on va déterminer
la taille d’échantillon suivant le paramètre qu’on cherche à estimer dans la
population (une fréquence ou une moyenne).
3.1. Le cas d’une fréquence
Lorsque nous avons les conditions suivantes : n≥30, np≥5 et nq≥5, la fréquence
des individus A (présentant le caractère étudié) observée sur l’échantillon 𝑓𝑛 (qui
est une variable binomiale) suivra approximativement la loi normale N.
𝑝𝑞 𝑝𝑞
On écrit : 𝑓𝑛 ~ ℬ (𝑝, ) ≈ 𝑁 (𝑝, ). Rappelons que q=1-p.
𝑛 𝑛

Il s’agit du même problème que dans le cas de l’I.B.T. Mais, la détermination de


la taille d’échantillon revient cette fois-ci à résoudre l’équation :
𝑃 (|𝑓𝑛 − 𝑝| ≤ 𝑡) = 1 − 𝛼
Il s’agit d’une équation et non pas d’une inégalité comme dans le cas de l’I.B.T.
Cette fois-ci, la probabilité est précise et on n’utilise pas le terme au moins.
Puisque le comportement de la variable étudiée est connu et normal, la taille
d’échantillon suffisante est précise et généralement elle est moins importante
par rapport au cas où on ignore la loi de distribution du phénomène étudié.
L’égalité ci-dessus peut s’écrire aussi :

14
𝑡 𝑓𝑛 −𝑝 𝑡
𝑃 (−𝑡 ≤ 𝑓𝑛 − 𝑝 ≤ 𝑡) = 1 − 𝛼 ⇒ 𝑃 (− 𝑝𝑞
≤ 𝑝𝑞
≤ )= 1−𝛼
𝑝𝑞
𝑞𝑢𝑒 √ √ √
𝑛 𝑛 𝑛

𝑡
⇒ 𝑃(−𝜆 ≤ 𝑇 ≤ 𝜆) = 1 − 𝛼, avec 𝜆 = 𝑝𝑞
et 𝑇 ∼ 𝑁(0,1).
𝑞𝑢𝑒 √𝑛

Nous sommes passés d’une variable normale 𝑓𝑛 à une variable normale centrée
réduite T en faisant la soustraction par rapport à sa moyenne et en divisant par
son écart-type.
Or, 𝑃(−𝜆 ≤ 𝑇 ≤ 𝜆) = 𝑃(𝑇 ≤ 𝜆) − 𝑃 (𝑇 ≤ −𝜆) = 𝜋 (𝜆) − 𝜋 (– 𝜆) = 𝜋 (𝜆) −
(1 − 𝜋 (𝜆)) = 2𝜋 (𝜆) − 1.
𝜆 représente donc le seuil de probabilité de la loi normale centrée réduite, c’est-
à-dire, c’est la valeur sur la table de la loi normale centrée réduite (voir encadré
𝛼
2 au-dessous) pour la quelle : 𝜋(𝜆) = 1 − .
2

Par exemple, pour 𝛼 = 0,05, on aura 𝜋(𝜆) = 1 − 0,025 = 0,975. En revenant à


la table, nous trouvons (pour la probabilité 0,975 à l’intérieur) que 𝜆 = 1,96.
Après avoir déterminé 𝜆 selon les données de l’exercice (en général, on
𝑡
donne 𝛼), on résout l’équation : 𝜆 = 𝑝𝑞
. La taille de l’échantillon se déduit de
√𝑛
𝜆2 . 𝑝𝑞
cette équation. On aura n = .
𝑡²

𝜆 et t sont calculés ou donnés et ce qui reste c’est la valeur de p. Comme dans le


cas avec l’I.B.T., s’il n’y a pas d’indication sur sa valeur, on prend p = 0,5.
La taille que nous venons de calculer est pour un tirage avec remise. Dans le cas
𝑝𝑞 𝑁−𝑛
d’un tirage sans remise, 𝑓𝑛 ≈ 𝑁 (𝑝, . ). A la base, 𝑓𝑛 est une variable
𝑛 𝑁−1
hypergéométrique, mais sous les conditions mentionnées en haut, elle suivra
approximativement une loi normale avec une espérance égale à p et une
𝑝𝑞 𝑁−𝑛
variance égale à . . La seule différence avec le cas du tirage avec remise est
𝑛 𝑁−1
relative donc à la valeur de la valeur de cette variance qui se trouve multipliée
par le facteur d’exhaustivité.
Tout le raisonnement décrit en haut et qui mène à la formule de la taille
d’échantillon dans le cas d’un tirage avec remise est le même pour le cas du

15
tirage sans remise. La seule différence que nous aurons c’est la valeur de l’écart-
𝑝𝑞 𝑁−𝑛
type par laquelle nous divisons. L’écart-type de 𝑓𝑛 est maintenant√ . .
𝑛 𝑁−1

𝑡 𝜆²𝑝𝑞𝑁
Ainsi, = , ce qui donne après le développement, n = .

𝑝𝑞 𝑁−𝑛 𝜆2 𝑝𝑞+𝑡²(𝑁−1)
.
𝑛 𝑁−1

Ce qui reste à savoir dans ce cas c’est aussi la valeur de la taille de la population
N.
3.2. Le cas d’une moyenne
Soient X1, X2, X3, …., Xn n variables aléatoires indépendantes suivant une même
loi normale 𝑁 (𝑚, 𝜎 2 ). Leur moyenne empirique 𝑋̅ (de l’échantillon prélevé)
𝜎²
suivra aussi une loi normale : 𝑋̅~𝑁 (𝑚, ). Elle a pour espérance m (la moyenne
𝑛
𝜎² X1+ X2+ X3+,….+ Xn
dans la population) et pour variance . Rappelons que 𝑋̅ = .
𝑛 𝑛
La détermination de la taille d’échantillon revient à résoudre l’équation
suivante : 𝑃 (|𝑋̅ − 𝑚| ≤ 𝑡) = 1 − 𝛼 ou bien 𝑃 (−𝑡 ≤ 𝑋̅ − 𝑚 ≤ 𝑡) = 1 − 𝛼.

𝑡 𝑋̅ − 𝑚 𝑡
⇒ 𝑃 (− 𝜎 ≤ 𝜎 ≤ 𝜎 ) = 1 − 𝛼
𝑞𝑢𝑒
√𝑛 √𝑛 √𝑛
𝑡
⇒ 𝑃(−𝜆 ≤ 𝑇 ≤ 𝜆) = 1 − 𝛼, avec 𝜆 = 𝜎 et 𝑇 ∼ 𝑁(0,1).
𝑞𝑢𝑒 √𝑛

𝛼
Cela donne que 𝜋(𝜆) = 1 − comme dans le cas de la détermination de la taille
2
d’échantillon dans le cas de la fréquence.
Après avoir déterminé 𝜆 sur la table de la loi normale centrée réduite selon la
valeur de 𝛼, on détermine la taille de l’échantillon avec l’équation :
𝑡 𝜆2 .𝜎²
𝜆= 𝜎 ⇒ 𝑛= . C’est la taille de l’échantillon dans le cas (général) d’un
𝑞𝑢𝑒 𝑡²
√𝑛
tirage avec remise.
Dans le cas d’un tirage sans remise ou exhaustif, la variance de 𝑋̅ se trouve
𝑁−𝑛
multipliée par le facteur d’exhaustivité et son écart-type se trouve multiplié
𝑁−1
𝑁−𝑛 𝑡 𝜆2 𝜎²𝑁
par √ . On aura ainsi, 𝜆 = . Ce qui implique que 𝑛 = .
𝑁−1 𝜎 𝑁−𝑛 𝜆2 𝜎2 + 𝑡²(𝑁−1)
.√
√𝑛 𝑁−1

16
Dans les deux cas de tirage, on doit avoir une estimation de la valeur de 𝜎 ou
l’écart-type de la variable étudiée dans la population. S’il n’y a pas d’indication
sur ce dernier, on suivra la même démarche décrite dans le cas de la
détermination de la taille d’échantillon avec l’I.B.T.
Dans le cas du tirage sans remise seulement, on doit savoir aussi N.
4- Tableau récapitulatif des tailles d’échantillon
Nous allons rassembler dans le tableau 1 ci-après l’ensemble des tailles
d’échantillon que nous avons calculées selon la règle de l’I.B.T. ou avec la loi
normale, le mode de tirage et l’objectif de l’échantillonnage.
Tableau1 : Les tailles d’échantillon
Taille Inégalité Bienaymé Tchebychev Loi normale
d’échantillon
n Tirage avec Tirage sans Tirage avec Tirage sans
remise remise remise remise
Fréquence 𝑓𝑛 𝑝𝑞 𝑝𝑞 𝑁 2
𝜆 . 𝑝𝑞 𝜆²𝑝𝑞𝑁
𝛼𝑡² 𝛼𝑡 2 (𝑁 − 1) + 𝑝𝑞 𝑡² 𝑡²(𝑁 − 1)+𝜆2 𝑝𝑞
Moyenne 𝑋̅ 𝜎² 𝜎²𝑁 𝜆2 . 𝜎² 𝜆2 𝜎²𝑁
𝛼𝑡² 𝛼𝑡 2 (𝑁 − 1) + 𝜎 2 𝑡² 𝑡²(𝑁 − 1) + 𝜆2 𝜎 2
N : la taille de la population, p : la proportion du phénomène dans la population (q=1-p), 𝛼: le niveau de risque,
t : la marge d’erreur acceptée, 𝜎 : l’écart-type de la variable étudiée dans la population, 𝜆 : le seuil de probabilité
α
tel que π(λ) = 1 − 2 .

Application 1 : Production d’argan dans une coopérative


Dans une production d’huile d’argan, les femmes d’une coopérative dispose d’un
sac de 10.000 noix d’argan. On estime que 10% des noix sont en mauvais état en
général. Soit 𝑓𝑛 la fréquence de noix défectueux dans un échantillon prélevé de
taille n.
1. Quelle est la loi de probabilité de 𝑓𝑛 ?
2. Quelle est la variance de 𝑓𝑛 dans les cas de tirages avec remise et sans
remise ?
3. Si on prélève de la production un échantillon de 500 noix, quelle est la
probabilité que 𝑓𝑛 ne s’écarte pas de p (la proportion de noix défectueux
dans la population) de plus de 4% ?
4. Quelle est la taille d’échantillon pour que 𝑓𝑛 ne s’écarte pas de p de plus
de 5% avec une probabilité au moins égale à 90% sachant que le tirage
sera exhaustif ?

17
5. Quelle est la taille d’échantillon pour que 𝑓𝑛 ne s’écarte pas de p de plus
de 5% avec une probabilité au moins égale à 90% sachant qu’on n’a pas
d’indication sur p et que le tirage est non exhaustif ?
6. Quelle est cette même taille d’échantillon si on suppose cette fois-ci que𝑓𝑛
suit approximativement une loi normale ?
Réponse :
1. Soit X le nombre de noix défectueux dans un échantillon de taille n.
X varie de 0 à n et pour chacune de ces valeurs, il y a une probabilité donnée. X
est une variable aléatoire. On écrit l’ensemble des valeurs de X comme suit : X(Ω)
= {0, 1, 2, …., n}.
𝑋
fn = est la fréquence de noix défectueux dans un échantillon de taille n. fn est
𝑛
0 1 2 𝑛
aussi une variable aléatoire avec fn (Ω) = { , , , …., }.
𝑛 𝑛 𝑛 𝑛
𝑝𝑞
Dans le cas d’un tirage avec remise, X ~ℬ (𝑛𝑝, 𝑛𝑝𝑞) et fn ~ ℬ (𝑝, ) avec p =
𝑛
0,1 et q = 0,9.
Dans le cas d’un tirage sans remise, X ~𝐻 (𝑁, 𝑛, 𝑝) et fn ~ ~𝐻 (𝑁, 𝑛, 𝑝) avec N =
10.000.
𝑝𝑞 0,1.0,9 0,09
2. Dans le cas d’un tirage avec remise, V(fn)= = = .
𝑛 𝑛 𝑛
𝑝𝑞 𝑁−𝑛 0,09 10000−𝑛
Dans le cas d’un tirage sans remise, V(fn) = = .
𝑛 𝑁−1 𝑛 9999

3. La probabilité demandée est : P (p – 0,04 ≤ 𝑓𝑛 ≤ p + 0,04) =


P(|𝑓𝑛 − 𝑝| ≤ 0,04).
𝑉(𝑓𝑛 )
On sait d’après l’I.B.T. que P(|𝑓𝑛 − 𝑝| ≤ 0,04) ≥ 1 −
0,04²
0,09
V(fn) = . Pour cette question, il n’y a pas d’indication sur le mode de tirage.
500
On va le considérer comme avec remise.
0,00018
Donc, P(|𝑓𝑛 − 𝑝| ≤ 0,04) ≥ 1 − ou bien P (0,06 ≤ 𝑓𝑛 ≤ 0,14)≥ 0,8875.
0,04²

Si on prend un échantillon de 500 noix, il y a une forte probabilité que le


pourcentage de noix défectueux dans ce dernier soit aux alentours de 10%.
4. On cherche la taille d’échantillon telle que :
𝑃 (|𝑓𝑛 − 0,1| ≤ 0,05) ≥ 1 − 𝛼= 0,9. Or, on sait d’après l’I.B.T. que :

18
𝑉(𝑓𝑛 ) 𝑉(𝑓𝑛 ) 𝑝𝑞 𝑁−𝑛 1
𝑃 (|𝑓𝑛 − 0,1| ≤ 0,05) ≥ 1 − . Donc, 𝛼 = 0,1 = = .
0,05² 0,05² 𝑛 𝑁−1 0,05²

Sachant que N = 10.000, p= 0,1 et q = 0,9, on aura n = 347,52.


Mais, on peut répondre directement comme ceci : la taille d’échantillon
demandée est celle relative à la taille pour estimer une fréquence dans le cas où
il n’y a pas d’indication au départ sur le comportement normal de la variable
étudiée et dans le cas aussi d’un tirage sans remise (exhaustif, soigneusement
choisi). Sur le tableau récapitulatif, on trouve que
𝑝𝑞 𝑁 0,1 0,9 10.000 900
𝑛 = 2 (𝑁−1)+𝑝𝑞 = = = 347,52.
𝛼𝑡 0,1.0,05²9999+0,1.0,9 2,58975

Enfin, la taille d’échantillon minimale dans ce cas est 348 noix. Parce que si on
prend n = 347, on n’aura pas le niveau de confiance voulu.
𝑝𝑞 0,1.0,9
5. Le tirage est cette fois-ci avec remise, donc n = = = 360 noix.
𝛼𝑡² 0,1.0,05²

La taille minimale est un peu plus élevée que dans le cas d’un tirage exhaustif
(choisi avec un effort de plus).
𝑝𝑞
6. 𝑓𝑛 ≈ 𝑁 (𝑝, ).
𝑛
Puisqu’il n’y a pas d’indication sur le mode de tirage, on va le considérer comme
non exhaustif (avec remise). Parce que, en général, on peut faire quelques
répétitions malgré les efforts.
La taille d’échantillon demandée est celle pour estimer une fréquence, dans le
𝜆2 . 𝑝𝑞
cas de la loi normale et pour un tirage avec remise. Donc, n= , avec 𝜋(𝜆) =
𝑡²
𝛼
1 − = 0,95. Dans la table de la loi normale centrée réduite, 𝜆 est la valeur
2
intermédiaire entre 1,64 et 1,65 exactement au milieu, donc 𝜆 = 1,645.
1,6452 . 0,1.0,9
Ainsi, n = = 97,42. La taille d’échantillon minimale est 98 noix.
0,05²

Dans le cas d’un tirage sans remise, on va trouver que n= 96,48, ce qui veut dire
que la taille minimale d’échantillon est de 97 noix. Ce qui est très proche de la
taille d’échantillon pris avec remise. Ce n’est pas surprenant puisque la taille de
la population N= 10.000 est très grande par rapport à la taille de l’échantillon.
Remarque :
D’autres applications économiques intéressantes sont disponibles dans les séries
d’exercices corrigés attachées à ce cours.

19
20

Vous aimerez peut-être aussi