Chapitre 1 TACHFINE Echantillonnage
Chapitre 1 TACHFINE Echantillonnage
Chapitre 1 TACHFINE Echantillonnage
« Economie et Gestion »
Semestre 3
1
Sommaire
Chapitre 3 : Estimations
I- Estimations ponctuelles
II- Estimations par intervalles de confiance
2
Chapitre 1 : Echantillonnage : concepts de base et taille de
l’échantillon
Dans une première section, on vise à connaître l’objectif de l’échantillonnage et
on présentera ses concepts de base 1. Dans une deuxième section, on répondra
à une question essentielle qui est de savoir la taille à prendre pour un
échantillon. Toutefois, la taille de l’échantillon ne pose pas généralement un
problème car, souvent, elle n’est pas très grande. Par contre, ce qui peut poser
un problème c’est le passage à l’action, au choix proprement dit des individus
appartenant à l’échantillon. Dans ce cas, il faut choisir la méthode
d’échantillonnage appropriée au problème étudié. Cela fera l’objet du chapitre
suivant.
I- Présentation et concepts de base
Pour étudier ou collecter des informations sur une population statistique P
donnée, on dispose en principe de deux méthodes :
La méthode exhaustive ou recensement : on examine dans ce cas chacun
des individus de cette population selon le ou les caractères étudiés ;
La méthode de sondage : on examine une fraction représentative de la
population appelée échantillon.
La première méthode est utilisée par exemple pour le recensement général de
la population et de l’habitat (R.G.P.H) qui se fait chaque 10 ans au Maroc par le
Haut-Commissariat au Plan.
Toutefois, dans la vie économique et sociale, il est souvent impossible d’étudier
toute la population pour des raisons de coût et de temps. Même si on peut faire
face au problème du coût, l’étude doit être faite dans un délai raisonnable pour
les décideurs. Aujourd’hui, avec les changements technologiques et sociétales
rapides, une étude peut devenir rapidement vétuste si elle prend un temps
considérable.
Pour ces raisons, on applique donc la deuxième méthode. Cette dernière
comprend les étapes suivantes :
On extrait un échantillon de la population qui possède une taille suffisante
suivant une méthode d’échantillonnage appropriée ;
On décrit sur cet échantillon la distribution du (es) caractère (s) ;
1
Les éléments de cours que nous développons ici dans ce chapitre font largement référence au polycopié de
Mme Zerbet, professeur de statistiques à la FSJES d’Agadir. Nous lui avons ajouté quelques explications et
applications pour le rendre plus compréhensible pour les étudiants. A cette occasion, nous la remercions et nous
la félicitons pour ses efforts. Par contre, le deuxième chapitre concernant l’estimation émane de notre travail
personnel à partir de plusieurs références bibliographiques.
3
On établit une estimation des paramètres de la population à partir des
paramètres observés sur l’échantillon.
L’objectif de l’échantillonnage est ainsi de connaître avec une bonne précision
certains paramètres de la population à partir de l’échantillon pris, ce qui permet
d’économiser le coût et le délai de l’étude. Sachant qu’une précision à 100%
n’est possible que dans le cas de l’étude exhaustive de la population.
Un échantillon S de taille n est dit représentatif si la proportion d’individus des
sous-populations Ph dans S est égale à la proportion d’individus des mêmes sous-
populations dans P.
𝑛ℎ 𝑁ℎ
Mathématiquement, on écrit : ∀ ℎ = 1, 2, … . , 𝑘: = ; avec N la taille de la
𝑛 𝑁
𝑁ℎ
population. Ce qui donne, 𝑛ℎ = .
𝑁/𝑛
4
II- Détermination de la taille d’échantillon
On détermine la taille d’échantillon suffisante soit en utilisant l’inégalité
Bienaymé-Tchebychev (I.B.T.) lorsqu’on ignore la loi de probabilité de la variable
étudiée de la population, soit en utilisant la loi normale quand la variable étudiée
suit cette loi.
Avant de passer au calcul de la taille d’échantillon selon les deux méthodes, on
s’arrêtera d’abord sur le principal fondement théorique de l’échantillonnage, à
savoir cette inégalité de Bienaymé-Tchebychev2. Un autre principe important
émane du théorème de la limite centrale (voir encadré 1 sur la loi normale, la loi
normale centrée réduite et le théorème central limite).
1- L’inégalité Bienaymé-Tchebychev
Soit X une variable aléatoire de loi quelconque, d’espérance mathématique E(X)=
m et de variance V(X) =σ². Soient deux réels t et a.
1
Alors, ∀ 𝑡 > 0, 𝑃(|𝑋 − 𝑚| ≤ 𝑡. 𝜎) ≥ 1 − (1)
𝑡²
1
Ce qui donne aussi 𝑃(|𝑋 − 𝑚| ≥ 𝑡. 𝜎) ≤ (2)
𝑡²
𝑉(𝑋)
Ou bien 𝑃 (|𝑋 − 𝑚| ≤ 𝑎) ≥ 1 − ; avec a= t.𝜎 (3)
𝑎²
𝑉(𝑋)
Et finalement 𝑃 (|𝑋 − 𝑚| ≥ 𝑎) ≤ (4)
𝑎²
Généralement, la troisième formule est la plus utilisée.
L’inégalité donne la probabilité minimale qu’une variable aléatoire quelconque
se trouve éloignée de sa moyenne d’une certaine quantité et ce dans les deux
sens. Cela dépendra de sa variance si on voit l’autre côté de l’inégalité. Plus elle
est minimale plus cette probabilité est grande.
Pour comprendre l’utilité de l’I.B.T. pour l’échantillonnage, on va prendre trois
exemples.
2
Irénée-Jules Bienaymé (1796) est un probabiliste et statisticien français. Pafnouti Lvovitch Tchebychev
(1821) est un mathématicien russe.
5
Encadré 1 : la loi normale et le théorème central limite
1. Définition de la loi normale : Une variable aléatoire continue X suit une loi normale
de moyenne m et de variance σ², notée 𝑋~𝑁(𝜇, 𝜎²), quand sa fonction de densité de
1 1 𝑥−𝜇
probabilité f est définie par : 𝑓 (𝑥 ) = 𝑒 −2 (𝜎
)²
, avec > 0 𝑒𝑡 − ∞ < 𝑥 < +∞ .
𝜎√2𝜋
La loi normale modélise les variables aléatoires qui résultent de nombreuses causes
dont les effets s’additionnent, sans que l’une soit prépondérante. Elle est la plus
répandue car elle traduit la complexité des phénomènes physiques et socio-
économiques souvent distribués normalement.
La courbe de f est sous forme « d’une cloche » symétrique par rapport à la droite
d’équation x = 𝜇. Notons E(X) = M0 = Me = 𝜇, V(X) = σ² et σ(X) = σ.
La moyenne ou l’espérance 𝜇 est aussi le mode de X (M0) et sa médiane (Me). C’est-à-
1
dire que : F(𝜇) = P (X≤ 𝜇) = 0,5 et f (𝜇) =
𝜎√2𝜋
2. La loi normale centrée réduite : Si X est une variable aléatoire normale de paramètre
𝑋− 𝜇
𝜇 et σ², alors la variable 𝑇 = suit une loi normale centrée réduite notée 𝑁(0, 1).
𝜎
6
De même, on a 𝜋(−𝑡) = 𝑃(𝑇 ≤ −𝑡) = 𝑃(𝑇 ≥ 𝑡) = 1 − 𝑃(𝑇 ≤ 𝑡) = 1 − 𝜋 (𝑡).
f(t)
𝜋(−𝑡) 1 − 𝜋(𝑡)
-∞ -t 0 t +∞
3. Calcul de probabilité
Par exemple, on a 𝑋~𝑁(2, 4), et on veut calculer la probabilité 𝑃(1 < 𝑋 < 3). La
réponse directe demande le calcul très long d’un intégral. On peut passer par la loi
𝑋− 𝜇 𝑋− 2
normale centrée réduite comme suit : Soit 𝑇 = = . 𝑇~𝑁(0, 1),
𝜎 2
1−2 3−2
𝑃(1 < 𝑋 < 3) = 𝑃 ( <𝑇< ) = 𝑃(−0,5 < 𝑇 < 0,5) = 𝑃(𝑇 < 0,5) − 𝑃(𝑇 <
2 2
−0,5) = 𝜋(0,5) − 𝜋 (−0,5) = 𝜋(0,5) − (1 − 𝜋 (0,5)) = 2𝜋(0,5) − 1 = 2.0,6915 −
1 = 0,383. Remarquons sur la table de la loi normale centrée réduite que 𝜋 (0,5) =
0,6915. Cette probabilité se trouve à l’intérieur de la table (voir encadré 2 ci-dessous).
4. Théorème de la limite centrale :
D’abord énonçons le théorème suivant : Soient X1, X2, X3, …., Xn n variables aléatoires
indépendantes les unes aux autres suivant toutes une loi normale, telles que
𝑋𝑖 ~𝑁(𝜇𝑖 , 𝜎𝑖 ²), ∀ 𝑖 𝜖 {1,2,3, … , 𝑛}. Soit la variable 𝑌 = ∑𝑛𝑖=1 𝑋𝑖 , alors 𝑌~𝑁(𝜇, 𝜎²), avec
𝜇 = ∑𝑛𝑖=1 𝜇𝑖 et 𝜎² = ∑𝑛𝑖=1 𝜎𝑖 ².
Le théorème central limite énonce que si nous avons X1, X2, X3, …., Xn n variables
aléatoires indépendantes les unes aux autres suivant toutes une même loi quelconque
D, avec E(D) = 𝜇 et V(D) = 𝜎², alors, pour 𝑛 ≥ 30, la variable 𝑌 = ∑𝑛𝑖=1 𝑋𝑖 suivra une loi
normale de moyenne m = 𝑛𝜇 et de variance 𝑛𝜎². On note : 𝑌~𝑁(𝑛𝜇, 𝑛𝜎²).
7
Encadré 2 : Extrait de la table d’une loi normale centrée réduite (T)
Par exemple : P (T ≤ 0,5) = π (0,5) =0,6915 ; de même : P (T ≤ t = 1,24) = π (1,24) =0,8925
8
Exemple 1
Le producteur de lampes d’éclairage affirme que ses lampes durent en moyenne
3 ans avec un écart-type de 0,4 ans. Une lampe a été choisie au hasard dans sa
production. Quelle la probabilité que cette lampe dure entre 18 mois et 54
mois ?
Réponse :
La durée de vie des lampes est une variable aléatoire X qui a pour moyenne 3
ans et écart-type 0,4 ans. La probabilité demandée s’écrit comme suit :
𝑃 (1,5 ≤ 𝑋 ≤ 4,5).
𝑃 (1,5 ≤ 𝑋 ≤ 4,5) = 𝑃(1,5 − 3 ≤ 𝑋 − 3 ≤ 4,5 − 3) = 𝑃 (−1,5 ≤ 𝑋 − 3 ≤ 1,5)=
𝑃 (|𝑋 − 3| ≤ 1,5). Puisque 3 est la moyenne ou l’espérance de X, on peut
appliquer l’I.B.T. (formule 3) comme suit :
0,4²
𝑃 (|𝑋 − 3| ≤ 1,5) ≥ 1 − , ce qui donne 𝑃 (|𝑋 − 3| ≤ 1,5) ≥ 0,9289.
1,5²
Mais, pour appliquer l’inégalité, il faut s’assurer que f n est une variable aléatoire,
que sa moyenne est belle et bien égale à p et ensuite connaître sa variance V(f n).
9
Notre population comprend des individus A (lampes défectueuses) en
proportion p=0,1 et des individus Ā (lampes non défectueuses) en proportion
q=1-p =0,9. L’échantillon tiré peut aussi contenir des lampes défectueuses ou
non défectueuses.
Soit X la variable aléatoire désignant le nombre des individus A dans
l’échantillon. X(Ω) = {0,1,2,3, …..n}. C’est-à-dire que dans un échantillon (de taille
n) le nombre de lampes défectueuses peut être 0 ou 1 ou 2…. avec un maximum
de n. Pour chaque possibilité, il y a une probabilité donnée. C’est ce qui définit
une variable aléatoire (en plus de la condition que la somme des probabilités est
égale à 1).
Dans le ca d’un tirage avec remise dans la production, X suivra une loi
binomiale ℬ (𝑛𝑝, 𝑛𝑝𝑞) avec E(X) = np et V(X) = npq. Dans le cas d’un tirage sans
remise X suivra une loi hypergéométrique ℋ (𝑁, 𝑛, 𝑝) avec E(X) = np et V(X) =
𝑁−𝑛
𝑛𝑝𝑞 .
𝑁−1
𝑋
Soit maintenant fn = la fréquence des individus A dans l’échantillon. f n est une
𝑛
belle et bien une variable aléatoire. Dans le cas d’un tirage avec remise, f n suit
𝑝𝑞 𝑋 𝑛𝑝 𝑋 1
une loi binomiale ℬ (𝑝, ) avec E (fn) = E( ) = = p et V(fn) = V( ) = V(X) =
𝑛 𝑛 𝑛 𝑛 𝑛²
𝑛𝑝𝑞 𝑝𝑞
= . Dans le cas d’un tirage sans remise, f n suit une loi hypergéométrique
𝑛² 𝑛
𝑋 𝑛𝑝 1 𝑛𝑝𝑞 𝑁−𝑛 𝑝𝑞 𝑁−𝑛
ℋ (𝑁, 𝑛, 𝑝) avec E (fn) = E( ) = = p et V (fn)= V(X) = = .
𝑛 𝑛 𝑛² 𝑛² 𝑁−1 𝑛 𝑁−1
Ainsi, notre fréquence d’échantillon f n est une variable aléatoire qui a pour
espérance p et sa variance dépend du mode de tirage de cet échantillon.
𝑉(𝑓𝑛 )
Dans ce cas, on peut appliquer l’I.B.T : 𝑃 (|𝑓𝑛 − 𝑝| ≤ 0,05) ≥ 1 −
0,05²
Dans le cas d’un tirage avec remise, c’est-à-dire qui n’exclue pas la possibilité de
0,1.0,9
répéter des éléments tirés, 𝑃(|𝑓𝑛 − 𝑝| ≤ 0,05) ≥ 1 − = 0,928.
500.0,05²
Dans le cas d’un tirage sans remise, c’est-à-dire qui exclue toute possibilité de
0,1.0,9 10.000−500
répéter des éléments tirés, 𝑃(|𝑓𝑛 − 𝑝| ≤ 0,05) ≥ 1 − 2
=
500.0,05 10.000−1
0,9316. On a fait un effort de plus pour ne pas répéter les éléments, ce qui a
donné une probabilité plus élevée par rapport au tirage avec remise. Mais, la
différence entre les deux tirages n’est pas importante du moment où on prend
un échantillon parmi une population très grande. Il faut rappeler aussi que la loi
hypergéométrique tend vers la loi binomiale lorsque le facteur d’exhaustivité
𝑁−𝑛
tend vers 1. Dans la pratique, un tirage sans remise peut être assimilé à un
𝑁−1
𝑛
tirage avec remise lorsque le taux de sondage est inférieur à 0,1.
𝑁
10
En général, on peut remarquer que la variance de f n dépend de n. Plus n est
grand, plus la variance est petite et plus les chances sont grandes qu’on ne
s’écarte pas trop de la vraie proportion p dans la population.
Exemple 3
Une machine fabrique des disques pleins en grande quantité. Soit X la variable
aléatoire qui, à chaque disque tiré au hasard, associe son diamètre en millimètre,
avec E(X) = m= 10 mm et 𝜎 = 1 mm. Soi𝑡 𝑋̅ la variable aléatoire qui, à chaque
échantillon aléatoire tiré (avec remise 3) de taille n = 49, associe la moyenne des
diamètres des disques de cet échantillon. Quelle est la probabilité que la
moyenne d’échantillon 𝑋̅ ne s’écarte pas trop de la moyenne de la population m
de plus de 0,28 mm ?
Réponse :
La probabilité demandée est 𝑃(|𝑋̅ − 𝑚| ≤ 0,28) et la réponse est donnée par
𝑉(𝑋̅)
l’I.B.T. Soit : 𝑃(|𝑋̅ − 𝑚| ≤ 0,28) ≥ 1 − .
0,28²
On sait que 𝑋̅ est une variable aléatoire (varie d’un échantillon à l’autre, de
même taille n). Mais, on doit s’assurer que m est son espérance et calculer sa
variance.
Notons les diamètres des disques de l’échantillon par X 1, X2, X3, …., Xn. En fait, il
s’agit de n variables aléatoires indépendantes (chaque disque est produit en
général indépendamment de l’autre même si on en a une grande quantité). Ces
n variables aléatoires suivent cependant une même loi quelconque (ils sont
produits par la même machine) qui a pour espérance m (la moyenne de chaque
Xi est la moyenne de la population) et pour écart-type 𝜎.
X1+ X2+ X3+,….+ Xn
Leur moyenne 𝑋̅ = est une variable aléatoire qui a pour
𝑛
𝜎²
espérance mathématique m et écart-type .
𝑛
X1+ X2+ X3+,….+ Xn 1
En effet, E(𝑋̅) = 𝐸( )= [E(X1) + E(X2) + E(X3) + ….+ E(Xn)] =
𝑛 𝑛
1 𝑛.𝑚
[m + m + m + ….+ m]= = m.
𝑛 𝑛
X1+ X2+ X3+,….+ Xn 1
De même, V(𝑋̅) = 𝑉 ( )= [V(X1) + V(X2) + V(X3) + ….+ V(Xn)] =
𝑛 𝑛²
1 𝑛.𝜎² 𝜎²
[𝜎²+ 𝜎² + 𝜎² ….+ 𝜎²]= = .
𝑛² 𝑛² 𝑛
3
Le tirage à la base est avec remise, c’est-à-dire que malgré les efforts on n’exclue pas la possibilité de répéter
parfois des éléments. Si le tirage est dit sans remise, c’est que nous avons adopté une méthode rigoureuse
permettant de ne répéter aucun élément.
11
Ainsi, la moyenne d’échantillon 𝑋̅ est une variable aléatoire qui a pour espérance
1²
m et écart-type .
49
1²
Ce qui donne : 𝑃(|𝑋̅ − 𝑚| ≤ 0,28) ≥ 1 − = 0,73968.
49.0,28²
12
Dans le cas d’un tirage sans remise, f n suit une loi hypergéométrique
𝑝𝑞 𝑁−𝑛 𝑝𝑞 𝑁−𝑛 1
ℋ (𝑁, 𝑛, 𝑝) et V (fn)= . Ce qui donne, 𝛼 = et donc, après
𝑛 𝑁−1 𝑛 𝑁−1 𝑡²
𝑝𝑞 𝑁
développement, on trouve n = .
𝛼(𝑁−1)𝑡 2 +𝑝𝑞
13
Ainsi, dans le cas (général) d’un tirage avec remise, la taille d’échantillon à
𝜎² 𝜎²𝑁
prendre est n = et dans le cas d’un tirage sans remise n = .
𝛼𝑡² 𝜎2 +𝛼𝑡 2 (𝑁−1)
𝜎 est l’écart-type de la variable étudiée dans la population. Il est bien sûr inconnu
actuellement.
Si la valeur de 𝜎 n’est pas donnée à partir d’une étude similaire récente et
sérieuse, on a deux solutions. Soit, on calcule l’écart-type de la variable X étudiée
dans un échantillon test d’une taille au moins égale à 30 individus. Soit, on prend
𝐸𝑡𝑒𝑛𝑑𝑢𝑒 𝑋max − 𝑋𝑚𝑖𝑛
comme estimation de 𝜎 la valeur 𝜎 ′ = = . C’est-à-dire, qu’on
6 6
doit avoir une idée sur la valeur maximale possible de X dans la population (X max)
et sa valeur minimale possible (Xmin).
3- Détermination de la taille d’échantillon avec la loi normale
On applique la loi normale quand certaines conditions sont réunies ou bien
lorsqu’on déclare que la variable étudiée suit une loi normale (voir encadré 1 en
haut sur le comportement normal d’une distribution). Là aussi, on va déterminer
la taille d’échantillon suivant le paramètre qu’on cherche à estimer dans la
population (une fréquence ou une moyenne).
3.1. Le cas d’une fréquence
Lorsque nous avons les conditions suivantes : n≥30, np≥5 et nq≥5, la fréquence
des individus A (présentant le caractère étudié) observée sur l’échantillon 𝑓𝑛 (qui
est une variable binomiale) suivra approximativement la loi normale N.
𝑝𝑞 𝑝𝑞
On écrit : 𝑓𝑛 ~ ℬ (𝑝, ) ≈ 𝑁 (𝑝, ). Rappelons que q=1-p.
𝑛 𝑛
14
𝑡 𝑓𝑛 −𝑝 𝑡
𝑃 (−𝑡 ≤ 𝑓𝑛 − 𝑝 ≤ 𝑡) = 1 − 𝛼 ⇒ 𝑃 (− 𝑝𝑞
≤ 𝑝𝑞
≤ )= 1−𝛼
𝑝𝑞
𝑞𝑢𝑒 √ √ √
𝑛 𝑛 𝑛
𝑡
⇒ 𝑃(−𝜆 ≤ 𝑇 ≤ 𝜆) = 1 − 𝛼, avec 𝜆 = 𝑝𝑞
et 𝑇 ∼ 𝑁(0,1).
𝑞𝑢𝑒 √𝑛
Nous sommes passés d’une variable normale 𝑓𝑛 à une variable normale centrée
réduite T en faisant la soustraction par rapport à sa moyenne et en divisant par
son écart-type.
Or, 𝑃(−𝜆 ≤ 𝑇 ≤ 𝜆) = 𝑃(𝑇 ≤ 𝜆) − 𝑃 (𝑇 ≤ −𝜆) = 𝜋 (𝜆) − 𝜋 (– 𝜆) = 𝜋 (𝜆) −
(1 − 𝜋 (𝜆)) = 2𝜋 (𝜆) − 1.
𝜆 représente donc le seuil de probabilité de la loi normale centrée réduite, c’est-
à-dire, c’est la valeur sur la table de la loi normale centrée réduite (voir encadré
𝛼
2 au-dessous) pour la quelle : 𝜋(𝜆) = 1 − .
2
15
tirage sans remise. La seule différence que nous aurons c’est la valeur de l’écart-
𝑝𝑞 𝑁−𝑛
type par laquelle nous divisons. L’écart-type de 𝑓𝑛 est maintenant√ . .
𝑛 𝑁−1
𝑡 𝜆²𝑝𝑞𝑁
Ainsi, = , ce qui donne après le développement, n = .
√
𝑝𝑞 𝑁−𝑛 𝜆2 𝑝𝑞+𝑡²(𝑁−1)
.
𝑛 𝑁−1
Ce qui reste à savoir dans ce cas c’est aussi la valeur de la taille de la population
N.
3.2. Le cas d’une moyenne
Soient X1, X2, X3, …., Xn n variables aléatoires indépendantes suivant une même
loi normale 𝑁 (𝑚, 𝜎 2 ). Leur moyenne empirique 𝑋̅ (de l’échantillon prélevé)
𝜎²
suivra aussi une loi normale : 𝑋̅~𝑁 (𝑚, ). Elle a pour espérance m (la moyenne
𝑛
𝜎² X1+ X2+ X3+,….+ Xn
dans la population) et pour variance . Rappelons que 𝑋̅ = .
𝑛 𝑛
La détermination de la taille d’échantillon revient à résoudre l’équation
suivante : 𝑃 (|𝑋̅ − 𝑚| ≤ 𝑡) = 1 − 𝛼 ou bien 𝑃 (−𝑡 ≤ 𝑋̅ − 𝑚 ≤ 𝑡) = 1 − 𝛼.
𝑡 𝑋̅ − 𝑚 𝑡
⇒ 𝑃 (− 𝜎 ≤ 𝜎 ≤ 𝜎 ) = 1 − 𝛼
𝑞𝑢𝑒
√𝑛 √𝑛 √𝑛
𝑡
⇒ 𝑃(−𝜆 ≤ 𝑇 ≤ 𝜆) = 1 − 𝛼, avec 𝜆 = 𝜎 et 𝑇 ∼ 𝑁(0,1).
𝑞𝑢𝑒 √𝑛
𝛼
Cela donne que 𝜋(𝜆) = 1 − comme dans le cas de la détermination de la taille
2
d’échantillon dans le cas de la fréquence.
Après avoir déterminé 𝜆 sur la table de la loi normale centrée réduite selon la
valeur de 𝛼, on détermine la taille de l’échantillon avec l’équation :
𝑡 𝜆2 .𝜎²
𝜆= 𝜎 ⇒ 𝑛= . C’est la taille de l’échantillon dans le cas (général) d’un
𝑞𝑢𝑒 𝑡²
√𝑛
tirage avec remise.
Dans le cas d’un tirage sans remise ou exhaustif, la variance de 𝑋̅ se trouve
𝑁−𝑛
multipliée par le facteur d’exhaustivité et son écart-type se trouve multiplié
𝑁−1
𝑁−𝑛 𝑡 𝜆2 𝜎²𝑁
par √ . On aura ainsi, 𝜆 = . Ce qui implique que 𝑛 = .
𝑁−1 𝜎 𝑁−𝑛 𝜆2 𝜎2 + 𝑡²(𝑁−1)
.√
√𝑛 𝑁−1
16
Dans les deux cas de tirage, on doit avoir une estimation de la valeur de 𝜎 ou
l’écart-type de la variable étudiée dans la population. S’il n’y a pas d’indication
sur ce dernier, on suivra la même démarche décrite dans le cas de la
détermination de la taille d’échantillon avec l’I.B.T.
Dans le cas du tirage sans remise seulement, on doit savoir aussi N.
4- Tableau récapitulatif des tailles d’échantillon
Nous allons rassembler dans le tableau 1 ci-après l’ensemble des tailles
d’échantillon que nous avons calculées selon la règle de l’I.B.T. ou avec la loi
normale, le mode de tirage et l’objectif de l’échantillonnage.
Tableau1 : Les tailles d’échantillon
Taille Inégalité Bienaymé Tchebychev Loi normale
d’échantillon
n Tirage avec Tirage sans Tirage avec Tirage sans
remise remise remise remise
Fréquence 𝑓𝑛 𝑝𝑞 𝑝𝑞 𝑁 2
𝜆 . 𝑝𝑞 𝜆²𝑝𝑞𝑁
𝛼𝑡² 𝛼𝑡 2 (𝑁 − 1) + 𝑝𝑞 𝑡² 𝑡²(𝑁 − 1)+𝜆2 𝑝𝑞
Moyenne 𝑋̅ 𝜎² 𝜎²𝑁 𝜆2 . 𝜎² 𝜆2 𝜎²𝑁
𝛼𝑡² 𝛼𝑡 2 (𝑁 − 1) + 𝜎 2 𝑡² 𝑡²(𝑁 − 1) + 𝜆2 𝜎 2
N : la taille de la population, p : la proportion du phénomène dans la population (q=1-p), 𝛼: le niveau de risque,
t : la marge d’erreur acceptée, 𝜎 : l’écart-type de la variable étudiée dans la population, 𝜆 : le seuil de probabilité
α
tel que π(λ) = 1 − 2 .
17
5. Quelle est la taille d’échantillon pour que 𝑓𝑛 ne s’écarte pas de p de plus
de 5% avec une probabilité au moins égale à 90% sachant qu’on n’a pas
d’indication sur p et que le tirage est non exhaustif ?
6. Quelle est cette même taille d’échantillon si on suppose cette fois-ci que𝑓𝑛
suit approximativement une loi normale ?
Réponse :
1. Soit X le nombre de noix défectueux dans un échantillon de taille n.
X varie de 0 à n et pour chacune de ces valeurs, il y a une probabilité donnée. X
est une variable aléatoire. On écrit l’ensemble des valeurs de X comme suit : X(Ω)
= {0, 1, 2, …., n}.
𝑋
fn = est la fréquence de noix défectueux dans un échantillon de taille n. fn est
𝑛
0 1 2 𝑛
aussi une variable aléatoire avec fn (Ω) = { , , , …., }.
𝑛 𝑛 𝑛 𝑛
𝑝𝑞
Dans le cas d’un tirage avec remise, X ~ℬ (𝑛𝑝, 𝑛𝑝𝑞) et fn ~ ℬ (𝑝, ) avec p =
𝑛
0,1 et q = 0,9.
Dans le cas d’un tirage sans remise, X ~𝐻 (𝑁, 𝑛, 𝑝) et fn ~ ~𝐻 (𝑁, 𝑛, 𝑝) avec N =
10.000.
𝑝𝑞 0,1.0,9 0,09
2. Dans le cas d’un tirage avec remise, V(fn)= = = .
𝑛 𝑛 𝑛
𝑝𝑞 𝑁−𝑛 0,09 10000−𝑛
Dans le cas d’un tirage sans remise, V(fn) = = .
𝑛 𝑁−1 𝑛 9999
18
𝑉(𝑓𝑛 ) 𝑉(𝑓𝑛 ) 𝑝𝑞 𝑁−𝑛 1
𝑃 (|𝑓𝑛 − 0,1| ≤ 0,05) ≥ 1 − . Donc, 𝛼 = 0,1 = = .
0,05² 0,05² 𝑛 𝑁−1 0,05²
Enfin, la taille d’échantillon minimale dans ce cas est 348 noix. Parce que si on
prend n = 347, on n’aura pas le niveau de confiance voulu.
𝑝𝑞 0,1.0,9
5. Le tirage est cette fois-ci avec remise, donc n = = = 360 noix.
𝛼𝑡² 0,1.0,05²
La taille minimale est un peu plus élevée que dans le cas d’un tirage exhaustif
(choisi avec un effort de plus).
𝑝𝑞
6. 𝑓𝑛 ≈ 𝑁 (𝑝, ).
𝑛
Puisqu’il n’y a pas d’indication sur le mode de tirage, on va le considérer comme
non exhaustif (avec remise). Parce que, en général, on peut faire quelques
répétitions malgré les efforts.
La taille d’échantillon demandée est celle pour estimer une fréquence, dans le
𝜆2 . 𝑝𝑞
cas de la loi normale et pour un tirage avec remise. Donc, n= , avec 𝜋(𝜆) =
𝑡²
𝛼
1 − = 0,95. Dans la table de la loi normale centrée réduite, 𝜆 est la valeur
2
intermédiaire entre 1,64 et 1,65 exactement au milieu, donc 𝜆 = 1,645.
1,6452 . 0,1.0,9
Ainsi, n = = 97,42. La taille d’échantillon minimale est 98 noix.
0,05²
Dans le cas d’un tirage sans remise, on va trouver que n= 96,48, ce qui veut dire
que la taille minimale d’échantillon est de 97 noix. Ce qui est très proche de la
taille d’échantillon pris avec remise. Ce n’est pas surprenant puisque la taille de
la population N= 10.000 est très grande par rapport à la taille de l’échantillon.
Remarque :
D’autres applications économiques intéressantes sont disponibles dans les séries
d’exercices corrigés attachées à ce cours.
19
20