Chapitre I Introduction A La Statistique - Par Dms
Chapitre I Introduction A La Statistique - Par Dms
Chapitre I Introduction A La Statistique - Par Dms
Module
Mathématique, statistique
et informatique
1.1 2. Population
En statistique, on appelle population un ensemble d’éléments caractérisés par un critère qui
permet de les identifier sans ambiguïté. Chacun des éléments est appelé individu. Ces
appellations sont liées aux origines démographiques de la statistique. On parlera, par exemple,
de la population des pièces usinées sur une machine pendant telle période en s’intéressant, non
pas aux individus en tant que tels, mais à une ou plusieurs de leurs caractéristiques.
Définition 2. On appelle population l’ensemble sur lequel porte notre étude statistique. Cet
ensemble est noté Ω.
La notion de population n’est pas toujours très facile à définir précisément. Si on considère,
par exemple, la production journalière d’une machine, on peut, a priori, parler de la population
des pièces produites. Mais, au cours de la journée, la machine a pu se dérégler, un technicien a
peut-être procédé à un réglage, etc. Il n’est donc pas évident que l’ensemble de la production
journalière constitue une population unique et bien homogène.
Un autre type de difficulté peut se présenter pour définir la population. Supposons par
exemple, que la variable étudiée soit la résistance du béton dans un barrage. L’individu, c’est-à-
dire l’élément sur lequel on effectue la mesure, est une éprouvette découpée et usinée suivant
un standard. Pour définir la population, il faut alors se référer à l’ensemble infini de toutes les
éprouvettes susceptibles d’être réalisées dans les mêmes conditions à partir des coulées
étudiées.
1.1.3. Individu (unité statistique)
Une population est composée d’individus. Les individus qui composent une population
statistique sont appelés unités statistiques.
Définition 3. On appelle individu tout élément de la population Ω, il est noté ω (ω dans Ω).
1.1.5 Modalités
Les modalités d’une variable statistique sont les différentes valeurs que peut prendre
celle-ci.
1. 3. Echantillon
Une partie essentielle de la statistique consiste à porter des jugements sur une population à
partir d’échantillons ; c’est ce qu’on appelle l’inférence statistique . Un échantillon est un
ensemble d’individus prélevés, suivant un procédé bien défini, dans l’ensemble plus important
constitué par la population. Le nombre d’individus prélevés, souvent noté N, s’appelle la taille de
l’échantillon.
Toutes les statistiques établies sur les échantillons impliqueront que ces derniers sont
représentatifs de la population dont ils proviennent. C’est le cas s’ils ont été prélevés au hasard,
tous les individus de la population ayant la même probabilité de faire partie de l’échantillon
prélevé. En pratique, l’obtention d’échantillons au hasard présente certaines difficultés qui
peuvent être levées si l’on peutnuméroter chaque individu de la population et qu’on utilise une
table de nombres au hasard. Dans toute la suite, nous admettrons que les échantillons sont
prélevés de façon non exhaustive ou bien que la taille de la population est suffisamment
importante devant celle de l’échantillon pour que l’on puisse se ramener à ce cas.
Nous désignerons par x1, x2, …, xi, …, xn, les valeurs prises par une variable X pour chacun des
individus constituant l’échantillon ; ce que l’on appelle une série d’observations. De telles séries
peuvent être caractérisées par un certain nombre de valeurs typiques que nous allons définir.
On étudie ici un caractère statistique numérique représenté par une suite xi décrivant la
valeur du caractère avec i varie de 1 à k.
Ni = n1 + n2 + ... + ni .
L’effectif cumulé Ni d’une valeur est la somme de l’effectif de cette valeur et de tous les
effectifs des valeurs qui précèdent.
Typiquement les effectifs ni sont grands et il est intéressant de calculer des grandeurs
permettant de résumer la série.
fi s’appelle la fréquence partielle de xi. La fréquence d’une valeur est le rapport de l’effectif de
cette valeur par l’effectif total.
fi = ni / N
On peut remplacer fi par fi × 100 qui représente alors un pourcentage. Interprétation : fi = est
le pourcentage des ω tel que X(ω) = xi .
Démonstration.
Tuyaux d’orgues
Nous portons en abscisses les modalités, de façon arbitraire. Nous portons en ordonnées des
rectangles dont la longueur est proportionnelle aux effectifs, ou aux fréquences, de chaque
modalité
Le degré d’un secteur est déterminé à l’aide de la règle de trois de la manière suivante :
N −→ 360◦
On veut représenter cette répartition sous la forme d’un diagramme en bâtons. À chaque
marque correspond un bâton. Les hauteurs des bâtons sont proportionnelles aux effectifs
représentés
Nous avons déjà abordé les distributions cumulées d’une variable statistique. Nous allons
dans cette partie exploiter ses valeurs cumulées pour introduire la notion de la fonction de
répartition. Cette notion ne concerne que les variables quantitatives
Soit la fonction Fx : R → [0, 1] définie par Fx(x) := pourcentage des individus dont la valeur du
caractère est ≤ x. Cette fonction s’appelle la fonction de répartition du caractère X.
On appelle caractéristique de tendance centrale, une fonction des observations dont la valeur
est comprise entre les valeurs extrêmes de la série et qui donne une mesure du milieu ou du
centre de l’ensemble des observations
Le mode
Le mode d’une V.S est la valeur qui a le plus grand effectif partiel (ou la plus grande fréquence
partielle) et il est dénoté par M0
La moyenne
La médiane
Une caractéristique de tendance centrale plus robuste est la médiane dont les propriétés
théoriques sont par contre plus compliquées à manipuler que pour la moyenne. Lorsqu’on a
classé les observations dans l’ordre des grandeurs croissantes, la médiane est la valeur de
l’observation qui se trouve au rang (n+1)/2 , si n est impair. Si n est pair (n = 2 p), c’est le milieu de
l’intervalle [xp, xp+1].
On dit que la variance est la moyenne des carrés des écarts à la moyenne x ̅. Les « écarts à la
moyenne » sont les (x−xi), les « carrés des écarts à la moyenne » sont donc les (x−xi) 2 . En faisant
la moyenne de ces écarts, on trouve la variance.
Le théorème suivant (Théorème de König-Huygens) donne une identité remarquable reliant la
variance et la moyenne, parfois plus pratique dans le calcul de la variance.
Par égalité
Ce qui implique que
Remarque :
Le paramètre σx mesure la distance moyenne entre 𝑥̅ et les valeurs de X (voir Figure). Il sert à
mesurer la dispersion d’une série statistique autour de sa moyenne. – Plus il est petit, plus les
caractères sont concentrés autour de la moyenne (on dit que la série est homogène). – Plus il est
grand, plus les caractères sont dispersés autour de la moyenne (on dit que la série est
hétérogène).
Exercice :
Une étude de la répartition des groupes sanguin de 50 des étudiants de la section A et B de la
première année snv de l’université de Tipaza a donné les résultats suivants :
Groupe sanguin O A B AB
Ni Section A 18 15 12 n4
Ni Section B 15 24 8 n4
Section A Section B
30
25
20
15
10
5
0
O A B AB
Tyaux d’orgue
Section A Section B
O 10% 6%
16% 30%
A 36%
24%
B
AB 30% 48%
Diagramme en secteur
Nous rappelons maintenant la définition de l’étendu. De plus, dans le cas continue nous
parlons aussi du pas ou de la longueur de la classe.
Définition 9
La quantité ni := Card{w ∈ Ω : X(w) ∈ Ci}
Remarque :
Nous avons, comme dans le chapitre précédent, les interprétations suivantes :
– ni : est le nombre d’individus dont les valeurs des caractères sont dans la classe Ci,
– fi : est le pourcentage des w tel que X(w) ∈ Ci,
– Ni : est égale au Card{w : X(w) ∈ C1 ∪ C2 ∪ ... ∪ Ci},
La courbe de Fx est nulle avant a0, constante égale à 1 après an et joint les points (a0, 0),...
(a1, F1),...,(an, 1) par des segments de droites , voir figure
Remarque
La médiane
C’est la valeur Me telle que F(Me) = 0.5. Cette valeur est unique.
Noue pouvons la déterminer graphiquement ou par calcule.
1. Première méthode : Graphiquement
à partir de la formule
tan(α) = F(Li+1) − F(Li) Li+1 − Li = 0.5 − F(Li) Me − Li .
Plus précisément, dans la figure , nous mettons F(x) = 0.5 et x = Me.
2. Deuxième méthode :
En utilisant directement la fonction de répartition donnée par
Definition
Nous généralisons la notion de la médiane dans la définition suivante.
Exemple
Pour i = 2, Q2
tel que F(Q2) = 2/4 = 0.5.
Donc, Q2 = Me.
La détermination ou le calcul de Qi se fait exactement comme le calcul de la médiane
(graphiquement ou analytiquement)
Interprétation :
Il y a 25 % d’individus dont la valeur du caractère est dans l’intervalle [a0, Q1]. De même pour
les autres quartiles. Ces intervalles s’appellent "intervalles interquartiles"