Chapitre I Introduction A La Statistique - Par Dms

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 22

RÉPUBLIQUE ALGÉRIENNE DÉMOCRATIQUE ET POPULAIRE Ministère

de l’Enseignement Supérieur et de la Recherche Scientifique


Centre universitaire Morsli Abdellah

Socle Commun L1 Sciences de la Nature et de la vie

Module
Mathématique, statistique
et informatique

Année universitaire 2023-2024


I. Statistique descriptive
Introduction
Le cours a pour but d’initier les étudiants aux principes de base de la statistique.
Le cours vise principalement à introduire et faire méditer les concepts fondamentaux et
méthodes élémentaires de la statistique pour permettre un apprentissage autonome ultérieur
de méthodes complémentaires.
On veut développer le sens critique nécessaire lors de la mise en œuvre et de
l’interprétation d’un traitement statistique. Pour cela, on introduira et utilisera un cadre
mathématique rigoureux. Nous fournirons autant d’exemples et de figures nécessaires afin
d’obtenir.une meilleure compréhension du cours.
La statistique descriptive a pour but d’étudier un phénomène à partir de données. Cette
description se fait à travers la présentation des données (la plus synthétique possible), leur
représentation graphique et le calcul de résumés numériques.

La statistique est l’étude de la collecte de données, leur analyse, leur traitement,


l’interprétation des résultats et leur présentation afin de rendre les données compréhensibles
par tous. C’est à la fois une science, une méthode et un ensemble de techniques.
L’analyse des données est utilisée pour d’écrire les phénomènes étudiés, faire des prévisions
et prendre des décisions à leur sujet. En cela, la statistique est un outil essentiel pour la
compréhension et la gestion des phénomènes complexes.
Les données étudiées peuvent être de toute nature, ce qui rend la statistique utile
dans tous les champs disciplinaires et explique pourquoi elle est enseignée dans toutes les
filières universitaires, de l’économie à la biologie en passant par la psychologie et bien sûr
les sciences de l’ingénieur. La statistique consiste à :
• Recueillir des données.
• Présenter et résumer ces données.
• Tirer des conclusions sur la population étudiée et d’aider à la prise de décision.
• En présence de données dépendant du temps, nous essayons de faire de la prévision.
Symboles et Notations
1. Généralités sur la statistique
1.1 Vocabulaire
Les statistiques consistent en diverses méthodes de classement des données tels que les
tableaux, les histogrammes et les graphiques, permettant d’organiser un grand nombre de
données. Les statistiques se sont développées dans la deuxième moitié du XIXe siècle dans
le domaine des sciences humaines (sociologie, économie, anthropologie, ...). Elles se sont
dotées d’un vocabulaire particulier.

1.1.1 Épreuve statistique


Les statistiques descriptives visent à étudier les caractéristiques d’un ensemble
d’observations comme les mesures obtenues lors d’une expérience. L’expérience est l’étape
préliminaire à toute étude statistique. Il s’agit de prendre "contact" avec les observations. De
manière générale, la méthode statistique est basée sur le concept suivant.

Définition 1. L’épreuve statistique est une expérience que l’on provoque.

1.1 2. Population
En statistique, on appelle population un ensemble d’éléments caractérisés par un critère qui
permet de les identifier sans ambiguïté. Chacun des éléments est appelé individu. Ces
appellations sont liées aux origines démographiques de la statistique. On parlera, par exemple,
de la population des pièces usinées sur une machine pendant telle période en s’intéressant, non
pas aux individus en tant que tels, mais à une ou plusieurs de leurs caractéristiques.

Définition 2. On appelle population l’ensemble sur lequel porte notre étude statistique. Cet
ensemble est noté Ω.

La notion de population n’est pas toujours très facile à définir précisément. Si on considère,
par exemple, la production journalière d’une machine, on peut, a priori, parler de la population
des pièces produites. Mais, au cours de la journée, la machine a pu se dérégler, un technicien a
peut-être procédé à un réglage, etc. Il n’est donc pas évident que l’ensemble de la production
journalière constitue une population unique et bien homogène.

Un autre type de difficulté peut se présenter pour définir la population. Supposons par
exemple, que la variable étudiée soit la résistance du béton dans un barrage. L’individu, c’est-à-
dire l’élément sur lequel on effectue la mesure, est une éprouvette découpée et usinée suivant
un standard. Pour définir la population, il faut alors se référer à l’ensemble infini de toutes les
éprouvettes susceptibles d’être réalisées dans les mêmes conditions à partir des coulées
étudiées.
1.1.3. Individu (unité statistique)

Une population est composée d’individus. Les individus qui composent une population
statistique sont appelés unités statistiques.

Définition 3. On appelle individu tout élément de la population Ω, il est noté ω (ω dans Ω).

1.1.4. Caractère (variable statistique)


La statistique « descriptive », comme son nom l’indique cherche à décrire une population
donnée. Nous nous intéressons au caractéristique des unités qui peuvent prendre
différentes valeurs.

Définition 4. On appelle caractère (ou variable statistique) toute application


X : Ω → C.
L’ensemble C est dit : ensemble des valeurs du caractère X
(c’est ce qui est mesuré ou observé sur les individus)

1.1.5 Modalités
Les modalités d’une variable statistique sont les différentes valeurs que peut prendre
celle-ci.

1.2. Types des caractères


Chacune des caractéristiques sur laquelle on décide de faire porter l’observation est
appelée variable (ou caractère). Il importe de faire ici une distinction entre deux types de
variables et par conséquent, deux catégories de populations :

Fig. Catégories de variables

1. 3. Echantillon
Une partie essentielle de la statistique consiste à porter des jugements sur une population à
partir d’échantillons ; c’est ce qu’on appelle l’inférence statistique . Un échantillon est un
ensemble d’individus prélevés, suivant un procédé bien défini, dans l’ensemble plus important
constitué par la population. Le nombre d’individus prélevés, souvent noté N, s’appelle la taille de
l’échantillon.
Toutes les statistiques établies sur les échantillons impliqueront que ces derniers sont
représentatifs de la population dont ils proviennent. C’est le cas s’ils ont été prélevés au hasard,
tous les individus de la population ayant la même probabilité de faire partie de l’échantillon
prélevé. En pratique, l’obtention d’échantillons au hasard présente certaines difficultés qui
peuvent être levées si l’on peutnuméroter chaque individu de la population et qu’on utilise une
table de nombres au hasard. Dans toute la suite, nous admettrons que les échantillons sont
prélevés de façon non exhaustive ou bien que la taille de la population est suffisamment
importante devant celle de l’échantillon pour que l’on puisse se ramener à ce cas.

2.Étude d’une variable statistique discrète

Dans toute la suite du chapitre, nous considérons la situation suivante :

X : Ω → {x1, x2, ..., xn}

Nous désignerons par x1, x2, …, xi, …, xn, les valeurs prises par une variable X pour chacun des
individus constituant l’échantillon ; ce que l’on appelle une série d’observations. De telles séries
peuvent être caractérisées par un certain nombre de valeurs typiques que nous allons définir.

2.1 Effectif partiel - effectif cumulé

2.1.1 Effectif partiel (fréquence absolue)

On étudie ici un caractère statistique numérique représenté par une suite xi décrivant la
valeur du caractère avec i varie de 1 à k.

Fig: Le nombre d’individus qui prennent la valeur xi .

2.1.2 Effectif cumulé

Définition 5. Pour chaque valeur xi, on pose par définition

Ni = n1 + n2 + ... + ni .

L’effectif cumulé Ni d’une valeur est la somme de l’effectif de cette valeur et de tous les
effectifs des valeurs qui précèdent.

Fréquence partielle - Fréquence cumulée

Typiquement les effectifs ni sont grands et il est intéressant de calculer des grandeurs
permettant de résumer la série.

2.2.1 Fréquence partielle (fréquence relative)

fi s’appelle la fréquence partielle de xi. La fréquence d’une valeur est le rapport de l’effectif de
cette valeur par l’effectif total.

Définition 6 Pour chaque valeur xi, on pose par définition

fi = ni / N
On peut remplacer fi par fi × 100 qui représente alors un pourcentage. Interprétation : fi = est
le pourcentage des ω tel que X(ω) = xi .
Démonstration.

Ce qui implique que

2.2.2. Fréquence cumulée


Pour chaque valeur xi, on pose par définition Fi = f1 + f2 + ... + fi .
La quantité Fi s’appelle la fréquence cumulée de xi.
Fi = est le pourcentage des ω tel que la valeur X(ω) est inférieure ou égale à xi .

2.3 Représentation graphique des séries statistiques


On distingue les méthodes de représentation d’une variable statistique en fonction de la
nature de cette variable (qualitative ou quantitative). Les représentations recommandées et les
plus fréquentes sont les tableaux et les diagrammes (graphe).
Le graphique est un support visuel qui permet :
La synthèse : visualiser d’un seul coup d’œil les principales caractéristiques (mais on perd une
quantité d’informations),

• La découverte : met en évidence les tendances.


• Le contrôle : on aperçoit mieux les anomalies sur un graphique que dans un tableau.
• La recherche des régularités : régularité dans le mouvement, répétition du phénomène.
2.3.1 Distribution à caractère qualitatif
A partir de l’observation d’une variable qualitative, deux diagrammes permettent de représenter
cette variable : le diagramme en bandes (dit tuyaux d’orgue) et le diagramme à secteurs
angulaires (dit camembert).

Tuyaux d’orgues
Nous portons en abscisses les modalités, de façon arbitraire. Nous portons en ordonnées des
rectangles dont la longueur est proportionnelle aux effectifs, ou aux fréquences, de chaque
modalité

Diagramme par secteur (diagramme circulaire)

Les diagrammes circulaires, ou semi-circulaires, consistent à partager un disque ou un demi-


disque, en tranches, ou secteurs, correspondant aux modalités observées et dont la surface est
proportionnelle à l’effectif, ou à la fréquence, de la modalité

Le degré d’un secteur est déterminé à l’aide de la règle de trois de la manière suivante :

N −→ 360◦

ni −→ di (degré de la modalité i).

2.3.2 Distribution à caractère quantitatif discret

A partir de l’observation d’une variable quantitative discrète, deux diagrammes permettent


de représenter cette variable : le diagramme en bâtons et le diagramme cumulatif
Diagramme à bâtons

On veut représenter cette répartition sous la forme d’un diagramme en bâtons. À chaque
marque correspond un bâton. Les hauteurs des bâtons sont proportionnelles aux effectifs
représentés

2.3.3 Représentation sous forme de courbe et fonction de répartition

Nous avons déjà abordé les distributions cumulées d’une variable statistique. Nous allons
dans cette partie exploiter ses valeurs cumulées pour introduire la notion de la fonction de
répartition. Cette notion ne concerne que les variables quantitatives

Soit la fonction Fx : R → [0, 1] définie par Fx(x) := pourcentage des individus dont la valeur du
caractère est ≤ x. Cette fonction s’appelle la fonction de répartition du caractère X.

Figure : Représentation d’une variable quantitative discrète par la courbe cumulative.


2.4 Paramètres de position (caractéristique de tendance centrale)

On appelle caractéristique de tendance centrale, une fonction des observations dont la valeur
est comprise entre les valeurs extrêmes de la série et qui donne une mesure du milieu ou du
centre de l’ensemble des observations

Les indicateurs statistiques de tendance centrale (dits aussi de position) considérés


fréquemment sont la moyenne, la médiane et le mode.

Le mode

Le mode d’une V.S est la valeur qui a le plus grand effectif partiel (ou la plus grande fréquence
partielle) et il est dénoté par M0

La moyenne

La plus couramment utilisée est la moyenne arithmétique m :

souvent notée aussi 𝑥̅


qui est très facile à calculer et possède d’importantes propriétés théoriques, par ailleurs assez
faciles à établir. Toutefois, la moyenne possède l’inconvénient d’être très sensible au retrait ou à
l’ajout d’une observation « aberrante ». On dit alors que c’est une statistique peu robuste
avec N = Card(Ω). On peut donc exprimer et calculer la moyenne dite "arithmétique" avec des
effectifs ou avec des fréquences.

La médiane
Une caractéristique de tendance centrale plus robuste est la médiane dont les propriétés
théoriques sont par contre plus compliquées à manipuler que pour la moyenne. Lorsqu’on a
classé les observations dans l’ordre des grandeurs croissantes, la médiane est la valeur de
l’observation qui se trouve au rang (n+1)/2 , si n est impair. Si n est pair (n = 2 p), c’est le milieu de
l’intervalle [xp, xp+1].

Figure.2. Polygone des effectifs cumulées


2.5 Paramètres de dispersion (variabilité)
Les indicateurs statistiques de dispersion usuels sont l’étendue, la variance et l’écart type.
L’étendue
La différence entre la plus grande valeur et la plus petite valeur du caractère, donnée par la
quantité e = xmax − xmin
s’appelle l’étendue de la V.S X. Le calcul de l’étendue est très simple. Il donne une première idée
de la dispersion des observations. C’est un indicateur très rudimentaire et il existe des
indicateurs de dispersion plus élaborés (voir ci-dessous).
La variance
On appelle variance de cette série statistique X, le nombre

On dit que la variance est la moyenne des carrés des écarts à la moyenne x ̅. Les « écarts à la
moyenne » sont les (x−xi), les « carrés des écarts à la moyenne » sont donc les (x−xi) 2 . En faisant
la moyenne de ces écarts, on trouve la variance.
Le théorème suivant (Théorème de König-Huygens) donne une identité remarquable reliant la
variance et la moyenne, parfois plus pratique dans le calcul de la variance.

Démonstration. Par définition, nous avons :


Donc,

Par égalité
Ce qui implique que

Dans l’utilisation de la formule du théorème précédent, il faut veiller à remplacer x ̅ par sa


valeur approchée la plus précise possible.
L’écart type
La quantité s’appelle l’écart type de la V.S X.

Remarque :
Le paramètre σx mesure la distance moyenne entre 𝑥̅ et les valeurs de X (voir Figure). Il sert à
mesurer la dispersion d’une série statistique autour de sa moyenne. – Plus il est petit, plus les
caractères sont concentrés autour de la moyenne (on dit que la série est homogène). – Plus il est
grand, plus les caractères sont dispersés autour de la moyenne (on dit que la série est
hétérogène).

Exercice :
Une étude de la répartition des groupes sanguin de 50 des étudiants de la section A et B de la
première année snv de l’université de Tipaza a donné les résultats suivants :

Groupe sanguin O A B AB

Ni Section A 18 15 12 n4

Ni Section B 15 24 8 n4

1. Déterminer la variable statistique et son type.


2. Déterminer l’effectif des personnes ayant un groupe sanguin AB.
3. Donner toutes les représentations graphiques possibles de cette distribution.
Solution
La population dans cette étude est les 40 personnes. Donc N = 40. La variable statistique est
le groupe sanguin des individus et elle est qualitative.

2 – L’effectif total est égal à 50. Par conséquent, 𝑁 = 50 = ∑4𝑖=1 𝑛𝑖


Ce qui implique Pour A : n4= 5
Pour B : n4 = 3
Nous avons deux représentations possibles :

Section A Section B

30
25
20
15
10
5
0
O A B AB

Tyaux d’orgue

Section A Section B

O 10% 6%
16% 30%
A 36%
24%
B
AB 30% 48%

Diagramme en secteur

3. Étude d’une variable statistique continue


Nous rappelons qu’une variable statistique (V.S) quantitative concerne une grandeur
mesurable. Ses valeurs sont des nombres exprimant une quantité et sur lesquelles les opérations
arithmétiques (addition, multiplication, etc,...) ont un sens. Nous allons dans ce chapitre se
focaliser sur la V.S quantitative continue.
3.1 Caractère continu
Définition 7. On appelle V.S continue (ou caractère continu) toute application de Ω et à
valeurs réelles et qui prend un nombre "important" de valeurs (Les caractères continus sont ceux
qui ont une infinité de modalités).
Exemple
Soit Ω l’ensemble des nouveaux nés au C.H.U d’une ville pendant les 3 premiers mois de 2017.
Nous désignons par X le poids des nouveaux nés. On suppose que xmin = 2.701 et xmax = 5.001.
Comment étudier ce caractère ?
Réponse : Partager les valeurs prises par X en classes de valeurs.
3.1.1 Classe de valeurs
Définition 8.
On appelle classe de valeurs de X un intervalle de type [a, b[ tel que X ∈ [a, b[ si et seulement
si a ≤ X(w) < b, c’est à dire, que les valeurs du caractère sont dans la classe [a, b[.
Dès qu’un caractère est identifié en tant que continu, ces modalités Ck = [Lk, Lk+1[ sont des
intervalles avec – Lk : borne inférieure. – Lk+1 : borne supérieure. – ak = Lk+1 − Lk : son
amplitude, son pas ou sa longueur. – Ck = xk = (Lk+1 + Lk)/2 : son centre.

Remarque : On supposera dans tous les cas étudiés que la


distribution à l’intérieur des classes est uniforme (voir Figure).
Cette hypothèse permet de justifier le fait qu’on choisisse le
centre des classes comme représentant.

3.1.2 Nombre de classes


En combien de classes partageons-nous les valeurs ? la réponse n’est pas unique. Soit N
l’effectif total. Nous pouvons considérer dans ce cours trois réponses à titre d’exemple.
Exemple :
Considérons 30 valeurs entre 56.5 cm et 97.8 cm. Dans ce cas, k = √ 30 et on prend k = 6.
2. Une réponse :la formule de Sturge k = 1 + 3.3 log10(N).

3. Une réponse : la formule de Yule

Nous rappelons maintenant la définition de l’étendu. De plus, dans le cas continue nous
parlons aussi du pas ou de la longueur de la classe.
Définition 9
La quantité ni := Card{w ∈ Ω : X(w) ∈ Ci}

s’appelle effectif partiel de Ci.

Remarque :
Nous avons, comme dans le chapitre précédent, les interprétations suivantes :
– ni : est le nombre d’individus dont les valeurs des caractères sont dans la classe Ci,
– fi : est le pourcentage des w tel que X(w) ∈ Ci,
– Ni : est égale au Card{w : X(w) ∈ C1 ∪ C2 ∪ ... ∪ Ci},

– Fi : est le pourcentage des w tel que X(w) ∈ C1 ∪ ... ∪ Ci .

3.2 Représentation graphique d’un caractère continu


3.2.1 Histogramme des fréquences (ou effectifs)
Nous pouvons représenter le tableau statistique par un histogramme. Nous reportons les
classes sur l’axe des abscisses et, au-dessus de chacune d’elles, nous traçons un rectangle dont
l’aire est proportionnelle à la fréquence fi (ou l’effectif ni) associée. Ce graphique est appelé
l’histogramme des fréquences
3.2.2 Fonction de répartition
Notation : Nous allons noter par Ci = [xmin = a0, xmin+1 = a1[.

La courbe de Fx est nulle avant a0, constante égale à 1 après an et joint les points (a0, 0),...
(a1, F1),...,(an, 1) par des segments de droites , voir figure

3.3 Paramètres de tendance central


On note par Ci le centre de la classe Ci et nous considérons fi la fréquence partielle de Ci .

Le mode La définition suivante permet de comprendre la démarche à suivre pour calculer le


mode d’une manière exacte et qui se trouve dans une des classes appelée "classe modale".
Représentation ou détermination graphique du mode (cas continu).

Remarque

La médiane
C’est la valeur Me telle que F(Me) = 0.5. Cette valeur est unique.
Noue pouvons la déterminer graphiquement ou par calcule.
1. Première méthode : Graphiquement
à partir de la formule
tan(α) = F(Li+1) − F(Li) Li+1 − Li = 0.5 − F(Li) Me − Li .
Plus précisément, dans la figure , nous mettons F(x) = 0.5 et x = Me.
2. Deuxième méthode :
En utilisant directement la fonction de répartition donnée par

Nous retrouvons donc

Figure : Le calcul de la médiane par extrapolation.

3.4 Paramètres de dispersion


Definition 9

Pour le calcul, on utilise (voir Chapitre 2, Théorème 1)

Definition
Nous généralisons la notion de la médiane dans la définition suivante.

Exemple
Pour i = 2, Q2
tel que F(Q2) = 2/4 = 0.5.
Donc, Q2 = Me.
La détermination ou le calcul de Qi se fait exactement comme le calcul de la médiane
(graphiquement ou analytiquement)

Interprétation :
Il y a 25 % d’individus dont la valeur du caractère est dans l’intervalle [a0, Q1]. De même pour
les autres quartiles. Ces intervalles s’appellent "intervalles interquartiles"

Figure : Les quartiles.


Exercice
- Chez un fabriquant de tubes de plastiques, on a prélevé un échantillon de 100 tubes dont on a
mesuré le diamètre en décimètre

1. Identifier la population, les individus, le caractère et son type.


2. En utilisant la méthode de Yule puis de Sturge, établir le tableau statistique (Faites débuter la
première classe par la valeur 1.94).
3. Tracer l’histogramme de cette variable statistique.
4. Déterminer par le calcul la valeur du diamètre au-dessous de laquelle se trouvent 50% des
tubes de plastique. Que reprèsente cette valeur.
5. Déterminer par le calcul le pourcentage de tubes ayant un diamètre inférieur à 2.58.

Solution 1 - Identification de cet épreuve statistique,


– Population : les tubes.
– Individus : le tube.
– Caractère : le diamètre.
– Type : quantitative continue.
– Modalités : 1.94,..., 3.12.
2 - Par la méthode de Yule, nous avons

Par la méthode de Sturge, nous avons

Nous avons donc l’amplitude qui égale


Nous obtenons le tableau statistique suivant

3 - Nous dessinons l’histogramme de cette variable,

4 - Cette valeur représente la médiane. Le calcule se fait par extrapolation

Nous trouvons que la valeur cherché est égale à 0.66 (66%).

Vous aimerez peut-être aussi