Statistiques Univariees

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 14

FACULTÉ DES SCIENCES ET TECHNIQUES

LICENCE FONDAMENTALE DE MATHEMATIQUE

SEMESTRE 3

===============================================

MTH 13204 : ANALYSES STATISTIQUES DE BASE

===============================================

TCHANDAO MANGAMANA Essomanda

Email: tchandesso@gmail.com

HARMATTAN 2021-2022
Table des matières

Références bibliographiques 0

Table des matières 2

1 Étude d’une série statistique à une variable 3

1.1 Vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Étude d’une variable qualitative nominale . . . . . . . . . . . . . . . . . . 4

1.2.1 Tableau statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.2.2 Représentations graphiques . . . . . . . . . . . . . . . . . . . . . . 4

1.3 Étude d’une variable qualitative ordinale . . . . . . . . . . . . . . . . . . . 5

1.3.1 Tableau statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3.2 Représentations graphiques . . . . . . . . . . . . . . . . . . . . . . 6

1.4 Étude d’une variable quantitative discrète . . . . . . . . . . . . . . . . . . 6

1.4.1 Tableau statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.4.2 Représentations graphiques . . . . . . . . . . . . . . . . . . . . . . 6

1.5 Étude d’une variable quantitative continue . . . . . . . . . . . . . . . . . . 7

1.5.1 Classe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.5.2 Tableau statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.5.3 Représentations graphiques . . . . . . . . . . . . . . . . . . . . . . 9

1.6 Paramètres de position . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.6.1 Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.6.2 Moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.6.3 Percentile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1
1.6.4 Quartile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.6.5 Médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.7 Paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.7.1 Etendue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.7.2 Variance et l’écart-type . . . . . . . . . . . . . . . . . . . . . . . . . 13

2
Chapter 1

Étude d’une série statistique à une

variable

1.1 Vocabulaire

ˆ Population: ensemble des individus objets de l’étude. Exemple: étudiants, en-

treprises, plantes, animaux, produits,...

ˆ Echantillon: sous-ensemble issu de la population. Exemple: une classe, une ville,

hommes, femmes,...

ˆ Unité statistique: chaque individu. Exemple: un étudiant, une plante, un homme,

une femme,...

ˆ Variable: caractère ou propriété mesurée sur chaque individu notée X, Y ,... Ex-

emple: Note, taille, poids, sexe, âge, couleur, mesure,...

ˆ Modalités: les valeurs possibles de la variable.

ˆ Série statistique: suite des valeurs prises par une variable X notées x1 , x2 , x3 , ....

ˆ Variable quantitative: les modalités sont mesurables ou repérables.

ˆ Variable quantitative discrète: l’ensemble des modalités est fini ou dénombrable.

Exemple: Note, taille, poids, mesure,...

3
ˆ Variable quantitative continue: l’ensemble des modalités est un intervalle fini ou

infini. ([8; 20[, [0; +∞[, ...

ˆ Variable qualitative: les modalités ne sont pas mesurables.

ˆ Variable qualitative nominale: les modalités ne peuvent pas être ordonnées. Exem-

ple: sexe, couleur,...

ˆ Variable qualitative ordinale: les modalités peuvent être ordonnées. Exemple: taille

d’un vêtement: XXL, XL, L, M, S.

1.2 Étude d’une variable qualitative nominale

Exemple: On note C : célibataire, M : marié, V : veuf, D : divorcé. On s’intéresse à

la variable X=(état-civil) sur une population de n = 20 personnes. Considérons la série

statistique suivante : M D M C C M C C C M C M V M V D C C M C.

1.2.1 Tableau statistique

Table 1.1: Tableau statistique pour une variable qualitative nominale.

xi ni fi pi (%) Ni Fi

C 9 0.45 45 9 0.45

M 7 0.35 35 16 0.75

V 2 0.1 10 18 0.85

D 2 0.1 10 20 1

1.2.2 Représentations graphiques

Diagramme en secteur ou Camembert

Il permet de visualiser la part relative des modalités d’une variable qualitative sur

la population. Le cercle représente l’ensemble de la population, les différentes modalités

4
seront représentées par des secteurs dont les surfaces sont proportionnelles aux effectifs

(ou fréquences ou pourcentages). Une telle représentation n’est possible que si la somme

des pourcentages donne 100%. Dans la représentation en secteurs circulaires, l’angle θi

de chaque secteur associé à une modalité est proportionnel à la fréquence, fi , de cette

modalité: θi = fi × 360.

Diagramme en tuyaux d’orgue ou en barres

Il est constitué d’une suite de rectangles dont les hauteurs sont proportionnelles à

l’effectif (ou à la fréquence ou au pourcentage) des modalités et dont les bases sont iden-

tiques. Il est soit représenté en horizontal, soit en vertical.

1.3 Étude d’une variable qualitative ordinale

On interroge une population de n = 50 personnes sur leur dernier diplôme obtenu. On

note: Sd : Sans diplôme, P : Primaire, Se: Secondaire, Su : Supérieur non-universitaire

et U : Universitaire: Sd Sd Sd Sd P P P P P P P P P P P Se Se Su Se Se Se Se Se Se Se

Se Se Se Se Se Su Su Su Su Su Su Su U U U U U U U U U U U U Su.

1.3.1 Tableau statistique

Table 1.2: Tableau statistique pour une variable qualitative ordinale.

xi ni Ni fi pi (%) Fi

Sd 4 4 0.08 8 0.08

P 11 15 0.22 22 0.30

Se 14 29 0.28 28 0.58

Su 9 38 0.18 18 0.76

U 12 50 0.24 24 1

5
1.3.2 Représentations graphiques

Diagramme en secteur ou Camembert

Diagramme en barre

1.4 Étude d’une variable quantitative discrète

Un quartier est composé d’une population de 50 ménages, et la variable X représente

le nombre de personnes par ménage. Les valeurs de la variable sont: 1 1 1 1 1 2 2 2 2 2 2

2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 6 6 6 8 8.

1.4.1 Tableau statistique

Table 1.3: Tableau statistique pour une variable qualitative ordinale.

xi ni Ni fi Fi

1 5 5 0.10 0.10

2 9 14 0.18 0.28

3 15 29 0.30 0.58

4 10 39 0.20 0.78

5 6 45 0.12 0.90

6 3 48 0.06 0.96

8 2 50 0.04 1

1.4.2 Représentations graphiques

Diagramme en bâton

Pour représenter une variable quantitative discrète, on peut utiliser un graphique

appelé diagramme en bâtons. Le principe de ce graphique consiste à dessiner pour chaque

valeur de la variable un trait de hauteur l’effectif de cette valeur ou la proportion de cette

6
valeur.

1.5 Étude d’une variable quantitative continue

Très souvent, la prise en compte de toutes les valeurs observées ne permet pas de

donner une interprétation simple des résultats et conduit à des calculs inutiles. Ainsi, il

est nécessaire que les valeurs des variables continues soient regroupées en classes avant

tout traitement.

1.5.1 Classe

a) Définition des classes

Le choix des classes répond en général aux exigences suivantes :

ˆ Elles ne doivent pas être trop nombreuses sinon il y aurait une difficulté de compréhension.

ˆ Elles ne doivent pas être trop peu nombreuses car il y aurait perte d’information.

ˆ Il ne doit pas y avoir de classe vide.

Le nombre de classes à retenir dépend de la précision des mesures et de l’effectif de la

population étudiée.

Remarque: En pratique, on peut utiliser la formule de Sturges : le nombre k indiqué

de classes pour une série de n observations est donné approximativement par : k =

1 + 3.322 × log10 n.

b) Amplitude de classe

C’est la différence entre la valeur de la borne supérieure et celle de la borne inférieure. Il

arrive que la borne inférieure de la première classe et la borne supérieure de la dernière

classe ne soient pas données. Pour estimer les bornes absentes, nous disposons des possi-

bilités suivantes:

7
ˆ Réfléchir à ce que pourrait être la valeur de cette borne.

ˆ Donner à la première classe l’amplitude de la deuxième classe et à la dernière

l’amplitude de l’avant dernière.

Les classes peuvent avoir une amplitude variable ou constante. Par exemple, la variable

“âge” est souvent subdivisée en classes d’amplitude de 5 ans, 0 à moins de 5 ans, 5 ans à

moins de 10 ans, etc. 0, 5, 10, etc. sont les extrémités des classes.

c) Centre de classe

Pour effectuer des calculs statistiques sur des séries classées, les classes sont réduites à

une seule donnée, à savoir, le centre de classe. Cela revient à considérer que tous les

individus peuvent être décrits par ce centre de classe. Par définition, le centre ci de la
xi + xi+1
classe [xi ; xi+1 [ est donné par ci = .
2

1.5.2 Tableau statistique

Centre Effectif ECC Fréquence Pourcentage FCC


Classe ECD FCD
ci ni Ni fi pi Fi

[x1 ; x2 [ c1 n1 N1 n f1 p1 F1 1
.. .. .. .. .. .. .. .. ..
. . . . . . . . .
i
P m
P ni ni i
P m
P
[xi ; xi+1 [ ci ni nk nk × 100 fk fk
k=1 k=i n n k=1 k=i
.. .. .. .. .. .. .. .. ..
. . . . . . . . .

[xm ; xm+1 [ cm nm n nm fm pm 1 fm

Total n 1 100

Exemple: Soit la superficie du logement en m2 sur un échantillon de 1000 familles.

Classe [20, 40[ [40, 60[ [60, 80[ [80, 100[ [100, 140[ [140, 200[

Effectif 240 208 160 212 129 51

Etablir le tableau statistique.

8
1.5.3 Représentations graphiques

a. Histogramme

Il est destiné aux séries regroupées en classes. L’histogramme est une représentation

graphique de la distribution des effectifs ou des fréquences d’une variable statistique con-

tinue. Il se construit en plaçant en abscisse l’amplitude des classes et en ordonnée la

fréquence (ou l’effectif) par unité d’amplitude. Soit la distribution ([xi ; xi+1 [, ni ) d’une

variable statistique continue X. Pour chaque classe [xi ; xi+1 [, l’histogramme associe un
fi
rectangle de largeur ai = xi+1 − xi (amplitude da la classe) et de hauteur hi = .
ai
Remarque: La représentation graphique de la distribution des effectifs (respective-

ment, des fréquences) d’une variable statistique continue s’appelle l’histogramme des

effectifs (respectivement, l’histogramme des fréquences).

b. Polygone des fréquences

Il lisse l’histogramme de façon à éliminer les ruptures qui dépendent du choix du découpage

en classe. Il respecte la compensation des aires; la surface incluse par la courbe est

identique à celle de l’histogramme.

c. Courbe cumulative des fréquences

Elle représente graphiquement la fonction cumulative ou fonction de répartition définie

par F (x) = Fi . En abscisse se trouvent les bornes supérieures des classes et en ordonnée,

les fréquences cumulés croissantes.

1.6 Paramètres de position

1.6.1 Mode

Le mode est la valeur xi correspondant à l’effectif (ou fréquence) le plus élevé. Pour

l’exemple, le mode est x1 = C : célibataire correspondant à l’effectif n1 = 9.

9
Remarque: Le mode peut être calculé pour tous les types de variable, quantitative et

qualitative et n’est pas nécessairement unique.

Pour une variable continue on définit la classe modale. C’est celle dont la fréquence

par unité d’amplitude hi = fi /ai est la plus élevée. Après la définition de la classe modale,

on déduit la valeur du mode par la formule suivante:

|∆i |
M o = xi + × ai
|∆i | + |∆i+1 |

avec M o le mode, xi la borne inférieure de la classe modale, ai l’amplitude de la classe

modale, ∆i = ni − ni−1 , différence entre l’effectif de la classe modale et l’effectif de la

classe précédant la classe modale, ∆i+1 = ni+1 − ni , différence entre l’effectif de la classe

suivant la classe modale et l’effectif de la classe modale.

Exemples: Déterminer le mode des séries suivantes:

Série 1: 8 ; 5; 9; 13; 25.

Série 2: 8; 8; 8; 7; 4; 4; 4; 4; 4; 5; 5; 5; 5; 6.

Série 3: 8; 8; 8; 7; 4; 4; 4; 4; 4; 5; 5; 5; 5; 6; 5.

1.6.2 Moyenne

La moyenne x̄ ne peut être définie que sur une variable quantitative. x̄ = n1 ni=1 xi
P

s’il s’agit des données individuelles ou x̄ = n1 ni=1 ni xi s’il s’agit des données groupées.
P

Remarque: La moyenne peut être calculée pour une variable qualitative recodée en 0

et 1.

La moyenne arithmétique est sensible aux valeurs extrêmes (valeurs aberrantes) d’une

série statistique.

Exemple: Calculer la moyenne arithmétique de 2 , 12 , 2 , 50.

Exemple: Deux étudiants obtiennent les notes suivantes pour 5 UEs:

Etudiant 1: 10, 11, 11, 10, 12. Etudiant 2: 4.5, 20, 4.5, 20, 5. Quelle est la moyenne

arithmétique de chaque étudiant? Que constatez-vous?

Exemple: Considérons la série suivante: 10, 10, 10, 10, 150. Quelle est la moyenne

10
arithmétique de cette série. Que constatez-vous?

1.6.3 Percentile

Le p-ième percentile est la valeur telle qu’au moins p pour cent des observations ont une

valeur inférieure ou égale à cette valeur, et (100 − p) pour cent des observations ont une

valeur supérieure ou égale à cette valeur.

Calcul du p-ième percentile

Etape 1: classer les données dans l’ordre croissant.


p
Etape 2: calculer l’index i = × n où n le nombre d’observations.
100
Etape 3 (décision): si i n’est pas un nombre entier naturel, la position du p-ième percentile

correspond à l’entier E(i) + 1, où E(i) désigne la partie entière de i; si i est un nombre

entier, le p-ième percentile correspond à la moyenne des valeurs des observations i et i + 1.

Pour déterminer le p-ième percentile P e dans le cas d’une variable continue, on détermine

d’abord l’intervalle auquel appartient ledit percentile: P e ∈ [xi ; xi+1 [ et F (P e) = p/100 =

p̃ avec Fi−1 < p̃ ≤ Fi . Par la formule de l’interpolation linéaire, on obtient alors:

p̃ − Fi−1 p̃ − Fi−1
P e = x i + ai × = x i + ai × .
Fi − Fi−1 fi

La médiane, M e, est le 50-ième percentile.

1.6.4 Quartile

Les quartiles sont des percentiles particuliers. Les étapes de calcul des percentiles peuvent

être directement appliquées au calcul des quartiles. Il y a trois quartiles:

Q1 = Premier quartile soit 25e percentile,

Q2 = Deuxième quartile soit 50e percentile,

Q3 = Troisième quartile soit 75e percentile.

Calculer Q1 , Q2 et Q3 pour les séries suivantes.

Série 1: 8; 5; 9; 13; 25

11
Série 2: 13; 1; 9; 10; 2; 4; 12; 7

Série 3: 13; 13; 1; 9; 10; 2; 2; 2; 7; 4.

1.6.5 Médiane

La médiane (M e) d’une distribution est la valeur de la variable statistique qui partage

en deux effectifs égaux les individus de la population rangés selon la valeur croissante du

caractère. C’est le cas où p = 50.

Si F est la fonction de répartition représentée par les fréquences cumulées, la médiane

est la valeur statistique telle que F (M e) = 0, 5.

Remarque: La médiane est peu sensible aux valeurs extrêmes et résume bien les dis-

tribution fortement dissymétriques mais elle est influencée par le nombre d’observations.

Exercice: Lors d’un examen de Statistique, 30 étudiants ont obtenu les notes suivantes:

2; 3; 3; 4; 5; 6; 6; 7; 7; 7; 8; 8; 8; 8; 8; 9; 9; 9; 9; 9; 9; 10; 10; 11; 11; 11; 13; 13; 15; 16.

Déterminer le 10e percentile ainsi que les quartiles Q1 , Q2 et Q3 .

Exemple: Considérons la série suivante: 10, 10, 10, 10, 150. Quelle est la médiane

arithmétique de cette série. Que constatez-vous?

Remarque: La comparaison de la moyenne arithmétique, de la médiane et du mode

permet de caractériser la forme d’une distribution. Trois cas sont possibles :

– Distribution parfaitement symétrique : Moyenne = Médiane = Mode.

– Distribution étalée vers la droite : Moyenne > Médiane > Mode.

– Distribution étalée vers la gauche : Moyenne < Médiane < Mode.

Exemple: Soient les trois séries statistiques suivantes:

Série xi 1 2 3 4 5

Série 1 ni 2 4 5 4 2

Série 2 ni 10 8 6 4 2

Série 3 ni 2 4 6 8 10

Caractériser la distribution de chaque série.

12
1.7 Paramètres de dispersion

Elles quantifient les fluctuations des valeurs autour de la valeur centrale, permettant

ainsi d’apprécier l’étalement des valeurs de la série (les unes par rapport aux autres ou à

la valeur centrale).

1.7.1 Etendue

L’étendue est défini par: E = xmax − xmin .

Exemple: Pour la série 1 1 2 1 1 3 5 5 5 5 5 3 2 5, on a: E=5-1=4.

1.7.2 Variance et l’écart-type

La variance V (X) se calcule par la formule

m m m
1X X X
V (X) = ni (xi − x̄)2 = fi (xi − x̄)2 = fi x2i − x̄2 .
n i=1 i=1 i=1

L’écart-type σX est la racine carrée de la variance:

p
σX = V (X).

Coefficient de variation

C’est le rapport de la moyenne arithmétique à l’écart type, défini par:

σX
CV (X) = .

Le CV permet d’apprécier la représentativité de la moyenne par rapport à l’ensemble des

observations. Il donne une bonne idée du degré d’homogénéité d’une série. Il faut qu’il

soit le plus faible possible (< 0.15 en pratique).

13

Vous aimerez peut-être aussi