Cours Stat 1LNSG 2020

Université de Tunis
Institut Supérieur de Gestion de Tunis
Cours
Statistique descriptive et probabilités
Mme. Hanen SDIRI ALOUI
Année universitaire
2019-2020
TABLE DES MATIÈRES
I Statistiques descriptives iv
1 Notions de base 1
Notions de base 1
1 Les concepts de base . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1 Population (ensemble statistique) . . . . . . . . . . . . . . . . 2
1.2 Unité statistique ou individu . . . . . . . . . . . . . . . . . . . 2
1.3 Caractère (variable) . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3.1 Caractère qualitatif . . . . . . . . . . . . . . . . . . . 3
1.3.2 Caractère quantitatif . . . . . . . . . . . . . . . . . . 3
1.4 Modalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Tableaux et graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1 Présentation des caractères qualitatifs . . . . . . . . . . . . . . 5
2.1.1 Tableau statistique . . . . . . . . . . . . . . . . . . . 5
2.1.2 Représentation graphique . . . . . . . . . . . . . . . 7
2.2 Présentation des caractères quantitatifs discrets . . . . . . . . 9
2.2.1 Effectifs et fréquences . . . . . . . . . . . . . . . . . 9
2.2.2 Représentation graphique des effectifs et des fréquences 9
2.2.3 Effectifs et fréquences cumulé(e)s . . . . . . . . . . . 10
2.2.4 Fonction de répartition . . . . . . . . . . . . . . . . . 11
2.3 Présentation des caractères quantitatifs continus . . . . . . . . 14
i
2.3.1 Les modalités et le tableau statistique . . . . . . . . 14
2.3.2 Représentations graphiques des effectifs et fréquences 15
2 Tendance centrale et de dispersion 19

1 Les paramètres de tendance centrale . . . . . . . . . . . . . . . . . . 19
1.1 Le Mode (noté MO ) . . . . . . . . . . . . . . . . . . . . . . . 19
1.2 La Médiane (noté Me ) . . . . . . . . . . . . . . . . . . . . . . 23
1.2.1 Données brutes . . . . . . . . . . . . . . . . . . . . . 23
1.2.2 Données collectées dans un tableau . . . . . . . . . . 23
1.3 Moyenne arithmétique . . . . . . . . . . . . . . . . . . . . . . 26
1.3.1 Cas d’une variable discrète . . . . . . . . . . . . . . 26
1.3.2 Cas d’une variable continue . . . . . . . . . . . . . . 27
2 Les caractéristiques de dispersion . . . . . . . . . . . . . . . . . . . . 28
2.1 L’étendue (ou intervalle de variation) . . . . . . . . . . . . . . 28
2.2 Les écarts interquartiles . . . . . . . . . . . . . . . . . . . . . 28
2.2.1 Les quartiles . . . . . . . . . . . . . . . . . . . . . . 28
2.2.2 Les déciles . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.3 Les centiles . . . . . . . . . . . . . . . . . . . . . . . 30
2.3 Les écarts par rapport à une valeur de tendance centrale . . . 31
2.3.1 L’écart absolu moyen . . . . . . . . . . . . . . . . . . 31
2.3.2 La variance et l’écart type . . . . . . . . . . . . . . . 31
2.3.3 Le cœfficient de variation . . . . . . . . . . . . . . . 32
2.3.4 Moments d’une série statistique . . . . . . . . . . . . 32
3 Caractéristique de forme et de concentration 33

1 L’asymétrie (skewness) . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2 L’aplatissement (kurtosis) . . . . . . . . . . . . . . . . . . . . . . . . 34
3 Les caractéristiques de concentration . . . . . . . . . . . . . . . . . . 34
3.1 Valeurs globales et valeurs globales relatives . . . . . . . . . . 35
3.2 La médiale (Mle ) . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3 La courbe de concentration . . . . . . . . . . . . . . . . . . . 36
3.4 Indice de concentration : Indice de Gini . . . . . . . . . . . . . 37
3.4.1 Surface de concentration . . . . . . . . . . . . . . . . 37
ii
3.4.2 Définition de l’indice de Gini . . . . . . . . . . . . . 37
3.4.3 Calcul de l’indice de Gini . . . . . . . . . . . . . . . 38
4 Distribution à deux variables 39

1 Présentation générale des tableaux à double entrée (tableau de contin-
gence) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2 Distributions marginales . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.2 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.3 Les moyennes marginales . . . . . . . . . . . . . . . . . . . . . 43
2.4 Les variances marginales . . . . . . . . . . . . . . . . . . . . . 43
3 Distributions conditionnelles . . . . . . . . . . . . . . . . . . . . . . . 44
3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.3 Les moyennes conditionnelles . . . . . . . . . . . . . . . . . . 45
3.4 Les variances conditionnelles . . . . . . . . . . . . . . . . . . . 46
4 Notion d’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5 Corrélation et ajustement linéaire . . . . . . . . . . . . . . . . . . . . 48
5.1 Covariance entre X et Y . . . . . . . . . . . . . . . . . . . . . 48
5.2 Cœfficient de corrélation linéaire entre x et y . . . . . . . . . . 48
5.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2.3 Interprétation de la valeur de r(x, y) . . . . . . . . . 49
5.3 L’ajustement linéaire d’un nuage de point . . . . . . . . . . . 49
5.3.1 La droite de régression de y sur x . . . . . . . . . . . 50
5.4 Cœfficient de détermination . . . . . . . . . . . . . . . . . . . 51
iii
Première partie
Statistiques descriptives
iv
CHAPITRE 1
NOTIONS DE BASE
Il est nécessaire, avant d’exposer les différentes méthodes utilisées, de donner la

définition des termes statistiques qui vont êtres utilisés tout au long de ce cours.
Nous devons tout d’abord faire la distinction entre les deux notions suivantes :
− Statistiques : désigne des collections de chiffres ou d’observations et qui regroupent
toutes les informations relatives à un même phénomène et qui sont généralement is-
sues d’une enquête, étude. . ..
Exemple : les statistiques économiques sont les renseignements relatifs aux prix,
salaires, la production industrielle, échanges extérieurs, la consommation . . ..
On remarque bien que ces statistiques sont importantes et nécessaires pour le

travail d’un statisticien mais elles sont insuffisantes d’où la définition de la deuxième
notion à savoir
− Statistique : est constituée par l’ensemble des procédés ou des méthodes avec
lesquels on va pouvoir étudier les statistiques. Donc la statistique est l’outil de travail
de la matière première constituée par les statistiques.
1
1 Les concepts de base
1.1 Population (ensemble statistique)
Une population est un ensemble d’individus, ce qui ne veut pas dire des êtres
humains ça peut êtres des objets, des animaux, des villes, des êtres humains. . .
Exemples : la population des ménages d’une cité, les entreprises industrielles en
Tunisie, les étudiants de la 1ère année LFSG de l’ISG Tunis, les pays arabes.
1.2 Unité statistique ou individu
C’est un seul élément de l’ensemble de la population. Une population est donc

composée de plusieurs unités statistiques ou individus.
Exemples : Un ménage, une entreprise, un étudiant, un pays . . .
Remarque : une population comporte toujours des unités homogènes (de même
type, même nature) dont le nombre est fini. Une population ne peut pas comporter
en même temps des voitures et des étudiants.
1.3 Caractère (variable)
Un caractère est un aspect observable du phénomène étudié : c’est une dimension

du phénomène. Une unité statistique peut être observée selon plusieurs caractères.
Nous distinguons deux types de caractères : qualitatifs et quantitatifs
Exemples : L’âge, la marque, la taille, le salaire, le chiffre d’affaire, la nationa-

lité,. . .
2
1.3.1 Caractère qualitatif
Un caractère est qualitatif si ses diverses modalités ne sont pas mesurables, elles
sont plutôt identifiées. Comme par exemple les caractères : sexe, couleur, gouverno-
rat d’appartenance, marque. . .
On distingue deux types de caractères qualitatifs : caractère qualitatif ordinal et ca-
ractère qualitatif nominal
Caractère qualitatif ordinal : il est exprimé sur une échelle ordinale : les
modalités peuvent être classées dans un certain ordre les unes par rapport aux autres.
Exemple : le niveau de scolarisation (primaire, secondaire et supérieur), catégorie

socioprofessionnelle (cadre supérieur, cadre moyen, ouvrier)
Caractère qualitatif nominal : il est exprimé sur une échelle nominale : Chaque
modalité est exprimée par un nom ou un code. Les différentes modalités ne sont pas
ordonnées.
Exemple : la couleur, les pays arabes, la nationalité, . . .etc.
1.3.2 Caractère quantitatif
Un caractère est quantitatif s’il possède des modalités mesurables chiffrées telle
que par exemple : la taille, l’âge, le revenu. . .on distingue :
1. Variable quantitative discrète : si les valeurs qu’elle peut prendre sont
des valeurs isolées. Le cas le plus fréquent de variable discrète est celui où les
valeurs possibles sont des nombres entiers. Exemple : le nombre d’enfant d’un
ménage, nombre d’ouvrier d’une usine.
2. Variable quantitative continue : les modalités sont des valeurs qui ap-
partiennent à un intervalle donné : des nombres infinis. Exemple : âge, taille,
salaire . . .
3
1.4 Modalités
Les modalités sont les différentes valeurs possibles que peuvent prendre un carac-
tère ou une variable statistique (v.s).
Exemples
Caractère Modalités
X Sexe masculin/féminin
X Situation matrimoniale marié/célibataire/veuf/divorcé
X Nombre d’enfants 1/2/3 . . .
X Moyenne au bac [0,5[,[5,10[,[10,15[,[15,20[
2 Tableaux et graphiques
L’information statistique collectée sous forme de données individuelles, n’est pas

facilement exploitable et sa manipulation est lourde, il est donc nécessaire de résu-
mer les caractères sous forme de tableaux. Le tableau statistique se compose en deux
colonnes. La première colonne contient les différentes modalités de la variable étu-
diée (notées Xi ). La deuxième colonne contient les effectifs correspondants à chaque

modalité (notés ni )
La distribution statistique est une répartition de la population observée selon les
différentes modalités du (des) caractère(s) retenu(s). Si on retient un seul caractère,

alors la distribution statistique est dite à une seule dimension et on présente alors
un tableau à une seule dimension ou encore un tableau à simple entrée.
Pour être utilisable, un tableau doit comporter un certain nombre d’éléments
dont les principaux sont les suivants :

— Le titre qui indique l’objet du tableau. Il doit être complet (pays, dates, phé-
4
nomène présenté).
— L’unité utilisée : dinars, millions de tonne, milliers de personnes.
— Les titres des lignes et des colonnes.

— Des notes, générales ou particulières, qui éclairent le lecteur pour l’interpré-
tation
— Les sources qui doivent être bien citées.
La distribution peut aussi être représentée par un graphique qui a l’avantage de don-
ner une lecture visuelle immédiate des aspects dominants.
Comme nous l’avons cité précédemment, la variable peut être qualitative ou quan-
titative.
2.1 Présentation des caractères qualitatifs
2.1.1 Tableau statistique
Si les modalités ne sont pas mesurables, dans ce cas on parle d’un caractère
qualitatif. Le tableau statistique a la forme suivante :
Tableau 1.1 –
Modalités (Xi ) Effectifs de chaque modalité (ni )
X1 n1
X2 n2
X3 n3
.. ..
Xk nP
k
Total N = ni
Avec ni le nombre des individus de la population qui présentent la modalité Xi

d’un caractère C. ni est l’effectif ou la fréquence effective (absolue) de la modalité
P
Xi et on a N = ni l’effectif total.
5
Exemple : variable qualitative nominale
Répartition de 303 entreprises tunisiennes par secteur d’activités.
Tableau 1.2 –
Secteurs Effectif ni Fréquences fi fi (%)
Mécanique et Métallurgie (IMM) 64 0.2112 21.12
Agro-alimentaire (IAA) 102 0.3367 33.67
Textile et Habillement (ITH) 110 0.363 36.3
Pâtes, Papiers et Cartons(IPPC) 10 0.033 3.3
Cuir et chaussure (ICC) 17 0.0561 5.61
Total 303 1 100
source : Ministère de l’enseignement supérieur
NB : Les secteurs ne sont pas ordonnés.

ni
P
Où fi = N
représente la fréquence relative. On note que fi = 1 (ou 100%).
P : Population étudiée : les entreprises tunisiennes
C : Caractère ou variable : secteur d’activités
M : Ensemble des modalités : IMM, IAA, ITH, IPPC et ICC

Exemple : variable qualitative ordinale
107 chefs d’entreprises ont été interrogés sur le degré d’importance de l’utilisation de
l’Internet. Dans ce cas, les modalités sont ordonnées (classée par ordre)
Tableau 1.3 –
Modalités Effectifs ni
Pas d’importance (A) 10
Faible importance (B) 25
Importance moyenne (C) 40
Grande importance (D) 32
Total 107
6
2.1.2 Représentation graphique
Variable qualitative nominale Pour les caractères qualitatifs nominales, deux

types de graphiques sont utilisés :
Diagramme en secteurs
La distribution est représentée par un cercle divisé en k secteurs (chaque modalité

sera représentée à l’aide d’un secteur sur le cercle), la superficie du secteur (l’angle
de chaque secteur noté αi ) est proportionnelle à l’effectif ou à la fréquence de cette
modalité. On a donc αi = 360◦.fi
Reprenons les données du tableau 1.2 :
Secteurs Fréquences fi angle αi

Mécanique et Métallurgie (IMM) 0.2112 76.032
Agro-alimentaire (IAA) 0.3367 121.212
Textile et Habillement (ITH) 0.363 130.68
Pâtes, Papiers et Cartons(IPPC) 0.033 11.88
Cuir et chaussure (ICC) 0.0561 20.196
Total 1 360
source : Ministère de l’enseignement supérieur
La représentation graphique est donnée comme suit :

3%
6% Mécanique et M´etallurgie
21% (IMM)
Agro!alimentaire (IAA)
Textile et Habillement (ITH)

36%
Pâtes, Papiers et
Cartons(IPPC)
34%
Cuir et chaussure
h ((ICC))
Diagramme en tuyaux d’orgue ou diagramme en barres

C’est une représentation graphique d’un ensemble de rectangles dans un repère or-
7
thonormé ayant :
En abscisses : les modalités du caractère (Xi ). La largeur de chaque rectangle est la
même quelle que soit la modalité, la largeur n’est pas une mesure ;
En ordonnées : les valeurs des effectifs ou des fréquences.
La présentation des rectangles peut se faire selon un ordre arbitraire des modalités.
La surface des rectangles est proportionnelle à la fréquence.
120
100
80
60
40
20
0
Mécanique et Agro!alimentaire Textile et Pâtes, Papiers et Cuir et chaussure
Métallurgie (IMM) (IAA) Habillement (ITH) Cartons(IPPC) (ICC)
Variable qualitative ordinale Si les modalités sont ordonnées, on représente la

distribution sous forme de diagramme en barres ou diagramme en tuyaux d’orgue.
Reprenons les données du tableaux 1.3.
45
40
35
30
25
20
15
10
5
0
Pas Faible Importance Grande
d’importance importance (B) moyenne (C) importance (D)
(A)
8
2.2 Présentation des caractères quantitatifs discrets
2.2.1 Effectifs et fréquences
La forme du tableau statistique se présente comme suit :
Tableau 1.4 –
Modalités (Xi ) Effectifs de chaque modalité (ni )
X1 n1
X2 n2
X3 n3
.. ..
Xk nP
k
Total N = ni
où les Xi sont, dans la plupart des cas, des nombres entiers (variable discrète).
Exemple
La répartition de 150 ménages selon le nombre d’enfants est donnée dans le tableau
suivant :
Tableau 1.5 –
Nombre d’enfants effectifs ni fréquences fi
0 5 0.033
1 30 0.2
2 60 0.4
3 35 0.233
4 20 0.134
Total 150 1
2.2.2 Représentation graphique des effectifs et des fréquences
Les caractères quantitatifs discrets donnent lieu à une représentation graphique
appelée diagramme différentiel ou diagramme en bâtons. Dans ce diagramme, chaque

modalité est représentée par une droite verticale dont la hauteur est proportionnelle
à l’effectif ou la fréquence relative de cette modalité.
9
effectifni (fi)
0
0 1 2 3 4
nbre xi
2.2.3 Effectifs et fréquences cumulé(e)s
Effectifs cumulés croissants : Nombre d’individus pour lesquels la variable est

inférieure ou égale à xi . Résultat de l’addition, de proche en proche, des effectifs
d’une distribution observée en commençant par le 1er.

Effectifs cumulés décroissants : Nombre d’individus pour lesquels la variable est
supérieure ou égale à xi . Résultat de l’addition, de proche en proche, des effectifs
d’une distribution observée en commençant par le premier (ou le dernier).
Exemple
Reprenons l’exemple précédent (tableau 1.5)
Nombre Effectif Eff cum Eff cum fréquences fréquences cum

d’enfants ni croissant Ni ր décroiss Ni ց fi croissantes Fi ր
0 5 5 150 0.033 0.033
1 30 35 145 0.2 0.233
2 60 95 115 0.4 0.633
3 35 130 55 0.233 0.866
4 20 150 20 0.134 1
Total 150 - - 1
X 95 est le nombre de ménages possédant un nombre d’enfants inférieur ou égale

à 2 (dém : 1ère méthode : n1 + n2 + n3 ; 2ème méthode N(2) ր (qui correspond
au nombre d’enfants =2)).
X 55 est le nombre de ménages possédant un nombre d’enfants supérieur ou égale
à 3 (dém : 1ère méthode : n3 + n4 ; 2ème méthode N(3) ց (qui correspond au
10
nombre d’enfants =3)).
X La proportion de ménages possédant un nombre d’enfants inférieur ou égal
à 1 est de 23.3% (dém : 1ère méthode : f1 + f2 ; 2ème méthode F (1) ր (qui

correspond au nombre d’enfants =1)).
Remarques
• On peut aussi définir des effectifs cumulés croissants (ascendantes) ;
• On peut définir des effectifs cumulés décroissants et fréquences cumulées dé-

croissantes (descendantes) avec G(x) = P (X ≥ x) = 1 − F (x). C’est la
répartition d’individus ayant une valeur de la variable supérieur ou égale à x.
Même exemple
Tableau 1.6 –
Nombre d’enfants effectifs ni fréquences fi fréquences cum croissantes Fi ց
0 5 0.033 1
1 30 0.2 0.967
2 60 0.4 0.767
3 35 0.233 0.367
4 20 0.134 0.134
Total 150 1 0
2.2.4 Fonction de répartition
Les caractères quantitatifs discrets ont des modalités ordonnées (pas comme le
cas des caractères qualitatifs), de ce fait, on peut construire la fonction de répartition.
Notation : X est la valeur du caractère quantitatif discret ;
x est une valeur particulière donnée à ce caractère.

Définition : la fonction de répartition d’un caractère quantitatif discret est une
application F de ℜ dans l’intervalle [0,1] définie de la façon suivante :
F : ℜ → [0, 1]
x → F (x) = P (X ≤ x)
11
De cette définition de la fonction de répartition découlent les considérations sui-
vantes :
— F est définie quelle que soit x appartenant à ℜ, x correspond ou non à une

modalité de X ;
— F (M1 ) = f1 ∀ x ≤ M1 ;
— F (M2 ) = P (X ≤ M2 ) = P (X = M1 et X = M2 ) = f1 + f2 ;
— F (M3 ) = P (X ≤ M3 ) = P (X = M1 et X = M2 et X = M3 ) = f1 + f2 + f3 ;
— En générale pour i ≥ 2 ;
F (Mi ) = P (X < Mi ) = P (X = M1 et X = M2 . . . et X = Mi−1 )
= f1 + f2 + ... + fi
— F (x) = 1 ∀ x ≥ Mk ;
— F est une fonction non décroissante, elle est croissante ou constante puisque
ces valeurs sont de plus en plus grande ou constantes. D’une manière générale,
la fonction de répartition est constante par intervalle.
Tableau 1.7 –
Mi fi Fi ↑
M1 f1 f1
M2 f2 f1 + f2
M3 f3 f1 + f2 +f3
... .... ....
Mi fi f1 + f2 + .... + fi
... ... ...
Mk fk f1 + f2 + .... + fi + .... + fk = 1
Diagramme intégral ou courbe cumulative

C’est la courbe de la fonction de répartition, qui est une courbe en escalier et discon-
tinue. La courbe cumulative croissante est le tracé de la fonction N ր (ou F ր pour
les fréquences) qui à tout réel x associe N ր (x) = nombre d’observations inférieur
12
ou égal à x.
Fi
1
0.866 C
0.633 C
0.233 C
0 033
0.033 C
0 1 2 3 4 Xi
La courbe cumulative décroissante est le tracé de la fonction N ց (ou F ց pour
les fréquences) qui a tout réel x associe N ց (x) = nombre d’observations supérieur
strictement à x.
Fi
1
0.967
C
C
0.767
C
0.367
0.134
C
0 1 2 3 4 Xi
13
2.3 Présentation des caractères quantitatifs continus
2.3.1 Les modalités et le tableau statistique
Dans le cas d’une variable continue, les modalités appartiennent à des intervalles
[a, b] de ℜ. a et b sont respectivement la plus petite et la plus grande valeurs observées.
[a, b] sera donc subdivisé en k sous-intervalles disjoints [ei−1 , ei [ : par convention fermé
à gauche et ouvert à droite. Chaque sous-intervalle est appelé classe, la différence
ei − ei−1 = ai s’appelle amplitude de la classe.
On pose a = e0 et b = ek
On définit ainsi k modalités Xi constituées par les k classes :

X1 = [e0 , e1 [, X2 = [e1 , e2 [, ...Xi = [ei−1 , ei [, ...Xk = [ek−1 , ek [ ;
L’effectif ni de la classe Xi = [ei−1 , ei [ est le nombre d’individus qui ont une valeur
de la variable supérieur ou égale à ei−1 et strictement inférieur à ei .
Le tableau se présente alors de la manière suivante :
Tableau 1.8 –
Xi ni fi
[e0 , e1 [ n1 f1
[e1 , e2 [ n2 f2
[e2 , e3 [ n3 f3
[e3 , e4 [ n4 f4
... ... ...
[ek−1 , ek [ nk fk
total N 1
Exemple
Une étude statistique sur les salaires de 100 employés d’une entreprise a fourni les
données décrites par le tableau suivant :
— Le nombre d’employés ayant un salaire supérieur ou égale à 400DT.

nS≥400 = 30 + 13 + 6 = 49 ou N4 ց= 49
— Le nombre d’employés ayant un salaire strictement inférieur à 300DT.
nS<300 = 20 + 15 = 35 ou N2 ր= 35
14
Tableau 1.9 –
Xi ni Ni ր Ni ց fi (%) Fi ր (%) Fi ց (%) ai ci
[150, 200[ 20 20 100 20 20 100 50 175
[200, 300[ 15 35 80 15 35 80 100 250
[300, 400[ 16 51 65 16 51 65 100 350
[400, 500[ 30 81 49 30 81 49 100 450
[500, 600[ 13 94 19 13 94 19 100 550
[600, 700[ 6 100 6 6 100 6 100 650
total 100 100
Remarque
Il arrive souvent que les bornes e0 et ek ne soient pas définies avec précision c’est à
dire Modalité 1 : moins que e0 et Modalité k : plus que ek .
Cette imprécision provient du fait que les valeurs limites e0 et ek sont assez éloignées.
Alors par convention : pour fixer e0 , on prend la même amplitude que la classe
suivante, de même pour fixer ek on prend l’amplitude de la classe précédente. Cette
procédure est donnée par le tableau suivant :
Tableau 1.10 –
Xi ni fi
Moins de 10 n1 f1
[10, 15[ ... ...
[50, 60[ ... ...
Plus 60 ... ...
total ... ...
ei−1 +ei
Nous pouvons aussi calculer les centres des classes : Ci = 2
2.3.2 Représentations graphiques des effectifs et fréquences
On représente les caractères quantitatifs continus sous forme d’un histogramme

ou diagramme différentiel. C’est un ensemble de k rectangles superposés (l’un à coté
de l’autre), il s’agit d’un rectangle par modalité ou par classe. La largeur de chaque
rectangle est égale à l’amplitude de la classe et la longueur est égale à son effectif ou
à sa fréquence.
15
Deux cas peuvent se présenter :
1er cas : toutes les amplitudes des classes sont égales : la représentation de l’his-
togramme est directe, c.a.d ni en fonction de Xi (ni = f (Xi )) ou fi en fonction

de Xi (fi = f (Xi ))
2ème cas : les classes ont des amplitudes inégales, on choisit par exemple la plus
petite amplitude ou la plus fréquente ou le plus petit diviseur commun comme
amplitude de référence et on calcule les effectifs (ou fréquences) corrigé(e)s

nci /fic qui vont représenter les longueurs des rectangles.
a
Où fic = fi · ai
et ai est l’amplitude de la classe i.
Les étapes de la construction d’un Histogramme
1. calculer l’amplitude de chaque classe.
2. il faut choisir l’amplitude de référence qui est la plus petite ou la plus répandue
ou le plus petit diviseur commun.
3. si les amplitudes ne sont pas égales, il faut calculer les fréquences corrigées ou
les effectifs corrigés.
4. on trace l’histogramme qui est un ensemble de k rectangles juxtaposés dont

la largeur est égale à l’amplitude initiale de la classe et dont la longueur égale
à la fréquence corrigée ou l’effectif corrigé.
Exemple
Reprenons l’exemple précédent : tableau 1.9 (Avec a = 50).
Tableau 1.11 –
Xi ni ai fi (%) fic (%)
[150, 200[ 20 50 20 20
[200, 300[ 15 100 15 7.5
[300, 400[ 16 100 16 8
[400, 500[ 30 100 30 15
[500, 600[ 13 100 13 6.5
[600, 700[ 6 100 6 3
Total 100 100
16
25
fi corrigé
20
15
10
0
[150,200[ [200,300[ [300,400[ [400,500[ [500,600[ [600,700[
xi
Polygone des fréquences

Le polygone des fréquences est aussi une représentation des effectifs et des fréquences
relatives d’une variable quantitative continue. Il reflète l’évolution de la concentration
de la population en fonction de la variable étudiée. Si les amplitudes des classes sont
égales on repère les points milieux des sommets des rectangles de l’histogramme et on
relie ces points par des segments de droite pour obtenir le polygone des fréquences.
Si les amplitudes ne sont pas égales on divise chaque rectangle en sous rectangles
dont le nombre est fonction de son amplitude puis on trace le polygone. Le polygone
des fréquences est donné par la figure ci-après.
fic
Polygone des
20 fréquences Histogramme
15
10
0 100 200 300 400 500 600 700 750 Xi
Courbe cumulative ou diagramme intégral

C’est la courbe de la fonction de répartition qui est une courbe croissante et continue.
17
La fonction cumulative est définie par :
F (x1 ) = P [X ≤ x1 ] = f1
F (x2 ) = P [X ≤ x2 ] = P [X = x1 ] + P [X = x2 ] = f1 + f2
.
.
F (xk ) = P [X ≤ xk ] = f1 + f2 + ... + fk
Voir l’exemple précédent pour les calculs

120
100
80
60
40
20
0
[150,200[ [200,300[ [300,400[ [400,500[ [500,600[ [600,700[
Fi cum croiss fi cum décroi
18
CHAPITRE 2
TENDANCE CENTRALE ET DE DISPERSION
Pour avoir une idée claire sur la distribution de la variable, nous ferons appel
aux paramètres de tendance centrale et de dispersion. L’étude d’une série statistique
doit être faite à trois points de vue : une analyse de la caractéristique centrale de
la série, dispersion ou fluctuation des différentes observations autour de cette valeur
centrale, forme (symétrie, aplatissement) du diagramme représentatif de la série.
Dans certaines conditions, on peut également calculer un indice de concentration.
1 Les paramètres de tendance centrale
1.1 Le Mode (noté MO )
Définition : Numériquement, le mode est la valeur de Xi correspondante au

plus grand effectif ou à la plus grande fréquence. On l’appelle encore valeur la plus
fréquente ou valeur dominante.
∗ Mode d’une variable qualitative : dans le cas qualitatif, la détermination

du Mo est immédiate, c’est la valeur de xi qui correspond à l’effectif ni (ou
19
fréquence fi ) le(a) plus élevé(e).
Exemple
Pour l’exemple suivant le Mode correspond au secteur Textile et Habillement
(ITH)
Tableau 2.1 –
Secteurs Effectif ni Fréquences fi
Mécanique et Métallurgie (IMM) 64 0.2112
Agro-alimentaire (IAA) 102 0.3367
Textile et Habillement (ITH) 110 0.363
Pâtes, Papiers et Cartons(IPPC) 10 0.033
Cuir et chaussure (ICC) 17 0.0561
Total 303 1
Mode=Textile et Habillement
∗ Mode d’une variable quantitative discrète : analytiquement, la déter-

mination du Mo est immédiate, c’est la valeur de xi qui correspond à l’effectif
ni (ou fréquence fi ) le(a) plus élevé(e).
Exemple
Tableau 2.2 –
Xi ni
0 103
1 115
2 95
3 35
4 10
5 2
Mode = 1
20
Graphiquement, il correspond à l’abscisse du bâton le plus élevée.
Mode
∗ Mode d’une variable continue : Dans le cas d’un caractère quantitatif

continue, il s’agit de déterminer une classe modale, deux cas sont possibles :
- Toutes les classes ont la même amplitude : la classe modale est celle qui
correspond à l’effectif le plus élevé ou à la fréquence la plus élevée.
- Les classes ont des amplitudes différentes : on calcule les fréquences corrigées,
la classe modale sera celle qui correspond à la fréquence corrigée la plus élevée.
Remarque La distribution statistique peut être bimodale (deux modes) ou mul-

timodales (3 modes).
Détermination analytique du Mode
Exemple Reprenons l’exemple précédent : tableau 1.9 :

On remarque que les amplitudes ne sont pas égales. Donc, afin de déterminer le
mode, il faut corriger soit les effectifs ou les fréquences.
La classe modale est [150, 200[
Le mode est donné par :
21
Xi ni ai fi fic
[150, 200[ 20 50 20 20
[200, 300[ 15 100 15 7.5
[300, 400[ 16 100 16 8
[400, 500[ 30 100 30 15
[500, 600[ 13 100 13 6.5
[600, 700[ 6 100 6 3
Total 100 100
d1
Mo = L1 + d1 +d2
(L2 − L1 )
Où L1 et L2 sont respectivement la borne inférieure et la borne supérieure de la
classe modale ;
d1 =fréquence par unité d’amplitude de la classe modale moins la fréquence par unité
d’amplitude de la classe qui précède
d2 =fréquence par unité d’amplitude de la classe modale moins la fréquence par unité
d’amplitude de la classe qui suit
20−0
Dans ce cas, le mode est Mo = 150 + (20−0)+(20−7.5)
(200 − 150) = 180.77
Détermination graphique du Mode
25
fi ccorrigé
20
15
10
0
[150,200[ [200,300[ [300,400[ [400,500[ [500,600[ [600,700[
Xi
Mode
22
1.2 La Médiane (noté Me )
Définition : la médiane Me est la valeur de la variable telle que 50% de l’effectif

total ait une valeur inférieur ou égale à Me et 50% ait une valeur supérieure stricte-
ment à Me . La médiane partage alors la population en deux parties d’effectifs égales.
Analytiquement et à partir de la fonction de répartition, la médiane Me est définie
comme suit :
F (Me ) = 0.5.
1.2.1 Données brutes
On considère n observations relatives à une variable statistique, pour déterminer

la médiane on classe d’abord les observations par ordre croissant ou décroissant :
n+1
z Si n est impair la médiane sera donnée par l’observation d’ordre 2
z Si n est pair on parle d’intervalle médiane dont les bornes sont les observations
n n+1
d’ordre 2
et 2
.
Exemple
Tableau 2.3 –
Nombre d’étudiants 0 0 1 1 2 3 3 3 4
Rang 1 2 3 4 5 6 7 8 9
1.2.2 Données collectées dans un tableau
Variable discrète
La médiane est la modalité xi tel que Fi−1 ր< 0.5 ≤ Fi ր
Exemple La répartition de 360 diplômés selon le nombre d’étude est donnée comme
suit
La médiane correspond à Fi−1 ր< 0.5 ≤ Fi ր. Donc d’après le tableau 2.4, la
Médiane=1.
23
Tableau 2.4 –
xi ni Fi ր
0 103 0.286
1 115 0.606
2 95 0.869
3 35 0.967
4 10 0.994
5 2 1
Total 360
Variable continue
Analytiquement : La détermination de la médiane nécessite tout d’abord la déter-
mination de la classe médiane. Ensuite on utilise la méthode d’interpolation linéaire
afin de calculer la valeur exacte de la Me . On précède au deux étapes suivantes :
1. Détermination de la classe médiane
2. Détermination de la valeur de la médiane Me en utilisant cette formule
Fi−1 ր< 0.5 ≤ Fi ր
Fi ( ei !1 ) Fi ( M e ) " 0.5 Fi ( ei )
ei !1 Me ei
D’après cette méthode, on obtient :
ei − ei−1 F ր (ei ) − Fiր (ei−1 )

= i ր
ei − Me Fi (ei ) − 0.5
Nous pouvons aussi appliquer la formule directement
L2 − L1
Me = L1 + (0.5 − Fiր (ei−1 ))
Fiր (ei ) − Fiր (ei−1 )
Exemple
Première méthode : interpolation linéaire
24
Tableau 2.5 –
Xi Fi
[0, 3[ 0.391
[3, 5[ 0.68
[5, 10[ 0.92
[10, 20[ 0.963
[20, 30[ 0.993
[30, 50[ 1
La classe médiane : [3, 5[
Fi (3) ! 0.391 Fi ( M e ) ! 0.5 Fi (5) ! 0.68
3 Me 5
5−3 Fiր (5) − Fiր (3)

= donc Me = 3.75
5 − Me Fiր (5) − 0.5
Deuxième méthode : application directe de la formule

La classe médiane correspond à [3 − 5[
5−3
Me = 3 + (0.5 − 0.391) = 3.75
0.68 − 0.391
Graphiquement : En utilisant la courbe de la fonction de répartition (courbe cu-

mulative), on prend le point d’ordonnée 0.5 ; on le projette sur la courbe et ensuite
sur l’axe des abscisses ce qui nous permet d’obtenir la Médiane.
25
1.3 Moyenne arithmétique
1.3.1 Cas d’une variable discrète
La moyenne arithmétique notée X, d’une variable statistique discrète définie par

le couple (xi , fi ) i = 1, 2, 3, ...k est exprimée de la manière suivante : X = ki=1 fi xi
P
avec xi représente la modalité i et fi la fréquence relative.
Données non groupées

Soit une série statistique de N observations x1 , x2 , x3 , ...xn , la moyenne arithmétique
est la somme des valeurs observées divisées par le nombre d’observations
k
1 X
X= xi
N i=1
Exemple
On observe les notes en statistique d’un groupe de 10 étudiants 10, 13, 18, 6, 5, 16,
9, 14, 9, 11.
10
1 X 10 + 13 + 18 + 6 + 5 + 16 + 9 + 14 + 9 + 11
X= xi = = 11.1
N i=1 10
Données groupées
La moyenne est définie par
k k
1 X X
X= ni xi = fi xi
N i=1 i=1
Exemple
26
Tableau 2.6 –
Xi ni ni Xi
0 103 0
1 115 115
2 95 190
3 35 105
4 10 40
5 2 10
Total 360 460
Moyenne X 1.277778
1.3.2 Cas d’une variable continue
Dans ce cas, on parle uniquement des données groupées par classe. La moyenne
arithmétique d’une distribution statistique continue est donnée comme suit :
k k
1 X X
X= ni ci = fi ci
N i=1 i=1
où ci représente le centre de la classe i.
Exemple
On dispose des informations suivantes concernant la répartition de 90 entreprises
tunisiennes selon la taille (nombres d’employés).
Tableau 2.7 –
Xi ni ci ni ci
[0, 20[ 38 10 380
[20, 40[ 13 30 390
[40, 50[ 5 45 225
[50, 60[ 7 55 385
[60, 80[ 12 70 840
[80, 90[ 4 85 340
[90, 100[ 11 95 1045
Total 90 3605
7
1 X 3605
X= ni ci = = 40.055
N i=1 90
27
Remarque
Pour une population donnée, les deux propriétés suivantes sont toujours vérifiées :
X − Mo = 3(X − Me )
H<G<X <Q
2 Les caractéristiques de dispersion
Les paramètres de tendance centrale (Mode, Médiane, Moyenne) sont insuffisants

pour permettre de résumer et de comparer les séries statistiques. La raison réside
dans le fait qu’on peut avoir plusieurs séries qui possèdent les mêmes valeurs pour
ces paramètres mais avec des distributions qui se font d’une manière nettement dif-
férentes. D’où la nécessité de calculer d’autres indicateurs capables de rendre compte
des écarts entre les différentes valeurs observées et les valeurs centrales.
2.1 L’étendue (ou intervalle de variation)
On appelle étendue d’une série statistique, la différence entre la valeur maximale

et la valeur minimale.
e = xmax − xmin
2.2 Les écarts interquartiles
2.2.1 Les quartiles
En nombre de trois notés Q1 , Q2 et Q3 , ils partagent la population en 4 groupes

d’effectif égal.
1. Q1 : premier quartile : valeur de la variable telle que 25% des observations lui
soient inférieures. F (Q1 ) = 0.25 ;
28
2. Q2 : deuxième quartile : valeur de la variable telle que 50% des observations
lui soient inférieures. F (Q2 ) = 0.5 (Q2 = Me ) ;
3. Q3 : troisième quartile : valeur de la variable telle que 75% des observations

lui soient inférieures. F (Q3 ) = 0.75
L’expression de trois quartiles peut être dérivée de la même manière que la mé-
diane.
L2 − L1
Q1 = L1 + (0.25 − Fiր (ei−1 ))
L2 − L1
Q2 = L1 + (0.5 − Fiր (ei−1 ))
L2 − L1
Q3 = L1 + (0.75 − Fiր (ei−1 ))
2.2.2 Les déciles
En nombre de neuf notés D1 , D2 , ..., D9 , ils partagent la population en 10 groupes
D1 : premier décile : valeur de la variable telle que 10% des observations lui
soient inférieures. F (D1 ) = 0.1 ;
D2 : deuxième décile : valeur de la variable telle que 20% des observations lui
soient inférieures. F (D2 ) = 0.2 ;
...
D5 : cinquième décile : valeur de la variable telle que 50% des observations lui
soient inférieures. F (D5 ) = 0.5 (D5 = Me ) ;
...
D9 : neuvième décile : valeur de la variable telle que 90% des observations lui
soient inférieures. F (D9 ) = 0.9
29
2.2.3 Les centiles
En nombre de 99 notés C1 , C2 , ...C99 , ils partagent la population en 100 groupes

C1 : premier centile : valeur de la variable telle que 1% des observations lui
soient inférieures. F (C1 ) = 0.01 ;
C2 : deuxième centile : valeur de la variable telle que 2% des observations lui

soient inférieures. F (C2 ) = 0.02 ;
...
...
C50 : cinquantième décile : valeur de la variable telle que 50% des observations
lui soient inférieures. F (C50 ) = 0.5 (C50 = Me ) ;
...
...
C99 : quatre vingt dix-neuvième décile : valeur de la variable telle que 99%
des observations lui soient inférieures. F (C99 ) = 0.99 ;
Les centiles sont aussi appelés les percentiles.
Remarques
Q2 = Me = D5 = C50
— Les quartiles et les déciles permettent de calculer les intervalles interquartiles.
— Plus la longueur de l’intervalle est grande, plus la dispersion est forte.
— L’écart interquartile est égale à la différence entre le troisième et le premier

quartile eQ = Q3 − Q1
L’intervalle interquartile contient 50% des observations.
— L’écart interdécile est égal à eD = D9 − D1
L’écart interdécile contient 80% des observations.
30
2.3 Les écarts par rapport à une valeur de tendance centrale
2.3.1 L’écart absolu moyen
On appelle écart absolu moyen noté, e x, d’une distribution statistique est égale
à la moyenne arithmétique de la valeur absolue des écarts entre les valeurs observées
et leur moyenne.
∗ Cas des données non groupées :
N
1 X
ex= |xi − x|
N i=1
∗ Cas des données groupées :
P P
1 X X
ex= ni |xi − x| = fi |xi − x|
N i=1 i=1
Cet indicateur de dispersion tient compte de tous les écarts entre chaque valeur
observée et la moyenne.
2.3.2 La variance et l’écart type
On appelle variance d’une variable, la moyenne des carrées des écarts de cette
variable à sa moyenne. Elle est exprimée comme suit :

∗ Cas des données non groupées :
N N
1 X 2 1 X 2
V (x) = (xi − x) = x − x2
N i=1 N i=1 i
∗ Cas des données groupées :
P P P
1 X 2
X
2
X
V (x) = ni (xi − x) = fi (xi − x) = fi x2i − x2
N i=1 i=1 i=1
p
On appelle écart type noté, σx , la racine carrée de variance. Il est défini par V (x).
31
Plus l’écart type est grand, plus la dispersion des observations autour de la moyenne
de la variable est forte.
2.3.3 Le cœfficient de variation
Afin de comparer la dispersion de deux ou plusieurs distributions exprimées dans
des unités différentes, il est indispensable d’utiliser un indicateur de dispersion indé-

pendamment de l’unité de mesure et de l’ordre de grandeur des valeurs observées.
Pour ce faire, on utilise le cœfficient de variation noté CV (x) défini par :
p
ecart type V (x) σx
CV (x) = = =
moyenne X X
2.3.4 Moments d’une série statistique
Moments non centrés

• Données non groupées : Le moment non centré d’ordre r qu’on note mr (x)
d’une série statistique est : mr (x) = N1 ni=1 xri
P
• Données groupées : Le moment non centré d’ordre r qu’on note mr (x) d’une
série statistique est : mr (x) = N1 pi=1 ni xri = pi=1 fi xri

P P
Remarque : le moment non centré d’ordre 1 est égal à la moyenne empirique.
Moments centrés
• Données non groupées : Le moment centré d’ordre µ qu’on note µr (x) d’une
série statistique est :µr (x) = N1 ni=1 (xi − x)r
P
• Données groupées : Le moment centré d’ordre µ qu’on note µr (x) d’une série
statistique est :µr (x) = N1 pi=1 ni (xi − x)r = pi=1 fi (xi − x)r VSD
P P
µr (x) = N1 pi=1 ni (ci − x)r = pi=1 fi (ci − x)r VSC

P P
32
CHAPITRE 3
CARACTÉRISTIQUE DE FORME ET DE
CONCENTRATION
Pour avoir une idée satisfaisante et plus précise sur la forme de la distribution,
il est recommandé de calculer les indicateurs de forme. On distingue les indicateurs

d’asymétrie et les indicateurs d’aplatissement.
1 L’asymétrie (skewness)
Une distribution est dite symétrique si les observations se répartissent dans la

même proportion de part et d’autre des trois valeurs centrales : mode, médiane et
moyenne (Mo = Me = X). Les mesures d’asymétrie permettent de quantifier le degré
de déviation de la forme de la distribution par rapport à une distribution symétrique.
Le cœfficient d’asymétrie de Pearson Dans une distribution faiblement asy-

métrique, c’est la position du mode par rapport à la moyenne (ou à la médiane) qui
caractérise l’asymétrie, pour traduire cette disposition par un nombre abstrait, il est
33
naturel de rapporter leur différence à l’écart type on obtient ainsi le cœfficient de
Pearson :
moyenne − mode X − Mo
CS = =
ecart type σx
1. Si CS = 0, la distribution est dite symétrique.
2. Si CS < 0, la distribution est dite étalée à gauche.
3. Si CS > 0, la distribution est dite étalée à droite
2 L’aplatissement (kurtosis)
Une distribution est d’autant plus plate que la dispersion des observations autour
des valeurs centrales est forte.
Le cœfficient d’aplatissement de Pearson Ce cœfficient est noté par CK . Il est

défini comme suit :
moment centré d’ordre 4 µ4

CK = 4
= 4
(ecart type) σ
1. Si CK = 3, la distribution est dite normale.
2. Si CK < 3, la distribution est dite hyponormale (plus aplatie que la normale)
3. Si CK > 3, la distribution est dite hypernormale (moins aplatie que le nor-
male)
3 Les caractéristiques de concentration
Le concept de concentration a été élaboré dans les années 1910–1914 par le sta-
tisticien italien CORRADO GINI (1884–1965). L’étude de concentration permet de
compléter l’analyse de position et de dispersion d’une distribution. Elle n’est pas cen-
trée sur le caractère de l’individu (observation), elle est plutôt globale, l’analyse porte
34
davantage sur la répartition de la masse totale. La notion de concentration ne s’ap-
plique que pour les variables quantitatives continues à valeurs positives cumulables,
exemple : salaires.
3.1 Valeurs globales et valeurs globales relatives
Soit X une variable statistique continue à valeurs positives cumulables, on appelle

valeur globale associée à la classe i ayant le centre ci et l’effectif ni , le produit défini
par : V Gi = ni .ci
Pk
On appelle valeur globale totale : V GT = i=1 ni .ci
On appelle valeur globale relative de la classe i, le rapport défini par :
V Gi ni .ci fi .ci X
qi = = Pk = Pk , qi = 1
V GT i=1 ni .ci i=1 fi .ci
On appelle valeur globale relative cumulée croissante notée Qi associée à la classe i :
i
X
Qi = qj
j=1
Exemple
Distribution des salaires d’une entreprise (salaire annuel net en DT) en 2008.
Tableau 3.1 –
Xi ni fi fi ր ci ni ci qi Qi Qi + Qi−1 fi (Qi + Qi−1 )
[0, 10[ 20 0.2 0.2 5 100 0.033 0.033 0.033 0.0066
[10, 22[ 10 0.1 0.3 16 160 0.053 0.086 0.119 0.0119
[22, 27[ 9 0.09 0.39 24.5 220.5 0.074 0.16 0.246 0.02214
[27, 45[ 45 0.45 0.84 36 1620 0.54 0.7 0.86 0.387
[45, 75[ 12 0.12 0.96 60 720 0.24 0.94 1.64 0.1968
[75, 120[ 4 0.04 1 43.5 174 0.06 1 1.94 0.0776
Total 100 1 2994.5 1 0.70204
35
3.2 La médiale (Mle)
La médiale d’une série statistique, notée Mle , est la valeur de la variable tel que
Q(Mle ) = 0.5.
La médiale est déterminée par la méthode d’interpolation linéaire de la même manière
que la médiane :
L’expression de la médiale est donnée par :
L2 − L1
Ml = L1 + (0.5 − Qi (ei−1 ))
Qi (ei ) − Qi (ei−1 )
3.3 La courbe de concentration
La courbe de concentration ou de Lorenz est le polygone obtenu en joignant, les
points de coordonnées (Fi , Qi ), dans un repère orthonormé. Cette représentation se

fait dans un carré de côté égal à l’unité. La courbe de Lorenz se situe toujours au
Qi
1 B
0,94
D:y! x
0
0,7
0 16
0,16 Surface de concentration
0,086
0,033 A
O 0,2 0,3 0,39 0,84 0,96 1 F
i
dessous de la diagonale du fait que quelque soit x on a : F (x) ≥ Q(x).

Plus la courbe de concentration se rapproche de la diagonale, plus la concentration
36
est faible c’est à dire la repartition est égalitaire et plus la courbe s’éloigne de
la diagonale, plus la distribution est concentrée ou encore inégalement repartie.
Il existe deux cas extremes :

Cas 1 : la courbe de concentration se confond avec la diagonale : on parle d’équi-
répartition parfaite ce qui signifie une concentration nulle ;
Cas 2 : La courbe de concentration se confond avec les côtés OA et AB du tri-
angle OAB : c’est le cas hypothétique où un seul individu possède toute la
richesse, on dit aussi que la série est totalement concentrée.
3.4 Indice de concentration : Indice de Gini
3.4.1 Surface de concentration
Notée S c’est la surface comprise entre la diagonale OB et la courbe de concen-
tration.
Plus la courbe s’éloigne de la diagonale, plus la surface de concentration est grande.
3.4.2 Définition de l’indice de Gini
C’est le rapport entre l’aire de la surface de concentration et l’aire du triangle

OAB. Il est défini comme suit :
S
IG = 1 = 2S
2
Propriétés
1. L’indice de Gini est toujours compris ente 0 et 1 puisque S est compris ente
1
0 et 2
;
2. Dans le premier cas extrême, l’indice de Gini est nul et dans le deuxième cas,
il est égal à 1 ;
3. Plus l’indice de Gini tend vers 1, plus la concentration est forte ;
37
4. Plus l’indice de Gini tend vers 0, plus la concentration est faible.
3.4.3 Calcul de l’indice de Gini
On retient la méthode des trapèzes qui consiste à calculer l’aire de la surface

complémentaire à S par rapport à l’aire du triangle OAB. Il suffit de créer une
nouvelle colonne fi (Qi + Qi−1 ) (voir tableau 3.1). Donc l’IG est définit comme suit :
n
X
IG = 1 − fi (Qi + Qi−1 )
i=1
Exemple
Selon les données de l’exemple précédent (tableau 3.1), l’indice de Gini IG = 1 −
0.70204 ≈ 0.30
38
CHAPITRE 4
DISTRIBUTION À DEUX VARIABLES
Pour l’étude de certains phénomènes complexes, il s’avère insuffisant de prendre

en compte un seul caractère. C’est pour cette raison qu’il en faut considérer plus de
deux caractères. Naturellement, l’analyse des tableaux statistiques correspondants et

leur représentation graphique deviennent plus difficiles. On est donc conduit, en dé-
finissant des distributions marginales et conditionnelles, à ramener la représentation
d’une distribution à plusieurs dimensions à celle de distribution à un seul carac-
tère. Les séries statistiques à deux caractères sont présentées sous forme de tableaux
statistiques à deux dimensions (ou à double entrée).
1 Présentation générale des tableaux à double en-
trée (tableau de contingence)
On considère une population de n individus mesurés simultanément (en même

temps) par les deux caractères X et Y , de modalités respectives x1 , x2 , . . . , xi , . . . , xL
et y1 , y2 , . . . , yj , . . . , yK . On désigne par nij le nombre d’individus appartenant à la
fois à une classe de rang i pour la variable X et de rang j pour la variable Y .
39
Généralement, le tableaux à deux dimensions se présente de la manière suivante :
Tableau 4.1 –
❍
❍❍ Y
❍
y1 y2 ... yj ... yK Total
X ❍❍
x1 n11 n12 n1j n1K n1•
x2 n21 n22 n2j n2K n2•
.
.
.
xi ni1 ni2 nij niK ni•
.
.
.
xL nL1 nL2 nLj nLK nL•
Total n•1 n•2 n•j n•K n•• = n
— Les effectifs situés à l’intérieur du tableau sont notés nij qui désigne le nombre
d’individus qui ont à la fois la modalité xi de la variable X et la modalité yj
de la variable Y ;
— L’effectif ni• s’appelle effectif marginal de X et il représente le nombre total

d’individus ayant la modalité xi de X quelque soit la modalité de Y ;
— L’effectif n•j s’appelle effectif marginal de Y et il représente le nombre total
d’individus ayant la modalité yj de Y quelque soit la modalité de X ;
— n•• est l’effectif total c’est à dire le nombre total d’individus de la population.
n•• = Li=1 K
P P PL PK
j=1 nij = i=1 ni• = j=1 n•j
Exemple
La répartition de 100 étudiants selon leurs résultats en Mathématiques (X) et en
Statistiques (Y) a donné les résultats suivants :
40
Tableau 4.2 –
❍
❍❍ Y
2 6 8 12 14 Total
X ❍❍❍
7 9 7 1 0 0 17
11 2 26 3 0 1 32
12 2 4 15 4 2 27
15 0 1 4 17 2 24
Total 13 38 23 21 5 100
La valeur 26 indique que : parmi les 100 étudiants observés, il y a 26 étudiants ont
eu 11 et 6 comme moyennes en math et en statistique respectivement.
La valeur 27 indique que : parmi les 100 étudiants observés, il y a 27 qui ont 12 de
moyenne en Math indépendamment de sa moyenne en statistiques.
La valeur 5 indique que : parmi les 100 étudiants observés, il y a 5 qui ont 14 de
moyenne en Stat indépendamment de sa moyenne en Math.
NB : On peut aussi déterminer les fréquences conjointes. Elles sont données par :
nij
fij =
n
2 Distributions marginales
2.1 Définition
A partir de la distribution conjointe (tableau de contingence) des variables X et
Y , on peut déduire la distribution marginale de X et celle de Y , ce qui nous permet

d’analyser séparément chacune des variables.
On appelle distribution marginale de X, les données des L couples (xi , ni• ) c’est
à dire la première et la dernière colonne du tableau de contingence :
41
Tableau 4.3 – Distribution marginale de X
X Effectif marginal
x1 n1•
x2 n2•
.
.
.
xi ni•
.
.
.
xL nL•
Total n•• = n
On appelle distribution marginale de Y , les données des K couples (yi , n•j ) c’est
à dire la première et la dernière ligne du tableau de contingence :
Tableau 4.4 – Distribution marginale de Y

Y Effectif marginal
y1 n•1
y2 n•2
.
.
.
yj n•j
.
.
.
yK n•K
Total n•• = n
42
2.2 Exemple
Reprenons l’exemple précédent ;
Tableau 4.5 – DM de X Tableau 4.6 – DM de Y

X Effectif marginal Y Effectif marginal
7 17 2 13
11 32 6 38
12 27 8 23
15 24 12 21
Total 100 14 5
Total 100
n3• 27
La fréquence marginale de la modalité 3 de la variable X est : f3• = n
= 100
= 27%
n•1 13
La fréquence marginale de la modalité 1 de la variable Y est : f•1 = n
= 100
= 13%
2.3 Les moyennes marginales
Soit une population P , on fait une observation simultanément selon les caractères
X et Y . X (p modalités) et Y (q modalités).
1
PP
x : variable discrète : x = n•• i=1 ni• xi
1
PQ
y : variable discrète : y = n•• i=1 n•j yj
1
PP
x : variable continue : x = n•• i=1 ni• ci
1
PQ
y : variable continue : y = n•• i=1 n•j cj
2.4 Les variances marginales

1
PP
x : variable discrète : V (x) = n•• i=1 ni• (xi − x)2
1
PQ
y : variable discrète : V (y) = n•• i=1 n•j (yj − y)2
1
PP
x : variable continue : V (x) = n•• i=1 ni• (ci − x)2
1
PQ
y : variable continue : V (x) = n•• i=1 n•j (cj − y)2
43
3 Distributions conditionnelles
3.1 Définition
On appelle distribution conditionnelle de Y sachant que X = xi , la distribution

des individus correspondant à la modalité xi de X et suivant les modalités de Y . De
même, on appelle distribution conditionnelle de X sachant que Y = yj , la distribution
des individus correspondant à la modalité yj de Y et suivant les modalités de X. Ces
deux distributions sont deux distributions statistiques à une seule variable et peuvent
se présenter sous la forme suivante :
Tableau 4.7 –
Distribution conditionnelle de X sachant Y = yj
X/Y = yj ni /j
x1 n1j
x2 n2j
.
.
xi nij
.
.
xl nLj
Total n•j
Tableau 4.8 –
Distribution conditionnelle de Y sachant X = xi
Y /X = xi nj /i
y1 ni1
y2 ni2
.
.
yj nij
.
.
yK niK
Total ni•
44
3.2 Exemple
Tableau 4.9 – Distribution conditionnelle de X

X f i/Y = 2 f i/Y = 6 f i/Y = 8 f i/Y = 12 f i/Y = 14
7 0.7 0.18 0.04 0 0
11 0.15 0.7 0.13 0 0.2
12 0.15 0.1 0.65 0.2 0.4
15 0 0.02 0.18 0.8 0.4
Total 1 1 1 1 1
Tableau 4.10 – Distribution conditionnelle de Y

Y fj /x = 7 fj /x = 11 fj /x = 12 fj /x = 15
2 0.53 0.06 0.08 0
6 0.41 0.81 0.14 0.05
8 0.06 0.1 0.56 0.17
12 0 0 0.15 0.7
14 0 0.03 0.07 0.08
Total 1 1 1 1
3.3 Les moyennes conditionnelles
Moyenne conditionnelle de x sachant y :
xj = x/y
P
1 X
= nij xi
n•j i=1
Moyenne conditionnelle de y sachant x :
yi = y/x
Q
1 X
= nij yj
ni• i=1
45
3.4 Les variances conditionnelles
Variance conditionnelle de x sachant y :
P
1 X
Vj (x) = nij (xi − xj )2
n•j i=1
P
1 X
= nij x2i − x2j
n•j i=1
Variance conditionnelle de y sachant x :
Q
1 X
Vi (y) = nij (yj − yi )2
ni• i=1
P
1 X
= nij yj2 − yi2
ni• i=1
4 Notion d’indépendance
Deux variables aléatoires sont totalement indépendantes si les variations de l’une
n’interviennent pas dans la variation de l’autre.

— Dans le cas d’indépendance, les fréquences conditionnelles sont égales aux
fréquences marginales fi/j = fi• et fj/i = f•j
— Dans le cas d’indépendance, la fréquence conjointe est égale au produit des
fréquences marginales fij = fi• × f•j

— Dans le cas d’indépendance, les moyennes conditionnelles sont égales aux
moyennes marginales pour chaque variable.
Exemple
Répartition de 100 ménages selon le salaire et l’age. Vérifier l’indépendance des deux
variables.
Pou monter l’indépendance des deux variables, il faut vérifier si fij = fi• × f•j ou
46
Tableau 4.11 –
❍
❍❍ A
[25,30[ [30,35[ [35,40[ [40,60[ Total
S ❍❍❍
[250, 300[ 18 6 12 24 60
[300, 600[ 6 2 4 8 20
[600, 800[ 6 2 4 8 20
Total 30 10 20 40 100
non.
Tableau 4.12 –
❍
❍❍ A
[25,30[ [30,35[ [35,40[ [40,60[
S ❍❍❍
[250, 300[ 0.18 0.06 0.12 0.24
[300, 600[ 0.06 0.02 0.04 0.08
[600, 800[ 0.06 0.02 0.04 0.08
Tableau 4.13 –
❍
❍❍ f•j
0.3 0.1 0.2 0.4 T
fi• ❍❍❍
0.6 0.18 0.06 0.12 0.24 0.6
0.2 0.06 0.02 0.04 0.08 0.2
0.2 0.06 0.02 0.04 0.08 0.2
T 0.3 0.1 0.2 0.4 1
47
Les deux tableaux sont identiques. Donc, les deux variables sont indépendantes.
5 Corrélation et ajustement linéaire
5.1 Covariance entre X et Y
a) Définition
La covariance est égale à la moyenne des écarts des couples (xi , yi ) de X et Y par
rapport au point (x, y)
N
1 X
cov(x, y) = (xi − x)(yi − y)
N i=1
La covariance indique la nature de la relation entre X et Y . Plusieurs cas se pré-
sentent :
— cov(x, y) > 0 la relation entre X et Y est positive, les deux variables varient
dans le même sens.
— cov(x, y) < 0 la relation entre X et Y est négative, les deux variables varient
en sens inverse.
— cov(x, y) = 0 pas de relation entre les deux variables.

b) Propriétés
i Cov(ax + b, cy + d) = a.cCov(x, y) ;
ii Cov(y, x) = Cov(x, y) ;
iii Cov(x, x) = V (x) ;
5.2 Cœfficient de corrélation linéaire entre x et y
5.2.1 Définition
Le cœfficient de corrélation linéaire permet de voir le degré de liaison linéaire

entre deux variables statistiques. Le cœfficient de corrélation linéaire entre x et y est
48
défini par :
cov(x, y) cov(x, y)
r(x, y) = p =
v(x)v(y) σx σy
On distingue trois cas suivants :

— si r > 0, les deux variables varient dans le même sens.
— si r < 0, les deux variables varient dans le sens inverse.
— si r = 0, les deux variables sont linéairement indépendantes.
5.2.2 Propriétés
— r(ax + b, cy + d) = sgn(a) × sgn(c) × r(x, y)

— r(x, y) ∈ [−1, 1]
5.2.3 Interprétation de la valeur de r(x, y)
— si r = 1, on dit qu’il y a une parfaite corrélation linéaire positive

— si r = −1, on dit qu’il y a une parfaite corrélation négative
— si r = 0, on dit qu’il y a absence de corrélation linéaire entre les deux variables.
5.3 L’ajustement linéaire d’un nuage de point
On considère deux variables statistiques quantitatives X et Y . la représentation
du nuage de points de coordonnées (xi , yi ) peut nous renseigner sur l’allure de la

courbe reliant Y à X.
Géométriquement, les n couples (xi , yi ) peuvent êtres représentés dans un repère
orthonormé par un nuage de n points. Si ce nuage est assimilé à une droite (ce qui
fera l’objet de cette section), le problème de l’ajustement sera la détermination de
la droite qui approche le mieux l’ensemble des n points. Le mieux signifie la plus
proche possible de tous les points.
49
5.3.1 La droite de régression de y sur x
Lorsqu’il s’agit d’une liaison linéaire entre les deux variables, on parle alors d’ajus-
tement linéaire. L’ajustement linéaire consiste à estimer les cœfficients de la droite
de régression de type y = ax + b c’est à dire à trouver la valeur de a et celle de b.
Cette droite reflète l’évolution moyenne de la variable y (variable expliquée) en

fonction de la variable explicative x. Afin de déterminer ces cœfficients, nous allons
utiliser une méthode dite Méthode des Moindres Carrés Ordinaire (MCO).
a) Le critère des moindres carrés
Considérons N couples d’observations (xi , yi ) telque yi = axi + b+ ui où ui représente

le résidu du couple (xi , yi ), on peut écrire alors ui = yi − (axi + b)
La méthode MCO consiste à ajuster le nuage des points par une droite de ma-
nière à minimiser la somme des carrés des distances entre les points de nuage de cette
droite. Cela revient à minimiser la somme des carrés des résidus.
b) La détermination des paramètres a et b par la méthode MCO

on a ui = yi − axi − b
u2i = (yi − axi − b)2

Min N
P 2
PN 2
i=1 ui = Min i=1 (yi − axi − b) = f (a, b)
Les
 conditions de premier ordre
 ∂f (a,b) = 0

∂a
∂f (a,b)


∂b
= 0
On trouve donc les valeurs â et b̂, estimateurs de a et de b par la méthode des MCO
50
comme suit :
cov(x, y)
â =
V ar(x)
PN
i=1 xi yi − Nx y
= P N 2 2
i=1 xi − Nx
b̂ = y − âx
5.4 Cœfficient de détermination
Afin de mesurer la qualité de cet ajustement, on définit le cœfficient de détermi-

nation noté R2 par la part de la variance expliquée dans la variance totale.
PN 2
2 variance explique SCE i=1 (ŷi − y)
R = = = PN
variance totale SCT i=1 (yi − y)
2
-si R2 = 1 on dit que l’ajustement est parfait

-si R2 = 0 pas de relation entre x et y.
51

Cours Stat 1LNSG 2020

Transféré par

Droits d'auteur :

Formats disponibles

Cours Stat 1LNSG 2020

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Stat 1LNSG 2020

Transféré par

Droits d'auteur :

Formats disponibles

Université de Tunis

Institut Supérieur de Gestion de Tunis

2 Tendance centrale et de dispersion 19

3 Caractéristique de forme et de concentration 33

4 Distribution à deux variables 39

Il est nécessaire, avant d’exposer les différentes méthodes utilisées, de donner la

On remarque bien que ces statistiques sont importantes et nécessaires pour le

1.1 Population (ensemble statistique)

Exemples : la population des ménages d’une cité, les entreprises industrielles en

1.2 Unité statistique ou individu

C’est un seul élément de l’ensemble de la population. Une population est donc

1.3 Caractère (variable)

Un caractère est un aspect observable du phénomène étudié : c’est une dimension

Exemples : L’âge, la marque, la taille, le salaire, le chiffre d’affaire, la nationa-

ractère qualitatif nominal

Exemple : le niveau de scolarisation (primaire, secondaire et supérieur), catégorie

Exemple : la couleur, les pays arabes, la nationalité, . . .etc.

1.3.2 Caractère quantitatif

1. Variable quantitative discrète : si les valeurs qu’elle peut prendre sont

L’information statistique collectée sous forme de données individuelles, n’est pas

diée (notées Xi ). La deuxième colonne contient les effectifs correspondants à chaque

La distribution statistique est une répartition de la population observée selon les

différentes modalités du (des) caractère(s) retenu(s). Si on retient un seul caractère,

Pour être utilisable, un tableau doit comporter un certain nombre d’éléments

dont les principaux sont les suivants :

— Les titres des lignes et des colonnes.

2.1 Présentation des caractères qualitatifs

2.1.1 Tableau statistique

Avec ni le nombre des individus de la population qui présentent la modalité Xi

NB : Les secteurs ne sont pas ordonnés.

M : Ensemble des modalités : IMM, IAA, ITH, IPPC et ICC

Variable qualitative nominale Pour les caractères qualitatifs nominales, deux

La distribution est représentée par un cercle divisé en k secteurs (chaque modalité

Reprenons les données du tableau 1.2 :

Secteurs Fréquences fi angle αi

La représentation graphique est donnée comme suit :

Textile et Habillement (ITH)

Diagramme en tuyaux d’orgue ou diagramme en barres

Variable qualitative ordinale Si les modalités sont ordonnées, on représente la

Reprenons les données du tableaux 1.3.

2.2.1 Effectifs et fréquences

La forme du tableau statistique se présente comme suit :

2.2.2 Représentation graphique des effectifs et des fréquences

Les caractères quantitatifs discrets donnent lieu à une représentation graphique

appelée diagramme différentiel ou diagramme en bâtons. Dans ce diagramme, chaque

2.2.3 Effectifs et fréquences cumulé(e)s

Effectifs cumulés croissants : Nombre d’individus pour lesquels la variable est

d’une distribution observée en commençant par le 1er.

Nombre Effectif Eff cum Eff cum fréquences fréquences cum

X 95 est le nombre de ménages possédant un nombre d’enfants inférieur ou égale

à 1 est de 23.3% (dém : 1ère méthode : f1 + f2 ; 2ème méthode F (1) ր (qui

• On peut définir des effectifs cumulés décroissants et fréquences cumulées dé-

2.2.4 Fonction de répartition

x est une valeur particulière donnée à ce caractère.

— F est définie quelle que soit x appartenant à ℜ, x correspond ou non à une

F (Mi ) = P (X < Mi ) = P (X = M1 et X = M2 . . . et X = Mi−1 )

Diagramme intégral ou courbe cumulative

La courbe cumulative décroissante est le tracé de la fonction N ց (ou F ց pour

2.3.1 Les modalités et le tableau statistique