Cours Stat 1LNSG 2020
Cours Stat 1LNSG 2020
Cours Stat 1LNSG 2020
Cours
Statistique descriptive et probabilités
Mme. Hanen SDIRI ALOUI
Année universitaire
2019-2020
TABLE DES MATIÈRES
I Statistiques descriptives iv
1 Notions de base 1
Notions de base 1
1 Les concepts de base . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1 Population (ensemble statistique) . . . . . . . . . . . . . . . . 2
1.2 Unité statistique ou individu . . . . . . . . . . . . . . . . . . . 2
1.3 Caractère (variable) . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3.1 Caractère qualitatif . . . . . . . . . . . . . . . . . . . 3
1.3.2 Caractère quantitatif . . . . . . . . . . . . . . . . . . 3
1.4 Modalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Tableaux et graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1 Présentation des caractères qualitatifs . . . . . . . . . . . . . . 5
2.1.1 Tableau statistique . . . . . . . . . . . . . . . . . . . 5
2.1.2 Représentation graphique . . . . . . . . . . . . . . . 7
2.2 Présentation des caractères quantitatifs discrets . . . . . . . . 9
2.2.1 Effectifs et fréquences . . . . . . . . . . . . . . . . . 9
2.2.2 Représentation graphique des effectifs et des fréquences 9
2.2.3 Effectifs et fréquences cumulé(e)s . . . . . . . . . . . 10
2.2.4 Fonction de répartition . . . . . . . . . . . . . . . . . 11
2.3 Présentation des caractères quantitatifs continus . . . . . . . . 14
i
2.3.1 Les modalités et le tableau statistique . . . . . . . . 14
2.3.2 Représentations graphiques des effectifs et fréquences 15
ii
3.4.2 Définition de l’indice de Gini . . . . . . . . . . . . . 37
3.4.3 Calcul de l’indice de Gini . . . . . . . . . . . . . . . 38
iii
Première partie
Statistiques descriptives
iv
CHAPITRE 1
NOTIONS DE BASE
Nous devons tout d’abord faire la distinction entre les deux notions suivantes :
− Statistiques : désigne des collections de chiffres ou d’observations et qui regroupent
toutes les informations relatives à un même phénomène et qui sont généralement is-
sues d’une enquête, étude. . ..
Exemple : les statistiques économiques sont les renseignements relatifs aux prix,
salaires, la production industrielle, échanges extérieurs, la consommation . . ..
− Statistique : est constituée par l’ensemble des procédés ou des méthodes avec
lesquels on va pouvoir étudier les statistiques. Donc la statistique est l’outil de travail
de la matière première constituée par les statistiques.
1
1 Les concepts de base
Une population est un ensemble d’individus, ce qui ne veut pas dire des êtres
humains ça peut êtres des objets, des animaux, des villes, des êtres humains. . .
Tunisie, les étudiants de la 1ère année LFSG de l’ISG Tunis, les pays arabes.
type, même nature) dont le nombre est fini. Une population ne peut pas comporter
en même temps des voitures et des étudiants.
2
1.3.1 Caractère qualitatif
Un caractère est qualitatif si ses diverses modalités ne sont pas mesurables, elles
sont plutôt identifiées. Comme par exemple les caractères : sexe, couleur, gouverno-
rat d’appartenance, marque. . .
On distingue deux types de caractères qualitatifs : caractère qualitatif ordinal et ca-
Caractère qualitatif ordinal : il est exprimé sur une échelle ordinale : les
modalités peuvent être classées dans un certain ordre les unes par rapport aux autres.
Un caractère est quantitatif s’il possède des modalités mesurables chiffrées telle
que par exemple : la taille, l’âge, le revenu. . .on distingue :
des valeurs isolées. Le cas le plus fréquent de variable discrète est celui où les
valeurs possibles sont des nombres entiers. Exemple : le nombre d’enfant d’un
ménage, nombre d’ouvrier d’une usine.
2. Variable quantitative continue : les modalités sont des valeurs qui ap-
partiennent à un intervalle donné : des nombres infinis. Exemple : âge, taille,
salaire . . .
3
1.4 Modalités
Les modalités sont les différentes valeurs possibles que peuvent prendre un carac-
tère ou une variable statistique (v.s).
Exemples
Caractère Modalités
X Sexe masculin/féminin
X Situation matrimoniale marié/célibataire/veuf/divorcé
X Nombre d’enfants 1/2/3 . . .
X Moyenne au bac [0,5[,[5,10[,[10,15[,[15,20[
2 Tableaux et graphiques
4
nomène présenté).
— L’unité utilisée : dinars, millions de tonne, milliers de personnes.
La distribution peut aussi être représentée par un graphique qui a l’avantage de don-
ner une lecture visuelle immédiate des aspects dominants.
Comme nous l’avons cité précédemment, la variable peut être qualitative ou quan-
titative.
Si les modalités ne sont pas mesurables, dans ce cas on parle d’un caractère
qualitatif. Le tableau statistique a la forme suivante :
Tableau 1.1 –
Modalités (Xi ) Effectifs de chaque modalité (ni )
X1 n1
X2 n2
X3 n3
.. ..
Xk nP
k
Total N = ni
5
Exemple : variable qualitative nominale
Répartition de 303 entreprises tunisiennes par secteur d’activités.
Tableau 1.2 –
Secteurs Effectif ni Fréquences fi fi (%)
Mécanique et Métallurgie (IMM) 64 0.2112 21.12
Agro-alimentaire (IAA) 102 0.3367 33.67
Textile et Habillement (ITH) 110 0.363 36.3
Pâtes, Papiers et Cartons(IPPC) 10 0.033 3.3
Cuir et chaussure (ICC) 17 0.0561 5.61
Total 303 1 100
source : Ministère de l’enseignement supérieur
Tableau 1.3 –
Modalités Effectifs ni
Pas d’importance (A) 10
Faible importance (B) 25
Importance moyenne (C) 40
Grande importance (D) 32
Total 107
6
2.1.2 Représentation graphique
Diagramme en secteurs
7
thonormé ayant :
En abscisses : les modalités du caractère (Xi ). La largeur de chaque rectangle est la
même quelle que soit la modalité, la largeur n’est pas une mesure ;
En ordonnées : les valeurs des effectifs ou des fréquences.
La présentation des rectangles peut se faire selon un ordre arbitraire des modalités.
La surface des rectangles est proportionnelle à la fréquence.
120
100
80
60
40
20
0
Mécanique et Agro!alimentaire Textile et Pâtes, Papiers et Cuir et chaussure
Métallurgie (IMM) (IAA) Habillement (ITH) Cartons(IPPC) (ICC)
45
40
35
30
25
20
15
10
5
0
Pas Faible Importance Grande
d’importance importance (B) moyenne (C) importance (D)
(A)
8
2.2 Présentation des caractères quantitatifs discrets
Tableau 1.4 –
Modalités (Xi ) Effectifs de chaque modalité (ni )
X1 n1
X2 n2
X3 n3
.. ..
Xk nP
k
Total N = ni
où les Xi sont, dans la plupart des cas, des nombres entiers (variable discrète).
Exemple
La répartition de 150 ménages selon le nombre d’enfants est donnée dans le tableau
suivant :
Tableau 1.5 –
Nombre d’enfants effectifs ni fréquences fi
0 5 0.033
1 30 0.2
2 60 0.4
3 35 0.233
4 20 0.134
Total 150 1
9
effectifni (fi)
0
0 1 2 3 4
nbre xi
Exemple
Reprenons l’exemple précédent (tableau 1.5)
10
nombre d’enfants =3)).
X La proportion de ménages possédant un nombre d’enfants inférieur ou égal
Tableau 1.6 –
Nombre d’enfants effectifs ni fréquences fi fréquences cum croissantes Fi ց
0 5 0.033 1
1 30 0.2 0.967
2 60 0.4 0.767
3 35 0.233 0.367
4 20 0.134 0.134
Total 150 1 0
Les caractères quantitatifs discrets ont des modalités ordonnées (pas comme le
cas des caractères qualitatifs), de ce fait, on peut construire la fonction de répartition.
Notation : X est la valeur du caractère quantitatif discret ;
F : ℜ → [0, 1]
x → F (x) = P (X ≤ x)
11
De cette définition de la fonction de répartition découlent les considérations sui-
vantes :
— F (M3 ) = P (X ≤ M3 ) = P (X = M1 et X = M2 et X = M3 ) = f1 + f2 + f3 ;
— En générale pour i ≥ 2 ;
= f1 + f2 + ... + fi
— F (x) = 1 ∀ x ≥ Mk ;
— F est une fonction non décroissante, elle est croissante ou constante puisque
ces valeurs sont de plus en plus grande ou constantes. D’une manière générale,
la fonction de répartition est constante par intervalle.
Tableau 1.7 –
Mi fi Fi ↑
M1 f1 f1
M2 f2 f1 + f2
M3 f3 f1 + f2 +f3
... .... ....
Mi fi f1 + f2 + .... + fi
... ... ...
Mk fk f1 + f2 + .... + fi + .... + fk = 1
12
ou égal à x.
Fi
1
0.866 C
0.633 C
0.233 C
0 033
0.033 C
0 1 2 3 4 Xi
les fréquences) qui a tout réel x associe N ց (x) = nombre d’observations supérieur
strictement à x.
Fi
1
0.967
C
C
0.767
C
0.367
0.134
C
0 1 2 3 4 Xi
13
2.3 Présentation des caractères quantitatifs continus
Dans le cas d’une variable continue, les modalités appartiennent à des intervalles
[a, b] de ℜ. a et b sont respectivement la plus petite et la plus grande valeurs observées.
[a, b] sera donc subdivisé en k sous-intervalles disjoints [ei−1 , ei [ : par convention fermé
à gauche et ouvert à droite. Chaque sous-intervalle est appelé classe, la différence
ei − ei−1 = ai s’appelle amplitude de la classe.
On pose a = e0 et b = ek
Tableau 1.8 –
Xi ni fi
[e0 , e1 [ n1 f1
[e1 , e2 [ n2 f2
[e2 , e3 [ n3 f3
[e3 , e4 [ n4 f4
... ... ...
[ek−1 , ek [ nk fk
total N 1
Exemple
Une étude statistique sur les salaires de 100 employés d’une entreprise a fourni les
données décrites par le tableau suivant :
14
Tableau 1.9 –
Xi ni Ni ր Ni ց fi (%) Fi ր (%) Fi ց (%) ai ci
[150, 200[ 20 20 100 20 20 100 50 175
[200, 300[ 15 35 80 15 35 80 100 250
[300, 400[ 16 51 65 16 51 65 100 350
[400, 500[ 30 81 49 30 81 49 100 450
[500, 600[ 13 94 19 13 94 19 100 550
[600, 700[ 6 100 6 6 100 6 100 650
total 100 100
Remarque
Il arrive souvent que les bornes e0 et ek ne soient pas définies avec précision c’est à
dire Modalité 1 : moins que e0 et Modalité k : plus que ek .
Cette imprécision provient du fait que les valeurs limites e0 et ek sont assez éloignées.
Alors par convention : pour fixer e0 , on prend la même amplitude que la classe
suivante, de même pour fixer ek on prend l’amplitude de la classe précédente. Cette
procédure est donnée par le tableau suivant :
Tableau 1.10 –
Xi ni fi
Moins de 10 n1 f1
[10, 15[ ... ...
[50, 60[ ... ...
Plus 60 ... ...
total ... ...
ei−1 +ei
Nous pouvons aussi calculer les centres des classes : Ci = 2
de l’autre), il s’agit d’un rectangle par modalité ou par classe. La largeur de chaque
rectangle est égale à l’amplitude de la classe et la longueur est égale à son effectif ou
à sa fréquence.
15
Deux cas peuvent se présenter :
1er cas : toutes les amplitudes des classes sont égales : la représentation de l’his-
2. il faut choisir l’amplitude de référence qui est la plus petite ou la plus répandue
ou le plus petit diviseur commun.
3. si les amplitudes ne sont pas égales, il faut calculer les fréquences corrigées ou
les effectifs corrigés.
Exemple
Reprenons l’exemple précédent : tableau 1.9 (Avec a = 50).
Tableau 1.11 –
Xi ni ai fi (%) fic (%)
[150, 200[ 20 50 20 20
[200, 300[ 15 100 15 7.5
[300, 400[ 16 100 16 8
[400, 500[ 30 100 30 15
[500, 600[ 13 100 13 6.5
[600, 700[ 6 100 6 3
Total 100 100
16
25
fi corrigé
20
15
10
0
[150,200[ [200,300[ [300,400[ [400,500[ [500,600[ [600,700[
xi
égales on repère les points milieux des sommets des rectangles de l’histogramme et on
relie ces points par des segments de droite pour obtenir le polygone des fréquences.
Si les amplitudes ne sont pas égales on divise chaque rectangle en sous rectangles
dont le nombre est fonction de son amplitude puis on trace le polygone. Le polygone
fic
Polygone des
20 fréquences Histogramme
15
10
17
La fonction cumulative est définie par :
F (x1 ) = P [X ≤ x1 ] = f1
F (x2 ) = P [X ≤ x2 ] = P [X = x1 ] + P [X = x2 ] = f1 + f2
.
.
F (xk ) = P [X ≤ xk ] = f1 + f2 + ... + fk
100
80
60
40
20
0
[150,200[ [200,300[ [300,400[ [400,500[ [500,600[ [600,700[
18
CHAPITRE 2
Pour avoir une idée claire sur la distribution de la variable, nous ferons appel
aux paramètres de tendance centrale et de dispersion. L’étude d’une série statistique
doit être faite à trois points de vue : une analyse de la caractéristique centrale de
la série, dispersion ou fluctuation des différentes observations autour de cette valeur
centrale, forme (symétrie, aplatissement) du diagramme représentatif de la série.
Dans certaines conditions, on peut également calculer un indice de concentration.
19
fréquence fi ) le(a) plus élevé(e).
Exemple
Pour l’exemple suivant le Mode correspond au secteur Textile et Habillement
(ITH)
Tableau 2.1 –
Secteurs Effectif ni Fréquences fi
Mécanique et Métallurgie (IMM) 64 0.2112
Agro-alimentaire (IAA) 102 0.3367
Textile et Habillement (ITH) 110 0.363
Pâtes, Papiers et Cartons(IPPC) 10 0.033
Cuir et chaussure (ICC) 17 0.0561
Total 303 1
Mode=Textile et Habillement
Exemple
Tableau 2.2 –
Xi ni
0 103
1 115
2 95
3 35
4 10
5 2
Mode = 1
20
Graphiquement, il correspond à l’abscisse du bâton le plus élevée.
Mode
- Les classes ont des amplitudes différentes : on calcule les fréquences corrigées,
la classe modale sera celle qui correspond à la fréquence corrigée la plus élevée.
21
Xi ni ai fi fic
[150, 200[ 20 50 20 20
[200, 300[ 15 100 15 7.5
[300, 400[ 16 100 16 8
[400, 500[ 30 100 30 15
[500, 600[ 13 100 13 6.5
[600, 700[ 6 100 6 3
Total 100 100
d1
Mo = L1 + d1 +d2
(L2 − L1 )
classe modale ;
d1 =fréquence par unité d’amplitude de la classe modale moins la fréquence par unité
d’amplitude de la classe qui précède
d2 =fréquence par unité d’amplitude de la classe modale moins la fréquence par unité
20−0
Dans ce cas, le mode est Mo = 150 + (20−0)+(20−7.5)
(200 − 150) = 180.77
Détermination graphique du Mode
25
fi ccorrigé
20
15
10
0
[150,200[ [200,300[ [300,400[ [400,500[ [500,600[ [600,700[
Xi
Mode
22
1.2 La Médiane (noté Me )
comme suit :
F (Me ) = 0.5.
z Si n est pair on parle d’intervalle médiane dont les bornes sont les observations
n n+1
d’ordre 2
et 2
.
Exemple
Tableau 2.3 –
Nombre d’étudiants 0 0 1 1 2 3 3 3 4
Rang 1 2 3 4 5 6 7 8 9
Variable discrète
La médiane est la modalité xi tel que Fi−1 ր< 0.5 ≤ Fi ր
Exemple La répartition de 360 diplômés selon le nombre d’étude est donnée comme
suit
La médiane correspond à Fi−1 ր< 0.5 ≤ Fi ր. Donc d’après le tableau 2.4, la
Médiane=1.
23
Tableau 2.4 –
xi ni Fi ր
0 103 0.286
1 115 0.606
2 95 0.869
3 35 0.967
4 10 0.994
5 2 1
Total 360
Variable continue
Analytiquement : La détermination de la médiane nécessite tout d’abord la déter-
mination de la classe médiane. Ensuite on utilise la méthode d’interpolation linéaire
afin de calculer la valeur exacte de la Me . On précède au deux étapes suivantes :
Fi ( ei !1 ) Fi ( M e ) " 0.5 Fi ( ei )
ei !1 Me ei
L2 − L1
Me = L1 + (0.5 − Fiր (ei−1 ))
Fiր (ei ) − Fiր (ei−1 )
Exemple
Première méthode : interpolation linéaire
24
Tableau 2.5 –
Xi Fi
[0, 3[ 0.391
[3, 5[ 0.68
[5, 10[ 0.92
[10, 20[ 0.963
[20, 30[ 0.993
[30, 50[ 1
3 Me 5
5−3
Me = 3 + (0.5 − 0.391) = 3.75
0.68 − 0.391
25
1.3 Moyenne arithmétique
k
1 X
X= xi
N i=1
Exemple
On observe les notes en statistique d’un groupe de 10 étudiants 10, 13, 18, 6, 5, 16,
9, 14, 9, 11.
10
1 X 10 + 13 + 18 + 6 + 5 + 16 + 9 + 14 + 9 + 11
X= xi = = 11.1
N i=1 10
Données groupées
La moyenne est définie par
k k
1 X X
X= ni xi = fi xi
N i=1 i=1
Exemple
26
Tableau 2.6 –
Xi ni ni Xi
0 103 0
1 115 115
2 95 190
3 35 105
4 10 40
5 2 10
Total 360 460
Moyenne X 1.277778
Dans ce cas, on parle uniquement des données groupées par classe. La moyenne
arithmétique d’une distribution statistique continue est donnée comme suit :
k k
1 X X
X= ni ci = fi ci
N i=1 i=1
Exemple
On dispose des informations suivantes concernant la répartition de 90 entreprises
tunisiennes selon la taille (nombres d’employés).
Tableau 2.7 –
Xi ni ci ni ci
[0, 20[ 38 10 380
[20, 40[ 13 30 390
[40, 50[ 5 45 225
[50, 60[ 7 55 385
[60, 80[ 12 70 840
[80, 90[ 4 85 340
[90, 100[ 11 95 1045
Total 90 3605
7
1 X 3605
X= ni ci = = 40.055
N i=1 90
27
Remarque
Pour une population donnée, les deux propriétés suivantes sont toujours vérifiées :
X − Mo = 3(X − Me )
H<G<X <Q
ces paramètres mais avec des distributions qui se font d’une manière nettement dif-
férentes. D’où la nécessité de calculer d’autres indicateurs capables de rendre compte
des écarts entre les différentes valeurs observées et les valeurs centrales.
e = xmax − xmin
1. Q1 : premier quartile : valeur de la variable telle que 25% des observations lui
soient inférieures. F (Q1 ) = 0.25 ;
28
2. Q2 : deuxième quartile : valeur de la variable telle que 50% des observations
lui soient inférieures. F (Q2 ) = 0.5 (Q2 = Me ) ;
L’expression de trois quartiles peut être dérivée de la même manière que la mé-
diane.
L2 − L1
Q1 = L1 + (0.25 − Fiր (ei−1 ))
Fiր (ei ) − Fiր (ei−1 )
L2 − L1
Q2 = L1 + (0.5 − Fiր (ei−1 ))
Fiր (ei ) − Fiր (ei−1 )
L2 − L1
Q3 = L1 + (0.75 − Fiր (ei−1 ))
Fiր (ei ) − Fiր (ei−1 )
d’effectif égal.
D1 : premier décile : valeur de la variable telle que 10% des observations lui
soient inférieures. F (D1 ) = 0.1 ;
D2 : deuxième décile : valeur de la variable telle que 20% des observations lui
soient inférieures. F (D2 ) = 0.2 ;
...
D5 : cinquième décile : valeur de la variable telle que 50% des observations lui
soient inférieures. F (D5 ) = 0.5 (D5 = Me ) ;
...
D9 : neuvième décile : valeur de la variable telle que 90% des observations lui
soient inférieures. F (D9 ) = 0.9
29
2.2.3 Les centiles
...
...
C50 : cinquantième décile : valeur de la variable telle que 50% des observations
lui soient inférieures. F (C50 ) = 0.5 (C50 = Me ) ;
...
...
C99 : quatre vingt dix-neuvième décile : valeur de la variable telle que 99%
des observations lui soient inférieures. F (C99 ) = 0.99 ;
Remarques
Q2 = Me = D5 = C50
— Les quartiles et les déciles permettent de calculer les intervalles interquartiles.
— Plus la longueur de l’intervalle est grande, plus la dispersion est forte.
30
2.3 Les écarts par rapport à une valeur de tendance centrale
On appelle écart absolu moyen noté, e x, d’une distribution statistique est égale
à la moyenne arithmétique de la valeur absolue des écarts entre les valeurs observées
et leur moyenne.
∗ Cas des données non groupées :
N
1 X
ex= |xi − x|
N i=1
P P
1 X X
ex= ni |xi − x| = fi |xi − x|
N i=1 i=1
Cet indicateur de dispersion tient compte de tous les écarts entre chaque valeur
observée et la moyenne.
On appelle variance d’une variable, la moyenne des carrées des écarts de cette
N N
1 X 2 1 X 2
V (x) = (xi − x) = x − x2
N i=1 N i=1 i
P P P
1 X 2
X
2
X
V (x) = ni (xi − x) = fi (xi − x) = fi x2i − x2
N i=1 i=1 i=1
p
On appelle écart type noté, σx , la racine carrée de variance. Il est défini par V (x).
31
Plus l’écart type est grand, plus la dispersion des observations autour de la moyenne
de la variable est forte.
p
ecart type V (x) σx
CV (x) = = =
moyenne X X
• Données groupées : Le moment non centré d’ordre r qu’on note mr (x) d’une
Moments centrés
• Données non groupées : Le moment centré d’ordre µ qu’on note µr (x) d’une
série statistique est :µr (x) = N1 ni=1 (xi − x)r
P
• Données groupées : Le moment centré d’ordre µ qu’on note µr (x) d’une série
statistique est :µr (x) = N1 pi=1 ni (xi − x)r = pi=1 fi (xi − x)r VSD
P P
32
CHAPITRE 3
CARACTÉRISTIQUE DE FORME ET DE
CONCENTRATION
Pour avoir une idée satisfaisante et plus précise sur la forme de la distribution,
1 L’asymétrie (skewness)
caractérise l’asymétrie, pour traduire cette disposition par un nombre abstrait, il est
33
naturel de rapporter leur différence à l’écart type on obtient ainsi le cœfficient de
Pearson :
moyenne − mode X − Mo
CS = =
ecart type σx
2 L’aplatissement (kurtosis)
Une distribution est d’autant plus plate que la dispersion des observations autour
des valeurs centrales est forte.
male)
Le concept de concentration a été élaboré dans les années 1910–1914 par le sta-
tisticien italien CORRADO GINI (1884–1965). L’étude de concentration permet de
compléter l’analyse de position et de dispersion d’une distribution. Elle n’est pas cen-
trée sur le caractère de l’individu (observation), elle est plutôt globale, l’analyse porte
34
davantage sur la répartition de la masse totale. La notion de concentration ne s’ap-
plique que pour les variables quantitatives continues à valeurs positives cumulables,
exemple : salaires.
V Gi ni .ci fi .ci X
qi = = Pk = Pk , qi = 1
V GT i=1 ni .ci i=1 fi .ci
i
X
Qi = qj
j=1
Exemple
Distribution des salaires d’une entreprise (salaire annuel net en DT) en 2008.
Tableau 3.1 –
Xi ni fi fi ր ci ni ci qi Qi Qi + Qi−1 fi (Qi + Qi−1 )
[0, 10[ 20 0.2 0.2 5 100 0.033 0.033 0.033 0.0066
[10, 22[ 10 0.1 0.3 16 160 0.053 0.086 0.119 0.0119
[22, 27[ 9 0.09 0.39 24.5 220.5 0.074 0.16 0.246 0.02214
[27, 45[ 45 0.45 0.84 36 1620 0.54 0.7 0.86 0.387
[45, 75[ 12 0.12 0.96 60 720 0.24 0.94 1.64 0.1968
[75, 120[ 4 0.04 1 43.5 174 0.06 1 1.94 0.0776
Total 100 1 2994.5 1 0.70204
35
3.2 La médiale (Mle)
La médiale d’une série statistique, notée Mle , est la valeur de la variable tel que
Q(Mle ) = 0.5.
La médiale est déterminée par la méthode d’interpolation linéaire de la même manière
que la médiane :
L2 − L1
Ml = L1 + (0.5 − Qi (ei−1 ))
Qi (ei ) − Qi (ei−1 )
Qi
1 B
0,94
D:y! x
0
0,7
0 16
0,16 Surface de concentration
0,086
0,033 A
O 0,2 0,3 0,39 0,84 0,96 1 F
i
36
est faible c’est à dire la repartition est égalitaire et plus la courbe s’éloigne de
la diagonale, plus la distribution est concentrée ou encore inégalement repartie.
angle OAB : c’est le cas hypothétique où un seul individu possède toute la
richesse, on dit aussi que la série est totalement concentrée.
tration.
Plus la courbe s’éloigne de la diagonale, plus la surface de concentration est grande.
S
IG = 1 = 2S
2
Propriétés
1. L’indice de Gini est toujours compris ente 0 et 1 puisque S est compris ente
1
0 et 2
;
2. Dans le premier cas extrême, l’indice de Gini est nul et dans le deuxième cas,
il est égal à 1 ;
37
4. Plus l’indice de Gini tend vers 0, plus la concentration est faible.
nouvelle colonne fi (Qi + Qi−1 ) (voir tableau 3.1). Donc l’IG est définit comme suit :
n
X
IG = 1 − fi (Qi + Qi−1 )
i=1
Exemple
Selon les données de l’exemple précédent (tableau 3.1), l’indice de Gini IG = 1 −
0.70204 ≈ 0.30
38
CHAPITRE 4
39
Généralement, le tableaux à deux dimensions se présente de la manière suivante :
Tableau 4.1 –
❍
❍❍ Y
❍
y1 y2 ... yj ... yK Total
X ❍❍
x1 n11 n12 n1j n1K n1•
x2 n21 n22 n2j n2K n2•
.
.
.
xi ni1 ni2 nij niK ni•
.
.
.
xL nL1 nL2 nLj nLK nL•
Total n•1 n•2 n•j n•K n•• = n
— Les effectifs situés à l’intérieur du tableau sont notés nij qui désigne le nombre
d’individus qui ont à la fois la modalité xi de la variable X et la modalité yj
de la variable Y ;
— n•• est l’effectif total c’est à dire le nombre total d’individus de la population.
n•• = Li=1 K
P P PL PK
j=1 nij = i=1 ni• = j=1 n•j
Exemple
La répartition de 100 étudiants selon leurs résultats en Mathématiques (X) et en
Statistiques (Y) a donné les résultats suivants :
40
Tableau 4.2 –
❍
❍❍ Y
2 6 8 12 14 Total
X ❍❍❍
7 9 7 1 0 0 17
11 2 26 3 0 1 32
12 2 4 15 4 2 27
15 0 1 4 17 2 24
Total 13 38 23 21 5 100
La valeur 26 indique que : parmi les 100 étudiants observés, il y a 26 étudiants ont
eu 11 et 6 comme moyennes en math et en statistique respectivement.
La valeur 27 indique que : parmi les 100 étudiants observés, il y a 27 qui ont 12 de
moyenne en Math indépendamment de sa moyenne en statistiques.
La valeur 5 indique que : parmi les 100 étudiants observés, il y a 5 qui ont 14 de
moyenne en Stat indépendamment de sa moyenne en Math.
NB : On peut aussi déterminer les fréquences conjointes. Elles sont données par :
nij
fij =
n
2 Distributions marginales
2.1 Définition
On appelle distribution marginale de X, les données des L couples (xi , ni• ) c’est
à dire la première et la dernière colonne du tableau de contingence :
41
Tableau 4.3 – Distribution marginale de X
X Effectif marginal
x1 n1•
x2 n2•
.
.
.
xi ni•
.
.
.
xL nL•
Total n•• = n
On appelle distribution marginale de Y , les données des K couples (yi , n•j ) c’est
à dire la première et la dernière ligne du tableau de contingence :
42
2.2 Exemple
n3• 27
La fréquence marginale de la modalité 3 de la variable X est : f3• = n
= 100
= 27%
n•1 13
La fréquence marginale de la modalité 1 de la variable Y est : f•1 = n
= 100
= 13%
Soit une population P , on fait une observation simultanément selon les caractères
X et Y . X (p modalités) et Y (q modalités).
1
PP
x : variable discrète : x = n•• i=1 ni• xi
1
PQ
y : variable discrète : y = n•• i=1 n•j yj
1
PP
x : variable continue : x = n•• i=1 ni• ci
1
PQ
y : variable continue : y = n•• i=1 n•j cj
43
3 Distributions conditionnelles
3.1 Définition
Tableau 4.7 –
Distribution conditionnelle de X sachant Y = yj
X/Y = yj ni /j
x1 n1j
x2 n2j
.
.
xi nij
.
.
xl nLj
Total n•j
Tableau 4.8 –
Distribution conditionnelle de Y sachant X = xi
Y /X = xi nj /i
y1 ni1
y2 ni2
.
.
yj nij
.
.
yK niK
Total ni•
44
3.2 Exemple
xj = x/y
P
1 X
= nij xi
n•j i=1
yi = y/x
Q
1 X
= nij yj
ni• i=1
45
3.4 Les variances conditionnelles
P
1 X
Vj (x) = nij (xi − xj )2
n•j i=1
P
1 X
= nij x2i − x2j
n•j i=1
Q
1 X
Vi (y) = nij (yj − yi )2
ni• i=1
P
1 X
= nij yj2 − yi2
ni• i=1
4 Notion d’indépendance
variables.
Pou monter l’indépendance des deux variables, il faut vérifier si fij = fi• × f•j ou
46
Tableau 4.11 –
❍
❍❍ A
[25,30[ [30,35[ [35,40[ [40,60[ Total
S ❍❍❍
[250, 300[ 18 6 12 24 60
[300, 600[ 6 2 4 8 20
[600, 800[ 6 2 4 8 20
Total 30 10 20 40 100
non.
Tableau 4.12 –
❍
❍❍ A
[25,30[ [30,35[ [35,40[ [40,60[
S ❍❍❍
[250, 300[ 0.18 0.06 0.12 0.24
[300, 600[ 0.06 0.02 0.04 0.08
[600, 800[ 0.06 0.02 0.04 0.08
Tableau 4.13 –
❍
❍❍ f•j
0.3 0.1 0.2 0.4 T
fi• ❍❍❍
0.6 0.18 0.06 0.12 0.24 0.6
0.2 0.06 0.02 0.04 0.08 0.2
0.2 0.06 0.02 0.04 0.08 0.2
T 0.3 0.1 0.2 0.4 1
47
Les deux tableaux sont identiques. Donc, les deux variables sont indépendantes.
a) Définition
La covariance est égale à la moyenne des écarts des couples (xi , yi ) de X et Y par
rapport au point (x, y)
N
1 X
cov(x, y) = (xi − x)(yi − y)
N i=1
sentent :
— cov(x, y) > 0 la relation entre X et Y est positive, les deux variables varient
dans le même sens.
— cov(x, y) < 0 la relation entre X et Y est négative, les deux variables varient
en sens inverse.
5.2.1 Définition
48
défini par :
cov(x, y) cov(x, y)
r(x, y) = p =
v(x)v(y) σx σy
5.2.2 Propriétés
la droite qui approche le mieux l’ensemble des n points. Le mieux signifie la plus
proche possible de tous les points.
49
5.3.1 La droite de régression de y sur x
Lorsqu’il s’agit d’une liaison linéaire entre les deux variables, on parle alors d’ajus-
tement linéaire. L’ajustement linéaire consiste à estimer les cœfficients de la droite
de régression de type y = ax + b c’est à dire à trouver la valeur de a et celle de b.
La méthode MCO consiste à ajuster le nuage des points par une droite de ma-
nière à minimiser la somme des carrés des distances entre les points de nuage de cette
Les
conditions de premier ordre
∂f (a,b) = 0
∂a
∂f (a,b)
∂b
= 0
On trouve donc les valeurs â et b̂, estimateurs de a et de b par la méthode des MCO
50
comme suit :
cov(x, y)
â =
V ar(x)
PN
i=1 xi yi − Nx y
= P N 2 2
i=1 xi − Nx
b̂ = y − âx
PN 2
2 variance explique SCE i=1 (ŷi − y)
R = = = PN
variance totale SCT i=1 (yi − y)
2
51