Elémentsstatdes Avec Exos
Elémentsstatdes Avec Exos
Elémentsstatdes Avec Exos
Jean VAILLANT
Mars 2015
Table des matières
1 Terminologie 3
2 Série univariée 6
2.1 Représentation d’une série univariée . . . . . . . . . . . . . . 6
2.1.1 Variable qualitative . . . . . . . . . . . . . . . . . . . 7
2.1.2 Variable quantitative discrète . . . . . . . . . . . . . . 8
2.1.3 Variable quantitative continue . . . . . . . . . . . . . 10
2.2 Résumés numériques d’une série univariée . . . . . . . . . . . 11
2.2.1 Indicateurs statistiques de tendance centrale . . . . . 12
2.2.2 Indicateurs statistiques de dispersion . . . . . . . . . . 16
3 Série bivariée 19
3.1 Représentation d’une série bivariée . . . . . . . . . . . . . . . 19
3.1.1 Tableaux de contingence . . . . . . . . . . . . . . . . . 19
3.1.2 Diagrammes pour deux variables qualitatives . . . . . 20
3.1.3 Diagrammes pour cas mixte . . . . . . . . . . . . . . . 21
3.1.4 Diagrammes pour deux variables quantitatives . . . . 22
3.2 Résumés numériques d’une série bivariée . . . . . . . . . . . . 23
3.2.1 Cas de deux variables qualitatives . . . . . . . . . . . 23
3.2.2 Cas de deux variables quantitatives . . . . . . . . . . . 25
3.2.3 Cas mixte . . . . . . . . . . . . . . . . . . . . . . . . . 27
5 Exercices 38
2
1 Terminologie
3
s’intéresser au taux de passage en seconde, au nombre d’élèves, à la
présence ou pas d’une cuisine scolaire, à la commune d’implantation,
au numéro de département.
2. Ensemble des parents d’élève d’un lycée. On s’intéresse à leur opinion
sur un projet éducatif selon leur profession, leur revenu, leur statut
marital, le nombre d’enfants scolarisés, la distance domicile-lycée, le
moyen de locomotion.
3. Ensemble des incidents de violence remontés à un rectorat au cours
de l’année scolaire 2013-2014. Pour chaque incident, l’établissement
concerné indique : le statut du principal acteur (élève, personnel de
sécurité, personnel enseignant, personnel administratif ou technique),
le type violence (physique et/ou verbale), le nombre de protagonistes,
lieu (intérieur, extérieur de l’enceinte de l’établissement), le nombre
de blessés.
4. Ensemble des élèves de CM2 d’une région. L’ARS (Agence Régionale
de Santé) désire étudier le comportement alimentaire chez certains
jeunes et ses conséquences sur l’obésité et autres risques sanitaires.
Les enquêteurs notent le poids, la hauteur, l’âge, tour de taille, tour
de hanche, le sexe, la commune de résidence, le nombre de sports
pratiqués, la fréquence de prise de petit-déjeuner, la taille de fratrie,
régularité de consommation de divers produits.
Chaque individu statistique est donc décrit par un ou plusieurs traits dis-
tinctifs ou grandeurs physiques le caractérisant. On les appelle variables
statistiques.
Une variable statistique (ou caractère statistique) est donc ce qui est
observé ou mesuré sur un individu statistique.
4
dernière permet la description des caractères observés sur des individus et
des liens éventuels entre ces caractères.
5
— Les variables taille vestimentaire, préférence plus ou moins marquée
pour un engrais sont ordinales.
— La variable rendement à l’hectare est quantitative mais peut être
transformée en variable qualitative ordinale à 3 modalités : faible,
moyen, élevé.
Exemple 3 : l’unité statistique est un établissement scolaire.
— Les variables type d’établissement, département d’implantation sont
qualitatives nominales.
— La variable présence-absence d’une cuisine scolaire est dichoto-
mique.
— Les variables nombre d’élèves, effectif en personnel sont quantita-
tives discrètes.
— Les variables budget annuel de fonctionnement, taux de réussite à
un examen de référence sont quantitatives continues. La variable
taux de réussite peut être transformée en variable qualitative or-
dinale à 5 modalités : très faible, faible, moyen, élevé, très élevé.
Exemple 4 : L’unité statistique est une sortie pédagogique d’un collège.
— Les variables lieu visité, thème de la sortie sont qualitatives no-
minales.
— La variable présence-absence d’une personne ressource est dicho-
tomique.
— Les variables nombre d’élèves, nombre de personnel encadrant
sont quantitatives discrètes.
— Les variables prix de la sortie, durée de la sortie, distance parcou-
rue sont quantitatives continues. La variable prix de la sortie peut
être transformée en variable qualitative ordinale à 4 modalités :
pas cher, moyen, cher, très cher.
2 Série univariée
6
Les représentations recommandées et les plus fréquentes sont les tableaux
et les diagrammes. Dans un document scientifique ou académique, il convient
de les numéroter et de les légender. Cela facilite la lecture du document et
permet de les référencer dans le texte.
où
7
modalité 1 < modalité 2 < · · · < modalité k.
Cadre
15
Ouvrier
Agriculteur
10
Autre
5
Technicien
8
Valeurs Effectifs Fréquences Fréquences
cumulées
x1 n1 f1 F1
x2 n2 f2 F2
.. .. .. ..
. . . .
xi ni fi Fi
.. .. .. ..
. . . .
xk nk fk Fk
Totaux n 1 -
où
9
Distribution des crises parmi les patients Distribution des crises parmi les patients
25
1.0
[
[
[
20
0.8
[
Fréquence cumulée
Nombre de patients
[
15
0.6
[
0.4
10
0.2
5
[ [
0.0
[
0
0 1 2 3 4 5 6 7 8 9 10 11 12 0 2 4 6 8 10 12
10
F (ai ) est la fréquence cumulée en ai c’est-à-dire la proportion d’individus
dans l’échantillon ayant une valeur inférieure ou égale à ai . Le calcul des
F (ai ) peut se faire façon récurrente de la manière suivante :
F (a1 ) = f1 et F (ai ) = F (ai−1 ) + fi pour i ∈ {2, · · · k}.
k est le nombre de valeurs distinctes observées dans l’échantillon.
Les bornes de classe vérifient bien évidemment : a0 < a1 < a2 < · · · < ak .
Répartition du rendement des parcelles étudiées Répartition du rendement des parcelles étudiées
1.0
70
60
0.8
50
Nombre de parcelles
Fréquence cumulée
0.6
40
30
0.4
20
0.2
10
0.0
0
65 70 75 80 85 90 95 65 70 75 80 85 90 95
11
Un exemple pour s’en convaincre. La variable Numéro de département indi-
quant le lieu de stage pour 150 individus dans Table 4 a un total de 22925
et une moyenne de 152,8. Ces valeurs n’apportent pas d’information sur la
répartition des lieux de stage.
2 0 4 2 3 1 2 2 4 5 4 3 4 7 2 7 5 7 3 9 6 5 7 4 6.
12
La moyenne est donc égale à
2+0+4+2+3+1+2+2+4+5+4+3+4+7+2+7+5+7+3+9+6+5+7+4+6
25
104
ce qui nous conduit à une moyenne d’absences par élève qui vaut = 4, 16.
25
La formule de la moyenne, avec les notations de la table 2, est :
k
1X
x̄ = ni xi .
n i=1
Valeur distincte xi 0 1 2 3 4 5 6 7 9
Effectif ni 1 1 5 3 5 3 2 4 1
Exemple : La variable Revenu mensuel du foyer des 500 élèves d’un collège
est étudiée. On obtient la distribution en classes statistiques indiquée dans
Table 6.
13
Classe statistique Effectif Effectif Fréquence Centre de Effectif par
]ai−1 , ai ] ni cumulé Ni cumulée F (ai ) classe ci amplitude hi
]0, 1000] 152 152 0,304 500 0,152
]1000, 2000] 178 330 0,660 1500 0,178
]2000, 3000] 90 420 0,840 2500 0,090
]3000, 5000] 64 484 0,968 4000 0,032
]5000, 10000] 16 500 1 7500 0,0032
Table 6 – Revenu mensuel du foyer pour les 500 élèves d’un collège.
Remarque : N’ayant pas les valeurs exactes des 500 revenus, nous avons
pu fournir une valeur approchée de la moyenne en assimilant chaque valeur
de classe au centre de classe.
0 1 2 2 2 2 2 3 3 3 4 4 4 4 4 5 5 5 6 6 7 7 7 7 9.
où la classe ]ai∗ −1 , ai∗ ] est celle vérifiant F (ai∗ −1 ) < 0, 5 ≤ F (ai∗ ) et
Ni∗ −1 l’effectif cumulé en ai∗ −1 .
14
F (2000) = 0, 660. Par conséquent, la classe ]ai∗ −1 , ai∗ ] est ]1000; 2000] d’où
0, 5 × 500 − 152
M e = 1000 + (2000 − 1000) ≈ 1550.
178
Le revenu médian vaut à peu près 1550 ce qui signifie qu’il y a autant de
revenus au dessus de 1550 que de revenus au dessous de cette valeur.
Exemple : Pour la distribution représentée dans Table 5, les valeurs les plus
fréquentes sont le 2 et le 4 puisque 5 élèves ont eu 2 absences au cours
de l’année, et 5 autres ont eu 4 absences. Les autres effectifs sont inférieurs
strictement à 5, on a donc deux modes : 2 et 4. La distribution est bimodale.
La classe modale correspond donc au plus grand des hi , et est donc ]1000; 2000].
Le premier quartile Q1 : c’est une valeur telle qu’il y a 25% de valeurs qui
lui sont inférieures dans la série statistique et 75% qui lui sont supérieures.
15
où la classe ]ai∗ −1 , ai∗ ] est celle vérifiant F (ai∗ −1 ) < 0, 25 ≤ F (ai∗ ) et
Ni∗ −1 l’effectif cumulé en ai∗ −1 .
où la classe ]ai∗ −1 , ai∗ ] est celle vérifiant F (ai∗ −1 ) < 0, 75 ≤ F (ai∗ ) et
Ni∗ −1 l’effectif cumulé en ai∗ −1 .
16
La formule de la variance, avec les notations de la table 2, est :
k k
1X 1 X
v= ni (xi − x̄)2 ou de façon équivalente v = ni x2i − x̄2 .
n i=1 n i=1
k k
1X 1 X
v≈ ni (ci − x̄∗ )2 ou aussi v ≈ ni c2i − (x̄∗ )2
n i=1 n i=1
où ci est le centre de la classe ]ai−1 , ai ] donc vaut (ai−1 + ai )/2
= 2285456.
√
L’écart type s : c’est la racine carrée de la variance. On a donc s = v .
Il s’exprime dans la même unité de mesure que la variable quantitative, ce
qui n’est pas le cas de la variance.
17
√
L’écart type de la distribution statistique dans Table 5 est 4, 77 = 2, 18.
Plus de 75% des valeurs sont dans l’intervalle [4, 16−2×2, 18; 4, 16+2×2, 18]
c’est-à-dire [−0,
√ 20; 8, 52]. L’écart type approché de la distribution dans
Table 6 est 2285456 = 1512. Plus de 75% des valeurs sont dans l’inter-
valle [1888 − 2 × 1512; 1888 + 2 × 1512] c’est-à-dire [−1136; 4912].
Q1-1,5*(Q3-Q1) Q1 Mé Q3 Q3+1,5*(Q3-Q1)
18
3 Série bivariée
19
Athlétisme Basketball Football Totaux
]140; 150] 14 3 20 37
]150; 160] 25 10 32 67
]160; 170] 41 27 59 127
]170; 180] 30 19 45 94
]180; 190] 18 35 29 82
Totaux 128 94 185 407
Table 8 – Tri croisé des variables Sport préféré et Taille pour les élèves d’un lycée.
Cadre Cadre
Ouvrier
Agriculteur Ouvrier
Autre Agriculteur
Autre
Technicien Technicien
Cadre
Cadre
Agriculteur
Agriculteur Ouvrier Ouvrier
Autre Autre
Technicien
Technicien
20
Lien entre degré d'attaque et espèce
14
esp1
esp2
12
esp3
10
8
6
4
2
0
21
Répartition des revenus en région 1 Répartition des revenus en région 2 Répartition des revenus
Nombre d'individus
Nombre d'individus
40
30
4000
20
10
0
1000 2000 3000 4000 5000 1000 2000 3000 4000 5000
3000
Revenu en €
Revenu en € Revenu en €
2000
Nombre d'individus
Nombre d'individus
30
15
20
1000
10
10
5
0
22
Relation entre Taille et Poids des 23 élèves
80
75
Poids (en Kg)
70
65
Quand notre série est bivariée, on peut pour chacune des deux variables
statistiques mener séparément une étude univariée. Aux résumés numériques
vus dans le cas d’une série univariée viennent se rajouter des résumés concer-
nant les liaisons éventuelles entre les deux variables. Il s’agit de la covariance,
le coefficient de corrélation, le critère du khi-deux d’indépendance
23
ni,. × n.,j
avec νi,j = .
n
Cette statistique est nulle dans le cas d’indépendance parfaite (profils lignes
identiques et profils colonnes identiques). Plus les profils diffèrent, plus elle
est élevée.
Le tableau des νi,j associé au tableau des ni,j est appelé tableau d’indépendance
parfaite. Il correspond à un tableau ayant les mêmes totaux en lignes et
mêmes totaux en colonnes que notre tableau de contingence observé, et ayant
ses profils lignes identiques, et ses profils colonnes identiques aussi.
Table 9 – Tri croisé des variables Performance et Collège pour les élèves de 3
collèges.
On remarquera que les νi,j (qui sont appelés effectifs attendus sous l’hy-
pothèse d’indépendance parfaite) ne sont pas forcément entiers.
24
Dans le cas de deux variables ordinales, le coefficient de corrélation
des rangs de Spearman rS (voir paragraphe suivant) permet de mesurer
la concordance (rS proche de 1) ou la discordance (rS proche de -1) entre
les classements des individus statistiques basés sur ces variables.
Si sxy > 0, cela indique que les variables ont tendance à varier dans le même
sens.
Si sxy < 0, cela indique qu’elles ont tendance à varier en sens contraire.
25
Exemple : Le nuage de points présenté en Figure 8 provient des valeurs
obtenues pour 23 élèves d’une classe de lycée. En respectant l’ordre de recueil
sur les 23 élèves pour chacune des variables, les données se présentent comme
indiqué ci-dessous :
Taille en cm
154 168 165 166 180 177 171 173 175 186 159 175 169 166 160 164 166
168 156 177 149 175 179
Poids en Kg :
72 74 70 70 72 74 69 70 76 75 70 74 67 74 63 65 72 76 75 80 72 65 82
On peut calculer d’abord des résumés numériques pour chacune des deux
séries univariées :
26
3.2.3 Cas mixte
R2 est d’autant plus proche de un que la variabilité intra-groupe est proche de zéro
(très fort lien entre X et Y ). R2 est d’autant plus proche de zéro que la va-
riabilité inter-groupe est proche de zéro (absence de lien entre X et Y ).
27
variable Hauteur en fonction de la variable Sexe pour l’ensemble des 32
joueurs de volley-ball du lycée A. Quelle est la proportion de variabilité de
Hauteur expliquée par Sexe ? Cette dernière variable possède deux modalités
donc on peut faire un groupe pour chacune d’elles : le groupe 1 des garçons
avec un effectif n1 = 14, une hauteur moyenne ȳ1 = 1, 76 et une variance
s21 = 0, 0028 ; le groupe 2 des filles avec un effectif n2 = 18, une hauteur
moyenne ȳ2 = 1, 69 et une variance s21 = 0, 0008. D’autre part, la variance
des hauteurs est s2y = 0, 0030.
Fille Garçon
28
4 Mini-Glossaire de Statistique Descriptive
Un caractère qualitatif est dit ordinal s’il existe une hiérarchie dans ses modalités.
Un caractère qualitatif est dit nominal s’il n’y a pas de hiérarchie dans ses modalités.
Caractère quantitatif : Un caractère statistique est quantitatif si ses valeurs sont des
nombres sur lesquels des opérations arithmétiques telles que somme, moyenne,· · ·, ont un
sens. Exemples : Taille, Poids, Salaire, Rendement, Note à un examen, PNB/habitant,
Espérance de vie, Nombre d’habitants, Taux d’infestation.
Un caractère quantitatif est dit discret si les valeurs possibles sont des nombres isolés
sur l’axe réel. Dans la pratique, il s’agit souvent de données de comptage. Par exemple, si
l’individu statistique est une plante, les caractères nombre d’attaques d’un parasite, nombre
de feuilles sont quantitatifs discrets.
Un caractère quantitatif est dit continu s’il peut prendre toutes les valeurs dans un
intervalle réel. Par exemple, si l’individu statistique est une plante, les caractères hauteur,
surface foliaire, biomasse sont quantitatifs continus.
Classe modale : C’est la classe ayant le plus grand effectif par unité d’amplitude. Dans
le cas d’une classe modale unique, on parle de distribution continue unimodale.
Notons qu’on peut représenter la distribution d’une variable quantitative discrète en classes
statistiques si elle prend de très nombreuses valeurs. Par exemple, si l’on étudie la pullu-
lation d’insectes ravageurs sur des plantes, on peut avoir les classes statistiques suivantes
29
pour la variable Nombre d’insectes sur la plante :
[0; 10], ]10; 100], ]100; 1000], ]1000; 5000].
Remarque : Les classes statistiques sont exclusives c’est-à-dire une valeur observée appar-
tient à une classe et une seule.
Coefficient de variation : C’est le rapport écart-type sur la moyenne. Il est calculé pour
des variables quantitatives positives : taille, durée, poids. C’est un nombre sans dimension
(c’est-à-dire qu’il est indépendant du choix des unités de mesure). Il permet de comparer la
dispersion autour de la moyenne de variables statistiques ayant des échelles ou des unités
de mesure différentes.
30
Diagramme en étoiles : Si on a plusieurs variables quantitatives, on peut représenter
chaque individu statistique par un polygone. Les valeurs pour un individu sont représentées
par des points reliés entre eux par des segments de manière à former un polygone. Il y
a donc autant d’arêtes dans le polynome associé que de variables étudiées. Ainsi, si on
étudie 5 variables, on a un pentagone, 6 un hexagone, etc...
Ecart-type : pour une distribution d’effectifs (x1 , n1 ), · · · , (xk , nk ), où xi a pour effectif
associé ni , l’écart-type noté sx est donné par la formule :
r
1
sx = (n1 (x1 − x̄)2 + · · · + nk (xk − x̄)2 )
n
Etendue : C’est l’écart entre la plus petite et la plus grande valeur dans la série statistique.
Fractiles (ou quantiles) : On appelle fractiles des valeurs divisant une série en plusieurs
parties. Pour une valeur α comprise entre 0 et 1, le fractile d’ordre α noté qα est, par
définition, tel que la proportion de valeurs inférieures à qα vaut α. On a donc F (qα ) = α.
Les fractiles divisant la série en k parties d’effectifs égaux ont parfois une dénomination
commune : Les 3 quartiles divisent la série en 4 parties d’effectifs égaux, les 9 déciles en
10, les 99 centiles en 100. Les 3 quartiles sont notés Q1 , Q2 , Q3 (Q2 étant la médiane).
soit en commençant par le dernier (en notant k le nombre total de valeurs distinctes) :
31
Fk∗ = fk , Fk−1
∗ = fk +fk−1 , · · · , Fi∗ = fk +fk−1 +· · ·+fi (fréquences cumulées décroissantes).
Intervalle interquartile : C’est l’intervalle dont les bornes sont le 1er et le 3ème quartile :
[Q1 , Q3 ]. Il contient 50% des observations ; rappelons que 25% des valeurs de la série
statistique sont inférieures à Q1 et 25% sont supérieures à Q3 .
Intervalle médian : C’est l’intervalle dont toutes les valeurs vérifient la propriété de la
médiane pour la série statistique étudiée.
Médiane : C’est le fractile d’ordre 0.5. La médiane est notée Me et vérifie F (Me ) = 0.5.
Il y a autant de valeurs inférieures à Me que supérieures à Me dans la série statistique.
Mode : C’est la valeur la plus fréquente dans la série statistique. Le mode n’est pas
forcément unique. Quand il existe plusieurs modes, la distribution statistique est dite
multimodale.
Moyenne : C’est la somme des valeurs divisée par le nombre de valeurs. Pour une distri-
bution d’effectifs (x1 , n1 ), · · · , (xk , nk ), où xi a pour effectif associé ni , la moyenne notée
32
1
x̄ est donné par la formule : x̄ = (n1 x1 + · · · + nk xk ).
n
Nuage de points : Ensemble de points isolés représentés dans un graphique cartésien.
Une séries à deux caractères quantitatifs (x1 , y1 ); (x2 , y2 ); · · · ; (xn , yn ) peut être représentée
par les n points M1 , M2 , · · · , Mn de coordonnées (x1 , y1 ); (x2 , y2 ); · · · ; (xn , yn ).
Profil : C’est une distribution conditionnelle de fréquences (et non d’effectifs). Dans un
tableau de contingence à I lignes et J colonnes, le profil de la ligne i est obtenu en divisant
les effectifs ni1 , ni2 , · · · , niJ de cette ligne par la somme ni. de ces effectifs. On obtient :
ni1 ni2 niJ n1j n2j nIj
, ,···, . De même, le profil de la colonne j est : , ,···, . où n.j est la
ni. ni. ni. n.j n.j n.j
somme des effectifs de cette colonne.
Quartiles : Ce sont les 3 fractiles d’ordre 0,25, 0,5 et 0,75 notés respectivement Q1 , Q2 , Q3 .
Ils divisent la distribution statistique en quatre parties d’égale fréquence. Q1 est le premier
quartile, Q3 le troisième. Q2 est la médiane.
33
Statistique Inférentielle : La Statistique Inférentielle utilise la théorie des probabilités
pour extrapoler à toute la population statistique, des résultats observés sur des échantillons.
Elle inclut l’Estimation Statistique et la Théorie des Tests d’hypothèses.
Tableau de contingence : C’est le tableau d’effectifs obtenu par tri croisé d’une série
bivariée (ou multivariée).
Tri à plat d’une série statistique brute : C’est l’inventaire des modalités ou valeurs
rencontrées dans la série, avec les effectifs correspondants.
Tri croisé d’une série bivariée : C’est l’inventaire des modalités ou valeurs rencontrées
conjointement dans une série comportant deux variables mesurées pour chaque individu
statistique, avec les effectifs correspondants.
Variance : Pour une distribution d’effectifs (x1 , n1 ), · · · , (xk , nk ), où xi a pour effectif
associé ni , la variance notée s2x est donnée par la formule :
1
s2x = (n1 (x1 − x̄)2 + · · · + nk (xk − x̄)2 ). La variance est le carré de l’écart-type.
n
Cadre
15
Ouvrier
Agriculteur
10
Autre
5
Technicien
0
34
Distribution des crises parmi les patients Distribution des crises parmi les patients
25
1.0
[
[
[
20
0.8
[
Fréquence cumulée
Nombre de patients
[
15
0.6
[
0.4
10
0.2
5
[ [
0.0
[
0
0 1 2 3 4 5 6 7 8 9 10 11 12 0 2 4 6 8 10 12
Répartition du rendement des parcelles étudiées Répartition du rendement des parcelles étudiées
1.0
70
60
0.8
50
Nombre de parcelles
Fréquence cumulée
0.6
40
30
0.4
20
0.2
10
0.0
0
65 70 75 80 85 90 95 65 70 75 80 85 90 95
35
Répartition en région 1 Répartition en région 2
Cadre Cadre
Ouvrier
Agriculteur Ouvrier
Autre Agriculteur
Autre
Technicien Technicien
Cadre
Cadre
Agriculteur
Agriculteur Ouvrier Ouvrier
Autre Autre
Technicien
Technicien
esp1
esp2
12
esp3
10
8
6
4
2
0
36
Répartition des revenus en région 1 Répartition des revenus en région 2 Répartition des revenus
Nombre d'individus
Nombre d'individus
40
30
4000
20
10
0
1000 2000 3000 4000 5000 1000 2000 3000 4000 5000
3000
Revenu en €
Revenu en € Revenu en €
2000
Nombre d'individus
Nombre d'individus
30
15
20
1000
10
10
5
0
Relation Poids-Hauteur
en Nanonie
100
90
Poids (en Kg)
80
70
60
50
Hauteur (en m)
37
5 Exercices
Discipline préférée des L3 Sciences de l'Education Discipline préférée des L3 Sciences de l'Education
12
Français
10
8
6
Biologie
4
Comptabilité
2
Anglais
Economie
0
Langue maternelle, Taille, Pays d’origine, Profession, Sexe, Nationalité, Poids, Pointure,
Race, Couleur des yeux, Dextérité, Nombre d’enfants, Revenu mensuel, Taux d’endette-
ment.
38
Exercice 5 Parmi ces assertions, préciser celles qui sont vraies, celles qui sont fausses.
1. On appelle variable, une caractéristique que l’on étudie
2. La tâche de la Statistique Descriptive est de recueillir des données
3. La tâche de la Statistique Descriptive est de présenter les données
sous forme de tableaux, de graphiques et d’indicateurs statistiques
4. Les valeurs pouvant être mesurées pour une variable quantitative sont
appelées valeurs possibles de la variable quantitative
5. Une variable est quantitative si ses valeurs sont des nombres, sinon
c’est une variable qualitative
6. En Statistique, on classe les variables selon différents types
7. Les valeurs des variables qualitatives sont aussi appelées modalités
8. La variable Sexe est dichotomique
9. Pour une variable qualitative, chaque individu statistique ne peut
avoir qu’une et une seule modalité
10. Pour faire des traitements statistiques, il arrive qu’on transforme une
variable quantitative en variable qualitative
11. La variable quantitative poids d’automobile peut être reclassée en compacte,
intermédiaire et grosse
12. En pratique, lorsqu’une variable quantitative discrète prend un grand
nombre de valeurs distinctes, on la traite comme continue
Exercice 6 Soit la liste suivante des prénoms d’un groupe d’étudiants suivis entre pa-
renthèses d’une indication du nombre de livres lus dans l’année
(A = peu, B = moyen, C = beaucoup, D = exceptionnel) :
Pierre (C), Paul (C), Jacques (A), Ralph (B), Abdel (A), Sidonie (B), Henri (C), Paulette
(B), Farida (B), Laure (C), Kevin (D), Carole (B), Marie-Claire (A), Jeanine (C), Julie
(C), Ernest (C), Cindy (C), Vanessa (D), José (C), Aurélien (C).
39
Exercice 8
20
15
10
5
0 1 2 3 4 5 6
40
Exercice 11 Le service de statistiques d’un rectorat a enregistré les actes de violence au
sein des collèges au cours de l’année scolaire 2013-2014 ayant conduit à un procès verbal.
Un total de 75 actes ont ainsi été présentés dans le tableau suivant :
5,2 8,4 1,8 3,1 13,7 12,1 19,5 2,4 1,6 2,7 19,3 10,4 19,8 2,5 1,5 2,1 7,4 2,5 3,0 13,5 7,1
8,2 1,4 3,2 1,3 1,2 1,9 1,1
41
Exercice 14 Quel est le type du diagramme ci-dessous ? Quelle est la variable statistique
considérée ?
1.0
[
0.8
[
Fréquence cumulée
0.6
[
0.4
[
0.2
[
0.0
0 2 4 6
Exercice 15 On fait une étude sur la population de Guadeloupe. On veut savoir s’il y a
un lien entre
• la langue maternelle et le niveau de scolarité
• le niveau de scolarité et le revenu
• le quotient intellectuel et le revenu
• le quotient intellectuel et le sexe
Préciser les variables statistiques à considérer. Pour chacune d’elles, préciser leur type,
les modalités ou valeurs qu’elles peuvent prendre.
Exercice 16 Parmi ces assertions, préciser celles qui sont vraies, celles qui sont fausses.
1. La moyenne d’une série de valeurs distinctes peut être supérieure à
la valeur maximale.
2. La moyenne d’une série de valeurs distinctes peut être inférieure à
la valeur minimale.
3. La variance peut être strictement négative.
4. L’écart type n’est jamais strictement inférieur à zéro.
42
Exercice 17 On a demandé aux enfants d’une classe : Combien y a-t-il d’enfants dans votre famille ?
La collecte des données nous fournit les données brutes :
1, 2, 1, 3, 1, 4, 2, 1, 3, 1, 2, 5, 2, 1, 1, 3, 2, 1, 2, 3, 1, 1, 1, 2, 4, 2, 1, 3.
Exercice 18
1. Comment appelle t-on l’ensemble A de tous les objets que l’on étudie ?
2. Comment appelle t-on un sous-ensemble choisi dans A ?
3. Comment appelle t-on un élément de A ?
4. Comment appelle t-on le nombre d’objets composant une population
ou un échantillon ?
5. Lorsque l’on veut connaı̂tre certaines caractéristiques d’une popula-
tion, on dit qu’on enquête sur la population : Vrai Faux
6. Une enquête peut être réalisée auprès de toute la population ou sur
un échantillon : Vrai Faux
7. Une corrélation est une enquête réalisée auprès de toute la popula-
tion : Vrai Faux
8. Les tableaux et graphiques sont utilisés pour donner une meilleure
vue d’ensemble des données : Vrai Faux
Exercice 19 La répartition des moyennes annuelles des 400 élèves de sixième d’un établissement
vous est donnée sous la forme d’un tableau :
43
3. Quelle est l’écart-type approché des moyennes annuelles ?
4. Quelle est la médiane des moyennes annuelles ?
5. Quelle est l’étendue, l’écart interquartile de cette distribution ?
Exercice 20 Vingt étudiants ont choisi leur module de langue de la façon suivante :
ESPAGNOL, ESPAGNOL, ANGLAIS, PORTUGAIS, ANGLAIS, ESPAGNOL, POR-
TUGAIS, PORTUGAIS, ALLEMAND, ANGLAIS, ESPAGNOL, ANGLAIS, ANGLAIS,
ESPAGNOL, ESPAGNOL, ESPAGNOL, ANGLAIS, PORTUGAIS, ALLEMAND, AN-
GLAIS.
Exercice 23 Une étude sur l’alimentation des enfants scolarisés fournit le diagramme
suivant concernant leur surcharge pondérale.
44
20
Surcharge pondérale (en Kg)
15
10
5
Ouvrier 39%
Employé 18%
Autre 17%
Cadre 9%
Etudiant 6%
Chômeur 11%
45
Exercice 25 Commenter les graphiques ci-dessous, en essayant d’y extirper le maximum
d’information.
Hauteurs des joueurs de Volley-ball du lycée A Taille et poids des volleyeurs du Lycée A
1.90
Garçon
Fille
1.85
75
1.80
70
1.75
1.70
65
1.65
60
Fille Garçon 1.65 1.70 1.75 1.80 1.85 1.90
Hauteur (en m)
Exercice 27
1. Commenter les deux pages suivantes en essayant dêtre le plus exhaus-
tif que possible (PCS =Profession ou Catégorie Socioprofessionnelle).
2. Montrer qu’il n’y a pas de valeurs extérieures supérieures pour le
pourcentage de néobacheliers issus du département ou de départements
limitrophes en 2011-2012 mais que l’université de Montpellier a une
valeur extérieure inférieure pour ce pourcentage.
3. Montrer que l’université de la Réunion a une valeur extérieure supérieure
pour le pourcentage de néobacheliers issus de PCS défavorisées en
2011-2012.
46
Antilles-Guyane
% des néobacheliers issus du département ou des départements limitrophes
Définition : Part des néobacheliers issus du département ou des départements limitrophes de leur unité d’inscription (département d'obtention du
baccalauréat) parmi les néobacheliers de l'établissement (inscriptions principales).
Source : MESR-DGESIP/DGRI-SIES : SISE
Évolutions historiques comparées (université et référence nationale) - indice base 100 en 2008-09
Positionnements et valeurs
77. Montpellier 3 4. Valenciennes 3. Polynésie 2. La Réunion 1. Antilles-Guyane
...
57,7 95,8 97,6 98,4 98,9
47
La situation en 2011-12
Polynésie
(97,6)
La Réunion Nlle-Calédonie
(98,4) (94,4)
Nîmes
(86,8)
Antilles-Guyane
% de néobacheliers issus de PCS défavorisées
Définition : Part de néobacheliers issus de PCS défavorisées (ouvrier qualifié, ouvrier non qualifié, ouvrier agricole, retraité employé et ouvrier,
chômeur n'ayant jamais travaillé, personne sans activité professionnelle) parmi les néobacheliers de l'établissement.
Source : MESR-DGESIP/DGRI-SIES : SISE
Évolutions historiques comparées (université et référence nationale) - indice base 100 en 2007-08
Positionnements et valeurs
77. Paris 6 10. Littoral 9. Antilles-Guyane 8. Lille 3 1. La Réunion
... ...
9,3 29,6 31,3 31,6 47,2
48
La situation en 2011-12
Polynésie
(32,7)
La Réunion Nîmes
(47,2) (25,3)
Nlle-Calédonie
(19,8)
6 Corrigés des exercices
Corrigé de l’exercice 2 Les types possibles sont : qualitatif nominal (QN), qualitatif
ordinal (QO), quantitatif discret (QD) et quantitatif continu (QC).
Langue maternelle (QN), Taille (QC), Pays d’origine (QN), Profession (QN), Sexe (QN),
Nationalité (QN), Poids (QC), Pointure (QD), Race (QN), Couleur des yeux (QN),
Dextérité (QO), Nombre d’enfants (QD), Revenu mensuel (QC), Taux d’endettement
(QC).
Corrigé de l’exercice 4 Les types possibles sont : qualitatif nominal (QN), qualitatif
ordinal (QO), quantitatif discret (QD) et quantitatif continu (QC).
1. QN
2. QD ou QC
3. QO
4. QC
5. QD mais attention QN est aussi possible (penser au code postal ou
au numéro de département)
Corrigé de l’exercice 5
1. VRAI
2. FAUX
49
3. VRAI
4. VRAI
5. FAUX
6. VRAI
7. VRAI
8. VRAI
9. VRAI
10. VRAI
11. VRAI
12. VRAI
Corrigé de l’exercice 6
50
O : 40%
AB : 18%
A : 42%
Corrigé de l’exercice 8
2 × 02 + 7 × 12 + 12 × 22 + 16 × 32 + 25 × 42 + 12 × 52 + 4 × 62 1043
= = 13,37.
2 + 7 + 12 + 16 + 25 + 12 + 4 78
donc
√ la variance vaut 13, 37 − (3, 372 ) = 2, 01 et l’écart type vaut
2, 01 = 1, 42.
51
Corrigé de l’exercice 9
2. La variable est numérique (car codée) mais son type est qualitatif
nominal. La moyenne n’a pas de sens sur une telle variable.
Corrigé de l’exercice 11
52
2.
Envers un adulte 9%
Corrigé de l’exercice 12
1.
Classes de revenu Effectifs
]0 ; 5] 16
]5 ; 10] 5
]10 ; 15] 4
]15 ; 20] 3
2.
Classes de revenu Effectifs Fréquences Fréquences
cumulées
]0 ; 5] 16 0,57 0,57
]5 ; 10] 5 0,18 0,75
]10 ; 15] 4 0,14 0,89
]15 ; 20] 3 0,11 1
53
3.
5
0
0 5 10 15 20
4.
0.6
0.4
0.2
0.0
0 5 10 15 20
Corrigé de l’exercice 13
1. Le tableau
2. Le diagramme
3. Le diagramme en bandes (dit aussi en tuyaux d’orgue)
4. Le tableau
54
Corrigé de l’exercice 14 Le graphique est le diagramme cumulatif de la variable quan-
titative discrète Nombre de joueurs sélectionnés.
Corrigé de l’exercice 16
1. FAUX
2. FAUX
3. FAUX
4. VRAI
Corrigé de l’exercice 17
55
n = 28 donc n/2 = 14 est pair. La médiane est donc la moyenne des
14ième et 15ième valeurs. La médiane est donc égale à (2+2)/2=2.
Le mode est la valeur la plus fréquente donc 1.
3. L’étendue est la différence entre la plus grande valeur et la plus petite
donc vaut 5-1=4.
4. Pour calculer l’écart type, on calcule d’abord la variance. Comme la
moyenne est un nombre entier, on peut utiliser la formule suivante
pour la variance :
Variance= la moyenne des carrés d’écart à la moyenne.
soit
Corrigé de l’exercice 18
1. L’ensemble A de tous les objets que l’on étudie est la population sta-
tistique.
2. Un sous-ensemble choisi dans A est un échantillon.
3. Un élément de A est un individu statistique.
4. Le nombre d’objets composant une population est la taille de la po-
pulation. Le nombre d’objets composant un échantillon est la taille
d’échantillon.
5. Lorsque l’on veut connaı̂tre certaines caractéristiques d’une popula-
tion, on dit qu’on enquête sur la population : Vrai x Faux
6. Une enquête peut être réalisée auprès de toute la population ou sur
un échantillon : Vrai x Faux
7. Une corrélation est une enquête réalisée auprès de toute la popula-
tion : Vrai Faux x
8. Les tableaux et graphiques sont utilisés pour donner une meilleure
vue d’ensemble des données : Vrai x Faux
56
Corrigé de l’exercice 19 La répartition des moyennes annuelles des 400 élèves de sixième
d’un établissement vous est donnée sous la forme d’un tableau :
La variance
√ vaut donc 73, 01 − (7, 585)2 = 15, 47 et l’écart type est
égal à 15, 47 = 3, 93.
4. Pour calculer la médiane d’une distribution en classes statistiques, on
procède ainsi : On calcule n/2. on obtient 200. Les effectifs cumulés
encadrant n/2 sont donc 197 et 295 et correspondent aux limites de
classe 8 et 10. La médiane appartient donc à la classe ]8 ;10]. On
applique alors la formule dite d’interpolation :
57
5. L’étendue pour une distribution en classes statistiques est l’écart entre
la plus grand limite de classe et la plus petite. Elle vaut donc ici
20 − 0 = 20. Pour calculer l’écart interquartile, il faut calculer les
quartiles Q1 et Q3 . Pour calculer Q1 , On calcule 0, 25 × n. on obtient
100. Les effectifs cumulés encadrant 0, 25 × n sont donc 85 et 197
et correspondent aux limites de classe 4 et 8. Le premier quartile Q1
appartient donc à la classe ]4 ;8]. On applique alors la formule dite
d’interpolation :
Corrigé de l’exercice 20
Corrigé de l’exercice 21
58
2.
Classes ]12 ;17] ]17 ;22] ]22 ;27] ]27 ; 32] ]32 ;37] ]37 ;42] ]42 ;47] ]47 ; 52] ]52 ;57] ]57 ; 62]
statistiques
Effectifs 2 3 12 11 7 5 2 2 5 1
6
4
2
0
10 20 30 40 50 60
Taille
3.
20 30 40 50 60
59
Corrigé de l’exercice 22
Corrigé de l’exercice 23
1. Le premier quartile vaut à peu près 8, la médiane 10 et le troisième
quartile 12. L’interprétation est qu’il y a autant d’enfants ayant une
surcharge pondérale supérieure à 10 qu’inférieure à 10. D’autre part,
25% des enfants ont une surcharge inférieure à 8 et 25% une sur-
charge supérieur à 12.
2. L’intervalle interquartile vaut à peu près [8 ;10] : 50% des surcharges
sont dans cette fourchette centrale.
3. Un enfant a une surcharge (à peu près égale à 21) qui est nettement
supérieure aux autres valeurs observées dans l’étude.
Corrigé de l’exercice 24
Les fréquences pour les catégories {Cadre, Ouvrier, Chômeur, Autres} ne correspondent
pas à celles données par le diagramme. Le tableau d’effectifs et le diagramme ne corres-
pondent donc pas à la même distribution.
60
Corrigé de l’exercice 25 Le premier graphique représente la répartition des tailles de
joueurs de volley-ball d’un lycée selon leur sexe. Il s’agit donc d’une représentation croisée
du couple de variables (Sexe, Hauteur) par boı̂tes à moustaches. La répartition des filles
s’étale principalement de 1m65 à 1m74 avec une valeur extérieure inférieure (1m62). La
médiane est proche de 1m69 et l’intervalle interquartile, qui représente la fourchette des
50% de valeurs centrales, est à peu près [1m68 ;1m72]. La taille chez les garçons va de
1m69 à 1m83 avec une valeur extérieure supérieure (1m90). La médiane vaut 1m75 et
l’intervalle interquartile [1m74 ;1m78]. Les garçons sont donc globalement plus grands que
les filles, mais certains filles sont plus grandes que certains garçons.
Primaire
Secondaire
Tertiaire
40
30
Pourcentage
20
10
0
61
Corrigé de l’exercice 27
62
l’université de Montpellier, la valeur est 57,7 < 58,7 donc est extérieure
inférieure.
3. Pour le pourcentage de néobacheliers issus de PCS défavorisées en
2011-2012, le premier quartile est 18,0 et le troisième 26,1. L’écart
interquartile I est donc égal à 8,1. Par conséquent, 1, 5×I = 12, 15 et
Q3 +1, 5×I = 38, 25. Comme la valeur pour l’université de la Réunion
est 47, 2 > 38, 25, il s’agit donc d’une valeur extérieure supérieure.
63