1
https://www.youtube.com/watch?v=sZB_xIvPlBg
Un jeu de données (Data Set en anglais) est un
ensemble de valeurs (ou données) où chaque valeur
est associée à une variable (ou attribut) et à une
observation. Par exemple, Dans une base de
données, un jeu de données peut contenir des
données métier (noms, salaires, coordonnées,
chiffre des ventes, etc.).
Le but de ce chapitre consiste à mener une analyse
descriptive pour nettoyer et expliquer les jeux de
données. Cette analyse ne se résume pas seulement
à un résumé du présent ou du passé mais doit
contenir aussi des projections et des impacts des
résultats obtenus.
Raisonnablement, ceci ne peut pas être fait que si
on a une connaissance fine des jeux de données. Un
modèle statistique avancé ne peut tenir que s’il a
une connaissance statistique descriptive des jeux de
données.
Il y aura des paragraphes plutôt théoriques, sur la
théorie des statistiques, et des chapitres pratiques.
Ces derniers vous invitent à appliquer les
statistiques en langage R ou en Python.
2
En statistiques, on étudie des trucs, des bidules et
des choses. Ces « choses », on les appelle
des individus. Ces individus peuvent être des objets,
des personnes, des animaux, des mesures physiques,
etc. L’individu, c’est l’unité d’observation.
Des individus ont des caractéristiques, on les appelle
des caractères ou des variables.
L’ensemble des individus s’appelle la population.
On note souvent sa taille N, correspondant au
nombre d’individus de la population. Il est très
fréquent de ne pas connaître la taille exacte d'une
population.
Lorsque l’on sélectionne certains individus d’une
population, on obtient un échantillon. Sa taille est
souvent notée n.
On utilisera souvent le terme de jeu de données. Ces
termes n'ont pas de définition très précise, mais
dans ce cours, ils seront équivalents à échantillon.
On représente en général un échantillon sous forme
de tableau, où chaque ligne correspond à un
individu, et chaque colonne représente une variable.
3
Cette représentation est à l’origine du format de
fichier (comma separated values). Ce format
peut être ouvert avec les logiciels tableurs
(Microsoft® Excel, OpenOffice Calc), et est
facilement interprétable par les langages R et
Python.
Les statistiques et les probabilités sont deux
domaines étroitement liés, mais ils sont distincts.
Quand on ne fait qu’observer et décrire
objectivement un phénomène, alors on fait
des statistiques. Mais lorsqu’on modélise les
observations, c’est-à-dire, on trouve des lois
mathématiques capables de générer les données que
l’on observe, on fait des probabilités.
4
En statistiques, les données que l'on observe sont
appelées observations, ou parfois réalisations. A
partir de ces observations, on peut modéliser. Dans
le domaine des probabilités, on manipule des
variables aléatoires, des lois de probabilité, etc.
Si vous étudiez la proportion femmes/hommes d'un
pays, on sélectionne un échantillon dans lequel on
observe ces proportions : par exemple 55% de
femmes et 45% d'hommes. Ce sont des statistiques.
Mais si on dit ensuite dans ce pays, un enfant qui naît
a un pourcentage de 55% d’être une fille, alors on fait
des probabilités.
(https://www.youtube.com/watch?v=99jDA-hN3P8)
Les variables que nous créons ne sont pas toutes de
même type. Certaines sont des nombres (la variable
"montant"), certaines sont des tranches de nombres
(la variable "tranche_depense"), certaines sont des
mots (comme la catégorie d'opération : « loyer »,
« courses », etc.).
Il y a deux types de variables, chacun d’eux est
subdivisé en deux groupes.
5
Ce sont les variables qui prennent des
valeurs numériques, à condition que ces valeurs
expriment une quantité et aient un sens lorsque l’on
y applique des opérations arithmétiques.
Une variable quantitative est soit discrète,
soit continue.
Si le nombre de valeurs possibles (et probables)
d'une variable est très grand, alors on peut la
considérer comme continue. Sinon, on la considère
comme discrète.
Ce sont toutes les variables qui ne sont pas
quantitatives. Les valeurs qu’elles prennent sont
appelées des catégories, ou modalités. Ces dernières
sont exprimées sous forme littérale (par un mot, une
phrase ou un code) ou par un codage numérique sur
lequel les opérations arithmétiques n’ont aucun
sens.
Une variable qualitative est nominale ou ordinale.
Une variable est ordinale si ses modalités peuvent
être ordonnées. La variable "tranche_depense" est
ordinale, car on peut dire qu’une dépense de la
tranche « petite dépense » est plus petite qu’une
« dépense moyenne », elle-même plus petite qu’une
6
« grosse dépense ». Dans un autre cadre, les
mentions attribuées à un examen (moyen, bien, très
bien) sont aussi une variable ordinale.
L’identifiant d’une opération est nominal, car on ne
peut pas dire que l’opération numéro 1 est
« inférieure » à l’opération numéro 40 (on suppose
ici que les identifiants ne sont pas forcément classés
par date d’opération).
• Le secteur d’emploi, la couleur, le sexe, la nature
de la fonction occupée, la profession, les opinions
politiques, le type sanguin, etc., sont des caractères
qualitatifs dont on prend note mais qu’on ne
mesure pas ;
• La taille d’un individu, le revenu, le temps, le
nombre, etc., sont des caractères quantitatifs pour
lesquels on effectue une mesure en utilisant un
instrument approprié (le mètre, un test
d’intelligence, un chronomètre, un cadran, le
dirham, etc.).
7
Jusqu'à maintenant, nous avons vu comment
afficher un échantillon (sous forme de tableau où
chaque ligne représente un individu, et chaque
colonne une variable). Pour représenter par
exemple la variable categ, on pourrait sélectionner
la colonne categ du tableau du jeu de données et
l'afficher telle quelle :
8
Mais il faut avouer que c'est assez illisible ! En plus,
il est fréquent d'avoir des échantillons de 1000
individus ou plus. Une colonne avec 1000 valeurs
dedans, c'est très moche et très difficile à
interpréter. Il y a une solution bien meilleure, qui
consiste à dire :
Il y a 39 fois la valeur COURSES, 212 fois la valeur
AUTRE, 21 fois la valeur TRANSPORT, etc.
Cette formulation est appelée distribution
empirique. C'est cette distribution que l'on se
propose de représenter graphiquement ici.
9
Les différentes "possibilités" que l'on puisse
observer pour la variable categ sont ses modalités.
Les modalités de la variable categ sont : courses,
transport, autre, loyer, etc. Pour une variable
quantitative cependant, on les appelle les valeurs
possibles. On associe à chaque modalité (ou valeur)
un effectif. L'effectif de la modalité courses
est ncourses=39.
En divisant un effectif par le nombre d'individus de
l'échantillon (noté n), on obtient une fréquence.
La distribution empirique d'une variable,
c'est l’ensemble des valeurs (ou modalités) prises par
cette variable, ainsi que leurs effectifs associés. On
peut présenter ceci sous forme de tableau.
Passons maintenant aux représentations
graphiques.
10
•
11
•
Une variable qualitative peut être :
(soit nominale, soit ordinale) ; (soit nominale, soit continue) ; (soit
discrète, soit ordinale) ; (soit discrète, soit continue).
Si une variable prend ses modalités dans la liste : "petit",
"moyen", "grand", alors elle est : ordinale ; nominale ; discrète ;
continue.
La fréquence d'une modalité est calculée par :
(le nombre d'individus de cette modalité divisé par la taille de
l'échantillon) ; (le nombre d'individus de cette modalité multiplié par la
taille de l'échantillon).
Avant de calculer une fréquence cumulée, quelle précaution
faut-il prendre ?
« Ordonner les modalités (ou les classes d'agrégation) dans l'ordre
croissant (ou décroissant) » ; « Vérifier que la taille de l'échantillon est
inférieure (ou égale) à la taille de la population ».
Un histogramme représente :
« la distribution d'une variable » ; « pas grand-chose, mais c'est joli
quand même » ; « la représentation des fréquences cumulées ».
Trouvez la phrase fausse :
« Un individu comporte plusieurs échantillons » ; « Une population est
composée d'individus » ; « Une variable caractérise un individu » ; « Un
échantillon provient d'une population ».
12
Une analyse univariée est une analyse effectuée sur
une variable à la fois. Le but est de définir des
paramètres dont les valeurs numériques permettent
de simplifier ou de présenter ou de résumer
l’information contenue dans la distribution étudiée.
•
La moyenne d'âge d’une population en 2010, le taux
de réussite au quiz de fin de la partie 2 de ce
chapitre et l'indice d'érosion des sols de la région
d’un pays sont toutes des statistiques.
Une statistique est un indicateur numérique calculé
à partir d'un échantillon. Par exemple :
• La moyenne d'âge est calculée à partir des
habitants d'un pays ;
• Le taux de réussite à un quiz est calculé à partir
des réponses données par les étudiants ;
• L’indice d'érosion des sols est calculé à partir de
relevés effectués sur des parcelles de terrain.
13
Une statistique est utile car elle nous permet de
résumer un grand échantillon en un seul nombre.
Certainement, il y a une grande perte d'information
quand on calcule une statistique, par exemple : on
peut calculer le taux de réussite à partir des
réponses des étudiants, mais on ne peut pas
retrouver les réponses des étudiants uniquement
avec le taux de réussite.
Ainsi, une statistique est un indicateur, plus ou
moins efficace, d'une certaine propriété d'un
échantillon.
•
Dans le monde, on calcule tellement des
statistiques dans tous les domaines, que ce terme
possède beaucoup de synonymes : donnée
statistique, indicateur statistique, mesure
statistique, indice statistique, etc.
Un indice statistique est une statistique construite à
partir d'une certaine vision, à partir de
connaissances d'un domaine (par ex : l'économie).
En quelques sortes, un indice est une statistique
"entourée" d'une certaine philosophie. A la
différence d'un indice, un indicateur est quant à lui
très neutre, comme une moyenne par exemple.
14
Si on calcule autant d'indicateurs et d'indices, c'est
parce qu'ils sont censés nous guider (comme leur
nom l'indique). Ils nous aident à prendre des
décisions. Les indicateurs et indices économiques,
écologiques, sociologiques, etc. aident par exemple
à prendre des décisions politiques.
Certains indicateurs et indices résultent d'un calcul
très simple, comme le chiffre d'affaires d'une
entreprise (il suffit d'additionner toutes ses
recettes). D'autres au contraire résultent d'un
calcul plus complexe, comme ceux qui conjuguent
plusieurs caractéristiques d'une population. C'est le
cas de l'indice de développement humain (IDH),
calculé à partir du produit intérieur brut (PIB) par
habitant, l'espérance de vie à la naissance et le
niveau d'éducation. On trouve également
l'indicateur de capacité relationnelle, qui mesure la
qualité des relations entre les personnes et le niveau
de leur autonomisation relationnelle.
Dans le domaine de l'environnement, on trouve les
indices de "bio-capacité" et d'empreinte écologique
de l'Homme, eux-mêmes calculés à partir de
données concernant les forêts, les terrains
construits, les champs cultivés, etc.
15
•
Sur une même population, on peut bien sûr calculer
plusieurs indicateurs. Chacun d'entre eux nous
donnera une indication sur une caractéristique
différente de la population. Par exemple, la
moyenne d'une classe à un examen nous indiquera
si l'examen a été bien réussi ou pas. Mais sur cette
même population, l'écart-type des notes (nous
verrons cette notion prochainement) nous
indiquera s'il y a de grandes disparités de notes
parmi les étudiants.
Il ne faut jamais faire confiance à 100% à un
indicateur. Vous vous imaginez bien que résumer
une réalité complexe en un seul nombre, c'est
forcément faire l'impasse sur certains aspects
importants de cette réalité. Ainsi, quand on utilise
un indicateur, il faut toujours savoir ce qu'il mesure
et ce qu'il ne mesure pas.
Vous devez vous rendre en voiture à un entretien
d'embauche, loin de chez vous, dans une autre ville
que la vôtre. Vous vous demandez à quelle heure il
faut partir pour arriver là-bas à 15h. Comme vous
16
avez beaucoup de choses à faire le matin, vous ne
souhaitez pas partir trop tôt, mais vous voulez
quand même être sûr d'être à l'heure.
Le trajet que vous devrez faire, vous le connaissez
peu. Mais heureusement, l'un de vos amis le
parcourt tous les jours, et il connaît la route par
cœur.
Vous lui demandez donc : Combien de temps dure le
trajet entre les deux villes ? Il vous répond : Tout
dépend si la circulation est bonne ou pas. La plupart
du temps, je mets entre 40 min et 45 min.
Votre ami a l'habitude du trajet : il l'a parcouru
peut-être 1000 fois ! A chaque fois, il a retenu (plus
ou moins inconsciemment) le temps de trajet. Nous
avons donc ici un échantillon de taille 1000, avec une
variable quantitative continue : le temps de trajet
entre les 2 villes.
Même si le temps de ce trajet peut en théorie
prendre des valeurs comprises entre 0 et l'infini,
vous vous doutez bien qu'elles se concentrent quand
même autour d'une certaine valeur. Ce que vous
souhaitez savoir ici, c'est avoir un ordre d'idée d'où
se concentrent les valeurs des temps de trajet.
Nous arrivons donc à l'objet de ce paragraphe :
les mesures de tendance centrale.
17
(https://www.youtube.com/watch?v=L_KIi0yscZw)
Lorsque votre ami vous dit "la plupart du temps, je
mets entre 40 et 45 min", il vous donne une mesure
de tendance centrale qui s'appelle le mode.
Pour les variables qualitatives et pour les variables
quantitatives discrètes, le mode est la modalité ou sa
valeur est la plus fréquente. Pour les variables
quantitatives continues, on travaille dans le cas
agrégé, en regroupant les valeurs par classes.
La classe modale est la classe la plus fréquente.
Dans la page 17, le mode de la
variable categ est "Autre", car la modalité "Autre"
est présente 212 fois dans l'échantillon, et toutes les
autres modalités ("loyer", "courses", etc.) sont
présentes moins de fois. Dans la page 18, le mode de
la variable surface en ha est 6 et le mode de la
variable poids des fromages en grammes est la
classe [310 ; 320[.
Votre ami a découpé sa variable en tranches de 5
minutes, et a déterminé que la tranche la plus
18
fréquente était [40min;45min[. Vous répondez donc
à votre ami : "Oui, mais je ne peux pas me contenter
de la durée la plus fréquente : car si la deuxième
durée la plus fréquente est de 65 à 70 minutes, il faut
que je parte beaucoup plus tôt". Il répond alors :
Oui tu as raison. En fait je mets en moyenne 60
minutes par trajet, car il y a souvent des
embouteillages. Ici, votre ami vous a répondu en
termes de moyenne.
Cela change tout : heureusement que vous lui avez
demandé de préciser, vous seriez arrivé en retard !
Pour calculer la moyenne de valeurs, on additionne
celles-ci, puis on divise le résultat par le nombre de
valeurs.
Il est courant d'associer la notion de moyenne à la
notion d'équilibre et de centre de gravité.
La médiane, (notée Med), est la valeur telle que le
nombre d’observations supérieures à cette valeur
est égal au nombre d’observations inférieures à
cette valeur.
Sur l’histogramme, le mode est le "point le plus
haut" de la distribution, la médiane est la valeur qui
19
divise la surface en deux et la moyenne est le centre
de gravité de la distribution, comme sur cette
illustration :
Aller plus loin ?????????
(https://www.youtube.com/watch?v=83rl10w66IY)
Au paragraphe précédent, votre ami vous a donné
une estimation de la durée du trajet. Mais il vous a
donné des mesures de tendance centrale, comme
par exemple la moyenne, qui est de 60 minutes par
trajet. Ce qui vous manque maintenant, c'est de
savoir si les durées que votre ami a effectué sont très
"resserrées" autour de 60 min (exemple : [58, 60,
62, 59, 57, ...]), ou bien si elles s'en écartent
beaucoup (exemple : [40, 70, 78, 43, ...]).
Si les valeurs sont très resserrées autour de 60
minutes, alors prévoyez de partir 75 minutes à
20
l'avance. Ainsi, il est probable que vous arriverez 5
ou 10 minutes avant votre entretien. Mais si les
valeurs sont très écartées, alors prévoyez plutôt de
partir 100 minutes à l'avance, car il est tout à fait
possible que le trajet dure 80 minutes !
Les indicateurs de tendance centrale sont
insuffisants pour caractériser complètement une
distribution statistique. Deux distributions
statistiques ayant la même moyenne ne se
répartissent pas nécessairement de la même
manière autour de cette moyenne. Elles sont plus au
moins étalées ou moins éloignées les unes des autres.
Soient les deux distributions suivantes :
• {𝟑𝟓𝟎 ; 𝟑𝟔𝟎 ; 𝟑𝟕𝟓 ; 𝟒𝟎𝟎 ; 𝟒𝟓𝟎 ; 𝟓𝟎𝟎 ; 𝟓𝟕𝟓}
• {𝟏𝟎 ; 𝟓𝟎 ; 𝟏𝟎𝟎 ; 𝟒𝟎𝟎 ; 𝟔𝟓𝟎 ; 𝟖𝟎𝟎 ; 𝟏𝟎𝟎𝟎}
Ces deux distributions ont la même médiane : 400
et la même moyenne arithmétique : 430. Mais elles
sont différentes, dans la seconde les chiffres sont
beaucoup plus dispersés que dans la première.
On se propose dans ce paragraphe de donner des
indicateurs pour mesurer cette dispersion.
21
Modalités x1 ……… xk Total
Effectifs n1 ……… nk n
avec ni = nombre de fois où la variable X prend la
valeur xi dans l’échantillon.
On appelle variance empirique (ou fluctuation) de
la distribution, la valeur :
𝒏 𝒏
𝟏 𝟏
̅) = ∑ 𝒏𝒌 𝒙𝟐 − 𝒙
𝑽𝒙 = ∑ 𝒏𝒌 (𝒙𝒌 − 𝒙 𝟐 ̅𝟐
𝒏 𝒏
𝒌=𝟏 𝒌=𝟏
𝟏
̅ = ∑𝒏𝒌=𝟏 𝒏𝒌 𝒙𝒌 = moyenne de la distribution.
𝒙
𝒏
Modalités c1=[a0,a1[ …… ck=[ak-1,ak[ Total
Effectifs n1 …… nk n
avec ni = nombre de fois où le caractère X prend
des valeurs appartenant à ci dans l’échantillon.
On appelle variance empirique (ou fluctuation) de
la distribution, la valeur :
𝒏 𝒏
𝟏 𝟏
̅) = ∑ 𝒏𝒌 𝒙𝟐 − 𝒙
𝐯𝒙 = ∑ 𝒏𝒌 (𝒙𝒌 − 𝒙 𝟐 ̅𝟐
𝒏 𝒏
𝒌=𝟏 𝒌=𝟏
𝒂𝒌−𝟏 +𝒂𝒌 𝟏
𝒙𝒌 = ̅ = ∑𝒏𝒌=𝟏 𝒏𝒌 𝒙𝒌 = moyenne de
𝐞𝐭 𝒙
𝟐 𝒏
la distribution.
22
(𝟕𝟎 ; 𝟔𝟎 ; 𝟓𝟎 ; 𝟓𝟓 ; 𝟓𝟓 ; 𝟔𝟓 ; 𝟔𝟓) représente un
échantillon des temps d’un trajet en minutes.
𝟏
̅ = (𝟕𝟎 + 𝟔𝟎 + 𝟓𝟎 + 𝟓𝟓 + 𝟓𝟓 + 𝟔𝟓 + 𝟔𝟓) = 𝟔𝟎 ;
𝒙
𝟕
𝟏
vx = 𝟕 (𝟕𝟎𝟐 + 𝟔𝟎𝟐 + 𝟓𝟎𝟐 + 𝟓𝟓𝟐 + 𝟓𝟓𝟐 + 𝟔𝟓𝟐 + 𝟔𝟓𝟐 ) − 𝒙̅𝟐 = 𝟒𝟐, 𝟖𝟔.
L'écart-type empirique, c'est juste la racine carrée
de la variance empirique (en anglais standard
deviation) et on le note x. En fait, quand on calcule
la variance empirique des temps de trajet, le
résultat a pour unité la minute2, ce qui n'est pas très
intelligible. En prenant la racine carrée, l'unité
redevient la minute. Ici, notre écart-type vaut 6,55
minutes.
On appelle coefficient de variation d’une
𝝈
distribution X, la valeur sans dimension : 𝑪𝑽 = ̅𝒙
𝒙
• L'écart-type empirique, qui s’exprime dans la
même unité que la variable statistique,
caractérise la dispersion absolue. Le 𝑪𝑽
caractérise la dispersion relative. Donc :
➢ Si 𝑪𝑽 ≪ 𝟏, on peut dire que 𝒙 ̅ représente
bien la distribution ;
23
➢ Si 𝑪𝑽 ≫ 𝟏, on peut dire que 𝒙 ̅ représente très
mal la distribution.
• Il est commode d’utiliser le CV pour comparer
des distributions où les unités sont différentes.
Par contre, il cesse d’être commode quand 𝒙 ̅ est
proche de 0.
(https://www.youtube.com/watch?v=VUEAoPBQgJI&t=15s)
La boîte à moustaches, ou boîte à pattes, est un petit
diagramme représentant divers caractères de
dispersion d'une série statistique. Il sert souvent
pour comparer deux séries statistiques entre elles.
Ce diagramme est constitué de la façon suivante. On
trace une "boîte" qui est un rectangle dont la
longueur s'étend du premier quartile au troisième
quartile, et qui est coupé par un trait vertical à
hauteur de la médiane. De cette boîte partent deux
traits horizontaux : l'un va du premier quartile à la
valeur minimale de la série, l'autre du troisième
quartile à la valeur maximale. Sur ces deux
moustaches, on représente également en général les
valeurs du premier et du dernier décile par des
traits verticaux.
24
Sur la boîte à moustaches ci-dessus, on a représenté
le minimum m, le premier décile D1, le premier
quartile Q1, la médiane Med, le troisième quartile
Q3, le dernier décile D9, et le maximum M.
Dans les diagrammes en boîte de
Tukey, la longueur des " moustaches " vaut 1,5 fois
l’écart interquartile. Ces diagrammes de Tukey
étaient utilisés dans des secteurs où les données
peuvent le plus souvent être modélisées en utilisant
une loi normale ; dans ce cas, la théorie montre que
les extrémités des " moustaches " sont voisines du
premier et 99e centile : ces diagrammes étaient
surtout utilisés pour détecter la présence de données
exceptionnelles.
Une étude sur les notes obtenues à une
épreuve d’examen ont conduit au diagramme (boite
à moustaches) suivant (notes sur 20) :
25
1. Remplir le tableau suivant :
2. Cocher les cases vrai ou faux du tableau suivant
Vrai Faux
La moitié du nombre de candidats ont
obtenu moins de 9 / 20
20 % des candidats ont obtenu entre
3 / 20 et 5 / 20
50 % des candidats ont obtenu entre
5 / 20 et 15 / 20
25 % des candidats ont obtenu entre
15 / 20 et 18 / 20
3. Etudier la dispersion à l’intérieur de l’intervalle
interquartile.
26
Aller plus loin ?????????
Votre ami vous a donné la moyenne des temps de
trajets, ainsi que l’écart-type (voir paragraphes 3.3
et 3.4). Mais, il y a quelque chose que vous n'avez
pas prévu. Regardez ces 2 distributions :
Elles ont la même moyenne empirique (60 minutes),
et le même écart-type. Cependant, le cas 1 est plus
"risqué" que le cas 2. En effet, dans le cas 2, il est
très peu probable que votre trajet dure plus de 75
minutes : pas de risque d'être en retard ! Par contre,
dans le cas 1, il est tout à fait possible que votre
trajet dure 80 minutes, ou même beaucoup plus.
27
Vous remarquez donc que connaître la moyenne et
l’écart-type ne suffit pas ici. Ce qu'il vous faut
connaître, c'est la forme de la distribution : est-ce
qu'elle s'étale plutôt vers la gauche ou plutôt vers la
droite ?
Il y a des mesures statistiques pour cela. On les
appelle les mesures de forme.
Le Skewness est souvent noté γ1, et se calcule par :
𝒏
𝝁𝟑 𝟏
𝜸𝟏 = 𝟑 𝐚𝐯𝐞𝐜 𝝁𝟑 = ∑(𝒙𝒊 − 𝒙 ̅ )𝟑
𝝈 𝒏
𝒊=𝟏
Le skewness est une mesure d'asymétrie.
L’asymétrie d’une distribution traduit la régularité
(ou non) avec laquelle les observations se
répartissent autour de la valeur centrale. On
interprète cette mesure de cette manière :
Si γ1=0 alors la distribution est symétrique.
Si γ1>0 alors la distribution est étalée à droite.
Si γ1<0 alors la distribution est étalée à gauche.
28
Le kurtosis empirique n'est pas une mesure
d'asymétrie, mais c'est une mesure d'aplatissement.
L’aplatissement peut s’interpréter à la condition
que la distribution soit symétrique. En fait, on
compare l'aplatissement par rapport à la
distribution la plus célèbre, appelée distribution
normale (parfois "courbe de Gauss"). Vous l'avez
déjà vue, elle ressemble à cela :
Le kurtosis est souvent noté γ2, et se calcule par :
𝒏
𝝁𝟒 𝟏
̅)𝟒
𝜸𝟏 = 𝟒 − 𝟑 𝐚𝐯𝐞𝐜 𝝁𝟒 = ∑(𝒙𝒊 − 𝒙
𝝈 𝒏
𝒊=𝟏
29
Il s’interprète comme ceci :
Si γ2=0, alors la distribution a le même
aplatissement que la distribution normale.
Si γ2>0, alors elle est moins aplatie que la
distribution normale : les observations sont plus
concentrées.
Si γ2<0, alors les observations sont moins
concentrées : la distribution est plus aplatie.
Aller plus loin ?????????
Les mesures de concentration sont les plus souvent
utilisées pour des sommes d'argent. Étudier la
30
concentration d'argent, c'est regarder si l'argent est
répartie de manière égalitaire ou pas.
Ce que l'on va regarder, c'est si tout l'argent que
vous dépensez se concentre en quelques opérations
bancaires, ou si au contraire, il est bien réparti
parmi les opérations. Dire que votre argent se
concentre sur quelques opérations signifie que
généralement, vous faites de très nombreuses
petites dépenses, et que parfois, il vous arrive de
faire quelques dépenses énormes.
Au contraire, l'argent que vous dépensez est bien
réparti si toutes vos opérations bancaires
(sortantes) ont à peu près le même montant.
Pour visualiser cela, nous utilisons la courbe de
Lorenz.
Pour illustrer la courbe de Lorenz, imaginons la
population d'un pays. Concentrons-nous sur les
personnes qui ont des revenus : ceux qui gagnent de
l'argent.
Il faut vous imaginer la courbe de Lorenz comme
un podium, non pas avec 3 places, mais avec autant
31
de places que de gens. Ce podium ressemble à un
escalier, sur lequel on place l'individu qui gagne le
plus d'argent tout en haut, et celui qui gagne le
moins d'argent tout en bas.
Seulement, cet escalier n'est pas régulier : la
hauteur d'une marche donnée, par rapport à la
marche précédente, correspond au revenu de
l'individu placé sur cette marche. Ainsi, quelqu'un
qui gagne beaucoup d'argent sera placé sur une
marche très haute par rapport à celle de la personne
en dessous de lui.
quelle sera la hauteur totale de l'escalier?
La hauteur de l'escalier est la somme des hauteurs
des marches. La somme des hauteurs des marches
correspond à la somme de tous les revenus des
individus. Par exemple, si 10000 DH ont été
distribués parmi la population, la hauteur de
l'escalier sera de 10 m (si on considère que 1 m
correspond à 1000 DH).
La courbe de Lorenz représente tout simplement
cet escalier, à cela près que la hauteur de l'escalier
est ramenée à 1, et que la longueur de l'escalier
(projetée au sol) est aussi ramenée à 1.
32
Si tous les gens reçoivent la même somme d'argent
alors la répartition est la plus égalitaire possible.
L'escalier se présente comme ceci :
On voit que les marches sont régulières, et que
toutes les personnes sont alignées sur une droite
appelée première bissectrice représentée en bleu sur
le graphique de droite.
Si une seule personne concentre en sa possession
l'ensemble de la richesse alors la répartition est la
plus inégalitaire possible :
33
Ici, la courbe de Lorenz ne suit plus du tout la
première bissectrice, mais elle s'en éloigne au
maximum !
En résumé, plus la courbe de Lorenz est proche de
la première bissectrice, plus la répartition est
égalitaire.
La courbe de Lorenz n'est pas une statistique, c'est
une courbe. Du coup, on a créé l'indice de Gini, qui
résume la courbe de Lorenz.
Il mesure l'aire présente entre la première
bissectrice et la courbe de Lorenz. Plus précisément,
si on note S cette aire, alors l'Indice de Gini est
toujours compris entre 0 et 1 il est donné par :
𝑰𝑮 = 𝟐 × 𝑺
34
Plus la distribution du revenu est concentrée, plus
la fraction la plus riche de la population reçoit une
grande partie des revenus, et plus la fraction la plus
pauvre reçoit une petite partie des revenus. A
l'inverse, dans une distribution du revenu
parfaitement égalitaire, 10 % de la population
reçoit exactement 10 % des revenus totaux.
Voir plus loin ??????
Voici les valeurs observées pour une variable
donnée : {𝟏, 𝟏𝟎, 𝟏, 𝟏𝟎, 𝟏, 𝟏, 𝟓, 𝟏, 𝟓, 𝟓}.
Barrer les phrases qui ne sont pas correctes ? (Attention,
plusieurs réponses sont possibles) :
La moyenne est 4. La médiane est 3. Le mode est 1.
35
Soit ces deux distributions :
𝑨 = {𝟔, 𝟒, 𝟔, 𝟒, 𝟔, 𝟒, 𝟔, 𝟒}
𝑩 = {𝟏, 𝟒, 𝟏, 𝟒, 𝟏, 𝟒, 𝟏, 𝟒}
Laquelle a la plus grande variance ?
Une boîte à moustaches, c'est :
• une entreprise dans laquelle les employés ont interdiction
de se raser ;
• une représentation de la distribution d'une variable.
Le "skewness" est une mesure :
de concentration ; de forme ; de dispersion; de tendance
centrale
Pour un jour donné, dans une région donnée, s'il
ne pleut que dans un seul village et qu'il ne pleut pas dans les
autres, quel sera l'indice de Gini de la variable "pluviométrie"
dans l'échantillon des villages de la région ?
Que dire d'une distribution dont le skewness = 0 ?
• La distribution est symétrique ;
• L'écart-type de la distribution est lui aussi égal à 0.
Dans ce paragraphe, on va étudier les relations
entre variables. C’est l’analyse bi-variée.
Vous travaillez pour un site web de
e-commerce. Vous avez accès à la base de données
36
des clients du site, ainsi qu'aux données de
navigations sur le site. Grâce aux données de
navigation, vous pouvez savoir quel client a consulté
quelle page sur le site, combien de temps il a passé
sur chaque page, etc. Dans le but de créer un
algorithme de recommandation (qui proposera de
nouveaux produits aux clients), vous décidez de
faire une petite étude préliminaire.
Grâce aux données de navigation, vous pouvez
sélectionner un échantillon de clients qui consultent
souvent les derniers albums musicaux de variété
française. Vous décidez alors de déterminer
l'intérêt qu'ils portent au nouvel album d'un
chanteur populaire, en modélisant cet intérêt par un
score allant de 0 à 10 sur une échelle continue. Si un
client donné n'a jamais visité la page qui présente ce
nouvel album, vous lui attribuez le score
intermédiaire de 5. S'il a souvent visité la page de
cet album, qu'il y est resté longtemps, et qu'il a
finalement acheté l'album vous lui attribuez le score
de 10. Au contraire, s'il a consulté la page, qu'il n'y
est pas resté longtemps, et qu'il n'a pas acheté
l'album lors de sa dernière commande sur le site,
alors c'est probablement qu'il semble ne pas aimer
ce nouvel album. Vous lui attribuez donc le score de
0. Vous connaissez l'âge de chaque client. Vous
37
obtenez donc un échantillon de clients caractérisés
par 2 variables : l'âge et le niveau d'intérêt.
Vous décidez donc d'étudier ces 2 variables
séparément, avec des histogrammes :
Ces histogrammes montent que les âges sont assez
bien répartis sur cet échantillon : il y a à peu près
autant de personnes jeunes que de personnes plus
âgées. Quant au niveau d'intérêt, il y a également
autant de personnes qui s'intéressent au nouvel
album que de personnes qui n'y portent pas
d'intérêt.
C’est déjà bien de savoir cela, mais nous allons voir
que nous pouvons faire beaucoup mieux !
Maintenant, plaçons sur un graphique en 2
dimensions les individus de notre échantillon (qu’on
appelle nuage statistique). Chaque point de ce
graphique représente une personne. Ici, on place la
variable âge en abscisse et celle du niveau d'intérêt
en ordonnée. Un point qui sera en haut à droite
38
représentera donc une personne plutôt âgée très
intéressée par le nouvel album. Au contraire, un
point qui sera en bas à gauche représentera une
personne jeune n'aimant pas l'album.
En fait, plusieurs cas sont possibles. Voici 2
exemples extrêmes :
Ne remarquons qu’aucun de ces 2 graphiques
n'entre en contradiction avec les 2 histogrammes
obtenus plus haut !
Dans le cas A, beaucoup de personnes âgées aiment
ce nouvel album, et beaucoup de personnes jeunes
ne l'aiment pas. Ainsi, votre algorithme de
recommandation devra conseiller ce nouvel album
aux personnes plutôt âgées, et ne pas le
recommander aux personnes jeunes (mieux vaudra
leur proposer des produits qu'elles sont plus
susceptibles d'aimer).
39
Dans le cas B, c’est l’inverse. Il faut conseiller cet
album aux personnes jeunes et ne pas le faire pour
les personnes âgées.
Chacun de ces 2 graphiques est appelé « diagramme
de dispersion » ou « scatter plot » en anglais.
Vous l’aurez compris, on obtient en général
beaucoup plus d’information en étudiant
les relations entre 2 variables qu’en étudiant
séparément 2 variables ! Sans l’analyse bivariée,
vous auriez été incapable de savoir à qui
recommander (ou non) l'album !
Ici, étudier la relation entre les 2 variables, c’est se
poser la question suivante : « Sachant qu’une
personne est plutôt jeune (ou plutôt âgée), a-t-elle
plus de chances d’aimer ce nouvel album ? »
un célèbre site de formations en ligne
publie des cours, dans lesquels les étudiants doivent
répondre à des quiz. Pour réussir un quiz, il faut
70 % de réponses correctes. Pour un quiz de 8
questions, il faut donc répondre correctement à au
moins 6 questions pour réussir. L’échantillon des
étudiants ayant répondu au quiz est un échantillon
à 8 variables. Elles sont toutes binaires (réponse
bonne/réponse fausse). Pour l’un des quiz du cours
intitulé « Initiez-vous à l’algèbre relationnelle avec
SQL », voici ces 8 variables représentées :
40
Considérons que ces 8 questions sont numérotées de
1 à 8, de gauche à droite.
5 questions sur 8 ont un taux de réussite proche de
100 %. Les 3 autres questions ont un taux de
réussite proche de 50 %. Ce graphique montre 8
analyses univariées. Mais ici, il nous faudrait
étudier les relations entre ces variables. En effet,
parmi les 50 % d’étudiants qui ont raté la question
2, je ne sais pas combien ont réussi la question 3, et
c’est problématique car :
• Si les 50 % qui ont raté la question 2, les 50 % qui
ont raté la 3, et les 50 % qui ont raté la 4 sont
les mêmes étudiants, alors cela signifie que 50 %
d’étudiants au total ont raté le test (avec chacun 3
réponses fausses). Le taux de réussite globale au
test est donc de 50 %, et il faudrait alors simplifier
l’énoncé du quiz.
41
• Si cependant les 50 % qui ont raté la question 2
sont tous parmi les 50 % qui ont réussi la question
3, alors ceux-ci auront probablement tous réussi
le quiz (quel que soit leur résultat à la question 4,
ils auront presque tous un score global de 6/8 ou
7/8). Ainsi, le taux de réussite globale du quiz sera
proche de 100 %, ce qui est un bon taux !
Ici, étudier les relations entre les variables, c’est se
demander par exemple : « Sachant qu’un individu
a eu faux à la question 2, a-t-il de grandes chances
d’avoir répondu faux ou vrai à la question 3 ? »
Formellement, la notion de relation entre variables
est appelée corrélation. Dire que deux variables sont
corrélées signifie que si on connaît la valeur d’une
variable, alors il est possible d’avoir une indication
(plus ou moins précise) sur la valeur d’une autre
variable.
Dans l’exemple 1 du paragraphe précédent, on a
étudié des corrélations, en se posant la question
suivante : sachant l'âge d'un individu, peut-on avoir
une indication plus précise de la valeur « intérêt
pour un album donné » ?
42
Aujourd’hui, il vous prend la soudaine
envie de faire des statistiques sur les habitants de
votre ville. Vous souhaitez connaître leurs boissons
préférées parmi celles-ci : café, thé, eau, ou autre.
Vous réalisez donc votre enquête en vous rendant
dans les cafés pour observer discrètement les clients
et noter la boisson qu’ils ont commandé. Vous
souhaitez rassembler un échantillon de 100
personnes. Pour chacune d’elle, vous avez noté la
boisson commandée et le nom du café dans lequel
vous l’avez observée. On appellera ces deux
variables nom café et boisson préférée.
Voici la distribution que vous obtenez pour la
variable boisson préférée :
café : 50 personnes sur 100, soit fcafe = 50 % ;
thé : 30 personnes sur 100, soit fthe = 30 % ;
autres : 20 personnes sur 100, soit fautre = 20 %.
Vous continuez votre enquête en vous rendant dans
un café où il y a 10 clients. Combien de personnes
vous attendez-vous à voir face à un thé ?
Intuitivement, vous vous attendez à trouver 3
personnes qui ont commandé un thé car vous savez
qu’en général, 30 % des personnes commandent un
thé. Vous avez donc réalisé le calcul suivant :
30%*10 = 3.
43
De même, vous vous attentez à voir 5 personnes avec
un café, et 2 personnes avec d’autres boissons.
A votre grande surprise, il y a en fait 9 personnes
avec du thé, et seulement 1 avec un café ! C’est à
dire il y a 90 % de personnes qui boivent du thé.
C'est peut-être un hasard, alors vous décidez de
revenir régulièrement pour savoir si ce 90 % se
confirme de jour en jour ou pas. Effectivement, ce
pourcentage reste à peu près constant même après
de nombreuses observations !
Mais vous comprenez vite pourquoi en regardant le
nom du café : « Salon de thé Chez Luc ». Vous êtes
dans un café un peu spécial : c’est un salon de thé !
Les clients qui fréquentent cet endroit sont donc
principalement des amateurs de thé.
On dit alors que le fait d’aimer le thé et le fait de
fréquenter le salon de thé Chez Luc ne sont pas
indépendants. Si deux événements ne sont pas
indépendants, alors on s’attend à trouver une
corrélation entre ceux-ci.
Sachant qu’une personne fréquente le café Salon de
thé Chez Luc, peut-on avoir une indication un peu
plus précise sur sa boisson préférée ?
La réponse est oui ! Sans connaître la valeur de la
variable nom café, alors on suppose que la variable
44
boisson préférée suivra cette distribution : 50 %
pour le café, 30 % pour le thé et 20 % pour les
autres boissons. MAIS, si on connaît la valeur de la
variable nom café (ici : Salon de thé Chez Luc),
alors on peut avoir une meilleure indication sur la
variable boisson préférée ; ici on s'attendra à
trouver bien plus que 30%*10=3 personnes devant
une tasse de thé.
Appelons I l'événement "préférer le thé" et
J l'événement "être au Salon de thé Chez Luc".
Voici ce qu'il faut retenir :
Si deux événements I et J sont indépendants, alors
on s'attend à ce que le nombre d'individus qui
satisfont à la fois I et J (appelons ce nombre nij ) soit
égal à fi∗nj (c'est le calcul que vous aviez fait en
entrant dans Salon : 30%*10=3). Au contraire, plus
nij sera différent de fi∗nj, plus on aura de raison de
penser que I et J ne sont pas indépendants.
Quand vous avez vu que nab = 9, vous vous êtes dit
que le fait d'être au Salon de thé Chez Luc n'était
pas indépendant du fait d'aimer le thé !
On peut résumer tout cela
dans un tableau appelé tableau de contingence (où
X = nom du café et Y = boisson préférée) :
45
Chacune des valeurs du tableau de contingence
(hors colonnes TOTAL) est appelée effectif conjoint
nij. L'ensemble effectifs conjoints est appelé
distribution conjointe empirique de (nom café,
boisson préférée).
La dernière ligne (TOTAL) est appelée distribution
marginale empirique de boisson préférée, et la
dernière colonne (TOTAL) est appelées distribution
marginale empirique de nom café.
L'ensemble des effectifs conjoints de la première
ligne (Chez Luc) est appelée distribution
conditionnelle empirique de boisson préférée étant
donné que nom café = Chez Luc.
46
Jusqu'à maintenant, nous avons vu 2 manières de
présenter des données en analyse bivariée : le
diagramme de dispersion (scatterplot), et le tableau
de contingence. Le premier est adapté quand les 2
variables sont quantitatives, et le second est adapté
quand les 2 variables sont qualitatives.
Êtes-vous moins dépensier (gaspilleur)
lorsque vous avez peu d'argent sur votre compte ?
Les deux variables à étudier sont : montant et solde
avant opération.
Rechercher une corrélation entre ces variables
revient à dire : "Sachant que le solde de votre
compte est petit, peut-on s'attendre à ce que le
montant de l'opération soit lui aussi petit ?" (ou
l'inverse).
47
A priori sur ce diagramme de dispersion, il ne
semble pas que quand le solde est petit, les montants
soient particulièrement petits. Il semble ne pas y
avoir de corrélation. Mais vous en trouverez peut-
être une dans vos propres relevés ! Cependant, les
points sont assez dispersés et nombreux. Il est donc
difficile d'y voir très clair. Pour remédier à cela, il
existe une représentation qui peut être meilleure.
Elle est donnée dans la section Aller plus loin.
C'est bien beau les graphiques, mais il nous faut un
indicateur numérique qui puisse nous dire si les
variables sont corrélées ou pas. Il s’agit de la
covariance empirique (𝑺𝑿𝒀 ) et le coefficient de
corrélation linéaire (𝒓𝑿𝒀 ) qu’on peut définir pour
deux variables X et Y par :
𝒏 𝒏
𝟏 𝟏
𝑺𝑿𝒀 = ∑( 𝒙𝒊 − 𝒙
̅)(𝒚𝒊 − 𝒚
̅) = ( ∑ 𝒙𝒊 𝒚𝒊 ) − (𝒙̅ 𝒚
̅) ;
𝒏 𝒏
𝒊=𝟏 𝒊=𝟏
𝑺𝑿𝒀
𝒓𝑿𝒀 =
𝝈𝑿 × 𝝈𝒀
La valeur 𝒓𝑿𝒀 ∈ [𝟎, 𝟏] et mesure la liaison linéaire
qui existe entre les deux caractères statistiques X et
Y et son signe est celui de 𝑺𝑿𝒀 .
48
• Si Y croit en même temps que X croit, la
corrélation est positive (𝒓𝑿𝒀 > 𝟎)
• Si Y décroit en même temps que X croit, la
corrélation est négative (𝒓𝑿𝒀 < 𝟎)
• Si 𝒓𝑿𝒀 ≅ 𝟎, la corrélation est nulle.
• Donc si
✓ 𝟎, 𝟖 ≤ |𝒓𝑿𝒀 | ≤ 𝟏 ⟹ la liaison est extra forte ;
✓ 𝟎, 𝟔 ≤ |𝒓𝑿𝒀 | < 𝟎, 𝟖 ⟹ la liaison est forte ;
✓ 𝟎, 𝟒 ≤ |𝒓𝑿𝒀 | < 𝟎, 𝟔 ⟹ la liaison est moyenne ;
✓ 𝟎, 𝟐 ≤ |𝒓𝑿𝒀 | < 𝟎, 𝟒 ⟹ la liaison est faible ;
✓ 𝟎 ≤ |𝒓𝑿𝒀 | < 𝟎, 𝟐 ⟹ la liaison est nulle.
49
𝒓𝑿𝒀 ne détecte les relations que
lorsqu'elles sont linéaires, c'est-à-dire lorsque les
points sont plutôt bien alignés sur une ligne droite.
Sur le graphique ci-dessus, les deux premiers
schémas montrent des points bien alignés : leur 𝒓𝑿𝒀
est donc proche de 1 ou de -1. Sur le 4e graphique en
revanche, il n'y a pas vraiment de corrélation
(connaître la valeur du x d'un point ne nous donne
aucune indication sur la valeur de y) : 𝒓𝑿𝒀 est donc
proche de 0. Cependant sur le 3e graphique, il y a
une forte corrélation, mais sa forme n'est pas
linéaire, et 𝒓𝑿𝒀 est donc malheureusement proche
de 0.
Soient X et Y sont deux variables statistiques dont
le diagramme de dispersion est :
50
Le problème consiste à trouver un modèle entre X
et Y, qui minimise la somme des carrés de l'erreur
𝒚𝒊 − 𝒚̂𝒊 , de la forme :
𝒀 ≈ 𝒂𝑿 + 𝒃 avec 𝒂 𝐞𝐭 𝒃 ∈ ℝ
X est la variable explicative et Y est la variable
expliquée.
En utilisant les formules d’optimisation des
fonctions de deux variables, on obtient :
𝑺𝒙𝒚
𝒂 = 𝟐 𝐞𝐭 𝒃 = 𝒚 ̅ − 𝒂𝒙̅
𝝈𝒙
• La droite d’équation 𝒚 = 𝒂𝒙 + 𝒃, s’appelle
droite de règression de Y en X.
• En permutant X et Y, on obtient la droite de
régression de X en Y d’équation 𝒙 = 𝒂′𝒚 + 𝒃′
(𝑿 ≈ 𝒂′𝒀 + 𝒃′), avec :
51
𝑺𝒙𝒚
𝒂′ = ̅ − 𝒂′𝒚
𝐞𝐭 𝒃′ = 𝒙 ̅
𝝈𝟐𝒚
• Les deux droites de régression se coupent au
point moyen 𝑴(𝒙̅, 𝒚
̅).
En général, la droite de régression de
Yen X et la droite de régression de X en Y sont
différentes.
Voir plus loin ??????
Un site internet reçoit 113 457 visiteurs
durant un mois. On désigne par X le navigateur
internet utilisé et Y le système d’exploitation utilisé.
52
1. Identifier la population, sa taille ainsi que les
variables étudiées en précisant leur type ;
2. Quelle est la proportion de visiteurs sous
Windows ?
3. Quelle proportion de visiteurs qui utilisent le
navigateur Safari ?
4. Parmi les utilisateurs de Mac, quelle proportion
utilise Chrome ?
5. Parmi les utilisateurs de Safari, quelle
proportion est sous Windows ?
6. Représenter graphiquement la distribution des
proportions par Navigateur pour chaque
système d’exploitation. Les variables X et Y sont-
elles indépendantes ?
Pensez-vous que dans les certaines
situations il faut suivre la conscience même si cela
contrevient aux lois, ou il faut toujours obéir aux
lois ?
Un échantillon représentatif de 50 individus a
donné les résultats suivants :
Individu Niveau d'instruction Désobéissance civile
1 Secondaire Conscience
2 Postsecondaire Conscience
3 < Secondaire Obéir aux lois
4 Secondaire Obéir aux lois
5 Secondaire Conscience
6 Secondaire Obéir aux lois
53
7 Postsecondaire Obéir aux lois
8 Secondaire Conscience
9 Secondaire Conscience
10 Secondaire Conscience
11 Postsecondaire Conscience
12 Secondaire Obéir aux lois
13 Secondaire Obéir aux lois
14 Secondaire Obéir aux lois
15 < Secondaire Obéir aux lois
16 Secondaire Conscience
17 Secondaire Conscience
18 Postsecondaire Conscience
19 Postsecondaire Obéir aux lois
20 < Secondaire Obéir aux lois
21 Secondaire Obéir aux lois
22 Postsecondaire Conscience
23 Postsecondaire Conscience
24 Secondaire Conscience
25 Postsecondaire Conscience
26 Postsecondaire Conscience
27 < Secondaire Conscience
28 Postsecondaire Conscience
29 < Secondaire Obéir aux lois
30 Secondaire Obéir aux lois
31 < Secondaire Obéir aux lois
32 Secondaire Conscience
33 Secondaire Obéir aux lois
34 Postsecondaire Obéir aux lois
35 Secondaire Conscience
36 Postsecondaire Conscience
37 Postsecondaire Conscience
38 Secondaire Obéir aux lois
39 < Secondaire Obéir aux lois
40 Secondaire Conscience
41 Postsecondaire Conscience
54
42 Secondaire Conscience
43 Secondaire Conscience
44 < Secondaire Conscience
45 Secondaire Obéir aux lois
46 < Secondaire Conscience
47 Postsecondaire Obéir aux lois
48 Postsecondaire Conscience
49 Secondaire Obéir aux lois
50 < Secondaire Conscience
1. Classer les observations (trier) par variable X et
Y;
2. Calculer le nombre d'observations pour chaque
couple de modalité X et Y. Construire le tableau
croisé. Calculer les fréquences conditionnelles et
générales ;
3. Représenter graphiquement les données.
Question 1 :
27 <Secondaire Conscience
44 <Secondaire Conscience
46 <Secondaire Conscience
50 <Secondaire Conscience
3 <Secondaire Obéir aux lois
15 <Secondaire Obéir aux lois
20 <Secondaire Obéir aux lois
29 <Secondaire Obéir aux lois
31 <Secondaire Obéir aux lois
39 <Secondaire Obéir aux lois
2 Postsecondaire Conscience
11 Postsecondaire Conscience
18 Postsecondaire Conscience
22 Postsecondaire Conscience
55
23 Postsecondaire Conscience
25 Postsecondaire Conscience
26 Postsecondaire Conscience
28 Postsecondaire Conscience
36 Postsecondaire Conscience
37 Postsecondaire Conscience
41 Postsecondaire Conscience
48 Postsecondaire Conscience
7 Postsecondaire Obéir aux lois
19 Postsecondaire Obéir aux lois
34 Postsecondaire Obéir aux lois
47 Postsecondaire Obéir aux lois
1 Secondaire Conscience
5 Secondaire Conscience
8 Secondaire Conscience
9 Secondaire Conscience
10 Secondaire Conscience
16 Secondaire Conscience
17 Secondaire Conscience
24 Secondaire Conscience
32 Secondaire Conscience
35 Secondaire Conscience
40 Secondaire Conscience
42 Secondaire Conscience
43 Secondaire Conscience
4 Secondaire Obéir aux lois
6 Secondaire Obéir aux lois
12 Secondaire Obéir aux lois
13 Secondaire Obéir aux lois
14 Secondaire Obéir aux lois
21 Secondaire Obéir aux lois
30 Secondaire Obéir aux lois
33 Secondaire Obéir aux lois
38 Secondaire Obéir aux lois
45 Secondaire Obéir aux lois
49 Secondaire Obéir aux lois
Question 2 :
Tableaux croisé (tri croisé) : Attitudes face à la désobéissance civile selon le niveau
d’instruction (en fréquence)
Niveau d’instruction
56
Désobéissance Moins que
Secondaire Postsecondaire Total
civile secondaire
Conscience 4 13 12 29
Obéir aux lois 6 11 4 21
Total 10 24 16 50
Tableaux en pourcentage : Attitudes face à la désobéissance civile selon le niveau
d’instruction (N=50)
Niveau d’instruction
Désobéissance
Moins que
civile Secondaire Postsecondaire Total
secondaire
Conscience 8% 26% 24% 58%
Obéir aux lois 12% 22% 8% 42%
Total 20% 48% 32% 100%
Distributions conditionnelles : Attitudes face à la désobéissance civile selon le niveau
d’instruction (distribution conditionnelle en pourcentage des colonnes)
Niveau d’instruction
Désobéissance
Moins que
civile Secondaire Postsecondaire Total
secondaire
Conscience 40% 54% 75% 58%
Obéir aux lois 60% 46% 25% 42%
Total 100% 100% 100% 100%
(N) (10) (24) (16) (50)
Attitudes face à la désobéissance civile selon le niveau d’instruction (distribution
conditionnelle en pourcentage des rangées)
Niveau d’instruction
Désobéissance
Moins que
civile Secondaire Postsecondaire Total (N)
secondaire
Conscience 14% 45% 41% 100% (29)
Obéir aux lois 29% 52% 19% 100% (21)
Total 20% 48% 32% 100% (50)
Question 3 :
Présentation graphique des données
1. Diagramme en bâtons divisés 2. Diagramme en bâtons groupés
57
3. Diagramme en bâtons standardisés 4. Diagramme en bâtons 3 dimensions
Au cours de 12 mois, une entreprise a noté
le montant des frais de publicité et le volume du chiffre
d’affaires réalisé. Les résultats sont consignés dans le
tableau suivant :
Mois Janvier Février Mars Avril Mai Juin
Frais de publicité :
25 17 18 28 22 20
X (en 1 000 DH)
Chiffre d’affaires :
280 250 255 292,5 265 260
Y (en 1 000 DH)
58
Mois Juillet Août Sept. Octo. Nov. Déc.
Frais de publicité :
19 22 30 30 27 24
X (en 1 000 DH)
Chiffre d’affaires :
262,5 280 285 296 285 270
Y (en 1 000 DH)
On donne : xi = 282 ; 𝒙𝟐𝒊 = 6856 ; yi = 3281 ;
𝒚𝟐𝒊 = 899578,5 ; xiyi = 77812,5
1. Calculer la moyenne et l’écart-type de X et la
moyenne et l’écart-type de Y.
2. Donner la valeur du coefficient de corrélation linéaire
entre X et Y. Quelle est la nature de la liaison linéaire
entre X et Y ?
3. Déterminer l’équation de la droite de régression qui
permet d’estimer le chiffre d’affaires en fonction des
frais de publicité.
4. L’agence de publicité a prévu un budget de 32000 DH
pour la période à venir. Quel sera le chiffre d’affaires
prévisionnel possible ?
59