3EC Thème 14
3EC Thème 14
3EC Thème 14
1
En statistiques, étudier la corrélation entre deux ou plusieurs variables statistiques numériques, c’est étudier l'intensité de la
liaison qui peut exister entre ces variables.
Modèle 1 : Étudions la relation entre le poids (en kg) et la taille (en cm)
dans un échantillon de 20 individus:
Taille 155 158 158 159 163 163 165 168 170 172
Poids 67,1 60,7 54,9 58,8 64,7 60,4 63 62,5 71,5 70,8
Taille 173 175 176 178 178 180 182 186 189 196
Poids 63,1 74,8 71,1 73,1 63,5 69,4 70 82 76,5 84,6
80
70
60
taille [cm]
50
150 160 170 180 190 200
x x
Corrélation positive Corrélation négative
y y
x x
Absence de corrélation
x x
Corrélation parfaite Bonne corrélation
(corrélation forte)
x
Mauvaise corrélation
(corrélation faible)
taille [cm]
200
180
160
140
120
100
100 120 140 160 180 200
Étendue des bras [cm]
Exercice 14.1: Afin de faire un bilan sur la réussite des étudiants qui
s'inscrivent dans les établissements d'enseignement pour adultes,
les membres de la direction s'intéressent à la corrélation entre
l'absentéisme aux différents cours (en heures) et la moyenne
générale (en %) à la fin de l'année scolaire. Pour bien analyser le
tout, ils ont regroupé les données dans le nuage de points
suivant:
80
60
40
20
0 2 4 6 8
Nbre d’heures d’absence
Exercice 14.2: À propos des élèves (garçons puis filles) de 4 classes de ECGC
d'un gymnase lausannois, on désire comparer une éventuelle
corrélation entre leur taille et leur poids. Utiliser les 2
représentations graphiques des nuages de points:
poids [kg]
poids [kg]
90 90
80 80
70 70
60 60
50 50
taille [cm] taille [cm]
40 40
150 160 170 180 190 200 150 160 170 180 190 200
Point moyen : Lorsque l'on pense pouvoir réaliser un ajustement affine d'un
nuage, il peut sembler intéressant, avant de tracer la droite, de
placer le point dont l'abscisse est la moyenne des abscisses xi et
dont l'ordonnée est la moyenne des ordonnées yi.
On appelle point moyen d'un nuage de n points Mi(xi ; yi) le
point G de coordonnées:
1 n 1 n
xG = x = ∑i
n i=1
x et yG = y = ∑ yi
n i=1
Méthode de Mayer : On commence par trier les points selon leurs abscisses
croissantes, puis on détermine la médiane des xi afin de partager
le nuage en deux parties ayant le même nombre de points. On
détermine ensuite G1 et G2, les points moyens respectifs de
chacune de ces parties. La droite G1G2 est appelée droite de
Mayer de la série statistique.
G2
G1
Clinique C1 C2 C3 C4 C5 C6 C7 C8 C9 C10
xi 122 177 77 135 109 88 185 128 120 146
yi 185 221 114 164 125 118 193 160 151 172
200
150
80 90 100 110 120 130 140 150 160 170 180 190 200 x
Exercice 14.4: On a relevé dans le tableau ci-dessous les poids (en kg)
respectifs de 12 pères xi et de leur fils aîné yi.
xi 65 63 66 64 68 62 70 68 67 69 70 72
yi 63 62 66 60 67 60 69 67 67 68 67 70
Méthode des moindres carrés : Il existe une méthode plus "rigoureuse" pour déterminer la
"meilleure" droite: c'est la méthode des moindres carrés.
Elle consiste, dans sa version la plus simple, à trouver la droite
qui minimise les carrés des écarts des points représentatifs à
cette droite.
y
d5
d3 d4
d1
d2
∑d i
2
= minimum
i=1
Soit
y = mx + h
l'équation de la droite cherchée (droite de régression).
On calculera:
• sa pente m :
m=
( x1 − x ) ⋅ ( y1 − y ) + ( x2 − x ) ⋅ ( y2 − y ) +…+ ( xn − x ) ⋅ ( yn − y )
2 2 2
( x1 − x ) + ( x2 − x ) +…+ ( xn − x )
∑(x − x )⋅ (y − y )
i i
i=1
m = n
∑(x − x ) i
2
i=1
h = y − m ⋅ x
où
1 n 1 n
x = ∑ xi et y = ∑ yi
n i=1 n i=1
45
40
35
30
25
20
10 15 20 25 30 x
∑(x − x )⋅ (y − y )
i i
i=1
r =
n n
∑(x − x ) i
2
⋅ ∑(y − y )
i
2
i=1 i=1
Exemples de corrélation :
y y
x x
r = 0,6 r=1
y y
x x
r = -0,8 r = -1
y y
x x
r=0 r=0
60
50
40
30 40 50 60 x
Exercice 14.9: Le tableau suivant indique les notes données lors d'un examen
par deux examinateurs à chacune des 10 copies:
1 2 3 4 5 6 7 8 9 10
Examinateur 1 2 5 3 2 6 8 3 9 5 7
Examinateur 2 3 7 5 4 5 9 4 10 7 6
xi 62 63 64 65 66 67 68 68 69 70 70 72
Exercice 14.1: a) yi 60 62 60 63 66 67 67 67 68 69 67 70
résultat final (%)
100
y
80
70
G2
60
40
65
G1
20
60
0 2 4 6 8
Nbre d’heures d’absence
65 70 x
b) On peut proposer par exemple: y = -4x + 90
c) On constate une corrélation négative entre le nombre d'heures d'absence et G1 (64, 5; 63) ⎫⎪ 3
les résultats finaux. Peut-on alors conclure que: b) La droite de Mayer: ⎬ y = x −
G2 (69, 5; 68) ⎭⎪ 2
"plus les élèves ont été absents, plus leurs résultats ont été médiocres ?"
Exercice 14.2: • Pour les garçons, on observe une corrélation positive, mais faible. c) La droite de Mayer passe bien par le point moyen G(67 ; 65, 5)
• Pour les filles, il ne semble pas y avoir de corrélation. d) Le poids du fils estimé à 75, 5 kg.
4
Exercice 14.3: a) Nuage de points: Exercice 14.5: a) On obtient la même droite de régression: y = x +16
5
y b) La corrélation est moins forte que dans le modèle précédent.
y
55 G2
45
50 40
G1
35
45
30
40
2.5 3 3.5 4 x 25
1 2 3 4 5 6 7 8 9 x
−10
20 −20
G
G1 G2
b) Équation de la droite d'ajustement: y = 10x −17, 33 .
10
c) r = 0,98. Il s'agit d'une corrélation positive forte.
d) On reconnaît le graphe de la fonction f définie par f (x) = x 2 +1.
100
x
d) La phrase suivante semble être le plus adéquate: 50
"plus les femmes fument des cigarettes durant leurs 2 premiers mois de
grossesses, plus les nouveau-nés semblent petits"