Syllabus de Théorie: Techniques Quantitatives Paramétriques Et Non Paramétriques
Syllabus de Théorie: Techniques Quantitatives Paramétriques Et Non Paramétriques
Syllabus de Théorie: Techniques Quantitatives Paramétriques Et Non Paramétriques
et non paramétriques
Syllabus de théorie
Marielle BRUYNINCKX
1
Contenu
2
Table des matières
Chapitre 1 : corrélations paramétriques ................................................................................................. 7
1. Rappels mathématiques .............................................................................................................. 7
1.1. Relation linéaire................................................................................................................... 7
1.2. Coefficient de direction ou pente........................................................................................ 8
1.3. Coefficient de position ...................................................................................................... 10
1.3.1. Rappel ........................................................................................................................ 10
1.3.2. Ordonnée à l’origine ou coefficient de position........................................................ 11
1.4. Droites parallèles aux axes ................................................................................................ 12
2. Le coefficient de corrélation r de Bravais-Pearson ................................................................... 13
2.1. Concepts de base............................................................................................................... 13
2.1.1. Groupes appareillés (paired groups) ................................................................. 13
2.1.2. Coefficient de corrélation (correlation coefficient)........................................... 13
2.1.3. Diagramme de dispersion (scatter plot ; scatter diagram) .............................. 14
2.1.4. Ligne de régression (regression line)................................................................. 14
2.1.5. Corrélation et régression simples....................................................................... 15
2.1.6. Corrélation et régression multiples.................................................................... 15
2.1.7. Corrélation linéaire .............................................................................................. 16
2.1.8. Corrélation non linéaire ...................................................................................... 17
2.2. Caractéristiques du coefficient r de Bravais-Pearson....................................................... 17
2.2.1 Diagrammes de dispersion: situations ............................................................................. 17
➢ r = 1 ................................................................................................................................ 17
➢ r = -1............................................................................................................................... 18
➢ r = 0 ................................................................................................................................ 19
➢ 0 < r < 1 .......................................................................................................................... 20
➢ -1 < r < 0 ......................................................................................................................... 21
2.3. Droites de régression ......................................................................................................... 22
2.3.1. Droite de régression de y en x............................................................................ 22
2.3.2. Droite de régression de x en y............................................................................ 22
2.3.3. Droites de régression: situations ........................................................................ 23
➢ r = 1 ........................................................................................................................... 23
➢ r = -1 .......................................................................................................................... 23
➢ r = 0 ........................................................................................................................... 24
➢ 0 < r < 1 ..................................................................................................................... 24
3
➢ -1 < r < 0 .................................................................................................................... 24
2.3.4. Droites de régression: synthèse.......................................................................... 25
2.4. Comment interpréter un coefficient de corrélation ?....................................................... 25
2.4.1. Synthèse .................................................................................................................... 25
3. Construction du r et covariance ................................................................................................ 26
3.1. Introduction et rappels...................................................................................................... 26
3.2. Construction de la formule du r de Bravais Pearson ......................................................... 27
3.3. Covariance ......................................................................................................................... 27
4. Tests sur le coefficient r de Bravais-Pearson............................................................................. 30
4.1. Rappels ................................................................................................................................... 30
4.2. Tests sur le r de Bravais Pearson ............................................................................................ 34
4.2.1. Méthode 1: test sur la pente ........................................................................................... 35
4.2.2. Méthode 2 : test sur la forme de la distribution d’échantillonnage ............................... 37
5. Inférence sur le coefficient r de Bravais-Pearson...................................................................... 40
5.1. Rappels ................................................................................................................................... 40
5.2. Détermination d’un intervalle de confiance .......................................................................... 41
5.2.1. Méthode 1 : détermination d’un intervalle de confiance autour de 𝒓 = 𝟎.................... 42
5.2.2. Méthode 2 : détermination d’un intervalle de confiance autour d’un r quelconque..... 44
5.3. Inférence sur la prédiction ..................................................................................................... 48
5.3.1. Droites de régression ...................................................................................................... 48
a. Droite de régression des Y en X .................................................................................... 48
i i
4
2.1. Introduction ............................................................................................................................ 64
2.2. Situation initiale...................................................................................................................... 64
2.3. Hypothèse nulle...................................................................................................................... 65
1.4. Procédure ............................................................................................................................... 65
Chapitre 3 : tests non paramétriques.................................................................................................... 71
1. Rappel ........................................................................................................................................ 71
➢ Ordinales par rang.................................................................................................... 71
➢ Ordinales par catégories .......................................................................................... 71
➢ Nominales ................................................................................................................. 72
2. Introduction ............................................................................................................................... 74
3. Test du χ2 pour un échantillon (Pearson chi-squared test - one sample) ................................. 74
3.1. Présentation ...................................................................................................................... 74
3.2. Procédure .......................................................................................................................... 75
3.3. Exercice.............................................................................................................................. 77
4. Test du χ2 pour deux ou plusieurs échantillons (Pearson chi-squared test) ............................. 78
4.1. Présentation ...................................................................................................................... 78
4.2. Procédure .......................................................................................................................... 78
4.3. Exercice.............................................................................................................................. 80
5. Test binomial (Binomial test) .................................................................................................... 81
5.1. Présentation ...................................................................................................................... 81
5.2. Procédure .......................................................................................................................... 82
5.3. Exercice.............................................................................................................................. 83
6. Test de Fisher (Fisher test) ........................................................................................................ 84
6.1. Présentation ...................................................................................................................... 84
6.2. Procédure .......................................................................................................................... 84
6.3. Exercice.............................................................................................................................. 85
7. Test de Mac Nemar (Mac Nemar test) ...................................................................................... 86
7.1. Présentation ...................................................................................................................... 86
7.2. Procédure .......................................................................................................................... 86
7.3. Exercice.............................................................................................................................. 87
8. Test Q de Cochran (Cochran's test) ........................................................................................... 88
8.1. Présentation ...................................................................................................................... 88
8.2. Procédure .......................................................................................................................... 89
8.3. Exercice.............................................................................................................................. 89
5
9. Le test de Kolmogorov-Smirnov pour un échantillon (Kolmogorov-Smirnov test - one sample)
90
9.1. Présentation ...................................................................................................................... 90
9.2. Procédure .......................................................................................................................... 90
9.3. Exercice.............................................................................................................................. 91
10. Le test de Kolmogorov-Smirnov pour deux échantillons (Kolmogorov-Smirnov test - two
samples) ............................................................................................................................................ 92
10.1. Présentation .................................................................................................................. 92
10.2. Procédure ...................................................................................................................... 92
10.3. Exercice.......................................................................................................................... 94
11. Le test des signes (sign test) .................................................................................................. 96
11.1. Présentation .................................................................................................................. 96
11.2. Procédure ...................................................................................................................... 96
11.3. Exercice.......................................................................................................................... 97
12. Le test T de Wilcoxon (Wilcoxon's matched pairs rank test) ................................................ 98
12.1. Présentation .................................................................................................................. 98
12.2. Procédure ...................................................................................................................... 99
12.3. Exercice........................................................................................................................ 100
13. Le test des rangs (rank test) ................................................................................................ 101
13.1. Présentation ................................................................................................................ 101
13.2. Procédure .................................................................................................................... 101
13.3. Exercices d’intégration ................................................................................................ 110
Chapitre 4 : corrélations non paramétriques ...................................................................................... 111
1. Rappel ...................................................................................................................................... 111
2. Introduction ............................................................................................................................. 111
3. Le de Spearman (Spearman's rank correlation coefficient) ................................................. 112
4. Le r tétrachorique (tetrachoric correlation) ............................................................................ 117
5. Le r point bisérial ..................................................................................................................... 124
6. Le r bisérial (biserial correlation)............................................................................................. 125
7. Le coefficient phi (Phi coefficient) ........................................................................................... 126
8. Le coefficient phi bisérial (biserial Phi-coefficient) ................................................................. 132
6
Chapitre 1 : corrélations paramétriques
1. Rappels mathématiques
Pour expliquer ce qu’est une relation linéaire, on peut partir d’un exemple simple.
Distance (Y) 0 km km km km 12 km km km
40 min → 12 km
10 min → 3 km
20 min → 6 km …etc.
Distance (Y) 0 km 3 km 6 km 9 km 12 km 15 km 18 km
7
On remarque que tous les points
de coordonnées (x, y) sont tous
situés sur une même droite
passant par l'origine
Définition
Une relation linéaire est une relation exprimant la proportionnalité et dont la représentation
graphique est une droite passant par l’origine → d’équation y= aX
Dans le cas où on a à faire à des axes orthonormés (cercle trigonométrique de rayon 1), a est
la tangente de l’angle α, formé par la droite y et l’axe OX. On dit également que a est la pente
de la droite.
8
En effet, la direction de la droite y fait varier la valeur de a :
Le coefficient de direction peut prendre des valeurs positives ou négatives. Ainsi, si a>0, la
fonction linéaire est croissante et si a<0: la fonction linéaire est décroissante.
9
1.3. Coefficient de position
1.3.1. Rappel
1. y = 2X
2. y = 2X+3
La droite d’équation y = 2X est représentée en noir sur la figure; comme on peut le voir, il
s’agit de la représentation graphique d’une fonction linéaire (la droite passe par l’origine). La
seconde équation (y = 2X+3) se traduit graphiquement par une droite parallèle à la première
mais ne passant plus par l’origine (en rouge). C’est ce qu’on appelle une fonction affine.
10
Une fonction affine est une fonction ayant pour graphique une droite ne passant pas par
l’origine, d’équation y = aX+b
Si X = 1 alors y = a + b
Deux droites parallèles ont donc le même coefficient de direction mais des valeurs
différentes pour le coefficient de position.
11
Le changement de direction de y sur l’axe OY modifie la valeur de a mais pas celle de b :
Le coefficient de position peut prendre des valeurs positives ou négatives. Ainsi si b > 0, la
droite y croise l’axe OY au-dessus de l’origine et si b < 0, la droite y croise l’axe OY en-
dessous de l’origine :
Ex : Représentez graphiquement:
12
La droite x est parallèle à l'axe OY et a une équation de la forme x = 0Y + b’ (soit x = b’) dans
laquelle b’ est un nombre qui mesure l'écart algébrique (positif ou négatif) de la droite par
rapport à l'axe des ordonnées. Tous les points de la droite ont la même abscisse : b’ = 2. Une telle
droite n'a pas de pente au sens propre , mais plutôt une pente infinie.
Lorsque l’ensemble des données est constitué de groupes appareillés, chaque élément de
l’ensemble est associé à la valeur de deux variables.
On parle, dans ce cas, de séries bivariées de données. Pour chaque élément de l’ensemble, on
a donc une paire de données (Xi ,Yi).
Ex. 1: les notes en math (Xi) et en physique (Yi) d’un ensemble de 30 élèves
Un coefficient de corrélation est un indice statistique qui traduit la tendance des données Xi et
Yi (appareillées) à varier ensemble.
Ex. : plus on est grand, plus on est lourd → relation positive entre la taille et le poids
13
2.1.3. Diagramme de dispersion (scatter plot ; scatter diagram)
Le diagramme de dispersion propose une répartition graphique des variables sur deux axes
perpendiculaires : l’une distribuée en abscisse et l’autre en ordonnée.
Exemples
La ligne de régression est la droite qui, sur le diagramme de dispersion, représente au mieux
l’ensemble des données. Elle permet de prédire les valeurs théoriques attendues d’une
variable en fonction des valeurs de l’autre variable.
14
2.1.5. Corrélation et régression simples
On parle de corrélation et régression simples lorsqu’il n’y a que deux variables qui
interviennent (x , y).
15
2.1.7. Corrélation linéaire
On parle de corrélation linéaire lorsque tous les points ont tendance à se rapprocher d’une
même droite.
16
2.1.8. Corrélation non linéaire
On parle de corrélation non linéaire lorsque tous les points ont tendance à se rapprocher
d’une courbe.
➢ r=1
La corrélation est positive (il y a une relation directe entre les deux variables) et parfaitement
linéaire (à toute valeur de xi, correspond une et une seule valeur de yi ; tous les points se
situent parfaitement sur une droite).
17
Ex.:
Lien entre les notes obtenues par des étudiants (sur 100) et les mêmes notes ramenées sur 20.
➢ r = -1
La corrélation est négative (il y a une relation inversée entre les deux variables) et
parfaitement linéaire (tous les points se situent parfaitement sur une droite).
Ex: le temps écoulé et le nombre de km qu’il reste à parcourir (mobile à vitesse constante)
18
Ex.:
➢ r=0
Xi
19
Ex.:
Lien entre la longitude d’une ville et le nombre de lettres constituant son nom
➢ 0<r<1
La relation est positive (il y a une relation directe entre les deux variables) mais pas
parfaitement linéaire. Les points ne se situent donc plus sur une même droite, mais à
l’intérieur d’une ellipse montante.
Ex : taille et poids
20
Ex.:
➢ -1 < r < 0
La relation est négative (il y a une relation inversée entre les deux variables) mais pas
parfaitement linéaire. Les points ne se situent donc plus sur une même droite, mais à
l’intérieur d’une ellipse descendante.
Ex : agilité et poids
21
Ex.:
C’est la droite qui permet de prévoir, pour chaque valeur des données Xi une valeur théorique
de la variable yi
y = aX+b
C’est la droite qui permet de prévoir, pour chaque valeur des données Y i une valeur théorique
de la variable xi.
x = a’Y+b’
22
2.3.3. Droites de régression: situations
➢ r=1
Les deux droites de régression sont confondues ans une configuration montante.
➢ r = -1
Les deux droites de régression sont confondues dans une configuration descendante.
23
➢ r=0
Les deux droites de régression sont perpendiculaires entre elles et parallèles aux axes X et Y.
Les deux droites de régression se coupent en un point de coordonnée(𝑋̅, 𝑌̅).
b =Y a=0
y = 0x +Y
y= Y
b’ = X a’ = 0
x = 0Y + X
x= X
➢ 0<r<1
a>0
a’>0
➢ -1 < r < 0
a<0
a’<0
24
2.3.4. Droites de régression: synthèse
L’angle formé par les deux droites de régression est une indication du degré de relation qui
existe entre les deux variables :
Un moyen assez simple d’interpréter un coefficient de corrélation est de considérer son carré.
Le carré du coefficient de corrélation peut, en effet, être interprété comme la proportion de
la variance de Y qui est attribuable à la variance de X.
En résumé:
2
➢ r = proportion de liaison entre X et Y
2
➢ 1 - r = proportion d’aliénation (absence de liaison entre les deux variables)
2.4.1. Synthèse
➢ La corrélation est une mesure de la relation existant entre deux variables. La valeur
et le signe du coefficient de corrélation informe sur les caractéristiques de cette
relation.
➢ Le coefficient de corrélation r de Bravais-Pearson varie de -1 à 1.
➢ Le signe du coefficient indique si la relation est positive ou négative.
➢ La valeur numérique décrit la force de la relation. Quand la relation est parfaitement
linéaire, le coefficient est égal à 1 ou à -1. Si la relation est nulle, le coefficient vaut 0.
Si la relation est imparfaite, la valeur numérique se situe entre 0 et 1 ou entre -1 et 0.
➢ Le carré du coefficient de corrélation peut être interprété comme la proportion de la
variance de Y qui est attribuable à la variance de X.
25
3. Construction du r et covariance
Pour estimer le degré de relation existant entre ces données, il faut donc utiliser un
paramètre :
En Statistique I, nous avons vu un indice de relation qui présente toutes ces caractéristiques :
la variable centrée réduite Z. Cet indice de relation qui permet de résoudre des problèmes où
il est nécessaire de comparer des distributions qui se répartissent différemment. C’est une
variable sans dimension, sans unité de mesure et qui permet de mettre en relation des
grandeurs mesurées dans des unités différentes. Pour rappel, la formule de Z est la suivante :
Il s’agit d’une variable centrée par rapport à la moyenne et réduite par rapport à l’indice de
dispersion.
La note centrée réduite zi d’une donnée Xi est la valeur de la variable centrée réduite
correspondant à cette donnée.
26
3.2. Construction de la formule du r de Bravais Pearson
Le coefficient r de Bravais-Pearson est défini à partir des notes centrées réduites des données
réelles des deux distributions :
3.3. Covariance
27
Si nous observons la formule, nous remarquons que le numérateur peut faire penser à celle
de la variance vue en Statistique I :
La covariance est un mesure qui indique comment deux variables covarient (varient
ensemble)…
2
Attention : la covariance est notée 𝜎𝑥𝑦 par analogie mais c’est un faux carré : la covariance
peut prendre des valeurs négatives.
28
Nous pouvons donc transformer la formule du r comme suit :
De cette nouvelle formule, nous pouvons retirer une autre manière d’exprimer la
covariance :
Nous verrons aussi que plus r est proche de 1, plus la valeur de la covariance est grande
(positive), que plus r est proche de -1, plus la valeur de la covariance est «grande» (dans le
négatif) et que quand r se rapproche de 0, la covariance se rapproche aussi de 0.
29
4. Tests sur le coefficient r de Bravais-Pearson
4.1. Rappels
Les tests statistiques, ou tests d’hypothèse, sont utilisés pour déterminer si les variations
observées entre les données sont dues au hasard ou à une cause systématiquement présente.
Concrètement, ce sont des méthodes qui permettent de comparer:
➢ un échantillon à une population connue (on parle dans ce cas de tests de conformité)
➢ deux ou plusieurs échantillons entre eux (on parle ici de tests d’homogénéité)
afin de déterminer si les différences observées sont dues au hasard ou à une cause
systématique.
En statistiques, un test d'hypothèse est une démarche consistant à rejeter ou à accepter une
hypothèse statistique.
L’utilisation des tests nécessite la formulation d’hypothèses. Une hypothèse est une
affirmation que le chercheur formule au départ et qu’il cherche ensuite à vérifier. Dans
certains cas, il va pouvoir accepter (c’est-à-dire confirmer) ; dans d’autres, il sera amené à la
rejeter (c’est-à-dire à l’infirmer).
L’hypothèse de base en statistique est de considérer que les différences entre les indices
statistiques que le test permet de comparer sont dues au hasard1.
1
On pourrait aussi formuler une hypothèse mettant en œuvre l’idée qu’il existe une différence statistiquement
significative : on parle dans ce cas d’hypothèse rivale. Celle-ci est notée H1. Refuser H0 revient donc à accepter
H1.
30
Les tests statistiques sont basés sur les intervalles de confiance calculés à partir de la
distribution d’échantillonnage. Ce sont ces I.C. qui servent de référence en vue de la prise de
décision.
Un intervalle de confiance autour d’un paramètre est une surface délimitée par une borne
inférieure et une borne supérieure.
La surface (verte) à l’intérieur de ces deux bornes représente la probabilité notée (1-α) que
l’hypothèse nulle soit fausse (ou la probabilité de rejeter celle-ci). C’est donc aussi la
probabilité que les éléments comparés soient statistiquement différents et que les différences
existantes soient dues à une cause systématiquement présente.
Lorsqu'on ne peut pas spécifier une direction particulière pour l'hypothèse, on dit que le test
est à deux issues ou bilatéral.
Lorsqu'on peut spécifier une direction particulière pour l'hypothèse, on dit que le test est à
une issue ou unilatéral.
31
α, c’est la probabilité : 1-α, c’est la probabilité :
de confirmer l’hypothèse nulle posée au départ d’infirmer l’hypothèse nulle posée au départ
que l’échantillon soit extrait d’une population que l’échantillon ne soit pas extrait d’une
théorique considérée par un indice population théorique considérée par un indice
statistiquement égal (test de conformité) ; statistiquement égal (test de conformité) ;
que les deux échantillons soient issus de que les deux échantillons ne soient pas issus de
populations identiques quant à l’indice populations identiques quant à l’indice
considéré (test d’homogénéité). considéré (test d’homogénéité)
1-α α
32
Pour transformer un résultat pour un test à 1 issue en un résultat pour un test à 2 issues, il suffit de
doubler la probabilité du hasard (α).
Pour transformer un résultat pour un test à 2 issues en un résultat pour un test à 1 issue, il suffit de
diviser par 2 la probabilité du hasard (α).
33
4.2. Tests sur le r de Bravais Pearson
Par convention, nous allons vérifier l’hypothèse selon laquelle il n’y a pas de corrélation dans
la population (test de nullité de la corrélation). L’hypothèse nulle sera donc 𝑟̅ = 0. Ensuite,
en fonction du résultat du test et de son interprétation, nous pourrons décider si il y a lieu
de confirmer ou de refuser l’hypothèse nulle posée au départ.
34
4.2.1. Méthode 1: test sur la pente
La valeur de α trouvée donnera la probabilité que l’H0 soit vraie (donc, probabilité d’AH0) soit
pour un test à une issue soit pour un test à deux issues (selon la portion de table choisie).
Cette première méthode est simple et rapide et n’exige pas de conditions préalables quant à
la taille de l’échantillon.
35
Exemple :
Soit un échantillon caractérisé par un N=60 et un r=.4. Tester l’hypothèse nulle a=0.
36
4.2.2. Méthode 2 : test sur la forme de la distribution d’échantillonnage
37
Si N>20, on peut tester si la distribution d’échantillonnage du r a une forme normale ou pas.
Pour ce faire, on va calculer:
Cette seconde méthode est simple et rapide mais requiert des conditions préalables quant à
la taille de l’échantillon (N>20). Dans le cas où les deux méthodes peuvent être appliquées, les
résultats obtenus seront cohérents.
38
Exemple
39
5. Inférence sur le coefficient r de Bravais-Pearson
5.1. Rappels
Lorsque la population à partir de laquelle le chercheur souhaite recueillir des données est trop
grande, celui-ci effectue généralement ses observations, ou mesures, à partir d’un sous-
ensemble pour ensuite généraliser les résultats obtenus. L’inférence est sous-tendue par un
ensemble de techniques qui exigent que l’on travaille avec une distribution de départ
symétrique, pas trop différente de la loi normale.
Trois questions doivent toujours être posées lorsqu’on cherche à déterminer un intervalle de
confiance :
40
5.2. Détermination d’un intervalle de confiance
L’intervalle de confiance (noté I.C.) peut être défini comme une fourchette délimitée par une
borne inférieure et une borne supérieure, et associée à une probabilité (ou taux de confiance).
On peut calculer ses bornes grâce à la formule suivante :
Pour pouvoir appliquer cette formule, il y a lieu de se poser les trois questions suivantes :
Dans le premier cas, la distribution d’échantillonnage est symétrique et +/- normale ; dans le
second elle est dissymétrique.
La probabilité que l’on souhaite associer à l’intervalle de confiance aura une incidence sur la
valeur des bornes de l’intervalle de confiance. En effet, pour augmenter la probabilité, il faut
augmenter la taille de la fourchette.
41
5.2.1. Méthode 1 : détermination d’un intervalle de confiance autour de 𝒓̅ = 𝟎
42
Exemple
Soit un échantillon caractérisé par un N=60 et un r=.4. Déterminez l’I.C. à .99 autour de 𝑟̅ = 0
43
5.2.2. Méthode 2 : détermination d’un intervalle de confiance autour d’un r quelconque
Lorsque 𝑟̅ ≈ 1 𝑜𝑢 𝑟̅ ≈ −1, elle devient même très biaisée et on ne peut donc pas appliquer
les techniques inférentielles). Si on veut appliquer les techniques de l’inférence, il faut donc
rendre normale la distribution qui ne l’est pas au départ. Pour ce faire, on va transformer les
r en z de Fisher dont la distribution est normale et s’étend symétriquement de - ∞ à + ∞
quelle que soit la valeur de r et de N.
Ensuite, nous appliquons les formules requises (voir formules dans le recueil de formules et
tables) pour déterminer les bornes de l’intervalle de confiance que l’on recherche (en Zf).
44
On veillera ensuite à transformer les bornes autour de Zf en bornes autour de r :
Si on veut confirmer le résultat des tests, il suffit de situer le 0 sur la représentation graphique.
45
Exemple
Soit un échantillon caractérisé par un N=60 et un r=.4. Déterminez l’I.C. à .99 autour de r=.4
46
Si l’on remet en parallèle tous les résultats (méthodes 1 et 2 de tests et méthodes 1 et 2 de
détermination des I.C.), on voit que les résultats sont cohérents :
47
5.3. Inférence sur la prédiction
Si l’on connaît la valeur de a et la valeur de b alors pour toute valeur de X, il est possible de
prédire la valeur de Y théoriquement correspondante en utilisant l’équation de la droite de
régression y:
y = aX+b
Ex: si a = 3.5 et b= 2.1, on sait que l’équation de la droite de régression est y = 3.5 X + 2.1
Deux équations de droite de régression sont à notre disposition pour prédire des valeurs
théoriquement correspondantes :
48
5.3.2. Détermination de l’intervalle de confiance
Quand la relation est parfaitement linéaire (r=1), on peut prédire X à partir de Y comme on
peut prédire Y à partir de X. En effet, la relation linéaire est symétrique : si Y est lié par une
relation linéaire à X alors X est lié à Y par une relation linéaire.
En sciences humaines, les grandeurs ne dépendent pas toujours l’une de l’autre de manière
étroite. Même s’il existe une corrélation forte, il s’agit exceptionnellement d’une relation
parfaite. Il n’est donc pas possible de prédire avec certitude une valeur de y quand on connaît
X (et vice versa). On va donc réaliser une inférence sur la prédiction (voir recueil de formules
et tables) qui comme toujours quand on infère, va aboutir à la détermination d’une probabilité
associée à une fourchette.
Remarque : l'intervalle de prédiction est toujours plus large que l'intervalle de confiance à
cause de l'incertitude supplémentaire liée à la prédiction d'une valeur individuelle (z = 2 et z =
3, quand on infère respectivement à .95 et .99).
Ex : Voici les poids de 9 jeunes femmes et celui de leurs mères respectives au même âge:
45 56 72 49 67 69 82 76 51 (xi)
52 60 70 46 71 63 89 74 49 (yi)
1. Existe-t-il une corrélation entre le poids des jeunes femmes et celui des mères au
même âge?
49
2. Inférez sur le poids d’une jeune femme dont la mère pesait 73 kilos et sur celui que
pouvait avoir la mère dont la fille pèse 49 kilos.
1. Y = 73 kg
On applique ensuite les formules pour déterminer la borne inférieure et la borne supérieure
de l’intervalle de confiance (voir recueil de formules et tables). La distribution
d’échantillonnage de la prédiction n’étant pas tout à fait normale, on se contente d’approcher
les valeurs des bornes de la manière suivante :
50
On peut conclure qu’il y a 95% de chance pour qu’une jeune femme, dont la mère pesait 73
kg, ait au même âge un poids compris entre 62.58 et 79.44 kg et qu’il y a 99% de chance pour
qu’une jeune femme, dont la mère pesait 73 kg, ait au même âge un poids compris entre 58.36
et 83.66 kg.
2. X = 49 kg
51
5.4. Test d’homogénéité sur les coefficients de corrélation
Soient plusieurs groupes constitués chaque fois par deux échantillons appareillés de données
et, à partir desquels, on a chaque fois calculé un coefficient de corrélation r de Bravais-
Pearson. Peut-on considérer que les groupes sont issus d’une même population quant à leur
corrélation? Autrement dit, les différences observées sont-elles dues à une cause aléatoire ou
à une cause systématique ?
Ex: trois groupes de demandeurs d’emploi avec, pour chaque groupe, un échantillon de
résultats à un test d’aptitudes professionnelles et un échantillon de résultats à un test
d’intelligence générale. On caractérise chacun de ces groupes par un r de B-P. On se demande
ensuite si les groupes sont issus d’une même population quant à leur corrélation.
L’intérêt de se poser cette question est que, si les différences observées sont dues à une cause
aléatoire et les groupes donc bien issus d’une même population quant à leur corrélation, on
peut alors estimer un r global qui caractérise l’ensemble des groupes.
5.4.2. Procédure
𝑘 2
2 2
[∑𝑘𝑖=1(𝑁𝑖 − 3). 𝑍𝐹𝑖 ]
𝜒 = ∑(𝑁𝑖 − 3). 𝑍𝐹𝑖 −
∑𝑘𝑖=1(𝑁𝑖 − 3)
𝑖=1
On interprète ensuite dans la table du χ2 avec un degré de liberté L=K-1. Si le test est
globalement significatif, les groupes ne sont pas issus d’une même population. Si le test est
globalement non significatif, les groupes sont issus d’une même population et on peut donc
calculer le r global en appliquant la formule suivante:
52
Ex: trois groupes de demandeurs d’emploi avec, pour chaque groupe, un échantillon de
résultats à un test d’aptitudes professionnelles et un échantillon de résultats à un test
d’intelligence générale. On caractérise chacun de ces groupes par un effectif et un r de B-P.
N = 25 N = 23 N = 21
1 2 3
Ces 3 groupes sont-ils issus d’une même population? Si oui, estimer le r global.
53
Ex: quatre groupes d’étudiants de première année du Bachelier en médecine avec, pour
chaque groupe, un échantillon de résultats à un test d’estime de soi et un échantillon de
résultats à un test de résistance au stress. On caractérise chacun de ces groupes par un r de
B-P.
N = 35 N = 29 N = 31 N = 34
1 2 3 4
Ces 4 groupes sont-ils issus d’une même population? Si oui, estimer le r global.
54
55
Chapitre 2 : analyse de variance
1.1. Introduction
L’analyse de variance est une technique puissante qui permet de comparer simultanément
plusieurs échantillons indépendants entre eux par rapport à l’indice qui les représente au
mieux: leur moyenne.
Elle est basée sur des comparaisons de variabilités (pour rappel, la variance est une mesure
de variabilité). Mathématiquement, la variabilité peut être exprimée par une somme de carrés
d’écarts :
( − )2
L’ensemble des données est partitionné en plusieurs groupes déterminés par les différents
niveaux de la variable indépendante « Méthodes ». Comme il n’y a qu’un seul critère de
partition, l’analyse de variance simple porte aussi le nom d’analyse de variance à un critère.
56
1.3. Hypothèse nulle
Lorsqu’on applique une analyse de variance, l’hypothèse nulle peut être formulée comme
suit : il n’y a pas de différence statistiquement significative entre les groupes quant à leur
moyenne ou encore : les trois groupes sont issus d’une même population quant à leur
moyenne.
1.4. Procédure
Dans l’étape suivante, on détermine les variabilités. Une première source de variabilité est à
rechercher dans la méthode employée. Cette variabilité relève d’une cause systématiquement
présente (les différentes méthodes) et apparaît donc entre les groupes. Elle est donc notée QE
(« E » comme « entre »). Une seconde source de variabilité relève du hasard de
l’échantillonnage et apparait dans les groupes ; elle est donc notée QD (« D » comme « dans »).
La variabilité totale est égale à la somme de ces deux variabilités.
57
On établit ensuite les sommes de carrés d’écarts correspondant aux deux types de variabilité
et on calcule les degrés de libertés correspondant :
A partir des sommes de carrés d’écarts et des degrés de liberté, nous pouvons calculer des
variances (en divisant QE et QD par les degrés de liberté correspondants) et les comparer à
l’aide d’un test F à une issue (variabilité systématique sur variabilité aléatoire).
58
Le résultat du test est ensuite interprété à l’aide des tables du F de Snédécor.
Pour interpréter le test F de Snédécor, trois tables sont à votre disposition (pages 10, 11 et 12
du recueil de formules et tables). Elles fournissent les valeurs critiques (ou valeurs de
référence) de la distribution du F pour les niveaux de confiance les plus fréquemment utilisés
(.90, .95 et .99).
On entre dans la table du F par les degrés de liberté (L1 en entrée « haut » et L2 en entrée «
gauche ». L1 est le degré de liberté de l'échantillon dont la variance la plus grande (L = N-1) et
L2 est le degré de liberté de l'échantillon ayant la variance la plus petite (L = N-1). Si un degré
de liberté n’est pas présent dans la table, on prend le degré de liberté qui s'en rapproche le
plus. A l’intersection de la colonne et de la ligne, on trouve la valeur critique correspondant
au niveau de confiance de la table choisie. Pour une représentation graphique complète, il y
a lieu de répéter l’opération pour les trois tables. Quand les intervalles de confiance sont
dessinés, on situe la valeur du F qui a été calculée pour pouvoir l’interpréter. On regarde
ensuite les seuils conventionnels d’interprétation et on décide si le test peut globalement être
considéré comme significatif ou pas. Si le test est significatif, on précise pour quelle valeur d’α
(valeur complémentaire du niveau de confiance associé à l’intervalle à l’extérieur duquel la
valeur calculée se trouve).
1-α α
Si le test est globalement non significatif (NS), on considère que les échantillons sont issus
d’une même population quant à leur moyenne et on accepte donc l’hypothèse nulle. Dans ce
59
cas, il n’y a donc pas d’effet « méthode ». Si le test est globalement significatif (S), on
considère que les échantillons ne sont pas issus d’une même population quant à leur moyenne
et on rejette l’hypothèse nulle. Dans ce cas, il y a donc un effet « méthode ».
Quand F est significatif, il est alors intéressant de calculer les t de Student sur les groupes deux
à deux (voir recueil de formules et tables). La réalisation d’une petite matrice de synthèse
permet de n’oublier aucune comparaison :
Exercice 1 : Soient trois groupes d’enfants de première primaire. Dans chacun des groupes, on
applique une méthode d’apprentissage de la lecture différente. A la fin de l’année, on réalise
un test de lecture pour évaluer le niveau des enfants et on obtient les résultats suivants :
60
61
Exercice 2 : Soient quatre groupes d’enfants de première primaire. Dans chacun des groupes,
on applique une méthode d’apprentissage de la lecture différente. A la fin de l’année, on
réalise un test de lecture pour évaluer le niveau des enfants et on obtient les résultats sont
les suivants :
62
63
2. Analyse de variance hiérarchisée
2.1. Introduction
Lorsque les groupes ne sont plus des échantillons simples mais sont constitués de sous-
groupes, il existe alors une source de variation supplémentaire et l’analyse de variance simple
ne peut plus s’appliquer.
L’analyse de variance hiérarchisée, que l’on va utiliser dans ce cas, est également basée sur des
comparaisons de variabilités qui sont, elles aussi, exprimées par une somme de carrés
d’écarts.
Dans une analyse de variance hiérarchisée, l’ensemble des données est donc partitionné en
plusieurs groupes déterminés par les différents niveaux de la variable indépendante
« méthodes » (appelés groupes « primaires » ou groupes « principaux ») dans lesquels sont nichés
les différents niveaux de la variable « groupes secondaires » (appelés aussi « sous-groupes »).
Chaque niveau de la variable nichée n’est donc présent que dans un et un seul niveau de la
variable nichante.
Dans cette situation, nous sommes face à deux critères de partition dans une relation de
nichage ; l’analyse de variance hiérarchisée peut donc aussi prendre le nom d’analyse de
variance à deux critères dans une relation de nichage.
64
2.3. Hypothèse nulle
Lorsqu’on applique une analyse de variance hiérarchisée, l’hypothèse nulle peut être formulée
comme suit : il n’y a pas de différence statistiquement significative entre les groupes primaires
quant à leur moyenne ou encore : les groupes primaires sont issus d’une même population
quant à leur moyenne.
1.4. Procédure
Dans l’étape suivante, on détermine les variabilités. Une première source de variabilité est à
rechercher dans la méthode employée. Cette variabilité relève d’une cause systématiquement
présente (les différentes méthodes) et apparaît donc entre les groupes primaires. Elle est donc
notée QEP (« E » comme « entre », « P » comme « primaires »). Une seconde source de
variabilité relève du hasard de l’échantillonnage et apparait dans les groupes primaires ; elle
est donc notée QDP (« D » comme « dans », « P » comme « primaires »).
65
Dans l’analyse de variance hiérarchisée, la variabilité aléatoire (QDP) peut provenir de deux
sources : la variabilité entre les groupes secondaires, notée QES (« E » comme « entre », « S »
comme « secondaires ») et la variabilité dans les groupes secondaires, notée QDS (« D »
comme « dans », « S » comme « secondaires ».
66
En résumé :
On établit ensuite les sommes de carrés d’écarts correspondant aux différents types de
variabilité et on calcule les degrés de libertés correspondant :
A partir des sommes de carrés d’écarts et des degrés de liberté, nous pouvons calculer des
variances (en divisant QEP , QDS et QES par les degrés de liberté correspondants) et les comparer
à l’aide de tests F à une issue qui nous permettront de répondre à deux questions : 1. les
groupes secondaires forment-ils des groupes primaires homogènes et 2. existe-il un effet
« méthode » ?
67
=
Si FS est globalement non significatif la réponse à la question est: « oui, les groupes
secondaires forment bien des groupes primaires homogènes » et on en revient donc à une
analyse de variance simple.
On peut alors répondre à la question 2 grâce à un test F portant sur les groupes primaires et
où l’on va mettre en rapport la variation systématique due à la méthode et la variation
aléatoire.
68
Si FP est globalement NS, cela signifie qu’il n’y a pas d’effet dû à la méthode. Si FP est
globalement S, cela signifie qu’il y a un effet dû à la méthode et il est alors intéressant de
calculer les t de Student sur les groupes primaires deux à deux (voir recueil de formules et
tables). Tout comme pour l’analyse de variance simple, la réalisation d’une petite matrice de
synthèse permet de n’oublier aucune comparaison.
En résumé :
69
=
Si FP est globalement NS, cela signifie qu’il n’y a pas d’effet dû à la méthode ou que celui-ci
n’est pas suffisant pour surpasser l’effet « groupes secondaires ». Si FP est globalement S, cela
signifie que l’effet dû à la méthode surpasse l’effet « groupes secondaires » et il est alors
intéressant de calculer les t de Student sur les groupes primaires deux à deux (voir recueil de
formules et tables). Tout comme pour l’analyse de variance simple, la réalisation d’une petite
matrice de synthèse permet de n’oublier aucune comparaison.
En résumé :
70
Chapitre 3 : tests non paramétriques
1. Rappel
Les données non métriques ne sont pas issues d’une mesure ou d’un comptage mais
proviennent plutôt d’un processus de classement ou de répartition (individuelle ou en
catégories) des éléments de l'ensemble.
Hiérarchie, ordre
Chaque élément est caractérisé par un nombre correspondant à sa place dans le classement
(ou rang). Lorsque deux ou plusieurs valeurs sont identiques, leur rang est égal à la moyenne
arithmétique des rangs de ces valeurs.
Autres exemples : classement des élèves par ordre de tailles (prof de gym) ; chevaux à l’arrivée
d’une course (premier, deuxième et troisième).
Hiérarchie, ordre
71
➔ données réparties en classes mutuellement exclusives et ordonnées
La caractérisation d'une catégorie se fait par le dénombrement de ses éléments (cet effectif
est toujours un nombre entier) : 5 grands, 6 moyens, 10 petits.
Les données ordinales peuvent également faire l’objet de présentations sous la forme de
pourcentages.
Je la recommande 74%
satisfait 5%
Moyennement satisfait 3%
➢ Nominales
Hiérarchie, ordre
72
La caractérisation d'une catégorie se fait par le dénombrement de ses éléments (cet effectif
est toujours un nombre entier) : 6 cheveux blonds; 10 cheveux bruns; 4 cheveux noirs.
Les données nominales peuvent également faire l’objet de présentations sous la forme de
pourcentages.
Religions Pourcentages
Hindouisme 49%
Christianisme 32%
Islam 17%
En résumé :
73
2. Introduction
Lorsque le chercheur travaille avec des données non métriques, il collecte des effectifs de
catégorie. C’est donc à partir de ces effectifs de catégorie qu’il devra travailler pour vérifier si
les différences observées sont dues au hasard ou à une cause systématique. Différents tests
non paramétriques sont ainsi à sa disposition. Même s’ils sont moins puissants que les tests
paramétriques (comme le test F de Snédécor ou le test t de Student par exemple), ils ont
comme avantage de pouvoir s’appliquer à des échantillons très petits, ce qui est souvent utile
en sciences humaines.
Le choix du test s’effectue selon le niveau des données avec lesquelles on doit travailler
(données nominales ou données ordinales). Si celles-ci sont ordinales, selon qu’elles sont par
catégorie ou par rang ; si celles-ci sont nominales, selon qu’elles sont
dichotomiques/dichotomisées ou pas. Le choix dépendra également du nombre et du type
d’échantillons (échantillon simple, deux échantillons indépendants, plusieurs échantillons
indépendants, deux échantillons appareillés, plusieurs échantillons appareillés). Un tableau
synthétique se trouve dans le recueil de formules et tables ; il présente les différents tests en
fonction des conditions de choix.
3.1. Présentation
2
Dénombrer = opération qui consiste à compter tous les éléments d’un ensemble, d’une catégorie, d’une
classe.
74
Exemple de données de départ :
Nous pouvons observer que la classe 1 comporte 15 éléments ; la classe 2, 14 éléments …etc
L’hypothèse nulle du test du χ2 pour un échantillon peut être formulée comme suit :
« l’échantillon est conforme à la population théorique considérée ».
3.2. Procédure
➢ des effectifs observés (notés fk), aussi appelés répartition des “valeurs observées”
(notées V.O.): ce sont les valeurs observées dans les différentes classes au sein de
l’échantillon.
➢ des effectifs théoriques (notés f’k), aussi appelés répartition des “valeurs attendues”
(notées V.A.): ce sont les valeurs auxquelles on devrait théoriquement s’attendre dans
les différentes classes si la distribution observée suivait parfaitement la loi théorique
considérée (autrement dit: si l’hypothèse nulle était parfaitement vérifiée).
Dès lors, l’hypothèse nulle peut être reformulée comme suit : la répartition des valeurs
observées est statistiquement équivalente à la répartition des valeurs théoriquement
attendues.
➢ Si L= 1
En principe N>50 mais on tolère N>30 ; tous les effectifs théoriques > 5
➢ Si L ≠ 1
En principe N>50 mais on tolère N>30 ; 4/5 des effectifs théoriques > 5
75
Calcul des effectifs théoriques :
Selon la distribution théorique considérée, on devra choisir la formule adaptée pour calculer
le degré de liberté qui nous permettra d’interpréter la statistique calculée :
Le calcul de la statistique se réalise sur base de la formule reprise dans le recueil de formules
et tables. Si L= 1, alors il faut appliquer la correction de Yates (voir recueil de formules et
tables)
Pour interpréter le test, une table (Table pour le test du chi-carré) est à votre disposition dans
le recueil de formules et tables. Elle fournit les valeurs critiques (ou valeurs de référence) de
la distribution du chi-carré pour les niveaux de confiance les plus fréquemment utilisés (.80,
.90, .95, .98, .99 et .999 pour un test à deux issues) à partir des valeurs complémentaires
notées α qui apparaissent en tête de colonne.
76
On entre dans la table par le degré de liberté (en entrée « gauche »). Si un degré de liberté
n’est pas présent dans la table, on prend le degré de liberté qui s'en rapproche le plus. On
situe la valeur du chi-carré qui a été calculée pour pouvoir l’interpréter pour un test à deux
issues. Dessiner les intervalles de confiance peut aider à réaliser cette interprétation. On
regarde ensuite les seuils conventionnels d’interprétation et on décide si le test peut
globalement être considéré comme significatif ou pas. Si le test est significatif, on précise pour
quelle valeur d’α (valeur complémentaire du niveau de confiance associé à l’intervalle à
l’extérieur duquel la valeur calculée se trouve).
Remarque : la table du chi-carré étant une table à deux issues, il faut diviser la valeur d’α par
deux si l’on souhaite le résultat pour un test à une issue.
3.3. Exercice
77
4. Test du χ2 pour deux ou plusieurs échantillons (Pearson chi-squared
test)
4.1. Présentation
Le test peut être généralisé et être utilisé avec une situation de départ caractérisée par la
présence de 3, 4, 5 échantillons, ou plus.
L’hypothèse nulle peut être formulée comme suit : « les deux échantillons sont issus d’une
même population ».
4.2. Procédure
➢ des effectifs observés (notés fk), aussi appelés répartition des “valeurs observées”
(notées V.O.): ce sont les valeurs observées dans les différentes cases au sein des deux
échantillons
78
➢ des effectifs théoriques (notés f’k), aussi appelés répartition des “valeurs attendues”
(notées V.A.): ce sont les valeurs qu’on observerait si la distribution dans les
échantillons était indépendante de la distribution dans les catégories
Dès lors, l’hypothèse nulle peut être reformulée comme suit : La répartition des valeurs
observées de l’échantillon 1 (V.O.1) est statistiquement équivalente à la répartition des
valeurs observées de l’échantillon 2 (V.O.2) …etc
Effectif théorique d’une case = le produit des totaux marginaux3 de cette case divisée par
l’effectif total de l’échantillon
➢ Si L= 1
En principe N>50 mais on tolère N>30 ; tous les effectifs théoriques > 5
➢ Si L ≠ 1
En principe N>50 mais on tolère N>30 ; 4/5 des effectifs théoriques > 5
3
les totaux marginaux sont les totaux de chaque modalité en lignes et en colonnes
79
Remarque:
L=(G-1).(K-1)
Le calcul de la statistique se réalise sur base de la formule reprise dans le recueil de formules
et tables. Si L = 1, alors il faut appliquer la correction de Yates (voir recueil de formules et
tables).
L’interprétation du test du χ2 pour deux ou plusieurs échantillons est effectuée à l’aide des
mêmes tables, et selon la même procédure, que pour le test du χ 2 à un échantillon (voir
précédemment).
4.3. Exercice
On compare deux classes quant au fait de porter ou non des lunettes. On trouve les résultats
suivants :
Y a-t-il une différence statistiquement significative entre les 2 échantillons quant au fait de
porter, ou non, des lunettes?
80
5. Test binomial (Binomial test)
5.1. Présentation
4
Variable dichotomique : variable dont les données ne peuvent naturellement prendre que deux valeurs
(belge/pas belge; mort/vivant ; item de type I/O réussi / item de type I/O raté)
5
Distribution dichotomisée : distribution de données métriques qui a été dichotomisée (séparée en deux parties)
sur base d’une « frontière » posée arbitrairement (ex : sur base d’une distribution de résultats - données
métriques- à un examen, détermination de deux catégories : les étudiants ayant réussi cet examen – c’est-à-dire
ceux ayant une note ≥10 et les étudiants ayant raté cet examen – note <10).
81
s’effectue par le dénombrement de leurs éléments. Nous allons donc travailler ici sur des
effectifs, c’est-à-dire des données entières.
L’hypothèse nulle peut être formulée comme suit : « l’échantillon est conforme à la
population théorique considérée ».
Remarque :
Le test binomial peut être utilisé à la place du test du chi-carré pour un échantillon quand les
conditions d’application de celui-ci ne peuvent être respectées (voir précédemment).
5.2. Procédure
➢ des effectifs observés, aussi appelés répartition des “valeurs observées” (notées V.O.):
ce sont les valeurs observées dans les différentes classes au sein de l’échantillon.
➢ des effectifs théoriques, aussi appelés répartition des “valeurs attendues” (notées
V.A.): ce sont les valeurs auxquelles on devrait théoriquement s’attendre
Dès lors, l’hypothèse nulle peut être reformulée comme suit : la répartition des valeurs
observées est statistiquement équivalente à la répartition des valeurs théoriquement
attendues. Le test binomial évalue, à partir de la loi binomiale, la probabilité que cette H0 soit
vraie (soit α ) pour un test à une issue.
Le traitement du plan se réalise sur base des informations reprises dans le recueil de formules
et tables :
Si l’on souhaite le résultat pour un test à deux issues, il faut ensuite doubler la valeur d’α.
82
5.3. Exercice
Un enfant jette 20 fois une pièce en l’air et comptabilise 15 piles. Ce résultat est-il dû au
hasard?
83
6. Test de Fisher (Fisher test)
6.1. Présentation
Le test de Fisher est un test d‘homogénéité qui s’applique sur deux échantillons
indépendants de données de valeurs observées. Les effectifs totaux de ces échantillons
peuvent donc être différents.
Il permet de répondre à la question: les deux échantillons comparés sont-ils homogènes quant
à leur distribution (c’est-à-dire au niveau de leur répartition des effectifs de dénombrement)?
Les données sont issues d’une variable dichotomique ou d’une distribution dichotomisée et
sont donc réparties en classes mutuellement exclusives dont la caractérisation s’effectue par
le dénombrement de leurs éléments. Nous allons dès lors travailler ici aussi sur des effectifs,
c’est-à-dire des données entières.
L’hypothèse nulle peut être formulée comme suit : « les deux échantillons sont issus d’une
même population quant à leur répartition d’effectifs».
6.2. Procédure
Dans la mise en œuvre du test, nous serons en présence de deux répartitions d’effectifs
observés, aussi appelés répartition des “valeurs observées” (notées V.O.1 et V.O.2): ce sont
les valeurs observées dans les différentes cases au sein des deux échantillons.
I O
V.O.1 A B A+B
V.O.2 C D C+D
A+C B+D N
Dès lors, l’hypothèse nulle peut être reformulée comme suit : La répartition des valeurs
observées de l’échantillon 1 (V.O.1) est statistiquement équivalente à la répartition des
valeurs observées de l’échantillon 2 (V.O.2) …etc
Le test de Fisher évalue, à partir de la loi hypergéométrique, la probabilité que l'H0 soit vraie
(soit α) pour un test à une issue. Le traitement du plan se réalise sur base des informations
reprises dans le recueil de formules et tables. Si l’on souhaite le résultat pour un test à deux
issues, il faut doubler la valeur d’α.
84
6.3. Exercice
Dans un centre spécialisé, on soigne des troubles phobiques à l’aide de deux méthodes
thérapeutiques différentes.
Sur les 26 patients traités, 11 le sont avec la méthode A et parmi eux, 6 guérissent. Parmi ceux
traités avec la méthode B, 3 seulement guérissent. Une méthode est-elle plus efficace que
l’autre?
85
7. Test de Mac Nemar (Mac Nemar test)
7.1. Présentation
Le test de Mac Nemar est un test d‘homogénéité qui s’applique sur deux échantillons
appareillés de valeurs observées (N1 ne peut donc pas être différent de N2). Les données sont
réparties en classes mutuellement exclusives (données issues d’une variable dichotomique ou
d’une distribution dichotomisée), dont la caractérisation s’effectue par le dénombrement de
leurs éléments. Nous allons donc travailler ici sur des effectifs (notés A, B, C, D), c’est-à-dire
des données entières.
7.2. Procédure
Dès lors, l’hypothèse nulle peut être reformulée comme suit : la répartition B/C est
statistiquement équivalente à l'équipartition des valeurs théoriquement attendues
correspondante ((B+C)/2 , (B+C)/2).
Pour comparer les V.O. et les V.A., on peut, si les conditions d’application sont respectées,
utiliser un chi-carré à un échantillon (par rapport à une équipartition avec L=K-1) ou un test
binomial. Dans le premier cas (test du chi-carré à un échantillon), le test évalue la probabilité
que l'H0 soit vraie (soit α) pour un test à deux issues. Si l’on souhaite le résultat pour un test
à une issue, il faut diviser par deux la valeur d’α. Dans le second cas (test binomial), le test
évalue la probabilité que l'H0 soit vraie (soit α) pour un test à une issue. Si l’on souhaite le résultat
pour un test à deux issues, il faut doubler la valeur d’α.
86
Le traitement du plan se réalise sur base des informations reprises dans le recueil de formules et tables.
En résumé :
7.3. Exercice
87
Même énoncé mais avec les données suivantes :
8.1. Présentation
88
8.2. Procédure
8.3. Exercice
89
9. Le test de Kolmogorov-Smirnov pour un échantillon (Kolmogorov-
Smirnov test - one sample)
9.1. Présentation
L’hypothèse nulle peut être formulée comme suit : « l’échantillon est conforme à la
population théorique considérée».
Il peut être utilisé dans le même genre de situations que celles classiquement considérées à
l’aide du chi-carré à un échantillon et doit être appliqué lorsque les conditions d’application
du chi-carré ne sont pas rencontrées.
9.2. Procédure
➢ des “valeurs observées” (notées V.O.): ce sont les valeurs observées dans les
différentes classes au sein de l’échantillon ;
➢ des “valeurs attendues” (notées V.A.): ce sont les valeurs auxquelles on devrait
théoriquement s’attendre dans les différentes classes si la distribution observée suivait
parfaitement la loi théorique considérée (autrement dit: si l’hypothèse nulle était
parfaitement vérifiée).
Dès lors, l’hypothèse nulle peut être reformulée comme suit : « la répartition des valeurs
observées est statistiquement équivalente à la répartition des valeurs théoriquement
attendues ».
Le test de K.S. à un échantillon fournit une valeur (notée D) à interpréter à l'aide d'une table
à deux issues (table 7.1.a) afin d'évaluer la probabilité que l'H0 soit vraie (α). Le traitement du
plan se réalise sur base des informations reprises dans le recueil de formules et tables.
90
➢ Utilisation de la table 7.1.a
La table 7.1.a est la table des valeurs critiques pour le test de Kolmogorov-Smirnov pour un
échantillon (one-sample test). C’est une table à 2 issues. Elle comporte deux entrées : une
entrée « gauche » sur base de la taille de l’échantillon (notée N ; sample size) et une entrée
« haut » qui donne le niveau de signification α (level of significance).
Pour interpréter la valeur D, il faut entrer par la valeur du N de l’échantillon puis situer D et
déterminer la valeur d’α. On regarde ensuite les seuils conventionnels d’interprétation et on
décide si le test peut globalement être considéré comme significatif ou pas. Si le test est
significatif, on précise pour quelle valeur d’α (valeur complémentaire du niveau de confiance
associé à l’intervalle à l’extérieur duquel la valeur calculée se trouve). Si le N de l’échantillon
est supérieur à 35, on calcule soi-même les valeurs critiques de la table. Si l’on souhaite le
résultat pour un test à une issue, il faut diviser les valeurs d’α, qui se trouvent au sommet des
colonnes de la table, par deux.
9.3. Exercice
Y-a-t-il une différence significative, en fonction des mois, au niveau du nombre d’urgences
psychiatriques ?
91
10. Le test de Kolmogorov-Smirnov pour deux échantillons
(Kolmogorov-Smirnov test - two samples)
10.1. Présentation
Le test de Kolmogorov Smirnov pour deux échantillons est un test d‘homogénéité ; il permet
de répondre à la question: les échantillons sont-ils homogènes quant à leur distribution
(répartition des effectifs de dénombrement)? Il s’applique à partir de deux échantillons
indépendants de valeurs observées (N1 peut donc être différent de N2). Les données sont
réparties en classes mutuellement exclusives (catégories hiérarchisées), dont la
caractérisation s’effectue par le dénombrement de leurs éléments. Nous allons donc travailler
ici sur des effectifs, c’est-à-dire des données entières. L’hypothèse nulle peut être formulée
comme suit : «les deux échantillons sont issus d’une même population quant à leur
répartition».
Il peut être utilisé dans le même genre de situations que celles classiquement considérées à
l’aide du chi-carré à deux échantillons et doit être appliqué lorsque les conditions d’application
du chi-carré ne sont pas rencontrées.
10.2. Procédure
Dans la mise en œuvre du test, nous sommes en présence de deux répartitions d’effectifs
observés, aussi appelés répartition des “valeurs observées” (notées V.O.1 et V.O.2): ce sont
les valeurs observées dans les différentes cases au sein des deux échantillons.
92
Dès lors, l’hypothèse nulle peut être reformulée comme suit : « la répartition des valeurs
observées de l’échantillon 1 (V.O.1) est statistiquement équivalente à la répartition des
valeurs observées de l’échantillon 2 (V.O.2) ».
Le traitement du plan se réalise sur base des informations reprises dans le recueil de formules
et tables.
Le test de K.S. à deux échantillons fournit une valeur (notée D) à interpréter à l'aide des tables
7.1.b ou 7.1.c afin d'évaluer la probabilité que l'H0 soit vraie (α). Le traitement du plan se
réalise sur base des informations reprises dans le recueil de formules et tables.
La table 7.1.b est la table des valeurs critiques pour le test de Kolmogorov-Smirnov pour deux
échantillons (two-sample test) ; elle concerne des petits échantillons (small samples) et peut
être utilisée quand N1 = N2 avec N1 et N2 <40. C’est une table affichant une portion à 1 issue
(one-tailed test) et une autre à 2 issues (two-tailed test). Elle comporte deux entrées : une
entrée « gauche » sur base de l’effectif total (noté N ; sample size) et une entrée « haut » qui
donne le niveau de signification α.
Pour interpréter la valeur D, il faut entrer par la valeur de N, choisir la portion à une issue ou
celle à deux issues puis situer D et déterminer la valeur d’α. On regarde ensuite les seuils
conventionnels d’interprétation et on décide si le test peut globalement être considéré
comme significatif ou pas. Si le test est significatif, on précise pour quelle valeur d’α (valeur
complémentaire du niveau de confiance associé à l’intervalle à l’extérieur duquel la valeur
calculée se trouve).
Exemple :
93
➢ Utilisation de la table 7.1.c
La table 7.1.c est la table des valeurs critiques pour le test de Kolmogorov-Smirnov pour deux
échantillons (two-sample test) ; elle concerne des grands échantillons (large samples) et peut
être utilisée quand N1 et/ou N2 >40. C’est une table à 2 issues (two-tailed test). Elle comporte
deux colonnes : la colonne de gauche indique le niveau de signification α et la colonne
de droite les valeurs critiques de la table que l’on doit calculer soi-même.
Pour interpréter la valeur D, il faut déterminer les valeurs d’α auxquelles on s’intéresse et
calculer les valeurs critiques correspondantes puis situer D et déterminer la valeur d’α. On
regarde ensuite les seuils conventionnels d’interprétation et on décide si le test peut
globalement être considéré comme significatif ou pas. Si le test est significatif, on précise pour
quelle valeur d’α (valeur complémentaire du niveau de confiance associé à l’intervalle à
l’extérieur duquel la valeur calculée se trouve). Si l’on souhaite le résultat pour un test à une
issue, il faut calculer un χ2 (voir recueil de formules et tables). On compare ensuite cette valeur
de χ2 calculée à celle de la table du χ2 pour deux degrés de liberté. Le K.S. à 1 issue est, en
effet, distribué comme un χ2 à deux issues. En effet, le KS à une issue est distribué comme un
χ2 à deux issues.
En résumé :
10.3. Exercice
Notre psychologue qui travaille dans un hôpital et qui cherche à déterminer si les mois de
l’année influencent ou non le nombre de cas d’urgences psychiatriques, compare ses effectifs
avec ceux recueillis par son collègue de l’institution voisine. Constate-t-on une différence
significative entre les deux répartitions ?
94
J F M A M J J A S O N D
Ech1 6 9 4 7 3 2 1 4 7 5 9 10
Ech2 5 10 6 3 2 5 4 5 6 9 11 13
95
11. Le test des signes (sign test)
11.1. Présentation
Le test des signes s’applique sur deux échantillons appareillés de valeurs observées. Les
données sont réparties selon une variable ordinale (catégories hiérarchisées ou classement
individuel). D’une manière générale, le test des signes peut être employé pour déterminer s’il
y a des différences systématiques pouvant se traduire par un signe « + » ou un signe « -
» entre des paires de données. Pour l’utiliser, il suffit que l’on puisse ranger l’une des deux
données par rapport à l’autre dans chaque paire.
Le test des signes est un test d‘homogénéité ; il permet de répondre à la question: les
échantillons sont-ils homogènes quant à leur distribution? L’hypothèse nulle peut être
formulée comme suit : «les deux échantillons sont statistiquement équivalents quant à leur
répartition de différences + et de différences - ».
Le test peut être appliqué sur de petits échantillons. Contrairement au test de Wilcoxon (que
nous verrons juste après), le test des signes ne s'intéresse qu’au sens des différences et non à
leur amplitude. Il est en ce sens moins puissant.
11.2. Procédure
Dans la mise en œuvre du test, nous sommes en présence de deux répartitions d’effectifs
observés, aussi appelés répartition des valeurs observées (notées V.O.1 et V.O.2): ce sont les
valeurs observées au sein des deux échantillons.
Dès lors, l’hypothèse nulle peut être reformulée comme suit : « la répartition des valeurs
observées de l’échantillon 1 (V.O.1) est statistiquement équivalente à la répartition des valeurs
observées de l’échantillon 2 (V.O.2) ».
Le traitement du plan se réalise sur base des informations reprises dans le recueil de formules
et tables.
En résumé :
96
différences positives (la répartition (A, B) serait due au hasard) → on teste si la
répartition des valeurs observées (V.O.) est statistiquement équivalente à la répartition
des valeurs auxquelles on aurait pu théoriquement s’attendre, c’est-à-dire aux valeurs
attendues (V.A.) de l'équipartition théorique correspondante.
V.O. A B
𝐴+𝐵 𝐴+𝐵
V.A.
2 2
Le test évalue la probabilité que l'H0 soit vraie (soit α) pour un test à une, ou à deux,
issue(s) selon la technique employée pour comparer les V.O. et les V.A.. En effet, si les
conditions d’application sont respectées, on peut utiliser un χ2 à un échantillon par
rapport à une équipartition (L=K-1 et table à deux issues) mais on peut aussi utiliser un
test binomial qui fournira la valeur d’α pour un test à une issue.
11.3. Exercice
A K N J M U E L
5 9 7 4 3 7 6 1
7 12 7 abs 9 6 2 2
97
12. Le test T de Wilcoxon (Wilcoxon's matched pairs rank test)
12.1. Présentation
Le test peut être appliqué sur de petits échantillons. Contrairement au test des signes, le test
T de Wilcoxon s'intéresse à l’amplitude des différences, en plus du sens de celles-ci. Il est donc
plus puissant.
98
12.2. Procédure
Dans la mise en œuvre du test, nous sommes en présence de deux répartitions d’effectifs
observés, aussi appelés répartition des valeurs observées (notées V.O.1 et V.O.2): ce sont les
valeurs observées au sein des deux échantillons.
Dès lors, l’hypothèse nulle peut être reformulée comme suit : « la répartition des valeurs
observées de l’échantillon 1 (V.O.1) est statistiquement équivalente à la répartition des valeurs
observées de l’échantillon 2 (V.O.2) ».
En résumé :
Utilisation de la table:
Exemple :
n = 21 T = 62
99
12.3. Exercice
A K N J M U E L
5 9 7 4 3 7 6 1
7 12 7 abs 9 6 2 2
100
13. Le test des rangs (rank test)
13.1. Présentation
Le test des rangs s’applique sur deux échantillons indépendants de valeurs observées (N1
peut donc être différent de N2). Les données sont réparties selon un classement individuel
(données ordinales par rang).
Le test des rangs est un test d‘homogénéité ; il permet de répondre à la question: les
échantillons sont-ils homogènes quant à leur distribution (répartition des effectifs de
dénombrement)? L’hypothèse nulle peut être formulée comme suit : « les deux échantillons
sont statistiquement équivalents quant au rangement de leurs données».
13.2. Procédure
Dans la mise en œuvre du test, nous sommes en présence de deux répartitions d’effectifs
observés, aussi appelés répartition des valeurs observées (notées V.O.1 et V.O.2): ce sont les
valeurs observées au sein des deux échantillons.
Dès lors, l’hypothèse nulle peut être reformulée comme suit : « la répartition des valeurs
observées de l’échantillon 1 (V.O.1) est statistiquement équivalente à la répartition des valeurs
observées de l’échantillon 2 (V.O.2) ».
Exemple d’énoncé :
Un psychologue réalise une étude sur les discriminations à l’embauche. Pour ce faire, il analyse
le classement réalisé par un jury sur base d’une épreuve écrite non anonyme, au départ d’un
échantillon de 27 candidats, et cherche à déterminer si le fait d’avoir, un nom à consonance
étrangère (E) ou belge (B) exerce une influence sur le classement. Voici le résultat du
classement:
BBBEEEBBBBBEEEBBBBBEEBBEEEE
101
Le traitement du plan se réalise sur base des informations reprises dans le recueil de formules
et tables.
En résumé :
ou
𝐑 𝟏 − ̅̅̅̅
𝐑𝟏 𝐑 𝟐 − ̅̅̅̅
𝐑𝟐
𝐮= 𝐮=
𝐒𝐑 𝟏 𝐒𝐑 𝟐
N (N+1)
avec ̅̅̅
R1 = 1 2 avec ̅R̅̅2̅ = N2(N+1)
2
N1 N2 (N+1) N1 N2 (N+1)
et R1 =√ et R2 =√
12 12
102
Utilisation des tables :
Exemples :
N1 = 12
N2 = 16
R1 = 128
R2 = 219
103
N1 = 10
N2 = 16
R1 = 128
R2 = 207
b. Tables du U de Mann-Whitney
On commence par sélectionner la portion de table adéquate selon la valeur de N2. La table est
à deux entrées: une entrée «ligne» que l’on sélectionne en fonction de la valeur de la
statistique U calculée et un entrée «colonne» qui indique la valeur de N .
1
La valeur située à l’intersection représente valeur d’α pour un test à une issue ; il faudra
doubler celle-ci si on souhaite le résultat pour un test à deux issues.
104
Exemples :
N2 = 7
N1 = 5
U=4
b. Lecture de table
c. Interprétation
N2 = 5
N1 = 3
U=1
Interprétez pour un test à 1 et à 2 issues
105
▪ Tables MW2 → MW5 (tables à 1 issue)
La table MW2 donne les valeurs critiques du test pour α = .001, soit pour un intervalle de
confiance à .999 (pour un test à une issue). Si l’on souhaite interpréter pour un test à deux
issues, on doit doubler la valeur d’α →α = .001 x 2 (soit .002) →la table donne dans ce cas les
valeurs critiques pour un intervalle de confiance à .998 (pour un test à deux issues).
La table MW3 donne les valeurs critiques du test pour α = .01, soit pour un intervalle de
confiance à .99 (pour un test à une issue). Si l’on souhaite interpréter pour un test à deux
issues, on doit doubler la valeur d’α →α = .01 x 2 (soit .02) →la table donne dans ce cas les
valeurs critiques pour un intervalle de confiance à .98 (pour un test à deux issues).
La table MW4 donne les valeurs critiques du test pour α = .025, soit pour un intervalle de
confiance à .975 (pour un test à une issue). Si l’on souhaite interpréter pour un test à deux
issues, on doit doubler la valeur d’α →α = .025 x 2 (soit .05) →la table donne dans ce cas les
valeurs critiques pour un intervalle de confiance à .95 (pour un test à deux issues).
La table MW5 donne les valeurs critiques du test pour α = .05, soit pour un intervalle de
confiance à .95 (pour un test à une issue). Si l’on souhaite interpréter pour un test à deux
issues, on doit doubler la valeur d’α →α = .05 x 2 (soit .10) →la table donne dans ce cas les
valeurs critiques pour un intervalle de confiance à .90 (pour un test à deux issues).
En résumé :
MW2 α = .001 → I.C. à .999 (une issue) →α = .001 x 2 (soit .002) → I.C. à .998 (deux
issues)
MW3 α = .01 → I.C. à .99 (une issue) →α = .01 x 2 (soit .02) → I.C. à .98 (deux issues)
MW4 α = .025 → I.C. à .975 (1 issue) →α = .025 x 2 (soit .05) → I.C. à .95 (deux issues)
MW5 α = .05 → I.C. à .95 (1 issue) →α = .05 x 2 (soit .10) → I.C. à .90 (deux issues)
La table est à deux entrées: une entrée «ligne» que l’on sélectionne en fonction de la valeur
de N1 et une entrée « colonne » que l’on sélectionne en fonction de la valeur de N2.
La valeur située à l’intersection est la valeur critique pour le seuil de signification indiqué au-
dessus de la table. On peut donc situer la statistique U par rapport aux différentes valeurs
critiques (ex.: à .90, .95 comme quand on utilise les tables du F). Après avoir déterminé la
valeur d’α (attention: axe dans le sens opposé à ce qu’on a l’habitude de voir dans les autres
tables), on peut doubler celle-ci si l’on souhaite le résultat pour un test à deux issues.
106
Exemples :
N1 = 12
N2 = 14
U = 62
Interprétez pour un test à 1 issue
b. Lecture de table :
c. Interprétation
N1 = 12
N2 = 14
U = 62
Interprétez pour un test à 2 issues
107
N1 = 15
N2 = 16
U = 52
Interprétez pour un test à 1 issue
N1 = 15
N2 = 16
U = 52
Interprétez pour un test à 2 issues
108
Approche par la loi normale :
Si N > 20, une approximation par la normale est possible (voir Recueil de formules et tables).
Exemple :
N1 = 12 R1= 132
N2 = 15 R2= 197
Interprétez pour un test à 1 issue et pour un test à 2 issues
109
13.3. Exercices d’intégration
Un psychologue réalise une étude sur les discriminations à l’embauche. Pour ce faire, il analyse
le classement réalisé par un jury sur base d’une épreuve écrite non anonyme, au départ d’un
échantillon de 27 candidats, et cherche à déterminer si le fait d’avoir, un nom à consonance
étrangère (E) ou belge (B) exerce une influence sur le classement. Voici le résultat du
classement:
BBBEEEBBBBBEEEBBBBBEEBBEEEE
110
Chapitre 4 : corrélations non paramétriques
1. Rappel
➢ Données dichotomiques
Les données dichotomiques sont des données qui ne peuvent «naturellement» prendre que
deux valeurs (l’une excluant automatiquement l’autre) ; elles donnent donc lieu à deux
catégories distinctes, fixes et discontinues.
➢ Données dichotomisées
Les données dichotomisées sont, elles, des données qui ont été classées dans deux catégories,
créées «artificiellement» par une limite posée arbitrairement au départ d’une distribution
métrique normale.
2. Introduction
Les coefficients de corrélation non paramétriques sont utilisés lorsqu’on cherche à déterminer
la force de la relation existant entre deux séries appareillées de données, dont l’une au moins
est non métrique.
111
3. Le de Spearman (Spearman's rank correlation coefficient)
Ce coefficient de corrélation permet d’estimer la force de la relation qui existe entre deux
séries appareillées de données ordinales.
Exemple :
On cherche à déterminer s’il existe une relation entre le classement des élèves à un examen
A et le classement des mêmes élèves à un examen B.
Le rho de Spearman est un coefficient de corrélation non linéaire: tous les points ont tendance
à se situer sur une courbe (voir représentation graphique ci-après).
112
Cette table est une table à double entrée. L’entrée «ligne» s’effectue selon la valeur d’α (.05
ou .01) et l’entrée «colonne» selon la valeur de N (nombre de paires de données). A
l’intersection, on trouve la valeur critique pour l’intervalle de confiance correspondant. La
table est une table à une issue mais on peut aisément la transformer pour interpréter le
résultat d’un test à deux issues (il suffit de doubler la valeur d’α).
Exemple :
N = 28
ϱ = .32
Inférer sur H0
Il y a plus de 90% de chances de RH0 (test à 2 issues). En fait, on est probablement à moins de
.95 car la valeur calculée (.32) est très proche de la valeur critique de l’I.C., à savoir: .317.
2. N quelconque: t de Student
La formule du t reprise dans le recueil de formules et tables fournit une valeur qu’il faudra
interpréter à l’aide de la table du t de Student (voir Recueil de formules et tables - Statistique
6
On double la valeur d’α
113
I) avec un degré de liberté L = N-2 et en choisissant la portion de la table la plus appropriée :
à une ou à deux issues.
N = 28
ϱ = .32
Inférer sur 𝜌̅ = 0
Cette méthode ne donne pas un résultat très précis mais le résultat cohérent avec celui de la
première méthode.
3. N>20
Si l’on souhaite le résultat pour un test à deux issues, il faudra doubler la valeur d’α.
Exemple :
N = 28
ϱ= .32
Inférer sur H0
114
Cette méthode donne un résultat précis, cohérent avec les deux autres méthodes.
Quand N>20, on peut également calculer les bornes inférieure et supérieure des intervalles
de confiance et situer le coefficient ρ de l’échantillon. Cette méthode donne un résultat
cohérent avec ceux des autres méthodes.
115
Cette méthode donne un résultat cohérent avec les deux autres méthodes.
En résumé :
116
4. Le r tétrachorique (tetrachoric correlation)
Ce coefficient de corrélation permet d’estimer la force de la relation qui existe entre deux
séries appareillées de données dichotomisées. Le dispositif expérimental est donc représenté
par un tableau de contingence à 4 cases où A, B, C et D sont des effectifs (nombres entiers).
I 0
I A B
0 C D
Exemple :
Le traitement du plan se réalise sur base des informations reprises dans le recueil de formules
et tables.
Exemple :
117
Exemple :
Exemple :
Des étudiants de BAC 1 ont passé un test intermédiaire de psychologie et de pédagogie. Voici
la synthèse de leurs résultats:
I 0
I 4 4 8
0 2 10 12
6 14 20
S = 12 → q = 12/20 → q=.6
0
S = 8 → p= 8/20 → p=.4
I
T = 20
T = 14 → q’ = 14/20 → q’=.7
0
T = 20
118
Exemple :
• Dessiner • Dessiner
• Déterminer Zx • Déterminer Zy
• Déterminer Yx • Déterminer Yy
Utiliser la table des aires limitées par la courbe normale centrée réduite de 0 à u et celle des
ordonnées de la courbe normale centrée réduite en fonction de l’abscisse u (voir recueil de
formules et tables).
119
Exercice :
1. Calculer les proportions marginales pour chacune des deux séries (p, q et p’, q’)
2. Dessiner
3. Déterminer Z (abscisse) et Z (abscisse)
x y
4. Déterminer Y (ordonnée) et Y (ordonnée)
x y
120
Le r tétrachorique est une bonne estimation du r de Bravais-Pearson si les coupures ne sont
pas trop loin de la médiane. Autrement dit, si p n’est pas trop différent de q et si p’ n’est pas
trop différent de q’.
121
L’application de techniques inférentielles permettra de déterminer si la corrélation dans la
population est ou non égale à 0. Le traitement du plan se réalise sur base des informations
reprises dans le recueil de formules et tables.
Si l’on souhaite le résultat pour un test à deux issues, il faudra doubler la valeur d’α.
122
Exercice d’intégration :
Variable Y :
Epreuve satisfaction professionnelle
I (satisfait) 0 (non satisfait)
Variable X : I (satisfait) 82 38
Epreuve satisfaction
0 (non satisfait) 66 74
personnelle
123
5. Le r point bisérial
Ce coefficient permet d’estimer la force de la relation qui existe entre une série de données
métriques et une série de données dichotomiques; ces deux séries de données sont
appareillées.
124
Exemple :
On cherche à évaluer s’il existe une relation entre le résultat à un examen de mathématique
et le sexe des étudiants.
Le r point bisérial est une estimation du coefficient r de B-P ; il varie donc entre -1 et 1. Son
calcul se réalise sur base des informations reprises dans le recueil de formules et tables.
La formule du t reprise dans le recueil de formules et tables fournit une valeur qu’il faudra
interpréter à l’aide de la table du t de Student (voir Recueil de formules et tables - Statistique
I) avec un degré de liberté L = N-2 et en choisissant la portion de la table la plus appropriée :
à une ou à deux issues.
La deuxième formule du t reprise dans le recueil de formules et tables fournit une valeur qu’il
faudra interpréter à l’aide de la table du t de Student (voir Recueil de formules et tables -
Statistique I) avec un degré de liberté L = N-2 et en choisissant la portion de la table la plus
appropriée : à une ou à deux issues.
Ce coefficient permet d’estimer la force de la relation qui existe entre une série de données
métriques et une série de données dichotomisées; ces deux séries de données sont
appareillées.
Exemple :
On cherche à déterminer s’il existe une relation entre le Q.I. et le fait de réussir ou de rater un
examen.
125
Son calcul se réalise sur base des informations reprises dans le recueil de formules et tables.
Tout comme le r point bisérial, le r bisérial est une estimation du coefficient r de B-P; mais il
tient compte de l’endroit de la coupure utilisée pour dichotomiser, ce qui explique la présence
de Yx dans les formules. Dans la formule du r bisérial, on multiple en effet le r point bisérial
par:
Si l’on souhaite le résultat pour un test à deux issues, il faudra doubler la valeur d’α.
Le coefficient ø (phi) permet d’estimer la force de la relation qui existe entre deux séries
appareillées de données dichotomiques. Le dispositif de départ se traduit dès lors par un
tableau de contingence à 4 cases:
I 0
I A B
0 C D
«La valeur maximale de phi et sa valeur minimale (en cas de corrélation négative) ne sont
pas nécessairement égales à +1 et à -1: les bornes de phi n’ont la valeur -1 et +1 que dans le
cas où les proportions marginales (p, q, p’ et q’) sont égales. Si ce n’est pas le cas, les bornes
ont des valeurs différentes de -1 et +1 et ne sont pas habituellement symétriques par rapport
à zéro.
Q est la somme marginale pour la même variable que P* mais pour l’autre valeur
(0 si P* est une somme marginale pour la valeur 1 et inversement)
P’ est la somme marginale pour la même valeur que P* mais pour l’autre variable
127
L’application de techniques inférentielles permettra de déterminer si la corrélation dans la
population est ou non égale à 0. Le traitement du plan se réalise sur base des informations
reprises dans le recueil de formules et tables.
La formule du χ2 reprise dans le recueil de formules et tables permet de calculer une valeur
dont l’interprétation se fait à l’aide de la table du χ2 (2 issues):
128
Si le ø dans la population est différent de 0 (RH0), alors on peut calculer une approximation
du r de B-P que l’on aurait obtenu si les données avaient été métriques (voir Recueil de
formules et tables).
Exemple 1:
Calculer le coefficient phi sur les données suivantes et donnez ses valeurs minimale et
maximale. Testez l’H0 ∅ ̅=0
129
130
Exemple 2:
Calculer le coefficient phi sur les données suivantes et donnez ses valeurs minimales et
maximales. Testez l’H0 ∅ ̅=0
131
8. Le coefficient phi bisérial (biserial phi-coefficient)
Ce coefficient permet d’estimer la force de la relation qui existe entre une série de données
dichotomisées et une série de données dichotomiques; ces deux séries de données sont
appareillées.
Exemple :
On cherche à évaluer s’il existe une relation entre le fait de réussir ou de rater un examen de
mathématique et le sexe des étudiants.
Son calcul se réalise sur base des informations reprises dans le recueil de formules et tables.
On remarque qu’il existe le même genre de relation entre le phi et le phi bisérial qu’entre le r
point bisérial et le r bisérial. Le phi bisérial tient compte de l’endroit de la coupure utilisée
pour dichotomiser. Dans la formule du phi bisérial, on multiple en effet le phi par:
132
Exemple :
133