Analyse factorielle des correspondances
Pr. HAMDACHE
Domaines d’applications
Très tôt cette analyse a été utilisée en pratique car elle est conçue pour les
tableaux de contingence et permet ainsi l'étude des liaisons (dites aussi
correspondances) existant entre deux variables nominales.
L'AFC conçue pour les tableaux de contingence (i.e. fréquences), peut être
appliquée aux tableaux de mesures homogènes (i.e. même système
d'unités), aux tableaux de notes, de rangs, de préférences, aux tableaux à
valeurs logiques (0 ou 1), et encore aux tableaux issus de questionnaires
d'enquêtes.
Définition
Un tableau de contingence est un tableau d'effectifs obtenus en croisant
les modalités de deux variables qualitatives définies sur une même
population de n individus.
L'AFC peut également être étendue aux variables quantitatives homogènes
en définissant simplement quelques modalités pour ces variables. Par
extension, elle s'applique aussi aux tableaux individus-variables pour des
variables quantitatives homogènes, dans ce cas les individus sont
considérés comme des variables.
Objectifs
Application
Prenons l'exemple simple de la répartition de 592 femmes selon les
couleurs des yeux et des cheveux (exemple proposé par Cohen en 1980).
Le tableau de contingence donne le nombre de femmes possédant à la fois
une des quatre modalités de la couleur des cheveux et une des quatre
modalités de la couleur des yeux. Ainsi I = J = 4 et n = 592.
Le tableau des fréquences correspondant permet de ne plus tenir compte
du nombre de femmes total. Ainsi nous pouvons nous demander s'il y a
indépendance entre la couleur des yeux et celle des cheveux, ou encore
quelles sont les associations entre ces couleurs.
On a 11 femmes sur 100 ont à la fois les yeux marrons et les cheveux de
couleur brun.
Transformation des données
𝑓𝑖𝑗
Dans cet exemple représente la probabilité d'avoir les cheveux de
𝑓𝑖.
couleur j sachant que la couleur des yeux est i.
Nous avons donc par exemple 31 chances sur 100 que les femmes qui ont
les yeux marron aient les cheveux de couleur brun.
Nous avons donc par exemple 39 chances sur 100 que les femmes qui ont
les yeux bleus aient les cheveux de couleur châtain.
𝑓𝑖𝑗
Dans cet exemple représente la fréquence pour une femme d'avoir les
𝑓.𝑗
yeux d'une couleur i sachant qu'elle a les cheveux de couleur j.
On a donc 63 chances sur 100 que les femmes qui ont les cheveux de
couleur brun aient les yeux marron.
On a donc 74 chances sur 100 que les femmes qui ont les cheveux de
couleur blond aient les yeux bleus.
La ressemblance entre profils
**Distance du khi-deux
La ressemblance entre deux lignes ou entre deux colonnes est définie par
une distance entre profils. La distance employée est celle du chi-deux et elle
est définie de façon symétrique pour les lignes et les colonnes.
Ainsi entre deux lignes i et i’ elle est donnée par :
Ainsi entre deux colonnes j et j’ elle est donnée par :
**Distance euclidienne
Pourquoi utiliser cette métrique plutôt que la métrique euclidienne ?
Deux raisons fortes peuvent être avancées :
--Avec la métrique du khi-deux, la distance entre deux lignes ne dépend pas
des poids respectifs des colonnes.
--La métrique du khi-deux possède la propriété d'équivalence
distributionnelle : si on regroupe deux modalités lignes, les distances entre
les profils-colonne, ou entre les autres profils-lignes restent inchangées.
Taux de liaison et khi-deux
**Signification pratique du taux de liaison:
Le nombre de femmes qui ont à la fois une couleur de cheveux ‘brun’ et une
couleur des yeux ‘marron’ est 63% plus élevé que le nombre théorique que
l'on observerait si les deux variables étaient indépendantes. Au contraire, le
nombre de femmes qui ont à la fois une couleur de cheveux ‘blond’ et une
couleur des yeux ‘marron’ est 86% moins élevé que le nombre théorique.
Par construction, les valeurs prises par le taux de liaison sont :
-- des nombres positifs quelconques (un nombre observé peut être 200%
ou 300% supérieur au nombre théorique)
-- des nombres négatifs compris entre -1 et 0 (le "déficit" le plus extrême
d'un nombre observé est d'être 100% moins élevé que le nombre
théorique).
Ecart à l’indépendance et inertie
Plus les données s’écartent de l’indépendance et plus les profils s’écartent
de l’origine :