FR Tanagra Afc
FR Tanagra Afc
FR Tanagra Afc
R.R.
Objectif
Mettre en uvre lanalyse factorielle des correspondances (AFC) avec TANAGRA. Lanalyse factorielle des correspondances (AFC) est une technique de visualisation trs populaire en analyse de donnes. Elle est adapte ltude des tableaux de contingence. Un des objectifs est de produire une reprsentation, dans un repre unique, des catgories en lignes et en colonnes du tableau afin de mettre en vidence leurs positions respectives, et les ventuelles attractionsrpulsions entre les caractristiques. A vrai dire, TANAGRA a t conu pour traiter exclusivement des tableaux individus variables. Lapprhension dun tableau de contingence pose problme. Linformaticien, que je suis, rencle face une adaptation qui ne peut tre que du bricolage. Mais lenseignant de data mining, que je suis galement, comprend que cette mthode, trs largement rpandue en analyse de donnes, ne peut pas tre ignore. Au final, un compromis a t trouv. Un tableau de contingence, dans TANAGRA, sera reprsent par un fichier de donnes o une des variables, catgorielle, correspond aux lignes du tableau, les colonnes tant associes une srie de variables continues. Lintersection de la ligne et de la colonne contient leffectif. Le type variable catgorielle (discrte) tant limit 255 modalits dans TANAGRA, il ne sera donc pas possible de traiter un tableau de contingence avec plus de 255 modalits. On peut raisonnablement considrer nanmoins que cette limitation nest pas excessivement pnalisante. Il ny pas de limitations en ce qui concerne le nombre de colonnes. Compte tenu de ce micmac plus ou moins heureux, il na pas t possible de mettre en place un dispositif grant les lignes ou les colonnes illustratives. Mais comme nous le verrons dans ce tutoriel, leur positionnement sur les axes factoriels peut tre trs facilement calcul laide dun tableur. Lassociation tableur-TANAGRA est dailleurs particulirement avantageuse dans ce type danalyse. De nombreux calculs peuvent tre dlgus au tableur. Il en est ainsi du calcul des profils lignes et colonnes. Enfin, si votre fichier se prsente sous la forme standard dun fichier individus-variables, et que vous vous voulez tudier le croisement entre deux variables catgorielles, le plus simple est de passer par loutil Tableaux croiss dynamiques dun tableur1 pour former le tableau de contingence. Puis, partir du tableur, lancer TANAGRA en veillant slectionner la plage correspondant au tableau de contingence, en incluant les tiquettes. Pour illustrer ce didacticiel, nous utilisons un exemple tir de louvrage de Lebart, Morineau et Piron, Statistique Exploratoire Multidimensionnelle , Dunod, 2000. Ses auteurs font preuve dune pdagogie remarquable. Ils nous permettent de suivre pas pas les formules, pourtant ardues, de lAFC. Cet ouvrage est galement lun des rares o lon peut trouver, aussi clairement, une formulation symtrique de la matrice diagonaliser (page 102), autrement plus facile manipuler avec les bibliothques de calcul usuelles. La partie relative lanalyse factorielle des correspondances correspond la section 1.3 (pages 67 107).
Fichier de donnes
Nous utilisons le fichier MEDIA_PROF_AFC.XLS tir de notre ouvrage de rfrence (Tableau 1.3-10, page 104). Lintrt de ce fichier est que nous pouvons comparer directement nos rsultats avec
Tableaux croiss dynamiques sous EXCEL. Sous OPEN OFFICE CALC, il faut utiliser le Pilote de Donnes .
21/12/06
Page 1 sur 10
R.R.
ceux du livre (pages 104 107). Nous nous contentons de montrer lenchanement des oprations et la lecture des tableaux de rsultats dans ce tutoriel. Pour ce qui des commentaires et de linterprtation, le mieux est de se rfrer louvrage. Le tableau de donnes est le suivant :
Prof Radio Agriculteur Petit.Patr. Prof.Cad.Sup Prof.Int. Employe Ouvr.Qualif. Ouvr.Non-Qual. Inactif Tel. 96 122 193 360 511 385 156 1474 118 136 184 365 593 457 185 1931 Quot.Nat. 2 11 74 63 57 42 8 181 Quot.Reg. 71 76 63 145 217 174 69 852 Press.Mag. 50 49 103 141 172 104 42 642 Press.TV 17 41 79 184 306 220 85 782
La premire colonne, en vert, correspond lidentifiant des lignes du tableau crois. Les colonnes sont en bleu. A lintersection dune ligne et dune colonne, nous lisons leffectif associ deux caractristiques ex. 96 agriculteurs coutent la radio. Notre tableau comporte 9 lignes et 6 colonnes.
Il faut bien entendu avoir rfrenc la macro-complmentaire (Add-In) TANAGRA dans EXCEL, voir le
didacticiel adquat sur le site web. La dmarche est galement valable avec le tableur CALC de OPEN OFFICE.
21/12/06
Page 2 sur 10
R.R.
Une bote de dialogue vient confirmer la slection en affichant les rfrences de la plage de cellules. Nous validons en cliquant sur OK.
TANAGRA est alors dmarr, nous vrifions que lensemble de donnes comprend bien 8 observations et 7 variables. Ce qui correspond un tableau de contingence avec 8 lignes et 6 colonnes, une des variables, discrte, tant rserve pour identifier les lignes.
AFC
Pour initier une analyse, nous devons tout dabord dfinir le rle des variables. Cest le rle du composant DEFINE STATUS accessible dans la barre doutil. Nous mettons en TARGET la variable discrte identifiant les lignes (PROF) ; en INPUT les variables continues, associes aux effectifs (RADIO PRESS.TV) dans les colonnes. Attention, il ne sagit pas de dfinir une analyse supervise ici. Cest un artifice qui permet de spcifier les lignes et les colonnes du tableau de contingence.
21/12/06
Page 3 sur 10
R.R.
Puis nous plaons le composant CORRESPONDANCE ANALYSIS (onglet FACTORIAL ANALYSIS) dans le diagramme de traitements. Nous cliquons sur le menu PARAMETERS. Nous spcifions alors le nombre daxes produire (3). Nous activons galement loption qui permet de calculer les contributions au CHI-2, nous dtaillerons son rle plus loin.
21/12/06
Page 4 sur 10
R.R.
Nous cliquons sur le menu contextuel VIEW pour accder aux rsultats. Attention, il y a bien deux onglets dans la fentre daffichage.
La TRACE indique la somme des valeurs propres, multipli leffectif total, il fournit au CHI-2 dcart lindpendance bien connu. Pour tester lhypothse dindpendance, nous utilisons la procdure usuelle, la p-value est affiche. Valeurs propres. Plus bas dans la fentre, nous pouvons lire le tableau des valeurs propres. Nous observons la valeur propre calcule, le pourcentage dinertie associ chaque axe et le pourcentage cumul qui permet de se donner une ide du nombre daxes retenir. Dans notre exemple, les deux premiers axes rsument 94.56% de linformation disponible (Tableau 1.3-11, page 104).
21/12/06
Page 5 sur 10
R.R.
Coordonnes factorielles, contributions et COS. Dans la troisime partie des rsultats, nous retrouvons les coordonnes factorielles de chaque modalit. Pour les lignes tout dabord (Tableau 1.3 10, page 104).
21/12/06
Page 6 sur 10
R.R.
Reprsentation graphique
Le pouvoir de sduction de lanalyse factorielle repose en grande partie sur les reprsentations graphiques quelle propose. Dans le cas de lAFC, nous disposons dune srie de plans factoriels, que nous interprtons laide des contributions. Elles permettent de situer les lignes (respectivement les colonnes) entre elles. Mais elles permettent galement, grce aux relations de transitions (page 85), de tracer simultanment les points lignes et les points colonnes dans le mme repre. Nous pouvons ainsi valuer en un coup dil les attractions et les rpulsions quil peut y avoir entre certaines lignes et colonnes du tableau. Pour accder aux graphiques, nous slectionnons longlet CHART dans la fentre de visualisation. Avec les botes listes situs en abscisse et en ordonnes, nous avons le choix du plan factoriel tudier.
Nous observons ici le premier plan factoriel (Figure 1.3 23, page 106). La lecture des quotidiens nationaux par les cadres suprieurs est linformation qui prdomine dans ce tableau, elle a tendance craser les autres enseignements que lon pourrait en tirer. Notons quil est possible de copier le graphique dans un traitement de texte. Il est galement possible de modifier la taille de la police des tiquettes des points et de zoomer sur certaines parties du graphique.
21/12/06
Page 7 sur 10
R.R.
Nous retrouvons bien la forte attraction entre la presse nationale et les cadres suprieurs, proccups par le destin de la nation. Elle capte 35% de linformation quapporte le tableau de contingence. Nous observons galement que les agriculteurs sont fchs avec la presse TV, etc.
21/12/06
Page 8 sur 10
R.R.
TANAGRA ne peut pas calculer directement les coordonnes de cette nouvelle observation. En revanche, nous avons en main tous les lments pour raliser les calculs. Calculons le profil associ cette observation :
Radio Sexe = Homme Profil ligne 1630 0.27 Tel. 1900 0.31 Quot.Nat. 285 0.05 Quot.Reg. Press.Mag. Press.TV 854 621 776 0.14 0.10 0.13
Nous utilisons le tableau des coordonnes factorielles des colonnes (cf. plus haut, pour rappel nous le recopions ici)
H1 =
0.0139 = 0.05
[0.27 0.015 + 0.31 0.053+ 0.05 0.541+ 0.14 0.109 + 0.1 0.095 + 0.13 0.01]
La valeur 0.0139 est la premire valeur propre, relative au premier axe. Nous obtenons ainsi le point (-0.05 ; -0.02) dans le premier plan factoriel (Tableau 1.3 12, page 105). La coordonne est assez proche de lorigine, les hommes ne se comportent pas de manire particulire par rapport laccs aux mdias. Prenons un second exemple, nous nous intressons maintenant aux personnes ayant suivi des tudes suprieures (Tableau 1.3 10, page 104). Voici son profil :
Radio Etud.Sup Profil ligne 619 0.28 Tel. 612 0.28 Quot.Nat. 177 0.08 Quot.Reg. Press.Mag. Press.TV 209 298 281 0.10 0.14 0.13
Toujours avec la mme dmarche, sa coordonne dans le premier plan factoriel est (-0.29 ; -0.02). On constate une certaine proximit avec les cadres suprieurs (-0.43 ; -0.06) concernant leur comportement face laccs aux mdias : on leur a appris sintresser aux grandes destines de la nation.
Conclusion
TANAGRA ne prtend pas fournir des outils de reporting et de dploiement la hauteur des logiciels commerciaux. Le module graphique reste assez fruste. En se contentant de proposer des rsultats standards, repris dans des ouvrages qui font rfrence, nous essayons de donner aux utilisateurs les principaux codes de lecture dune analyse factorielle.
21/12/06
Page 9 sur 10
R.R.
Pouvoir reprendre les rsultats dans un tableur est certainement une des fonctionnalits les plus intressantes du logiciel. En effet, il nous donne accs des outils (tri, mise en forme, etc.) dans un environnement bien connu des praticiens du traitement des donnes. Entre autres, la possibilit de projeter les individus supplmentaires, en effectuant des calculs trs simples sous un tableur, permet dtendre la porte de lanalyse.
21/12/06
Page 10 sur 10