Analyse Discriminante
Analyse Discriminante
Analyse Discriminante
Propos de ce document ....................................................................... 1 Introduction ........................................................................................ 1 La dmarche suivre sous SPSS ............................................................. 2 1. Statistics .................................................................................... 2 2. Classify ...................................................................................... 2 Analyse des rsultats ............................................................................ 3 1. Vrification de lexistence de diffrences entre les sous-groupes. ............ 3 2. Vrification de la validit de ltude. .................................................. 5 3. Estimation des coefficients de la fonction discriminante. ........................ 6 4. Qualit de la reprsentation. ............................................................ 6
Propos de ce document
Ce document a t cr dans le but daider toute personne qui dbute dans SPSS, logiciel tr puissant mais trs peu sympathique. Ce document se base sur la version 11.0 Base de SPSS, en version anglaise. La plupart des exemples sont issus des dictatiels du programme SPSS en lui-mme. Toutes les remarques, tant sur le fond que sur la forme, sont les bienvenues. Nhsitez pas me contacter ladresse suivante : <[email protected]> ou venir visiter mon site internet : http://www.lemoal.org/spss/ Merci.
Introduction
Le but de lanalyse discriminante est dtudier les relations entre une variable qualitative et un ensemble de variables explicatives quantitatives. Cest une mthode utilise notamment par les banques pour le scoring Trois objectifs principaux peuvent tre assigns lanalyse discriminante : Dterminer les variables explicatives les plus discriminantes vis vis des classes dtermines Dterminer quel groupe appartient un individu partir de ses caractristiques Mais surtout valider une classification ou faire un choix entre plusieurs classifications pour savoir laquelle est la plus pertinente . Lanalyse discriminante intervient donc a posteriori dune classification. Deux conditions sont remplir : Les variables explicatives doivent tre mtriques Elles ne doivent pas tre trop corrles entre elles. Cela se vrifie par lobservation des corrlations entre les variables. Si cest le cas, on peut passer par une analyse factorielle qui permet de rduire les donnes quelques axes. Ces axes sont, par proprit, non corrls entre eux.
Dans Grouping Variable (i.e. les critre de regroupement), il faut indiquer la variable expliquer en la slectionnant dans la partie de droite puis en cliquant sur la flche qui pointe vers la droite. SPSS demande alors de dfinir lintervalle, cest--dire les diffrentes modalits que la variable peut prendre. Dans Independents (i.e. les variables explicatives), il faut indiquer les variables mtriques que lon souhaite intgrer lanalyse. Il est important de choisir Use stepwise method (i.e. la mthode pas pas). Trois options soffrent alors nous : Statistics , Method et Classify . On ne touchera pas aux diffrentes options de Mthod
1. Statistics
La bote de dialogue Discriminant Analysis : Statistics apparat.
Dans la bote qui apparat, il convient de cocher Means (moyennes), Univariate ANOVAs (ANOVA 1 facteur) et Boxs M (Test de Box) dans Descriptives et Fischers ainsi que Unstandardized dans Function Coefficients .
2. Classify
La bote de dialogue Discriminant Analysis : Classification apparat.
Dans la bote qui apparat, il convient de cocher Summary Table (option qui permet laffichage de la matrice de confusion) et Leave-one-out classification dans Display .
Cette premire analyse permet de dterminer quelles sont les variables qui sont les plus discriminantes entre les groupes. Les moyennes et cart-types sobservent dans le tableau Group Statistics . Les variables Years with current employes , Years at current adress , Debt to income ration et Credit card debt dans lexemple ci-dessous semblent tre les variables les plus discriminantes.
Group Statistics Valid N (listwise) Unweighted Weighted 517 517,000 517 517,000 517 517 517 517 517 517 183 183 183 183 183 183 183 183 700 700 700 700 700 700 700 700 517,000 517,000 517,000 517,000 517,000 517,000 183,000 183,000 183,000 183,000 183,000 183,000 183,000 183,000 700,000 700,000 700,000 700,000 700,000 700,000 700,000 700,000
Previously defaulted No
Yes
Total
Age in years Level of education Years with current employer Years at current address Household income in thousands Debt to income ratio (x100) Credit card debt in thousands Other debt in thousands Age in years Level of education Years with current employer Years at current address Household income in thousands Debt to income ratio (x100) Credit card debt in thousands Other debt in thousands Age in years Level of education Years with current employer Years at current address Household income in thousands Debt to income ratio (x100) Credit card debt in thousands Other debt in thousands
Mean 35,5145 1,6596 9,5087 8,9458 47,1547 8,6793 1,2455 2,7734 33,0109 1,9016 5,2240 6,3934 41,2131 14,7279 2,4239 3,8628 34,8600 1,7229 8,3886 8,2786 45,6014 10,2606 1,5536 3,0582
Std. Deviation 7,70774 ,90443 6,66374 7,00062 34,22015 5,61520 1,42231 2,81394 8,51759 ,97279 5,54295 5,92521 43,11553 7,90280 3,23252 4,26368 7,99734 ,92821 6,65804 6,82488 36,81423 6,82723 2,11720 3,28755
Le test du F et du Lambda de Wilks sobserve dans le tableau Tests of Equality of Group Means . Lexamen du F dans notre exemple nous confirme que ce sont bien les variables Years at current address , Credit card debt in thousands , Years with current employer , et Debt to income ratio (x100) qui sont les plus discriminantes. De plus, daprs le test du Lambda de Wilks, seule la variable Debt to income ratio (x100) semble avoir une influence.
Tests of Equality of Group Means Wilks' Lambda ,981 ,987 ,920 ,973 ,995 ,848 ,940 ,979 F 13,482 9,301 60,759 19,402 3,533 124,889 44,472 15,142 df1 1 1 1 1 1 1 1 1 df2 698 698 698 698 698 698 698 698 Sig. ,000 ,002 ,000 ,000 ,061 ,000 ,000 ,000
Age in years Level of education Years with current employer Years at current address Household income in thousands Debt to income ratio (x100) Credit card debt in thousands Other debt in thousands
Le M doit tre le plus lev possible. La significativit du test de F doit tendre vers 0. Sil est suprieur 0,05, lanalyse nest pas valide. La corrlation globale se mesure quant elle se retrouve dans le tableau Eigenvalues (Valeurs propres).
Eigenvalues Function 1 Eigenvalue % of Variance ,395a 100,0 Cumulative % 100,0 Canonical Correlation ,532
On observe notamment la colonne Canonical Correlation (Corrlation Canonique). Plus elle est proche de 1, meilleur est le modle. Le Lambda de Wilks sobserve quant lui dans le tableau Wilks Lambda .
Wilks' Lambda Test of Function(s) 1 Wilks' Lambda ,717 Chi-square 231,524 df 4 Sig. ,000
Plus la valeur du Lambda de Wilks (deuxime colonne) est faible, plus le modle est bon. On observe galement sa significativit : plus elle est tend vers 0, meileur, plus le modle est bon.
Ce tableau permet dobtenir la fonction discriminante. Dans notre exemple, la fonction est gale : 0,058 0,12*(Years with current employer) 0,037*(Years at current adress) + 0,075*(Debet to income ratio) + 0,312*(Credit card ddebt in thousands)
4. Qualit de la reprsentation.
on observe la qualit de la reprsentation : on sassure que la fonction discriminante classifie bien les individus en sous-groupes. Pour cela, on analyse la matrice de confusion qui regroupe les individus bien classs et les mal classs : Groupes prvus (ou thoriques) Groupe 1 Groupe 1 Groupe 2 Total 22 4 26 Groupe 2 4 18 22 Total 26 22 48
Ainsi, dans notre exemple, 22 lments du groupe 1 ont t bien reclasss grce la fonction discriminante et 4 lont mal t. De mme, pour le groupe 2, 4 individus ont t mal reclasss et 18 bien reclasss. Au total, cest donc 40 individus (22 + 18) qui ont t correctement reclasss soit 83% de russite (40 / 48 = 83%). Sous SPSS, la matrice de confusion sobserve dans le tableau Classification Results .
Original
Count
Cross-validated a
Count %
Previously defaulted No Yes Ungrouped cases No Yes Ungrouped cases No Yes No Yes
Predicted Group Membership No Yes 391 126 42 141 96 54 75,6 24,4 23,0 77,0 64,0 36,0 391 126 43 140 75,6 24,4 23,5 76,5
Total 517 183 150 100,0 100,0 100,0 517 183 100,0 100,0
a. Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all cases other than that case. b. 76,0% of original grouped cases correctly classified. c. 75,9% of cross-validated grouped cases correctly classified.
La note (b.) nous indique le pouvoir de reclassement de la fonction discriminante, ici 76,0%. On peut retrouver ce chiffre en additionnant les observations bien reclasses (ici 398 et 138 soit un total de 536) et en les divisant par le nombre total dobservations classes (dans le cas prsent 700 soit 517 + 183) Il existe une dernire tape qui consiste observer les mal-classs et savoir si cest d un atypisme ou une dfaillance de la fonction discriminante. Sil sagit dun atypisme, il convient de les enlever et de recommencer ltude.