Touat, Dyhia

RÉPUBLIQUE ALGÉRIENNE DÉMOCRATIQUE ET POPULAIRE
MINISTÈRE DE L’ENSEIGNEMENT SUPÉRIEUR ET DE LA RECHERCHE SCIENTIFIQUE
UNIVERSITÉ MOULOUD MAMMERI

TIZI-OUZOU
FACULTÉ DES SCIENCES
MÉMOIRE
Présenté par
M elle . TOUAT Dyhia
Pour l’obtention du diplôme de
Master en Mathématiques
Option : Probabilités-Statistique.
Sujet
Analyse discriminante
Soutenu publiquement le 01 Octobre 2019
Devant le jury composé de
M r . Youcef BERKOUN Professeur UMMTO Président

M r . Mohamed MAMOU MAA UMMTO Encadreur
M me . Karima BOUALAM MCB UMMTO Examinateur
Remerciements
En premier lieu, je remercie Dieu tout puissant de m’avoir accordée la puissance

et la volonté pour achever ce travail.
Je tiens à exprimer toute ma reconnaissance à mon directeur de mémoire, Monsieur

MAMOU Mohamed. Je le remercie de m’avoir encadrée, orientée, aidée et conseillée.
Je tiens à remercier très vivement Madame KROUCHI qui a accepté de me four-

nir un jeu de données très intéressant ainsi que pour son aide et sa contribution à
l’aboutissement de ce projet.
J’adresse mes sincères remerciements à toute l’équipe pédagogique du département

mathématiques, spécialité probabilités-statistique. Je souhaite particulièrement re-
mercier Monsieur FELLAG Hocine pour son aide dans l’utilisation du logiciel Latex.
Mes vifs remerciements vont également aux membres du jury pour l’intérêt qu’ils
ont porté à mon mémoire en acceptant d’examiner mon travail.
Je désire aussi remercier mes très chers parents, Belkacem et Zahia, qui ont tou-
jours été là pour moi. Je remercie ma sœur Fatma et mes fréres Mohand Said et
Hakim pour leurs encouragements.
Enfin je remercie mes amis Sabrina, Fatima, Massiva, Lynda, Mohamed Samir,
Hassane et Asma qui ont toujours été là pour moi. Leur soutien inconditionnel et
leurs encouragements m’ont été d’une grande aide.
2
Dédicaces
Je dédie cette thèse à :
A ma très chère mère Zahia qui m’a comblée avec sa tendresse et affection tout au
long de mon parcours. Elle n’a cessé de me soutenir et de m’encourager durant toutes
les années de mes études, elle a toujours été présente à mes cotés pour me consoler
quand il fallait. Qu’elle trouve ici le témoignage de ma profonde reconnaissance.
A mon très cher père Belkacem : Rien au monde ne vaut les efforts fournis jour
et nuit pour mon éducation et mon bien être. Ta patience, ta compréhension et ton
encouragement sont pour moi le soutien indispensable que tu as toujours su m’ap-
porter. Que Dieu le tout puissant te préserve, t’accorde santé, bonheur et te protège
de tout mal.
A ma très chère sœur Fatma : En témoignage de l’attachement, de l’amour et de

l’affection que je porte pour toi. Je te dédie ce travail avec tous mes vœux de bonheur,
de santé et de réussite.
Mon cher frère Mohand Said qui m’est le meilleur ami, les mots ne suffisent guère
pour exprimer l’attachement, l’amour et l’affection que je porte pour toi. Je te sou-
haite un avenir plein de joie, de bonheur et de réussite.
A mon cher petit frère Hakim pour toute l’ambiance dont tu m’as entouré, pour
toute la spontanéité et ton élan chaleureux. Je te dédie ce travail. Puisse Dieu le tout
puissant exhausser tous tes vœux.
A mon frère Ahsen et mes cousines : Sabrina, Sonia, les deux Sylia et Belinda. En
témoignage de l’attachement, de l’amour et de l’affection que je porte pour vous. Je
vous dédie ce travail avec tous mes vœux de bonheur, de santé et de réussite.
A la mémoire de mes grands parents maternels qui ont été toujours dans mon esprit
3
et dans mon cœur, je vous dédie aujourd’hui ma réussite. Que Dieu, le miséricordieux,
vous accueille dans son éternel paradis.
A mes amis : Sabrina, Fatima, Massiva, Lynda, Mohamed Samir, Hassane et

Asma. En témoignage de l’amitié qui nous uni et des souvenirs de tous les moments
que nous avons passé ensemble, je vous dédie ce travail et je vous souhaite une vie
pleine de santé et de bonheur.
A tous mes enseignants : J’ai eu le privilège de travailler parmi votre équipe et

d’apprécier vos qualités et vos valeurs. Votre sérieux, votre compétence et votre sens
du devoir m’ont énormément marqués. Veuillez trouver ici l’expression de ma respec-
tueuse considération et ma profonde admiration pour toutes vos qualités scientifiques
et humaines. Je vous dédie ce travail avec tous mes vœux de bonheur.
4
Table des matières
Table des matières 4
Introduction générale 9
1 Analyse des données 10

1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2 Un peu d’histoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4 Domaines d’application . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5 Analyse en Composantes Principales (ACP) . . . . . . . . . . . . . . 13
1.5.1 Tableau de données et espaces associés . . . . . . . . . . . . . 14
1.5.1.1 Le tableau de données . . . . . . . . . . . . . . . . . 14
1.5.2 Caractéristiques de la variable X j . . . . . . . . . . . . . . . . 15
1.5.3 Poids et centre de gravité . . . . . . . . . . . . . . . . . . . . 16
1.5.4 La transformation des données . . . . . . . . . . . . . . . . . . 16
1.5.5 Matrice de variance-covariance et matrice de corrélation . . . 17
1.5.6 L’analyse des nuages . . . . . . . . . . . . . . . . . . . . . . . 18
1.5.6.1 Analyse du nuage des points individus dans Rp . . . 18
1.5.6.2 Analyse du nuage des points variables dans Rn . . . 19
1.5.6.3 Inertie totale du nuage des individus . . . . . . . . . 19
1.5.7 L’ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.5.7.1 Ajustement du nuage des individus . . . . . . . . . . 20
1.5.7.2 Ajustement du nuage des variables . . . . . . . . . . 27
5
TABLE DES MATIÈRES
1.5.8 Individus et variables supplémentaires . . . . . . . . . . . . . 31

1.5.9 ACP et variables qualitatives . . . . . . . . . . . . . . . . . . 32
1.5.10 Interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.5.11 Limites de l’ACP . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.6 Analyse Factorielle des Correspondances (AFC) . . . . . . . . . . . . 34
1.6.1 Tableau de contingence, marges et profils . . . . . . . . . . . . 34
1.6.2 Liaison entre deux variables qualitatives . . . . . . . . . . . . 36
1.6.3 Métriques du Chi2 . . . . . . . . . . . . . . . . . . . . . . . . 38
1.6.4 Analyse en composantes principales des deux nuages des profils 40
1.6.4.1 Interprétation des valeurs propres . . . . . . . . . . . 41
1.6.4.2 Interprétation des plans de projection en AFC . . . . 42
1.6.4.3 Représentation simultanée (Biplot) . . . . . . . . . . 42
1.6.4.4 Eléments supplémentaires . . . . . . . . . . . . . . . 44
1.7 Analyse des Correspondances Multiples (ACM) . . . . . . . . . . . . 44
1.7.1 Tableau de départ (Tableau de codage condensé) . . . . . . . 45
1.7.2 Tableau disjonctif complet . . . . . . . . . . . . . . . . . . . . 45
1.7.3 L’AFC du tableau disjonctif complet . . . . . . . . . . . . . . 47
1.7.3.1 Inertie totale . . . . . . . . . . . . . . . . . . . . . . 49
1.7.3.2 ACP des nuages des points lignes et des points colonnes 50
1.7.3.3 Formules de transition et relations barycentriques . . 51
1.7.3.4 Biplot . . . . . . . . . . . . . . . . . . . . . . . . . . 51
1.7.3.5 Interprétation . . . . . . . . . . . . . . . . . . . . . . 53
1.7.3.6 Aides à l’interprétation . . . . . . . . . . . . . . . . . 53
2 Analyse discriminante 55
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.2 Données et notations . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.3 L’AD descriptive et l’AD prédictive . . . . . . . . . . . . . . . . . . . 58
2.4 Principe de l’analyse discriminante . . . . . . . . . . . . . . . . . . . 59
2.4.1 La discrimination . . . . . . . . . . . . . . . . . . . . . . . . . 59
6
TABLE DES MATIÈRES
2.4.1.1 Formule de décomposition de Huygens . . . . . . . . 59

2.4.1.2 Analyse factorielle discriminante . . . . . . . . . . . 59
2.4.1.3 Cas particulier de deux groupes - Equivalence entre
régression multiple et analyse discriminante . . . . . 67
2.4.2 Règle d’affectation d’un nouvel individu à l’un des K groupes . 71
2.4.2.1 Règles géométriques . . . . . . . . . . . . . . . . . . 71
2.4.2.2 Insuffisance des règles géométriques . . . . . . . . . . 73
2.4.2.3 Analyse discriminante probabiliste . . . . . . . . . . 73
2.4.3 Tests et sélection de variables discriminantes . . . . . . . . . . 79
2.4.3.1 Quelques rappels sur les tests de normalité . . . . . . 79
2.4.3.2 Homoscédasticité et test de Box . . . . . . . . . . . . 81
2.4.3.3 Test de Wilks . . . . . . . . . . . . . . . . . . . . . . 81
2.4.3.4 Evaluation individuelle des variables prédictives -
Sélection de variables pas à pas . . . . . . . . . . . . 82
2.4.4 Validation d’une règle d’affectation . . . . . . . . . . . . . . . 83
2.4.4.1 Méthode de resubstitution . . . . . . . . . . . . . . . 83
2.4.4.2 Méthode de l’échantillon-test . . . . . . . . . . . . . 84
3 Application 86
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.2 Les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.3 Nuages de points et corrélation . . . . . . . . . . . . . . . . . . . . . 88
3.4 Méthode échantillon-test . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.4.1 Echantillon d’apprentissage . . . . . . . . . . . . . . . . . . . 89
3.4.2 Echantillon test . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.5 L’analyse linéaire discriminante . . . . . . . . . . . . . . . . . . . . . 90
3.6 Qualité de représentation sur les axes discriminants . . . . . . . . . . 91
3.7 Représentation simultanée . . . . . . . . . . . . . . . . . . . . . . . . 102
3.8 Matrice de confusion- échantillon d’apprentissage . . . . . . . . . . . 103
3.9 Matrice de confusion- échantillon test . . . . . . . . . . . . . . . . . . 104
7
Table des matières
3.10 Test de Wilks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
Conclusion 106
Références bibliographiques 107
8
Introduction générale
En statistique, les analyses multivariées ont pour caractéristique de s’intéresser

à des lois de probabilité à plusieurs variables. Elles sont diverses selon l’objectif re-
cherché, la nature des variables et la mise en œuvre formelle. On peut identifier
deux grandes familles : celle des méthodes descriptives visant à structurer et résumer
l’information (ACP, AFC, ACM, etc...) et celle des méthodes explicatives visant à ex-
pliquer une ou des variables dites variables à expliquer par un ensemble de variables
dites variables explicatives (Analyse de régression, ANOVA, Analyse canonique des
corrélations, ...etc).
Le premier chapitre est consacré aux trois méthodes les plus courantes en statistique
descriptive multidimensionnelle : l’ACP, l’AFC et l’ACM.
Sous le nom d’analyse discriminante, on distingue toute une série de méthodes ex-
plicatives, descriptives et surtout prédictives destinées à étudier une population de
n individus comportant K classes. Chaque individu est caractérisé par un ensemble
de p variables quantitatives et une variable qualitative identifiant la classe à laquelle
appartient cet individu. Cette analyse est l’objet du second chapitre.
Le troisième chapitre est réservé à l’application de l’analyse discriminante sous R sur
des données réelles.
9
Chapitre 1
Analyse des données
1.1 Introduction
L’objet de ce chapitre est de donner quelques outils couramment employés en sta-
tistique pour traiter des données multidimensionnelles. Ces données correspondent
souvent à l’observation de nombreuses variables aléatoires sur plusieurs individus.
Elles sont représentées sous forme d’un tableau où chaque ligne représente les va-
riables mesurées sur un individu. Le but est d’extraire le maximum d’informations
de ce tableau de données. Les méthodes factorielles cherchent à réduire le nombre
de variables en les résumant par un petit nombre de composantes synthétiques et
selon que l’on travaille avec un tableau de variables qualitatives ou quantitatives,
on utilisera l’analyse en composante principale (variables quantitatives) ou factorielle
de correspondance (voire multiples) (variables qualitatives). Par conséquent le choix
d’une méthode statistique dépendra de la nature des variables.
1.2 Un peu d’histoire

Les méthodes d’analyse de données ont commencé à être développées dans
les années 50 poussées par le développement de l’informatique et du stockage des
données qui depuis n’a cessé de croı̂tre. L’analyse de données a surtout été développée
en France par le mathématicien J.P. Benzécri ([12]).
10
CHAPITRE 1. Analyse des données
En ce qui concerne l’analyse factorielle, il faut remonter aux travaux du psy-

chologue anglais Ch.Spearman (1904) qui introduit pour la première fois le concept
de facteur ; il cherche, derrière les notes obtenues par de nombreux sujets à de
nombreux tests, une variable explicative cachée : le facteur général d’aptitude.([9])
Puis, l’analyse factorielle en composantes principales, développée par le statis-

ticien et économiste américain H.Hotelling (1933) mais dont on peut faire remonter le
principe au mathématicien britannique K.Pearson (1901) : les individus colonnes du
tableau à analyser étant considérés comme des vecteurs d’un espace à p dimensions ;
on proposait de réduire la dimension de l’espace en projetant le nuage des points
individus sur le sous-espace de dimension k (k petit fixé) permettant d’ajuster au
mieux le nuage.([4])
L’analyse factorielle des correspondances, introduite par J.P Benzécri (1962),

fait l’objet d’un véritable phénomène de mode chez les statisticiens. Elle fournit,
sans hypothèses a priori des représentations simplifiées dans un certain sens à
l’interprétation. Laissons sur ce point la parole au professeur J.P Benzécri : l’analyse
des correspondances telle qu’on la pratique en 1977 ne se borne pas à extraire
des facteurs de tout tableau de nombres positifs. Elle aide à critiquer la validité
des résultats, principalement par des calculs de contribution ; fournit des procédés
efficaces de discrimination et de régression ; se conjugue harmonieusement avec la
classification automatique ([6]).
Enfin, signalons l’analyse factorielle discriminante ou analyse discriminante initiée

par le biologiste et statisticien britannique Fisher en 1936 qui permet de décrire la
liaison entre une variable qualitative et un ensemble de variables quantitatives. Enfin
l’analyse canonique introduite par Hotelling en 1936 et dont l’objectif initial était
d’exprimer au mieux à l’aide d’un petit nombre de couples de variables la liaison
entre deux ensembles de caractères quantitatifs, dépendant d’un même corps de
résultats mathématiques.
11
1.3 Objectifs
L’analyse des données est un ensemble de techniques permettant d’étudier la
structure, éventuellement compliquée, d’un tableau de nombres à plusieurs dimen-
sions et de la traduire par une structure plus simple et qui la résume au mieux. Cette
structure peut le plus souvent, être représentée graphiquement.([5])
Ces techniques doivent donc permettre de représenter synthétiquement de vastes

ensembles numériques pour faciliter au statisticien la prise de décisions. Les méthodes
d’analyse de données se proposent également de traiter des données qualitatives,
ce qui en fait des méthodes capables de considérer un grand nombre de problèmes.
Comme il est difficile de visualiser des points dans des espaces de dimensions
supérieures à trois, nous chercherons à représenter graphiquement ces points dans
des plans.
L’analyse des données ne se limite pas à une représentation des données, ou

du moins à la rendre plus aisée, elle cherche les ressemblances entre les individus
et les liaisons entre les variables. Ces proximités entre individus et variables vont
permettre à l’opérateur de déterminer une typologie des individus et des variables
et ainsi, il pourra interpréter ses données et fournir une synthèse des résultats des
analyses.([12])
1.4 Domaines d’application

Les méthodes d’analyse de données sont employées dans un grand nombre de do-
maines.
Par exemple, l’analyse factorielle des correspondances est souvent utilisée en sciences
humaines, pour cerner les résultats des enquêtes d’opinion. (On désigne par une
enquête d’opinion, appelée aussi sondage d’opinion, toute application de la technique
des sondages à une population humaine visant à déterminer les opinions probables
des individus la composant, à partir de l’étude d’un échantillon de cette population).
12
Elle est aussi utilisée en sociologie pour analyser les réponses à un questionnaire.
En médecine, par exemple, pour détecter les groupes à haut risque cardiaque à partir
de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents
familiaux etc..., on fait appel à l’analyse discriminante.
L’analyse en composantes principales est très applicable en biologie, la recherche
économique et sociale et plus récemment en traitement d’images.
Ces méthodes sont aussi beaucoup utilisées en marketing, en informatique, dans le
domaine bancaire etc....
En fait, tout domaine scientifique qui doit gérer de grandes quantités de données de
type varié ont recours à ces approches ainsi que tout domaine industriel.
1.5 Analyse en Composantes Principales (ACP)

L’analyse en composantes principales est une technique de représentation
des données, ayant un caractère optimal selon certains critères algébriques et
géométriques spécifiés et que l’on utilise en général sans référence à des hypothèses
de nature statistique ou à un modèle particulier.([3])
L’ACP est une des premières analyses factorielles qui constituent la plupart
des analyses de données. Elle présente plusieurs variantes. On n’en décrira ici que
deux :
– L’ACP centrée :
L’ACP centrée est celle où on centre les variables.
– L’ACP normée :
L’ACP normée est celle où on centre et réduit les variables : on opère une
transformation linéaire sur chaque variable ramenant sa moyenne à zéro et sa
variance à l’unité.
13
Remarque
On recommande l’ACP seulement centrée lorsque les variables sont homogènes (i.e.
même système d’unités) et on recommande l’ACP normée lorsque les variables sont
hétérogènes (i.e. dans le cas contraire).
1.5.1 Tableau de données et espaces associés
Les données se présentent généralement sous la forme d’un tableau rectangulaire

de mesures numériques continues, à n lignes correspondant à des individus ou unités
statistiques et à p colonnes représentant les variables appelées aussi caractères ou
caractéristiques.
L’analyse factorielle consiste à faire la recherche des axes factoriels (ou axes
principaux) des deux nuages. On cherche donc à ajuster le nuage des n points par un
sous-espace vectoriel de Rp et le nuage des p points par un sous-espace vectoriel de
Rn .
1.5.1.1 Le tableau de données
On note X la matrice de dimension (n,p) contenant les observations :
 
x11 . . . xp1
 . . .. 
 .. .. . 
 
 j p

X= 1
 xi xi xi


 . . ..
 .. ..

 . 

x1n . . . xpn
où xji est la valeur de l’individu i pour la variable j que l’on notera X j et qui sera
identifiée au vecteur de n composantes (xj1 , ..., xjn )0 .
De même l’individu i sera identifié au vecteur Xi à p composante avec Xi =
(x1i , ..., xpi )0 .([13],[10])
14
1.5.2 Caractéristiques de la variable X j

– La moyenne :
Supposons que chaque individu i est muni d’un poids pi tel que : pi > 0, ∀i = 1, n
Pn
et pi = 1.
i=1
La moyenne de la variable X j est définie par :
n
X
xj = pi xji
i=1
– La variance :
La variance de la variable X j est définie par :
n
X
σj2 = var(X j ) = pi (xji − xj )2
i=1
exprime la moyenne des carrés des écarts à la moyenne. Elle est aussi égale à la
différence entre la moyenne des carrés et le carré de la moyenne.
La variance de X j peut donc s’écrire comme suit :
n
X
σj2 = pi xj2 j 2
i − (x )
i=1
Sa racine carrée définit l’écart type σj .
0
– La covariance entre deux variables X j et X j :
La covariance est une extension de la notion de variance, elle est définie par :
n
0
j0
X
j
cov(X , X ) = pi (xji − xj )(xji − xj 0 )
i=1
0
– Le coefficient de corrélation entre deux variables X j et X j :
Le quotient de la covariance entre deux variables aléatoires par le produit de
leurs écarts types s’appelle le coefficient de corrélation entre ces deux variables.
Il s’écrit comme suit :
0
j cov(X j , X j )
j0
r(X , X ) =
σj σj 0
0
Remarque : r(X j , X j ) prend ses valeurs entre -1 et 1.
15
La variable centrée et réduite :

On définit la variable centrée réduite ainsi :
xji − xj
Xij =
σj
où σj est l’écart type de X j .
1.5.3 Poids et centre de gravité
Si les données ont été recueillies à la suite d’un tirage aléatoire à probabilités égales,
les n individus ont tous la même importance dans les calculs des caractéristiques de
l’échantillon. On leurs affecte donc un poids pi = n1 .
n
P
Sinon on leurs affecte des poids pi / pi > 0, ∀i = 1, n et pi = 1.
i=1
Ces poids qui sont comparables à des fréquences peuvent être regroupés dans une
matrice diagonale de taille n :
 
p1

Dp =  ... 

 
pn
Dans le cas le plus usuel de poids égaux, Dp = n1 In .

Où In est la matrice d’identité d’ordre n.
– Remarque
Ces poids ne modifient en rien les principes de l’ACP, nous considérons donc
par la suite les cas où pi = n1 .
Le vecteur G des moyennes arithmétiques de chaque variable G = (x1 , ...xp )0 définit

le point moyen ou centre de gravité du nuage.
1.5.4 La transformation des données
Les données pour l’ACP sont généralement présentées sous la forme de la matrice
X vue précédemment.
16
Il existe plusieurs transformations utilisées. L’analyse centrée consiste à modifier

les données de la matrice X en remplaçant les valeurs des xji par xji − xj .
Le fait de centrer les données entraı̂ne que l’origine des axes est confondu avec le
centre de gravité G.
L’analyse centrée réduite ou encore normée est liée à la transformation des

xji −xj
données de la matrice X en remplaçant les valeurs des xji par σj
.
Réduire les données permet d’uniformiser les unités de mesures.
Le tableau Y tel que yij = xji − xj est le tableau centré associé à X.

xji −xj
Le tableau Z tel que zij = σj
est le tableau des données centrées et réduites associé
à X.
1.5.5 Matrice de variance-covariance et matrice de

corrélation
La matrice carrée V telle que V = Y 0 Dp Y (avec Y’est la transposée de Y) est ap-

pelée matrice de variance-covariance. Cette matrice permet de quantifier la variation
de chaque variable par rapport à chacune des autres.
 
var(X 1 ) . . . cov(X 1 , X p )
 .. .. .. 
V =  . . . 

cov(X p , X 1 ) ... var(X ) p
La matrice regroupant tous les coefficients de corrélation linéaire entre les p

variables prises deux à deux, notée R, est définie comme suit : R = Z 0 Dp Z.
 
1 . . . r(X 1 , X p )
 .. ... .. 
R=  . . 

r(X p , X 1 ) ... 1
Rappelons que : cov(X,Y)=cov(Y,X) et r(X,Y)=r(Y,X).

Les matrices V et R sont donc symétriques et semi-définies positives (diagonalisables
17
et de valeurs propres réelles positives ou nulles).

On peut donc former une base orthonormée de Rp avec les valeurs propres de V ou
R. Classons les valeurs propres suivant un ordre décroissant en notant λ1 la première
valeur propre et λp la dernière selon leur ordre de multiplicité.
Remarques
1. Les matrices V et R sont aussi appelées matrices d’inertie du nuage des points.
2. R = D01 V D 1 où D 1 désigne la matrice diagonale des inverses des écarts types.
σ σ σ
([2])
1.5.6 L’analyse des nuages
L’analyse en composantes principales est particulièrement adaptée aux variables

quantitatives, continues, a priori corrélées entre elles. Une fois les données pro-
jetées dans différents plans, les proximités entre variables s’interprètent en termes
de corrélations, tandis que les proximités entre individus s’interprètent en termes de
similitudes globales des valeurs observées.
1.5.6.1 Analyse du nuage des points individus dans Rp
Pour établir un bilan des ressemblances entre individus, nous cherchons à répondre
à des questions du type :
– Quels sont les individus qui se ressemblent ?
– Quels sont ceux qui sont différents ?
– Existe-t-il des groupes homogènes d’individus ?
– Est-il possible de mettre en évidence une typologie des individus ?
Définition 1.1. Deux individus se ressemblent, ou sont proches, s’ils possèdent des
valeurs proches pour l’ensemble des variables.
Cette définition sous entend une notion de proximité qui se traduit par une distance.
Ainsi, nous définissons la distance entre deux individus Xi et Xi0 par :
p
X
2
d (Xi , Xi0 ) = (xji − xji0 )2
j=1
18
La métrique utilisée ici est donc euclidienne mais, de manière plus générale, nous
pouvons définir cette distance par :
d2 (Xi , Xi0 ) = (xji − xji0 )0 M (xji − xji0 )
où M est une matrice symétrique définie positive de taille p.([12])
– Remarque ([16])
La distance utilisée par l’ACP dans l’espace où sont représentés les individus,
est la distance euclidienne classique.
Avec cette distance, toutes les variables jouent le même rôle et les axes définis
par les variables constituent une base orthogonale. On associe à cette distance
un produit scalaire entre deux vecteurs :
−−→ −−→
< OXi , OXi0 >= Xi0 Xi0
ainsi que la norme d’un vecteur :

−−→
k OXi k2 = Xi0 Xi
1.5.6.2 Analyse du nuage des points variables dans Rn
Il est essentiel de définir la liaison entre des variables en répondant à des questions
du type :
– Quelles sont les variables qui sont liées positivement entre elles ?
– Quelles sont celles qui s’opposent (i.e. liées négativement) ?
– Existe-t-il des groupes de variables corrélées entre elles ?
– Est-il possible de mettre en évidence une typologie des variables ?
Définition 1.2. Deux variables sont liées si elles ont un fort coeficient de corrélation
linéaire.
1.5.6.3 Inertie totale du nuage des individus
On note IG le moment d’inertie du nuage des individus par rapport au centre de

gravité G :
n p
1 XX j
IG = (x − xj )2
n i=1 j=1 i
19
Ce moment d’inertie total est intéressant car il mesure la dispersion du nuage des
individus par rapport à son centre de gravité. Si ce moment d’inertie est grand, cela
signifie que le nuage est très dispersé, tandis que s’il est petit, alors le nuage est très
concentré sur son centre de gravité.([16])
– Remarque
On peut voir, en inversant l’ordre des signes somme, que IG peut aussi s’écrire
sous la forme suivante :
p n p
X 1X j 2
X
IG = [ (xi − xj ) ] = var(X j )
j=1
n i=1 j=1
Sous cette forme, on constate que l’inertie totale est égale à la trace de la matrice
de variance-covariance V.
IG = trace(V )
1.5.7 L’ajustement
L’approche factorielle consiste donc à approcher ces nuages de points dans des
sous-espaces vectoriels permettant de fournir des images planes de ces nuages.
1.5.7.1 Ajustement du nuage des individus
Axes principaux et composantes principales
Définition 1.3. On appelle premier axe principal la direction de l’espace qui rend
maximum l’expression suivante :
In (a1 ) = a01 V a1
avec In (a1 ) est l’inertie expliquée par la direction a1 .
Le problème à résoudre est donc la recherche d’un optimum d’une fonction de plu-
sieurs variables liées par une contrainte || a1 ||= 1 (les inconnues sont les composantes
de a1 ). La méthode des multiplicateurs de Lagrange peut alors être utilisée.
Dans le cas de la recherche de a1 , il suffit de calculer les dérivées partielles de :
L(a1 ) = a01 V a1 − λ1 (a01 a1 − 1)
20
En utilisant la dérivée matricielle, on obtient :

∂L(a1 )
= 2V a1 − 2λ1 a1 = 0
∂(a1 )
Le système à résoudre est :


 V a − λ a = 0...(1)
1 1 1
0
 a a1 − 1 = 0...(2)
1
De l’équation matricielle (1) de ce système on déduit que a1 est un vecteur

propre de la matrice V associé à la valeur propre λ1 .
En multipliant à gauche par a01 les deux membres de l’équation (1) on obtient :
a01 V a1 − λ1 a01 a1 = 0
et en utilisant l’équation (2) on trouve que :
a01 V a1 = λ1
Le premier membre de l’équation précédente est égal à l’inertie In (a1 ) qui doit être
maximum. Cela signifie que la valeur propre λ1 est la plus grande valeur propre de
la matrice de covariance V et que cette valeur propre est égale à l’inertie portée par
l’axe a1 .([16])
On vient de démontrer le résultat suivant :
Proposition 1.1. Le premier axe principal est engendré par le vecteur propre normé
a1 correspondant à la plus grande valeur propre λ1 . L’inertie expliquée par cet axe est
égale à λ1 .
Le sous-espace à une dimension optimale au sens de l’inertie maximale est donc

l’axe engendré par a1 .
21
Cherchons maintenant à déterminer le sous-espace à deux dimensions s’ajus-

tant au mieux au nuage des individus.
Le sous-espace à deux dimensions qui s’ajuste au mieux au nuage des indivi-

dus contient a1 . En effet, par un raisonnement par l’absurde, si ce sous-espace ne
0 00
contient pas a1 , alors il est défini par deux vecteurs a et a différents de a1 . L’inertie
0 00
le long des deux droites portées par a et a est donc inférieure à celle de l’inertie
le long de la droite portée par a1 . Il existe donc un sous-espace de dimension deux
0 00
meilleur que celui défini par les deux vecteurs a et a . Nous montrons ainsi que le
sous-espace à deux dimensions qui ajuste au mieux le nuage des individus contient a1 .
Le sous-espace à deux dimensions est donc caractérisé par le vecteur a1 ortho-

gonal à a2 vérifiant :
– a02 V a2 est maximal.
– a02 a2 = 1 (contrainte de normalité).
– a02 a1 = 0 (contrainte d’orthogonalité).([12])
Par récurrence, le sous-espace à p dimensions s’ajustant au mieux au nuage des indi-

vidus contient les vecteurs a1 , ..., ap vérifiant :
– a0p V ap est maximal.
– a0p ap = 1 (contrainte de normalité).
– a0p aq = 0 pour tout q = {1, ..., p − 1} (contrainte d’orthogonalité).
Proposition 1.2. Une base orthonormée du sous-espace vectoriel de dimension q,

s’ajustant au mieux au nuage des individus dans Rn est constituée par les q vecteurs
propres (a1 , ..., aq ) correspondant aux q plus grandes valeurs propres de la matrice V.
L’inertie expliquée par ce sous-espace est égale à la somme des q premières valeurs
propres de V.
– Remarque
Le plan engendré par les vecteurs propres normés a1 et a2 est appelé le premier
plan principal, le plan engendré par les vecteurs propres normés a1 et a3 est
22
appelé le deuxième plan principal,...etc
On cherche des combinaisons linéaires des variables initiales, appelées facteurs ou

encore composantes principales.
Les composantes principales sont les variables artificielles, non corrélées et définies
par les axes principaux :
cj = Xaj
elles donnent les coordonnées des projections orthogonales des individus sur les axes
définis par les aj .
– Remarque
La variance d’une composante principale est égale à la valeur propre λ corres-
pondante : var(cj ) = λj . En effet, par définition on a a0j aj = 1 et donc
0
var(cj ) = cj Dp cj = a0j X 0 Dp Xaj = a0j V aj = a0j (λj aj ) = λj a0j aj = λj
Qualité des représentations sur les plans principaux

La contribution absolue de l’axe aj à l’inertie totale du nuage des individus est égale
à λj , la valeur propre qui lui est associée.
Sa contribution relative est égale à :
λj
λ1 + λ2 + ... + λp
On emploie souvent l’expression pourcentage ou taux d’inertie expliquée par l’axe
engendré par aj .
On peut étendre ces définitions à tous les sous-espaces engendrés par les p axes. Ainsi,
le pourcentage d’inertie expliqué par le plan engendré par les deux premiers axes a1
et a2 est égal à :
λ1 + λ2
λ1 + λ2 + ... + λp
Ces pourcentages d’inertie sont des indicateurs qui rendent compte de la part de
variabilité du nuage des individus expliquée par ces sous-espaces. Si les dernières
valeurs propres sont très faibles, on pourra négliger la variabilité qu’expliquent les
axes correspondants.([16])
23
– Remarque
On se contente souvent de faire des représentations du nuage des individus
dans un sous-espace engendré par les q premiers axes si ce sous-espace explique
un pourcentage d’inertie proche de 1. On peut ainsi réduire l’analyse à un
sous-espace de dimension q < p.
Nombre d’axes à retenir

Le nombre q d’axes principaux à retenir peut être choisi par les méthodes suivantes :
1. Règle de la part d’inertie : on se fixe un seuil correspondant au pourcentage
minimum d’inertie que l’on veut restituer et on retiendra le nombre q d’axes
nécessaires pour atteindre ce seuil, par exemple si on fixe un seuil de 80%, on
choisit q tel que :
λ1 + λ2 + ... + λq
≥ 80%
λ1 + λ2 + ... + λp
2. Critère du coude : sur le diagramme des valeurs propres, on observe un
décrochement (coude) suivi d’une décroissance régulière. On sélectionne les axes
avant le décrochement. Pour cela il suffit de porter sur un graphique en abs-
cisse, le numéro de l’axe principal, et en ordonnée, le pourcentage d’inertie qu’il
restitue (voir l’éboulis des valeurs propres suivant) :
3. Critère de Kaiser : on ne retient que les axes dont l’inertie In est supérieure à
In
l’inertie moyenne p
.
24
In
Dans le cas d’une ACP normée : p
= 1.
En effet, dans l’ACP normée : p = λ1 + λ2 + ... + λp = In . On ne retiendra donc
que les axes associés à des valeurs propre supérieures à 1.
Qualité de la représentation des individus

Lorsque des points projections des individus sont éloignés sur un axe (ou dans un
plan), on peut assurer que les points représentant ces individus sont éloignés dans
l’espace. En revanche, deux individus dont les projections sont proches sur un axe
(ou sur un plan) peuvent ne pas être proches dans l’espace.
Pour interpréter correctement la proximité des projections de deux individus sur
un plan, il faut donc s’assurer que ces individus sont bien représentés dans le plan.
Définissons alors quelques aides à l’interprétation :
a- Contribution relative d’un individu à un axe

Il est très utile de calculer pour chaque axe la contribution apportée par les divers
individus à cet axe. Considérons la jième composante cj ; soit cji la valeur de cette
composante pour le ième individu.
La contribution de l’individu Xi à l’axe engendré par aj est définie par :
pi (cji )2
CT Rj (Xi ) =
λj
On peut aussi définir une mesure de la contribution de l’individu Xi à l’inertie du
nuage des individus comme le rapport :
p
(cji )2
P
pi
j=1
CT R(Xi ) = p
P
λj
j=1
Ces contributions permettent de détecter les observations les plus influentes et

éventuellement aberrantes qui peuvent déterminer à eux seuls l’orientation des
axes et plus globalement l’ensemble des résultats de l’ACP. En effet : il n’est pas
souhaitable qu’un individu ait une contribution excessive car cela serait un facteur
d’instabilité, le fait de retirer cet individu modifie profondément le résultat de
25
l’analyse. Si ce cas se produisait il y aurait intérêt à effectuer l’analyse en éliminant

cet individu puis le réintroduire a posteriori comme élément supplémentaire (que
nous allons définir dans la suite).
– Remarque
Par construction on a : n
X
CT Rj (Xi ) = 1
i=1
et n
X
CT R(Xi ) = 1
i=1
b-Qualité de projection d’un individu sur un axe

La qualité de représentation de l’individu Xi sur l’axe engendré par aj est mesurée
par le cosinus carré de l’angle formé par Xi et l’axe engendré par aj :
(cji )2
CO2j (Xi ) = p
P j 2
(ci )
j=1
– Si CO2j (Xi ) est proche de 1, l’individu Xi est bien représenté sur l’axe engendré
par aj .
– Si CO2j (Xi ) est proche de 0, l’individu Xi est mal représenté sur l’axe engendré
par aj .
Remarque
Il est facile de voir que :
n
X
CO2j (Xi ) = 1
i=1
Par orthogonalité des axes principaux, la qualité de projection d’un individu sur un
plan principal est additive :
CO2j+j 0 (Xi ) = CO2j (Xi ) + CO2j 0 (Xi )
26
D’une façon plus générale : la qualité de projection d’un individu sur le sous-espace
de dimension q formé par les q premiers axes principaux peut être mesurer par la
quantité suivante :
q
X
QLTq (Xi ) = CO2j (Xi )
j=1
– Si QLTq (Xi ) > 90%, par exemple, l’individu Xi est bien représenté sur le
sous-espace à q dimension formé par les q premiers axes principaux.
Orientation des plans principaux

Chaque point individu Xi est un vecteur de Rp qu’on peut écrire sous la forme :
p
X
Xi = Xij ej
j=1
où ej est la base canonique de Rp .

Les axes engendrés par les ej , j = 1, p sont appelés les axes variables de départ.
Dans un plan principal, on peut faire apparaı̂tre les projections de ces p axes en
cherchant les coordonnés du vecteur ej dans le plan principal engendré par les vecteurs
propres normés aj et aj 0 , elles sont données par :
< ej , aj > et < ej , aj 0 >
La projection du point individu Xi sur le plan principal éloigné dans la direction de la

variable X j indique une valeur Xij au dessus de la moyenne, à condition que le point
Xi et sa projection soient assez voisins i.e. que la qualité de projection de l’individu
Xi sur le plan soit supérieur à 90%.
1.5.7.2 Ajustement du nuage des variables
De même que nous avons réalisé l’ajustement des points individus, nous pouvons
procéder à l’ajustement des points variables dans un espace de dimension réduit.
Mathématiquement, cela conduit à diagonaliser la matrice Γ = Y Dp Y 0 dans le cas
d’une ACP centrée ou Σ = ZDp Z 0 dans le cas d’une ACP normée.
Cet ajustement est appelé dual de l’ajustement du nuage des points individus.
27
Comme précédemment, on obtient la décomposition de l’inertie selon les direc-

tions définies par les vecteurs propres de la matrice Γ. L’inertie projetée sur chaque
direction est égale à la valeur propre associée.
La droite d’inertie maximale se trouve définie par le vecteur propre b1 , associé

à la plus grande valeur propre. Le plan d’inertie maximale s’obtient en ajoutant à
cette droite, la direction du vecteur propre b2 associé à la seconde valeur propre, et
ainsi de suite.
La représentation des variables sur un axe s’obtient par projection des points
variables sur le vecteur unitaire bj qui définit la direction de l’axe.
Soit F j la coordonnée de la variable X j sur l’axe bj . On aura :
F j = X 0 bj
– Remarque
Entre les axes principaux des deux nuages de points, il existe des relations qui
permettent, connaissant les directions dans un espace, d’obtenir les directions
dans l’autre espace. On les appelle relations de transition.
Proposition 1.3. Si aj est un vecteur propre normé de V associé à la valeur propre

non nulle λj , alors bj = √1 X 0 aj est un vecteur propre unitaire de Γ associé à la
λj
valeur propre λj .
Démonstration
Supposons que aj est un vecteur propre de V associé à la valeur propre non nulle λj ,
alors par définition d’un vecteur propre on a :
V a j = λ j aj
En remplaçant V par n1 X 0 X on aura :

1 0
X Xaj = λj aj
n
En multipliant à gauche par X les deux membres de l’équation ci-dessus on obtient :
1
X X 0 Xaj = Xλj aj
n
28
Du fait que le produit matricielle est associatif, on aura :
1
( XX 0 )Xaj = λj Xaj
n
Remplaçons n1 XX 0 par Γ :
ΓXaj = λj Xaj
D’où : Xaj est un vecteur propre de Γ associé à la valeur propre non nulle λj .
Mais Xaj n’est pas unitaire. On doit donc trouver un vecteur du type kXaj qui soit
unitaire, i.e. (kXaj )0 (kXaj ) = 1.
⇐⇒ k 2 (a0j X 0 Xaj ) = 1
⇐⇒ k 2 (a0j λj aj ) = 1 (aj vecteur propre de X 0 X)
⇐⇒ k 2 λj a0j aj = 1 (le produit matricielle est associatif)
⇐⇒ k 2 λj = 1 (a0j aj = 1)
⇐⇒ k 2 = 1
λj
⇐⇒ k = √1
λj
Donc √1 Xaj est un vecteur propre unitaire de Γ associé à la valeur propre λj .
λj
– Remarque
On vient de démontrer que les matrices V et Γ ont les mêmes valeurs propres
non nulles.
Dans la pratique, il suffit de réaliser un seul ajustement et à partir de celui-ci, on

obtient l’autre.
On réalise en général l’ajustement de plus faible coût, celui du nuage de points indi-
vidus si p < n (on diagonalise une matrice de dimension plus petite).
La projection des variables est calculée en fonction des axes principaux du nuage des
points individus :
p
F j = aj λj
La formule ci-dessus permettra ultérieurement d’interpréter la représentation simul-

tanée des individus et des variables (cette manière de représentation s’appelle biplot).
29
Remarques
1. Dans le cas d’une analyse normée, la coordonnée d’une variable X j sur l’axe aj
coı̈ncide avec la corrélation de cette variable avec l’axe aj :
F j = r(X j , aj )
Cette formule joue un rôle important pour l’interprétation des résultats. Elle
met en relation les représentations des points individus avec les représentations
des points variables.
Une corrélation élevée indique que la disposition des individus sur l’axe
principal est semblable à l’ordonnance des individus selon la variable (la
corrélation unité signifierait que la composante principale est fonction linéaire
de la variable). Une corrélation proche de zéro indique qu’il n’y a pas
d’association linéaire entre la composante principale et la variable.
2. En travaillant sur des données centrées réduites : pour un couple d’axes prin-
cipaux engendrés par a1 et a2 , par exemple, on synthétise usuellement les
corrélations sur une figure appelée cercle des corrélations (de rayon 1) où chaque
variable X j est repérée par un point d’abscisse r(X j , a1 ) et d’ordonnée r(X j , a2 )
(voir la figure suivante) :
30
0
3. Si deux variables X j et X j sont bien représentées sur le cercle des corrélations
(proches de l’axe et du bord du cercle) alors :
0
* La proximité des projections de X j et X j indique une forte corrélation linaire
entre ces deux variables.
0 0
* Si les projections des points X j et X j sont opposées, X j et X j sont corrélées
négativement.
0
* Des directions de X j et X j presque orthogonales indiquent une faible
corrélation entre ces variables.
4. On remarque, en visualisant la figure ci-dessous, que l’axe principal a1 est

très corrélé positivement avec les variables X 1 , X 2 et X 3 , anticorrélé (corrélé
négativement ) avec les variables X 4 et X 5 et non corrélé avec X 6 , X 7 et X 8 .
Par contre l’axe principal a2 oppose la variable X 8 aux variables X 6 et X 7 .
1.5.8 Individus et variables supplémentaires
Il arrive que l’on veuille faire apparaı̂tre dans les représentations graphiques
certains individus sans qu’ils interviennent dans la détermination des axes. Cela peut
être le cas de nouveaux individus que l’on veut simplement positionner par rapport
aux autres sans que les positions de ceux-ci soient influencées par les nouveaux. On
31
dit d’eux qu’ils sont des individus supplémentaires.
Il en est de même pour les variables. On peut, par exemple, vouloir représenter une
variable qui dépend de façon synthétique des p variables choisies pour faire l’ACP,
afin de mieux comprendre comment cette variable est liée aux anciennes, mais on ne
souhaite pas qu’elle intervienne dans la construction des axes car ses liaisons avec les
p variables de départ fausseraient la représentation si elle faisait partie intégrante de
l’ACP. Elles sont appelées variables supplémentaires.
Pour représenter un individu supplémentaire, il suffit d’exprimer les coordonnées

de cet individu dans la nouvelle base des axes principaux. Pour une variable
supplémentaire, il suffit de calculer ses coefficients de corrélation empiriques avec les
composantes principales.([16])
1.5.9 ACP et variables qualitatives
En ACP, il est fréquent que l’on veuille introduire des variables qualitatives
supplémentaires. Pour cela il suffit de ramener la variable qualitative ayant m
modalités à m groupes d’individus définis par la modalité de la variable. On traite
ensuite ces m groupes d’individus comme des individus supplémentaires. Ce sont les
centres de gravité de ces groupes d’individus qui vont être positionnés dans l’espace
Rp .
Remarques
– On peut représenter avec des symboles différents ces groupes d’individus définis
par chaque modalité.
– L’analyse d’une variable nominale supplémentaire ne se fait pas dans Rn mais
dans Rp .
1.5.10 Interprétation
Définissons quelques règles pour l’interprétation :
32
– Un individu sera du côté des variables pour lesquelles il a de fortes valeurs,

inversement il sera du côté opposé des variables pour lesquelles il a de faibles
valeurs.
– Plus les valeurs d’un individu sont fortes pour une variable plus il sera éloigné
de l’origine suivant l’axe principal décrivant le mieux cette variable.
– Deux individus à une même extrémité d’un axe (i.e. éloignés de l’origine) sont
proches (i.e. se ressemblent).
– Deux variables très corrélées positivement sont du même côté sur un axe.
– Il n’est pas possible d’interpréter la position d’un individu par rapport à une
seule variable et réciproquement, il n’est pas possible d’interpréter la position
d’une variable par rapport à un seul individu. Les interprétations doivent se
faire de manière globale.([12])
1.5.11 Limites de l’ACP
La principale faiblesse de l’ACP est la sensibilité aux points extrêmes (manque

de robustesse) qui est notamment lié au rôle central qu’y joue le coefficient de
corrélation : les points extrêmes, en perturbant les moyennes et corrélations,
faussent fortement l’analyse ; on peut cependant envisager de les déplacer en point
supplémentaire.
L’ACP est aussi inadaptée aux phénomènes non linéaires. Pour ce genre de problème,
d’autres méthodes ont été développées, comme l’ACPN (Analyse en Composantes
Principales par Noyau).
En résumé, on peut dire que l’ACP consiste à transformer les variables initiales
X j corrélées en de nouvelles variables, les composantes principales cj , combinaisons
linéaires des X j non corrélées entre elles, de variance maximale et les plus liées aux
X j : l’ACP est une méthode factorielle linéaire.
33
1.6 Analyse Factorielle des Correspondances

(AFC)
L’analyse factorielle des correspondances (ou analyse des correspondances
binaires) a été conçue pour l’étude des tableaux de contingence obtenus par croise-
ment de variables qualitatives. Cette analyse permet donc de traiter des variables
qualitatives et est surtout adaptée à ce type de variables. Comme l’ACP, l’AFC a
pour but de décrire sous forme graphique, le maximum d’information contenu dans
un tableau de données. Dans cette approche, les lignes et les colonnes ont un rôle
symétrique et s’interprètent de la même façon.
– Remarque
L’AFC peut également être étendue aux variables quantitatives homogènes (i.e.
même système d’unités), en définissant simplement quelques modalités pour ces
variables. Par extension, elle s’applique aussi aux tableaux individus-variables
pour des variables quantitatives homogènes, dans ce cas les individus sont
considérés comme des variables.
1.6.1 Tableau de contingence, marges et profils
On considère deux variables qualitatives observées simultanément sur k indi-

vidus. On suppose que la première variable, notée X, possède n modalités notées
x1 , ..., xi , ..., xn et que la seconde, notée Y, possède p modalités notées y1 , ..., yj , ..., yp .
On présente usuellement les données sous la forme d’un tableau croisé appelé tableau
de contingence (ou tableau de dépendance) à n lignes et p colonnes renfermant les
effectifs kij d’individus (voir le tableau suivant) :
34
X|Y y1 y2 .......... yj .......... yp

x1 k11 k12 k1p k1.
x2 k21 k22 k2p k2.
...
xi kij ki.
...
xn kn1 kn2 knp kn.
k.1 k.2 k.j k.n k
p
P n
P
Avec des notations standards on a : ki. = kij et k.j = kij , avec kij est le nombre
j=1 i=1
d’individus possédant à la fois la modalité i de la première variable et la modalité j
de la seconde variable. Nous avons donc :
n Xp
X
kij = k
i=1 j=1
Les ki. et les k.j s’appellent respectivement marges en lignes et marges en co-
lonnes.
Davantage que le tableau précédent, c’est le tableau des fréquences (ou des
probabilités) relatives suivant qui est considéré :
X|Y y1 y2 .......... yj .......... yp

x1 f11 f12 f1p f1.
x2 f21 f22 f2p f2.
...
xi fij fi.
...
xn fn1 fn2 fnp fn.
f.1 f.2 f.j f.n 1
Les fréquences fij sont données par :
kij
fij =
k
35
et les marges par :

p n
X X
fi. = fij et f.j = fij
j=1 i=1
Nous avons ainsi : n p p

n X
X X X
fi. = f.j = fij = 1
i=1 j=1 i=1 j=1
Définition 1.4. On appelle tableau des profils-lignes le tableau des frequences condi-
kij fij
tionnelles ki.
= fi.
(la somme de chaque ligne est ramenée à 100%) et tableau des
kij fij
profils-colonnes le tableau des fréquences conditionnelles k.j
= f.j
(le total de chaque
colonne est alors ramené à 100%).([13])
– Remarque
Pour analyser un tableau de contingence ce n’est pas le tableau brut qui est
intéressant mais les tableaux des profils lignes et des profils colonnes (i.e. les
répartitions en pourcentage à l’intérieur d’une ligne ou d’une colonne).
1.6.2 Liaison entre deux variables qualitatives
L’étude traditionnelle d’un tableau de contingence se concentre le plus souvent

sur la dépendance ou l’indépendance entre les deux caractères : X et Y.
Définition 1.5. Il y a indépendance entre les deux variables considérées si :
fij = fi. f.j , ∀i = 1, n et ∀j = 1, p
Nous dirons qu’il y a liaison entre ces deux variables ou que ces deux variables sont
liées si elles ne sont pas indépendantes.([12])
Ainsi nous pouvons dire que :

– Si fij est supérieur au produit des marges, les modalités i et j s’associent plus
que sous l’hypothèse d’indépendance. Nous dirons que les deux modalités i et j
s’attirent.
36
– Si fij est inférieur au produit des marges, les modalités i et j s’associent moins
que sous l’hypothèse d’indépendance. Nous dirons qu’il y a répulsion entre les
deux modalités i et j.
Remarque
Sous l’hypothèse d’indépendance nous avons :
– En considérant le tableau comme un ensemble de lignes :
fij
= f.j , ∀i = 1, n et ∀j = 1, p
fi.
– En considérant le tableau comme un ensemble de colonnes :
fij
= fi. , ∀i = 1, n et ∀j = 1, p
f.j
le terme f.j s’interprète comme le pourcentage de la population totale possédant la
fij
modalité j et le terme fi.
représente ce même pourcentage dans la sous-population
possédant la modalité i. Ainsi il y a indépendance lorsque les lignes du tableau de
fréquences sont proportionnelles.
Par symétrie il en est de même pour les colonnes.
On peut aussi parler d’indépendance entre X et Y si tous les profils lignes

sont identiques puisque la connaissance de X ne change pas les distributions
conditionnelles de Y. Il s’ensuit d’ailleurs que tous les profils colonnes sont également
identiques.
On doit donc avoir
k1j k2j knj
= = ..... = , ∀j = 1, p
k1. k2. kn.
ce qui entraı̂ne, par sommation des numérateurs et dénominateurs,
kij k.j
=
ki. k
L’indépendance empirique se traduit donc par :
ki. k.j
kij =
k
37
Test de Chi2
Comme en ACP, on s’intéresse alors aux directions de plus grande dispersion de
chacun des deux nuages de points, mais on utilise la distance du χ2 entre ces deux
variables (à la place de la distance euclidienne). Cette distance permet de comparer
l’effectif de chacune des cellules du tableau de contingence à la valeur qu’elle aurait
si les deux variables étaient indépendantes.
Soient les hypothèses suivantes :

– L’hypothèse nulle H0 : X et Y sont indépendantes en probabilités.
– L’hypothése altérnative H1 : les variables X et Y ne sont pas indépendantes.
La statistique de test est alors

p
n X ki. k.j 2 n X p
2
X (kij − k
) X (fij − fi. f.j )2
χ = ki. k.j
=k
i=1 j=1 i=1 j=1
fi. f.j
k
elle suit asymptotiquement et si l’hypothèse H0 est vraie, une loi de χ2 à (n-1)(p-1)

degrés de liberté. On rejette donc H0 si χ2 dépasse une valeur particulière (on prend
généralement la valeur 5%).
– Remarque
ki. k.j
Les k
sont les effectifs théoriques sous H0 .
1.6.3 Métriques du Chi2
Sur le plan mathématique, on peut considérer l’analyse des correspondances

comme une analyse en composantes principales avec une métrique spéciale, la
métrique du χ2 .
Les profils lignes forment un nuage de n points dans Rp , chacun de ces points
est muni d’un poids fi. .
Le centre de gravité (le barycentre) de ce nuage de points est :
Gn = (f.1 , ..., f.j , ..., f.p )0
38
Réciproquement, les profils colonnes forment un nuage de p points dans Rn , chacun

de ces points est muni d’un poids f.j .
Le centre de gravité du nuage des points colonnes est donné par :
Gp = (f1. , ..., fi. , ..., fn. )0
Les espaces Rp et Rn sont respectivement munis des métriques, dites du χ2 , de ma-

trices diagonales Dp−1 et Dn−1 données comme suit :
 
1
f.1
Dp−1 = 
 ... 

 
1
f.p
et  
1
f1.
Dn−1 = 
 .. 
 . 

1
fn.
Remarques
fij
1. Le tableau des profils lignes d’éléments fi.
est alors Dn−1 F , où F est le tableau
des fréquences.
fij
2. Le tableau des profils colonnes d’éléments f.j
est alors F Dp−1 .
On utilise la métrique de χ2 plutôt que la métrique euclidienne pour deux raisons

fortes :
a- Avec la métrique du χ2 , la distance entre deux lignes ne dépend pas des poids
respectifs des colonnes.
b- La métrique du χ2 possède la propriété d’équivalence distributionnelle : si on
regroupe deux modalités lignes, les distances entre les profils colonnes, ou entre
les autres profils lignes restent inchangées.([15])
39
1.6.4 Analyse en composantes principales des deux nuages

des profils
L’AFC étant une ACP particulière, nous ne donnons pas trop de détails techniques
sur cette méthode. On en donne juste les grandes lignes dans ce paragraphe.
En pratique, nous devons centrer le nuage des points lignes, ainsi le centre de gravité
Gn devient l’origine des axes.
Deux ACP sont donc possibles :
(1)- ACP du nuage des points lignes dans Rp avec :
– tableau de données X = Dn−1 F .
– métrique M = Dp−1 .
– poids D = Dn .
(2)- ACP du nuage des points colonnes dans Rn avec :
– tableau de données X = Dp−1 F 0 .
– métrique M = Dn−1 .
– poids D = Dp .
Les axes principaux sont les vecteurs propres de M X 0 DX et les composantes princi-
pales sont les vecteurs propres de XM X 0 D.
Dans le cas de l’analyse des profils lignes, on a :
M X 0 DX = Dp−1 F 0 Dn−1 F
et
XM X 0 D = Dn−1 F Dp−1 F 0
Remarques
1. Pour les profils colonnes il suffit de transposer F et d’inverser les indices n et p,
40
comme le montre le tableau suivant :

ACP des profils lignes ACP des profils colonnes
Axes principaux Vecteurs propres de Vecteurs propres de
Dp−1 F 0 Dn−1 F Dn−1 F Dp−1 F 0
Composantes principales Vecteurs propres de Vecteurs propres de
Dn−1 F Dp−1 F 0 Dp−1 F 0 Dn−1 F
normalisés par a0 Dn−1 a normalisés par b0 Dp−1 b
où a et b sont respectivement des vecteurs propres de Dn−1 F Dp−1 F 0 et
Dp−1 F 0 Dn−1 F .
On constate que les deux analyses conduisent aux mêmes valeurs propres et
que les facteurs principaux de l’une sont les composantes principales de l’autre
(à un coefficient multiplicateur près).([13])
2. Les coordonnées des points lignes et les coordonnées des points colonnes sont
reliées par des formules de transition (appelées également barycentriques ou
encore quasi-barycentriques) dont le premier intérêt est d’éviter de réaliser
deux diagonalisations.
On diagonalisera la matrice de dimension plus petite en formant la matrice
de dimensions (p,p) plutôt que la matrice de dimensions (n,n) en supposant
(n ≥ p).
Ces formules sont données par :

p
1 1 X fij
a = √ Dn−1 F b soit ai = √ bj
λ λ j=1 f i.
et n
1 1 X fij
b = √ Dp−1 F 0 a soit bj = √ ai
λ λ i=1 f.j
où λ est une valeur propore de Dp−1 F 0 Dn F et de Dn−1 F Dp F 0 .
1.6.4.1 Interprétation des valeurs propres
– Notons tout d’abord que la première valeur propre est une valeur propre triviale
égale à 1. En effet, le premier vecteur propre associé à cette première valeur
41
propre définit un axe principal pour lequel les projections des points lignes et
des points colonnes possèdent une variance (dispersion) nulle. Ce qui signifie
que toutes les projections possèdent les mêmes coordonnées. L’axe principal
correspondant à cette valeur sera donc exclu de l’analyse.
Les autres valeurs propres sont toutes inférieures à 1.
– Les valeurs propres proches de 1 traduisent une forte liaison entre les lignes et
les colonnes.
– Si une valeur propre est proche de 1, cela indique l’existence de deux sous
groupes de modalités dans les données. Il est alors intéressant de réaliser des
AFC indépendamment sur les deux sous groupes.
– De même, l’existence de deux valeurs propres proches de 1 indique une partition
des observations en 3 groupes. Si toutes les valeurs propres sont proches de 1,
cela indique une correspondance entre chaque modalité ligne et une modalité
colonne associée.
Remarque
Dans la pratique, on ne considère que d = inf (n − 1, p − 1) plus grandes valeurs
propres différentes de 1, ainsi que les vecteurs propres associés.
1.6.4.2 Interprétation des plans de projection en AFC
Pour une bonne interprétation des plans de projection en AFC, nous proposons
de suivre la même démarche qu’en ACP i.e. choisir le nombre d’axes de projection à
étudier, calculer les contributions relatives des lignes et des colonnes à un axe ou à
un plan, étudier la qualité de projection des lignes et des colonnes sur un axe ou sur
un plan,...etc.
1.6.4.3 Représentation simultanée (Biplot)
La parfaite symétrie entre ACP des profils lignes et ACP des profils colonnes
conduit alors à superposer les plans principaux des deux ACP afin d’obtenir une
représentation simultanée des catégories des deux variables croisées dans le tableau
de contingence (voir la figure suivante) :
42
Fig. 1.1 – Représentation simultanée sur le premier plan principal.
– Remarque
En AFC, la représentation simultanée des deux nuages repose sur une dualité
plus riche qu’en ACP car les lignes et les colonnes représentent des éléments de
même nature.
Interprétation
La position relative de deux points d’un même ensemble (ligne ou colonne), s’in-
terprète en tant que distance. La position d’un point d’un ensemble et tous les points
d’un autre ensemble s’interprète en tant que barycentre.
La représentation simultanée dans le premier plan principal (FIG.1.1) montre,

par exemple, que les modalités x4 et x1 sont éloignées, nous remarquons que x4
dépend de y4 , alors que x1 dépend de y1 . La modalité y3 dépend des modalités x3 ou
x2 .
43
La modalité y2 est proche de l’origine, elle représente donc un profil moyen et n’est
rattachée à aucune variable yj , ∀j = {1, 3, 4}.
1.6.4.4 Eléments supplémentaires
Il est aussi possible, comme pour l’ACP, d’ajouter des éléments supplémentaires,
illustratifs qui sont projetés sur les plans étudiés. Leur utilisation pour l’AFC est plus
fréquente que pour l’ACP car il peut y avoir beaucoup de variables pour une étude
donnée qui ne sont pas considérées dans cette analyse. Les projections sur les axes
principaux des profils lignes ou des profils colonnes de ces éléments n’interviennent
pas dans les calculs de ces axes.
Soit xi une ligne supplémentaire, pour visualiser xi sur un axe principal : on projette
son profil sur cet axe (même chose pour une colonne supplémentaire).
En résumé, l’analyse factorielle des correspondances est la méthode privilégiée

d’étude des relations entre deux variables qualitatives et l’une de ses principales pro-
priétés est la faculté de représenter simultanément lignes et colonnes d’un tableau de
contingence.
1.7 Analyse des Correspondances Multiples

(ACM)
L’analyse des correspondances multiples (ACM) ou l’analyse factorielle des
correspondances multiples (AFCM) est une extension de l’AFC dont le mot multiple
signifie que l’on dispose de plusieurs caractéristiques (variables qualitatives) sur la
population au lieu de 2 pour l’AFC.
On considère ici n individus décrits par p variables qualitatives à M catégories (mo-
dalités). Cette méthode est particulièrement bien adaptée à l’exploration d’enquêtes
où les questions sont à réponses multiples.
Nous aurons donc ici trois familles d’éléments à étudier, les individus, les va-
44
riables et les modalités des variables. Afin d’établir un bilan des ressemblances entre
individus, comme en ACP nous cherchons à répondre à des questions du type :
– Quels sont les individus qui se ressemblent ?
– Quelles sont ceux qui sont différents ?
– Existe-t-il des groupes homogènes d’individus ?
– Est-il possible de mettre en évidence une typologie des individus ?
Les mêmes types de questions se posent pour les variables et les modalités.
1.7.1 Tableau de départ (Tableau de codage condensé)
Le tableau de départ est souvent le tableau d’une enquête ou d’un sondage. Il

se présente avec en lignes n individus enquêtés et en colonnes p questions posées à
ces individus (variables). Chacune de ces questions possède plusieurs modalités de
réponses. Le nombre total de modalités est M.
Les variables qualitatives peuvent être codées par un codage condensé qui attribue
une valeur à chaque modalité. Les données peuvent donc être représentées sous la
forme de la matrice X suivante :
 
x1 . . . xp1
 1. . .. 
 .. .. . 
 
 j p

X= 1
 xi xi xi


 . . ..
 .. ..

 . 

x1n . . . xpn
où xji est le codage condensé de l’individu i pour la variable j.
1.7.2 Tableau disjonctif complet
Les données précédentes ne peuvent pas être traitées par l’ACP ou l’AFC
précédemment étudiées. On effectuera donc une transformation pour modifier la co-
dification en nombres binaires. L’analyse utilise ensuite le même principe que l’AFC,
en transformant le tableau disjonctif complet (qui est une autre représentation de nos
données) en profils lignes et en profils colonnes.
45
Le tableau disjonctif complet représente les n individus en lignes, alors que les co-
lonnes représentent les M modalités des variables (et non plus les p variables) (voir
la matrice suivant) :  
x11 . . . xM
1
 . . .. 
 .. .. . 
 
 
1 m
Y =  xi xi xi 
 M

 . . .
 .. .. .. 

 
1 M
xn . . . x n
A l’intersection de la ligne i avec la colonne m, la valeur xm
i vaut 1 si l’individu i
possède la modalité m et 0 sinon. Ce tableau porte le nom de disjonctif complet,

car l’ensemble des valeurs xm
i d’un même individu pour les modalités d’une même
variable, comporte la valeur 1 une fois (complet) et une fois seulement (disjonctif).
Chaque modalité m est relié à une variable j.
Ainsi le tableau brut suivant :
 
1 2 3
 
 2 1 1 
 
 
X= 2 2 2 


 
 3 2 1 
 
3 1 2
correspondant à 5 observations de trois variables à 3, 2, 3 modalités respectivement

engendre le tableau disjonctif Y à 5 lignes et 8 colonnes :
 
1 0 0 0 1 0 0 1
 
 0 1 0 1 0 1 0 0 
 
 
Y =  0 1 0 0 1 0 1 0  
 
 0 0 1 0 1 1 0 0 
 
0 0 1 1 0 0 1 0
p
P
Notons mj le nombre de modalités de la variable j. Ainsi M = mj . Nous avons
j=1
donc les égalités suivantes :
mj
X
xm
i = 1, ∀(i, j)
m=1
46
M
X
xm
i = p, ∀i
m=1
n
X
xm
i = nm , ∀m
i=1
où nm est l’effectif marginal de la modalité m.

n X
X M
xm
i = np
i=1 m=1
– Remarque
En pratique, l’utilisateur n’a jamais besoin de calculer explicitement le tableau
disjonctif complet (les programmes d’ACM acceptent en entrée le tableau de
codage condensé et calculent eux-mêmes le tableau disjonctif complet).
L’ACM peut être vue comme une AFC du tableau disjonctif complet.
1.7.3 L’AFC du tableau disjonctif complet
En ACM, on traite le tableau disjonctif complet Y comme un tableau de contin-

gence, nous allons donc considérer le tableau disjonctif complet en profils lignes et en
profils colonnes. Pour se faire nous modifions ce tableau pour considérer les fréquences
fim données par :
xm
i
fim =
np
On a donc :
1
fim = np
si l’individu i possède la modalité m et fim = 0 sinon.
De plus les marges sont données par :
M n
X xm i 1 X xm i nm
fi. = = et f.m = =
m=1
np n i=1
np np
Considérons maintenant le tableau des profils lignes L et le tableau des profils colonnes
C dont leurs cases sont composées respectivement de :
fim xm fim xm
= i et = i
fi. p f.m nm
47
– Chaque individu du nuage des points lignes est représenté par les modalités
qu’il possède. C’est un point de Rm qui a pour coordonnée sur l’axe m la valeur
xm
i
p
muni d’un poids constant fi. = n1 .
nm
Le barycentre Gn du nuage des points lignes a pour coordonnée f.m = np
sur
l’axe m.
– Chaque modalité peut être représentée par le profil colonne, i.e. par les valeurs
prises par tous les individus pour la modalité considérée. Ainsi une modalité m
xm
est un point de l’espace Rn et a pour coordonnée i
nm
sur l’axe i avec un poids
nm
de f.m = np
.
1
Le barycentre Gm du nuage des points colonnes a pour coordonnée fi. = n
sur
l’axe i.
Définition 1.6. La ressemblance entre deux individus est définie par les modalités de
chacun des individus. Si deux individus présentent globalement les mêmes modalités,
alors ils se ressemblent.
La distance qui caractérise la ressemblance entre deux individus i et i0 est la distance
de χ2 , elle est définie par :
M M
2 0
X 1 xm i xm
i0 2 nX 1 m
d (i, i ) = ( − ) = (xi − xm
i0 )
2
f
m=1 .m
p p p m=1 nm
Cette expression est remarquable car (xm m 2

i − xi0 ) = 1 si un seul individu possède la
modalité m et 0 sinon.
n
Le poids de la modalité m dans la distance est l’inverse de sa fréquence : nm
. Ainsi
si un individu possède une modalité rare (nm petit), il sera éloigné de tous les autres
individus et du centre de gravité.([12])
– Remarque
En pratique, on évite de conserver dans l’analyse des modalités rares et des
variables ayant des nombres de modalités trés différents.
Définition 1.7. La ressemblance entre deux modalités m et m0 est donnée par la

distance : n 0 n 0
X 1 xm xm X xm xm
d2 (m, m0 ) = ( i − i )2 = n ( i − i )2
f nm nm0
i=1 i. i=1
nm nm0
48
Deux modalités sont proches si elles sont possédées par les mêmes individus, tandis
que les modalités rares sont éloignées de toutes les autres et du centre de gravité Gm .
Remarque
En notant F le tableau des fréquences, on a :
L = Dn−1 F et −1 0
C = Dm F
avec Dn−1 et Dm
−1
sont les métriques de χ2 relatives respectivement aux espaces Rn et
Rm , elles sont données par :
   
1
f1.
n
Dn−1 = 
 ...  
= ... 
 = nIn
   
1
fn.
n
où In est la matrice d’identité d’ordre n.
et
     
1 np n
f.1 n1 n1
−1
Dm

= ...  
= ...  
 = p ... 
 = p∆
     
1 np n
f.M nM nM
avec  
n
n1

∆= .. 
 . 

n
nM
1.7.3.1 Inertie totale
L’inertie totale du nuage des modalités et, par dualité, celle du nuage des individus
en ACM dépend du nombre moyen de modalités par variables ( Mp ), elle vaut M
p
− 1.
De plus, elle est égale à λ1 + λ2 + ... + λr où r = min(n − 1, M − p) est le nombre de
valeurs propres non nulles. Le pourcentage d’inertie expliquée par un axe α est donc :
λα
λ1 + λ2 + ... + λr
49
Remarque
En ACM, les pourcentages d’inertie expliqués par les axes sont par construction petits
et ne peuvent donc pas être interprétés comme en AFC ou en ACP. Le nombre d’axes
retenus pour l’interprétation ne peut pas être choisi à partir de ces pourcentages.
1.7.3.2 ACP des nuages des points lignes et des points colonnes
Nous allons effectuer une ACP des nuages des points individus et des points mo-
dalités (centrés). Reprenons donc les résultats vus en AFC :
On réalise l’ACP des profils lignes dans Rm avec :
– tableau de données X = L = Dn−1 F = nF .
−1
– métrique M = Dm = p∆.
– poids D = Dn = n1 In .
Les axes principaux sont les vecteurs propres de M X 0 DX = np∆F 0 F et les

composantes principales sont les vecteurs propres de XM X 0 D = npF ∆F 0 normalisés
par a0 Dn−1 a, où a est un vecteur propre de npF ∆F 0 .
Nous allons suivre la même démarche pour les profils colonnes i.e. effectuer
une ACP du nuage des points colonnes dans Rn avec :
−1 0
– tableau de données X = C = Dm F = p∆F 0 .
– métrique M = Dn−1 = nIn .
– poids D = Dm = p1 ∆−1 .
Les axes principaux sont donc les vecteurs propres de npF ∆F 0 et les composantes
principales sont les vecteurs propres de np∆F 0 F normalisés par b0 Dm
−1
b, où b est un
vecteur propre de np∆F 0 F .
– Remarque
On remarque que :
M X 0 DX = CL
50
et
XM X 0 D = LC
1.7.3.3 Formules de transition et relations barycentriques
En appliquant les relations de transition de l’AFC, on obtient les deux relations

fondamentales de l’ACM :
M M
1 X xm i 1 1X m
ai = √ bm = √ x i bm
λ m=1 p λ p m=1
et n n
1 X xm i 1 1 X m
bm = √ ai = √ x i ai
λ i=1 nm λ nm i=1
La première formule s’interprète comme suit :

– A √1 près la coordonnée d’un individu est égale à la moyenne arithmétique
λ
simple des coordonnées des catégories auxquelles il appartient.
La deuxième formule montre que :

– A √1 près la coordonnée d’une catégorie m est égale à la moyenne arithmétique
λ
des coordonnées des nm individus de cette catégorie.([13])
A un coefficient près ( √1λ ), sur chaque axe, un individu est au barycentre des modalités
qu’il possède et une modalité est au barycentre des individus qui la possèdent. Cette
double propriété barycentrique est particulièrement simple du fait que xm
i vaut 0 ou
1. Elle suffit presque pour interpréter les graphiques, ce qui fait d’ailleurs de l’ACM
la méthode factorielle dont les graphiques sont les plus faciles à interpréter.([10])
1.7.3.4 Biplot
Les relations barycentriques données ci-dessus donnent trois modes de

représentation simultanée des individus et des modalités :
1. Les individus au barycentre des modalités.
51
Fig. 1.2 – Représentation des individus au milieu des modalités (Représentation

barycentrique)
2. Les modalités au barycentre des individus.
Fig. 1.3 – Représentation des modalités au milieu des individus (Représentation

barycentrique)
3. I Les individus sont au centre des modalités qu’ils ont choisis.

I Les modalités sont au centre des individus qui les ont choisis.
52
Fig. 1.4 – Représentation simultanée des individus et des modalités (Représentation

pseudo-barycentrique)
1.7.3.5 Interprétation
Nous avons vu que deux individus se ressemblent s’ils présentent globalement

les mêmes modalités. Cette ressemblance se traduit par une proximité des individus
dans l’espace de projection choisi pour la représentation simultanée. De même si deux
modalités d’une même variable sont proches dans l’espace de projection, ceci se traduit
par une ressemblance entre les groupes d’individus qui les ont choisies. La proximité de
deux modalités de variables différentes s’interprète en terme d’association. Ainsi une
modalité apparaı̂t du côté des modalités avec lesquelles elle s’associe le plus ; deux
modalités apparaissent proches si elles s’associent de la même manière aux autres
modalités.
En ce qui concerne la proximité entre modalités et individus, l’interprétation peut se
faire en considérant les modalités comme barycentre de classe d’individus.
1.7.3.6 Aides à l’interprétation
Rappelons que sur la représentation simultanée, les nuages des points lignes et
des points colonnes ne sont pas dans les mêmes espaces. Il est donc important d’avoir
53
recours à des indicateurs sur la qualité de représentation pour l’interprétation de

l’ACM. Ces indicateurs sont les mêmes que ceux de l’ACP déjà donnés :
– Choisir le nombre d’axes de projection : on retient les axes associés à des valeurs
propres supérieures à p1 .
– Etudier les valeurs propres qui représentent l’inertie de chaque axe.
– Etudier la contribution des lignes et des modalités.
– Etudier la contribution des variables en sommant les contributions des modalités
d’une variable pour un facteur donné.
– Etudier les coordonnées des modalités et des individus actifs : celles et ceux qui
déterminent les axes.
– Etudier les coordonnées des variables, des modalités et des individus
supplémentaires s’il y en a.
54
Chapitre 2
Analyse discriminante
2.1 Introduction
L’analyse discriminante est une technique d’analyse des données connue sous
l’abréviation AD. Elle est utilisée dans le cadre de la modélisation d’une variable
qualitative Y à K catégories (modalités) dite variable à expliquer (ou variable en-
dogène ou encore variable à prédire), à partir de p variables quantitatives appelées
variables explicatives (ou variables exogènes ou encore prédicteurs).
On peut considérer l’analyse discriminante comme une extension du problème de la
régression au cas où la variable à expliquer est qualitative ; on verra d’ailleurs que dans
le cas de deux catégories, on peut se ramener exactement à une régression linéaire
multiple. Elle peut aussi être vue comme un cas particulier de l’analyse en compo-
santes principales. En effet, son aspect descriptif décrit dans le paragraphe 2.3 fait
appel à des calculs d’axes principaux appelés axes factoriels discriminants.
2.2 Données et notations

Nous disposons de n individus (ou observations) décrits par p variables et répartis
en K classes (groupes) données par la variable qualitative Y. Les K classes sont a priori
connues. La variable qualitative Y possède donc K modalités (ce sont les modalités de
Y qui définissent les classes). En notant X la matrice des p variables explicatives et
A le tableau disjonctif associé à la variable qualitative Y , on obtient ainsi la matrice
55
CHAPITRE 2. Analyse discriminante
de données suivante :
1 2 ... K 1 2 ... p
 
1 1 0 ... 0
 
2



 
 
 
A X
 
 
 
 
 
 
 
 
n 0 0 ... 1
Notons :
. xji la valeur de la jème variable explicative mesurée sur le ième individu.
. Xi = (x1i , ..., xpi )0 ∈ Rp une ligne de X décrivant le ième individu.
. X j = (xj1 , ..., xjn )0 ∈ Rn une colonne de X décrivant la jème variable.
. Gk le groupe des individus de l’échantillon qui possèdent la modalitè k.
. nk = card(Gk ) le nombre d’individus qui possèdent la modalité k.
Les ensembles {Xi \ i = 1, n} ⊂ Rp et {X j \ j = 1, p} ⊂ Rn désignent respectivement

les nuages des individus et des variables.
La variable Y permet de définir, compte-tenu des K modalités, une partition de
l’ensemble des individus en K sous-ensembles G1 , G2 , . . . , GK , l’individu i appartenant
à Gk si c’est la kième modalité de la variable qualitative qui est réalisée. On peut ainsi
considérer K sous-nuages N1 , N2 . . . , NK tels que :
Nk = {Xi \i ∈ Gk } ⊂ Rp
n
P
Si les n individus sont affectés des poids p1 , ..., pn , tels que ∀i = 1, n, pi > 0 et pi = 1
i=1
alors le poids de chaque groupe Gk est :
X
Pk = pi
i∈Gk
1 nk
En général, on prend pi = n
et donc Pk = n
. On a alors les définitions suivantes :
56
– Le centre de gravité global est le vecteur de Rp défini par :

n n
X 1X
g= pi xi = xi
i=1
n i=1
– Le centre de gravité du groupe Gk est le vecteur de Rp défini par :

1 X 1 X
gk = pi xi = xi
Pk i∈G nk i∈G
k k
– La matrice p × p de variance-covariance globale est définie par :

n n
X 1X
V = pi (xi − g)(xi − g)0 = (xi − g)(xi − g)0
i=1
n i=1
– La matrice p × p de variance-covariance du groupe Gk est définie par :

1 X 1 X
Vk = pi (xi − gk )(xi − gk )0 = (xi − gk )(xi − gk )0
Pk i∈G nk i∈G
k k
– La matrice p × p de variance-covariance intra-groupe est définie par :

K K
X X nk
W = Pk Vk = Vk
k=1 k=1
n
– La matrice p × p de variance-covariance inter-groupe est définie par :

K K
X
0
X nk
B= Pk (gk − g)(gk − g) = (gk − g)(gk − g)0
k=1 k=1
n
Remarques
1. La matrice B est la matrice de variance-covariance des K centres de gravités

gk pondérés par Pk et la matrice W est la somme pondérée des covariances
inter-groupe.
2. En règle générale, W est inversible tandis que B ne l’est pas, car les K centres
de gravité sont dans un sous-espace de dimension K-1 de Rp (si p > K − 1 ce
qui est généralement le cas), alors que la matrice B est de taille p.
On a la relation suivante :
K K
X X nk
g= Pk gk = gk
k=1 k=1
n
57
2.3 L’AD descriptive et l’AD prédictive

On distingue deux aspects en analyse discriminante :
1. L’analyse discriminante descriptive :

L’analyse discriminante descriptive est une technique de statistique ex-
ploratoire. Elle consiste à chercher les combinaisons linéaires de variables
qui permettent de séparer le mieux possible les K classes et donner une
représentation graphique (ainsi qu’en ACP), qui rende compte au mieux de
cette séparation. Ces combinaisons linéaires sont appelées fonctions linéaires
discriminantes. Il s’agit donc d’une étape de discrimination des classes.
L’analyse discriminante descriptive est une technique descriptive car elle
propose une représentation graphique qui permet de visualiser les proximités
entre les observations, appartenant a un même groupe ou non.
C’est aussi une technique explicative car nous avons la possibilité d’interpréter
les axes principaux, combinaisons linéaires des variables initiales et ainsi
comprendre les caractéristiques qui distinguent les différents groupes.
Remarque
Contrairement à l’analyse discriminante prédictive, l’analyse discriminante
descriptive ne repose sur aucune hypothèse probabiliste. Il s’agit essentiellement
d’une méthode géométrique.
2. L’analyse discriminante prédictive :

Un nouvel individu se présente pour lequel on connait les valeurs des prédicteurs.
Il s’agit alors de décider dans quelle classe il faut l’affecter. C’est un problème de
classement par opposition au problème de classification qui est la construction
de classes les plus homogènes possibles dans un échantillon.
Ces deux aspects correspondent donc à la distinction entre les méthodes géométriques
qui sont essentiellement descriptives et qui ne reposent que sur des notions de distance
et les méthodes probabilistes.
58
2.4 Principe de l’analyse discriminante
2.4.1 La discrimination
L’idée du principe de la discrimination repose sur le fait que la discrimination

visuelle est plus aisée si :
– Les centres de gravité de chaque sous-nuage appartenant à une seule classe sont
éloignés.
– Les sous-nuages appartenant à une seule classe sont les plus homogènes possibles
autour de ces centres de gravité.
Pour se faire il faut maximiser les variances inter-goupe (entre les groupes) et mini-
miser les variances intra-groupe (à l’intérieur des groupes). Nous parlons également
de variances externes et internes.
2.4.1.1 Formule de décomposition de Huygens
Proposition 2.1. L’inertie totale du nuage des points individus est égale à la somme
de l’inertie inter-groupe et de l’inertie intra-groupe.
Cette proposition s’énonce également par le fait que la covariance totale du nuage est
la somme de la covariance inter-groupe et de la covariance intra-groupe :
V =B+W
([16])
Cette proposition se démontre aisément et constitue une généralisation de la re-

lation classique : variance totale = moyenne des variances + variance des moyennes.
2.4.1.2 Analyse factorielle discriminante
Le problème est de déterminer un vecteur u normé de Rp (appelé facteur

discriminant), engendrant un axe ∆u (appelé axe discriminant) passant par le centre
de gravité g et tel que l’inertie des sous-nuages des individus nk projetés sur ∆u soit
maximale (inertie inter-groupe u0 Bu) et chaque sous-nuage soit groupé donc l’inertie
intra-groupe u0 W u soit minimale. En effet, B mesure la dispersion des centres de
59
gravité le long de l’axe ∆u et W mesure la dispersion moyenne à l’intérieur des k

groupes le long de l’axe ∆u .
Le problème revient donc à trouver u tel que :
u0 Bu
u0 W u
soit maximum.
La propriété V=B+W entraı̂ne l’équivalence suivante :
u0 Bu u0 Bu
max ⇐⇒ max
u0 W u u0 V u
u0 Bu
La fonction u0 V u
à rendre maximum est inchangée si u est remplacé par αu, α étant
un scalaire quelconque. Par conséquent :
u0 Bu
max ⇐⇒ max u0 Bu
u0 V u
sous la contrainte u0 V u = 1 (u normé).

La solution est obtenue en utilisant le Lagrangien L(u) et en annulant sa dérivée :
L(u) = u0 Bu − λ(u0 V u − 1)
∂L(u)
= 0 =⇒ Bu = λV u
∂u
Si V est une matrice inversible (ce qui est le cas en général), alors :
V −1 Bu = λu
Ainsi u est le vecteur propre de V −1 B associé à la plus grande valeur propre λ.
Proposition 2.2. Le premier axe factoriel discriminant ∆u1 est engendré par le
vecteur propre normé u1 de V −1 B correspondant à la plus grande valeur propre λ1 .
De même, le vecteur propre de V −1 B relatif à la deuxième valeur propre λ2 (λ2 ≤ λ1 )
constitue le deuxième axe factoriel discriminant ∆u2 et ainsi de suite pour chacun des
vecteurs propres successifs.
60
Définition 2.1. On appelle pouvoir discriminant de l’axe ∆uh la valeur propre λh

associée.
La valeur λh est d’autant plus grande (proche de 1) que la discrimination est satis-
faisante.
Interprétation des valeurs propres

Notons d’abord qu’on a toujours 0 ≤ λ ≤ 1 et que le nombre des valeurs propres non
nulles, donc d’axes discriminants, est égal à K − 1 dans le cas habituel où n > p > K
et où les variables ne sont pas liées par des relations linéaires.
– λ = 1 correspond au cas suivant :

En projection sur ∆u les dispersions intra-groupe sont nulles. Les K sous-nuages
sont donc chacun dans un hyperplan orthogonal à ∆u .
Il y a évidemment une discrimination parfaite si les centres de gravité se pro-
jettent en des points différents (voir la figure suivante) :
– λ = 0 correspond au cas où le meilleur axe ne permet pas de séparer les centres
de gravité gk . C’est le cas où ils sont confondus, les nuages sont donc concen-
triques et aucune séparation linéaire n’est possible (voir la figure suivante) :
61
Remarque
L’interprétation de ces K − 1 valeurs propres diffère de celle des valeurs propres
obtenues lors d’une analyse factorielle faite sur un ensemble non partitionné a priori
(analyse en composantes principales ou analyse des correspondances). En effet, dans
ce dernier cas, la somme des q premières valeurs propres indique l’inertie expliqué
par les q premiers axes principaux, tandis que la somme de plusieurs valeurs propres
dans une analyse factorielle discriminante n’aurait pas de sens.
Une ACP particulière

L’analyse factorielle discriminante est une analyse en composantes principales
particulière d’un ensemble de n points individus Xi (de poids respectifs pi tels
n
pi = 1) repérés dans l’espace Rp muni de la métrique M, dont le principe
P
que
i=1
général est de déterminer un axe ∆u engendré par un vecteur u normé passant
par le centre de gravité du nuage des points individus, tel que la variance de
l’ensemble des projections pu (Xi ) des points Xi sur ∆u soit maximum. Cela conduit
à la résolution de l’équation V M u = λu avec u0 M u = 1, où V est la matrice des
variances-covariances des points Xi .
En effet, Bu = λV u avec u0 V u = 1. En posant v = V u, on a BV −1 v = λv
avec v 0 V −1 v = 1. Par conséquent, effectuer une analyse factorielle discrimi-
nante revient à faire une analyse en composantes principales à partir de l’en-
semble G des centres de gravité {g1 , ..., gk , ..., gK }, munis des poids respectifs
{P1 , ..., Pk , ..., PK } = { nn1 , ..., nnk , ..., nnK } repérés dans l’espace Rp muni de la métrique
62
V −1 .
Comme en ACP, on pourra interpréter les p variables (dites variables discriminantes)
au moyen d’un cercle des corrélations. A la différence de l’ACP, trois types de
corrélation sont possible : la corrélation globale entre les axes et les variables
initiales, la corrélation intra-groupe calculée à l’intérieur des groupes et la corrélation
inter-groupe calculée à partir des centres de gravité des groupes pondérés par leurs
poids.
Fig. 2.1 – Les trois types de corrélations.
Equivalance des métriques V −1 et W −1

Les vecteurs propres de W −1 B sont les mêmes que ceux de V −1 B. En effet
V −1 Bu = λu ⇐⇒ Bu = λV u
En remplaçant V par B + W on a :
λ λ
Bu = λBu + λW u ⇐⇒ Bu = W u ⇐⇒ W −1 Bu = u
λ−1 λ−1
On vient de montrer que si λ et u sont valeur et vecteur propres de V −1 B alors
µ= λ
λ−1
et u sont respectivement valeur et vecteur propres de W −1 B. L’utilisation
−1
de V ou de W −1 comme métrique est donc indifférent.
Remarques
1. La métrique W −1 est appelée métrique de Mahalanobis.
2. Dans les procédures de quelques logiciels (SAS par exemple) concernant
l’analyse discriminante, les calculs sont faits en utilisant la métrique W −1 (ces
63
logiciels fournissent la valeur propre µ).
Détermination des vecteurs propres de W −1 B

Il faut diagonaliser la matrice W −1 B qui n’est pas a priori symétrique.
La matrice B a pour expression :
K
X nk
(gk − g)(gk − g)0
k=1
n
de terme général :
K
X nk
bjj 0 = (gkj − gj )(gkj 0 − gj 0 )
k=1
n
où gkj est la jième composante de gk .
B s’écrit en fonction de la matrice C de terme général :

r
nk
cjk = (gkj − gj )
n
sous la forme :
B = CC 0
Les matrices W −1 B (d’ordre p) et C 0 W −1 C (d’ordre k) ont les mêmes valeurs propres

et leurs vecteurs propres respectifs sont liés par la relation :
u = W −1 Cw
En effet, soit λ une valeur propre de la matrice C 0 W −1 C et w le vecteur propre

associé :
C 0 W −1 Cw = λw =⇒ CC 0 W −1 Cw = λCw =⇒ BW −1 Cw = λCw
et donc :
W −1 BW −1 Cw = λW −1 Cw ⇐⇒ W −1 Bu = λu
On se ramène ainsi à la diagonalisation d’une matrice symétrique d’ordre k. ([11])
64
Représentations graphiques ([2])

Supposons qu’on se contente des deux premiers axes discriminants pour représenter
les individus et les variables sur le plan discriminant (∆u1 , ∆u2 ).
1. Description dans Rp
Dans le plan discriminant P = (∆u1 , ∆u2 ), on représente :
– Les points individus Xi à l’aide de leurs coordonnées :
cj = uj Xi , j = 1, 2
– Les centres de gravités gk à l’aide de leurs coordonnées :
uj gk , j = 1, 2
On oriente le plan discriminant P en faisant figurer la projection des axes ∆ei associés
aux variables initiales, le vecteur de base ei a pour coordonnées, dans le système des
deux premiers axes discriminants :
uj ei , j = 1, 2
65
Le plan discriminant ci-dessus décrit la dépendance entre une variable qualitative Y

à trois modalités 1, 2, 3 et un ensemble de cinq variables quantitatives.
La partition induite par la variable Y est mise en évidence en associant un même
symbole aux individus (+ , o, .) appartenant à une même classe : on a ainsi une idée
visuelle, compte-tenu des dispersions autour de chacun des centres de gravité, de
la séparation, dans le plan discriminant, entre les groupes d’individus associés aux
différentes modalités de la variable Y.
Ici les trois groupes sont assez bien séparés, il est possible de retrouver à l’aide des
deux premiers facteurs discriminants la modalité prise par la variable qualitative Y.
2. Description dans Rn
La projection des variables est calculée en fonction des axes discriminants du nuage
des points individus. La coordonnée d’une variable X j sur l’axe uj est donnée par :
F j = r(X j , uj )
Les variables X 1 , X 2 , X 3 et X 5 (voir la figure ci-dessous) interviennent fortement dans

la description des individus contrairement à X 4 .
Si on revient au graphique précédant, on constate d’une part que les variables X 3
et X 5 permettent de bien séparer les individus prenant les modalités 2 et 3 de la
variable Y et que d’autre part, X 1 et X 2 permettent de repérer les individus prenant
la modalité 1.
66
2.4.1.3 Cas particulier de deux groupes - Equivalence entre régression

multiple et analyse discriminante
Lorsqu’il n’y a que deux groupes (k = 2) notés G1 et G2 , le rang de la matrice

W −1 B est égal à 1, cette matrice n’a qu’une seule valeur propre non nulle et un seul
vecteur propre associé, donc un seul axe discriminant, qui correspond à la fonction
linéaire discriminante de Fisher, déterminé par la droite passant par les centres de
gravité des deux groupes g1 et g2 . La matrice de variance-covariance inter-groupe B,
dans ce cas, s’écrit :
n1 n2
B= (g1 − g)(g1 − g)0 + (g2 − g)(g2 − g)0
n n
n1 n2 n1 g1 + n2 g2
⇐⇒ B = 2
(g1 − g2 )(g1 − g2 )0 (car g = )
n n
de terme général :
n1 n2
bjj 0 = (g1j − g2j )(g1j 0 − g2j 0 )
n2
Si λ et u désignent l’unique valeur propre et l’unique vecteur propre de W −1 B, alors
u = W −1 (g1 − g2 )
et
n1 n2
λ= (g1 − g2 )0 W −1 (g1 − g2 )
n2
En effet, on a :
n1 n2
W −1 Bu = λu ⇐⇒ W −1 (g1 − g2 )(g1 − g2 )0 u = λu
n2
En remplaçant u par sa valeur on a :
n1 n2 −1
W (g1 − g2 )(g1 − g2 )0 W −1 (g1 − g2 ) = λW −1 (g1 − g2 )
n2
n1 n2
La quantité n2
(g1 − g2 )0 W −1 (g1 − g2 ) est un scalaire et c’est la valeur propre λ, qui
n1 n2
n’est autre que le D2 de Mahalanobis au coefficient n2
près.
67
– Remarque
Le D2 de Mahalanobis mesure la distance entre deux groupes, plus précisément
il mesure la distance entre les centres des groupes pour la métrique W −1 , il
vaut :
D2 = (g1 − g2 )0 W −1 (g1 − g2 )
B peut se mettre sous la forme B = CC 0 où C est une matrice colonne (p,1) de terme
général : √
n1 n2
cj = (g1j − g2j )
n
Nous avons donc :
W −1 Bu = λu ⇐⇒ W −1 CC 0 u = λu ⇐⇒ C 0 W −1 CC 0 u = λC 0 u
Ainsi l’unique valeur propre de W −1 B est λ = C 0 W −1 C, dont le vecteur propre as-

socié est u = W −1 C.
λ est appelée distance généralisée entre les deux groupes ou encore distance de Ma-
halanobis.
Dans ce cas de deux groupes, l’AD est équivalente à la régression multiple.
Rappelons que le modèle de régression multiple s’écrit sous la forme :
yi = β0 + β1 x1i + ... + βp xpi + εi , i = 1, n (2.1)
où
– Les xji sont des nombres connus, non aléatoires.
– Les paramètres βj sont inconnus, mais non aléatoires, ce sont les paramétres à
estimer (coefficients de la régression linéaire).
– Les εi sont des variables aléatoires inconnues, elles correspondent aux erreurs
de l’estimation.
– Les yi sont donc aléatoires.
En utilisant l’écriture matricielle de (2.1) nous obtenons la définition suivante :
Définition 2.2. Un modèle de régression linéaire multiple est défini par une équation
de la forme :
Y = Xβ + ε
68
      
y1 1 x11 xj1 xp1 β0 ε1
      
      
      
       
⇐⇒ 
 y i
 =  1 x1
  i xji xpi 

 βj  +  εi 
  
      
      
      
yn 1 x1n xjn p
xn βp εn
où :
– Y est un vecteur aléatoire de dimension n, c’est le vecteur des variables à ex-
pliquer.
– X est une matrice de taille n × (p + 1) connue, appelée matrice du plan
d’expérience.
– β est le vecteur de dimension p + 1 des paramètres inconnus du modèle.
– ε est le vecteur de dimension n des erreurs.
Les hypothèses concernant le modèle sont :


 (H ) : rang(X)=p+1
1
(H)
 (H2 ) : E(ε)=0Rn , var(ε)=σ 2 In
L’hypothèse (H2 ) signifie que les erreurs sont centrées, de même variance σ 2
(homoscédasticité) et non corrélées entre elles.([14])
L’objectif : estimer les p+1 paramètres β0 , ..., βp .
Estimateurs des Moindres Carrés Ordinaires

On cherche l’équation de la droite de régression en dimension p+1 pour laquelle les
erreurs quadratiques (εn ) sont les plus faibles.
Définition 2.3. L’estimateur des moindres carrés βb est défini comme suit :
n
X
arg minp ε2i = arg minp (yi −β0 −β1 x1i −...−βp xpi )2 = arg minp kY −Xβk2 = arg minp kεk2
β∈R β∈R β∈R β∈R
i=1
Proposition 2.3. L’estimateur βb des Moindres Carrés Ordinaires a pour expression :
βb = (X 0 X)−1 X 0 Y
69
– Remarque
L’hypothèse (H1 ) assure que la matrice X 0 X est bien inversible.
Preuve
On cherche β ∈ Rp qui minimise la fonction :
S(β) = kY − Xβk2 = (Y − Xβ)0 (Y − Xβ) = β 0 (X 0 X)β − 2Y 0 Xβ + kY k2
Or S est de type quadratique en β, avec X 0 X symétrique définie positive, donc le

problème admet une unique solution βb : c’est le point où le gradient de S est nulle.
Par dérivation (vectorielle...) par rapport à β on a :
∂S(β)
= −2X 0 Y + 2XX 0 β
∂β
Chercher à annuler cette dérivée revient à choisir l’estimateur βb tel que X 0 X βb = X 0 Y

et donc :
βb = (X 0 X)−1 X 0 Y
L’estimateur βb peut s’écrire sous la forme :

1 1
βb = V −1 X 0 Y (car X 0 X = V )
n n
 q
 yi = + n2 si i ∈ G1
n
Si Y est défini par : q 1
 yi = − n1 si i ∈ G2
n2
alors n1 X 0 Y = C, d’où βb = V −1 C = W −1 C.
On conclut que le vecteur βb des coefficients de la régression linéaire coı̈ncide à un

facteur α prés avec la forme linéaire discriminante u = W −1 C. Ce facteur α a pour
expression : √
n1 n2
n
α=
(1 + C 0 W −1 C)
– Remarque
Il faut prendre garde au fait que les hypothèses habituelles de la régression ne
sont pas vérifiées, bien au contraire : ici Y est non aléatoire et X l’est. Il ne
faudra donc pas utiliser les statistiques usuelles fournies par un programme de
70
régression, en particulier les erreurs standards des coefficients et les niveaux de

signification.
2.4.2 Règle d’affectation d’un nouvel individu à l’un des K

groupes
Tout ce qui précède concernait la discrimination à but descriptif, nous allons

maintenant nous intéresser au problème décisionnel, i.e. au problème de classement
proprement dit.
2.4.2.1 Règles géométriques
La méthode classique consiste à comparer les distances d’un nouvel individu aux
centres des groupes, distances mesurées avec une certaine métrique (la métrique
W −1 ). Cette métrique s’introduit naturellement dans l’analyse discriminante dont le
but est de mettre en évidence des facteurs tels que les valeurs de ceux-ci soient aussi
différentes que possible pour les individus appartenant à des groupes différents.
Règle de Mahalanobis-Fisher
Etant donné un nouvel individu a, nous voulons savoir à quel groupe il appartient.
Nous supposons ici, que l’individu a appartient surement à l’un des K groupes.
La règle de Mahalanobis-Fisher consiste à utiliser la métrique W −1 (ou V −1 ce qui
est équivalent), nous allons donc calculer la distance, pour la métrique W −1 , de a au
centre gk de la classe Gk :
d2 (a, Gk ) = (a − gk )0 W −1 (a − gk ) (2.2)
puis nous décidons d’affecter a à la classe G telle que :
d2 (a, G) = min d2 (a, Gk ) (2.3)

k=1,K
En développant les quantités définies ci-dessus en (2.2) on trouve :
d2 (a, Gk ) = a0 W −1 a + gk0 W −1 gk − 2gk0 W −1 a
71
Elles sont des fonctions quadratiques de a, mais elles ont toutes en commun le terme
carré a0 W −1 a qui ne dépend pas de k, on pourra donc comparer les fonctions linéaires
discriminantes de a, définies ci-dessous, relatives à chaque groupe Gk :
fGk (a) = d2 (a, Gk ) − a0 W −1 a = gk0 W −1 gk − 2gk0 W −1 a (2.4)
Dans ces conditions la règle de décision définie en (2.3) devient :

On décide d’affecter a à la classe G telle que :
fG (a) = min fGk (a)

k=1,K
Cas de deux groupes

Dans ce cas il n’y a que deux fonctions fG1 (a) et fG2 (a) à comparer. La règle de
décision est alors la suivante :
On affecte a au groupe G1 si
fG1 (a) > fG2 (a)
i.e.
fG1 (a) − fG2 (a) > 0
En remplaçant fGk (a) par sa valeur indiquée en (2.4), on a :
g20 W −1 g2 − g10 W −1 g1 − 2g20 W −1 a + 2g10 W −1 a > 0 (2.5)
Les deux derniers termes s’écrivent :
2(g1 − g2 )0 W −1 a
et on remarque que :
g10 W −1 g1 − g20 W −1 g2 = (g1 − g2 )0 W −1 (g1 + g2 )
D’où (2.5) devient, après division par 2 :

1
(g1 − g2 )0 W −1 a − (g1 − g2 )0 W −1 (g1 + g2 ) > 0
2
La règle de décision devient donc :
1
(g1 − g2 )0 W −1 a > (g1 − g2 )0 W −1 (g1 + g2 ) (2.6)
2
72
1
(g1 − g2 )0 W −1 a < (g1 − g2 )0 W −1 (g1 + g2 ) (2.7)
2
On notera que le terme de gauche de (2.6) ou (2.7) n’est autre que la fonction linéaire
discriminante de Fisher.([1])
2.4.2.2 Insuffisance des règles géométriques
L’utilisation de la règle précédente conduit à des affectations incorrectes lorsque

les dispersions des groupes sont très différentes entre elles : rien ne justifie alors l’usage
de la même métrique pour les différents groupes.
En effet, si l’on considère la figure ci-dessous, bien que a soit plus proche de g1 que
de g2 au sens habituel, il est plus naturel d’affecter a à la deuxième classe qu’à la
première dont le pouvoir d’attraction est moindre.([13])
2.4.2.3 Analyse discriminante probabiliste
La règle bayésienne et le modèle gaussien

L’objectif est de trouver une règle d’affectation qui permet de prédire, pour un indi-
vidu a donné, sa valeur associée de Y à partir des valeurs prises par les p variables
quantitatives X = (X 1 , ..., X p ).
La règle bayésienne consiste à trouver une estimation de la probabilité a posteriori
73
d’affectation :
P (Y = Gk )P (X/Y = Gk ) πk fk (x)
P (Y = Gk /X) = K
= K
P P
P (Y = Gk )P (X/Y = Gk ) πk fk (x)
k=1 k=1
où P (Y = Gk ) = πk est la probabilité a priori d’appartenance à un groupe et

P (X/Y = Gk ) = fk (x) représente la fonction de densité des X conditionnellement
au groupe Gk (fk : Rp −→ [0.1]).
– Remarque
Les probabilités a posteriori P (Y = Gk /X) sont parfois qualifiées de scores
discriminants.
La règle bayésienne consiste à affecter l’individu a au groupe qui a la probabilité a

posteriori maximale (pour lequel le score est le plus grand) :
Y (a) = Gk∗ si et seulement si
Gk∗ = arg max P (Y = Gk /X)

k=1,K
Toute la problématique de l’analyse discriminante revient donc à proposer une esti-

mation de la quantité P (X/Y = Gk ) = fk (x).
Plusieurs approches sont possibles, en supposant que l’on dispose d’un échantillon
i.i.d. de même loi que (X,Y ) :
a. On peut supposer que fk a une forme paramétrique et estimer les paramètres sur
l’échantillon d’apprentissage.
b. Les approches non paramétriques : on cherche à estimer directement à partir des

données les densités fk avec des méthodes d’estimation de densité à noyau.
Ici on se place dans le cadre paramétrique gaussien en supposant que X ∼ N (µk , Σk )

dans chaque groupe Gk :
1 1
fk (x) = p exp[− (x − µk )0 Σ−1
1 k (x − µk )]
(2π) |Σk |
2 2 2
où
– µk ∈ Rp est le vecteur des moyennes théoriques.
74
– Σk est la matrice p × p des variances-covariances théoriques.

– |Σk | représente le déterminant de la matrice Σk .
L’objet étant de déterminer le maximum de la probabilité a posteriori d’affectation.

Nous pouvons négliger tout ce qui ne dépend pas de k.
En passant au logarithme, nous obtenons le score discriminant qui est proportionnel
à P (Y = Gk /X) :
D(Y = Gk , X) = 2 ln(πk ) − ln |Σk | − (x − µk )0 Σ−1

k (x − µk ) (2.8)
K
P
En effet, maximiser P (Y = Gk /X) revient à maximiser πk fk (x) (car πk fk (x) ne
k=1
dépend pas de k) ce qui est équivalent à maximiser ln(πk fk (x)) avec :
ln(πk fk (x)) = ln(πk ) + ln(fk (x))
p 1 1
⇐⇒ ln(πk fk (x)) = ln(πk ) − ln(2π) − ln |Σk | − (x − µk )0 Σ−1
k (x − µk )
2 2 2
p
En multipliant par 2 et en remarquant que 2
ln(2π) est indépendant de k, on obtient
le résultat indiqué en (2.8).
La règle d’affectation devient donc :
Gk∗ = arg max D(Y = Gk , X)

k=1,K
– Remarque
Gk∗ = arg max D(Y = Gk , X) = arg min Dk2 (x)

k=1,K k=1,K
où Dk2 (x) = (x − µk )0 Σ−1

k (x − µk ) − 2 ln(πk ) + ln |Σk | est appelé le carré de la
distance de Mahalanobis théorique généralisée.
Estimation des paramètres

A partir de l’échantillon d’apprentissage, on veut estimer le paramètre :
θ = (π1 , ..., πk , µ1 , ..., µk , Σ1 , ..., Σk )
75
La méthode du maximum de vraisemblance peut être utilisée. La vraisemblance

s’écrit :
n
Y K Y
Y
L(θ) = fX (xi ) = πk fk (xi )
i=1 k=1xi ∈Gk
et on en déduit que la log-vraissemblance s’écrit :

n X
X p 1 1
ln(L(θ)) = (ln(πk ) − ln(2π) − ln | Σk | − (xi − µk )0 Σ−1
k (xi − µk ))
i=1 xi ∈Gk
2 2 2
On obtient alors les estimateurs du maximum de vraisemblance suivants :
nk
πbk =
n
1 X
µ
ck = xi
nk i∈G
k

K P
1
(xi − µk )(xi − µk )0 dans le cas homoscédastique
P
 Σ
b=


n
Σ
ck = k=1i∈Gk
1
(xi − µk )(xi − µk )0 dans le cas hétéroscédastique
P
 Σ
ck =

 nk
i∈Gk
Ces estimateurs de Σk sont biaisés et on a les estimateurs sans biais suivants :

K
1 XX
Σ
b= (xi − µk )(xi − µk )0
n − K k=1 i∈G
k
1 X
Σ
ck = (xi − µk )(xi − µk )0
nk − 1 i∈G
k
Analyse discriminante quadratique

En se plaçant dans le cas hétéroscédastique i.e. le cas où ∃Gk 6= Gk∗ tel que Σk 6= Σk∗ .
On estime alors les paramètres sur l’échantillon d’apprentissage et en reprenant les
notations de la section 2.2.
1
P
– µk est estimée par gk = nk
xi .
i∈Gk
– Σk est estimée par Vk = n1k (xi − gk )(xi − gk )0 ou encore par sa version sans
P
i∈Gk
biais : Vk = nk1−1 (xi − gk )(xi − gk )0 .
P
i∈Gk
76
On obtient ainsi la règle de classement d’analyse discriminante quadratique :
Gk∗ = arg min Qk (x)

k=1,K
où Qk = (x − gk )0 Vk−1 (x − gk ) − 2 ln(πbk ) + ln |Vk | est la fonction quadratique

discriminante du groupe Gk (encore appelée fonction quadratique de classement).
Chaque fonction quadratique discriminante définit une fonction score et un nouvel
individu sera affecté au groupe pour lequel le score sera le plus petit.
Analyse discriminante linéaire

Dans le cas où les matrices de variance-covariance sont identiques i.e. Σ1 = ... =
Σk = Σ (hypothèse d’homoscédasticité ou encore hypothèse d’équicovariance), les
calculs seront simplifiés. On pourra interpréter géométriquement cette hypothèse en
terme de forme et volume des nuages de points dans l’espace de représentation : ces
nuages auront la même forme (et volume).
Dans ce cas, la règle bayésienne d’affectation s’écrit :
1
Gk∗ = arg max (x0 Σ−1 µk − µ0k Σ−1 µk + ln(πk ))
k=1,K 2
En effet, en développant la quantité
Dk2 (x) = (x − µk )0 Σ−1 (x − µk ) − 2 ln(πk ) + ln |Σ|
on trouve
Dk2 (x) = x0 Σ−1 x − 2x0 Σ−1 µk + µ0k Σ−1 µk − 2 ln(πk ) + ln |Σ|
Donc minimiser Dk2 (x) est équivalent à maximiser − 21 (−2x0 Σ−1 µk + µ0k Σ−1 µk −
2 ln(πk )) (car x0 Σ−1 x et ln |Σ| ne dépendent pas de k).
Les estimateurs du maximum de la vraisemblance, en reprenant les notations de la
section 2.2, sont donc :
ck = gk = n1k
P
– µ xi .
i∈Gk
K P K
1
(xi − µk )(xi − µk )0 = 1
P P
– Σ
b=W =
n n
nk Vk ou encore par la version sans
k=1i∈Gk k=1
K
1
P
biais W = n−K
nk Vk .
k=1
77
On obtient ainsi la règle de classification d’analyse discriminante linéaire :
Gk∗ = arg max Lk (x)

k=1,K
où Lk (x) = x0 W −1 gk − 12 gk0 W −1 gk + ln(πbk ) est la fonction linéaire discriminante du

groupe Gk (encore appelée fonction linéaire de classement). Chaque fonction linéaire
discriminante définit une fonction score et une nouvelle observation sera affectée au
groupe pour lequel le score sera le plus grand.
– Remarque
Lorsqu’on suppose que π1 = ... = πk (égalité des probabilités à priori), la
règle de l’analyse discriminante linéaire est équivalente à la règle de classement
géométrique qui consiste à affecter un nouvel individu a au groupe Gk dont le
centre de gravité gk est le plus proche en terme de distance. Rappelons que la
distance utilisée est celle de Mahalanobis correspondante à la métrique W −1 .
Deux groupes avec égalité des matrices de variance-covariance

On affectera l’individu a au groupe G1 si :
p(Y = G1 /X) > p(Y = G2 /X)

1 1
⇐⇒ ln(π1 ) − (x − µ1 )0 Σ−1 (x − µ1 ) − ln(π2 ) + (x − µ2 )0 Σ−1 (x − µ2 ) > 0
2 2
1 π2
⇐⇒ x0 Σ−1 (µ1 − µ2 ) − (µ1 + µ2 )0 Σ−1 (µ1 − µ2 ) − ln( ) > 0
2 π1
1
Si π1 = π2 = 2 , on trouve la règle de Mahalanobis-Fisher en replaçant x par a et en
n
estimant Σ par n−2
W, µ1 par g1 et µ2 par g2 .
Soit maintenant
1 π2
S(x) = x0 Σ−1 (µ1 − µ2 ) − (µ1 + µ2 )0 Σ−1 (µ1 − µ2 ) − ln( )
2 π1
On affectera a au groupe G1 si S(x) > 0 et au groupe G2 si S(x) < 0.
La fonction S appelée score ou statistique d’Anderson est liée simplement à la pro-
babilité a posteriori d’appartenance au groupe G1 .
En effet, on a :
π1 f1 (x)
P (Y = G1 /X) = P =
π1 f1 (x) + π2 f2 (x)
78
d’où :
1 π2 f2 (x) π2 1 1
=1+ =1+ exp(− (x − µ2 )0 Σ−1 (x − µ2 ) + (x − µ1 )0 Σ−1 (x − µ1 ))
P π1 f1 (x) π1 2 2
d’où : ln( P1 − 1) = −S(x)

Soit
1 exp(S(x))
P = =
exp(−S(x)) + 1 1 + exp(S(x))
P est donc fonction logistique du score.
2.4.3 Tests et sélection de variables discriminantes
Les valeurs sont-elles distribuées normalement au sein de chaque groupe ? Des

droites de Henry ou des tests de normalité de type Kolmogorov-Smirnov permettent
de répondre à cette question. Même si l’analyse discriminante est assez robuste à
la non-normalité par rapport aux autres techniques linéaires telles que la régression
logistique. La normalité autorise des tests importants, notamment la vérification de
l’homoscédasticité.
Lorsque le nombre de variables, c’est-à-dire la dimension de X, est grand, il peut
être judicieux de ne travailler qu’avec un sous-ensemble de variables : celles dont le
pouvoir discriminant sera le plus élevé.
2.4.3.1 Quelques rappels sur les tests de normalité
a. Le diagramme quantile-quantile et la droite de Henry

Le diagramme quantile-quantile est un des tests de normalité les plus utilisés.
Il permet de comparer deux distributions que l’on estime semblables. Sur l’axe
des abscisses nous avons les quantiles de la distribution théorique (distribution
normale dans notre cas) et sur l’axe des ordonnées nous avons les quantiles de
l’échantillon que nous souhaitons comparer avec la distribution théorique.
Vu que nous avons un échantillon d’une loi normale, on devrait s’attendre à
ce qu’il y ait une tendance linéaire dans le diagramme quantile-quantile et afin
d’identifier cette tendance linéaire nous allons ajouter une droite, dite droite de
Henry (voir la figure suivante) :
79
Fig. 2.2 – Diagramme quantile-quantile et droite de Henry.
b. Le test de Kolmogorov-Smirnov
Le test de Kolmogorov-Smirnov (K-S) est l’un des tests d’adéquation non pa-
ramétrique les plus courants. Il permet d’estimer si le caractère d’un échantillon
est distribué de façon comparable à celui d’un autre ou s’il peut être approximé
par une loi de probabilité connue. Il donne notamment une bonne indication
d’ajustement à une loi normale.
Le principe est simple : on mesure l’écart maximum qui existe entre une fonction
de répartition empirique Fn (donc des fréquences cumulées) et une fonction de
répartition d’une loi de probabilité théorique F .
d = max |Fn (x) − F (x)|
Précisons que le test de Kolmogorov-Smirnov est indépendant de cette loi

théorique : on peut comparer la répartition empirique aussi bien à une loi nor-
male qu’à une loi de Poisson ou autre.
Soit D la variable aléatoire qui prend la valeur d.
Sous l’hypothèse H0 , d tend vers 0. La distribution de D fait l’objet des tables
de Kolmogorov, qui prennent en compte l’effectif de l’échantillon et le seuil de
risque accepté : il suffit alors de comparer d à la valeur idoine de D dans la
table.
80
2.4.3.2 Homoscédasticité et test de Box
L’hypothèse d’égalité des matrices Σk peut être testée au moyen du test de Box.
Si l’hypothèse Σ1 = Σ2 = ... = Σk est vraie, la quantité :
2p2 + 3p − 1 X 1 1 n X nk
(1− )[( − )(n−K) ln | W |− (nk −1) ln | Vk |]
6(p + 1)(k − 1) k
nk − 1 n − K n−K k
nk − 1
p(p+1)(K−1)
suit approximativement une loi de χ2 à 2
degrés de liberté.
– Remarque
Si l’on rejette l’hypothèse d’égalité, doit-on utiliser les règles quadratiques ?
Cela n’est pas sûr dans tous les cas. Tout d’abord le test de Box n’est pas par-
faitement fiable, ensuite l’usage de règles quadratiques implique l’estimation de
bien plus de paramètres que la règle linéaire, puisqu’il faut estimer chaque Σk .
Lorsque les échantillons sont de petite taille, les fonctions obtenues sont très
peu robustes et il vaut mieux utiliser une règle linéaire malgré tout.
Si, par exemple, p = 10 variables et K = 4 groupes : l’analyse discriminante
linéaire demande l’estimation de 95 paramètres et l’analyse discriminante qua-
dratique l’estimation de 260 paramètres.
2.4.3.3 Test de Wilks
Soient les hypothèses suivantes :

Hypothèse nulle : H0 = {les centres de gravité conditionnels sont confondus :
indépendance entre X et Y (µ1 = µ2 = ... = µK )}.
Hypothèse alternative : H1 = {il existe au moins un des centres de gravité qui s’écarte
significativement des autres}.
La statistique du test est le lambda de Wilks, son expression est la suivante :
|W | |W | 1
Λ= = = −1
|V | |W + B| |W B + I|
Elle suit la loi de Wilks de paramètres (p, n − k, k − 1) sous H0

avec |W | représente le déterminant de la matrice de variance-covariance intra-groupes
et |V | le déterminant de la matrice de variance-covariance globale.
81
L’hypothèse H0 est rejetée si Λ calculé est inférieur à Λ tabulé.
Remarques
– Ce test peut s’exprimer comme une généralisation multidimensionnelle de l’ana-
lyse de variance à un facteur (ANOVA), on parle dans ce cas de MANOVA
(Multidimensional Analysis of Variance).
– Il est rare de trouver la table de la loi de Wilks implémentée sous les différents
logiciels de statistique existant. Par conséquent, si n est suffisamment grand,
nous nous orienterons vers l’utilisation de l’approximation de Bartlett suivante :
1
χ2 = −[n − (p − K − 1)] ln(Λ)
2
qui suit une loi du χ2 à P degrés de liberté.
– Dans le cas où K = 2, on peut utiliser la transformation de Rao qui suit une
loi de Fisher de paramètres (p, n-p-1).
La formule de la statistique de test devient alors :
1−Λ
F =
Λ
2.4.3.4 Evaluation individuelle des variables prédictives - Sélection de

variables pas à pas
Comme dans toutes les méthodes linéaires, il est possible d’évaluer individuelle-
ment chaque variable prédictive et éventuellement d’éliminer celles qui ne sont pas
significatives dans la discrimination.
La statistique du test s’appuie sur la variation du Lambda de Wilks mesurée par :
n − K − p Λp
F = ( − 1)
K − 1 Λp+1
Elle suit une loi de Fisher à (K − 1, n − K − p) degrés de liberté.
– Remarque
La plupart des logiciels présentent des techniques de sélection ascendante,
descendante ou mixte des variables.
82
Sélection ascendante (option Forward)

- A l’étape initiale aucune variable n’est présente.
- A chaque étape on fait entrer la variable qui contribue le plus au pouvoir discrimi-
nant du modèle, mesuré par le lambda de Wilks.
- La sélection s’arrête quand aucune des variables non sélectionnées ne convient au
sens du seuil de probabilité choisi pour le F de Fisher.
Sélection descendante (option Backward)

- On démarre avec le modèle complet (construit avec toutes les variables)
- A chaque étape, la variable contribuant le moins au pouvoir discriminant du modèle
est éliminée.
- La sélection s’arrête quand on ne peut plus éliminer de variables étant donné le
seuil de probabilité choisi pour le F de Fisher.
Sélection mixte (option Stepwise)

- On démarre comme dans la procédure ascendante.
- Dès qu’une variable entre dans le modèle, on vérifie compte tenu de cette entrée si
l’une des variables déjà présentes est susceptible d’être éliminée.
- La sélection s’arrête quand on ne plus ajouter ou éliminer de variables.
2.4.4 Validation d’une règle d’affectation
Elle consiste à estimer le taux théorique d’erreur de classement (appelé aussi

risque ou coût) à partir d’un ensemble d’individus répartis en K groupes soumis à
une analyse discriminante. Cette estimation s’obtient de différentes manières, que l’on
peut mettre en œuvre dans les analyses.
2.4.4.1 Méthode de resubstitution
De manière classique en analyse discriminante, pour évaluer les performances

d’une fonction de classement, nous confrontons ses prédictions avec les vraies va-
leurs de la variable à prédire sur un fichier de données. Le tableau croisé qui en
résulte s’appelle une matrice de confusion de terme général nks avec : en lignes les
83
vrais groupes d’appartenance, en colonnes les groupes d’appartenance prédits (voir le

tableau ci-dessous). Le taux d’erreur ou taux de mauvais classement est tout simple-
ment, lorsque la prédiction ne coı̈ncide pas avec la vraie valeur, rapporté à l’effectif
du fichier de données.
L’estimation du taux théorique d’erreur de classement est égale au pourcentage d’in-

dividus de l’échantillon mal classés par la règle d’affectation, on parle de taux d’erreur
en resubstitution :
K
bres = 1 − 1
X
C nkk
n k=1
Cette estimation, obtenue en appliquant la règle d’affectation à tous les individus
ayant contribué à la construire, est une estimation dite échantillon dépendante. C’est
une estimation biaisée.
– Remarque
Cette approche n’est pas recommandée en pratique puisqu’on a tendance à
sous-estimer le taux d’erreur.
Pour obtenir une estimation plus précise du taux d’erreur théorique de classement,
on a recours à la méthode suivante.
2.4.4.2 Méthode de l’échantillon-test
Cette méthode est valable dans le cas des grands échantillons. La procédure est
de construire la fonction de classement sur une fraction de données, dites d’appren-
tissage ; puis de l’évaluer sur une autre fraction de données, dites de test.
On effectue au hasard un tirage de 20 à 30% des individus dans chaque groupe, ce
84
qui constitue l’échantillon test, répartis en K sous-ensembles T1 , ..., TK , le reste (de

70 à 80%) est l’échantillon d’apprentissage (échantillon de base) constitué de K sous-
ensembles B1 , ..., BK .
L’analyse discriminante est alors effectuée sur les individus de l’échantillon de base. Il
en résulte une règle d’affectation qui, appliquée à l’échantillon-test, fournit une esti-
mation du taux théorique d’erreur de classement qui est le pourcentage d’individus de
l’échantillon-test mal classés par la règle d’affectation issu du tableau de classement :
K
bet = 1 − 1
X
C nkk
n k=1
bet est une meilleure estimation (estimation sans biais) que celle obtenue par
C
resubstitution, puisqu’elle est obtenue à partir d’un échantillon indépendant de
l’échantillon de base.
Remarque
On peut sélectionner une règle de classement permettant de minimiser l’erreur de
classement afin de sélectionner les variables discriminantes en utilisant la méthode
dite séquentielle :
1. On sélectionne la variable j1 qui permet d’obtenir le plus faible taux d’erreur dans
un modèle à 1 variable.
2. On sélectionne la variable j2 qui permet d’obtenir le plus faible taux d’erreur,
lorsqu’elle est utilisée conjointement à j1 dans un modèle à 2 variables.
3. On sélectionne la variable j3 qui permet d’obtenir le plus faible taux d’erreur,
lorsqu’elle est utilisée conjointement à j1 et j2 dans un modèle à 3 variables. etc
85
Chapitre 3
Application
3.1 Introduction
Les méthodes d’analyse de données nées de la recherche universitaire sont depuis
longtemps entrées dans le monde industriel. Il y a cependant peu de logiciels qui
savent intégrer ces méthodes pour une recherche exploratoire aisée dans les données.
Nous citons ici sept logiciels : SAS, Splus, R, XlStat, UniWin Plus, Stalab et SPAD.
Dans ce chapitre nous avons fait le choix d’utiliser le logiciel R qui est la version
gratuite de Splus. Il est téléchargeable sous www.r-project.org pour tous systèmes
d’exploitation. Il semble très peu employé en industrie. De part sa gratuité, il est de
plus en plus employé pour la réalisation de cours de statistiques.
Notre travail consiste à discriminer les arbres aux nombre 140 sur la base des ca-
ractères quantitatifs des gousses et des graines utilisées en industrie. Ces gousses ont
été récoltées dans 7 localités de l’Algérie du nord. Sur chaque gousse et sur chaque
graine ont été évalués les paramètres suivants : la longueur, la largeur, l’épaisseur et
le poids. On s’intéresse au rendement de chaque arbre qui a été réparti en 3 classes
suivantes : A, B et C.
3.2 Les données

Les données suivantes concernent 140 observations et 9 variables dont 8 sont
numériques et la neuvième est qualitative à 3 modalités. Le nombre d’individus qui
86
CHAPITRE 3. Application
constituent la première et la deuxième classe (A et B) est 44 tandis que la troisième

classe (C) contient 52 individus.
> #exploring data

> arbre<-read.table("arbre.txt",header=TRUE)
> str(arbre)
’data.frame’: 140 obs. of 9 variables:
$ sl : num 9.38 9.8 10.06 9.82 10.03 ...
$ swd : num 7.46 6.28 6.44 6.31 6.38 6.52 7.8 7.58 7.01 7.33 ...
$ sth : num 4.64 3.68 3.67 3.75 3.75 3.75 4.52 3.53 3.89 4.5 ...
$ swg : num 1.65 1.6 1.83 1.76 1.78 1.67 1.87 1.22 2.82 2.74 ...
$ pl : num 18.3 17.5 17.7 17.9 19 ...
$ pwd : num 2.34 1.91 1.99 1.97 1.88 1.93 2.46 1.94 2.26 2.11 ...
$ pth : num 1.16 0.76 0.82 0.78 0.75 0.78 1.06 0.91 0.99 0.96 ...
$ pwg : num 14.4 12 14.2 13.6 13.6 ...
$ classes: Factor w/ 3 levels "A","B","C": 1 1 1 1 1 1 1 1 1 1 ...
> table (arbre$classes)
A B C
44 44 52
Description des variables

sl : longueur de la graine (seed lenght).
swd : largeur de la graine (seed width).
sth : épaisseur de la graine (seed thikness).
swg : poids total des graines par gousse (seed weight).
pl : longueur de la gousse (pod lenght).
pwd : largeur de la gousse (pod width).
pth : épaisseur de la gousse (pod thikness).
pwg : poids de la gousse (pod weight).
classes : classe de rendement de chaque arbre, il en existe trois (A, B et C)
87
Objectif
Réduire le nombre de dimensions des données, en projetant les individus sur des
axes déformant le moins possible la réalité, en prenant en compte la structuration en
classes de la population totale des individus.
Principe
Recherche de nouvelles variables, dites composantes discriminantes, obtenues à partir
des combinaisons linéaires des variables originales.
3.3 Nuages de points et corrélation

Pour chaque variable quantitative nous avons les histogrammes, les nuages des
points ainsi que les coefficients de corrélation suivants (voir la figure 3.1) :
#scatter plots and correlations

> library(psych)
> pairs.panels(arbre[1:8], gap = 0, bg = c("red", "green", "yellow")
[arbre$classes], pch=21)
88
Fig. 3.1 – Nuages de points, histogrammes et corrélation.
On observe, en visualisant la figure ci-dessous, une allure approximativement nor-

male, cela suggère que chaque variable suit une loi normale. On peut aussi remarquer
que les variables qui aident le plus à séparer les classes sont ”pwg” et ”swg”. Cepen-
dant les autres variables ne permettent pas une bonne séparation des groupes.
Signalons aussi la faible corrélation entre ces variables deux à deux.
3.4 Méthode échantillon-test

Séparons l’échantillon en deux blocs : échantillon d’apprentissage pour créer le
modèle et élaborer des règles de décision ou d’affectation et échantillon test pour
estimer les performances du modèle.
On prend 70% de l’échantillon global comme échantillon d’apprentissage et les 30%
restante comme échantillon test.
> #data partition

> set.seed(555)
> ind<-sample(2, nrow(arbre), replace=TRUE, prob=c(0.7, 0.3))
3.4.1 Echantillon d’apprentissage
> #échantillon d’apprentissage

> training<-arbre[ind==1, ]
> dim(training)
[1] 96 9
Le nombre d’individus constituant l’échantillon d’apprentissage est 96 arbres.
89
3.4.2 Echantillon test
> #échantillon test

> testing<-arbre[ind==2, ]
> dim(testing)
[1] 44 9
Le nombre d’individus constituant l’échantillon test est 44 arbres.
3.5 L’analyse linéaire discriminante

Les coordonnées de chaque variable sur les deux axes discriminants ainsi que les
probabilités a priori des classes et les moyennes des variables dans chacune de ces
classes sont donnés comme suit :
> #linear discriminant analysis

> library("MASS")
> linear<-lda(classes~.,training)
> linear
Call:
lda(classes ~ ., data = training)
Prior probabilities of groups:

A B C
0.3541667 0.3229167 0.3229167
Group means:
sl swd sth swg pl pwd pth pwg
A 8.795882 6.795000 3.635588 1.234706 15.28912 2.092647 0.6938235 11.226471
B 9.502581 6.856452 4.245161 2.090323 16.15226 2.078065 0.8258065 12.953548
C 9.133226 6.878387 4.272581 2.201935 14.30452 1.788387 0.7706452 9.383226
90
Coefficients of linear discriminants:

LD1 LD2
sl -0.3774525 -0.51045533
swd 0.4150403 1.21870600
sth -0.4045695 -0.88159280
swg 4.3386545 0.07298041
pl 0.1805364 -0.04576348
pwd -0.1804172 -1.42677842
pth 1.3020256 -2.05657750
pwg -0.7660769 -0.08885871
Proportion of trace:
LD1 LD2
0.9395 0.0605
Nous remarquons que le premier axe explique 93.95% de l’information tandis que
le deuxième explique seulement 6.05%.
3.6 Qualité de représentation sur les axes discri-

minants
Les probabilités a postériori d’appartenance de chaque individu de l’échantillon
d’apprentissage à chacune des trois classes et les coordonnées des projections des
individus sur les deux axes discriminants sont données comme suit :
91
> p<-predict(linear,training)
> p
$class
[1] A A A A B A A A A A A A A A A A A A A A A A A A A B A A A A A A A A B B B B
[39] B B B B B B B B B B B B B B B B B B B A B B B C B B B C C C C C C C C C C C
[77] C C C B B C C C C C C C C C C C C C C C
Levels: A B C
$posterior
A B C
1 6.141179e-01 3.858804e-01 1.658474e-06
3 7.093896e-01 2.906076e-01 2.891670e-06
4 6.432680e-01 3.567260e-01 6.011507e-06
5 5.310552e-01 4.689237e-01 2.102694e-05
6 3.800239e-01 6.198607e-01 1.154611e-04
8 9.942521e-01 5.747863e-03 1.871589e-08
9 7.847680e-01 2.152320e-01 4.004726e-08
12 9.980305e-01 1.969442e-03 6.052346e-08
13 9.976758e-01 2.324165e-03 2.434154e-08
14 9.997540e-01 2.459095e-04 1.094580e-07
17 9.878901e-01 1.210223e-02 7.688972e-06
18 9.846646e-01 1.533457e-02 8.062936e-07
21 9.861681e-01 1.382956e-02 2.371158e-06
92
22 9.992161e-01 7.839259e-04 1.761672e-09

23 9.878171e-01 1.218041e-02 2.483014e-06
24 9.995687e-01 4.313186e-04 1.279543e-09
25 9.993126e-01 6.874024e-04 2.025117e-09
26 9.960448e-01 3.955026e-03 1.277670e-07
27 9.801378e-01 1.985972e-02 2.440675e-06
29 9.592469e-01 4.072287e-02 3.026301e-05
30 9.979894e-01 2.010521e-03 3.948284e-08
31 9.717614e-01 2.823852e-02 8.203255e-08
32 9.103479e-01 8.964945e-02 2.672914e-06
33 9.878907e-01 1.210927e-02 2.248174e-08
34 6.282377e-01 3.716994e-01 6.285293e-05
35 4.851181e-01 5.147586e-01 1.232637e-04
36 8.215370e-01 1.784497e-01 1.328276e-05
37 9.531694e-01 4.683043e-02 1.270238e-07
38 7.104397e-01 2.894074e-01 1.529741e-04
39 8.751693e-01 1.248096e-01 2.113080e-05
40 6.591873e-01 3.407795e-01 3.324357e-05
42 9.793482e-01 2.065182e-02 1.132208e-08
43 7.711749e-01 2.288031e-01 2.200989e-05
44 8.564935e-01 1.435024e-01 4.104011e-06
45 2.301903e-01 7.697184e-01 9.126172e-05
46 1.788445e-01 8.206763e-01 4.792286e-04
93
48 1.156524e-01 8.836382e-01 7.093469e-04

49 1.722763e-01 8.275649e-01 1.587827e-04
50 7.559007e-02 9.233605e-01 1.049397e-03
51 1.908115e-01 8.011726e-01 8.015910e-03
52 1.002310e-02 9.057894e-01 8.418755e-02
54 4.496687e-03 9.052628e-01 9.024054e-02
55 3.740692e-01 6.259225e-01 8.299473e-06
56 3.540980e-02 9.624766e-01 2.113619e-03
57 1.400968e-02 9.859542e-01 3.612909e-05
58 4.088274e-03 9.911894e-01 4.722327e-03
61 5.573841e-03 9.868848e-01 7.541324e-03
62 2.771903e-03 6.263277e-01 3.709004e-01
63 4.806284e-03 6.218225e-01 3.733713e-01
64 5.678359e-03 8.161343e-01 1.781873e-01
65 2.939525e-03 7.147008e-01 2.823597e-01
67 2.380257e-03 6.340572e-01 3.635625e-01
68 4.629506e-01 5.364979e-01 5.514093e-04
69 2.178655e-01 7.808772e-01 1.257387e-03
70 4.429006e-01 5.568532e-01 2.462312e-04
71 3.321729e-01 6.660463e-01 1.780842e-03
72 3.344344e-01 6.650148e-01 5.508252e-04
73 7.260475e-01 2.738780e-01 7.452574e-05
79 9.083049e-04 4.055384e-01 5.935533e-01
94
77 2.253182e-02 9.154258e-01 6.204236e-02

78 2.418331e-03 9.932211e-01 4.360568e-03
79 9.083049e-04 4.055384e-01 5.935533e-01
80 1.479773e-03 8.836023e-01 1.149179e-01
87 7.522495e-02 9.240319e-01 7.431609e-04
88 2.259984e-02 9.703698e-01 7.030315e-03
89 2.294670e-04 3.112567e-01 6.885138e-01
91 2.480402e-13 9.520301e-07 9.999990e-01
92 2.162907e-09 1.558048e-04 9.998442e-01
93 1.816067e-04 4.289924e-01 5.708260e-01
95 3.632928e-09 1.742161e-04 9.998258e-01
98 4.845659e-10 1.461484e-04 9.998539e-01
99 1.840521e-08 1.367766e-03 9.986322e-01
103 8.604316e-04 2.720338e-01 7.271058e-01
105 8.393550e-04 3.785076e-01 6.206530e-01
106 1.028516e-06 2.255738e-03 9.977432e-01
107 7.529876e-07 2.313592e-03 9.976857e-01
109 1.881853e-03 3.549291e-01 6.431890e-01
110 1.588809e-04 8.875226e-02 9.110889e-01
111 7.599355e-06 9.178581e-03 9.908138e-01
114 2.292223e-03 5.458062e-01 4.519016e-01
115 3.504472e-03 6.113031e-01 3.851924e-01
117 2.119810e-07 2.018028e-03 9.979818e-01
95
119 2.544300e-08 8.206250e-04 9.991793e-01

120 5.838927e-06 1.281884e-02 9.871753e-01
121 2.313615e-07 1.501398e-03 9.984984e-01
124 2.747938e-04 1.158317e-01 8.838935e-01
125 6.513005e-06 6.164708e-02 9.383464e-01
126 6.662819e-07 1.113444e-02 9.888649e-01
128 8.592472e-06 3.566977e-02 9.643216e-01
130 1.408096e-07 2.116416e-03 9.978834e-01
131 1.356133e-07 3.637278e-04 9.996361e-01
132 9.598555e-16 2.226570e-08 1.000000e+00
133 3.348837e-06 1.891130e-03 9.981055e-01
134 1.017436e-07 2.925967e-04 9.997073e-01
138 5.490518e-03 3.408051e-01 6.537044e-01
139 2.410806e-07 4.372673e-04 9.995625e-01
$x
LD1 LD2
1 -2.25479326 -1.65712748
3 -2.16861863 -1.14227913
4 -2.00950439 -1.09890317
5 -1.73184046 -0.97064965
6 -1.33942088 -0.75308161
8 -3.17126940 0.53758622
9 -3.02365124 -2.39340910
96
12 -2.92816641 1.88048793
13 -3.10899841 1.40762601
14 -2.78617962 3.87246874
17 -1.99781562 2.08832674
18 -2.44292051 1.06433522
21 -2.23012904 1.54565091
22 -3.61127049 1.38061968
23 -2.21980108 1.67160498
24 -3.66665616 1.77436327
25 -3.58228607 1.54350095
26 -2.78980878 1.55628310
27 -2.22784605 1.24431728
29 -1.73855041 1.53680611
30 -3.01228340 1.70745404
31 -2.89680554 -0.29457305
32 -2.21523674 -0.04508152
33 -3.14339799 -0.03478906
34 -1.54485205 -0.29172545
35 -1.36915096 -0.45117878
36 -1.89017772 -0.09958844
37 -2.81372071 -0.57666706
38 -1.38970181 0.30562925
39 -1.80619022 0.40538378
97
40 -1.67766088 -0.42576596
42 -3.28314062 -0.74416543
43 -1.78249675 -0.15896756
44 -2.12571184 -0.32044115
45 -1.29613360 -1.26890868
46 -0.92492350 -0.84388159
48 -0.76870591 -0.97775087
49 -1.13502699 -1.27118673
50 -0.61418090 -1.08103831
51 -0.38345809 0.23314026
52 0.61840366 -0.45880163
54 0.77940735 -0.82552134
55 -1.85353456 -1.72686885
56 -0.33780928 -1.23304479
57 -0.96653088 -3.18788659
58 0.21656208 -2.02275980
61 0.25153323 -1.69698918
62 1.15046220 -0.23386097
63 1.05066710 0.04421012
64 0.87138218 -0.37531997
65 1.08446951 -0.41697869
67 1.17439081 -0.32618303
68 -1.06693094 0.03562119
98
69 -0.77120148 -0.35390978
70 -1.21754136 -0.31112334
71 -0.77842529 0.11497087
72 -1.01003599 -0.30725690
73 -1.53419684 0.10173288
74 -0.59678357 0.10091267
77 0.40942018 -0.18224209
78 0.29741798 -2.31058552
79 1.45332566 -0.23816252
80 1.03151083 -1.26112672
87 -0.68104637 -1.20955611
88 -0.01939496 -1.02268114
89 1.73871015 -0.63202059
91 5.76615355 0.23127161
92 4.03434815 0.32336165
93 1.74090724 -1.08854486
95 3.93760851 0.48195566
98 4.31017892 -0.35451485
99 3.61333542 -0.48258975
103 1.50811015 0.14991750
105 1.47746640 -0.20170803
106 2.86724533 1.06006899
107 2.92424637 0.88575347
99
109 1.33683597 0.26148490

110 1.87695303 0.36073589
111 2.48066791 0.83909795
114 1.22589567 -0.13760077
115 1.11507483 -0.08456046
117 3.15904949 0.38185993
119 3.56028911 0.11214748
120 2.52422255 0.42364921
121 3.14675903 0.67726319
124 1.76695413 0.39071229
125 2.47456973 -0.88162497
126 2.92537817 -0.51831826
128 2.43581931 -0.26908965
130 3.23364628 0.14089129
131 3.26288975 1.62606573
132 6.83424159 0.71660524
133 2.65248436 1.78868411
134 3.31844980 1.67110681
138 1.14366741 0.82633252
139 3.15480356 1.75059327
100
> ldahist(data=p$x[,1],g=training$classes)
Fig. 3.2 – Qualité de représentation sur l’axe LD1.
La figure 3.2 nous montre que, sur le premier axe discriminant, la classe A est très
bien séparée de la classe C mais on n’a pas une nette séparation entre les classes A
et B ainsi qu’entre les classes B et C.
101
Tandis que la figure suivante nous montre qu’il n’y a aucune séparation entre les
trois classes A, B et C sur l’axe LD2.
> ldahist(data=p$x[,2],g=training$classes)
Fig. 3.3 – Qualité de représentation sur l’axe LD2.
3.7 Représentation simultanée
> #Biplot
> library(devtools)
> library(ggord)
> ggord(linear, training$classes)
102
Fig. 3.4 – Biplot.
La figure ci-dessus montre que les trois classes sont assez bien séparées. L’axe ”LD2”
n’est guère discriminant mais il est bien utile pour faire un graphique.
Nous remarquons aussi que les variables swg, swd, pth et pwd interviennent dans la
description des individus contrairement à pl, sl, sth et pwg et que la variable swg
permet de bien séparer la classe C des autres classes.
3.8 Matrice de confusion- échantillon d’apprentis-

sage
La matrice de confusion suivante donne les résultats du classement :
103
> #Cofusion matrix and accurary - Training data

> p1<-predict(linear, training)$class
> tab<-table(Predicted=p1, Actual=training$classes)
> tab
Actual
Predicted A B C
A 32 1 0
B 2 29 2
C 0 1 29
> sum(diag(tab))/sum(tab)
[1] 0.9375
On trouve qu’un seul individu de la classe A est classé dans B et que deux indi-
vidus de la classe B, sont attribués à la classe A et deux autres à la classe C, alors
qu’un seul individu de la classe C est mal classé.
Le pourcentage des individus bien classés est 93.75%. Ces r´esultats semblent excel-
lents.
3.9 Matrice de confusion- échantillon test

On trouve, en visualisant la matrice ci-dessous, que les 9 individus de la classe A
sont parfaitement classés et que seuls deux individus de la classe C et de la classe B
sont mal classés.
104
> #Cofusion matrix and accurary - Testing data

> p2<-predict(linear, testing)$class
> tab1<-table(Predicted=p2, Actual=testing$classes)
> tab1
Actual
Predicted A B C
A 9 0 0
B 1 11 1
C 0 2 20
> sum(diag(tab1))/sum(tab1)
[1] 0.9090909
cet = 9.09%
L’estimation du taux théorique d’erreur est : C
3.10 Test de Wilks

Les centres de gravité des trois nuages de points s’écartent significativement. C’est
ce que nous indique le test de Wilks suivant :
> #Test de Wilks

> fit <- manova(as.matrix(arbre[,1:8]) ~ classes , arbre)
> summary(fit, test = "Wilks")
Df Wilks approx F num Df den Df Pr(>F)
classes 2 0.12958 28.893 16 260 < 2.2e-16 ***
Residuals 137
---
Signif. codes: ‘0 ***’‘ 0.001 **’‘ 0.01 *’‘’‘ 0.05 . 0.1 ’1
105
Conclusion
Nous avons présenté dans le premier chapitre le principe général des analyses fac-
torielles. Cette approche permet de représenter géométriquement de grands tableaux
de données dans des sous-espaces sans perte d’information importante. La dimension
de ces sous-espaces se fait en cherchant à minimiser la perte d’information. Une fois
la dimension du sous-espace choisie, les données sont représentées graphiquement par
des projections sur les différents plans qui constituent le sous-espace. Bien sûr les pre-
miers plans principaux sont ceux contenant le plus d’information. Avant d’appliquer
cette approche générale à un tableau quelconque, il est important de tenir compte
des données de départ. Pour se faire, il faut appliquer des transformations en fonction
de leur type. En effet, nous avons vu comment transformer des données quantitatives
dans le cadre de l’analyse en composantes principales et des données qualitatives dans
les cas de l’analyse factorielle de correspondances et de celle des correspondances mul-
tiples.
Dans le second chapitre nous avons présenté l’une des méthodes les plus utilisées de
nos jours : l’analyse discriminante. La simplicité de sa mise en œuvre fait que nous la
retrouvons dans de nombreux logiciels. Elle est adéquate pour la représentation des
données dans des espaces qui discriminent au mieux les individus selon des classes
connues. Cette représentation permet de dégager des informations à partir d’un grand
nombre de données souvent difficile à interpréter. Elle permet également l’affectation
de nouveaux individus dans les classes existantes. Il est alors possible de rendre la
méthode adaptative pour tenir compte de ces nouvelles observations.
Le troisième chapitre est consacré à l’application de l’analyse linéaire discriminante
sur des données d’agronomie. Les résultats obtenus semblent adaptés à la réalité.
106
Références bibliographiques
[1].J-M.ROMEDER., Méthode et programmes d’analyse discriminante., DUNOD

Paris-Bruxelles-Montréal., 1973.
[2].F.CAILLIEZ et J-P.PAGES., Introduction à l’Analyse des Données., SMASH.,
1976.
[3].L.Lebart, A.Morineau, N.Tabard., Techniques de la description statistique.
Méthodes et logiciels pour l’analyse de grands tableaux., Dunod., 1977.
[4].J-P.Pages., F.Cailliez, Y.Escoufier., Analyse factorielle : un peu d’histoire et de
géométrie., Revue de Statistique Appliquée, Vol XXVII, n˚1 pp. 5-28., 1979.
[5].J-P.Fenelon., Qu’est-ce que l’analyse des données ?, Lefonen., 1981.
[6].J-P.Benzécri., Histoire et préhistoire de l’analyse des données., Dunod., (1982).
[7].E.Diday, J.Lemaine, J.Pouget, F.Testu., Eléments d’analyse de données., DU-
NOD., 1982.
[8].B.Escoffier et J. Pagèes : Analyses factorielles simples et multiples objectifs,
méthodes et interprétations., Dunod., 1990.
[9].S.AMBAPOUR., Introduction à l’analyse des données., BAMSI B.P. 13734 Braz-
zaville., 04/2003.
[10].G.Govaert., Analyse des données., LAVOISIER., 2003.
[11].J-P.Nakache, Josiane Confais., Statistique explicative appliquée., TECHNIP, 27
rue Ginoux, 75737 PARIS Cedex 15, France., 2003.
[12].A.MARTIN.,L’analyse de données Polycopié de cours ENSIETA - Réf. : 1463.,
Septembre 2004.
[13].G.SAPORTA., Probabilités, analyse de données et statistique, TECHNIP, 27 rue
Ginoux, 75737 PARIS Cedex 15, France, 2006.
[14].A.GUYAFER. , Régression linéaire., 2013.
107
[15].V.Monbet., Analyse des données Master Statistique et économétrie., 2013-2014.
[16].C.Duby, S. Robin., Analyse en Composantes Principales., AgroParisTech.
108

Touat, Dyhia

Transféré par

Informations du documentcliquez pour développer les informations du document

Informations du documentcliquez pour développer les informations du document

Droits d'auteur :

Formats disponibles

Touat, Dyhia

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Touat, Dyhia

Transféré par

Droits d'auteur :

Formats disponibles

RÉPUBLIQUE ALGÉRIENNE DÉMOCRATIQUE ET POPULAIRE

MINISTÈRE DE L’ENSEIGNEMENT SUPÉRIEUR ET DE LA RECHERCHE SCIENTIFIQUE

UNIVERSITÉ MOULOUD MAMMERI

FACULTÉ DES SCIENCES

M elle . TOUAT Dyhia

Pour l’obtention du diplôme de

M r . Youcef BERKOUN Professeur UMMTO Président

En premier lieu, je remercie Dieu tout puissant de m’avoir accordée la puissance

Je tiens à exprimer toute ma reconnaissance à mon directeur de mémoire, Monsieur

Je tiens à remercier très vivement Madame KROUCHI qui a accepté de me four-

J’adresse mes sincères remerciements à toute l’équipe pédagogique du département

Je dédie cette thèse à :

A ma très chère sœur Fatma : En témoignage de l’attachement, de l’amour et de

A mes amis : Sabrina, Fatima, Massiva, Lynda, Mohamed Samir, Hassane et

A tous mes enseignants : J’ai eu le privilège de travailler parmi votre équipe et

Table des matières 4

1 Analyse des données 10

1.5.8 Individus et variables supplémentaires . . . . . . . . . . . . . 31

2.4.1.1 Formule de décomposition de Huygens . . . . . . . . 59

3.10 Test de Wilks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

Références bibliographiques 107

En statistique, les analyses multivariées ont pour caractéristique de s’intéresser

Analyse des données

1.2 Un peu d’histoire

En ce qui concerne l’analyse factorielle, il faut remonter aux travaux du psy-

Puis, l’analyse factorielle en composantes principales, développée par le statis-

L’analyse factorielle des correspondances, introduite par J.P Benzécri (1962),

Enfin, signalons l’analyse factorielle discriminante ou analyse discriminante initiée

Ces techniques doivent donc permettre de représenter synthétiquement de vastes

L’analyse des données ne se limite pas à une représentation des données, ou

1.4 Domaines d’application

1.5 Analyse en Composantes Principales (ACP)

1.5.1 Tableau de données et espaces associés

Les données se présentent généralement sous la forme d’un tableau rectangulaire

1.5.1.1 Le tableau de données

On note X la matrice de dimension (n,p) contenant les observations :

1.5.2 Caractéristiques de la variable X j

Sa racine carrée définit l’écart type σj .

La variable centrée et réduite :

1.5.3 Poids et centre de gravité

Dans le cas le plus usuel de poids égaux, Dp = n1 In .

Le vecteur G des moyennes arithmétiques de chaque variable G = (x1 , ...xp )0 définit

1.5.4 La transformation des données

Il existe plusieurs transformations utilisées. L’analyse centrée consiste à modifier

L’analyse centrée réduite ou encore normée est liée à la transformation des

Le tableau Y tel que yij = xji − xj est le tableau centré associé à X.

1.5.5 Matrice de variance-covariance et matrice de

La matrice carrée V telle que V = Y 0 Dp Y (avec Y’est la transposée de Y) est ap-

La matrice regroupant tous les coefficients de corrélation linéaire entre les p

Rappelons que : cov(X,Y)=cov(Y,X) et r(X,Y)=r(Y,X).

et de valeurs propres réelles positives ou nulles).

1.5.6 L’analyse des nuages

L’analyse en composantes principales est particulièrement adaptée aux variables

1.5.6.1 Analyse du nuage des points individus dans Rp

d2 (Xi , Xi0 ) = (xji − xji0 )0 M (xji − xji0 )

où M est une matrice symétrique définie positive de taille p.([12])

ainsi que la norme d’un vecteur :

1.5.6.2 Analyse du nuage des points variables dans Rn