Cours ACP
Cours ACP
Cours ACP
10
Lanalyse en composantes principales (ACP), dveloppe en France dans les annes 1960 par JP. Benzcri, est une mthode de statistique exploratoire permettant de dcrire un grand tableau de
donnes de type individus / variables. Lorsque les individus sont dcrits par un nombre important de
variables, aucune reprsentation graphique simple ne permet de visualiser le nuage de points form par
les donnes. LACP propose une reprsentation dans un espace de dimension rduite, permettant ainsi
de mettre en vidence dventuelles structures au sein des donnes. Pour cela, nous recherchons les
sous-espaces dans lesquels la projection du nuage dforme le moins possible le nuage intial.
Dans la suite, nous identifions un vecteur x Rp avec la matrice colonne de ses coordonnes dans la
base canonique, que nous notons x = (x1 , . . . , xp )t , o pour une matrice A, At dsigne sa transpose.
1 Les donnes
15
Les donnes sont sous la forme dun tableau n lignes et p colonnes, que lon stocke sous la forme
dune matrice X de taille n p :
chaque ligne (x1i , . . . , xpi ) de X reprsente les valeurs prises par lindividu i sur les p variables,
de mme chaque colonne (xj1 , . . . , xjn )t de X reprsente les valeurs de la variable j pour les n
individus.
Par simplicit de langage, lindividu i sera indentifi au vecteur xi = (x1i , . . . , xpi )t de Rp tandis que la
variable j sera identifie au vecteur xj = (xj1 , . . . , xjn )t de Rn .
20
Lexemple que nous traiterons tout au long de ce document est le suivant : lors dun concours
agricole, un jury a donn des notes 10 marques de cidres relativement 10 critres de dgustation. Le
Tableau 1 reprend ces notes. Dans notre formalisme dACP, les marques de cidres sont les individus et
les critres gustatifs sont les variables.
25
30
(1)
P
o xj = n1 ni=1 xji est la moyenne1 des valeurs prises par la j-me variable.
En retranchant xj aux valeurs de la variable j prises par les individus, on construit le tableau Y des
donnes centres : yij = xji xj . La matrice Y correspondante scrit en fonction de X de la faon
1
Notez que nous supposons ici que tous les individus ont le mme poids, ce qui nest pas systmatique en ACP.
cidre
1
2
3
4
5
6
7
8
9
10
odeur
2,14
2,43
2,71
3
3,43
3,14
3,14
2,43
5,1
3,07
sucre
1,86
0,79
3,14
3,71
1,29
0,86
1,14
3,71
2,86
3,14
acide
3,29
2,71
2,57
2,14
2,86
2,86
2,86
3,21
2,86
2,57
amer
2,29
2,57
2,57
2,07
3,14
3,79
2,86
1,57
3,07
3
astringence
2
2
1,43
1,57
2,17
2,57
2
1,71
1,79
2
suffocante
0,14
0,43
0,14
0
1
0,14
0,43
0
1,71
0
piquante
2,29
2,57
2,14
1,29
1,86
1,71
1,71
1
0,43
0,43
alcool
1,86
2,86
0,86
1
2,86
3,29
1,86
0,57
1,43
1,29
parfum
1,29
0,43
2,29
3,14
1,14
0,14
0,14
2,57
0,57
2,57
fruite
1,29
0,14
1,71
3,14
0,29
0
0
2,86
2,71
3,07
TAB . 1 Notes obtenues par 10 marques de cidres sur 10 critres lors dun concours agricole.
suivante : Y = X 1g t o 1 est le vecteur de Rn dont toutes les composantes valent 1. Le terme centr
signifie que les moyennes des variables y j sont nulles.
Pn
j
1
2
j )2 la variance de la variable j, sa racine carr sj est lcart-type et
On note
s
=
j
i=1 (xi x
n
P
n
1
k
k
l
l
vkl = n i=1 (xi x )(xi x ) est la covariance des variables k et l.
On appelle matrice de variance la matrice symtrique V contenant les variances s2j sur la diagonale
et les covariances vkl en dehors de la diagonale (ligne k colonne l pour vkl ). Cette matrice scrit :
V =
40
45
50
1 t
1
X X gg t = Y t Y.
n
n
(2)
De mme, on dfinit le coefficient de corrlation linaire entre les variables k et l par rkl = svkklsl .
Ce coefficient exprime le niveau de corrlation (linaire) entre les variables k et l : plus il est proche
de 1, plus les variables sont corrles positivement, plus il est proche de -1, plus elles sont corrles
ngativement. Un coefficient de corrlation nul indique labsence de corrlation linaire.
En divisant chaque colonne j du tableau centr Y par lcart-type sj de la variable j, on construit le
tableau Z des donnes centres rduites : zij = (xji xj )/sj . La matrice Z sexprime en fonction de
X par Z = (X 1g t )D1/s o D1/s est la matrice diagonale contenant s11 , . . . , s1p sur sa diagonale. Le
terme rduit signifie que les variances des variables z j sont gales 1.
La matrice R = D1/s V D1/s est dite de corrlation. Regroupant les coefficients de corrlation linaire
entre les p variables prises deux deux, elle rsume la structure des dpendances linaires entre les p
variables. Elle est symtrique et sa diagonale est compose de 1.
La matrice de corrlation pour lexemple des cidres est la suivante (Table 2, les corrlations importantes apparaissent en gras).
odeur
sucre
acide
amer
astringence
suffocante
piquante
alcool
parfum
fruite
odeur
1,00
0,08
-0,16
0,49
0,04
0,84
-0,61
0,03
-0,29
0,18
sucre
0,08
1,00
-0,29
-0,60
-0,77
-0,19
-0,61
-0,92
0,87
0,95
acide
-0,16
-0,29
1,00
-0,08
0,34
0,14
0,14
0,15
-0,40
-0,27
amer
0,49
-0,60
-0,08
1,00
0,71
0,38
-0,03
0,70
-0,63
-0,50
astringence
0,04
-0,77
0,34
0,71
1,00
0,07
0,14
0,86
-0,66
-0,64
suffocante
0,84
-0,19
0,14
0,38
0,07
1,00
-0,23
0,22
-0,50
-0,10
piquante
-0,61
-0,61
0,14
-0,03
0,14
-0,23
1,00
0,48
-0,33
-0,73
alcool
0,03
-0,92
0,15
0,70
0,86
0,22
0,48
1,00
-0,76
-0,83
parfum
-0,29
0,87
-0,40
-0,63
-0,66
-0,50
-0,33
-0,76
1,00
0,80
fruite
0,18
0,95
-0,27
-0,50
-0,64
-0,10
-0,73
-0,83
0,80
1,00
60
Dans lespace des individus, que nous supposerons ici tre Rp , chaque individu est reprsent par
un point, formant ainsi un nuage de points. Lobjectif de lACP est de visualiser ce nuage de point
dans un espace de faible dimension le plus fidlement possible. Lanalyse repose donc sur les distances
entre individus dans Rp , et le choix de la mtrique aura donc une influence sur le rsultat de lACP.
La distance d(i, j) entre deux individus i et j peut scrire de faon gnrale :
d2 (i, j) = d2 (xi , xj ) = ||xi xj ||2M =< xi xj , xi xj >M = (xi xj )t M(xi xj ).
65
o M est une matrice symtrique dfinie positive de taille p spcifiant la distance choisie, < , >M
et || ||M tant le produit scalaire et la norme associs la mtrique M.
Lorsque toutes les variables sont exprimes dans la mme unit (ce qui est le cas dans lexemple des
cidres) et que les variances ne sont pas trop diffrentes (de sorte que chaque variable ait la mme
importance dans le calcul des distances entre points), la distance euclidienne convient. La mtrique est
alors la matrice identit M = I et la distance euclidienne scrit classiquement :
d(i, j) =
p
X
(xki xkj )2
k=1
70
75
(3)
! 12
(4)
Dans le cas contraire, la mtrique la plus couramment utilise est la mtrique des inverses des variances
M = D1/s2 , o D1/s2 est la matrice diagonale contenant s12 , . . . , s12 sur sa diagonale. Cette mtrique
p
1
permet la fois de saffranchir de lunit de mesure et de donner chaque variable la mme importance
dans le calcul de la distance. Cest cette mtrique que nous utiliserons dans ce document.
Remarque 2.1. La matrice de la mtrique des inverses des variances peut scrire M = D1/s2 =
D1/s D1/s . Ainsi, la distance entre deux individus i et j est
d2 (i, j) = (xi xj )t D1/s D1/s (xi xj ) = (D1/s xi D1/s xj )t (D1/s xi D1/s xj ).
3
(5)
80
Travailler avec la mtrique M = D1/s2 sur le tableau X revient donc travailler avec la mtrique
identit sur le tableau rduit D1/s X, ou encore sur le tableau centr rduit Z. LACP usuelle revient
donc centrer et rduire les variables puis utiliser la mtrique identit : cest ce quon appelle une
ACP norme.
2.1.2 Linertie
Linertie est une notion fondamentale en ACP, puisquelle est une mesure de la dispersion du nuage
de points autour de son centre de gravit g. Linertie totale du nuage autour de son centre de gravit g
est :
n
1X 2
1X
Ig =
d (g, xi ) =
(xi g)t M(xi g).
n i=1
n i=1
(6)
Plus linertie est grande, plus le nuage est dispers, et au contraire plus elle est petite, plus le nuage
est concentr sur son centre de gravit.
Lorsque M = I, linertie totale peut scrire
n
X1X j
X
1 XX j
(xi xj )2 =
s2j
(xi xj )2 =
Ig =
n i=1 j=1
n
j=1
j=1
i=1
90
95
(8)
Ce rsultat se gnralise au cas dune mtrique M quelconque en Ig = tr(V M)) (cf. Annexe 5.1).
Dans le cas de lACP norme, la matrice de variance du tableau Z est la matrice de corrlation R et sa
trace est donc gale au nombre p de variables Ig = p.
Linertie du nuage par rapport un axe passant par le centre de gravit g est
n
1X 2
1X 2
I =
d (, xi ) =
d (hi , xi )
n i=1
n i=1
100
(7)
(9)
o hi est la projection orthogonale de xi sur laxe . Cette inertie mesure la proximit du nuage des
individus laxe.
De mme, linertie du nuage par rapport un sous-espace vectoriel F passant par le centre de
gravit g est
n
1X 2
IF =
d (hF i, xi )
n i=1
(10)
(11)
F
hF i
xi
hF i
g
F
F IG . 1
110
115
(12)
Lorsque F est un axe, linertie IF par rapport son supplmentaire orthogonal mesure alors lallongement du nuage de points selon cet axe F , et est appele linertie porte par laxe ou inertie
explique par laxe. Ainsi, en projetant le nuage des individus sur un sous-espace F , on perd linertie
mesure par IF et on ne conserve que IF .
Attention ne pas confondre IF , linertie par rapport laxe F , et IF linertie explique ou porte par
ce mme axe, qui nest autre que linertie par rapport son orthogonal.
Expression de linertie Iu porte par un axe u
u est
Iu =
1X 2
d (hu i , xi )
n i=1
(13)
xi
u
u
d(hu i , xi ) =< xi , u >M
F IG . 2
Ainsi ,
n
Iu
1X t
1X t
1X
< xi , u >2M =
(xi Mu)2 =
u Mxi xti Mu
=
n i=1
n i=1
n i=1
5
(14)
car (xti Mu)t = xti Mu puisque cest un scalaire et que M est symtrique,
!
n
X
1
1
Iu = ut M
xi xti Mu = ut MX t XMu.
n i=1
n
(15)
Iu = ut MV Mu
(16)
125
130
Chaque variable est considre comme un vecteur dun espace de dimension n, lespace des variables. La mtrique utilise pour le calcul des distances entre variables est la mtrique identit, car on
suppose que tous les individus ont le mme poids. Si ce nest pas le cas une mtrique spcifique doit
alors tre utilise.
Soit y 1 , . . . , y p les variables x1 , . . . , xp centres. On a les proprits suivantes :
le produit scalaire entre deux variables y k et y l (sous la mtrique identit) est
< y k , y l >=
n
X
(17)
i=1
(18)
(19)
Nous nous intressons donc, dans lespace des variables, aux angles entre variables plutt quaux
distances, et on reprsente les variables comme des vecteurs et non des points.
145
Thorme 3.1. Soit Fk un sous-espace portant linertie maximale, alors le sous-espace de dimension k + 1 portant linertie maximale est la somme directe de Fk et du sous-espace de dimension 1
orthogonal Fk portant linertie maximale.
155
165
170
On cherche laxe u tel que linertie Iu explique par cet axe soit maximale. Cela revient
chercher u tel que Iu soit minimale daprs le thorme de Huygens (12). Puisquen projetant
sur laxe u on perd linertie Iu , on aura bien une inertie restante Iu maximale, ce qui revient
dformer le moins possible le nuage des individus.
Comme on est en ACP norme la mtrique M est lidentit et la matrice de variance V est gale
la matrice de corrlation R (cf. remarque 2.1). Linertie explique par laxe u est alors Iu =
ut Ru daprs (16). Il faut donc trouver le vecteur unitaire u solution du problme doptimisation sous
contrainte suivant :
maxu ut Ru
(21)
ut u = 1
La matrice de corrlation R tant symtrique elle est diagonalisable : R = P P t , o est la matrice
diagonale compose des valeurs propres 1 . . . j . . . p , et o la matrice de passage P est
la matrice orthogonale dont les colonnes sont les vecteurs propres v j de R. Il vient alors que
t
u Ru =
p
X
j < u, v j >2 .
(22)
j=1
En nommant uj les composantes du vecteur u (norm) dans la base des vecteurs propres, on a
t
u Ru =
175
p
X
(23)
=ut u=1
Le vecteur u maximisant cette quantit nest autre que v 1 , le vecteur propre associ la plus grande
valeur propre 1 de R, pour lequel on a donc Iv = 1 .
1
p
X
j=2
(24)
Le vecteur u maximisant cette quantit nest autre que v 2 , le vecteur propre associ la seconde plus
grande valeur propre 2 de R, pour lequel on a donc Iv = 2 .
2
Et ainsi de suite. On en dduit ainsi le thorme suivant.
185
Thorme 3.2. Le sous-espace FK de dimension K portant linertie maximale est engendr par les
K vecteurs propres associs aux K plus grandes valeurs propres de la matrice de corrlation R du
nuage des individus.
3.3 Notations
190
(25)
K
et le pourcentage dinertie expliqu par ce sous-espace est donc 1 +...+
.
p
k
n
On appelle k-ime composante principale les coordonnes c R des n individus sur laxe
factoriel vk , qui sont les projections des individus sur ces axes :
ck = Zv k .
(26)
Les composantes principales peuvent tre vue comme les nouvelles variables dans le sousespace factoriel.
205
210
215
Un des points les plus dlicats de lACP est dapprcier la perte dinformation engendre par la
rduction de la dimension. On a vu prcdemment que la qualit de reprsentation du nuage dans le
K
sous-espace factoriel est exprime par le pourcentage dinertie explique 1 +...+
.
p
Cette mesure globale doit tre complte par dautres considrations comme la reprsentation des individus et des variables dans ce sous-espace factoriel. Il peut en effet arriver que les axes retenus, bien
que reprsentant une part importante de linertie globale du nuage, ne suffisent pas expliquer correctement certains individus ou variables : deux individus peuvent tre proches en projection sur les axes
factoriels retenus tout en tant trs loigns en ralit, si leurs reprsentations sur ces axes ne sont pas
de bonne qualit.
La qualit de reprsentation dun individu i sur un axe factoriel est mesur par le cosinus carr
de langle entre laxe factoriel et le vecteur z i . Plus le cosinus est grand, plus z i sera proche de laxe
factoriel et donc sera bien reprsent sur cet axe.
La qualit de reprsentation dune variable j sur le k-me axe factoriel est exprime par le coefficient de corrlation linaire r(ck , z j ) entre la variable initiale z j et la nouvelle variable, composante
principale, ck . La valeur de cette corrlation sera galement trs importante pour interprter les nouveaux axes factoriels en fonction des variables initiales. Le calcul de cette corrlation, non dvelopp
dans ce document, montre que
p
r(ck , z j ) = k v jk ,
(27)
8
220
La slection du nombre daxes retenir, aborde prcdemment, est une tape importante dune
ACP. Les critres utiliss sont en gnral empiriques : la mthode du coude qui consiste dtecter un
coude sur le diagramme des valeurs propres, ou le critre de Kaiser. Ce dernier consiste ne retenir
que les valeurs propres suprieures la moyenne : puisquon est en ACP norme la somme des valeurs
propres est gale au nombre p de ces valeurs propres, et la moyenne des valeurs propres est donc gale
1. On ne retiendra donc par le critre de Kaiser que les valeurs propres suprieures 1.
230
4.3 Interprtation
235
La mthode la plus naturelle pour interprter les composantes principales (ou les axes factoriels)
est de les relier aux variables initiales, en utilisant les corrlations prcdemment introduites. Gnralement, pour un couple de composantes principales c1 et c2 , on reprsente les corrlations dans une
figure appele cercle de corrlation (Figure 3), o chaque variable z j est reprsente par un point de
coordonnes (r(c1 , z j ), r(c2 , z j )).
Une fois les composantes principales interprtes, on reprsente les individus dans les plans factoriels
forms en croisant deux deux les axes factoriels retenus (Figure 4). Chaque reprsentation est interprte en essayant de reprer des groupes dindividus et en donnant ces groupes une signification en
fonction de leur place dans les plans factoriels.
240
1
5,154
51,54
51,54
2
2,502
25,02
76,56
3
1,097
10,97
87,53
4
0,834
8,34
95,87
5
0,194
1,94
97,81
6
0,14
1,40
99,21
7
0,049
0,49
99,70
8
0,024
0,24
99,94
9
0,006
0,06
100
10
0
0
100
axe nest corrl significativement quavec une seule variable, la variable acidit, nous ne le considrons pas dans linterprtation synthtique prsente dans ce document.
Le cercle des corrlations pour le plan form des deux premiers axes factoriels est reprsent Figure
3. Excepte la variable acidit, qui est fortement corrle avec le troisime axe factoriel, toutes les
9
255
260
variables sont bien reprsentes dans ce plan factoriel puisque leurs corrlations avec les axes sont
relativement importantes (les projections sont proches du cercle de corrlation). Linterprtation que
lon peut faire des deux premiers axes factoriels est la suivante :
le premier axe factoriel semble opposer le cidre doux (fruit, sucr, parfum) au cidre brut (plus
alcoolis et astringent),
le second axe factoriel semble opposer les cidres ayant une particularit olfactive (forte odeur)
aux cidres ayant une certaine particularit gustative (piquance).
Ce plan factoriel tant interprt, nous pouvons y projeter les individus (Figure 4).
Aprs avoir vrifi que les individus taient bien reprsents sur le plan factoriel en examinant les
valeurs des cosinus carrs des angles entre les individus et les axes factoriels (valeurs des cosinus
carrs non prsentes dans ce document), il semble se dgager 4 groupes de cidres :
groupe 1 : les cidres 3, 8, 4 et 10 qui sont des cidres doux,
groupe 2 : les cidres 2, 5, 6 et 7 qui sont des cidres bruts,
groupe 3 : le cidre 9 qui est un cidre particulirement odorant et suffocant,
groupe 4 : le cidre 1 qui est particulirement piquant.
10
Annexes
5.1 Annexe 1 : dmonstration de la formule de linertie totale Ig = tr(V M)
n
Ig
1X
1X t
1X
=
(xi g)t M(xi g) =
y i My i =
tr(y ti My i )
n i=1
n i=1
n i=1
(28)
1
1X
y i y ti M) = tr( Y t Y M)
= tr(
n i=1
n
= tr(V M)
270
(29)
(30)
275
=p+1>p
do ncessairement dim(Ek+1 Fk ) 1.
Soit v un vecteur de Ek+1 Fk .
11
(31)
Posons Ek+1 = v G o G est le supplmentaire orthogonal de v dans Ek+1 . G est donc de dimension
k. Soit Fk+1 = Fk v.
Comme v est orthogonal G et Fk , on a :
IEk+1 = Iv + IG ,
IFk+1 = IFk + Iv .
280
(32)
(33)
Comme Fk tait le sous-espace de dimension k dinertie maximale, on a IG IFk donc IEk+1 IFk+1 ,
et ce quel que soit Ek+1 .
Le maximum dinertie est donc ralis pour lespace Fk+1 = Fk v o v doit tre de sorte que Iv soit
maximale.
12