A C P PDF
A C P PDF
A C P PDF
Pierre-Louis GONZALEZ
1
INTRODUCTION Donnes : n individus observs sur p variables quantitatives. LA.C.P. permet dexplorer les liaisons entre variables et les ressemblances entre individus. Rsultats : Visualisation des individus (Notion de distances entre individus) Visualisation des variables (en fonction de leurs corrlations)
2
c Mesurer la qualit des reprsentations obtenues : z critre global z critres individuels d Donner des noms aux axes Expliquer la position des individus e Utilisation ventuelle de variables supplmentaires (illustratives)
3
X2
Xj
j x1
j x2
Xp
p x1 p x2
X (n,p)
x1 i
xij
j xn
xip xp n
individu e'i
x1 n
Variable Xj p
On cherche reprsenter le nuage des individus. A chaque individu not ei, on peut associer un point dans Rp = espace des individus. A chaque variable du tableau X est associ un axe de Rp.
X
3
x3 i
ei
X1 x2 i
2. PRINCIPE DE LA.C.P. On cherche une reprsentation des n individus , dans un sous-espace Fk de Rp de dimension k ( k petit 2, 3 ; par exemple un plan) Autrement dit, on cherche dfinir k nouvelles variables combinaisons linaires des p variables initiales qui feront perdre le moins dinformation possible.
Ces variables seront appeles composantes principales , les axes quelles dterminent : axes principaux les formes linaires associes : facteurs principaux
6
X1 X2
axe 2
ON VISUALISE axe 1 Xi
axe 3
F3
axes principaux
7
Perdre le moins dinformation possible Fk devra tre ajust le mieux possible au nuage des individus: la somme des carrs des distances des individus Fk doit tre minimale.
Fk est le sous-espace tel que le nuage projet ait une inertie (dispersion) maximale. c et d sont bases sur les notions de : distance projection orthogonale
8
ei
ej
fi fj
Dans le plan:
d 2 (A, B) = (x B x A ) + (y B y A )
2 2
xA
xB
Dans lespace Rp p dimensions, on gnralise cette notion : la distance euclidienne entre deux individus scrit:
p 2 e i = x1 x . .. x i i i
)
) (
2
p e j = x1j x 2 . .. x j j
2 + x2 i xj
k 2 j
)
)
2
1 d 2 e i , e j = x1 i xj
) (
j
+ . .. x ip x p j
(e , e ) = (x
p i k =1
k i
Pour rsoudre ce problme, on choisit de transformer les donnes en donnes centres-rduites. Lobservation
x xk sk
k i
o :
xk =
moyenne de la variable Xk
sk = cart-type de la variable Xk
Exemple :
Puissance moyenne de 30 voitures = 92 ch La Renault 21 TXI a une puissance de 140 ch La Renault 21 TXI a une puissance de : 2 carts-type au-dessus de la moyenne. Ecart-type = 24 ch
140 92 =2 24
11
4. INERTIE TOTALE
Ig =
i=1
1 2 d ei,g n
i =1
pi d
(e
,g
avec
i =1
pi = 1
Linertie est la somme pondre des carrs des distances des individus au centre de gravit g Linertie mesure la dispersion totale du nuage de points.
12
Linertie est donc aussi gale la somme des variances des variables tudies. En notant V la matrice de variances-covariances :
s 2 s ........ s 1p 1 12 2 V= s2 2 s p1 s p
Remarque
I g = si2
i =1
Dans le cas o les variables sont centres rduites, la variance de chaque variable vaut 1. Linertie totale est alors gale p (nombre de variables).
13
................
................
Ig = Tr (V)
fi
Soit F un sous-ensemble de Rp
fi
la projection orthogonale de
2 2 2
ei
sur F
ei g = ei f i + f i g
i = 1 ... n
14
pi ei f i
i =1
soit minimal
p
i =1
fi g
15
ei g = ei f i + f i g
2
n n
i = 1 ... n
Donc : pi ei g
=1 i
2
pi ei f i
=1 i
2
pi f i g
=1 i
2
Inertie totale
minimiser cette quantit (carrs des distances entre points individus et leurs projections)
16
1. SOLUTION
Axes principaux On appelle axes principaux dinertie les axes de direction les vecteurs propres de V norms 1. Il y en a p. Le premier axe est celui associ la plus grande valeur propre . On le note u1 Le deuxime axe est celui associ la deuxime valeur propre . On le note u2 ...
18
Composantes principales chaque axe est associe une variable appele composante principale. La composante c1 est le vecteur renfermant les cordonnes des projections des individus sur laxe 1. La composante c2 est le vecteur renfermant les cordonnes des projections des individus sur laxe 2. Pour obtenir ces coordonnes, on crit que chaque composante principale est une combinaison linaire des variables initiales. Exemple
c = u x + u x + ... u x
1 1 1 1 1 2 2 1 p
p
19
2. PROPRITS DES COMPOSANTES PRINCIPALES c La variance dune composante principale est gale linertie porte par laxe principal qui lui est associ. 1re composante 2me composante 3me composante
c1 c2 c3
variance :
variance : 2 variance : 3
principales
sont
non
corrles
c1j j c2 cj = j cn
Si on dsire une reprsentation plane des individus, la meilleure sera celle ralise grce aux deux premires composantes principales.
........
fournit les
21
ei
2
c2 i
c1 i
ej
4. REPRSENTATION DES VARIABLES Les proximits entre les composantes principales et les variables initiales sont mesures par les covariances, et surtout les corrlations.
r c ,x
r c ,x
)
(
xi
r c1 , x i
5. INTERPRETATION DES PROXIMITS ENTRE VARIABLES On utilise un produit scalaire entre variables permettant dassocier aux paramtres courants : cart-type, coefficient de corrlation linaire des reprsentations gomtriques.
i j
x ,x
1 = n
k =1
j x ik x k
24
x , x = Cov x , x
i j i
i 2
)
i 2 k
1 i i = x ,x = n
(x )
n k =1
i 2
=s
2 i
Variance de
xi xi
= si
cart-type de
25
n i j Cos X , X =
x ,x X
i
Cov X , X si s j
)=r
(X , X )
i j
Le cosinus de langle form par les variables Xi et Xj est le coefficient de corrlation linaire de ces deux variables
26
X3
X1
X5
27
i 1 + 2 + ... p
Exemple :
1 + 2
p
Ce critre (souvent exprim en pourcentage) mesure le degr de reconstitution des carrs des distances. La rduction de dimension est dautant plus forte que les variables de dpart sont plus corrles. 28
Combien daxes ?
Diffrentes procdures sont complmentaires: c Pourcentage dinertie souhait : a priori d Diviser linertie totale par le nombre de variables initiales inertie moyenne par variable : I.M. Conserver tous les axes apportant une inertie suprieure cette valeur I.M. (inertie > 1 si variables centres rduites). e Histogramme
4 3
..
1
2
2 1
.
3
avant la cassure.
....
5 6 7
29
cassure
axe 2
2
fi
axe 1
Pour chaque individu , la qualit de sa reprsentation est dfinie par le carr du cosinus de langle entre laxe de projection et le vecteur e i . Plus la valeur est proche de 1, meilleure est la qualit de reprsentation En gnral, les qualits de reprsentation sont donnes axe par axe. Pour avoir la qualit de reprsentation dans un plan, on additionne les critres correspondant aux axes tudis. Ce critre na pas de signification pour les individus proches de lorigine. Quand on dtecte un individu pour lequel le cosinus carr est faible, on doit tenir compte de sa distance lorigine avant dindiquer quil est mal reprsent
31
Contributions Il est trs utile aussi de calculer pour chaque axe la contribution apporte par les divers individus cet axe. Considrons la composante principale c , soit de la composante pour le ime individu. kime
k
k i
la valeur
i =1
1 k ci n
( )
= k
La contribution de lindividu
ei
1 k ci n k
( )
32
Remarque : Il nest pas souhaitable quun individu ait une contribution excessive (car facteur dinstabilit) liminer les individus dont la contribution est trop importante. Problme des enqutes par sondage
33
3. REPRSENTATION DES VARIABLES Le cercle des corrlations est la projection du nuage des variables sur le plan des composantes principales.
c
2
corrlation = cosinus
Les variables bien reprsentes sont celles qui sont proches du cercle, celles qui sont proches de lorigine sont mal reprsentes.
34
4. INTERPRTATION EXTERNE : VARIABLES ET INDIVIDUS SUPPLMENTAIRES (ILLUSTRATIFS) 4.1 Variables Variable quantitative: On calcule le coefficient de corrlation entre la variable supplmentaire et les composantes principales. Ceci permet sa reprsentation sur le cercle des corrlations.
35
x x
x
x xx x xx x x x x
x xx
xx x x x
x x x x x
x x x
x
x
Calcul du rapport de corrlation entre la variable qualitative supplmentaire et chaque composante principale (test de Fischer-Snedecor) ou valeur-test dans SPAD.
36
Individus Individu de poids nul ne participant pas lanalyse (fichier test). Appliquer aux coordonnes de lindividu les expressions dfinissant les composantes principales.
37