Chapitre 2
Chapitre 2
Chapitre 2
DESCRIPTION DE LA METHODE
L’Analyse en Composantes principales (ACP) fait partie du groupe des méthodes descriptives
multidimensionnelles appelées méthodes factorielles.
L’ACP propose, à partir d’un tableau rectangulaire de données comportant les valeurs de p
variables quantitatives pour n unités (appelées aussi individus), des représentations
géométriques de ces unités et de ces variables. Ces données peuvent être issues d’une procédure
d´échantillonnage ou bien de l’observation d’une population toute entière.
L’ACP servira à mieux connaitre les données sur lesquelles on travaille, à d´détecter
éventuellement des valeurs suspectes, et aidera à formuler des hypothèses qu’il faudra étudier
à l’aide de modèles et d’études statistiques inférentielle. [AgroParisTech. Support de cours
Analyse en Composantes. Principales. C. Duby, S. Robin juillet 2006 ].
DEFINITIONS
Notions d’individu et de caractère
Individu
L’individu peut désigner selon les cas : une année d’observations ou une autre unité de temps.
L’ensemble des individus peut provenir d’un échantillonnage dans une population ou, il peut
être de la population toute entière.
L'individu "i" est décrit par le vecteur appartenant à RP :
Le terme Xij est un nombre réel qui représente la mesure de la variable Xj sur l’individu i.
Si l'ensemble des individus doit être homogène, l'ensemble des variables peut être hétérogène.
[ A. HAMRICHE, « Contribution à l’étude et à la simulation des paramètres
hydrométriques par l’analyse en composantes principales (ACP) », Mémoire de Projet de
Fin d’Etude, ENP Alger, 1993.]
Caractère
Sur un individu, on relève un certain nombre de caractères, dits aussi variables, désignant en
général un paramètre intervenant dans un phénomène complexe à étudier.
Le caractère (ou variable) "j" est décrit par le vecteur de RN :
Ainsi si l’ensemble des individus doit être homogène, l’ensemble des variables peut être
hétérogène.[ A. HAMRICHE, « Contribution à l’étude et à la simulation des paramètres
hydrométriques par l’analyse en composantes principales (ACP) », Mémoire de Projet de
Fin d’Etude, ENP Alger, 1993.]
Définition algébrique
L’analyse en composantes principales se fait sur une matrice de P variables et N individus.
Cette dernière est dite matrice de données, qui résulte du croisement « NxP ».
La matrice de données est notée par [X] et elle est décrite comme suit :
A partir de cette matrice des données brutes, on procède au calcul des paramètres statistiques :
1. La moyenne
3. Le coefficient de covariance
4. Le coefficient de corrélation
Une fois ces paramètres statistiques calculés, on remplace la matrice de données [X] par une
nouvelle matrice définie par le croisement (individus x CP).
Avec : CP, composantes principales
Calculer les composantes principales notées Cj revient à déterminer P relations linéaires entre
les variables Xj :
Définition géométrique
L’Analyse en Composantes Principales est puissante par son support géométrique :
la méthode consiste à rechercher un premier axe qui soit le plus près possible de tous les points
au sens des moindres carrés : tel que la somme des moindres carrés des distances des N points
à cet axe soit minimale, ou encore la projection de ces derniers sur cet axe ait une dispersion
maximale. Cet axe est appelé « axe factoriel ».
Un second axe est obtenu après projection des N points sur un hyperplan orthogonal au premier
axe, tel que la dispersion des projections des N points sur celui-ci soit toujours maximale, et le
processus se réitère P fois. .[ A. HAMRICHE, « Contribution à l’étude et à la simulation des
paramètres hydrométriques par l’analyse en composantes principales (ACP) », Mémoire de
Projet de Fin d’Etude, ENP Alger, 1993.]
Ainsi un nouveau système d’axe est obtenu. Ce dernier est défini par des nouvelles variables
appelées composantes principales.
Objectifs
L’Analyse en Composantes Principales a pour objectifs :
Avoir une corrélation entre les variables grâce à une représentation des données brutes
et fournir des outils simples et lisibles.
Essayer d’examiner les liens existants entre les variables afin de faciliter leur
interprétation.
Domaine d’application
Les applications sont très nombreuses. Il y a en fait deux façons d'utiliser l'ACP :
Soit pour l'étude d'une population donnée en cherchant à déterminer la typologie des
individus et des variables. Par exemple, en hydrologie, l’ACP est utilisé dans la critique, la
reconstitution et/ou la cartographie de données hydrologique, et aussi en analyses de séries
chronologiques provenant de réseaux de mesures hydrométéorologiques et
hydrogéologiques, et enfin l’élaboration de méthodologie de simulation et de prévision des
variables climatologiques aléatoires et cycliques par l’analyse en composantes principales.
Soit pour réduire les dimensions des données sans perte importante d'information, par
exemple en hydrologie, l’ACP intervient dans l’élaboration des bilans énergétiques en
expliquant un phénomène précis, en réduisant la quantité de variables qui peuvent
l’expliquer et en évitant la redondance (telle que le phénomène de l’évapotranspiration qui
peut être influencé par de nombreuses variables telles que la température, l’insolation, la
vitesse du vent, l’humidité…etc, l’ACP permet de prendre l’évapotranspiration comme
variable à expliquer et trouver les variable explicatives de celle-ci et d’éliminer celles qui
n’interviennent pas dans le phénomène).