AD Examen 0405
AD Examen 0405
AD Examen 0405
7. Dans le cadre de l’ACP normée, il convient de diagonaliser une matrice. Laquelle ? Justifier à l’aide d’un produit
matriciel votre réponse (pas de valeurs numériques).
Analyse des Données 8. L’utilisation d’un logiciel a permis d’obtenir la matrice des corrélations suivantes :
1 2
individus Cr1 (i) (%) Cr2 (i) (%) 23. A quoi mesure-t-on la corrélation entre une variable et un axe ou entre deux variables. Quelle condition doit être
1 2.09 · satisfaite afin que cette mesure soit fiable ?
2 13.85 8.64 24. Identifier les variables corrélées avec chacun des axes (on précisera si la corrélation est positive ou négative, et
3 9.90 3.78 l’on s’aidera des valeurs numériques des coefficients associés).
4 32.73 3.54 25. Caractériser les deux axes factoriels.
5 · · 26. En déduire une interprétation de la position des individus dans le plan factoriel principal.
6 · 34.29
7 0.03 23.50
8 0.31 0.18
9 3.34 5.43
10 0.00 0.95
19. On souhaite maintenant déterminer les qualités de représentation des individus sur chacun des axes puis sur le
plan principal. Dans ce but, rappeler les formules permettant de réaliser ces calculs, puis compléter le tableau
suivant :
−0.3051 0.6514
En déduire les coordonnées des variables sur les deux premiers axes. Vos calculs sont-ils en accord avec la
représentation du nuage des variables dans le premier plan factoriel ?
22. A quoi mesure-t-on la qualité de représentation des variables dans le plan principal ? En déduire les variables
bien ou très bien représentées.
3 4
Partie B
Individus X1∗ X2∗ Y
Analyse Factorielle Discriminante 1 -4.0909 1.4546 1
2 · 2.9546 1
Considérons un échantillon de n individus sur lesquels on observe p + 1 variables : p variables quantitatives notées 3 -3.0909 · 1
X1 , X2 ,..., Xp et une variable qualitative Y présentant k modalités. Les n individus de l’échantillon peuvent alors être 4 -2.0909 · 1
séparés en k classes notées C1 , C2 ,..., Ck correspondant aux k modalités de la variable Y . 5 -0.5909 4.4546 1
Selon une approche géométrique, ces individus sont représentés par un point de l’espace Rp auquel on associe 6 -0.0909 1.9546 1
un identifiant caractérisé par un entier compris entre 1 et k afin d’identifier la classe d’appartenance de chacun des 7 1.4091 · 2
individus. 8 1.9091 -2.0454 2
L’Analyse Factorielle Discriminante (AFD) est une méthode qui présente deux objectifs : le premier, descriptif, 9 · -4.5454 2
consiste à chercher dans l’espace Rp les directions qui séparent au mieux (selon un critère) les k classes d’individus ; 10 3.4091 · 2
le second, prédictif, consiste à associer un nouvel individu dont on connaı̂t les valeurs des p variables quantitatives à 11 3.9091 -1.5454 2
une des classes Cℓ pour ℓ = 1, 2, · · · , k. Selon cette seconde approche, l’AFD peut être vue comme une régression dont G1 -2.2576 · 1
la variable à expliquer est qualitative. G2 · -2.7454 2
L’objectif de cet exercice est de réaliser une AFD sur un échantillon de 11 étudiants (n = 11) sur lesquels on
observe deux variables explicatives (p = 2) : la note du module de Mathématiques (X1 ) et la note du module de 5. Dans un repère orthonormé de centre G, représenter le nuage des individus ainsi que les barycentres partiels. On
Français (X2 ). Par ailleurs, on désigne par Y la variable qualitative indiquant l’origine géographique de ces étudiants pourra identifier chacun des points par le groupe auquel il appartient.
dont les modalités sont : 1 si l’étudiant vient de Seine-Maritime et 2 si l’étudiant vient du Calvados (on suppose que 6. Désignons par Tℓ (ℓ = 1, 2) la matrice des covariances à l’intérieur de la classe Cℓ . Cette matrice est d’ordre 2 × 2
les étudiants sur lesquels on travaille viennent de l’un ou l’autre de ces départements). Notons que dans le cas présent, et admet pour terme général
il existe un unique axe qui sépare au mieux les individus des deux classes. Les données concernant cet exemple sont
regroupées dans le tableau suivant : 1 X ℓ ℓ
tℓj1 j2 = (xij1 − X j1 )(xij2 − X j2 ), pour 1 ≤ j1 , j2 ≤ 2 et ℓ = 1, 2,
nℓ
i∈Cℓ
ℓ
où X j représente la moyenne de la variable Xj au sein de la classe Cℓ .
Individus X1 X2 Y
En d’autres termes, la matrice T1 (resp. T2 ) est la matrice des covariances associée aux variables X1 et X2
1 7 12 1 calculée sur les individus de la classe C1 (resp C2 ). Compléter les deux matrices suivantes :
2 7.5 13.5 1
3 8 11 1
2.2222 ·
· 0.41
4 9 13 1 T1 = T2 =
0.8472 · · 1.26
5 10.5 15 1
6 11 12.5 1 7. Désignons maintenant par W la matrice des covariances intra-classes. Par définition, cette matrice est obtenue
7 12.5 7 2 comme somme pondérée des matrices T1 et T2 :
8 13 8.5 2
n1 n2
9 14 6 2 W = T1 + T2
10 14.5 8.5 2 n n
11 15 9 2 Calculer W .
8. Identifier l’axe factoriel discriminant (c’est-à-dire l’axe qui sépare au mieux les individus des deux classes) revient
à réaliser une ACP sur la matrice C d’ordre k × p de terme général
ℓ
1. Déterminer le barycentre G de ce nuage de point. cℓj = X j − X j , pour 1 ≤ ℓ ≤ k et 1 ≤ j ≤ p,
2. Désignons par Gℓ le barycentre partiel des individus de la classe Cℓ (ℓ = 1, 2). Calculer les deux barycentres
représentant les barycentres partiels exprimés dans le nouveau repère, à laquelle on associe la matrice des
partiels G1 et G2 .
pondérations
3. Soit nℓ le nombre d’individus de la classe Cℓ . Calculer la quantité
ν1 0 ··· 0
n1 n2
G1 + G2 ..
n n 0 ν2 . 0
Dk =
. .
,
.. .. ..
. ..
Que constatez-vous ? .
4. En se servant du tableau ci-après, exprimer les nouvelles coordonnées des individus ainsi que celles des barycentres 0 · · · 0 νk
partiels dans le repère de centre G : nℓ
où l’on a νℓ = n .
L’ACP est alors réalisée dans l’espace Rp muni d’une métrique particulière dite de Mahalanobis et définie par
Mp = W −1 .
5 6
(a) Dans le cadre de l’exemple, identifier les valeurs numériques intervenant dans les matrices C, Dk et W −1 .
(b) A partir des résultats du cours, indiquer la matrice à diagonaliser (on l’exprimera en fonction des matrices
C, Dk et W −1 avant de donner les valeurs numériques).
(c) Identifier les valeurs propres.
(d) Pour la valeur propre non nulle, trouver un vecteur propre u associé. Par construction, la droite de vecteur
directeur u doit passer par les barycentres partiels G1 et G2 . Vérifier en traçant cette droite dans le repère
de centre G que cette propriété est bien vérifiée.
Rappel : la droite va s’écrire dans le cas présent X2 = aX1 où a est le coefficient issu du vecteur directeur
v = (1, a).
(e) Par définition, l’axe discriminant est caractérisé par un vecteur directeur w obtenu selon le produit matriciel
suivant :
w = W −1 u
Déterminer le vecteur w, puis représenter l’axe associé dans le repère de centre G.
9. On dispose de deux nouveaux étudiants dont on connaı̂t les notes. On voudrait pouvoir identifier leur département
d’origine. Dans ce but, il convient de définir une règle d’allocation. La règle la plus simple est la règle géométrique
qui consiste à associer le nouvel individu à la classe C1 si on a
où x∗ représente les coordonnées du nouvel individu dans le repère de centre G, G∗1 et G∗2 désignent les barycentres
partiels des classes C1 et C2 dans le repère de centre G, et où Mp est la métrique de Mahalanobis définie dans
la question 8.
En faisant usage du produit scalaire matriciel, montrer que l’écart d2Mp (x∗ , G∗1 ) − d2Mp (x∗ ; G∗2 ) s’exprime comme
suit :
f (x∗ ) := d2Mp (x∗ , G∗1 ) − d2Mp (x∗ ; G∗2 ) = (x∗ )t W −1 (G∗1 − G∗2 ).
10. Identifier l’ensemble des points de R2 pour lesquels on a f (x∗ ) = 0. Représenter cet ensemble sur le graphique.
11. Considérons les étudiants A et B dont les notes sont respectivement (7, 11) et (7, 4). Trouver à l’aide de la
fonction f une prévision de leur département d’origine.
12. Confirmer votre prédiction par une méthode graphique en plaçant les points correspondants dans le repère de
centre G.