AD Examen 0405

I.U.
T de Caen STID 2ème année

Département STID Année Universitaire 2004-2005
Responsable de cours : Alain LUCAS
7. Dans le cadre de l’ACP normée, il convient de diagonaliser une matrice. Laquelle ? Justifier à l’aide d’un produit
matriciel votre réponse (pas de valeurs numériques).
Analyse des Données 8. L’utilisation d’un logiciel a permis d’obtenir la matrice des corrélations suivantes :
Examen terminal - Durée 3h 

1.0000 0.1513 −0.0863 −0.3743

 0.1513 1.0000 −0.7679 0.3340 
∆ :=  
– Seule la calculatrice type collège est autorisée.
 −0.0863 −0.7679 1.0000 −0.0829 
– Seul le cours est autorisé. −0.3743 0.3340 −0.0829 1.0000
– On rappelera les formules utilisées.
– On conservera quatre chiffres après la virgule.
– On pourra répondre directement sur le document. Commenter brièvement dans le contexte ces coefficients.
9. La réalisation de l’ACP a donné les valeurs propres suivantes :
Partie A
Analyse en Composantes Principales λ1 = 1.8721 λ2 = 1.3656 λ3 = 0.6013 λ4 = . . .
Calculer la dernière valeur propre.
10. Calculer l’inertie associée à chacun des axes.
Le tableau de données suivant regroupe 10 étudiants sur lesquels on a observé la note sur 20 de quatre modules :
le module de Statistique, le module d’Informatique, le module de Mathématiques et le module d’Anglais. 11. Quelle est la propriété qui permet sans calcul de déterminer l’inertie totale ? Combien vaut-elle dans le cas
présent ?
identifiant Statistique Informatique Mathématiques Anglais 12. En déduire pour chacun des axes les pourcentages d’inertie, puis les pourcentages d’inertie cumulés.
1 14.97 12.4 11.55 8.24
13. Selon le critère de la moyenne combien d’axes doit-on conserver ? Justifier votre réponse.
2 13.15 12.55 11.4 13.64
3 12.7 9.75 16.95 10.94 14. Représenter le diagramme des valeurs propres. Ce diagramme confirme-t-il la réponse fournie à la question
4 14.48 7.45 16.35 8.58 précédente ? Justifier votre réponse.
5 11.76 13.5 8.55 11.88 15. Les composantes principales issues de l’analyse sont les suivantes :
6 7.88 9.25 15.05 10.8
identifiant Comp.1 Comp.2 Comp.3 Comp.4
7 15.56 11 11.9 7.76
8 12.33 9.3 10.65 9.32 1 -0.6250 -1.4957 0.0011 -0.4976
9 13.9 12.1 10.9 9.08 2 -1.6100 1.0861 1.3466 0.2721
10 10.15 10.85 11.55 8.76 3 1.3616 0.7184 1.0829 -0.4238
4 2.4754 -0.6950 0.5518 0.3769
5 -2.3618 0.6727 -0.1164 0.1093
On souhaite réaliser une Analyse en Composantes Principales Normée (ACPN) sur ce tableau de données afin d’en 6 1.2207 2.1638 -0.7192 -0.2610
extraire une information. 7 0.0798 -1.7913 -0.0071 -0.0514
8 0.2400 -0.1581 -0.7010 0.8919
1. Indiquer dans quel espace doit être représenté le nuage des individus ? Justifier votre réponse. 9 -0.7903 -0.8614 -0.1427 -0.1775
2. Indiquer dans quel espace doit être représenté le nuage des variables ? Justifier votre réponse. 10 0.0097 0.3605 -1.2960 -0.2389
3. Compléter le tableau suivant : A partir de ce tableau, identifier les deux premières composantes principales : Ψ1 et Ψ2 . Que représentent-elles ?
16. Ces composantes principales vérifient deux propriétés statistiques. Indiquer ces deux propriétés puis vérifier que
Variables Moyennes Ecarts types Minimum Maximum ces dernières sont bien satisfaites.
Statistique 12.688 2.2113 · 15.56 17. Comment à partir de la représentation graphique des individus dans le plan factoriel principal (et donc sans
Informatique · 1.7782 7.45 · calcul) peut-on identifier (sous réserve d’une bonne qualité de représentation) les individus qui contribuent
Mathematiques · · · · fortement à la formation de chacun des axes ? Justifier votre réponse.
Anglais 9.90 · · 13.64 18. On souhaite déterminer la contribution des individus à la formation de chacun des axes. Dans ce but, rappeler
la formule qui permet de réaliser ces calculs, puis compléter le tableau de la page suivante. A partir des valeurs
numériques obtenues ci-dessus, déterminer explicitement les individus qui contribuent significativement à la
Commenter succinctement dans le contexte les valeurs numériques obtenues.
formation des deux premiers axes (on pourra dissocier les individus qui présentent une coordonnée positive de
4. Déterminer le barycentre du nuage des individus. ceux qui présentent une coordonnée négative et ce pour chacun des axes).
5. Déterminer la matrice des écarts-types.
6. Quel est le rôle du barycentre et de la matrice des écarts-types en ACP ?
1 2
individus Cr1 (i) (%) Cr2 (i) (%) 23. A quoi mesure-t-on la corrélation entre une variable et un axe ou entre deux variables. Quelle condition doit être
1 2.09 · satisfaite afin que cette mesure soit fiable ?
2 13.85 8.64 24. Identifier les variables corrélées avec chacun des axes (on précisera si la corrélation est positive ou négative, et
3 9.90 3.78 l’on s’aidera des valeurs numériques des coefficients associés).
4 32.73 3.54 25. Caractériser les deux axes factoriels.
5 · · 26. En déduire une interprétation de la position des individus dans le plan factoriel principal.
6 · 34.29
7 0.03 23.50
8 0.31 0.18
9 3.34 5.43
10 0.00 0.95
19. On souhaite maintenant déterminer les qualités de représentation des individus sur chacun des axes puis sur le
plan principal. Dans ce but, rappeler les formules permettant de réaliser ces calculs, puis compléter le tableau
suivant :
individus Quali (1) (%) Quali (2) (%) Quali (1 × 2) (%)

1 13.59 77.80 ·
2 · 20.84 ·
3 49.81 13.87 63.68
4 86.83 6.84 93.67
5 92.11 7.47 99.58
6 22.05 69.29 91.34
7 · · ·
8 4.21 1.82 ·
9 44.03 52.31 96.34
10 0.00 6.96 6.96
Note : on pourra s’aider de la matrice suivante :
 
1.0320 0.8913 −0.3637 −0.9400

 0.2089 0.9757 −0.4221 2.1178 


 0.0054 −0.5989 1.7369 0.5889 


 0.8104 −1.8924 1.5035 −0.7475 

 −0.4200 1.5099 −1.5307 1.1212 
Z= 

 −2.1743 −0.8801 0.9978 0.5096 


 1.2988 0.10404 −0.2276 −1.2118 


 −0.1619 −0.85198 −0.7138 −0.3284 

 0.5481 0.72264 −0.6166 −0.4643 
−1.1478 0.01968 −0.3637 −0.6455
20. Quels sont les individus qui sont bien et très bien représentés dans le plan principal ?
21. On possède les deux premiers vecteurs propres correspondant au nuage des individus :
   
−0.0540 −0.7359
 −0.6963   −0.0691 
u1 = 
 0.6474 
 et u2 = 
 0.1712 

−0.3051 0.6514
En déduire les coordonnées des variables sur les deux premiers axes. Vos calculs sont-ils en accord avec la
représentation du nuage des variables dans le premier plan factoriel ?
22. A quoi mesure-t-on la qualité de représentation des variables dans le plan principal ? En déduire les variables
bien ou très bien représentées.
3 4
Partie B
Individus X1∗ X2∗ Y
Analyse Factorielle Discriminante 1 -4.0909 1.4546 1
2 · 2.9546 1
Considérons un échantillon de n individus sur lesquels on observe p + 1 variables : p variables quantitatives notées 3 -3.0909 · 1
X1 , X2 ,..., Xp et une variable qualitative Y présentant k modalités. Les n individus de l’échantillon peuvent alors être 4 -2.0909 · 1
séparés en k classes notées C1 , C2 ,..., Ck correspondant aux k modalités de la variable Y . 5 -0.5909 4.4546 1
Selon une approche géométrique, ces individus sont représentés par un point de l’espace Rp auquel on associe 6 -0.0909 1.9546 1
un identifiant caractérisé par un entier compris entre 1 et k afin d’identifier la classe d’appartenance de chacun des 7 1.4091 · 2
individus. 8 1.9091 -2.0454 2
L’Analyse Factorielle Discriminante (AFD) est une méthode qui présente deux objectifs : le premier, descriptif, 9 · -4.5454 2
consiste à chercher dans l’espace Rp les directions qui séparent au mieux (selon un critère) les k classes d’individus ; 10 3.4091 · 2
le second, prédictif, consiste à associer un nouvel individu dont on connaı̂t les valeurs des p variables quantitatives à 11 3.9091 -1.5454 2
une des classes Cℓ pour ℓ = 1, 2, · · · , k. Selon cette seconde approche, l’AFD peut être vue comme une régression dont G1 -2.2576 · 1
la variable à expliquer est qualitative. G2 · -2.7454 2
L’objectif de cet exercice est de réaliser une AFD sur un échantillon de 11 étudiants (n = 11) sur lesquels on
observe deux variables explicatives (p = 2) : la note du module de Mathématiques (X1 ) et la note du module de 5. Dans un repère orthonormé de centre G, représenter le nuage des individus ainsi que les barycentres partiels. On
Français (X2 ). Par ailleurs, on désigne par Y la variable qualitative indiquant l’origine géographique de ces étudiants pourra identifier chacun des points par le groupe auquel il appartient.
dont les modalités sont : 1 si l’étudiant vient de Seine-Maritime et 2 si l’étudiant vient du Calvados (on suppose que 6. Désignons par Tℓ (ℓ = 1, 2) la matrice des covariances à l’intérieur de la classe Cℓ . Cette matrice est d’ordre 2 × 2
les étudiants sur lesquels on travaille viennent de l’un ou l’autre de ces départements). Notons que dans le cas présent, et admet pour terme général
il existe un unique axe qui sépare au mieux les individus des deux classes. Les données concernant cet exemple sont
regroupées dans le tableau suivant : 1 X ℓ ℓ
tℓj1 j2 = (xij1 − X j1 )(xij2 − X j2 ), pour 1 ≤ j1 , j2 ≤ 2 et ℓ = 1, 2,
nℓ
i∈Cℓ
ℓ
où X j représente la moyenne de la variable Xj au sein de la classe Cℓ .
Individus X1 X2 Y
En d’autres termes, la matrice T1 (resp. T2 ) est la matrice des covariances associée aux variables X1 et X2
1 7 12 1 calculée sur les individus de la classe C1 (resp C2 ). Compléter les deux matrices suivantes :
2 7.5 13.5 1
3 8 11 1
2.2222 ·

· 0.41

4 9 13 1 T1 = T2 =
0.8472 · · 1.26
5 10.5 15 1
6 11 12.5 1 7. Désignons maintenant par W la matrice des covariances intra-classes. Par définition, cette matrice est obtenue
7 12.5 7 2 comme somme pondérée des matrices T1 et T2 :
8 13 8.5 2
n1 n2
9 14 6 2 W = T1 + T2
10 14.5 8.5 2 n n
11 15 9 2 Calculer W .
8. Identifier l’axe factoriel discriminant (c’est-à-dire l’axe qui sépare au mieux les individus des deux classes) revient
à réaliser une ACP sur la matrice C d’ordre k × p de terme général
ℓ
1. Déterminer le barycentre G de ce nuage de point. cℓj = X j − X j , pour 1 ≤ ℓ ≤ k et 1 ≤ j ≤ p,
2. Désignons par Gℓ le barycentre partiel des individus de la classe Cℓ (ℓ = 1, 2). Calculer les deux barycentres
représentant les barycentres partiels exprimés dans le nouveau repère, à laquelle on associe la matrice des
partiels G1 et G2 .
pondérations
3. Soit nℓ le nombre d’individus de la classe Cℓ . Calculer la quantité
 
ν1 0 ··· 0
n1 n2
G1 + G2  .. 
n n  0 ν2 . 0 
Dk = 
 . .
,
 .. .. ..
. ..

Que constatez-vous ? . 
4. En se servant du tableau ci-après, exprimer les nouvelles coordonnées des individus ainsi que celles des barycentres 0 · · · 0 νk
partiels dans le repère de centre G : nℓ
où l’on a νℓ = n .
L’ACP est alors réalisée dans l’espace Rp muni d’une métrique particulière dite de Mahalanobis et définie par
Mp = W −1 .
5 6
(a) Dans le cadre de l’exemple, identifier les valeurs numériques intervenant dans les matrices C, Dk et W −1 .
(b) A partir des résultats du cours, indiquer la matrice à diagonaliser (on l’exprimera en fonction des matrices
C, Dk et W −1 avant de donner les valeurs numériques).
(c) Identifier les valeurs propres.
(d) Pour la valeur propre non nulle, trouver un vecteur propre u associé. Par construction, la droite de vecteur
directeur u doit passer par les barycentres partiels G1 et G2 . Vérifier en traçant cette droite dans le repère
de centre G que cette propriété est bien vérifiée.
Rappel : la droite va s’écrire dans le cas présent X2 = aX1 où a est le coefficient issu du vecteur directeur
v = (1, a).
(e) Par définition, l’axe discriminant est caractérisé par un vecteur directeur w obtenu selon le produit matriciel
suivant :
w = W −1 u
Déterminer le vecteur w, puis représenter l’axe associé dans le repère de centre G.
9. On dispose de deux nouveaux étudiants dont on connaı̂t les notes. On voudrait pouvoir identifier leur département
d’origine. Dans ce but, il convient de définir une règle d’allocation. La règle la plus simple est la règle géométrique
qui consiste à associer le nouvel individu à la classe C1 si on a
d2Mp (x∗ , G∗1 ) < d2Mp (x∗ ; G∗2 )
où x∗ représente les coordonnées du nouvel individu dans le repère de centre G, G∗1 et G∗2 désignent les barycentres
partiels des classes C1 et C2 dans le repère de centre G, et où Mp est la métrique de Mahalanobis définie dans
la question 8.
En faisant usage du produit scalaire matriciel, montrer que l’écart d2Mp (x∗ , G∗1 ) − d2Mp (x∗ ; G∗2 ) s’exprime comme
suit :
f (x∗ ) := d2Mp (x∗ , G∗1 ) − d2Mp (x∗ ; G∗2 ) = (x∗ )t W −1 (G∗1 − G∗2 ).
10. Identifier l’ensemble des points de R2 pour lesquels on a f (x∗ ) = 0. Représenter cet ensemble sur le graphique.
11. Considérons les étudiants A et B dont les notes sont respectivement (7, 11) et (7, 4). Trouver à l’aide de la
fonction f une prévision de leur département d’origine.
12. Confirmer votre prédiction par une méthode graphique en plaçant les points correspondants dans le repère de
centre G.

AD Examen 0405

Transféré par

Droits d'auteur :

Formats disponibles

AD Examen 0405

Transféré par

Informations du document

Description originale:

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

AD Examen 0405

Transféré par

Droits d'auteur :

Formats disponibles

I.U.

T de Caen STID 2ème année

Examen terminal - Durée 3h 

individus Quali (1) (%) Quali (2) (%) Quali (1 × 2) (%)

d2Mp (x∗ , G∗1 ) < d2Mp (x∗ ; G∗2 )

Vous aimerez peut-être aussi