Touat, Dyhia
Touat, Dyhia
Touat, Dyhia
MÉMOIRE
Présenté par
Master en Mathématiques
Option : Probabilités-Statistique.
Sujet
Analyse discriminante
Soutenu publiquement le 01 Octobre 2019
Devant le jury composé de
Mes vifs remerciements vont également aux membres du jury pour l’intérêt qu’ils
ont porté à mon mémoire en acceptant d’examiner mon travail.
Je désire aussi remercier mes très chers parents, Belkacem et Zahia, qui ont tou-
jours été là pour moi. Je remercie ma sœur Fatma et mes fréres Mohand Said et
Hakim pour leurs encouragements.
Enfin je remercie mes amis Sabrina, Fatima, Massiva, Lynda, Mohamed Samir,
Hassane et Asma qui ont toujours été là pour moi. Leur soutien inconditionnel et
leurs encouragements m’ont été d’une grande aide.
2
Dédicaces
A ma très chère mère Zahia qui m’a comblée avec sa tendresse et affection tout au
long de mon parcours. Elle n’a cessé de me soutenir et de m’encourager durant toutes
les années de mes études, elle a toujours été présente à mes cotés pour me consoler
quand il fallait. Qu’elle trouve ici le témoignage de ma profonde reconnaissance.
A mon très cher père Belkacem : Rien au monde ne vaut les efforts fournis jour
et nuit pour mon éducation et mon bien être. Ta patience, ta compréhension et ton
encouragement sont pour moi le soutien indispensable que tu as toujours su m’ap-
porter. Que Dieu le tout puissant te préserve, t’accorde santé, bonheur et te protège
de tout mal.
Mon cher frère Mohand Said qui m’est le meilleur ami, les mots ne suffisent guère
pour exprimer l’attachement, l’amour et l’affection que je porte pour toi. Je te sou-
haite un avenir plein de joie, de bonheur et de réussite.
A mon cher petit frère Hakim pour toute l’ambiance dont tu m’as entouré, pour
toute la spontanéité et ton élan chaleureux. Je te dédie ce travail. Puisse Dieu le tout
puissant exhausser tous tes vœux.
A mon frère Ahsen et mes cousines : Sabrina, Sonia, les deux Sylia et Belinda. En
témoignage de l’attachement, de l’amour et de l’affection que je porte pour vous. Je
vous dédie ce travail avec tous mes vœux de bonheur, de santé et de réussite.
A la mémoire de mes grands parents maternels qui ont été toujours dans mon esprit
3
et dans mon cœur, je vous dédie aujourd’hui ma réussite. Que Dieu, le miséricordieux,
vous accueille dans son éternel paradis.
4
Table des matières
Introduction générale 9
5
TABLE DES MATIÈRES
2 Analyse discriminante 55
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.2 Données et notations . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.3 L’AD descriptive et l’AD prédictive . . . . . . . . . . . . . . . . . . . 58
2.4 Principe de l’analyse discriminante . . . . . . . . . . . . . . . . . . . 59
2.4.1 La discrimination . . . . . . . . . . . . . . . . . . . . . . . . . 59
6
TABLE DES MATIÈRES
3 Application 86
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.2 Les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.3 Nuages de points et corrélation . . . . . . . . . . . . . . . . . . . . . 88
3.4 Méthode échantillon-test . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.4.1 Echantillon d’apprentissage . . . . . . . . . . . . . . . . . . . 89
3.4.2 Echantillon test . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.5 L’analyse linéaire discriminante . . . . . . . . . . . . . . . . . . . . . 90
3.6 Qualité de représentation sur les axes discriminants . . . . . . . . . . 91
3.7 Représentation simultanée . . . . . . . . . . . . . . . . . . . . . . . . 102
3.8 Matrice de confusion- échantillon d’apprentissage . . . . . . . . . . . 103
3.9 Matrice de confusion- échantillon test . . . . . . . . . . . . . . . . . . 104
7
Table des matières
Conclusion 106
8
Introduction générale
9
Chapitre 1
1.1 Introduction
L’objet de ce chapitre est de donner quelques outils couramment employés en sta-
tistique pour traiter des données multidimensionnelles. Ces données correspondent
souvent à l’observation de nombreuses variables aléatoires sur plusieurs individus.
Elles sont représentées sous forme d’un tableau où chaque ligne représente les va-
riables mesurées sur un individu. Le but est d’extraire le maximum d’informations
de ce tableau de données. Les méthodes factorielles cherchent à réduire le nombre
de variables en les résumant par un petit nombre de composantes synthétiques et
selon que l’on travaille avec un tableau de variables qualitatives ou quantitatives,
on utilisera l’analyse en composante principale (variables quantitatives) ou factorielle
de correspondance (voire multiples) (variables qualitatives). Par conséquent le choix
d’une méthode statistique dépendra de la nature des variables.
10
CHAPITRE 1. Analyse des données
11
CHAPITRE 1. Analyse des données
1.3 Objectifs
L’analyse des données est un ensemble de techniques permettant d’étudier la
structure, éventuellement compliquée, d’un tableau de nombres à plusieurs dimen-
sions et de la traduire par une structure plus simple et qui la résume au mieux. Cette
structure peut le plus souvent, être représentée graphiquement.([5])
12
CHAPITRE 1. Analyse des données
Elle est aussi utilisée en sociologie pour analyser les réponses à un questionnaire.
En médecine, par exemple, pour détecter les groupes à haut risque cardiaque à partir
de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents
familiaux etc..., on fait appel à l’analyse discriminante.
L’analyse en composantes principales est très applicable en biologie, la recherche
économique et sociale et plus récemment en traitement d’images.
Ces méthodes sont aussi beaucoup utilisées en marketing, en informatique, dans le
domaine bancaire etc....
En fait, tout domaine scientifique qui doit gérer de grandes quantités de données de
type varié ont recours à ces approches ainsi que tout domaine industriel.
L’ACP est une des premières analyses factorielles qui constituent la plupart
des analyses de données. Elle présente plusieurs variantes. On n’en décrira ici que
deux :
– L’ACP centrée :
L’ACP centrée est celle où on centre les variables.
– L’ACP normée :
L’ACP normée est celle où on centre et réduit les variables : on opère une
transformation linéaire sur chaque variable ramenant sa moyenne à zéro et sa
variance à l’unité.
13
CHAPITRE 1. Analyse des données
Remarque
On recommande l’ACP seulement centrée lorsque les variables sont homogènes (i.e.
même système d’unités) et on recommande l’ACP normée lorsque les variables sont
hétérogènes (i.e. dans le cas contraire).
L’analyse factorielle consiste à faire la recherche des axes factoriels (ou axes
principaux) des deux nuages. On cherche donc à ajuster le nuage des n points par un
sous-espace vectoriel de Rp et le nuage des p points par un sous-espace vectoriel de
Rn .
x11 . . . xp1
. . ..
.. .. .
j p
X= 1
xi xi xi
. . ..
.. ..
.
x1n . . . xpn
où xji est la valeur de l’individu i pour la variable j que l’on notera X j et qui sera
identifiée au vecteur de n composantes (xj1 , ..., xjn )0 .
De même l’individu i sera identifié au vecteur Xi à p composante avec Xi =
(x1i , ..., xpi )0 .([13],[10])
14
CHAPITRE 1. Analyse des données
– La variance :
La variance de la variable X j est définie par :
n
X
σj2 = var(X j ) = pi (xji − xj )2
i=1
exprime la moyenne des carrés des écarts à la moyenne. Elle est aussi égale à la
différence entre la moyenne des carrés et le carré de la moyenne.
La variance de X j peut donc s’écrire comme suit :
n
X
σj2 = pi xj2 j 2
i − (x )
i=1
0
– La covariance entre deux variables X j et X j :
La covariance est une extension de la notion de variance, elle est définie par :
n
0
j0
X
j
cov(X , X ) = pi (xji − xj )(xji − xj 0 )
i=1
0
– Le coefficient de corrélation entre deux variables X j et X j :
Le quotient de la covariance entre deux variables aléatoires par le produit de
leurs écarts types s’appelle le coefficient de corrélation entre ces deux variables.
Il s’écrit comme suit :
0
j cov(X j , X j )
j0
r(X , X ) =
σj σj 0
0
Remarque : r(X j , X j ) prend ses valeurs entre -1 et 1.
15
CHAPITRE 1. Analyse des données
Si les données ont été recueillies à la suite d’un tirage aléatoire à probabilités égales,
les n individus ont tous la même importance dans les calculs des caractéristiques de
l’échantillon. On leurs affecte donc un poids pi = n1 .
n
P
Sinon on leurs affecte des poids pi / pi > 0, ∀i = 1, n et pi = 1.
i=1
Ces poids qui sont comparables à des fréquences peuvent être regroupés dans une
matrice diagonale de taille n :
p1
Dp = ...
pn
– Remarque
Ces poids ne modifient en rien les principes de l’ACP, nous considérons donc
par la suite les cas où pi = n1 .
Les données pour l’ACP sont généralement présentées sous la forme de la matrice
X vue précédemment.
16
CHAPITRE 1. Analyse des données
17
CHAPITRE 1. Analyse des données
Remarques
1. Les matrices V et R sont aussi appelées matrices d’inertie du nuage des points.
2. R = D01 V D 1 où D 1 désigne la matrice diagonale des inverses des écarts types.
σ σ σ
([2])
Pour établir un bilan des ressemblances entre individus, nous cherchons à répondre
à des questions du type :
– Quels sont les individus qui se ressemblent ?
– Quels sont ceux qui sont différents ?
– Existe-t-il des groupes homogènes d’individus ?
– Est-il possible de mettre en évidence une typologie des individus ?
Définition 1.1. Deux individus se ressemblent, ou sont proches, s’ils possèdent des
valeurs proches pour l’ensemble des variables.
Cette définition sous entend une notion de proximité qui se traduit par une distance.
Ainsi, nous définissons la distance entre deux individus Xi et Xi0 par :
p
X
2
d (Xi , Xi0 ) = (xji − xji0 )2
j=1
18
CHAPITRE 1. Analyse des données
La métrique utilisée ici est donc euclidienne mais, de manière plus générale, nous
pouvons définir cette distance par :
– Remarque ([16])
La distance utilisée par l’ACP dans l’espace où sont représentés les individus,
est la distance euclidienne classique.
Avec cette distance, toutes les variables jouent le même rôle et les axes définis
par les variables constituent une base orthogonale. On associe à cette distance
un produit scalaire entre deux vecteurs :
−−→ −−→
< OXi , OXi0 >= Xi0 Xi0
Il est essentiel de définir la liaison entre des variables en répondant à des questions
du type :
– Quelles sont les variables qui sont liées positivement entre elles ?
– Quelles sont celles qui s’opposent (i.e. liées négativement) ?
– Existe-t-il des groupes de variables corrélées entre elles ?
– Est-il possible de mettre en évidence une typologie des variables ?
Définition 1.2. Deux variables sont liées si elles ont un fort coeficient de corrélation
linéaire.
19
CHAPITRE 1. Analyse des données
Ce moment d’inertie total est intéressant car il mesure la dispersion du nuage des
individus par rapport à son centre de gravité. Si ce moment d’inertie est grand, cela
signifie que le nuage est très dispersé, tandis que s’il est petit, alors le nuage est très
concentré sur son centre de gravité.([16])
– Remarque
On peut voir, en inversant l’ordre des signes somme, que IG peut aussi s’écrire
sous la forme suivante :
p n p
X 1X j 2
X
IG = [ (xi − xj ) ] = var(X j )
j=1
n i=1 j=1
Sous cette forme, on constate que l’inertie totale est égale à la trace de la matrice
de variance-covariance V.
IG = trace(V )
1.5.7 L’ajustement
L’approche factorielle consiste donc à approcher ces nuages de points dans des
sous-espaces vectoriels permettant de fournir des images planes de ces nuages.
Définition 1.3. On appelle premier axe principal la direction de l’espace qui rend
maximum l’expression suivante :
In (a1 ) = a01 V a1
Le problème à résoudre est donc la recherche d’un optimum d’une fonction de plu-
sieurs variables liées par une contrainte || a1 ||= 1 (les inconnues sont les composantes
de a1 ). La méthode des multiplicateurs de Lagrange peut alors être utilisée.
Dans le cas de la recherche de a1 , il suffit de calculer les dérivées partielles de :
20
CHAPITRE 1. Analyse des données
a01 V a1 − λ1 a01 a1 = 0
a01 V a1 = λ1
Le premier membre de l’équation précédente est égal à l’inertie In (a1 ) qui doit être
maximum. Cela signifie que la valeur propre λ1 est la plus grande valeur propre de
la matrice de covariance V et que cette valeur propre est égale à l’inertie portée par
l’axe a1 .([16])
Proposition 1.1. Le premier axe principal est engendré par le vecteur propre normé
a1 correspondant à la plus grande valeur propre λ1 . L’inertie expliquée par cet axe est
égale à λ1 .
21
CHAPITRE 1. Analyse des données
– Remarque
Le plan engendré par les vecteurs propres normés a1 et a2 est appelé le premier
plan principal, le plan engendré par les vecteurs propres normés a1 et a3 est
22
CHAPITRE 1. Analyse des données
elles donnent les coordonnées des projections orthogonales des individus sur les axes
définis par les aj .
– Remarque
La variance d’une composante principale est égale à la valeur propre λ corres-
pondante : var(cj ) = λj . En effet, par définition on a a0j aj = 1 et donc
0
var(cj ) = cj Dp cj = a0j X 0 Dp Xaj = a0j V aj = a0j (λj aj ) = λj a0j aj = λj
23
CHAPITRE 1. Analyse des données
– Remarque
On se contente souvent de faire des représentations du nuage des individus
dans un sous-espace engendré par les q premiers axes si ce sous-espace explique
un pourcentage d’inertie proche de 1. On peut ainsi réduire l’analyse à un
sous-espace de dimension q < p.
3. Critère de Kaiser : on ne retient que les axes dont l’inertie In est supérieure à
In
l’inertie moyenne p
.
24
CHAPITRE 1. Analyse des données
In
Dans le cas d’une ACP normée : p
= 1.
En effet, dans l’ACP normée : p = λ1 + λ2 + ... + λp = In . On ne retiendra donc
que les axes associés à des valeurs propre supérieures à 1.
pi (cji )2
CT Rj (Xi ) =
λj
On peut aussi définir une mesure de la contribution de l’individu Xi à l’inertie du
nuage des individus comme le rapport :
p
(cji )2
P
pi
j=1
CT R(Xi ) = p
P
λj
j=1
25
CHAPITRE 1. Analyse des données
– Remarque
Par construction on a : n
X
CT Rj (Xi ) = 1
i=1
et n
X
CT R(Xi ) = 1
i=1
(cji )2
CO2j (Xi ) = p
P j 2
(ci )
j=1
– Si CO2j (Xi ) est proche de 1, l’individu Xi est bien représenté sur l’axe engendré
par aj .
– Si CO2j (Xi ) est proche de 0, l’individu Xi est mal représenté sur l’axe engendré
par aj .
Remarque
Il est facile de voir que :
n
X
CO2j (Xi ) = 1
i=1
Par orthogonalité des axes principaux, la qualité de projection d’un individu sur un
plan principal est additive :
26
CHAPITRE 1. Analyse des données
D’une façon plus générale : la qualité de projection d’un individu sur le sous-espace
de dimension q formé par les q premiers axes principaux peut être mesurer par la
quantité suivante :
q
X
QLTq (Xi ) = CO2j (Xi )
j=1
– Si QLTq (Xi ) > 90%, par exemple, l’individu Xi est bien représenté sur le
sous-espace à q dimension formé par les q premiers axes principaux.
De même que nous avons réalisé l’ajustement des points individus, nous pouvons
procéder à l’ajustement des points variables dans un espace de dimension réduit.
Mathématiquement, cela conduit à diagonaliser la matrice Γ = Y Dp Y 0 dans le cas
d’une ACP centrée ou Σ = ZDp Z 0 dans le cas d’une ACP normée.
Cet ajustement est appelé dual de l’ajustement du nuage des points individus.
27
CHAPITRE 1. Analyse des données
La représentation des variables sur un axe s’obtient par projection des points
variables sur le vecteur unitaire bj qui définit la direction de l’axe.
Soit F j la coordonnée de la variable X j sur l’axe bj . On aura :
F j = X 0 bj
– Remarque
Entre les axes principaux des deux nuages de points, il existe des relations qui
permettent, connaissant les directions dans un espace, d’obtenir les directions
dans l’autre espace. On les appelle relations de transition.
Démonstration
Supposons que aj est un vecteur propre de V associé à la valeur propre non nulle λj ,
alors par définition d’un vecteur propre on a :
V a j = λ j aj
1
( XX 0 )Xaj = λj Xaj
n
Remplaçons n1 XX 0 par Γ :
ΓXaj = λj Xaj
D’où : Xaj est un vecteur propre de Γ associé à la valeur propre non nulle λj .
Mais Xaj n’est pas unitaire. On doit donc trouver un vecteur du type kXaj qui soit
unitaire, i.e. (kXaj )0 (kXaj ) = 1.
⇐⇒ k 2 (a0j X 0 Xaj ) = 1
⇐⇒ k 2 (a0j λj aj ) = 1 (aj vecteur propre de X 0 X)
⇐⇒ k 2 λj a0j aj = 1 (le produit matricielle est associatif)
⇐⇒ k 2 λj = 1 (a0j aj = 1)
⇐⇒ k 2 = 1
λj
⇐⇒ k = √1
λj
Donc √1 Xaj est un vecteur propre unitaire de Γ associé à la valeur propre λj .
λj
– Remarque
On vient de démontrer que les matrices V et Γ ont les mêmes valeurs propres
non nulles.
29
CHAPITRE 1. Analyse des données
Remarques
1. Dans le cas d’une analyse normée, la coordonnée d’une variable X j sur l’axe aj
coı̈ncide avec la corrélation de cette variable avec l’axe aj :
F j = r(X j , aj )
Cette formule joue un rôle important pour l’interprétation des résultats. Elle
met en relation les représentations des points individus avec les représentations
des points variables.
Une corrélation élevée indique que la disposition des individus sur l’axe
principal est semblable à l’ordonnance des individus selon la variable (la
corrélation unité signifierait que la composante principale est fonction linéaire
de la variable). Une corrélation proche de zéro indique qu’il n’y a pas
d’association linéaire entre la composante principale et la variable.
2. En travaillant sur des données centrées réduites : pour un couple d’axes prin-
cipaux engendrés par a1 et a2 , par exemple, on synthétise usuellement les
corrélations sur une figure appelée cercle des corrélations (de rayon 1) où chaque
variable X j est repérée par un point d’abscisse r(X j , a1 ) et d’ordonnée r(X j , a2 )
(voir la figure suivante) :
30
CHAPITRE 1. Analyse des données
0
3. Si deux variables X j et X j sont bien représentées sur le cercle des corrélations
(proches de l’axe et du bord du cercle) alors :
0
* La proximité des projections de X j et X j indique une forte corrélation linaire
entre ces deux variables.
0 0
* Si les projections des points X j et X j sont opposées, X j et X j sont corrélées
négativement.
0
* Des directions de X j et X j presque orthogonales indiquent une faible
corrélation entre ces variables.
Il arrive que l’on veuille faire apparaı̂tre dans les représentations graphiques
certains individus sans qu’ils interviennent dans la détermination des axes. Cela peut
être le cas de nouveaux individus que l’on veut simplement positionner par rapport
aux autres sans que les positions de ceux-ci soient influencées par les nouveaux. On
31
CHAPITRE 1. Analyse des données
Il en est de même pour les variables. On peut, par exemple, vouloir représenter une
variable qui dépend de façon synthétique des p variables choisies pour faire l’ACP,
afin de mieux comprendre comment cette variable est liée aux anciennes, mais on ne
souhaite pas qu’elle intervienne dans la construction des axes car ses liaisons avec les
p variables de départ fausseraient la représentation si elle faisait partie intégrante de
l’ACP. Elles sont appelées variables supplémentaires.
En ACP, il est fréquent que l’on veuille introduire des variables qualitatives
supplémentaires. Pour cela il suffit de ramener la variable qualitative ayant m
modalités à m groupes d’individus définis par la modalité de la variable. On traite
ensuite ces m groupes d’individus comme des individus supplémentaires. Ce sont les
centres de gravité de ces groupes d’individus qui vont être positionnés dans l’espace
Rp .
Remarques
– On peut représenter avec des symboles différents ces groupes d’individus définis
par chaque modalité.
– L’analyse d’une variable nominale supplémentaire ne se fait pas dans Rn mais
dans Rp .
1.5.10 Interprétation
32
CHAPITRE 1. Analyse des données
En résumé, on peut dire que l’ACP consiste à transformer les variables initiales
X j corrélées en de nouvelles variables, les composantes principales cj , combinaisons
linéaires des X j non corrélées entre elles, de variance maximale et les plus liées aux
X j : l’ACP est une méthode factorielle linéaire.
33
CHAPITRE 1. Analyse des données
– Remarque
L’AFC peut également être étendue aux variables quantitatives homogènes (i.e.
même système d’unités), en définissant simplement quelques modalités pour ces
variables. Par extension, elle s’applique aussi aux tableaux individus-variables
pour des variables quantitatives homogènes, dans ce cas les individus sont
considérés comme des variables.
34
CHAPITRE 1. Analyse des données
Les ki. et les k.j s’appellent respectivement marges en lignes et marges en co-
lonnes.
Davantage que le tableau précédent, c’est le tableau des fréquences (ou des
probabilités) relatives suivant qui est considéré :
Définition 1.4. On appelle tableau des profils-lignes le tableau des frequences condi-
kij fij
tionnelles ki.
= fi.
(la somme de chaque ligne est ramenée à 100%) et tableau des
kij fij
profils-colonnes le tableau des fréquences conditionnelles k.j
= f.j
(le total de chaque
colonne est alors ramené à 100%).([13])
– Remarque
Pour analyser un tableau de contingence ce n’est pas le tableau brut qui est
intéressant mais les tableaux des profils lignes et des profils colonnes (i.e. les
répartitions en pourcentage à l’intérieur d’une ligne ou d’une colonne).
Nous dirons qu’il y a liaison entre ces deux variables ou que ces deux variables sont
liées si elles ne sont pas indépendantes.([12])
36
CHAPITRE 1. Analyse des données
– Si fij est inférieur au produit des marges, les modalités i et j s’associent moins
que sous l’hypothèse d’indépendance. Nous dirons qu’il y a répulsion entre les
deux modalités i et j.
Remarque
Sous l’hypothèse d’indépendance nous avons :
– En considérant le tableau comme un ensemble de lignes :
fij
= f.j , ∀i = 1, n et ∀j = 1, p
fi.
fij
= fi. , ∀i = 1, n et ∀j = 1, p
f.j
le terme f.j s’interprète comme le pourcentage de la population totale possédant la
fij
modalité j et le terme fi.
représente ce même pourcentage dans la sous-population
possédant la modalité i. Ainsi il y a indépendance lorsque les lignes du tableau de
fréquences sont proportionnelles.
Par symétrie il en est de même pour les colonnes.
kij k.j
=
ki. k
ki. k.j
kij =
k
37
CHAPITRE 1. Analyse des données
Test de Chi2
Comme en ACP, on s’intéresse alors aux directions de plus grande dispersion de
chacun des deux nuages de points, mais on utilise la distance du χ2 entre ces deux
variables (à la place de la distance euclidienne). Cette distance permet de comparer
l’effectif de chacune des cellules du tableau de contingence à la valeur qu’elle aurait
si les deux variables étaient indépendantes.
– Remarque
ki. k.j
Les k
sont les effectifs théoriques sous H0 .
Les profils lignes forment un nuage de n points dans Rp , chacun de ces points
est muni d’un poids fi. .
Le centre de gravité (le barycentre) de ce nuage de points est :
38
CHAPITRE 1. Analyse des données
1
f.1
Dp−1 =
...
1
f.p
et
1
f1.
Dn−1 =
..
.
1
fn.
Remarques
fij
1. Le tableau des profils lignes d’éléments fi.
est alors Dn−1 F , où F est le tableau
des fréquences.
fij
2. Le tableau des profils colonnes d’éléments f.j
est alors F Dp−1 .
39
CHAPITRE 1. Analyse des données
L’AFC étant une ACP particulière, nous ne donnons pas trop de détails techniques
sur cette méthode. On en donne juste les grandes lignes dans ce paragraphe.
En pratique, nous devons centrer le nuage des points lignes, ainsi le centre de gravité
Gn devient l’origine des axes.
Deux ACP sont donc possibles :
(1)- ACP du nuage des points lignes dans Rp avec :
– tableau de données X = Dn−1 F .
– métrique M = Dp−1 .
– poids D = Dn .
(2)- ACP du nuage des points colonnes dans Rn avec :
– tableau de données X = Dp−1 F 0 .
– métrique M = Dn−1 .
– poids D = Dp .
Les axes principaux sont les vecteurs propres de M X 0 DX et les composantes princi-
pales sont les vecteurs propres de XM X 0 D.
Dans le cas de l’analyse des profils lignes, on a :
M X 0 DX = Dp−1 F 0 Dn−1 F
et
XM X 0 D = Dn−1 F Dp−1 F 0
Remarques
40
CHAPITRE 1. Analyse des données
2. Les coordonnées des points lignes et les coordonnées des points colonnes sont
reliées par des formules de transition (appelées également barycentriques ou
encore quasi-barycentriques) dont le premier intérêt est d’éviter de réaliser
deux diagonalisations.
On diagonalisera la matrice de dimension plus petite en formant la matrice
de dimensions (p,p) plutôt que la matrice de dimensions (n,n) en supposant
(n ≥ p).
– Notons tout d’abord que la première valeur propre est une valeur propre triviale
égale à 1. En effet, le premier vecteur propre associé à cette première valeur
41
CHAPITRE 1. Analyse des données
propre définit un axe principal pour lequel les projections des points lignes et
des points colonnes possèdent une variance (dispersion) nulle. Ce qui signifie
que toutes les projections possèdent les mêmes coordonnées. L’axe principal
correspondant à cette valeur sera donc exclu de l’analyse.
Les autres valeurs propres sont toutes inférieures à 1.
– Les valeurs propres proches de 1 traduisent une forte liaison entre les lignes et
les colonnes.
– Si une valeur propre est proche de 1, cela indique l’existence de deux sous
groupes de modalités dans les données. Il est alors intéressant de réaliser des
AFC indépendamment sur les deux sous groupes.
– De même, l’existence de deux valeurs propres proches de 1 indique une partition
des observations en 3 groupes. Si toutes les valeurs propres sont proches de 1,
cela indique une correspondance entre chaque modalité ligne et une modalité
colonne associée.
Remarque
Dans la pratique, on ne considère que d = inf (n − 1, p − 1) plus grandes valeurs
propres différentes de 1, ainsi que les vecteurs propres associés.
Pour une bonne interprétation des plans de projection en AFC, nous proposons
de suivre la même démarche qu’en ACP i.e. choisir le nombre d’axes de projection à
étudier, calculer les contributions relatives des lignes et des colonnes à un axe ou à
un plan, étudier la qualité de projection des lignes et des colonnes sur un axe ou sur
un plan,...etc.
La parfaite symétrie entre ACP des profils lignes et ACP des profils colonnes
conduit alors à superposer les plans principaux des deux ACP afin d’obtenir une
représentation simultanée des catégories des deux variables croisées dans le tableau
de contingence (voir la figure suivante) :
42
CHAPITRE 1. Analyse des données
– Remarque
En AFC, la représentation simultanée des deux nuages repose sur une dualité
plus riche qu’en ACP car les lignes et les colonnes représentent des éléments de
même nature.
Interprétation
La position relative de deux points d’un même ensemble (ligne ou colonne), s’in-
terprète en tant que distance. La position d’un point d’un ensemble et tous les points
d’un autre ensemble s’interprète en tant que barycentre.
43
CHAPITRE 1. Analyse des données
La modalité y2 est proche de l’origine, elle représente donc un profil moyen et n’est
rattachée à aucune variable yj , ∀j = {1, 3, 4}.
Il est aussi possible, comme pour l’ACP, d’ajouter des éléments supplémentaires,
illustratifs qui sont projetés sur les plans étudiés. Leur utilisation pour l’AFC est plus
fréquente que pour l’ACP car il peut y avoir beaucoup de variables pour une étude
donnée qui ne sont pas considérées dans cette analyse. Les projections sur les axes
principaux des profils lignes ou des profils colonnes de ces éléments n’interviennent
pas dans les calculs de ces axes.
Soit xi une ligne supplémentaire, pour visualiser xi sur un axe principal : on projette
son profil sur cet axe (même chose pour une colonne supplémentaire).
Nous aurons donc ici trois familles d’éléments à étudier, les individus, les va-
44
CHAPITRE 1. Analyse des données
riables et les modalités des variables. Afin d’établir un bilan des ressemblances entre
individus, comme en ACP nous cherchons à répondre à des questions du type :
– Quels sont les individus qui se ressemblent ?
– Quelles sont ceux qui sont différents ?
– Existe-t-il des groupes homogènes d’individus ?
– Est-il possible de mettre en évidence une typologie des individus ?
Les mêmes types de questions se posent pour les variables et les modalités.
Les données précédentes ne peuvent pas être traitées par l’ACP ou l’AFC
précédemment étudiées. On effectuera donc une transformation pour modifier la co-
dification en nombres binaires. L’analyse utilise ensuite le même principe que l’AFC,
en transformant le tableau disjonctif complet (qui est une autre représentation de nos
données) en profils lignes et en profils colonnes.
45
CHAPITRE 1. Analyse des données
Le tableau disjonctif complet représente les n individus en lignes, alors que les co-
lonnes représentent les M modalités des variables (et non plus les p variables) (voir
la matrice suivant) :
x11 . . . xM
1
. . ..
.. .. .
1 m
Y = xi xi xi
M
. . .
.. .. ..
1 M
xn . . . x n
A l’intersection de la ligne i avec la colonne m, la valeur xm
i vaut 1 si l’individu i
variable, comporte la valeur 1 une fois (complet) et une fois seulement (disjonctif).
Chaque modalité m est relié à une variable j.
Ainsi le tableau brut suivant :
1 2 3
2 1 1
X= 2 2 2
3 2 1
3 1 2
p
P
Notons mj le nombre de modalités de la variable j. Ainsi M = mj . Nous avons
j=1
donc les égalités suivantes :
mj
X
xm
i = 1, ∀(i, j)
m=1
46
CHAPITRE 1. Analyse des données
M
X
xm
i = p, ∀i
m=1
n
X
xm
i = nm , ∀m
i=1
– Remarque
En pratique, l’utilisateur n’a jamais besoin de calculer explicitement le tableau
disjonctif complet (les programmes d’ACM acceptent en entrée le tableau de
codage condensé et calculent eux-mêmes le tableau disjonctif complet).
L’ACM peut être vue comme une AFC du tableau disjonctif complet.
Considérons maintenant le tableau des profils lignes L et le tableau des profils colonnes
C dont leurs cases sont composées respectivement de :
fim xm fim xm
= i et = i
fi. p f.m nm
47
CHAPITRE 1. Analyse des données
– Chaque individu du nuage des points lignes est représenté par les modalités
qu’il possède. C’est un point de Rm qui a pour coordonnée sur l’axe m la valeur
xm
i
p
muni d’un poids constant fi. = n1 .
nm
Le barycentre Gn du nuage des points lignes a pour coordonnée f.m = np
sur
l’axe m.
– Chaque modalité peut être représentée par le profil colonne, i.e. par les valeurs
prises par tous les individus pour la modalité considérée. Ainsi une modalité m
xm
est un point de l’espace Rn et a pour coordonnée i
nm
sur l’axe i avec un poids
nm
de f.m = np
.
1
Le barycentre Gm du nuage des points colonnes a pour coordonnée fi. = n
sur
l’axe i.
Définition 1.6. La ressemblance entre deux individus est définie par les modalités de
chacun des individus. Si deux individus présentent globalement les mêmes modalités,
alors ils se ressemblent.
La distance qui caractérise la ressemblance entre deux individus i et i0 est la distance
de χ2 , elle est définie par :
M M
2 0
X 1 xm i xm
i0 2 nX 1 m
d (i, i ) = ( − ) = (xi − xm
i0 )
2
f
m=1 .m
p p p m=1 nm
modalité m et 0 sinon.
n
Le poids de la modalité m dans la distance est l’inverse de sa fréquence : nm
. Ainsi
si un individu possède une modalité rare (nm petit), il sera éloigné de tous les autres
individus et du centre de gravité.([12])
– Remarque
En pratique, on évite de conserver dans l’analyse des modalités rares et des
variables ayant des nombres de modalités trés différents.
48
CHAPITRE 1. Analyse des données
Deux modalités sont proches si elles sont possédées par les mêmes individus, tandis
que les modalités rares sont éloignées de toutes les autres et du centre de gravité Gm .
Remarque
En notant F le tableau des fréquences, on a :
L = Dn−1 F et −1 0
C = Dm F
avec Dn−1 et Dm
−1
sont les métriques de χ2 relatives respectivement aux espaces Rn et
Rm , elles sont données par :
1
f1.
n
Dn−1 =
...
= ...
= nIn
1
fn.
n
et
1 np n
f.1 n1 n1
−1
Dm
= ...
= ...
= p ...
= p∆
1 np n
f.M nM nM
avec
n
n1
∆= ..
.
n
nM
L’inertie totale du nuage des modalités et, par dualité, celle du nuage des individus
en ACM dépend du nombre moyen de modalités par variables ( Mp ), elle vaut M
p
− 1.
De plus, elle est égale à λ1 + λ2 + ... + λr où r = min(n − 1, M − p) est le nombre de
valeurs propres non nulles. Le pourcentage d’inertie expliquée par un axe α est donc :
λα
λ1 + λ2 + ... + λr
49
CHAPITRE 1. Analyse des données
Remarque
En ACM, les pourcentages d’inertie expliqués par les axes sont par construction petits
et ne peuvent donc pas être interprétés comme en AFC ou en ACP. Le nombre d’axes
retenus pour l’interprétation ne peut pas être choisi à partir de ces pourcentages.
1.7.3.2 ACP des nuages des points lignes et des points colonnes
Nous allons effectuer une ACP des nuages des points individus et des points mo-
dalités (centrés). Reprenons donc les résultats vus en AFC :
On réalise l’ACP des profils lignes dans Rm avec :
– tableau de données X = L = Dn−1 F = nF .
−1
– métrique M = Dm = p∆.
– poids D = Dn = n1 In .
Nous allons suivre la même démarche pour les profils colonnes i.e. effectuer
une ACP du nuage des points colonnes dans Rn avec :
−1 0
– tableau de données X = C = Dm F = p∆F 0 .
– métrique M = Dn−1 = nIn .
– poids D = Dm = p1 ∆−1 .
Les axes principaux sont donc les vecteurs propres de npF ∆F 0 et les composantes
principales sont les vecteurs propres de np∆F 0 F normalisés par b0 Dm
−1
b, où b est un
vecteur propre de np∆F 0 F .
– Remarque
On remarque que :
M X 0 DX = CL
50
CHAPITRE 1. Analyse des données
et
XM X 0 D = LC
et n n
1 X xm i 1 1 X m
bm = √ ai = √ x i ai
λ i=1 nm λ nm i=1
A un coefficient près ( √1λ ), sur chaque axe, un individu est au barycentre des modalités
qu’il possède et une modalité est au barycentre des individus qui la possèdent. Cette
double propriété barycentrique est particulièrement simple du fait que xm
i vaut 0 ou
1. Elle suffit presque pour interpréter les graphiques, ce qui fait d’ailleurs de l’ACM
la méthode factorielle dont les graphiques sont les plus faciles à interpréter.([10])
1.7.3.4 Biplot
51
CHAPITRE 1. Analyse des données
52
CHAPITRE 1. Analyse des données
1.7.3.5 Interprétation
Rappelons que sur la représentation simultanée, les nuages des points lignes et
des points colonnes ne sont pas dans les mêmes espaces. Il est donc important d’avoir
53
CHAPITRE 1. Analyse des données
54
Chapitre 2
Analyse discriminante
2.1 Introduction
L’analyse discriminante est une technique d’analyse des données connue sous
l’abréviation AD. Elle est utilisée dans le cadre de la modélisation d’une variable
qualitative Y à K catégories (modalités) dite variable à expliquer (ou variable en-
dogène ou encore variable à prédire), à partir de p variables quantitatives appelées
variables explicatives (ou variables exogènes ou encore prédicteurs).
On peut considérer l’analyse discriminante comme une extension du problème de la
régression au cas où la variable à expliquer est qualitative ; on verra d’ailleurs que dans
le cas de deux catégories, on peut se ramener exactement à une régression linéaire
multiple. Elle peut aussi être vue comme un cas particulier de l’analyse en compo-
santes principales. En effet, son aspect descriptif décrit dans le paragraphe 2.3 fait
appel à des calculs d’axes principaux appelés axes factoriels discriminants.
55
CHAPITRE 2. Analyse discriminante
de données suivante :
1 2 ... K 1 2 ... p
1 1 0 ... 0
2
A X
n 0 0 ... 1
Notons :
Nk = {Xi \i ∈ Gk } ⊂ Rp
n
P
Si les n individus sont affectés des poids p1 , ..., pn , tels que ∀i = 1, n, pi > 0 et pi = 1
i=1
alors le poids de chaque groupe Gk est :
X
Pk = pi
i∈Gk
1 nk
En général, on prend pi = n
et donc Pk = n
. On a alors les définitions suivantes :
56
CHAPITRE 2. Analyse discriminante
Remarques
2. En règle générale, W est inversible tandis que B ne l’est pas, car les K centres
de gravité sont dans un sous-espace de dimension K-1 de Rp (si p > K − 1 ce
qui est généralement le cas), alors que la matrice B est de taille p.
On a la relation suivante :
K K
X X nk
g= Pk gk = gk
k=1 k=1
n
57
CHAPITRE 2. Analyse discriminante
Remarque
Contrairement à l’analyse discriminante prédictive, l’analyse discriminante
descriptive ne repose sur aucune hypothèse probabiliste. Il s’agit essentiellement
d’une méthode géométrique.
Ces deux aspects correspondent donc à la distinction entre les méthodes géométriques
qui sont essentiellement descriptives et qui ne reposent que sur des notions de distance
et les méthodes probabilistes.
58
CHAPITRE 2. Analyse discriminante
2.4.1 La discrimination
Proposition 2.1. L’inertie totale du nuage des points individus est égale à la somme
de l’inertie inter-groupe et de l’inertie intra-groupe.
Cette proposition s’énonce également par le fait que la covariance totale du nuage est
la somme de la covariance inter-groupe et de la covariance intra-groupe :
V =B+W
([16])
59
CHAPITRE 2. Analyse discriminante
u0 Bu
u0 W u
soit maximum.
u0 Bu u0 Bu
max ⇐⇒ max
u0 W u u0 V u
u0 Bu
La fonction u0 V u
à rendre maximum est inchangée si u est remplacé par αu, α étant
un scalaire quelconque. Par conséquent :
u0 Bu
max ⇐⇒ max u0 Bu
u0 V u
L(u) = u0 Bu − λ(u0 V u − 1)
∂L(u)
= 0 =⇒ Bu = λV u
∂u
Si V est une matrice inversible (ce qui est le cas en général), alors :
V −1 Bu = λu
Proposition 2.2. Le premier axe factoriel discriminant ∆u1 est engendré par le
vecteur propre normé u1 de V −1 B correspondant à la plus grande valeur propre λ1 .
De même, le vecteur propre de V −1 B relatif à la deuxième valeur propre λ2 (λ2 ≤ λ1 )
constitue le deuxième axe factoriel discriminant ∆u2 et ainsi de suite pour chacun des
vecteurs propres successifs.
60
CHAPITRE 2. Analyse discriminante
– λ = 0 correspond au cas où le meilleur axe ne permet pas de séparer les centres
de gravité gk . C’est le cas où ils sont confondus, les nuages sont donc concen-
triques et aucune séparation linéaire n’est possible (voir la figure suivante) :
61
CHAPITRE 2. Analyse discriminante
Remarque
L’interprétation de ces K − 1 valeurs propres diffère de celle des valeurs propres
obtenues lors d’une analyse factorielle faite sur un ensemble non partitionné a priori
(analyse en composantes principales ou analyse des correspondances). En effet, dans
ce dernier cas, la somme des q premières valeurs propres indique l’inertie expliqué
par les q premiers axes principaux, tandis que la somme de plusieurs valeurs propres
dans une analyse factorielle discriminante n’aurait pas de sens.
62
CHAPITRE 2. Analyse discriminante
V −1 .
Comme en ACP, on pourra interpréter les p variables (dites variables discriminantes)
au moyen d’un cercle des corrélations. A la différence de l’ACP, trois types de
corrélation sont possible : la corrélation globale entre les axes et les variables
initiales, la corrélation intra-groupe calculée à l’intérieur des groupes et la corrélation
inter-groupe calculée à partir des centres de gravité des groupes pondérés par leurs
poids.
V −1 Bu = λu ⇐⇒ Bu = λV u
En remplaçant V par B + W on a :
λ λ
Bu = λBu + λW u ⇐⇒ Bu = W u ⇐⇒ W −1 Bu = u
λ−1 λ−1
On vient de montrer que si λ et u sont valeur et vecteur propres de V −1 B alors
µ= λ
λ−1
et u sont respectivement valeur et vecteur propres de W −1 B. L’utilisation
−1
de V ou de W −1 comme métrique est donc indifférent.
Remarques
1. La métrique W −1 est appelée métrique de Mahalanobis.
2. Dans les procédures de quelques logiciels (SAS par exemple) concernant
l’analyse discriminante, les calculs sont faits en utilisant la métrique W −1 (ces
63
CHAPITRE 2. Analyse discriminante
de terme général :
K
X nk
bjj 0 = (gkj − gj )(gkj 0 − gj 0 )
k=1
n
où gkj est la jième composante de gk .
sous la forme :
B = CC 0
u = W −1 Cw
C 0 W −1 Cw = λw =⇒ CC 0 W −1 Cw = λCw =⇒ BW −1 Cw = λCw
et donc :
W −1 BW −1 Cw = λW −1 Cw ⇐⇒ W −1 Bu = λu
64
CHAPITRE 2. Analyse discriminante
1. Description dans Rp
Dans le plan discriminant P = (∆u1 , ∆u2 ), on représente :
– Les points individus Xi à l’aide de leurs coordonnées :
cj = uj Xi , j = 1, 2
uj gk , j = 1, 2
On oriente le plan discriminant P en faisant figurer la projection des axes ∆ei associés
aux variables initiales, le vecteur de base ei a pour coordonnées, dans le système des
deux premiers axes discriminants :
uj ei , j = 1, 2
65
CHAPITRE 2. Analyse discriminante
2. Description dans Rn
La projection des variables est calculée en fonction des axes discriminants du nuage
des points individus. La coordonnée d’une variable X j sur l’axe uj est donnée par :
F j = r(X j , uj )
66
CHAPITRE 2. Analyse discriminante
n1 n2
B= (g1 − g)(g1 − g)0 + (g2 − g)(g2 − g)0
n n
n1 n2 n1 g1 + n2 g2
⇐⇒ B = 2
(g1 − g2 )(g1 − g2 )0 (car g = )
n n
de terme général :
n1 n2
bjj 0 = (g1j − g2j )(g1j 0 − g2j 0 )
n2
u = W −1 (g1 − g2 )
et
n1 n2
λ= (g1 − g2 )0 W −1 (g1 − g2 )
n2
En effet, on a :
n1 n2
W −1 Bu = λu ⇐⇒ W −1 (g1 − g2 )(g1 − g2 )0 u = λu
n2
n1 n2 −1
W (g1 − g2 )(g1 − g2 )0 W −1 (g1 − g2 ) = λW −1 (g1 − g2 )
n2
n1 n2
La quantité n2
(g1 − g2 )0 W −1 (g1 − g2 ) est un scalaire et c’est la valeur propre λ, qui
n1 n2
n’est autre que le D2 de Mahalanobis au coefficient n2
près.
67
CHAPITRE 2. Analyse discriminante
– Remarque
Le D2 de Mahalanobis mesure la distance entre deux groupes, plus précisément
il mesure la distance entre les centres des groupes pour la métrique W −1 , il
vaut :
D2 = (g1 − g2 )0 W −1 (g1 − g2 )
B peut se mettre sous la forme B = CC 0 où C est une matrice colonne (p,1) de terme
général : √
n1 n2
cj = (g1j − g2j )
n
Nous avons donc :
W −1 Bu = λu ⇐⇒ W −1 CC 0 u = λu ⇐⇒ C 0 W −1 CC 0 u = λC 0 u
où
– Les xji sont des nombres connus, non aléatoires.
– Les paramètres βj sont inconnus, mais non aléatoires, ce sont les paramétres à
estimer (coefficients de la régression linéaire).
– Les εi sont des variables aléatoires inconnues, elles correspondent aux erreurs
de l’estimation.
– Les yi sont donc aléatoires.
En utilisant l’écriture matricielle de (2.1) nous obtenons la définition suivante :
Définition 2.2. Un modèle de régression linéaire multiple est défini par une équation
de la forme :
Y = Xβ + ε
68
CHAPITRE 2. Analyse discriminante
y1 1 x11 xj1 xp1 β0 ε1
⇐⇒
y i
= 1 x1
i xji xpi
βj + εi
yn 1 x1n xjn p
xn βp εn
où :
– Y est un vecteur aléatoire de dimension n, c’est le vecteur des variables à ex-
pliquer.
– X est une matrice de taille n × (p + 1) connue, appelée matrice du plan
d’expérience.
– β est le vecteur de dimension p + 1 des paramètres inconnus du modèle.
– ε est le vecteur de dimension n des erreurs.
L’hypothèse (H2 ) signifie que les erreurs sont centrées, de même variance σ 2
(homoscédasticité) et non corrélées entre elles.([14])
Définition 2.3. L’estimateur des moindres carrés βb est défini comme suit :
n
X
arg minp ε2i = arg minp (yi −β0 −β1 x1i −...−βp xpi )2 = arg minp kY −Xβk2 = arg minp kεk2
β∈R β∈R β∈R β∈R
i=1
βb = (X 0 X)−1 X 0 Y
69
CHAPITRE 2. Analyse discriminante
– Remarque
L’hypothèse (H1 ) assure que la matrice X 0 X est bien inversible.
Preuve
On cherche β ∈ Rp qui minimise la fonction :
alors n1 X 0 Y = C, d’où βb = V −1 C = W −1 C.
70
CHAPITRE 2. Analyse discriminante
La méthode classique consiste à comparer les distances d’un nouvel individu aux
centres des groupes, distances mesurées avec une certaine métrique (la métrique
W −1 ). Cette métrique s’introduit naturellement dans l’analyse discriminante dont le
but est de mettre en évidence des facteurs tels que les valeurs de ceux-ci soient aussi
différentes que possible pour les individus appartenant à des groupes différents.
Règle de Mahalanobis-Fisher
Etant donné un nouvel individu a, nous voulons savoir à quel groupe il appartient.
Nous supposons ici, que l’individu a appartient surement à l’un des K groupes.
La règle de Mahalanobis-Fisher consiste à utiliser la métrique W −1 (ou V −1 ce qui
est équivalent), nous allons donc calculer la distance, pour la métrique W −1 , de a au
centre gk de la classe Gk :
d2 (a, Gk ) = (a − gk )0 W −1 (a − gk ) (2.2)
71
CHAPITRE 2. Analyse discriminante
Elles sont des fonctions quadratiques de a, mais elles ont toutes en commun le terme
carré a0 W −1 a qui ne dépend pas de k, on pourra donc comparer les fonctions linéaires
discriminantes de a, définies ci-dessous, relatives à chaque groupe Gk :
i.e.
fG1 (a) − fG2 (a) > 0
2(g1 − g2 )0 W −1 a
et on remarque que :
On affecte a au groupe G2 si
1
(g1 − g2 )0 W −1 a < (g1 − g2 )0 W −1 (g1 + g2 ) (2.7)
2
On notera que le terme de gauche de (2.6) ou (2.7) n’est autre que la fonction linéaire
discriminante de Fisher.([1])
73
CHAPITRE 2. Analyse discriminante
d’affectation :
P (Y = Gk )P (X/Y = Gk ) πk fk (x)
P (Y = Gk /X) = K
= K
P P
P (Y = Gk )P (X/Y = Gk ) πk fk (x)
k=1 k=1
– Remarque
Les probabilités a posteriori P (Y = Gk /X) sont parfois qualifiées de scores
discriminants.
a. On peut supposer que fk a une forme paramétrique et estimer les paramètres sur
l’échantillon d’apprentissage.
où
– µk ∈ Rp est le vecteur des moyennes théoriques.
74
CHAPITRE 2. Analyse discriminante
p 1 1
⇐⇒ ln(πk fk (x)) = ln(πk ) − ln(2π) − ln |Σk | − (x − µk )0 Σ−1
k (x − µk )
2 2 2
p
En multipliant par 2 et en remarquant que 2
ln(2π) est indépendant de k, on obtient
le résultat indiqué en (2.8).
– Remarque
75
CHAPITRE 2. Analyse discriminante
nk
πbk =
n
1 X
µ
ck = xi
nk i∈G
k
K P
1
(xi − µk )(xi − µk )0 dans le cas homoscédastique
P
Σ
b=
n
Σ
ck = k=1i∈Gk
1
(xi − µk )(xi − µk )0 dans le cas hétéroscédastique
P
Σ
ck =
nk
i∈Gk
1 X
Σ
ck = (xi − µk )(xi − µk )0
nk − 1 i∈G
k
76
CHAPITRE 2. Analyse discriminante
on trouve
Donc minimiser Dk2 (x) est équivalent à maximiser − 21 (−2x0 Σ−1 µk + µ0k Σ−1 µk −
2 ln(πk )) (car x0 Σ−1 x et ln |Σ| ne dépendent pas de k).
Les estimateurs du maximum de la vraisemblance, en reprenant les notations de la
section 2.2, sont donc :
ck = gk = n1k
P
– µ xi .
i∈Gk
K P K
1
(xi − µk )(xi − µk )0 = 1
P P
– Σ
b=W =
n n
nk Vk ou encore par la version sans
k=1i∈Gk k=1
K
1
P
biais W = n−K
nk Vk .
k=1
77
CHAPITRE 2. Analyse discriminante
– Remarque
Lorsqu’on suppose que π1 = ... = πk (égalité des probabilités à priori), la
règle de l’analyse discriminante linéaire est équivalente à la règle de classement
géométrique qui consiste à affecter un nouvel individu a au groupe Gk dont le
centre de gravité gk est le plus proche en terme de distance. Rappelons que la
distance utilisée est celle de Mahalanobis correspondante à la métrique W −1 .
Soit maintenant
1 π2
S(x) = x0 Σ−1 (µ1 − µ2 ) − (µ1 + µ2 )0 Σ−1 (µ1 − µ2 ) − ln( )
2 π1
On affectera a au groupe G1 si S(x) > 0 et au groupe G2 si S(x) < 0.
La fonction S appelée score ou statistique d’Anderson est liée simplement à la pro-
babilité a posteriori d’appartenance au groupe G1 .
En effet, on a :
π1 f1 (x)
P (Y = G1 /X) = P =
π1 f1 (x) + π2 f2 (x)
78
CHAPITRE 2. Analyse discriminante
d’où :
1 π2 f2 (x) π2 1 1
=1+ =1+ exp(− (x − µ2 )0 Σ−1 (x − µ2 ) + (x − µ1 )0 Σ−1 (x − µ1 ))
P π1 f1 (x) π1 2 2
79
CHAPITRE 2. Analyse discriminante
b. Le test de Kolmogorov-Smirnov
Le test de Kolmogorov-Smirnov (K-S) est l’un des tests d’adéquation non pa-
ramétrique les plus courants. Il permet d’estimer si le caractère d’un échantillon
est distribué de façon comparable à celui d’un autre ou s’il peut être approximé
par une loi de probabilité connue. Il donne notamment une bonne indication
d’ajustement à une loi normale.
Le principe est simple : on mesure l’écart maximum qui existe entre une fonction
de répartition empirique Fn (donc des fréquences cumulées) et une fonction de
répartition d’une loi de probabilité théorique F .
80
CHAPITRE 2. Analyse discriminante
L’hypothèse d’égalité des matrices Σk peut être testée au moyen du test de Box.
Si l’hypothèse Σ1 = Σ2 = ... = Σk est vraie, la quantité :
2p2 + 3p − 1 X 1 1 n X nk
(1− )[( − )(n−K) ln | W |− (nk −1) ln | Vk |]
6(p + 1)(k − 1) k
nk − 1 n − K n−K k
nk − 1
p(p+1)(K−1)
suit approximativement une loi de χ2 à 2
degrés de liberté.
– Remarque
Si l’on rejette l’hypothèse d’égalité, doit-on utiliser les règles quadratiques ?
Cela n’est pas sûr dans tous les cas. Tout d’abord le test de Box n’est pas par-
faitement fiable, ensuite l’usage de règles quadratiques implique l’estimation de
bien plus de paramètres que la règle linéaire, puisqu’il faut estimer chaque Σk .
Lorsque les échantillons sont de petite taille, les fonctions obtenues sont très
peu robustes et il vaut mieux utiliser une règle linéaire malgré tout.
Si, par exemple, p = 10 variables et K = 4 groupes : l’analyse discriminante
linéaire demande l’estimation de 95 paramètres et l’analyse discriminante qua-
dratique l’estimation de 260 paramètres.
|W | |W | 1
Λ= = = −1
|V | |W + B| |W B + I|
81
CHAPITRE 2. Analyse discriminante
Remarques
– Ce test peut s’exprimer comme une généralisation multidimensionnelle de l’ana-
lyse de variance à un facteur (ANOVA), on parle dans ce cas de MANOVA
(Multidimensional Analysis of Variance).
– Il est rare de trouver la table de la loi de Wilks implémentée sous les différents
logiciels de statistique existant. Par conséquent, si n est suffisamment grand,
nous nous orienterons vers l’utilisation de l’approximation de Bartlett suivante :
1
χ2 = −[n − (p − K − 1)] ln(Λ)
2
qui suit une loi du χ2 à P degrés de liberté.
– Dans le cas où K = 2, on peut utiliser la transformation de Rao qui suit une
loi de Fisher de paramètres (p, n-p-1).
La formule de la statistique de test devient alors :
1−Λ
F =
Λ
Comme dans toutes les méthodes linéaires, il est possible d’évaluer individuelle-
ment chaque variable prédictive et éventuellement d’éliminer celles qui ne sont pas
significatives dans la discrimination.
La statistique du test s’appuie sur la variation du Lambda de Wilks mesurée par :
n − K − p Λp
F = ( − 1)
K − 1 Λp+1
Elle suit une loi de Fisher à (K − 1, n − K − p) degrés de liberté.
– Remarque
La plupart des logiciels présentent des techniques de sélection ascendante,
descendante ou mixte des variables.
82
CHAPITRE 2. Analyse discriminante
83
CHAPITRE 2. Analyse discriminante
– Remarque
Cette approche n’est pas recommandée en pratique puisqu’on a tendance à
sous-estimer le taux d’erreur.
Pour obtenir une estimation plus précise du taux d’erreur théorique de classement,
on a recours à la méthode suivante.
Cette méthode est valable dans le cas des grands échantillons. La procédure est
de construire la fonction de classement sur une fraction de données, dites d’appren-
tissage ; puis de l’évaluer sur une autre fraction de données, dites de test.
On effectue au hasard un tirage de 20 à 30% des individus dans chaque groupe, ce
84
CHAPITRE 2. Analyse discriminante
K
bet = 1 − 1
X
C nkk
n k=1
bet est une meilleure estimation (estimation sans biais) que celle obtenue par
C
resubstitution, puisqu’elle est obtenue à partir d’un échantillon indépendant de
l’échantillon de base.
Remarque
On peut sélectionner une règle de classement permettant de minimiser l’erreur de
classement afin de sélectionner les variables discriminantes en utilisant la méthode
dite séquentielle :
1. On sélectionne la variable j1 qui permet d’obtenir le plus faible taux d’erreur dans
un modèle à 1 variable.
2. On sélectionne la variable j2 qui permet d’obtenir le plus faible taux d’erreur,
lorsqu’elle est utilisée conjointement à j1 dans un modèle à 2 variables.
3. On sélectionne la variable j3 qui permet d’obtenir le plus faible taux d’erreur,
lorsqu’elle est utilisée conjointement à j1 et j2 dans un modèle à 3 variables. etc
85
Chapitre 3
Application
3.1 Introduction
Les méthodes d’analyse de données nées de la recherche universitaire sont depuis
longtemps entrées dans le monde industriel. Il y a cependant peu de logiciels qui
savent intégrer ces méthodes pour une recherche exploratoire aisée dans les données.
Nous citons ici sept logiciels : SAS, Splus, R, XlStat, UniWin Plus, Stalab et SPAD.
Dans ce chapitre nous avons fait le choix d’utiliser le logiciel R qui est la version
gratuite de Splus. Il est téléchargeable sous www.r-project.org pour tous systèmes
d’exploitation. Il semble très peu employé en industrie. De part sa gratuité, il est de
plus en plus employé pour la réalisation de cours de statistiques.
Notre travail consiste à discriminer les arbres aux nombre 140 sur la base des ca-
ractères quantitatifs des gousses et des graines utilisées en industrie. Ces gousses ont
été récoltées dans 7 localités de l’Algérie du nord. Sur chaque gousse et sur chaque
graine ont été évalués les paramètres suivants : la longueur, la largeur, l’épaisseur et
le poids. On s’intéresse au rendement de chaque arbre qui a été réparti en 3 classes
suivantes : A, B et C.
86
CHAPITRE 3. Application
A B C
44 44 52
87
CHAPITRE 3. Application
Objectif
Réduire le nombre de dimensions des données, en projetant les individus sur des
axes déformant le moins possible la réalité, en prenant en compte la structuration en
classes de la population totale des individus.
Principe
Recherche de nouvelles variables, dites composantes discriminantes, obtenues à partir
des combinaisons linéaires des variables originales.
88
CHAPITRE 3. Application
89
CHAPITRE 3. Application
Group means:
sl swd sth swg pl pwd pth pwg
A 8.795882 6.795000 3.635588 1.234706 15.28912 2.092647 0.6938235 11.226471
B 9.502581 6.856452 4.245161 2.090323 16.15226 2.078065 0.8258065 12.953548
C 9.133226 6.878387 4.272581 2.201935 14.30452 1.788387 0.7706452 9.383226
90
CHAPITRE 3. Application
Proportion of trace:
LD1 LD2
0.9395 0.0605
Nous remarquons que le premier axe explique 93.95% de l’information tandis que
le deuxième explique seulement 6.05%.
91
CHAPITRE 3. Application
> p<-predict(linear,training)
> p
$class
[1] A A A A B A A A A A A A A A A A A A A A A A A A A B A A A A A A A A B B B B
[39] B B B B B B B B B B B B B B B B B B B A B B B C B B B C C C C C C C C C C C
[77] C C C B B C C C C C C C C C C C C C C C
Levels: A B C
$posterior
A B C
1 6.141179e-01 3.858804e-01 1.658474e-06
3 7.093896e-01 2.906076e-01 2.891670e-06
4 6.432680e-01 3.567260e-01 6.011507e-06
5 5.310552e-01 4.689237e-01 2.102694e-05
6 3.800239e-01 6.198607e-01 1.154611e-04
8 9.942521e-01 5.747863e-03 1.871589e-08
9 7.847680e-01 2.152320e-01 4.004726e-08
12 9.980305e-01 1.969442e-03 6.052346e-08
13 9.976758e-01 2.324165e-03 2.434154e-08
14 9.997540e-01 2.459095e-04 1.094580e-07
17 9.878901e-01 1.210223e-02 7.688972e-06
18 9.846646e-01 1.533457e-02 8.062936e-07
21 9.861681e-01 1.382956e-02 2.371158e-06
92
CHAPITRE 3. Application
93
CHAPITRE 3. Application
94
CHAPITRE 3. Application
95
CHAPITRE 3. Application
96
CHAPITRE 3. Application
12 -2.92816641 1.88048793
13 -3.10899841 1.40762601
14 -2.78617962 3.87246874
17 -1.99781562 2.08832674
18 -2.44292051 1.06433522
21 -2.23012904 1.54565091
22 -3.61127049 1.38061968
23 -2.21980108 1.67160498
24 -3.66665616 1.77436327
25 -3.58228607 1.54350095
26 -2.78980878 1.55628310
27 -2.22784605 1.24431728
29 -1.73855041 1.53680611
30 -3.01228340 1.70745404
31 -2.89680554 -0.29457305
32 -2.21523674 -0.04508152
33 -3.14339799 -0.03478906
34 -1.54485205 -0.29172545
35 -1.36915096 -0.45117878
36 -1.89017772 -0.09958844
37 -2.81372071 -0.57666706
38 -1.38970181 0.30562925
39 -1.80619022 0.40538378
97
CHAPITRE 3. Application
40 -1.67766088 -0.42576596
42 -3.28314062 -0.74416543
43 -1.78249675 -0.15896756
44 -2.12571184 -0.32044115
45 -1.29613360 -1.26890868
46 -0.92492350 -0.84388159
48 -0.76870591 -0.97775087
49 -1.13502699 -1.27118673
50 -0.61418090 -1.08103831
51 -0.38345809 0.23314026
52 0.61840366 -0.45880163
54 0.77940735 -0.82552134
55 -1.85353456 -1.72686885
56 -0.33780928 -1.23304479
57 -0.96653088 -3.18788659
58 0.21656208 -2.02275980
61 0.25153323 -1.69698918
62 1.15046220 -0.23386097
63 1.05066710 0.04421012
64 0.87138218 -0.37531997
65 1.08446951 -0.41697869
67 1.17439081 -0.32618303
68 -1.06693094 0.03562119
98
CHAPITRE 3. Application
69 -0.77120148 -0.35390978
70 -1.21754136 -0.31112334
71 -0.77842529 0.11497087
72 -1.01003599 -0.30725690
73 -1.53419684 0.10173288
74 -0.59678357 0.10091267
77 0.40942018 -0.18224209
78 0.29741798 -2.31058552
79 1.45332566 -0.23816252
80 1.03151083 -1.26112672
87 -0.68104637 -1.20955611
88 -0.01939496 -1.02268114
89 1.73871015 -0.63202059
91 5.76615355 0.23127161
92 4.03434815 0.32336165
93 1.74090724 -1.08854486
95 3.93760851 0.48195566
98 4.31017892 -0.35451485
99 3.61333542 -0.48258975
103 1.50811015 0.14991750
105 1.47746640 -0.20170803
106 2.86724533 1.06006899
107 2.92424637 0.88575347
99
CHAPITRE 3. Application
100
CHAPITRE 3. Application
> ldahist(data=p$x[,1],g=training$classes)
La figure 3.2 nous montre que, sur le premier axe discriminant, la classe A est très
bien séparée de la classe C mais on n’a pas une nette séparation entre les classes A
et B ainsi qu’entre les classes B et C.
101
CHAPITRE 3. Application
Tandis que la figure suivante nous montre qu’il n’y a aucune séparation entre les
trois classes A, B et C sur l’axe LD2.
> ldahist(data=p$x[,2],g=training$classes)
> #Biplot
> library(devtools)
> library(ggord)
> ggord(linear, training$classes)
102
CHAPITRE 3. Application
La figure ci-dessus montre que les trois classes sont assez bien séparées. L’axe ”LD2”
n’est guère discriminant mais il est bien utile pour faire un graphique.
Nous remarquons aussi que les variables swg, swd, pth et pwd interviennent dans la
description des individus contrairement à pl, sl, sth et pwg et que la variable swg
permet de bien séparer la classe C des autres classes.
103
CHAPITRE 3. Application
On trouve qu’un seul individu de la classe A est classé dans B et que deux indi-
vidus de la classe B, sont attribués à la classe A et deux autres à la classe C, alors
qu’un seul individu de la classe C est mal classé.
Le pourcentage des individus bien classés est 93.75%. Ces r´esultats semblent excel-
lents.
104
CHAPITRE 3. Application
cet = 9.09%
L’estimation du taux théorique d’erreur est : C
105
Conclusion
Nous avons présenté dans le premier chapitre le principe général des analyses fac-
torielles. Cette approche permet de représenter géométriquement de grands tableaux
de données dans des sous-espaces sans perte d’information importante. La dimension
de ces sous-espaces se fait en cherchant à minimiser la perte d’information. Une fois
la dimension du sous-espace choisie, les données sont représentées graphiquement par
des projections sur les différents plans qui constituent le sous-espace. Bien sûr les pre-
miers plans principaux sont ceux contenant le plus d’information. Avant d’appliquer
cette approche générale à un tableau quelconque, il est important de tenir compte
des données de départ. Pour se faire, il faut appliquer des transformations en fonction
de leur type. En effet, nous avons vu comment transformer des données quantitatives
dans le cadre de l’analyse en composantes principales et des données qualitatives dans
les cas de l’analyse factorielle de correspondances et de celle des correspondances mul-
tiples.
Dans le second chapitre nous avons présenté l’une des méthodes les plus utilisées de
nos jours : l’analyse discriminante. La simplicité de sa mise en œuvre fait que nous la
retrouvons dans de nombreux logiciels. Elle est adéquate pour la représentation des
données dans des espaces qui discriminent au mieux les individus selon des classes
connues. Cette représentation permet de dégager des informations à partir d’un grand
nombre de données souvent difficile à interpréter. Elle permet également l’affectation
de nouveaux individus dans les classes existantes. Il est alors possible de rendre la
méthode adaptative pour tenir compte de ces nouvelles observations.
Le troisième chapitre est consacré à l’application de l’analyse linéaire discriminante
sur des données d’agronomie. Les résultats obtenus semblent adaptés à la réalité.
106
Références bibliographiques
107
[15].V.Monbet., Analyse des données Master Statistique et économétrie., 2013-2014.
[16].C.Duby, S. Robin., Analyse en Composantes Principales., AgroParisTech.
108