Sad 1976 1 1 38 0

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 10

Statistique et analyse des données

G ILBERT S APORTA
Quelques applications des opérateurs d’Escoufier au
traitement des variables qualitatives
Statistique et analyse des données, tome 1, no 1 (1976), p. 38-46
<http://www.numdam.org/item?id=SAD_1976__1_1_38_0>

© Association pour la statistique et ses utilisations, 1976, tous droits réservés.


L’accès aux archives de la revue « Statistique et analyse des données » implique l’accord avec
les conditions générales d’utilisation (http://www.numdam.org/conditions). Toute utilisation commer-
ciale ou impression systématique est constitutive d’une infraction pénale. Toute copie ou impres-
sion de ce fichier doit contenir la présente mention de copyright.

Article numérisé dans le cadre du programme


Numérisation de documents anciens mathématiques
http://www.numdam.org/
Analyse
Factorielle
SAD 1, 1976
QUELQUES APPLICATIONS DES

OPERATEURS D'ESCOUFIER AU

TRAITEMENT DES VARIABLES

QUALITATIVES.

Gilbert SAPORTA *

Les opérateurs introduits par Y. ESOOUFIER permettent de représenter par un


ê t r e mathématique unique un ensemble de variables. Enwunissant l'espace des opéra-
teurs <i' un produit scalaire e t d'une norme, on peut alors mesurer des dépendances
globales entre groupes de variables. Ces opérateurs peuvent donc ê t r e u t i l i s é s
pour décrire des proximités entre variables q u a l i t a t i v e s car toute variable
qualitative e s t équivalent à l'ensemble des variables indicatrices de ses modalités.

I - ŒNERALITES SUR LES OPERATEURS D'ESCOUFIER

Soit X- un tableau de données à n lignes e t m^ colonnes contenant les


valeurs de m, variables sur n individus. Si ]R m î, espace des individus, e s t muni
de la métrique M. e t R n , espace des v a r i a b l e s , de l a métrique habituelle du poids
D , l'opérateur d'ESCOUFIER 0 i associé au tableau X i e s t :

= X M xt
°i i i i V

Cet opérateur n ' e s t autre que le WD du schéma de dualité suivant associé à


l'analyse en composantes principales de X- dans l a métrique M. :

mniir x>
i mn*
M
il î v i Vf lw
* TR1^* X
i l]Rn

* Maître assistant à L'Université de PARIS V (IUT)

SAD 1 - 1976 38
0. a pour vecteurs propres les composantes principales de x^ associées aux
valeurs propres A-. ^ e M i V= •

L'ensenble des opérateurs associés à des tableaux de données X. à n lignes


e t aux métriques M. est un sous-ensemble du sous-espace vectoriel des matrices
Dp-symétrique. Ce sous-espace peut être muni du produit scalaire :

< 0 i ; 0,> = Trace (U 0-)

et de la norme :

1 0i B 2 = Trace (0?) =2 >- k

A cette norme correspond la notion d'équivalence suivante entre deux tableaux


de données X.1 e t X- pour les métriques M. e t M -.
3 i J

x i ^ x j <é=^ Ho± - o^H2 = 0

c'est-à-dire que X- e t X, ont mêmes systèmes de conposantes principales associées


aux mêmes valeurs propres.
On définit alors l'angle 0 . . entre opérateurs ou entre tableaux de données
par

Ces 0 . , = Trace ( 0 ^ )
Yrrace 0? Trace 0?

-1 -1
Nous supposerons pour la suite que Mj = (Xf^ D X.) = V,
autrement d i t que les opérateurs étudiés sont les projecteurs Dp-orthogonaux A-
sur les espaces W, engendrés par les colonnes des tableaux X..
Dans ces conditions Trace A.A. est la somme des valeurs propres de l'analyse
canonique de X- e t X- e t

Trace A? = Trace Ai = dim Wi

En p a r t i c u l i e r s i les variables sont centrées, la trace de A.A. est égale


à la somme des carrés des coefficients de corrélation canoniques e t s i
dim W. = m. V- on trouve :

SAD 1 - 1976 39
cos e13 .2A
m m
i j

Deux tableaux de données sont équivalents s i leurs colonnes respectives engendrent


le mime espace vectoriel ce qui entraîne que r^ = 1 V^ e t nu = m..

On a donc

Cos 0 i . = 1 < > Wi = W.


Cos 0 i , = 0 < > w^w.

On notera que cos 0. . est toujours p o s i t i f e t que s i m. = m- = 1


i l est égal au carré du coefficient de corrélation linéaire entre les deux
variables.

II - UNEraiHODEDE DESCRIPTION DES RELATIONS DEUX A DEUX ENTRE p VARIABLES


QUALITATIVES.

Associons à une variable qualitative à m- modalités le tableau logique X^


(dit tableau disjcnctif) de présence ou d'absence des diverses modalités pour
les n individus.
'0 1 0 o1
0 0 0 1
x
i -

1 0 0 Oy

L'espace W. engendré par les colonnes de X. est l'ensentole des variables


numériques moins fines que la variable qualitative qui réalisent donc ses dif-
férents codages.
Pour éviter des solutions parasites nous considérerons en f a i t le sous-
espace W. de W. correspondant aux codages centrés, en d'autres termes W io est
l a p a r t i e de W. Dp-orthogonale au vecteur ± d e ^ dont toutes les conposantes
sent égales à 1.
40
SAD 1- 1976
A- désignera le projecteur Dp-orthogonal sur N- e t on a donc :

Trace AT
1
= Trace A.1 = dim W.1 0 = m-1 - 1

Si X^ et X. sont deux tableaux associés à deux variables q u a l i t a t i v e s , on


s a i t qiie l'analyse spectrale de A-A, (oa de A-A.) n ' e s t autre que l'analyse des
correspondances du tableau de contingence associé dans laquelle la solution
t r i v i a l e J_ a été éliminée.

La somme des valeurs propres, autres que la valeur t r i v i a l e 1, e s t alors


2
égale au 0 de contingence :

Trace A.A. = v0 2 . ~ X £ C P j j - P i . - P.j)


î j IJ 1 j •*—
Pi. P.j

e t le cosinus d'angle entre opérateurs n ' e s t autre que le coefficient de dépendance


de TSCHUPRDW.

.Tij°-T—^z=r

Ce coefficient possède la propriété de n ' ê t r e égal à zéro que s i fes variables


sont statistiquement indépendantes e t de prendre la valeur 1 uniquement dans le
cas de la dépendance totale : à une modalité d'une variable ne correspond qu'une
modalité de l'autre et réciproquement.

Etant donné p variables qualitatives, construisons la matrice symétrique T


des coefficients de TSCHUPROW des variables prises deux à deux ; i l e s t alors
très simple de représenter géométriquement les proximités entre les variables
en effectuant une analyse en composantes principales sur le opérateurs normes.
En effet, le coefficient de TSCHUPROW qui est un cosinus d'angle possède les
propriétés d'un coefficient de corrélation e t l'extraction des vecteurs propres
et des valeurs propres de T, qui est alors l'analogue d'une matrice de corrélation,
permet de dégager des facteurs, orthogonaux deux à deux au sein des opérateurs,
qui résument le mieux les p variables q u a l i t a t i v e s .

Les proximités entre variables peuvent alors être représentées selon la


figure usuelle du cercle des corrélations : le point représentatif de la i e
variable a pour coordonnée sur l'axe n° k ,1a i e m e composante du k i e m e vecteur
propre 11 de T multipliée par la racine carrée de la valeur propre correspondante :
SAD 1 - 1976 41
V^ e s t t e l que
0
S* \f^ = 1
i\ "ki ou
i=1

Ainsi sur le premier plan on a l a figure suivante

axe 2

Si deux variables sont représentées p a r des p o i n t s proches de la circonférence


e t f a i s a n t avec l ' o r i g i n e undngle de T£ 9 C e l a veut d i r e q u ' e l l e s sont indépendantes,

On remarquera que l'ensemble des p o i n t s - v a r i a b l e s se trouve dans l e demi-plan


d ' a b s c i s s e p o s i t i v e car T a tous ses éléments p o s i t i f s .

I l e s t p o s s i b l e de p r o j e t e r en élément supplémentaire une v a r i a b l e q u a l i t a t i v e


ne figurant pas parmi les p variables i n i t i a l e s . I l s u f f i t pour c e l a de connaître
le vecteur t de ses p coefficients de TSCHUPROW avec les v a r i a b l e s de départ.
La nouvelle variable s e r a représentée dans le système des p axes f a c t o r i e l s par
un point dont les coordonnées sont les composantes du vecteur :

Vvx "' i
où U e s t l a matrice dent les colonnes sont les vecteurs propres normes à 1
de T e t D . / p l a matrice diagonale
D^r-. diagonale des inverses des racines carrées des valeurs
propres rangées dans le même ordre

Ceci permet , en p a r t i c u l i e r , de f a i r e f i g u r e r dans le c e r c l e des c o r r é l a t i o n s


les diverses modalités d*une v a r i a b l e : chaque modalité, qui e s t une v a r i a b l e
q u a l i t a t i v e dichotomique, é t a n t alors p r o j e t é e en élément supplémentaire. On
trouve aisément que le p o i n t r e p r é s e n t a t i f d'une v a r i a b l e e s t entouré par les
points r e p r é s e n t a t i f s de ses modalités.

SAD 1- 1976 42
L ' u t i l i s a t i o n des opérateurs permet a u s s i de t r a i t e r le cas d'un mélange de
variables qualitatives et quantitatives.
A i n s i , en o b t i e n t sans d i f f i c u l t é que le cosinus d ' a n g l e e n t r e l ' o p é r a t e u r
associé à une v a r i a b l e à mi modalités e t c e l u i associé à une v a r i a b l e numérique
centrée vont :

n2 2
Cos 0 = *- où Y) e s t l e rapport de c o r r é l a t i o n

De même le cosinus d'angle e n t r e l ' o p é r a t e u r a s s o c i é à une v a r i a b l e q u a l i t a t i v e


à m^ modalités e t l ' o p é r a t e u r associé à un groupe de q v a r i a b l e s numériques c e n t r é e s
est : T
Y"2
^ p *k Trace (V~1B)
Cos 0 =
VqO^ - 1) V^i " D

où V e s t l a matrice de variance-covariance t o t a l e du q v a r i a b l e e t B l a matrice


de variance i n t e r c l a s s e (ou matrice d ' i n e r t i e des m. c e n t r e s de g r a v i t é s ) ; les
A, sont a l o r s les valeurs propres de l ' a n a l y s e d i s c r i m i n a n t e a s s o c i é e .

Les cosinus d'angle e n t r e opérateurs d é f i n i s s e n t donc des i n d i c e s de


proximité comparables pour des v a r i a b l e s q u a l i t a t i v e s comme q u a n t i t a t i v e s .
Quelques précautions sont cependant n é c e s s a i r e s pour e f f e c t u e r ces comparaisons
car i l ne nous semble pas recommandé d ' u t i l i s e r des v a r i a b l e s q u a l i t a t i v e s dont
les nombres de modalités s e r a i e n t trop d i f f é r e n t s . En e f f e t deuxpÇ de contingence
de même valeur numérique n ' o n t pas l a même s i g n i f i c a t i o n s i les degrés de l i b e r t é
sont d i f f é r e n t s ; le f a i t de d i v i s e r par l a r a c i n e du nombre de degrés de l i b e r t é
dans le c o e f f i c i e n t de TSCHUPRCW atténue c e t inconvénient mais ne l ' é l i m i n e pas
totalement. Si les nombres de modalités sont trop d i f f é r e n t s i l peut ê t r e c o n s e i l l é
de compléter l a donnée d'un c o e f f i c i e n t de TSCHUPROW T. . p a r l a p r o b a b i l i t é
qu'une v a r i a b l e d e % à ( ¾ - 1)0¾ - 1) degrés de l i b e r t é s o i t i n f é r i e u r e a u X
de contingence trouvé. Cette p r o b a b i l i t é e s t une e x c e l l e n t e mesure de l a dépendance
e n t r e v a r i a b l e s q u a l i t a t i v e s mais n ' a évidemment pas les p r o p r i é t é s d'un cosinus
d'angle.

SAD 1 - 1976 43
III - SELECTION PROGRESSIVE DE VARIABLES EXPLICATIVES DANS UNE ANALYSE DISCRIMI-
NANTE SUR VARIABLES QUALITATIVES *.

La prévision d'une variable qualitative par p autres a souvent été t r a i t é e par


la technique de segmentation. On peut ainsi l'aborder sous l'angle de l'analyse
discriminante race au codage, ce qui aboutit alors à affecter une modalité de
la variable à expliquer à un individu selon la valeur d'une fonction numérique
additive des diverses modalités des variables explicatives.

Le problème peut se formaliser ainsi : chercherun codage simultané de toutes


les variables maximisant le coefficient de corrélation multiple entre la variable
à expliquer codée et les p variables explicatives codées. La solution est alors
donnée par l'analyse canonique, moyennant quelques contr ntes sur les codages
afin d'éviter des matrices singulières.

Si le choix d'un nonbre limité de prédicteurs afin de r é a l i s e r une discrimina-


tion pas à pas est classique pour des variables numériques, i l n'en est pas de
même pour des variables qualitatives en raison de la difficulté de définir une
mesure de dépendance entre deux variables qualitatives canditionnellement à une
ou plusieurs autres. La seule méthode de discrimination pas à pas que nous connais-
sions étant celle de M. MASSON mais e l l e ne définit pas une- t e l l e mesure de
dépendance p a r t i e l l e . I l est certes possible de définir des X conditionnels
ou des quantités d'informations conditionnelles mais le volume des calculs devient
vite prohibitif car i l faut manier des tables de contingence à plusieurs dimensions.

La méthode que nous proposons s'inspire de la régression progressive e t


consiste à définir un indice de liaison p a r t i e l l e entre variables qualitatives
analogue et la corrélation p a r t i e l l e grâce aux propriétés du coefficient de
TSCHUPROW.

Le c o e f f i c i e n t de TSCHUPROW é t a n t pour l e s v a r i a b l e s q u a l i t a t i v e s l'analogue


d'un coefficient de corrélation, nous définissons formellement le coefficient
de TSCHUPROW p a r t i e l au moyen de la formule classique donnant le coefficient de
corrélation p a r t i e l l e .
Avec trois variables on trouve ainsi :

T
T Œ 13 " T 12 ' T
32
*13.2 z
Vn-^2Hi-T 32 )

* cette application a été développée dans le cadre du contrat DGRST n° 75-7-0230


SAD 1 - 1976 44
Dans l'espace des opérateurs, le coefficient T-- 2 e s t l e cosinus de la
projection de l'angle 9 - . sur un plan orthogonal à l'opération n°2.

On voit sans difficulté que ce coefficient jouit de propriétés intéressantes :

Si les variables 2 et 3 sont très l i é e s , l'angle 0 e s t alors voisin de j


et T n 9 est proche de zéro : la prise en compte de l a variable 3, une fois connue
la variable 2, n'apporte pas d'information u t i l e sur la variable 1.

d'autre p a r t , à T,- e t T ^ fixés le coefficient e s t maximal s i T2~ = 0


c'est-à-dire s i les variables 2 et 3 sont indépendantes.

On définit alors de proche en proche les coefficients de TSCHIFROW p a r t i e l s


d'ordres supérieurs :

T - T T
T - 14.2 M3.2 '43.2 _r
6tC
M4.23 " y"/ C 1 - T 2 3 > 2 ) ( l - T ^ 2 )

L'algorithme de sélection progressive des variables explicatives est


alors immédiat :
- au premier pas on cherche, pour expliquer la variable 1, l a variable i
qui maximise T-..
- au deuxième pas on introduit la variable j qui maximise T1 - -
- au troisième pas on introduit la variable k qui maximise T.^ ^.

Oh peut songer à définir un coefficient de TSCHUPRCW multiple T^ 2 3 par la


formule usuelle

C1 = (1
" A.lJ " T12> C1
" T 13.2^ etC
SAD 1 - 1976 45
mais ce c o e f f i c i e n t ne senble pas posséder de p r o p r i é t é s aisément i n t e r p r é t a b l e s
2 2 2
S
sauf dans le cas où les v a r i a b l e s e x p l i c a t i v e s sont indépendantes (T- 2 - TÎ 2 +T^-)
e t ont même nombre de modalités : on montre a l o r s que T? 2 - e s t à un c o e f f i c i e n t
près la somme des valeurs propres de l ' a n a l y s e d i s c r i m i n a n t e globale de 1 contre
2 e t 3.

Références :

Y. ESCOUFIER : "Echantillonnage dans une population de v a r i a b l e s a l é a t o i r e s réelles"


Thèse de Doctorat es Sciences Montpellier (1970).

M. MASSON : "Processus linéaire et analyse de données non linéaires"


Thèse de Doctorat es Sciences U h i v e r s i t é de PARIS VI (1974)

J . PAGES : "A propos des opérateurs d'Y. ESCOUFIER"


Séminaires de l'IRIA en c l a s s i f i c a t i o n automatique (1974)

G. SAPORTA : "Liaison entre plusieurs ensembles de v a r i a b l e s e t codage de données


qualitatives"
Thèse de 3e cycle Uhiversité de PARIS VI (1975)

SAD 1 - 1976 46

Vous aimerez peut-être aussi