RR 159
RR 159
RR 159
1
AVANT-PROPOS
Ce rapport, présente les travaux réalisés, lors de la session de l’hiver 2017, par les étudiantes et étudiants
du département de mathématiques de l’Université de Sherbrooke, dans le cadre de l’activité pédagogique
STT 707 “Analyse des données”, inscrite au programme de maîtrise en mathématiques et de maîtrise en
imagerie.
J’adresse mes plus sincères remerciements aux auteures et auteurs du présent rapport, qui, avec ardeur et
enthousiasme, ont participé à cette activité pédagogique et qui n’ont ménagé ni leur temps, ni leurs e¤orts,
ni leurs talents, dans la réalisation de ces travaux.
Bernard Colin
Département de mathématiques
Faculté des Sciences
Université de Sherbrooke
2
Tables des matières
Note : Les données analysées dans cette étude de cas, proviennent du manuel de F. Husson, S. Lê et
J. Pages : Analyse de données avec R. Les analyses telles que présentées dans le manuel sont reprises et
complétées à l’aide d’un modèle de classi…cation hiérarchique ascendante.
3
Catégorisation des parfums selon
leurs propriétés sensorielles
S ARRA A BAOUBIDA
J UIN 2017
U NIVERSITÉ DE S HERBROOKE
S HERBROOKE (Q C ), C ANADA , J1K 2R1
2 Position du problème 2
4 Modèle 5
4.1 Choix du modèle . . . . . . . . . . . . . . . . . . . 5
4.2 Présentation du modèle . . . . . . . . . . . . . . . . 5
4.2.1 Analyse des correspondances multiples . . . 5
4.2.2 Méthode de Ward . . . . . . . . . . . . . . . 12
4.3 Critique du modèle . . . . . . . . . . . . . . . . . . 14
6 Conclusion 19
Références 19
1
2 POSITION DU PROBLÈME Sarra Abaoubida
1 Introduction
La catégorisation est un processus cognitif par lequel différents ob-
jets sont regroupés selon leurs similarités par un ensemble de sujets.
Elle est utilisée pour recueillir des données, notamment en analyse
sensorielle où l’on cherche à comprendre un ensemble de produits se-
lon leurs propriétés sensorielles.
Dans ce contexte particulier, cette épreuve consiste à demander à
des consommateurs/sujets/juges de regrouper des parfums selon leurs
ressemblances sensorielles.
Dans cette étude, notre objectif est de fournir une image synthé-
tique de l’ensemble des 12 parfums de luxe sur la base de la catégori-
station produites par 98 consommateurs.
2 Position du problème
L’analyse sensorielle consiste à analyser, étudier, comparer un en-
semble de produits à l’aide d’un ou plusieurs sens (goût, odorat, tou-
cher, ouïe, vue). Elle s’applique à plusieurs domaines : produits ali-
mentaires, cosmétiques (parfums, crèmes et soins du corps...), indus-
trie automobile (description de tableaux de bord, bruit de portières...),
ergonomie (ressenti du confort thermique de la pièce), sport (confort
vêtements...). Elle offre des approches séduisantes, en mesure de ras-
surer les décideurs sur la qualité de l’information recueillie.
Cependant, la portion d’incertitude liée au facteur humain (l’être
humain étant l’instrument de mesure), implique des problèmes de
qualité de la mesure, de fiabilité et de répétabilité.
L’analyse sensorielle des données nécessite donc un traitement statis-
tique particulier.
Le receuil des données constitue une étape cruciale dans l’analyse
sensorielle, on distingue deux façons de receuillir les données :
Évaluations qualitatives et quantitatives : description d’un produit par
des données “objectives” (saveurs : salé, amer ; arômes : boisés, fruits
rouges ; textures : lisse, pâteux...) avec existence de références (e.g
concentration en caféine pour évaluer l’amertume...). Jury : panel res-
treint “d’experts” (10 à 12 testeurs entrainés à partir de références, par
2
2 POSITION DU PROBLÈME Sarra Abaoubida
3
3 PRÉSENTATION DES DONNÉES Sarra Abaoubida
4
4 MODÈLE Sarra Abaoubida
Exemple :
Dans la table 1, on peut voir que le juge 40 (j=40) a catégorisé les par-
fums selon 6 groupes (on a donc k40 = 6 modalités pour la variable
40) et qu’il a mis les parfums j’adore (eau de parfums) et j’adore (eau
de toilette dans le même groupe).
4 Modèle
4.1 Choix du modèle
L’analyse des correspondances est une méthode particulièrement
bien adaptée à l’étude de vastes ensembles de données qualitatives as-
similables à des effectifs comme des comptages, des dénombrements,
des valeurs positives, des notes reflétant une opinion ou un jugement.
Dans notre étude, les 12 parfums sont les individus et les 98 consom-
mateurs sont les variables qualitatives. Le tableau de données est donc
de type individus x variables qualitatives, il relève ainsi de l’analyse
des correspondances multiples (ACM). Nous analyserons aussi ces
données en utilisant la classification hiérarchiques basée sur la mé-
thode de Ward. Et nous comparerons, par la suite, les deux approches.
5
4 MODÈLE Sarra Abaoubida
Exemple 1.
X possède n types d’hébergement en vacances (exemple : hôtel, ha-
bitât chez les parents, maison de vacances etc...).
Y possède p catégories socio-professionelles (exemple : ouvriers, mé-
decins, avocats etc...).
Définition 4.2.1.1.
On dit que K est le tableau de contingence croisant les variables
qualitatives X et Y , si K est de la forme :
k
11
. . . . . . . . . k1p
.. ... ..
. .
. .
.
K= . . . . kij . . . ..
.. . . . ...
.
kn1 . . . . . . . . . knp
où kij est le nombre d’observations présentant simultanément les
modalités i de X et j de Y .
Exemple 2.
kij est le nombre de médecins qui hébergent dans un hôtel pendant
leurs vacances.
Définition 4.2.1.2.
Le poids de la ligne i est définit par :
ki.
pi =
k
6
4 MODÈLE Sarra Abaoubida
Définition 4.2.1.3.
Le profil de la ligne i est définit par :
kij
xi = { }j=1,..,p
ki.
Le profil de la colonne j est définit par :
kij
yj = { }i=1,..,n
k.j
On pose :
DI = diag(p1 , ..., pn ),
DJ = diag(q1 , ..., qp ),
Xn×p = k1 DI −1 K,
et Yp×n = k1 DJ −1 t K
Définition 4.2.1.4.
On définit les deux nuages de points :
N (I) = {(xi , pi ), xi ∈ Rp , pi > 0, pi = 1}
P
Définition 4.2.1.5.
La distance entre les lignes xi et xi0 est donnée par :
7
4 MODÈLE Sarra Abaoubida
où AJ = DI−1
Remarque 1.
p k kij ki0 j 2
2 t X
d (xi , xi0 ) = (xi − xi0 )AI (xi − xi0 ) = ( − )
j=1 k.j ki. ki0 .
8
4 MODÈLE Sarra Abaoubida
Soit ∆⊥ p
u l’espace de R A-orthogonal à u.
On a que
IN (0) = IN (∆u ) + IN (∆⊥
u)
Remarque 2.
En effectuant l’analyse en composantes principales du nuage N (I),
on obtient une première valeur propre qui est toujours égale à 1 (il est
donc inutile de l’inclure dans l’analyse).
9
4 MODÈLE Sarra Abaoubida
Définition 4.2.1.6.
On appelle tableau disjonctif complet, la matrice de taille n × p
10
4 MODÈLE Sarra Abaoubida
Exemple 3.
Cet exemple est un extrait du tableau disjonctif complet issu de nos
données sur les parfums :
J18 J93
Dynamique Grand mère Doux Fleuri fort Chimique Fleuri faible fort
Angel 1 0 0 1 0 0 0
Aromatics 0 1 0 0 1 0 0
Chanel 5 1 0 0 0 1 0 0
Cinema 1 0 0 0 0 1 0
elle
Coco M 1 0 0 0 0 1 0
J’adore (EP) 0 0 1 1 0 0 0
J’adore (ET) 1 0 0 0 0 1 0
L’instant 0 1 0 1 0 0 0
Lolita 0 0 1 0 0 1 0
Pleasures 1 0 0 1 0 0 0
Pure Poison 0 0 1 0 0 1 0
Shalimar 0 1 0 0 0 0 1
TABLE 2: Extrait du tableau disjonctif complet issu de la base de données des par-
fums
Remarque 3.
Ce tableau est dit disjonctif car les modalités s’excluent mutuellement
et complet car il ne contient pas de données manquantes.
Définition 4.2.1.7.
On appelle tableau de Burt, la matrice de taille p x p définie par
B = {bjj 0 }j,j 0
où bjj 0 = ni=1 kij kij 0 .
P
(les kij sont les coefficients du tableau disjonctif complet définis ci-
dessus)
Remarque 4.
On a que B =t Kij Kij .
De plus,
∀j, j 0 ∈ Jq ,
0 6 j0
si j =
bjj 0 =
k.j = ni=1 kij si j = j 0
P
11
4 MODÈLE Sarra Abaoubida
Dynamique Grand mère Doux Fleuri fort Chimique Fleuri faible Fort
Dynamique 6 0 0 2 1 3 0
Grand mère 0 3 0 1 1 0 1
Doux 0 0 3 1 0 2 0
Fleuri fort 2 1 1 4 0 0 0
Chimique 1 1 0 0 2 0 0
Fleuri faible 3 0 2 0 0 5 0
Fort 0 1 0 0 0 0 1
12
4 MODÈLE Sarra Abaoubida
Exemple 5.
Nous appliquerons cet algorithme à un petit ensemble d’individus
{A, B, C, D, E, F } répartis sur un plan. Nous utiliserons la distance
city-block.
La figure ci-dessous illustre les étapes de la construction de l’arbre.
13
5 ANALYSE DES RÉSULTATS Sarra Abaoubida
14
5 ANALYSE DES RÉSULTATS Sarra Abaoubida
15
5 ANALYSE DES RÉSULTATS Sarra Abaoubida
5.2.3 Représentation des individus et des modalités sur le premier plan prin-
cipal
16
5 ANALYSE DES RÉSULTATS Sarra Abaoubida
F IGURE 5: Représentation des parfums et des modalités sur le premier plan princi-
pal
17
5 ANALYSE DES RÉSULTATS Sarra Abaoubida
coordonnée par rapport au premier axe plus ils auront tendance à indi-
vidualisé SHALIMAR, AROMATICS ELIXIR et CHANEL 5 et plus
ils auront une grande coordonnée par rapport aux deuxième axe prin-
cipal plus ils auront tendance à individualisé ANGEL.
18
RÉFÉRENCES Sarra Abaoubida
6 Conclusion
Références
[1] F. HUSSON, S. LÊ et J. PAGÈS (2009), Analyse de données avec
R. Presses universitaires de Rennes, Rennes.
[2] B. ESCOFIER, J. PAGÈS (2008), Analyses factorielles simples et
19
RÉFÉRENCES Sarra Abaoubida
20
STT707 2017, 1 – 42
Résumé Dans cet article, on tentera tout d’abord de trouver les composantes
les plus importantes d’une partie de tennis. Ces dernières seront déduites des
statistiques classiques du tennis. On intégrera par la suite d’autres variables,
dites supplémentaires, représentants toutes les technicités entourant un match,
comme la surface, le tournoi et les joueurs eux-mêmes. On croisera alors des
sous-ensembles de ces variables et, à l’aide de l’analyse des correspondances,
on analysera les différents liens entre celles-ci. On utilisera également une clas-
sification hiérarchique ascendante afin de regrouper les meilleurs joueurs du
circuit en sous-groupe partageant des caractéristiques semblables. On termi-
nera en présentant des profils de saison de joueurs plutôt que des profils de
match afin comparer trois saisons de tennis exceptionnelles.
1 Introduction
Le tennis masculin, depuis les dernières victoires en grand chelem de messieurs
Sampras et Agassi, a vu naître et grandir plusieurs grands champions qui, encore
aujourd’hui, se partagent une bonne partie des points ATP disponibles. Ces
hommes ont su bâtir de grandes rivalités et repousser différents records tout au
long de leur carrière qui semble loin d’être terminées. Outre les Federer, Nadal
et Djokovic de ce monde, d’autres ont su aller chercher des titres de grand
chelem ici et là au cours de la dernière décennie, mais particulièrement depuis
2012. Comme tous ces joueurs n’ont pas commencé à jouer tous en même temps
sur le circuit, il peut être difficile de comparer adéquatement ces derniers. Les
outils disponibles sont les enregistrements de saisons, le nombre de titres gagnés
ou encore les différentes statistiques enregistrées au cours d’un match (e.g. : le
nombre d’aces, le pourcentage de premières balles, le nombre de balles de bris
converties, etc.).
L’auteur souhaite remercier monsieur Bernard Colin pour sa disponibilité, son ouverture
d’esprit, ses différents conseils et sa présence. Sa supervision a grandement aidé à l’achèvement
de ce projet. L’auteur souhaite également remercier Olivier Germain pour ses précieux conseils
sur R ainsi qu’Étienne Fortin pour ses suggestions et son analyse sportive.
©Université de Sherbrooke
2
Dans le monde du sport, on retrouve des analystes prétendants que des traits
physiques bien précis peuvent donner un avantage à certains joueurs par rapport
à d’autres. Mais est-ce que de telles affirmations sont vérifiables ? Par exemple,
est-ce qu’un joueur comme Rafaël Nadal, né droitier, mais ayant joué de la
main gauche depuis qu’il est jeune, à un avantage sur les droitiers ? Existe-t-il
des profils types de joueurs selon les différentes surfaces de jeu ? On pourrait
même se demander si certaines catégories d’âge sont hors de la compétition.
On pourrait également s’intéresser à comparer différentes saisons du maestro
suisse en 2006, du Djoker en 2015 ou encore du roi de la terre battue en 2010.
Dans cette étude, différents outils seront utilisés et présentés afin d’essayer de
répondre à certaines de ces questions le plus fidèlement possible.
2 Position du problème
Dans l’étude qui suit, on utilise des données provenant du site github.com 1 sur
le profil de Jeff Sackmann. Monsieur Sackmann est un auteur qui travaille dans
le domaine des statistiques sportives, qui est intéressé par les différents tests sta-
tistiques et qui gère un blog sportif2 où il analyse et commente les changements
présents dans le monde du tennis depuis 2011. Dans ces bases de données, on y
retrouve des données sur des matchs ayant été joués à la fin des années 60 jusqu’à
aujourd’hui et ces dernières sont divisées en trois catégories : ATP World Tour,
ATP Challenger Tour et Futures. On se limite aux données de type ATP World
Tour entre 2012 et 2016 et, plus spécifiquement, aux matchs qui sont des finales
de tournois. Bien que l’on perde de l’information en se limitant à ce genre de
matchs, les matchs de finales de tournoi sont les plus importants et les plus si-
gnificatifs lors d’une saison de tennis. De plus, ce choix permet de considérer des
joueurs mieux connus du public plutôt que d’avoir à considérer tous les joueurs
du circuit. Ainsi, on se retrouve au final avec environ 250 observations plutôt
que plus de 9000 initialement.
Remarque 3.1. Étant donné qu’un match de tennis en simple implique deux
joueurs, soit un gagnant et un perdant, chaque observation disponible donne de
l’information sur deux joueurs différents.
1
https://github.com/JeffSackmann/tennis_atp
2
http://www.tennisabstract.com/blog
4
4 Modèle
K = {kij }j=1,...,p
i=1,...,n ,
⎡k ⋯ k1p k1⋅ ⎤⎥
⎢ 11 k12
⎢ ⎥
⎢ k21 k22 ⋯ k2p k2⋅ ⎥⎥
⎢
⎢ ⋮ ⋮ ⋱ ⋮ ⋮ ⎥⎥
⎢
⎢k k ⋯ knp kn⋅ ⎥⎥
⎢ n1 n2
⎢ ⎥
⎢ k⋅1 k⋅2 ⋯ k⋅p k⋅⋅ ⎥⎦
⎣
On peut alors en déduire les poids des lignes et des colonnes. On notera le
k
poids de la ligne i par pi = kki⋅ et le poids de la colonne j par qj = k⋅j . On définit
alors les matrices diagonales DI = diag(p1 , . . . , pn ) et DJ = diag(q1 , . . . , qp ).
⎡p1 0 ⋯ 0 ⎤
⎢ ⎥
⎢0 p ⋯ 0⎥
⎢ 2 ⎥
DI = ⎢ ⎥
⎢⋮ ⋮ ⋱ ⋮ ⎥
⎢ ⎥
⎢ 0 0 ⋯ pn ⎥
⎣ ⎦
⎡q1 0 ⋯ 0 ⎤
⎢ ⎥
⎢0 q ⋯ 0⎥
⎢ 2 ⎥
DJ = ⎢ ⎥
⎢⋮ ⋮ ⋱ ⋮ ⎥
⎢ ⎥
⎢ 0 0 ⋯ qp ⎥
⎣ ⎦
Figure 2 : Matrices diagonales des poids des lignes (DI ) et des colonnes (DJ ).
Par la suite, on peut obtenir les fréquences relatives des lignes et des colonnes
qui correspondent en fait aux profils des lignes et des colonnes. On notera le profil
k
de la ligne i par xi = { kiji⋅ }j=1,...,p = {xji }j=1,...,p et le profil de la colonne j par
k
yj = { kij⋅j }i=1,...,n = {yji }i=1,...,n . On construit grâce à ces profils les tableaux X
et Y , qui seront tous deux sous forme de lignes afin de simplifier la lecture. On
remarque que l’on peut retrouver ces tableaux grâce aux relations suivantes :
X = k1 DI −1 K et Y = k1 DJ −1 K t .
⎡ x1 x2 ⋯ xp ⎤
⎢ 1 1 1⎥
⎢ x1 x2 ⋯ xp ⎥
⎢ 2 2 2⎥
X =⎢ ⎥
⎢ ⋮ ⋮ ⋱ ⋮ ⎥
⎢ 1 ⎥
⎢x x2 ⋯ xpn ⎥
⎣ n n ⎦
⎡y11 y12 ⋯ y1n ⎤
⎢ ⎥
⎢y 1 y 2 ⋯ y n ⎥
⎢ 2 2 2 ⎥
Y =⎢ ⎥
⎢⋮ ⋮ ⋱ ⋮ ⎥
⎢ 1 2 ⎥
⎢y y ⋯ y n ⎥
⎣ p p p⎦
Il est alors possible de définir les nuages de points représentant les tableaux
X et Y , noté respectivement N (I) et N (J). On pose :
n
N (I) = {(xi , pi ) ∶ xi ∈ Rp , pi > 0, ∑ pi = 1}
i=1
6
et
p
k kij kij ′ 2
d2 (yj ,yj ′ ) = ∥yj − yj ′ ∥2AJ = ∑ ( − ) .
j=1 ki⋅ k⋅j k⋅j ′
Par la suite, le reste de la démarche consiste à faire une analyse en compo-
santes principales du nuage N (I)3 .
Pour une même variable, les différentes modalités sont toujours mutuellement
exclusives ce qui fait en sorte que le produit scalaire de leur colonne respective
est nécessairement nul. C’est pour cette raison que l’on attribue le qualifica-
tif disjonctif au tableau K. Il est également dit complet puisque pour chaque
question, on trouve une unique modalité prenant la valeur 1.
On peut définir, de façon analogue à la section 4.2.1, les quantités suivantes :
J
Ki⋅ = ∑ Kij
j=1
n
K⋅j = ∑ Kij
i=1
∑ ∑ Kij = n ⋅ nV
i j
B = K t K.
J. Morissette 9
Figure 4 : Éboulis des valeurs propres pour notre modèle. On remarque une
cassure à partir du 5e axe.
La figure 4 montre que les trois premières valeurs propres sont, de façon
individuelle, bien plus grande que les 29 valeurs propres subséquentes. En fait,
la première valeur propre représente à elle seule 7.96% de l’inertie totale du
modèle, ce qui est plus que le double de la quatrième plus grande valeur propre,
qui n’explique que 3.86% de l’inertie du modèle. On trouve également que la
deuxième et troisième plus grande valeur propre représentent respectivement
5.98% et 4.37% de l’inertie totale. Pour des raisons de visualisation, on choisit
de travailler avec les trois premiers axes factoriels qui expliquent à eux seuls
18.3% de l’inertie totale, ce qui est bien supérieur au 4% mentionné plus tôt.
On trouvera aux sections A.3 et A.4 les tableaux donnant de l’information sur
les contribution des variables ainsi que la qualité de la représentation de ces
dernières.
Pour chacun des trois axes, on utilisera les projections des variables sur ces
axes et on considérera les variables qui s’opposent afin de pouvoir attribuer un
certain sens aux deux directions de l’axe étudié. Bien sûr, on portera une atten-
tion particulière aux variables les plus représentatives, lesquelles sont présentées
à la section A.4.
Figure 5 : Variables dont les composantes sur le premier axe principal sont les
plus extrêmes.
Figure 6 : Variables dont les composantes sur le deuxième axe principal sont
les plus extrêmes.
Figure 7 : Variables dont les composantes sur le troisième axe principal sont
les plus extrêmes.
joueurs est moyenne. On remarque aussi que ces matchs comportent peu d’op-
portunité de briser le service de son adversaire. Dans la direction positive, les
variables décrivent des matchs où le joueur perdant n’a pas d’opportunité de bri-
ser son adversaire, où le perdant remporte une faible proportion de ses premières
balles, où ce dernier a peu d’aces et de doubles fautes, où le joueur gagnant à
beaucoup d’aces et où le nombre de parties au service est soit faible ou élevé.
Ainsi, le troisième axe semble opposer les moyens et les extrêmes, i.e. les matchs
où les variables prennent des modalités près de leur moyenne et les matchs où
les variables prennent des modalités éloignées de leur moyenne.
dur à quantifier, joue un rôle important sur le service d’un joueur. En effet, le
service est une arme très puissante au tennis pouvant sortir le serveur du pé-
trin, par exemple sur balle de bris ou tout simplement lorsque le receveur mène
la partie. Les joueurs plus grands que la moyenne sont évidemment conscients
qu’ils peuvent utiliser cette arme à leur avantage, mais puisque leur jeu n’est
généralement pas axé sur leur service, ce dernier est, généralement, bien moins
efficace que celui des plus grands joueurs. Troisièmement, la modalité gTai2 se
projette entre les modalités gAce1, gAce2, gDF1, gDF2 et gDF3. Ce profil, repré-
sentant les joueurs plus petits que la moyenne, se compare bien avec le précédent,
dans le sens où on observe une variabilité importante au niveau du nombre de
doubles fautes commises. Finalement, la modalité gTai1 se situe entre les va-
riables gAce1, gDF2 et gDF3. On voit alors que les joueurs les plus petits du
circuit n’ont pas un service bien dangereux, ce qui est confirmé par leur profil.
En effet, étant donné le que ce profil de joueurs commet une quantité relative-
ment élevée de doubles fautes jumelée avec une quantité faible d’aces, on peut
prétendre qu’au service, leur premier coup de raquette n’est généralement pas
une attaque sérieuse.
Si l’on regarde le pourcentage du premier plan factoriel, qui s’élève à 98.07%
et donc qui explique pratiquement toute l’inertie observable sur le phénomène
étudié, on remarque que c’est le premier axe qui est le plus important, expli-
quant 82.32% de l’inertie totale, alors que le deuxième n’explique que 15.75%
de l’inertie totale. De plus, si l’on regarde les modalités que la variable gTai, on
peut apercevoir une tendance parabolique. Dans la littérature, cette tendance
16
On peut alors voir facilement que la figure 9 est un cas d’effet Guttman.
Le premier axe ordonne les modalités de la variable gTai ainsi que celles de
la variable gAce et oppose les modalités moyennes et extrêmes de ces mêmes
variables sur le deuxième axe. De plus, la quantité d’inertie expliquée par le
premier axe factoriel est significativement supérieure à celle du deuxième axe
factoriel.
sur le dur et le gazon. Ceci est très rassurant et facile à comprendre puisque ces
surfaces favorisent son style de jeu, où le service joue un rôle important. En fait,
de ce point de vue, Isner et Federer sont des joueurs très semblables puisqu’ils
se projettent près l’un de l’autre au centre des modalités précédemment énumé-
rées, et ce même si leur style de jeu est différent. C’est que leurs performances
générales sont reliées aux mêmes surfaces.
On peut aussi considérer le profil représentant l’amas de joueurs dans le
quadrant supérieur droit. En effet, les modalités Berdy, Raoni, Gasqu, Del P,
Nishi et Djoko se projettent relativement proches les unes des autres. C’est que
ces modalités ont toutes un profil fortement caractérisé par la surface dure.
Pour ce qui est du temps de jeu, on remarque que la modalité Min4 se pro-
jette au centre des trois surfaces, indiquant que les matchs de très longues durée
sont présent sur toutes les surfaces. Les modalités Min2 et Min3 se projettent
quant à elles au centre des modalités Clay et Hard alors que la modalité Min1
est plus attiré vers la modalité Clay. Ainsi, les matchs les plus courts seraient
plus présent sur terre battue, malgré le fait que cette surface ainsi que le dur on
tendance à inciter des matchs de durée moyenne.
Notation 5.4. On utilisera le terme amas, ou encore classe, plutôt que sous-
ensemble pour le reste de cet article.
En d’autres termes, un amas représente une certaine homogénéité interne des
observations à l’intérieur de ce dernier alors que l’ensemble des amas représente
une différence entre les groupes d’observations. De plus, lorsqu’on parle de critère
de proximité, on peut faire référence à plusieurs choses. Notamment, on peut
vouloir faire référence à une notion de distance, par exemple la métrique du χ2 .
On pourrait également vouloir minimiser l’augmentation de l’inertie créée par
l’agrégation d’amas, aussi connu sous le nom de la méthode de Ward.
Dans notre cas, on a choisi la métrique euclidienne plutôt qu’une métrique
basée sur la somme des valeurs absolues en conjonction avec la méthode de
Ward.
Dans un premier temps, on peut s’intéresser à la classification hiérarchique
de l’ensemble de tout les joueurs champions d’au moins un tournoi ATP.
Comme on peut le voir dans la figure 12, une classification à 4 amas est
suggérée.
En utilisant la représentation présentée dans la figure 13, on peut en déduire
le meilleur11 représentant de chacun des amas. Ainsi, on trouve que les joueurs
Tommy Haas, Juan Martin Del Potro, Leonardo Mayer et David Ferrer sont
respectivement les meilleurs représentants des amas noir, rouge, vert et bleu. De
la même façon, il est possible d’identifier les joueurs les plus caractéristiques,
dans le sens où ces joueurs maximisent la distance entre eux et les centres de
gravité des autres amas, de chacun des amas. Dans ce cas, on trouve que les
amas noir, rouge, vert et bleu ont respectivement comme joueur caractéristique
Nicolas Mahut, Ivo Karlovic, Horacio Zeballos et Albert Ramos.
L’amas noir est probablement caractérisé par le gazon, le dur ainsi que de
bonnes performances au service. En effet, on retrouve Hewitt et Anderson qui,
tout comme Haas et Mahut, ont de bonnes performances et un style de jeu bien
11
Meilleur au sens de l’individu le plus près du centre de gravité de l’amas. Ceci permet de
comprendre à quoi l’amas ressemble en moyenne.
20
L’amas rouge quant à lui contient beaucoup de joueurs bien connus du cir-
cuit. On y retrouve entre autres Isner, Murray, Djokovic, Federer, Monfils, Cilic,
Del Potro, Karlovic, Querrey, Tsonga, Gasquet, Dimitrov, Wawrinka, Berdych,
Raonic et autres. Cet amas contient beaucoup de joueurs, mais la plupart d’entre
eux partagent un point en commun : leur force au service14 . En effet, parmi cet
amas on retrouve la plupart des joueurs qui sont considérés comme les meilleurs
serveurs du circuit1516 . De plus, comme on l’a vu précédemment à la section
5.2.3.3, Del Potro est associé à la surface dure, ce qui laisse croire que cet amas
à une prédilection envers ce genre de surface.
L’amas bleu contient quand à lui des joueurs comme Nadal, Monaco, Fognini,
Ferrer, Ramos et Robredo. On remarque que cet amas contient beaucoup de
joueurs habiles sur la terre battue. De plus, on est porté à croire que cet amas
est caractérisé par un style de jeu défensif et une bonne forme physique ce qui
correspond au portrait de Ferrer et qui est renforcé par la présence d’un joueur
comme Nadal dans l’amas.
Bien que cette classification soit intéressante, on choisit de porter une plus
grande partie de notre attention sur une catégorie de joueur en particulier.17
En effet, afin de pouvoir faire un lien avec la figure 11, on décide de considérer
un joueur si celui-ci a gagné au moins cinq tournois ATP dans la période étu-
diée. Ceci permet de pouvoir voir quels joueurs représentants le mieux le circuit
s’appareillent ou s’opposent et aidera à caractériser ces derniers en utilisant les
variables présentées à la figure 11.
12
https://goo.gl/VFSrA9
13
http://www.atpworldtour.com/en/news/anderson-my-masters-1000-miami-2017
14
Karlovic détient plusieurs records au service. http://www.atpworldtour.com/en/news/
karlovic-becomes-new-ace-king-2015
15
http://www.essentiallysports.com/10-best-servers-mens-tennis-today/
16
http://www.atpworldtour.com/en/news/infosys-milos-raonic-july-2016
17
On justifie également ce choix par le manque d’information sur la caractérisation des amas
par les variables. À cause de la façon dont on a choisi d’utiliser les données, l’algorithme choisi
les considère comme quantitatives alors qu’elles sont qualitatives. Pour éviter de faire une
analyse erronée, on s’est contenté d’aller voir directement dans la base de données ce que les
joueurs avaient en commun ou encore de faire des recherches en lignes sur les joueurs.
22
Cette fois, c’est une classification à sept amas qui est suggérée. En utili-
sant la représentation présentée dans la figure 15 on trouve que les joueurs les
plus représentatifs des sept amas sont les suivants : Isner, Murray (qui est le
seul individu présent dans l’amas), Cilic, Djokovic/Wawrinka18 , Kliza/Gasquet,
Ferrer/Nishikori, Monaco/Nadal. De même, on trouve que les joueurs les plus
caractéristiques de chacun des amas sont : Berdych, Murray, Cilic, Wawrinka,
Gasquet, Ferrer et Monaco.
Ainsi, en utilisant l’information que l’on vient de tirer de la figure 15 conjoin-
tement avec celle présentée dans la figure 11, il est possible de mieux comprendre
à quoi correspondent les différents amas, non pas en terme de joueur, mais plutôt
en terme de caractéristiques de joueurs.
Premièrement, le centre de gravité de l’amas noir se projette au centre des
modalités gAce4, gAce3, gDF2, Hard et Grass. On peut alors en conclure que
les joueurs présents dans cet amas présentent un profil de joueur ayant un bon
service et ayant de bonnes performances sur les surfaces dures et sur gazon.
Ces deux conclusions sont loin d’être surprenantes ; on a déjà mentionné que
ces deux phénomènes sont intimement reliés, dû à la nature du rebond et de la
vitesse de la balle sur ces surfaces. Les joueurs présents dans cet amas cadrent
parfaitement avec ces modalités ; Berdych, Isner et Raonic sont parmi les plus
grands serveurs du circuit, les deux derniers joueurs faisant partie du peu de
18
Étant donné que l’amas ne contient que deux individus, la distance entre le centre de
gravité de l’amas et les individus est la même pour les deux joueurs. Ainsi, on ne peut pas dire
qu’un des deux individus représente mieux l’amas que l’autre.
J. Morissette 23
joueurs ayant réussi à faire plus de 1000 aces dans une même saison1920 .
Deuxièmement, l’amas rouge, qui correspond en fait a Murray2122 , ce projette
au centre des modalités gN B_P 4, Min3, Min4, Grass et gDF4. Ainsi, Murray
serait un joueur performant sur des matchs de longues durées, sur gazon et
serait connu comme quelqu’un faisant beaucoup de fautes sur son service. Dans
les faits, ce joueur est reconnu comme étant un des plus rapides et des plus
endurants du circuit. Il est donc vrai que son style de jeu convient aux matchs
sur surface rapide comme le gazon et qu’il peut se battre sur le terrain pendant
de longues heures sans devoir baisser la cadence.23
Troisièmement, le centre de gravité de l’amas vert se projette au centre des
modalités Hard, Min2, gDF2, gAce3. Ainsi, les joueurs présents dans cet amas
arborent un profil de joueur ayant une bonne arme au service sans toutefois que
cette dernière soit parfaite, de bonnes performances sur le dur et des matchs
moins longs qu’en moyenne. Encore une fois, il ne faut pas se surprendre de
voir quantité élevée d’aces et surface dure reliées. Pour ce qui est des joueurs,
tous les trois présentent de bonnes performances sur le dur. Ces performances
sont caractérisées par une grande puissance autant au niveau du service que des
coups de raquette subséquents. De même, on peut remarquer que Del Potro et
19
https://goo.gl/cHWNHW
20
https://goo.gl/vVFwXK
21
https://goo.gl/RLjY4F
22
https://fr.wikipedia.org/wiki/Andy_Murray#Style_de_jeu_et_.C3.A9quipement
23
Le match de demi-finale de l’ATP World Tour Finals entre Murray et Nadal en 2010 est
un bon exemple de son endurance.
24
Federer, bien qu’ils aient tous deux joués des matchs marathon au cours de leur
carrière2425 , sont avantagés par des points courts et rapides. La stature de l’un
et l’âge de l’autre26 sont, en effet, non-négligeables. De plus, on a déjà pu voir ces
joueurs, malgré leur force mentale, commettre un nombre significatif de doubles
fautes lors de moments importants27 .
Quatrièmement, le centre de gravité de l’amas bleu se projette au centre des
modalités Min3, gDF1, gDF2, gDF3, gDF4, gN B_P 3, gAce3 et Hard. Alors, la
présence de joueur dans cet amas serait caractérisée par une variance importante
au niveau du nombre de doubles fautes, une quantité importante d’aces, des
temps de jeu légèrement supérieurs à la moyenne ainsi que des performances
sur le dur. Djokovic et Wawrinka sont connus comme ayant une forme physique
exceptionnelle28 ce qui peut venir confirmer la tendance de leur match à s’étirer.
Les deux joueurs sont capables de présenter beaucoup de variation au niveau de
leur service ce qui, lorsque combiné avec une bonne force de frappe, leur permet
d’aller chercher une quantité importante d’aces. Leur performance combinée
sur dur est également impressionnante ; ils ont remporté sept des dix tournois
majeurs disputés sur surface dure sur la période étudiée.
Cinquièmement, le centre de gravité de l’amas turquoise, tout comme ce-
lui de l’amas mauve, ce projette au centre des modalités gAce1, Min1, Min2,
gN B_P 1, gN B_P 2, gN B_P 3. Ainsi, ces deux amas présentent des profils de
joueurs n’ayant pas un service extraordinaire et présentant une endurance plutôt
variable. En fait, ces quatre joueurs n’ont pas un service exceptionnel, que ce
soit à cause de leur taille29 , d’un manque de puissance30 ou tout simplement
d’un manque de technique31 . Par contre, Nishikori et Ferrer sont connus pour
avoir une bonne endurance, tout comme Gasquet32 .
Finalement, le centre de gravité de l’amas gris se projette au centre des
modalités Clay, gAce1, gAce2, wDF1 et Min3. Les joueurs de cet amas présentent
donc un profil de joueur ne prenant pas trop de risque au niveau du service,
disputant des matchs de longues durées et arborant une disposition positive
pour la terre battue. Personne ne sera surpris d’associer Nadal à la terre battue
et on a déjà mentionné à la section 5.2.3.3 que les racines argentines de Monaco
ont fait de lui un joueur reconnu sur cette surface33 . De plus, le Majorquin
24
https://goo.gl/Tg5k6o
25
https://en.wikipedia.org/wiki/Longest_tennis_match_records
26
Bien que Federer continue de faire des performances impressionnantes en 2017, son style
de jeu rapide et efficace lui a permit de demeurer compétitif.http://www.optimumtennis.net/
federer-volley-technique.htm
27
Par exemple, voir le match Federer contre Raonic à Wimbledon en 2016.
28
Il suffit de penser au surnom Stanimal attribué à Wawrinka ou encore à l’effort de Djokovic
pour améliorer son endurance entre 2009 et 2011. http://www.independent.co.uk/sport/
tennis/novak-djokovic-the-man-who-met-his-match-with-murray-1809033.html
29
http://bleacherreport.com/articles/1343596-top-10-profile-david-ferrer
30
https://www.quora.com/What-makes-Kei-Nishikori-such-a-good-tennis-player
31
https://en.wikipedia.org/wiki/Richard_Gasquet#Playing_style
32
https://goo.gl/WgCMfF
33
Huit de ces neuf titres sur le circuit ont été gagnés sur terre battue.
J. Morissette 25
est connu pour avoir une quantité d’énergie inépuisable34 une caractéristique
partagée par son ami Monaco35 . Finalement, le service de Nadal n’a jamais été
considéré comme l’une de ses forces - au contraire36 .
Maintenant que l’on a fini d’analyser les différents amas présents dans la clas-
sification de la figure 15, on va porter notre attention sur une partie supérieure
de cette classification.
Dans la figure 16, on ne dispose que de deux amas. Ces derniers sont re-
présentés respectivement par Del Potro et Nadal, et caractérisés par Berdych
et Monaco. Si l’on analyse la figure 16 conjointement avec la figure 11, on peut
aller trouver les caractéristiques de joueurs qui définissent le mieux le profil de
chacun de ces amas.
Pour ce qui est de l’amas noir, son centre de gravité de projette au centre des
modalités gDF2, gDF3, gDF4, gAce3, Min2, Min3 et Hard. On y reconnaît là
une définition très globale des joueurs ayant un bon service. Si l’on considère de
plus ce qui caractérise se groupe, on accorde alors de l’importance aux modalités
Grass, gAce4 et gN B_P 4. Ces modalités ne font que renforcer la proposition
que cet amas regroupe des joueurs ayant beaucoup de talent au service. Il n’est
pas surprenant de voir que ce profil de joueur à une prédisposition envers les
surfaces rapides ; les grands joueurs, comme on l’a mentionné plus tôt, ont un
34
http://www.optimumtennis.net/rafael-nadal-training.htm
35
https://goo.gl/cxgyLY
36
https://goo.gl/K7ymdG
26
37
De plus, un nombre de parties élevé avec un temps de match moyen impose que les points
soient joués en peu de coup de raquette ; le service joue donc un rôle important dans les échanges
des joueurs provenant de ce profil.
38
Le terme moyenne est à prendre au sens large. On ne peut évidemment pas faire la moyenne
d’une variable qualitative. Par contre, étant donné que l’on a travaillé avec le tableau disjonctif
complet, il est possible de trouver le nombre de fois que chacune des modalités s’est réalisé
pour ensuite en déduire le pourcentage du temps que les modalités se sont réalisées.
39
Au total, les trois joueurs ont remporté 45 des 54 derniers tournois de grand chelem. De
plus, Federer et Nadal, qui avaient respectivement une disette de grand chelem de 5 et 3 ans,
ont montré à la planète en 2017 qu’ils pouvaient encore repousser les records qu’ils ont établis.
40
Malheureusement, le modèle utilisé ne sera pas très bien adapté pour la saison 2006 de
Federer et celle de 2010 de Nadal. On se permet de fermer les yeux sur cela et de se prêter à
l’exercice malgré tout.
J. Morissette 27
On rappelle que le premier axe factoriel oppose les matchs de longue durée
(dans la direction négative) à ceux de courte durée (dans la direction positive),
que le deuxième axe oppose les joueurs tirant avantage de leur service (dans la
direction positive) à ceux qui ne le font pas (dans la direction négative) et que le
troisième axe factoriel oppose quant à lui les moyens (dans la direction négative)
aux extrêmes (dans la direction positive).
Ainsi, on peut voir directement dans les figures précédentes que Hewitt
présente un profil de joueur où la plupart de ces matchs sont plus longs que
la moyenne. On retrouve d’ailleurs sa projection près des modalités Min3 et
gN B_P _3 ce qui vient confirmer cette prétention, mais également près de la
modalité gAce4. C’est d’ailleurs pourquoi sa position sur le deuxième axe est
positive. Malgré tout, il semble présenter des matchs dans la moyenne plutôt
que dans l’extrême. En fait, seul Murray, Del Potro, Roddick et Raonic ont
une coordonnée positive sur le troisième axe. De ceux-ci, Roddick et Raonic se
démarquent clairement en tant que serveurs exceptionnels. Roanic se projette
près des modalités M in_1, g2eG_4, g1ereG_4 et gP BS_4 témoignant d’une
excellente qualité de service, et ce lors de moments clés. Quant à Roddick, il se
projette près des modalités g1ereG_4, g2eG_1, gSvc_1, gP BS_4 et de Hard.
C’est donc dire que l’efficacité de sa première balle est très importante et lui
28
permet de sauver bien des balles de bris, mais que le reste de son jeu au ser-
vice n’est pas aussi bon. On remarque que Murray et Del Potro se projettent
eux aussi près de ces modalités et donc on peut leur attribuer, partiellement, la
même analyse. De façon plus spécifique, Murray se projette également près de
la modalité gN B_P _3, ce qui témoigne de son endurance, alors qu’à l’inverse,
Del Potro est projeté plus près de la modalité M in_1. On retrouve Nadal et
Ferrer projetés près des modalités g2eG_4, G1ereG_1, Clay et M in_2. Ferrer
est également près de la modalité M in_3. Le profil des deux Espagnols est donc
caractérisé par la capacité de jouer des matchs plus longs que la moyenne, et ce
sans s’appuyer sur d’énormes performances au service, bien que leur efficacité
en deuxième balle soit impressionnante. Federer et Wawrinka, quant à eux, se
projettent près des modalités Hard, M in_3, gN B_P _3 et gP BS_4. Ainsi les
deux Suisses présentent un profil caractérisant une bonne présence mentale, du
moins suffisante pour bien jouer sur balle de bris, et une forme physique suf-
fisante pour jouer des matchs plus longs qu’en moyenne. Finalement, Djokovic
se projette près des modalités Hard, Clay, gN B_P _3, M in_2 et gP BS_4. Le
Serbe présente donc un profil de joueur avec de bonnes aptitudes sur toutes
les surfaces, comme en témoignent les saisons 2015-2016 où il était champion
en titre des quatre grands chelems simultanément, une bonne efficacité sur le
terrain ainsi qu’une bonne aptitude à sauver les meubles.
6 Conclusion
L’analyse proposée permet de mettre de l’avant différents aspects du tennis
moderne et d’en évaluer leur impact ainsi que leur importance. On a pu confirmer
l’avantage que procure un bon premier service, malgré le fait que celui-ci ne
soit qu’un atout à un joueur sur le circuit professionnel. De la même façon, on
a pu voir que le monde moderne du tennis se divise de façon globale en deux
catégories : les joueurs avec une excellente endurance et ceux avec une endurance
normale. En fait, ceci se reflète dans la plupart des statistiques étudiées ; certains
joueurs sont capables de faire la différence entre des matchs faciles et des matchs
difficiles, alors que d’autres semblent jouer tous leurs matchs selon une même
tendance ou ligne directrice.
Par la suite, l’analyse de différents sous-tableaux de Burt a permis d’établir
des liens entre différentes variables étudiées. Le lien évident entre la taille d’un
joueur et la surface de jeu fut soulevé. Le nombre d’aces et d’erreurs au service
a également été mis en relation avec la taille du joueur où, là encore, aucune
surprise. Puis, on s’est intéressé à mettre en relation la surface de jeu avec la
durée des matchs, la main dominante du gagnant ainsi qu’une certaine portion
des joueurs.
On a également voulu faire une analyse mettant en relation les joueurs ayant
gagné plus de cinq tournois au cours des saisons 2012-2016 avec le temps de jeu,
le nombre de jeux, la surface, le nombre d’aces et le nombre de doubles fautes.
Afin de rendre la tâche plus aisée, on a introduit une classification hiérarchique
des joueurs, qui ultimement, a divisé les meilleurs joueurs du circuit en deux
catégories : les joueurs capables de faire beaucoup d’aces contre ceux ayant un
service plus conservateur. Évidemment, ces deux catégories de joueurs étant très
différentes, ces dernières présentent des surfaces de prédilection bien adaptée à
leur réalité ; le premier groupe performe mieux, de façon générale, sur dur et sur
gazon, alors que le deuxième performe mieux sur terre battue.
Pour terminer l’analyse, on s’est intéressé à comparer les meilleures saisons
de Djokovic, Federer et Nadal en utilisant des observations artificielles. On a
trouvé que ces trois saisons exceptionnelles présentent des caractéristiques très
différentes, qui se rapportent directement au joueur. On a par la suite prolongé
l’exercice en regardant dix joueurs de façon globale pendant les saisons 2012-
2016.
Plusieurs variables ont été mises de côté lors de ces analyses, dans le but de
réduire le bruit et ainsi obtenir un meilleur pourcentage de variance expliquée.
Notamment, la provenance du joueur pourrait permettre de regroupé et d’ex-
pliquer pourquoi certains joueurs présentent des profils similaires. La variable
score est assurément importante et contient beaucoup d’information. Malheu-
reusement, celle-ci est difficile à décortiquer et demande une certaine adaptation
afin d’en tirer pleinement profit. On a également été limité par la nature elle-
même des données. Par exemple, les données ne permettaient pas de savoir si un
joueur avait effectué une remontée et aucune information sur la distance parcou-
rue n’était disponible. La plus grande question concernant la base de données est
J. Morissette 31
A Figures et tableaux
A.1 Étiquettes
Remarque A.1. Bien que cette information ne soit pas disponible dans la figure
23, les variables gPBS et pPBS peuvent prendre la valeur 0. En fait, cette
modalité correspond à l’évènement où le pourcentage de balle de bris n’est pas
disponible, c’est-à-dire que le joueur n’a pas fait face à une balle de bris.
J. Morissette 37
Références
[Cha15] Marie Chavent : L’analyse des correspondances multiples (acm). Mé-
moire de D.E.A., Université de Bordeaux, 2014-2015.
[Mes12] Samir Messad : Traitement statistique des données d’élevage ; les mé-
thodes d’analyses factorielles et de classification, 2012.
Jean-Philippe Morissette
Département de mathématiques, Université de Sherbrooke
Courriel: [email protected]
Caractérisation des universités
américaines
Fanny Rancourt ∗
Contact : [email protected]
Département de mathématiques, Université de Sherbrooke
Résumé
On tentera, dans cette étude, de caractériser les universités américaines
en utilisant notamment les salaires déclarés par leurs diplômés, leur nombre
d’inscriptions, leur taux de graduation et leurs frais de scolarité. On effec-
tuera premièrement une analyse en composantes principales (ACP) pour
déterminer les caractéristiques distinguant le mieux toutes ces institu-
tions ainsi que celles qui sont correlées avec un meilleur salaire de leurs
diplômés sur le marché du travail. On tentera également d’identifier les
attributs liés aux institutions ayant les frais de scolarité plus élevés. On
effectuera en second lieu une analyse discriminante (AD) afin de séparer
les différents types d’universités les uns des autres (privé ou public et
niveau de sélectivité). À l’aide du modèle considéré, on comparera enfin
quelques unviersités canadiennes aux établissements américains ayant un
classement similaire selon QS top universities et Times Higher Education.
1 Introduction
Il est bien connu que l’éducation supérieure aux États-Unis compte parmi
les plus onéreuses au monde. En effet, parmi les dix universités les plus dispen-
dieuses recensées par le site Career Addict, huit se situent aux États-Unis [1] et
coûtent plus de 58 700 $US, le salaire annuel moyen par habitant du pays [2]. Se-
lon l’institut TICAS, en 2012, 71 % des étudiants qui graduent d’un programme
d’une durée de quatre ans, soit 1,3 millions de personnes, sont endettés. En plus
d’une augmentation du nombre absolu d’individus ayant des dettes compara-
tivement à 2008, la dette moyenne a elle aussi augmenté sur la même période
passant de 23 450 $US à 29 400 $US, soit une hausse de 25 % [3]. En 2016, elle
était passée à 37 172 $US [4].
Cette crise, prenant de plus en plus d’ampleur, incite donc plusieurs étudiants
américains à se tourner vers les universités canadiennes, qui ont des coûts moins
∗ L’auteur tient à remercier Prof. Bernard Colin pour sa supervision et ses judicieux conseils
1
élevés et un prestige similaire. En effet, deux universités canadiennes, McGill
University et University of Toronto 1 , se trouvaient, en 2013, dans le top 25
mondial des universités selon QS top universities [5] et dans le top 35 selon
le Times Higher Education [6]. De plus, les établissements canadiens ont des
taux de rejet en deça de leurs compères américains, les rendant d’autant plus
attrayantes.
2 Position du problème
Les coûts d’une année d’étude universitaire pouvant varier de 5 000 $US à
plus de 50 000 $US aux États-Unis, on cherche à déterminer les composantes
d’un établissement statistiquement liées à une facture plus ou moins élevée, et
ce, peu importe son tier. Il serait particulièrement intéressant de voir s’il y a
un retour sur cet investissement avec un salaire plus élevé des diplômés. On
se préoccupe plus précisément de la distribution des salaires car elle est beau-
coup plus riche en information que les mesures simples comme la médiane ou
la moyenne. De plus, comme 31,7 % des Américains ont un diplôme univer-
sitaire requérant au moins quatre ans d’études en 2013 [7], les deux derniers
quintiles seront particulièrement surveillés afin de valider si un plus haut niveau
d’éducation est associé à un salaire plus élevé. De même, les écoles ayant des taux
de rejet plus élevés, souvent associé aux établissement prestigieux, peuvent-elles
avoir un meilleur taux de placement ou un salaire de ses diplômés plus élevé ? Il
a été choisi que le tier soit seulement projeter dans l’espace factoriel pour cette
première analyse afin de départager les universités grâce à ce qu’elles offrent et
non à une étiquette à connotation plus ou moins prestigieuse.
On caractérisera ensuite ce qui sépare chaque tier à partir d’analyses soit glo-
bales soit deux-à-deux. En effet, les différents niveaux de prestige des universités
doivent être fortement liés à certains facteurs précis décrivant un établissement,
que ce soit le salaire de ses diplômés, les proportions d’une communauté ethnique
ou d’une concentration (majeure) choisie, la masse salariale moyenne d’une fa-
culté ou autre. Les coûts d’une année d’étude vont inévitablement ressortir lors
de l’analyse globale, mais pour les modèles considérant une paire de tiers, il y
a des chances que ce soit d’autres facteurs. On s’intéressera particulièrement à
ces paires.
1. Aucun nom d’université n’est francisé dans le présent rapport.
2
On tentera aussi de rapprocher les universités canadiennes au tier qui leur
ressemble le plus lorsque on utilise le prix facturé à un étudiant provenant
des États-Unis et les autres caractéristiques disponibles sur l’établissement. Ce
rapprochement a pour objectif de comparer ce que propose les universités ca-
nadiennes à leurs semblables américaines et constater si un gain est possible en
choisissant de poursuivre des études supérieures au Canada.
3
retenues et toutes institutions ayant des informations manquantes ont été ex-
cluses des analyses.
De plus, certaines informations sur les universités n’étaient pas tout à fait
à jour. Dans celles retenues, les distributions des majeures et de l’origine eth-
nique dataient de 2000 alors que toutes les autres variables utilisées dataient
de l’année 2013 ou 2014. Pour pallier à cet écart, ces variables ont été extraites
de la banque de données de l’IPEDS [10] qui semble être la source du groupe
de recherche. Malheureusement, les données de 2013 n’étaient pas disponibles,
alors il a été choisi de considérer celles de 2014.
4 Modèles
4.1 Choix du modèle
Le premier modèle sélectionné est une analyse en composantes principales
(ACP). Comme 37 variables de notre base de données sont quantitatives et
qu’on sait que plusieurs variables sont correlées, une réduction de la dimen-
4
sion du problème s’imposait. On sait qu’il y a une grande variation des frais de
scolarité d’un établissement à un autre, mais on cherche à connaı̂tre les autres
facteurs différenciant les universités les unes des autres indépendemment de leur
tier et de leur sélectivité. Ces dernières variables seront simplement projetées
dans l’espace factoriel à des fins d’interprétation.
5
où 1 = (1, 1, . . . , 1)t ∈ RpP
. De plus, étant donné un vecteur unitaire u, il est aisé
de montrer que IN (0) = i pi kxi k2A , l’inertie du nuage N autour de l’origine se
décompose comme suit :
Les graphiques présentés dans cette étude illustrent les projections des ob-
servations dans le sous-espace engendré par les vecteurs u1 , u2 , . . . , uk . Il est
aussi possible de projeter les variables dans Rn bien que cela ne soit pas présenté
dans cette section.
6
Analyse discriminante pas-à-pas
et
m
X
B= nk gkt gk .
k=1
Approche prédictive
7
comme environ la moitié de celles-ci sont par rapport aux salaires des diplômés,
notre analyse est donc débalancée. Le choix d’une autre métrique aurait pu
accorder un poids moins grand aux revenus des anciens étudiants. En effet,
l’importance de traits représentés par une seule variable tels que le salaire des
parents et les caractéristiques d’une université comme le taux de graduation, le
nombre d’inscriptions, etc. est nettement diminuée dans l’analyse comparée à
celle de la majeure, de l’ethnie et du salaire des diplômés.
Pour ce qui est de l’analyse discriminante, certains tiers ont perdu beaucoup
d’observations lors du nettoyage et peuvent être moins bien représentées. Les
pertes pour chaque tier sont recensées dans le tableau 6 qui se trouve dans l’an-
nexe A. Pour compenser, on aurait pu utiliser l’approche probabiliste en utilisant
les proportions de chaque tier dans le fichier original. La loi associée à chaque
classe aurait aussi pu être changée pour une loi continue ou une loi utilisant
minimalement les informations qui n’ont pas été retenues pour l’analyse.
Valeurs propres
8
Figure 1 – Éboulis des valeurs propres
obtenus avec R (voir en annexe C pour les détails), cette coupure est équivalente
à appliquer le critère suivant : la dernière composante ajoutée k sera telle que
λ
les valeurs propres des axes k + 1, k + 2, . . . , n auront le rapport Pn j λk pour
k=1
j ∈ {k+1, k+2, . . . , n}, le pourcentage d’inertie expliquée, inférieur à 6 %. Dans
cette analyse, cela correspond à travailler avec les deux premières dimensions
et le reste comme du bruit. Ainsi, le modèle a deux axes, une réduction de
dimensions de 94,7 %, et explique 53,6 % de la variation du nuage de points
original.
De plus, on observe que toutes les mesures sur les diplômés ayant des salaires
associés au dernier quintile se trouvent dans ce premier faisceau. On trouve que
2. Il n’y a pas de ” ” dans les étiquettes du graphique car GeoGebra les interprète comme
des indices.
9
Figure 2 – Cercle des corrélations
10
diplômés touchant un salaire lié au troisième quintile, toutes les autres variables
ayant une forte contribution au premier axe factoriel sont dans l’un ou l’autre
des deux faisceaux.
Pour le deuxième axe factoriel, on remarque que les proportions des diplômés
dont le salaire est nul ou dans les deux premiers quintiles ont tous une contribu-
tion importante et des coordonnées négatives. Ce sont ces trois variables qui ont
les plus grands apports pour cet axe. Toutefois, la qualité de la représentation de
ces dernières est inférieure à 55 %. Les variables ayant des contributions impor-
tantes et des coordonnées positives sur cet axe sont la proportion de blancs et
toutes les proportions mesurées sur le quatrième quintile. Malheureusement, leur
indice de qualité se chiffre entre 14,2 et 33,3 %. L’interprétation du deuxième
axe est donc moins aisée que pour le premier. Toutefois, on observe que les
quintiles s’ordonnent par rapport à cet axe à l’exception du dernier quintile.
Cette dernière se positionne au même niveau que le premier axe factoriel. Cette
répartition des variables peut s’expliquer par le fait que cette proportion peut
atteindre jusqu’à 80 % laissant la balance se séparer dans les quatre quintiles
restant. Il est donc difficile pour ces établissements d’avoir une proportion simi-
laire de diplômés dans les quintiles 4 et 5, ce qui semble le point commun des
universités se projetant dans le deuxième cadran.
Enfin, on remarque que les variables sur les communautés ethniques, les ma-
jeures et les données de bases sur les universités (prix, inscriptions, etc.) s’ag-
glutinent toutes autour du premier axe et sont généralement mal représentées
comme leur qualité est inférieure à 40 % à l’exception du taux de graduation et
du salaire facultaire moyen.
11
— Midland University (429), University of New England (720) et Mus-
kingum University (463) sont des établissements où les proportions de
diplômés des quintiles 4 et 5 avoisinent chacunes les 30 %. Ces univer-
sités contribuent légèrement au premier axe et partiellement (2 fois moins
que les universités mentionnées dans le point précédent) au deuxième axe
factoriel. Elles sont aussi plutôt mal représentées pour les deux axes avec
des qualités inférieures à 40 %.
— Massachusetts Institute of Technology (408), Princeton University (537)
et California Institute of Technology (85) sont toutes des universités où
plus de 65 % des diplômés ont des salaires situés dans le dernier quin-
tile. Celles-ci sont toutes extrêmement bien représentées avec des qualités
d’environ 80 %. Les contributions de ces écoles se chiffrent parmi les plus
importantes pour le premier axe.
Ce résultat est cohérant avec la distribution des variables ayant d’importantes
contributions dans le cercle des corrélations (figure 2).
En partitionnant les observations par leur tier et par leur coût (en tranches
de 5 000 $US), on a créé 38 individus artificiels. Ceux-ci sont le résultat d’une
moyenne sur toutes les variables pour chacun des sous-ensembles. Le tableau 8
en annexe C donne les détails des séparations effectuées. Comme les tiers comp-
tant un grand nombre d’établissements sont accompagnés d’une plus grande
variabilité, partitionner un tier à l’aide du coût permet d’obtenir un portrait
plus réaliste de sa répartition.
12
Figure 4 – Projections des individus artificiels
On remarque aussi que les tiers plus prestigieux sont plus regroupés et se
démarquent des autres, alors que les établissements sélectifs les plus coûteux, de
types privés et publics, se comparent aux écoles très sélectives de tous types. Les
tiers sélectifs, comptant le plus d’universités sont de loin les plus hétérogènes
avec des observations moyennes dans les cadrans I, II et III.
Modèle global
13
inférieure à 1 % était le critère d’arrêt de la procédure. Lorsque seul le prix est
considéré, l’exactitude est de 82,9 %. On pouvait s’attendre à ce résultat vu la
distribution des coûts de chaque tier (voir tableau 8). Comme les écoles de la Ivy
Plus, d’élites et très sélectives privées ont des coûts entre 40 000 et 50 000 $, cette
variable n’est pas suffisante pour bien discriminer les tiers bien qu’elle apporte
des résultats extrêmement bons pour un modèle à une dimension. La matrice de
confusion de ce modèle se trouve dans l’annexe D. La deuxième variable ajoutée
au modèle est la proportion de diplômés touchant des salaires dans le 1 %
le plus riche augmentant la justesse de 2,2 points de pourcentage. Lorsqu’on
ordonne ces proportions, on remarque que les tiers se rangent eux selon leur
sélectivité moyennant quelques exceptions. En particulier, les établissements de
la Ivy Plus dominent cette variable avec des valeurs entre 13,7 et 23,2 %. On
remarque aussi que les universités sélectives et non sélectives ne se dicriminent
pas bien selon cette variable. La matrice de confusion de ce modèle se trouve
aussi dans l’annexe D. On inclut enfin la proportion de diplômés ayant un salaire
du dernier quintile au modèle. Ce dernier ajout permet au modèle d’atteindre
une exactitude de 86,5 %. Pour le modèle complet, on obtient la matrice de
confusion suivante :
14
Prédiction d’universités canadiennes
Bien que moins performant que le précédent modèle, celui-ci obtient des
résultats tout à fait respectable avec une justesse de 86 %. On remarque encore
une fois que le discernement entre les tiers très sélectif et sélectif est compliqué.
De plus, les tiers élites, Ivy Plus et très sélectifs sont mal discriminés.
15
Université Tier prédit
University of Alberta Sélectif privé
McGill University Sélectif privé
McMaster University Sélectif public
Université de Montréal Sélectif privé
Queen’s University Sélectif privé
Université de Sherbrooke Sélectif privé
University of Toronto Sélectif public
University of British Columbia Sélectif privé
University of Waterloo Sélectif public
Western University Sélectif privé
Bien que le prix semble être ce qui pénalise les universités canadiennes, le
modèle élaboré sans cette variable ne fait que classifier toutes les universités
canadiennes comme sélectives privées. Ces résultats plutôt décevants indiquent
toutefois que le rang mondial d’une université ne dépend pas des quelques faits
et statistiques présents sur son site web officiel, en soi une bonne nouvelle. En
effet, le classement de QS top universities dépend surtout de sa réputation,
de son nombre de citations et du ratio enseignants-étudiants [21] et celui du
Times Higher Education dépend deux fois plus de la recherche que de l’ensei-
gnement [22]. Comme on cherche plutôt à lier le prestige d’un établissement aux
salaires touchés par les diplômés, l’aspect recherche n’est pas du tout représenté
dans notre base de données. Il est toutefois clair que les écoles des tiers plus
prestigieux dominent ses classements, donc une étude plus en profondeur du lien
entre ce qui caractérise ces classifications d’universités et les indicateurs utilisés
pour les classements mondiaux pourrait expliquer les décalages qu’on obtient
avec notre modèle. De plus, on remarque que les quelques données affichées sur
les pages web officielles des établissements canadiens ne permettent pas de les
détacher les uns des autres. Si, au niveau national, les universités avaient l’obli-
gation de rendre public un certain nombre d’informations bien définies comme
l’exige le Common University Data of Onatario, une analyse plus profonde au-
rait pu être produite comme on aurait été en mesure de mieux caractériser les
établissements.
Modèles deux-à-deux
Comme les tiers pas sélectifs ont très peu d’obeservations dans nos données,
les résultats de leurs analyses sont seulement présentés car leur précision est
tellement faible qu’une analyse ne nous semble pas pertinente.
16
Types privé et public
Il était clair que le coût annuel allait être le principal discriminant vu les
écarts mesurés dans chaque niveau de sélectivité. Lorsqu’on compare les classes
Sélectif privé et Sélectif public, la deuxième variable contribuant au modèle est
la proportion de diplômés avec des salaires dans le dernier quintile. En effet, les
écoles privées ont une proportion en moyenne supérieure de 2 points de pourcen-
tage. Ce résultat est cohérant avec les projections des tiers dans le graphique de
l’ACP à la figure 6 où la moyenne publique a une première coordonnée inférieure
à celle du privé. Toutefois, lorsqu’on ordonne cette proportion, le type privé ne
se détache pas du public donc c’est écart peut être jugé comme non significatif.
Tiers sélectifs
Comme les tiers sélectifs sont très vastes et génèrent beaucoup de confusion
lors des analyses globales, on considère premièrement tous les modèles compa-
rant ce niveau de sélectivité.
17
deux comparaisons entre les tiers Sélectif privé et Très sélectifs sont plutôt
intéressantes comme elles utilisent les probabilités conditionnelles qu’un diplômé
obtienne un salaire dans les deux derniers quintiles sachant que celui des pa-
rents se trouve dans le deuxième quintile. Lorsqu’on observe le comportement
des données, l’espacement des moyennes pour le quatrième quintile ne semble
pas significatif mais celui du dernier quintile l’est clairement. En effet, l’écart
entre les moyennes des deuxtiers est de 21 point de pourcentages. Les seules
écoles sélectives privées qui se comparaient aux très sélectives pour cette va-
riable étaient celles avec les coûts les plus élevées. De plus, la Ivy Plus se sépare
par la proportion de ses diplômés avec des salaires dans le 99e percentile, ce qui
ne nous étonne pas.
Nous allons finalement comparer les tiers les plus prestigieux comme ils ne se
discriminent pas toujours très bien dans les modèles précédemment considérés.
Compte tenu que la plupart de ces établissements coûtent entre 40 000 et
50 000 $US, les résultats sont plus variables que les précédents.
Pour ce qui est des écoles d’élites et très sélectives privées, le taux de réjection
les sépare très bien comme leurs moyennes respectives ont un écart de 26,8 point
de pourcentages. De même, lorsque que compare ce tier amenant autant de
confusion dans nos analyses globales avec la Ivy Plus, on obtient que le taux
de graduation les discrimine le mieux. En effet, leurs moyennes ont un écart de
16,71 points de pourcentage.
18
6 Conclusion
Comme on pouvait s’y attendre, nos analyses confirment que plus une uni-
versité est prestigieuse et onéreuse, plus elle permet à ces diplômés d’avoir de
meilleurs salaires. En effet, la position des observations artificielles créées à l’aide
des tiers et des coûts ne peut que nous amener à cette conclusion. De plus, des
variables associées à l’enseignement offert par un établissement avait un impact.
Une analyse à but décisionnelle pour quantifier jusqu’à combien payer pour que
ça soit rentable pour les étudiants serait intéressante.
De plus, les tiers se discriminent aussi principalement par leur coût an-
nuel. Toutefois, les classes non sélectives étaient très mal représentées rendant
leur résultats très imprécis. Un travail d’imputation pourrait très probablement
améliorer nos résultats. Pour les modèles deux-à-deux, d’autres variables tels
que la proportion de salaire dans le dernier quintile et le 99e percentile ont res-
sorties. Dans ces cas, cela confirmait des observations soulevées lors de l’ACP.
En intégrant des indices sur la réputation et la réputation des universités, on
pourrait explorer le lien entre le classement mondial d’un établissement et les
salaires types de leurs diplômés.
Dernièrement, une grande quantité de données n’a pas été considérée dans
ce travail. Particulièrement, des fichiers contiennent toutes ces variables pour
onze années consécutives. Une analyse temporelle pourrait amener des résultats
très intéressants et témoigner des changements de politiques des établissements.
19
Références
[1] Andy Peloquin. Top 10 most expensive universities in the
world. Career Addict, 2015. http://www.careeraddict.com/
top-10-most-expensive-universities-in-the-world.
[2] OCDE. Salaires moyens. http://data.oecd.org/fr/earnwage/
salaires-moyens.htm.
[3] Ticas. Quick facts about student debt, 2014. http://ticas.org/sites/
default/files/pub_files/Debt_Facts_and_Sources.pdf.
[4] Nation Wide Student Loan. Student loan debt statis-
tics for 2017, 2017. http://nationwidestudentloan.com/
student-loan-debt-statistics-for-2017/.
[5] QS Top Universities. Qs world university rankings 2013-
2014. https://www.topuniversities.com/university-rankings/
world-university-rankings/2013.
[6] Times Higher Education. World university rankings 2013-14. https:
//www.timeshighereducation.com/world-university-rankings/
2014/world-ranking#!/page/0/length/25/sort_by/rank/sort_
order/asc/cols/stats.
[7] United States Census Bureau. Table a-2. percent of people
25 years and over who have completed high school or col-
lege, by race, hispanic origin and sex : Selected years 1940 to
2015. https://www.census.gov/data/tables/time-series/demo/
educational-attainment/cps-historical-time-series.html.
[8] Raj Chetty, John Friedman, Emmanuel Saez, Nicholas Turner, and Danny
Yagan. Mobility report cards : The role of colleges in intergenerational mo-
bility, 2017. http://www.equality-of-opportunity.org/papers/coll_
mrc_paper.pdf.
[9] The Equality of Opportunity Project. Data and replication code, 2017.
http://www.equality-of-opportunity.org/data/.
[10] Integrated Postsecondary Education Data System (IPEDS). Use the data.
https ://nces.ed.gov/ipeds/Home/UseTheData.
[11] Council of Ontario Universities. Multi-year data, 2017. http://cou.on.
ca/numbers/multi-year-data/.
[12] Payscale. Canada salary research school index (canada). http://www.
payscale.com/index/CA/School.
[13] Maclean’s. Full profiles of canadian universities and
colleges, 2015. http://www.macleans.ca/education/
full-profiles-of-canadian-universities-and-colleges/.
[14] Ludovic Lebart et Alain Morineau et Marie Pinon. Statistique exploratoire
multidimensionnelle. Dunod, 1995.
[15] R. The r project for statistical computing. https://www.r-project.org/.
20
[16] Francois Husson, Sebastien Le Julie Josse, and Je-
remy Mazet. Package ‘factominer’, 2017. ftp ://cran.r-
project.org/pub/R/web/packages/FactoMineR/FactoMineR.pdf.
[17] Christian Roever, Nils Raabe, Karsten Luebke, Uwe Ligges, Gero Szepan-
nek, and Marc Zentgraf. Package ‘klar’, 2014. https://cran.r-project.
org/web/packages/klaR/klaR.pdf.
[18] Brian Ripley, Bill Venables, Douglas M. Bates, Kurt Hornik, Albrecht Geb-
hardt, and David Firth. Package ‘mass’, 2017. https://cran.r-project.
org/web/packages/MASS/MASS.pdf.
[19] GeoGebra. Geogebra — powerful, free online graphing calculator and in-
teractive geometry, 2017. https://www.geogebra.org/?lang=fr.
[20] Bureau of Labor Statistics. Occupational employment statistics. https:
//www.bls.gov/oes/current/oes_nat.htm#19-0000.
[21] QS top universities. Qs world university rankings - methodology.
https://www.topuniversities.com/qs-world-university-rankings/
methodology.
[22] Times Higher Education. World reputation ran-
kings 2017 : methodology. https://www.
timeshighereducation.com/world-university-rankings/
world-reputation-rankings-2017-methodology.
[23] Kavita Mehta and Kimberly Wright Dixit. Acing Admissions : The Indian
Student’s Comprehensive Guide to US CollegeApplications. HarperCollins
Publishers, 2015. p. 85.
21
A Tiers
4. Les huit universités de la Ivy League et quelques écoles considérés similaires [23].
22
B Variables
Variable Définition
name Nom de l’université
educ Proportion d’étudiants complétant une majeure en éducation
en 2014
STEM Proportion d’étudiants complétant une majeure en biolo-
gie, sciences de la vie, sciences physiques, ingénierie ou
mathématiques en 2014
law Proportion d’étudiants complétant une majeure en droit en
2014
health Proportion d’étudiants complétant une majeure en médecine
ou dentisterie en 2014
admin Proportion d’étudiants complétant une majeure en adminis-
tration en 2014
asian Proportion d’étudiants asiatiques en 2014
black Proportion d’étudiants noirs en 2014
hisp Proportion d’étudiants hispaniques en 2014
white Proportion d’étudiants blancs en 2014
other Proportion d’étudiants amérindiens, alaskains, hawaı̈ens et des
autres régions du Pacifique, d’origine inconnue, de deux ethnies
ou plus en 2014
alien Proportion d’étudiants étrangers en 2014
female Proportion d’étudiantes
p mean Salaire moyen parental
k med Salaire médian des diplômés excluant l’absence de revenu ar-
rondi à la centaine en 2014
k 0inc Proportion de diplômés sans revenu d’emploi
k qζ Proportion de diplomés dans le quintile ζ, 1 étant le plus
pauvre et 5 le plus riche
k topζpc Proportion de diplômés dans le ζ % le plus riche
kqζ pqξ Probabilité qu’un diplômé soit dans le quintile ζ sachant que
ses parents sont dans le quintile ξ
enrol Nombre total d’inscriptions au premier cycle (temps plein et
temps partiel) déclaré au Département d’éducation
price Coût d’une année d’étude en 2013 (frais de scolarité, livres,
hébergement, pension, autres frais), trad. : sticker price
grad Taux de graduation en au plus 6 ans en 2013
facsal Salaire moyen facultaire en 2013
rej Taux de réjection en 2013
tier Classification des universités (voir annexe A)
23
B.1 Aperçu des données
ABILENE CHRISTIAN UNIVERSITY ADAMS STATE UNIVERSITY ADELPHI UNIVERSITY ADRIAN COLLEGE
educ "0.2688103" "0.2875648" "0.2495430" "0.2066365"
STEM "0.3009646" "0.2512953" "0.2614260" "0.3544495"
law "0" "0" "0" "0"
health "0" "0" "0" "0"
admin "0.4302251" "0.4611399" "0.4890311" "0.4389140"
asian "0.010289389" "0.009499136" "0.085009141" "0.004524887"
black "0.06688103" "0.04576857" "0.06901280" "0.06938160"
hisp "0.142122186" "0.262521589" "0.117915905" "0.045248869"
white "0.68102894" "0.58721934" "0.49497258" "0.78129713"
other "0.05209003" "0.09499136" "0.08135283" "0.09954751"
alien "0.047588424" "0.000000000" "0.151736746" "0.000000000"
female "0.5521236" "0.5019184" "0.7206172" "0.5558021"
p_mean "138760.97" " 76121.82" "130723.74" "113708.11"
k_med "44400" "36600" "55000" "42700"
k_0inc "0.12124620" "0.11228829" "0.09277480" "0.08205820"
k_q1 "0.14006530" "0.12124768" "0.10051541" "0.08579205"
k_q2 "0.1329476" "0.1590779" "0.1130076" "0.1280819"
k_q3 "0.1732774" "0.2438619" "0.1476446" "0.2104974"
k_q4 "0.2464441" "0.2722648" "0.1931545" "0.3036666"
k_q5 "0.3072657" "0.2035478" "0.4456780" "0.2719621"
k_top10pc "0.17170201" "0.07858049" "0.24363674" "0.11347156"
k_top5pc "0.10058448" "0.03064115" "0.10178581" "0.03871434"
k_top1pc "0.0283676746" "0.0058325920" "0.0148926637" "0.0035677334"
kq4_pq1 "0.2673270" "0.2636958" "0.2081772" "0.3146234"
kq5_pq1 "0.2739028" "0.1458291" "0.3743344" "0.1574158"
kq4_pq2 "0.2330906" "0.2891828" "0.1938885" "0.3379779"
kq5_pq2 "0.2476515" "0.1624326" "0.4127435" "0.2242366"
kq4_pq3 "0.2874772" "0.2809070" "0.1966504" "0.3447499"
kq5_pq3 "0.2016618" "0.2020486" "0.4350479" "0.2161154"
kq4_pq4 "0.2332917" "0.2919978" "0.1900162" "0.2650434"
kq5_pq4 "0.3146711" "0.2034337" "0.4280847" "0.2750706"
kq4_pq5 "0.2391946" "0.2192669" "0.1900711" "0.2977908"
kq5_pq5 "0.3618724" "0.2915637" "0.4862457" "0.3386949"
enrol "3727" "2284" "5040" "1646"
price "29450" " 8014" "32340" "32660"
grad "0.5656109" "0.2611765" "0.6251416" "0.5445135"
facsal " 5508" " 5986" "11315" " 7453"
rej "0.5106" "0.4740" "0.3186" "0.4372"
tier "SPri" "SPub" "SPri" "SPri"
24
Voici quelques mesures simples illustrant l’hétérogénéité des variables de la
base de données considérée.
Min quartile 1 mediane moyenne quartile 3 Max
educ 0.0000 0.1051 0.2237 0.2446 0.3610 1.0000
STEM 0.0000 0.1710 0.2722 0.3317 0.4441 1.0000
law 0.00000 0.00000 0.00000 0.01613 0.00000 0.54522
health 0.000000 0.000000 0.000000 0.007143 0.000000 0.408685
admin 0.0000 0.2847 0.3886 0.4004 0.5060 1.0000
asian 0.00000 0.01073 0.02136 0.03927 0.04879 0.34383
black 0.00000 0.03386 0.06098 0.11450 0.11739 0.96259
hisp 0.00000 0.02859 0.05026 0.07308 0.08294 0.62204
white 0.0000 0.5333 0.6749 0.6240 0.7649 0.9507
other 0.00000 0.04358 0.07143 0.08543 0.10594 0.62512
alien 0.00000 0.01612 0.03764 0.06373 0.08319 0.53663
female 0.01245 0.52337 0.56649 0.57524 0.61462 1.00000
p_mean 33202 92706 111610 139588 155579 551968
k_med 23400 39900 45350 48100 52575 104600
k_0inc 0.03684 0.07565 0.09138 0.09563 0.11020 0.28226
k_q1 0.04168 0.08293 0.10074 0.10556 0.12188 0.30937
k_q2 0.02598 0.09646 0.12096 0.12430 0.14860 0.29250
k_q3 0.03694 0.13353 0.17111 0.17109 0.20950 0.37390
k_q4 0.06338 0.22940 0.26644 0.25913 0.29927 0.39304
k_q5 0.0736 0.2346 0.3110 0.3399 0.4198 0.8021
k_top10pc 0.0192 0.1008 0.1498 0.1838 0.2295 0.6437
k_top5pc 0.001216 0.043367 0.070724 0.098173 0.117409 0.490048
k_top1pc 1.494e-05 5.964e-03 1.125e-02 2.239e-02 2.286e-02 2.316e-01
kq4_pq1 0.0000 0.1994 0.2485 0.2460 0.2884 0.6005
kq5_pq1 0.0000 0.1635 0.2415 0.2705 0.3524 0.8497
kq4_pq2 0.03426 0.22272 0.26551 0.26148 0.30128 0.44295
kq5_pq2 0.006593 0.188427 0.266522 0.291876 0.368071 0.741766
kq4_pq3 0.04319 0.23517 0.27286 0.26892 0.30810 0.42780
kq5_pq3 0.03062 0.21642 0.28876 0.31492 0.38445 0.79246
kq4_pq4 0.05577 0.23774 0.27860 0.27274 0.31351 0.43776
kq5_pq4 0.0720 0.2462 0.3203 0.3433 0.4202 0.8195
kq4_pq5 0.05769 0.21243 0.25622 0.25185 0.29671 0.43736
kq5_pq5 0.004251 0.285349 0.366499 0.383043 0.464278 0.847700
enrol 495 1557 2600 5279 5726 51333
price 3244 11282 26277 24913 34431 49570
grad 0.1379 0.4472 0.5630 0.5757 0.6921 0.9779
facsal 2660 6178 7228 7623 8545 19862
rej 0.0000 0.2344 0.3371 0.3622 0.4554 0.9431
25
C Analyse en composantes principales
C.1 Valeurs propres
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7 Dim.8 Dim.9
Variance 16.567 3.786 1.918 1.692 1.572 1.524 1.249 1.089 0.950
% of var. 43.598 9.963 5.047 4.454 4.138 4.011 3.287 2.866 2.500
Cumulative % of var. 43.598 53.561 58.608 63.062 67.200 71.211 74.498 77.364 79.864
Dim.10 Dim.11 Dim.12 Dim.13 Dim.14 Dim.15 Dim.16 Dim.17 Dim.18
Variance 0.818 0.762 0.727 0.685 0.669 0.594 0.449 0.407 0.374
% of var. 2.153 2.004 1.912 1.801 1.760 1.563 1.181 1.071 0.985
Cumulative % of var. 82.017 84.021 85.934 87.735 89.495 91.058 92.239 93.309 94.294
Dim.19 Dim.20 Dim.21 Dim.22 Dim.23 Dim.24 Dim.25 Dim.26 Dim.27
Variance 0.338 0.300 0.283 0.225 0.200 0.176 0.160 0.126 0.107
% of var. 0.890 0.791 0.744 0.591 0.528 0.464 0.421 0.331 0.282
Cumulative % of var. 95.185 95.976 96.720 97.311 97.838 98.303 98.723 99.054 99.336
Dim.28 Dim.29 Dim.30 Dim.31 Dim.32 Dim.33 Dim.34 Dim.35 Dim.36
Variance 0.083 0.052 0.040 0.036 0.016 0.012 0.008 0.005 0.000
% of var. 0.219 0.137 0.105 0.096 0.043 0.030 0.021 0.014 0.000
Cumulative % of var. 99.554 99.691 99.797 99.892 99.935 99.966 99.986 100.000 100.000
Dim.37 Dim.38
Variance 0.000 0.000
% of var. 0.000 0.000
Cumulative % of var. 100.000 100.000
26
Les variables ayant un cos2 supérieur à 0,7 pour le premier axe factoriel sont
surlignées en jaune pâle. Les variables ayant un cos2 supérieur à 0,5 pour le
deuxième axe factoriel sont surlignées en gris pâle. Le cos2 indique la qualité de
la représentation.
27
C.3 Projections des individus
On remarque une certaine variabilité dans la majorité des tiers. La Ivy Plus
et les non sélectifs privés lucratifs semblent plus denses. Il est clair que les tiers
sélectifs privés et publics sont assez hétérogènes vu le placement de leur moyenne
par rapport à leurs exemples.
28
Étiquette Tier coûts en $US Nb. obs.
utilisées
Ivy45 Ivy Plus 40 000 à 45 000 3
Ivy50 Ivy Plus 45 000 à 50 000 7
Elite15 Autres élites 10 000 à 15 000 1
Elite20 Autres élites 15 000 à 20 000 1
Elite45 Autres élites 40 000 à 45 000 7
Elite50 Autres élites 45 000 à 50 000 46
HSPub10 Très sélectif public 5 000 à 10 000 2
HSPub15 Très sélectif public 10 000 à 15 000 6
HSPub20 Très sélectif public 15 000 à 20 000 1
HSPri35 Très sélectif privé 30 000 à 35 000 1
HSPri40 Très sélectif privé 35 000 à 40 000 13
HSPri45 Très sélectif privé 40 000 à 45 000 23
HSPri50 Très sélectif privé 45 000 à 50 000 14
SPub5 Sélectif public 0 à 5 000 6
SPub10 Sélectif public 5 000 à 10 000 173
SPub15 Sélectif public 10 000 à 15 000 38
SPub20 Sélectif public 15 000 à 20 000 4
SPri10 Sélectif privé 5 000 à 10 000 1
SPri15 Sélectif privé 10 000 à 15 000 11
SPri20 Sélectif privé 15 000 à 20 000 35
SPri25 Sélectif privé 20 000 à 25 000 85
SPri30 Sélectif privé 25 000 à 30 000 130
SPri35 Sélectif privé 30 000 à 35 000 115
SPri40 Sélectif privé 35 000 à 40 000 60
SPri45 Sélectif privé 40 000 à 45 000 25
SPri50 Sélectif privé 45 000 à 50 000 2
NSPub5 Pas sélectif public 0 à 5 000 1
NSPub10 Pas sélectif public 5 000 à 10 000 3
NSPub15 Pas sélectif public 10 000 à 15 000 1
NSPri5 Pas sél. privé sans profit 0 à 5 000 1
NSPri15 Pas sél. privé sans profit 10 000 à 15 000 3
NSPri20 Pas sél. privé sans profit 15 000 à 20 000 9
NSPri25 Pas sél. privé sans profit 20 000 à 25 000 4
NSPri30 Pas sél. privé sans profit 25 000 à 30 000 2
NSPri35 Pas sél. privé sans profit 30 000 à 35 000 1
Profit15 Pas sél. privé avec profit 10 000 à 15 000 1
Profit20 Pas sél. privé avec profit 15 000 à 20 000 3
Profit25 Pas sél. privé avec profit 20 000 à 25 000 3
29
D Analyse discriminante
D.1 Modèle global
stepclass(data, tier, "lda", direction = "both", improvement = 0.01)
‘stepwise classification’, using 10-fold cross-validated correctness rate of method lda’.
842 observations of 38 variables in 9 classes; direction: both
stop criterion: improvement less than 1%.
correctness rate: 0.82894; in: "price"; variables (1): price
correctness rate: 0.85154; in: "k_top1pc"; variables (2): price, k_top1pc
correctness rate: 0.86459; in: "rej"; variables (3): price, k_top1pc, rej
30