Le Modele Logit CB

Mthodologie statistique
M 2016/01
Le modle Logit
Thorie et application
Cdric Afsa
Document de travail
Institut National de la Statistique et des tudes conomiques

INSTITUT NATIONAL DE LA STATISTIQUE ET DES TUDES CONOMIQUES
Srie des documents de travail Mthodologie Statistique
de la Direction de la Mthodologie et de la Coordination Statistique et Internationale
M 2016/01
Le modle Logit
Thorie et application
Cdric Afsa *
Ce document a bnfici des commentaires, corrections et remarques de Pauline Givord, Marine

Guillerm et Olivier Sautory, que je remercie tout particulirement.
Je reste responsable des erreurs qui subsisteraient.
* DEPP (Dpartement de lvaluation, de la Prospective et de la Performance)

Ministre de lducation Nationale, de l'Enseignement Suprieur et de la Recherche.
Direction de la mthodologie et de la coordination statistique et internationale -Dpartement des Mthodes Statistiques - Timbre L101
18, bd Adolphe Pinard - 75675 PARIS CEDEX - France -
Tl. : 33 (1) 41 17 66 33 - Fax : 33 (1) 41 17 66 33 - CEDEX - E-mail :-DG75-L001@insee,fr - Site Web Insee : http://www.insee.fr
Ces documents de travail ne refltent pas la position de lInsee et n'engagent que leurs auteurs.
Working papers do not reflect the position of INSEE but only their author's views.
Le modle Logit : Thorie et applications
Cdric Afsa *
Rsum
Le modle logit a une double nature. Dune part, cest un modle de rgression o la variable
dpendante est binaire. Dautre part, cest une mthode alternative lanalyse discriminante linaire.
Par ailleurs, le modle logit peut aussi tre considr comme un modle conomique de choix
discrets.
Lobjectif de ce document est double. Dabord, il passe en revue les caractristiques du modle et
cette occasion rappelle certaines notions de base comme la mthode destimation ou les tests
dhypothse. Ensuite, il est appliqu des donnes sur lducation, et un point particulier est fait sur la
manire de prsenter les rsultats.
Mots cls : Modle Logit ; rgression logistique ; variable dichotomique
Abstract
The logit model has a dual nature. On the one hand it refers to a regression model where the
dependent variable is binary. On the other hand it is an alternative to linear discriminant analysis.
Moreover logit model may be considered as a discrete choice economic model.
The aim of the document is two-fold. Firstly key features of the logit model are presented and on this
occasion basic notions such as estimation method or hypothesis testing are recalled. Secondly the
model is applied to data on education and in particular stresses on how to present results.
KeyWords : Logit model ; logistic regression ; dichotomous variable
* DEPP (Dpartement de l'Evaluation, de la Prospective et de la Performance)

[email protected]
Sommaire
Avant-propos 3
I Le modele Logit : un peu de theorie 5

I.1 La specification du modele : les differentes approches . . . . . . . . . 7
I.1.a Approche descriptive . . . . . . . . . . . . . . . . . . . . . 7
I.1.b Une application particuliere : le contraste logistique . . . . . 11
I.1.c Approche explicative . . . . . . . . . . . . . . . . . . . . . 13
I.1.d Comparaison des deux approches . . . . . . . . . . . . . . . . 16
I.1.e Une troisieme approche . . . . . . . . . . . . . . . . . . . . . 18
I.2 Les variables du modele . . . . . . . . . . . . . . . . . . . . . . . . . 21
I.2.a Les variables continues . . . . . . . . . . . . . . . . . . . . . . 21
I.2.b Les variables binaires . . . . . . . . . . . . . . . . . . . . . . 21
I.2.c Les variables polytomiques . . . . . . . . . . . . . . . . . . . 22
I.3 Estimation des parametres du modele . . . . . . . . . . . . . . . . . 25
I.3.a La methode du maximum de vraisemblance . . . . . . . . . . 25
I.3.b Les proprietes des valeurs estimees des parametres . . . . . . 27
I.4 Les indicateurs de qualite du modele estime . . . . . . . . . . . . . . 29
I.4.a Les indicateurs fondes sur la vraisemblance du modele . . . . 29
I.4.b Les indicateurs fondes sur les predictions du modele . . . . . 31
I.5 Les tests sur les parametres estimes : evaluation de leur significativite
statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
I.5.a Les parametres des variables continues ou binaires . . . . . . 33
I.5.b Les parametres des variables polytomiques . . . . . . . . . . 36
I.6 Les valeurs des parametres estimes : evaluation de leur significativite
pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
I.6.a Lodds ratio en epidemiologie . . . . . . . . . . . . . . . . . . 39
I.6.b Odds ratio et analyse multivariee . . . . . . . . . . . . . . . . 41
I.6.c Les effets marginaux . . . . . . . . . . . . . . . . . . . . . . . 43
I.6.d Significativite statistique des effets marginaux . . . . . . . . . 46
II Le modele Logit : application 49

II.1 Introduction : remarques generales . . . . . . . . . . . . . . . . . . . 51
II.1.a Choix et organisation des variables . . . . . . . . . . . . . . . 51
II.1.b Toutes choses egales par ailleurs, une expression a eviter . . . 52
II.1.c Presentation de lexemple dapplication . . . . . . . . . . . . 53
II.2 Premieres statistiques descriptives . . . . . . . . . . . . . . . . . . . 55
II.3 Specifications du modele et estimation . . . . . . . . . . . . . . . . . 59
1
II.3.a Introduction de la variable dage a lentree en sixieme . . . . 59
II.3.b Ajout de la distinction fille/garcon . . . . . . . . . . . . . . . 62
II.3.c Ajout du milieu social de leleve . . . . . . . . . . . . . . . . 63
II.3.d Ajout du niveau de leleve en 6eme . . . . . . . . . . . . . . . 68
II.3.e Ajout dindicatrices academiques . . . . . . . . . . . . . . . . 69
II.4 Calcul dun effet marginal . . . . . . . . . . . . . . . . . . . . . . . . 71
II.5 Bilan detape . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
II.6 Changement de perspective (I) Quest-ce qui distingue les eleves
sorientant en seconde generale ? . . . . . . . . . . . . . . . . . . . . 81
II.7 Changement de perspective (II) Quelle hierarchie des variables ? . 87
II.7.a Utilisation dun critere de prediction . . . . . . . . . . . . . . 87
II.7.b Utilisation dun critere dinformation . . . . . . . . . . . . . . 90
II.8 La question des ponderations . . . . . . . . . . . . . . . . . . . . . . 93
II.9 En guise de conclusion : petit guide de conduite dune etude . . . . . 95
Annexe : la macro SAS de calcul des effets marginaux 99
Index 105
2
Avant-propos
Supposons que lon sache distinguer, au sein dune population, deux categories
dindividus. Par exemple, il y a sur le marche du travail les personnes en emploi
et celles qui en recherchent un. Autre exemple : une partie des eleves etudie dans
des etablissements publics, lautre est scolarisee dans le prive. Ou encore : parmi les
candidats a un examen, les uns echouent, les autres reussissent. On part du principe,
(quasiment) toujours verifie, que les individus des deux categories ne se ressemblent
pas. On aimerait alors repondre a deux questions : sur quelles caracteristiques se
differencient-ils ? et lesquelles jouent les premiers roles en la matiere ?
Le modele logit 1 est tout a fait adapte a cette problematique. Outre quil permet
didentifier les caracteristiques distinguant les individus des deux groupes, il mesure
aussi linfluence de chacune dentre elles dans cette distinction.
Pour illustrer le propos, interessons-nous a la question de lacces a lemploi sur le
marche du travail. On cherche a connatre les facteurs qui font que certains individus
ont plus de difficultes que dautres a trouver un emploi. On distingue donc ceux qui
sont en emploi et ceux qui en recherchent un. On souhaite plus precisement etudier
le role joue en la matiere par le critere de nationalite. On sait que les travailleurs
etrangers ont davantage de problemes demploi que leurs homologues francais. Mais
on sait aussi que, dune maniere generale, ces travailleurs ont un niveau de formation
moins eleve que les francais, donc une moindre qualification, ce qui les handicape
sur le marche du travail. On peut des lors se demander si les problemes dinsertion
dans lemploi quils rencontrent ne sont pas dus au moins en partie a la difference
de qualification. Sil ny a pas la ce quon appelle un effet de structure : le fait que
les etrangers sinserent plus difficilement peut sexpliquer en partie par la difference
structurelle des deux sous-populations en niveaux de qualification. On parle aussi
deffet de composition.
Pour le savoir, on peut conduire lexercice consistant a se placer dans la situation
fictive ou les etrangers seraient autant formes que les Francais. La nationalite
aurait-elle encore un role dans lacces a lemploi ? Si oui, reste-t-il important ou non ?
Le modele logit permet precisement de faire lexercice, en tenant compte a la fois
de la nationalite et du niveau de formation, mesure par exemple par le diplome.
On peut approfondir lanalyse et introduire dautres caracteristiques comme le sexe,
lage, le lieu de residence, . . . , cest-a-dire creer une situation fictive ou les Francais
1. Sans autre precision, il sagit du modele logit dichotomique, qui modelise lappartenance
a une categorie parmi deux possibles. A partir de trois categories possibles (par exemple inac-
tif/chomeur/en emploi), on parle de modele logit polytomique.
3
et les etrangers auraient aussi la meme pyramide des ages, la meme structure par
sexe, seraient repartis pareillement sur le territoire national, . . . , puis regarder si les
situations vis-a-vis de lemploi seraient encore differentes.
Bien que le modele logit soit aujourdhui largement utilise, il reste paradoxale-
ment assez meconnu. On ignore souvent quil peut servir plusieurs finalites. Selon
les situations rencontrees, on lutilisera comme outil a visee ouvertement descriptive
(analyse discriminante), ou bien comme modele explicatif, sans parler de son apport
a la modelisation economique des comportements individuels. Dans ce contexte et

dans certains cas, il faut rester tres vigilant 2 lorsquon interprete et commente ses
resultats. Par exemple, il arrive trop souvent que des expressions telles que toutes
choses egales par ailleurs ou effet propre (dune caracteristique) soient utilisees
a mauvais escient. Cest un point sur lequel on insistera a plusieurs reprises.
Le document se partage en deux grandes parties. La premiere presente, avec un
formalisme minimal mais necessaire, le logit dichotomique : sa specification, la me-
thode destimation de ses parametres, les indicateurs de qualite, les tests sur les
parametres, levaluation de limportance de chaque facteur. On en profitera pour
rappeler, dans des termes les plus simples possibles, certaines notions fondamentales
(la definition dune probabilite conditionnelle et le sens quon doit lui attribuer, le
principe de lestimation par le maximum de vraisemblance, la demarche a suivre
pour tester une hypothese, . . . ).
La seconde partie, plus pratique, est consacree au traitement dun exemple. Les
principales etapes sont passees en revue, notamment la selection et la preparation des
variables, lestimation des parametres, la presentation des resultats. Les programmes
SAS procedures et macros ecrites specifiquement sont presentes in extenso. Dans
la mesure du possible, on fournira un certain nombre de conseils afin que les resultats
puissent etre compris par un lecteur ne connaissant pas a priori cet outil danalyse.
Il nest pas necessaire de lire integralement la premiere partie du document avant

de passer a lexemple dapplication. On peut en faire une lecture selective, puis se
reporter aux pages 49 et suivantes, quitte a revenir, grace aux renvois regulierement
faits, a la partie I du document pour approfondir certains points.
2. Le panneau
signale des aspects delicats du modele et de son utilisation, quil convient de
traiter avec soin.
4
I. Le modele Logit : un peu de theorie
5
6
I.1 La specification du modele : les differentes approches
I.1.a Approche descriptive
On observe un echantillon dindividus dont on connat K de leurs caracteristiques,
representees par les K variables x1 , x2 , ..., xK . .
On suppose que les individus sont repartis en 2 categories C0 et C1 . Sur le mar-
che du travail par exemple, certains travaillent (font partie de la categorie C1 des
personnes en emploi), dautres pas (categorie C0 des personnes sans emploi). Autre
exemple, une partie des eleves de terminale a reussi les epreuves du baccalaureat (ils
appartiennent a la categorie C1 des bacheliers), lautre a echoue (categorie C0 des
non bacheliers).
On souhaite analyser et quantifier le lien existant entre les caracteristiques indi-
viduelles xk et lappartenance a C0 ou C1 . Il faut un outil un modele specifique
pour pouvoir le faire. Lexemple suivant tres simplifie va le montrer.
On a conduit une enquete aupres dune centaine de personnes pour analyser le lien
entre lage et lactivite sur le marche du travail. On sinteresse plus precisement aux
individus ages de 45 ans a 75 ans. On leur a demande de preciser sils etaient actifs
ou inactifs. La figure ci-dessous represente les reponses individuelles a lenquete.
inactif
actif
45 ans 75 ans
Chaque point figure un individu. Sil a repondu etre actif, il se situe sur la droite
horizontale actif. Dans le cas contraire, il est sur la droite inactif. Les individus
proches de 45 ans sont tous actifs, ceux proches de 75 ans sont tous inactifs. Il y a un
lien positif entre lage et linactivite : le nombre de points sur la droite inactif (resp.
actif) augmente (resp. diminue) avec lage. On sen doutait. Plus interessante est
la question de savoir si ce lien est faible, moyen, fort, . . . , en deux mots la question
de sa quantification : de combien augmente linactivite quand on vieillit dun an ?
Poser ainsi la question suggere lutilisation dun outil comme la regression lineaire :
on explique linactivite par lage, et la valeur estimee du parametre associe a
lage donne la force du lien. On procede donc comme suit. On cree la variable a
expliquer , nommee par exemple inactif, qui vaut 1 si la personne a repondu etre
inactive au moment de lenquete (son inactivite est de 100%), et vaut 0 si elle se
7
dit active (son inactivite est de 0%) 3 . La figure suivante represente la droite de
regression, celle qui passe le plus pres possible de tous les points .
inactif
actif
45 ans 75 ans
Cette maniere de faire souleve au moins deux problemes. Le premier est quon
ne sait pas ce que represente chaque point de la droite, etant donne que la variable
a expliquer prend deux valeurs et deux seulement. De plus, la valeur predite
de linactivite (qui se situe sur la droite de regression) est negative pour des ages
proches de 45 ans. Il faut donc trouver une autre methode.
Au lieu de sinteresser au statut binaire inactif/actif, on se centre sur la probabilite
detre inactif. Il sagit la dune variable susceptible de varier continument entre 0 et
1. On modelise alors le lien entre la probabilite detre inactif et lage, et non entre
le statut et lage. Puisque cette probabilite doit etre comprise entre 0 et 1, son lien
avec lage ne peut etre represente par une droite, mais par une courbe respectant
cette contrainte. La figure suivante en est un exemple.
inactif
actif
45 ans 75 ans
Cela pose, il faudrait definir precisement la relation fonctionnelle entre lage et

linactivite de maniere a pouvoir calculer la probabilite detre inactif pour chaque
3. Ce type de modele, appele modele lineaire de probabilite, est parfois utilise lorsquil est legitime
de le faire.
8
age compris entre 45 et 75 ans. Pour ce faire, on a besoin dun cadre formel general,
expose ci-dessous.
On part donc du principe que la population que lon etudie est scindee en deux
categories, C0 et C1 (dans lexemple precedent, C0 contient les actifs et C1 les in-
actifs). On dispose dun echantillon de n individus indices par i, representatifs de
cette population. On connat K caracteristiques de ces individus, mesurees par les
variables x1 , x2 , . . . , xK . Pour lindividu i, les K variables prennent les valeurs x1i ,
x2i , . . . , xKi .
On pose que la probabilite P que lindividu i (compte tenu de ses caracteristiques
x1i , x2i , ..., xKi ) appartienne a C1 ou a C0 est une fonction des x1i , x2i , ..., xKi . On
precise un peu la relation fonctionnelle en supposant que les probabilites dappar-
tenance dependent dune combinaison lineaire des caracteristiques. Formellement,
cela secrit :
(
P (i C0 |x1i , . . . , xKi ) = G(00 + 10 x1i + + K0 xKi )
(1)
P (i C1 |x1i , . . . , xKi ) = G(01 + 11 x1i + + K1 xKi )
ou G est une fonction qui sera definie ulterieurement et ou les 00 , 10 , . . ., K0 et

les 01 , 11 , . . ., K1 sont les coefficients des combinaisons lineaires. Ce sont les para-
metres du modele. On notera lajout des deux parametres 00 et 01 , qui sont appeles
parfois parametres du terme constant . Ils sont associes a la variable x0 valant
systematiquement 1. A ce stade, on a donc deux series de parametres kj :
la serie 00 , 10 , . . ., K
0 associee a la categorie C (j = 0) ;
0
la serie 01 , 11 , . . ., K1 associee a la categorie C1 (j = 1).
On verra plus loin que ces deux series peuvent se condenser en une seule.
Avant de poursuivre, une remarque sur les notations. La combinaison lineaire des
caracteristiques peut secrire de maniere synthetique, pour j = 0 ou j = 1 :
j
0
j
j j j
1 j
0 + 1 x1i + + K xKi = 1 x1i . . . xKi .
= xi , (2)
.
.
Kj
ou xi = ( 1 x1i . . . xKi ) est le vecteur-ligne des caracteristiques de lindividu

i et j le vecteur-colonne 4 des parametres du modele. On peut alors reecrire (1) de
maniere condensee :
P (i Cj |xi ) = G(xi j ) pour j = 0, 1.
4. Il est preferable de representer le vecteur des caracteristiques individuelles par un vecteur-

ligne et celui des parametres par un vecteur-colonne. On en verra lavantage lors de lecriture des
programmes SAS.
9
Quelle fonction choisir pour G ? P (i C0 |xi ) et P (i C1 |xi ) etant des probabili-
tes, on doit avoir :
(
0 < P (i C0 |xi ) < 1 et 0 < P (i C1 |xi ) < 1
(3)
P (i C0 |xi ) + P (i C1 |xi ) = 1
j
Poser G(xi j ) = exi assurerait P (i Cj |xi ) > 0. Mais les autres contraintes ne
seraient pas verifiees. Pour quelles le soient, il suffit de normer les deux quantites
0 1
exi et exi , cest-a-dire les diviser par leur somme. On obtient alors :
0 1
e xi e xi
P (i C0 |xi ) = et P (i C1 |xi ) =
e xi 0 + e x i 1 e xi 0 + e x i 1
Cest cette forme fonctionnelle qui donne au modele son nom de logit.
On peut simplifier en remarquant quune seule probabilite suffit pour le represen-
ter, puisque la somme de P (i C0 |xi ) et de P (i C1 |xi ) est egale a 1. Lune se
deduit de lautre. On se centre sur la probabilite dappartenir a C1 . Elle secrit :
1
e xi 1
P (i C1 |xi ) = 0 1 =
e xi + e x i 1 + exi ( 0 1 )
Finalement, si on pose = 1 0 , on a :
1
P (i C1 |xi ) = (4)
1 + exi
Dans le cas dune seule variable x1 , on peut representer la courbe, donnee par
lequation (4), sur un plan, avec en ordonnee la probabilite dappartenir a la categorie
C1 et en abscisse les valeurs prises par la variable x1 . Cest ce qui a ete fait page 8,
ou la categorie C1 est celle des inactifs et la variable x1 est lage de la personne
enquetee 5 .
Lequation du modele secrit plus frequemment avec la variable categorielle y

definie par : yi = 1 si i C1 et yi = 0 si i C0 . La formulation (4) devient :
1
P (yi = 1|xi ) = (5)
1 + exi
Cest elle qui est tres generalement utilisee. Dans cette expression, les valeurs prises
par les variables yi et xi sont connues puisquobservees sur lechantillon detude. En
revanche, les valeurs des parametres (0 , . . . , K ) = sont inconnues. On verra par
la suite (pages 25 et suivantes) comment les obtenir.
Une remarque sur les hypotheses du modele. Celle imposant que la probabilite
dappartenance soit fonction dune combinaison lineaire des caracteristiques hy-
pothese dite dadditivite nest pas innocente. Cest elle qui permet devaluer le
5. Tres precisement, la courbe a ete dessinee avec les valeurs 0 = 19.4 et 1 = 0.33.
10
role de chaque variable xk dans lappartenance a lune ou lautre categorie, inde-
pendamment des autres variables. Pour voir ce que cela signifie, reprenons lexemple
du marche du travail, ou sont distinguees les personnes en emploi (j = 1) et celles
sans emploi (j = 0). Les caracteristiques individuelles sont le sexe x1 , le niveau de
formation x2 , lage x3 et la nationalite x4 . La variable x4 vaut 0 ou 1 selon que
lindividu est de nationalite francaise ou etrangere. Fixons les trois autres variables
a des valeurs quelconques, par exemple celles les plus frequemment rencontrees dans
lechantillon. Si on connat les valeurs des parametres, on peut alors calculer, grace a
la formule (5), les deux probabilites dappartenance a la categorie C1 correspondant
aux deux valeurs possibles de x4 . La difference entre ces deux probabilites mesure le
role joue par le critere de nationalite dans lappartenance a C1 , a age, sexe et niveau
de formation fixes ou constants.
Ainsi, lhypothese dadditivite permet devaluer limpact, sur la probabilite dap-
partenir a C1 , de la variation de chaque variable xk , les autres etant maintenues
constantes.
Autre remarque : il faut ecrire P (yi = 1|xi ) et non simplement P (yi = 1). Lecri-
ture adoptee rappelle que la quantite P (yi = 1|xi ) depend bien de x, comme le
montre le membre de droite de lexpression (5). La quantite est une probabilite condi-
tionnelle, au sens ou elle mesure la probabilite que yi soit egal a 1 conditionnellement
aux (i.e. compte tenu des) variables x1 , x2 , . . . , xK introduites dans le modele. Si
on ajoute une variable xK+1 a la liste, alors la probabilite change. Il sagit la dun
point tres important, sur lequel on aura loccasion de revenir.
I.1.b Une application particuliere : le contraste logistique

La courbe, comme celle de la page 8, derivee de lequation (5) avec une seule
variable x1 est donc bien adaptee a la representation dune probabilite et de sa va-
riation selon differentes valeurs de la variable x1 . Cette forme fonctionnelle permet de
resoudre le probleme de la comparabilite devolutions temporelles de pourcentages,
probleme qui se pose dans les termes suivants.
Supposons que lon suive, sur longue periode et dans une population de taille
constante, la diffusion dun produit nouveau en la mesurant par levolution du taux
dequipement de la population en ce produit. Passer de 5% a 10% correspond a une
augmentation de 5 points du taux. On a toutefois le sentiment que cette evolution
est plus importante que celle qui fait passer de 50% a 55% ou lecart est egalement de
5 points. En effet, dans le premier cas le nombre de personnes equipees est multiplie
par 2, alors que dans le second cas laugmentation relative est de 10%. Les deux
progressions sont donc jugees equivalentes si on raisonne en ecart absolu (cest-
a-dire avec une echelle additive), mais si on raisonne en ecart relatif (cest-a-dire
avec une echelle mutiplicative), la progression de 5% a 10% est jugee beaucoup plus
importante. Que conclure ? Lechelle logistique, qui est adaptee a cette question de
diffusion dune innovation 6 , permet de trancher.
6. Lorigine du modele logit remonte au XIXeme siecle, lorsque Pierre-Francois Verhulst publia
11
Soit P la proportion des personnes possedant un bien donne (ou toute autre
caracteristique, comme un diplome). Cette proportion evolue avec le temps t : P =
P (t). Dans le cas dun nouveau bien, elle est nulle juste avant sa mise sur le marche,
puis augmente, dabord faiblement, des que le bien est disponible. Soit y la variable
indiquant si lindividu dispose du bien (y = 1) ou non (y = 0). La probabilite, pour
une personne quelconque, de posseder le bien a linstant t nest rien dautre que la
proportion P (t) : P (y = 1|t) = P (t).
On fait dependre la proportion P du temps t selon la relation :
1
P = P (t) = (6)
1 + et
On retrouve lequation (5) du modele logit avec une seule variable x, qui est ici le
temps t. La relation (6) permet dexprimer t en fonction de P . On a en effet, tous
calculs faits :
P
t = ln (7)
1P
ou ln est le logarithme neperien.
68%
50%
10%
5%
t t t
La figure ci-dessus represente levolution temporelle de P selon la relation (6).

Apres la mise sur le marche du nouveau bien, la proportion crot dabord tres mo-
derement, puis plus rapidement ensuite, pour de nouveau augmenter lentement au
moment ou le marche arrive a saturation (i.e. la grande majorite des personnes sont
equipees). Il faut une duree t pour que le taux dequipement passe de 5% a 10%.
Lorsque la moitie des personnes possede le bien (P = 50%), la diffusion a dautres
est plus rapide si bien que sur la meme duree t, la proportion augmente davantage,
de 18 points pour etre precis. De ce point de vue, laugmentation de 50% a 68% est
equivalente a laugmentation de 5% a 10%.
Dune maniere generale, soit P1 (resp. P2 ) la valeur de P atteinte a linstant t1
(resp. t2 ). Lintervalle de temps necessaire pour que la proportion P passe de P1 a
en 1838 un article qui presente la fonction logistique comme outil de description de la croissance de
populations (voir J.S. Cramer (2002), The origins and development of the logit model , Tinbergen
Institute Discussion Paper, no 199/4).
12
P2 est, en vertu de la relation (7), egale a :
P2 P1
t2 t1 = ln ln
1 P2 1 P1
Cette difference est appelee contraste logistique
Un exemple dapplication. Le taux de bacheliers dont les parents sont cadres ou

exercent une profession intermediaire est passe de 63% dans la generation 64-68 a
84% dans la generation 84-88 7 . Sur la meme periode, le taux concernant les enfants
douvriers ou demployes est passe de 22% a 55%.
Le contraste logistique vaut 1, 13 8 pour les enfants de cadres. Pour les enfants
douvriers, il est plus eleve, car il vaut 1, 47 9 . Il faut ainsi plus de temps pour passer
de 22% a 55% que pour passer de 63% a 84%. Or levolution du taux de bacheliers
pour les enfants de cadres et pour les enfants douvriers a eu lieu sur le meme laps
de temps, cest-a-dire sur les 20 annees qui separent les generations 64-68 et 84-88.
En consequence, la diffusion du baccalaureat chez les enfants de familles ouvrieres
sest faite a un rythme accelere, comparativement a celle des enfants de cadres. Les
inegalites sociales devant le baccalaureat ont donc diminue sur la periode consideree.
I.1.c Approche explicative

Lapproche presentee en section I.1.a et quon a qualifiee de descriptive , est
avant tout pragmatique. La forme fonctionnelle de G est definie de maniere ad hoc,
pour respecter les proprietes (3) des probabilites P (i C0 |xi ) et P (i C1 |xi ). La
seconde approche, dite ici explicative , a une nature un peu plus theorique.
Pour lintroduire, on prend lexemple de la reussite a un examen (baccalaureat
ou autre). A lissue des epreuves, on peut distinguer deux categories deleves : les
admis et les recales. Cette maniere de presenter les choses parler de categories
deleves releve de lapproche descriptive , vue precedemment. Lapproche plus
explicative de la question consiste a la traiter de la maniere suivante.
La reussite ou lechec a lexamen sont supposes reveler le niveau de leleve. Notons-
le y . On ne le connat pas. On sait seulement que le candidat a reussi ou a echoue.
Notons y la variable binaire indiquant lissue de lexamen : elle vaut 1 en cas de
reussite et 0 en cas dechec. On etablit le lien suivant entre y et y : dire quun eleve
passe son examen avec succes, cest dire que son niveau est superieur a un certain
seuil s0 . Par consequent, le lien entre les deux variables se formalise ainsi :
(
yi = 1 yi > s0
yi = 0 yi < s0
On dispose par ailleurs de plusieurs informations sur les caracteristiques socio-
7. Voir Letat de lecole, DEPP, edition 2012, page 69

8. Cest-a-dire : ln(84/16) ln(63/37) = 1, 658 0.532 = 1, 126
9. Cest-a-dire : ln(55/45) ln(22/78) = 0, 201 (1, 266) = 1, 467
13
demographiques des eleves : on connat les valeurs prises par un ensemble de variables
x1 , x2 , ..., xK pour chaque eleve.
La question centrale est ici de savoir si les caracteristiques de ces eleves influent sur
leur niveau, si elles sont susceptibles de lexpliquer et dans quelle mesure. Formalisons
tout cela avec le modele le plus simple traduisant linfluence des variables xk (pour
k = 1, . . . , K) sur y , celui ou les effets des variables explicatives x1 , x2 , ..., xK sur le
niveau de competences sont supposes etre additifs. Ce modele secrit :
yi = 0 + 1 x1i + . . . + k xki + . . . + K xKi + ui (8)
Dans lequation (8), le parametre k represente leffet de la variable xk sur le niveau

y . On remarquera lajout du terme residuel u. Il contient notamment toutes les
informations, toutes les variables qui peuvent influer sur le niveau de leleve mais qui
nous restent inconnues car nous ne les observons pas. Certaines sont dites inobservees
lorsquelles ne figurent pas dans la source de donnees mais pourraient y etre, dautres
restent inobservables, car en pratique elles le sont (par exemple, letat de stress de
leleve le jour de lexamen).
Lequation (8) ressemble a une regression lineaire, a ceci pres que la variable
dependante y est latente, cest-a-dire quelle nest pas observee. Ceci justifie lap-
pellation modele a variable latente parfois donnee a (8). Puisquon ne connat
pas y , on ne peut pas estimer comme on pourrait le faire avec un modele de
regression lineaire. Il faut donc aller plus loin dans la specification du modele.
On pose alors deux hypotheses supplementaires. La premiere consiste a considerer
u comme variable aleatoire et a supposer que sa distribution est symetrique. On
note G sa fonction de repartition. La seconde hypothese, plus contraignante comme
on le verra, est lindependance de la variable u et des variables xk . Cela secrit
formellement :
u xk k = 1, . . . , K. (9)
Cette hypothese implique que la probabilite conditionnelle de u sachant x, notee

P (u|x), est independante de x.
Pour bien comprendre cette propriete dindependance, on peut se representer la
probabilite conditionnelle de u sachant x de la maniere suivante. On fixe les valeurs
des K variables composant le vecteur x et on se restreint au sous-ensemble defini
par les individus dont les K caracteristiques ont les valeurs quon vient de fixer. Soit
E(x) ce sous-ensemble. La probabilite de u conditionnelle a cette valeur particuliere
du vecteur x represente alors la maniere dont varie u dans le sous-ensemble E(x).
Prenons maintenant differentes valeurs de x. Il leur correspond autant de sous-
ensembles E(x). Il ny a pas de raison de penser que u varie de la meme maniere dans
les differents sous-ensembles E(x). Autrement dit, la probabilite de u conditionnelle
a x, cest-a-dire la maniere dont u varie dans E(x), depend de x. Sauf dans le cas ou
u et x sont independants : la variable u varie alors de la meme maniere dans tous
14
les sous-ensembles E(x). En dautres termes, la probabilite P (u|x) ne depend pas de
x, elle est egale a P (u). On va utiliser ce resultat un peu plus tard.
On poursuit donc la specification du modele. A defaut dobserver y , on se re-
porte sur la variable y qui, elle, est observee. On sinteresse alors aux frequences des
reussites (y = 1) et des echecs (y = 0) pour differentes valeurs de x et on regarde
si ces frequences varient sensiblement selon x. On est ainsi amene a examiner les
probabilites P (y = 1|x) et P (y = 0|x). On a :
P (y = 1|x) = P (y > s0 |x) = P (0 s0 + 1 x1 + . . . + K xK + u > 0|x)

= P (0 + 1 x1 + . . . + K xK + u > 0|x),
avec 0 = 0 s0 10 . En utilisant la notation (2) de la section precedente, la derniere

expression secrit de maniere plus condensee : P (x + u > 0|x). Il vient alors :
P (y = 1|x) = P (x + u > 0|x) = P (u < x|x) = P (u < x)
La derniere egalite provient de lindependance de u et de x, cest-a-dire du fait que

la probabilite P (u|x) ne depend pas de x, ce qui permet de supprimer le condition-
nement par x, comme on la vu plus haut. On poursuit :
P (y = 1|x) = P (u < x) = P (u < x)
puisque la loi de u est supposee etre symetrique. Finalement :
P (y = 1|x) = G(x) (10)
ou G est la fonction de repartition de la loi de u 11 .

Il reste a definir la fonction G, cest-a-dire a choisir la loi de probabilite de u. Il y
a deux possibilites. La premiere est la loi logistique. Sa particularite est quil ny a
pas de representation analytique directe de sa fonction de densite, cest-a-dire quon
ne peut pas ecrire de formule representant a priori la probabilite P (u). En revanche,
on sait ecrire sa fonction de repartition. Elle est egale a G(a) = 1+e1a . Dans ces
conditions, (10) devient :
1
P (y = 1|x) = (11)
1 + ex
On retrouve lexpression (5) du modele logit. Notons ici que le modele est parfois
appele regression logistique. Cela provient du fait que (11) est derivee du modele
de regression (8), qui est a proprement parler une regression lineaire a residus logis-
tiques.
10. Cette egalite traduit le fait quon ne peut pas identifier le seuil minimal s0 et donc en estimer
le niveau.
11. La valeur que prend au point a la fonction de repartition de la loi de u est, rappelons-le, la
probabilite que u soit inferieure a a.
15
La seconde possibilite est de faire suivre a u la loi normale centree reduite, dont
la densite, traditionnellement notee (u), secrit analytiquement :
1 u2
(u) = exp[ ]
2 2
La fonction de repartition est notee (a), dont on ne connat lexpression que sous
la forme dune integrale. Lexpression (10) se reecrit alors :
P (y = 1|x) = (x)
Il sagit du modele probit.
I.1.d Comparaison des deux approches

Parler dapproche descriptive est dautant plus justifie quil existe un lien
etroit entre le modele logit et lanalyse discriminante. Cette technique, rappelons-le,
vise a decrire puis predire, a partir des valeurs prises par plusieurs variables dites
predictives, lappartenance dun ensemble dindividus a des groupes predefinis. Par
exemple, dans le domaine medical, on peut detecter les groupes a hauts risques
cardiaques, cest-a-dire predire lappartenance de patients a ces groupes a partir de
leur poids, leur mode dalimentation, leurs antecedents familiaux, leurs conduites a
risque (consommation de tabac, dalcool, . . . ).
Ce lien entre modele logit et analyse discriminante a ete formellement etabli il y a
plusieurs decennies 12 . Sous certaines conditions en particulier sur les variables x 13 ,
on montre que lanalyse discriminante (lineaire) est un cas particulier du modele
logit.
La seconde approche, qualifiee d explicative , est tres differente. Elle sappa-
rente aux analyses causales, qui cherchent a etablir un lien de cause a effet entre
la variable explicative principale, cest-a-dire la variable xk que lon privilegie dans
lanalyse, et la variable dite dinteret (ici, la variable binaire a expliquer). Le modele
de base pour cette approche est (8). Leffet de xk sur y est mesure par le parametre
k . Le probleme pose par cette approche est que dans bien des cas il est difficile
destimer correctement leffet causal de la variable principale xk . Cela se produit
notamment lorsque la propriete (9) dindependance du residu u et de xk nest pas
satisfaite.
En guise dillustration, reprenons lexemple de la reussite a un examen comme
variable revelatrice du niveau de leleve. On cherche a lexpliquer par une relation
12. Parmi les premiers travaux en la matiere, on citera G.W. Ladd, Linear Probability Functions
and Discriminant Functions , Econometrica, 1966, ou encore D. McFadden, A Comment on
Discriminant Analysis versus Logit Analysis , Annals of Economic and Social Measurement, 1976.
13. Pour etre precis, les valeurs effectivement prises par les variables x dans chacun des deux
groupes doivent pouvoir etre considerees comme des valeurs tirees dans des lois normales ayant la
meme matrice de variance-covariance. Voir a ce sujet O. Sautory et C. Vong, Une etude com-
parative des methodes de discrimination et de regression logistique , Insee Methodes, no 46-47-48,
1995.
16
du type (8). Supposons que la variable x1 indique si leleve etudie dans un etablis-
sement public (x1 = 0) ou dans un etablissement prive (x1 = 1). On sy interesse
particulierement, car on aimerait connatre leffet du secteur (public/prive) sur le
niveau de leleve, effet mesure par le parametre 1 . Si on lestime par le modele logit
(11), on risque fort de se tromper et de recuperer une valeur du parametre qui ne
correspond pas au vrai effet causal de x1 sur y . Car les eleves qui frequentent les
etablissements prives ne sont pas comme tous les autres. Ils viennent plus souvent
de familles aisees, pour qui le recours au prive fait partie dune strategie visant la
meilleure reussite possible de lenfant. Ces eleves ont pu aussi etre selectionnes sur
leurs resultats scolaires avant dentrer dans letablissement. Ces criteres distinctifs
ont par ailleurs une influence determinante dans les apprentissages et, par voie de
consequence, dans la reussite a lexamen. Les donnees les mesurant lattitude des
parents, les competences ex ante de leleve sont difficiles a collecter, si bien que ces
informations, en regle tres generale, ne sont pas observees et font partie du residu
u. Dans ce cas, elles tirent a la hausse la valeur moyenne du residu calculee sur la
sous-population des eleves frequentant les etablissements prives (i.e. E(u|x1 = 1)),
par rapport a celle calculee sur les eleves du public (i.e. E(u|x1 = 0)). On a donc :
E(u|x1 = 1) > E(u|x1 = 0). En consequence, la probabilite conditionnelle de u
sachant x1 (voir la section I.1.a supra) depend de x1 puisque les valeurs moyennes
de u pour x1 = 0 et x1 = 1 sont differentes. La propriete (9) nest pas satisfaite.
On dit dans ce cas que la variable x1 est endogene. On ne peut donc pas passer de
lexpression de base (8) du modele a sa formulation logistique (11).
Que se passe-t-il si on estime 1 comme parametre dun logit en labsence dinfor-
mations telles que la strategie parentale ou les resultats anterieurs de leleve, main-
tenant implicitement lhypothese dindependance entre le residu u de lexpression
(8) et la variable x1 ? Pour le voir, on repart du modele :
yi = 0 + 1 x1i + x(K1) i (K1) + ui (12)
ou x1 est la variable de secteur, x(K1) les autres variables du modele et (K1) leurs
parametres associes. On suppose donc quil manque dans x(K1) les variables comme
la strategie parentale ou le niveau de leleve. Estimer 1 avec la specification (12)
suppose implicitement que u est independant de x1 . Ceci exclut que les variables
manquantes soient comprises dans le residu (sinon il y aurait un lien entre u et x1 ).
En consequence, elles sont englobees dans la variable x1 (puisquelles ne figurent pas
dans x(K1) ). Dans ces conditions, la valeur de 1 estimee par (12) capte a la fois
les effets positifs des deux variables manquantes sur y , et leffet net du secteur
prive (x1 = 1) sur y . En dautres termes, le parametre 1 ainsi estime surestime
leffet propre du prive sur y , appele aussi effet causal .
Il faut donc redoubler de prudence lorsquon commente les resultats dun modele
logit explicatif , ne pas parler d effet pur dune variable explicative lorsquelle
est presumee etre endogene. La formulation toutes choses egales par ailleurs nest
17
guere plus satisfaisante. On y reviendra dans la seconde partie du document.
I.1.e Une troisieme approche

Outre ces deux approches ( descriptive et explicative ), il faut en mentionner
une troisieme, meme si elle ne sera pas traitee dans la suite du document. Elle est
fondee sur la theorie economique standard des comportements individuels.
Supposons que lindividu i ait a choisir entre deux options possibles, notees 0
et 1. Sa decision sappuie sur le modele sous-jacent suivant, appele modele dutilite
stochastique additive (en anglais : additive random utility model ARUM) : lutilite
Uji quil retire (ou retirerait) de loption j, ou j peut prendre la valeur 0 ou 1, est la
somme dune composante deterministe Vji et dune composante aleatoire uji :
Uji = Vji + uji
La premiere est nommee ainsi car elle est entierement determinee ou expliquee par
un ensemble de caracteristiques individuelles observees et notees xi : Vji = Vj (xi ).
La forme generalement retenue de la fonction Vj (x) est lineaire en x : Vj (xi ) = xi j ,
en utilisant la notation condensee (2) supra. La seconde composante rassemble les
variables inobservees et inobservables qui peuvent jouer sur la decision de lagent i.
Elle est supposee varier de maniere aleatoire. En resume, lutilite que i retire(rait)
de loption j secrit :
Uji = xi j + uji (13)
La regle de decision est alors la suivante : lindividu choisit une des deux options
si lutilite quil en retire est superieure a lutilite attendue de lautre option. Si y est
la variable binaire reperant loption choisie (i.e. yi = 0 si lindividu i a choisi loption
0, et yi = 1 si i a choisi 1), alors :
(
yi = 0 U0i > U1i
(14)
yi = 1 U1i > U0i
En introduisant les caracteristiques observees x et en remplacant lutilite par son

expression (13), on a :
P (yi = 1|x) = P (V1 (xi ) + u1i > V0 (xi ) + u0i )

= P (u0i u1i < V1 (xi ) V0 (xi ))
= P (u0i u1i < xi ( 1 0 ))
= P (u0i u1i < xi )
ou = 1 0 . Finalement :
P (yi = 1|x) = G(xi ) (15)
18
ou G est la fonction de repartition de la loi u0 u1 . On montre que si u0 et u1
suivent la loi dite type I extreme-value ou loi de Gumbel, dont la fonction de
densite secrit f (u) = eu exp[eu ], alors on retrouve lexpression du modele logit
deja rencontree :
1
G(xi ) =
1 + exi
Ce cadre theorique nest pas toujours pertinent, loin sen faut. Par exemple, cela
na pas de sens de traiter ainsi la reussite a un examen, car le candidat ne choisit pas
dechouer ! A priori, lutilite U1i est toujours superieure a U0i . En revanche, il est
surtout adapte aux cas ou les deux options entre lesquelles lindividu doit trancher
ont elles-memes des caracteristiques qui font partie des criteres de decision. Le choix
dun mode de transport en est lexemple-type. Supposons que lindividu i hesite entre
deux moyens de transport pour se rendre dans une ville eloignee de son domicile : le
train dun cote, lavion de lautre. Pour arbitrer, il tiendra compte notamment des
prix et des temps totaux du trajet, pour le train et pour lavion.
Ce cas ou des caracteristiques des options entrent dans les criteres de decision
se formalise de la maniere suivante. Soit zji , pour j = 0 ou 1, ces caracteristiques
pour lindividu i. Il sagit par exemple de ce que lui coutera(it) chacun des modes
de transport, les temps de trajet respectifs quil connatra(it). En supposant quelles
agissent de maniere additive sur lutilite, lexpression (13) devient :
Uji = xi j + zji + uji (16)
En appliquant toujours la meme regle de decision (14), la probabilite de prendre

loption 1 secrit maintenant :
1
P (yi = 1|xi , z0i , z1i ) = G[xi ( 1 0 ) + (z1i z0i )] =
1 + exi (z1i z0i )
Formalise ainsi, le modele, parfois appele modele logit conditionnel selon la deno-
mination que lui a donne McFadden (conditional logit model ), est passablement
different du modele logit represente par les expressions (5) ou (11). Il contient en
effet, en plus des caracteristiques individuelles x, des variables les zj qui varient
avec loption proposee. De plus, et surtout, les zj sont les variables du modele a
privilegier dans lanalyse. Les caracteristiques individuelles sont introduites dabord
pour prendre en compte lheterogeneite observee des individus. Car lutilisation qui
peut etre faite de ce type de modele est destimer limpact sur les comportements
dune modification des tarifs. Par exemple, reduire de, mettons, 10 % en moyenne les
prix des billets de train attirerait-il une partie de la clientele prenant habituellement
lavion, et si oui dans quelle proportion ?
Une derniere remarque. Si les modeles dutilite stochastique sont bien adaptes aux
cas ou les caracteristiques des options font partie des criteres de choix, on peut a la
19
rigueur y faire reference lorsquelles ne sont pas mesurees. Supposons que lon ait a
modeliser un choix dorientation, entre la voie generale et la voie professionnelle par
exemple. Dans les criteres de choix pourrait figurer ce que craint ou espere leleve a
lissue de ses etudes (le taux de chomage quil risque de connatre, le salaire espere),
mais aussi le cout de sa scolarite quil sattend a supporter. Si on dispose de ces
informations, alors on peut specifier puis estimer un modele du type (16), ou les
variables z sont le taux de chomage, le salaire et le cout de scolarite attendus. En
labsence de donnees sur ces variables, on peut sen tenir a (13), et on considere que
les informations non disponibles font partie du residu u 14 . Mais la portee du modele
reste limitee.
14. Cet exemple du choix dorientation fait partie de ceux quon ne peut pas modeliser par une
expression du type (8), car il nexiste pas de variable latente adaptee.
20
I.2 Les variables du modele
Jusqua present, nous nous sommes concentres sur la formalisation du modele pour
quil soit adapte au caractere particulier de la variable categorielle y. Nous navons
donne aucune precision sur les autres variables du modele, i.e. x1 , x2 , . . . , xK . Elles
peuvent etre de natures tres differentes, dont il faut tenir compte pour les traiter de
maniere adequate.
On distingue dabord les variables dites numeriques (ou quantitatives) et les va-
riables qualitatives. Par exemple, lage de la personne ou le nombre dhabitants de
sa commune de residence sont des variables numeriques. Le sexe, le diplome ou la
filiere denseignement sont des variables qualitatives.
Ensuite, il y a plusieurs types de variables qualitatives. Premier type, les variables
binaires (appelees aussi dichotomiques) qui, comme le sexe, ne comportent que deux
modalites. Second type, les variables polytomiques, qui ont plus de deux modalites.
On a coutume de distinguer parmi elles celles qui sont ordonnees et celles qui ne
le sont pas. Par exemple, les diplomes, en regle generale, permettent de classer
leurs detenteurs les uns par rapport aux autres. On dira ainsi que le baccalaureat
est superieur au brevet. En revanche, les filieres denseignement ou encore les
disciplines (sciences, lettre droit, . . . ) ne sont pas ordonnables.
I.2.a Les variables continues

Le cas le plus simple a traiter est celui des variables numeriques, qui sont intro-
duites telles quelles dans le modele. Supposons par exemple quon analyse linfluence
de la seule variable dage de fin detudes, notee agef, dans le fait detre en emploi,
alors lequation du modele logit secrit :
1
P (yi = 1|agefi ) =
1+ e0 1 agefi
I.2.b Les variables binaires

Deuxieme cas, celui dune variable binaire. Reprenons lexemple ci-dessus mais
en remplacant lage par le sexe. Pour lintroduire dans le modele, on transforme
dabord cette variable de sexe en deux variables indicatrices, notees (sexei = h) et
(sexei = f ). La premiere (resp. seconde) vaut 1 si lindividu i est de sexe masculin
(resp. feminin), et 0 sinon. On a, pour chaque individu i, (sexei = h) + (sexei =
f ) = 1.
Introduisons maintenant ces deux variables indicatrices dans le modele :
1
P (yi = 1|sexei ) = (17)
1+ e0 1 (sexei =h)2 (sexei =f )
Puisque (sexei = h) + (sexei = f ) = 1, on peut ecrire :
0 + 1 (sexei = h) + 2 (sexei = f )
= (0 + c) + (1 c)(sexei = h) + (2 c)(sexei = f )
21
= 0 + 1 (sexei = h) + 2 (sexei = f )
ou 0 = 0 + c, 1 = 1 c et 2 = 2 c, avec c constante quelconque pouvant

prendre nimporte quelle valeur. Lequation (17) secrit donc aussi :
1
P (yi = 1|sexei ) =
1+ e0 1 (sexei =h)2 (sexei =f )
Il y a donc une infinite de jeux de parametres donc dequations conduisant au
meme modele. On dit que les parametres du modele ne sont pas identifies. Or le
modele doit etre represente par une equation et une seule, cest-a-dire par un jeu de
parametres et un seul.
Pour ce faire, on choisit une modalite qui fera office de reference, et on force
a zero le parametre correspondant. Par exemple, si on retient homme comme
modalite de reference de la variable sexe, le parametre associe 1 est force a 0.
La variable indicatrice (sexei = homme) disparat du modele. La situation de la
femme, mesuree par le parametre 2 , est evaluee en reference a celle de lhomme.
I.2.c Les variables polytomiques

La demarche est la meme pour une variable polytomique. On commence par la
transformer en autant de variables indicatrices quil y a de modalites. On les introduit
toutes dans le modele, sauf une, pour les memes raisons que precedemment : pour
obtenir lunicite du jeu des parametres associes a la variable, on en annule un. Cela
signifie quon exclut du modele une des indicatrices. La modalite quelle represente
est appelee modalite de reference. Une variable polytomique a M modalites est donc
remplacee par M 1 indicatrices.
Supposons quon ait choisi la modalite m = 1 comme reference et quaux modali-
tes 2, 3, . . . , M soient associes respectivement les parametres 2 , 3 , . . . , M . Alors
la situation dun individu dans letat m (1 < m M ), mesuree par le parametre m
associe a (lindicatrice representant) la modalite m, est evaluee en reference a la si-
tuation dun individu dans letat 1. En dautres termes, la valeur dun parametre m
est relative. Il sensuit que le choix de la modalite de reference dune variable polyto-
mique a une incidence sur les valeurs des parametres associes aux autres modalites
de la variable, mais ninflue pas sur lecart entre deux parametres quelconques. En
effet, soit m1 , m2 et m3 trois modalites de la variable. On a :
m3 m2 = (m3 m1 ) (m2 m1 )
La difference entre m3 et m2 est la meme, que la modalite de reference soit m1

(auquel cas m1 = 0) ou une autre (auquel cas m1 6= 0, sans consequence sur la
difference m3 m2 ).
Pour choisir la modalite de reference, on tiendra compte de plusieurs aspects. Elle
doit dabord recueillir un nombre suffisant dobservations pour donner de la robus-
tesse aux estimations des parametres (et pour quelle merite son appellation : une
22
modalite rare ne peut faire reference . . . ). Le choix doit aussi pouvoir faciliter les
commentaires des resultats. Dans le cas dune variable ordonnee, par exemple, on
prendra en general comme reference la modalite la plus faible , a condition quelle
recueille un nombre suffisant dobservations, lidee etant quune variable qualitative
ordonnee est un peu comme une variable numerique, dont les valeurs sont par de-
finition ordonnees. Dans le cas dune variable non ordonnee, sil ny a pas de choix
evident, on pourra retenir la modalite modale, celle qui rassemble le plus dindividus,
ou bien celle pour laquelle la repartition des individus entre les categories C0 et C1
est proche de celle constatee sur lensemble de lechantillon.
Mentionnons enfin quune variable numerique peut etre transformee en variable
polytomique ordonnee et traitee comme telle. Par exemple, lage peut etre de-
coupe en trois tranches moins de 35 ans, de 35 a 45 ans, plus de 45 ans. A ces trois
tranches sont associees trois variables indicatrices ((age < 35), (35 age < 45),
(45 age)). Si on souhaite mettre en evidence des effets non-lineaires de lage
sur la probabilite dappartenance, le fait quelle soit par exemple plus elevee pour
les deux tranches dage extremes, on a interet a retenir la modalite intermediaire
comme reference, cest-a-dire exclure lindicatrice (35 age < 45). On sattend a
ce que les parametres associes aux deux autres indicatrices soient positifs.
23
24
I.3 Estimation des parametres du modele
I.3.a La methode du maximum de vraisemblance
Pour estimer les parametres du modele, on utilise la methode du maximum de
vraisemblance. Pour expliquer en quoi elle consiste, nous allons partir dun exemple
simplifie a lextreme.
On observe un echantillon de trois individus tires, dans une population dinteret,
aleatoirement et independamment les uns des autres. On connat de ces individus
une seule caracteristique, notee x1 , dont les valeurs sont respectivement x11 = 2,
x12 = 1 et x13 = 3. Soit y la variable binaire reperant la categorie dappartenance.
Dans cet echantillon, on observe que le premier individu appartient a la categorie
1 (y1 = 1), le deuxieme a la categorie 0 (y2 = 0) et le troisieme a la categorie 1
(y3 = 1).
La probabilite dobserver cet echantillon est celle dobserver conjointement y1 = 1
compte tenu de la valeur de x11 , y2 = 0 compte tenu que x12 = 1 et y3 = 1 sachant
que x13 = 3. Cette probabilite secrit :
P = P (y1 = 1|x11 , y2 = 0|x12 , y3 = 1|x13 )
Puisque les individus ont ete tires independamment les uns des autres, cette proba-
bilite est egale au produit des trois probabilites individuelles :
P = P (y1 = 1|x11 ) P (y2 = 0|x12 ) P (y3 = 1|x13 )
En remplacant les probabilites individuelles par leurs expressions (5) 15 , la probabilite

P dobserver lechantillon tire secrit :
1 exp[0 1 x12 ] 1
P=
1 + exp[0 1 x11 ] 1 + exp[0 1 x12 ] 1 + exp[0 1 x13 ]
1 exp[0 1 .1] 1
= (18)
1 + exp[0 1 .2] 1 + exp[0 1 .1] 1 + exp[0 1 .3]
La probabilite P depend des deux quantites (parametres) 0 et de 1 , inconnues a

ce stade. Elle peut etre plus ou moins elevee selon les valeurs de 0 et de 1 . Il sagit
de les determiner de maniere unique. Pour le faire, on raisonne comme suit.
Lorsquon tire un echantillon de trois individus tels que x1 = 2 pour le premier,
x1 = 1 pour le deuxieme et x1 = 3 pour le troisieme, on a a priori 8 combinaisons
possibles pour le triplet (y1 , y2 , y3 ) : (0, 0, 0), (0, 0, 1), (0, 1, 0), (0, 1, 1),. . . . Cest
la combinaison (1, 0, 1) quon observe. Lidee de la methode repose sur une quasi
petition de principe : si on observe effectivement cette combinaison, cest parce quelle
correspond a celle quon avait le plus de chances dobserver parmi les huit possibles,
cest la combinaison qui etait la plus probable, la plus vraisemblable a observer.
En consequence, les valeurs de 0 et de 1 a retenir sont celles qui rendent la plus
15. Pour lindividu no 2, on a : P (y2 = 0|x12 ) = 1 P (y2 = 1|x12 ).
25
elevee possible la probabilite P dobserver lechantillon tire, qui maximisent P. Dou
le nom de la methode, etant entendu que la probabilite P est traditionnellement
appelee vraisemblance du modele. Les valeurs des deux parametres sont donc celles
qui annulent les deux derivees partielles de P :
P P
=0 et =0
0 1
On montre que la fonction P est concave, ce qui fait que le point dannulation des
deux derivees partielles correspond bien a un maximum.
Avec la forme (18) de la vraisemblance P, les expressions des derivees partielles
sont assez compliquees. Pour simplifier, au lieu de maximiser P, on maximise son
logarithme ln P, ce qui revient au meme puisque la fonction logarithme est stricte-
ment croissante. La quantite ln P est appelee log-vraisemblance. Elle est la somme
de trois logarithmes. Chaque derivee partielle ln P /0 et ln P /1 est alors la
somme de trois derivees partielles (relativement) simples.
La generalisation a un echantillon de n individus est immediate. Le raisonnement
est exactement le meme. On remarquera que, quelle que soit la valeur prise par la
variable binaire y pour lindividu i, le logarithme de la probabilite individuelle de i,
que i appartienne a C0 ou a C1 , secrit toujours :
1 exi
ln Pi = yi ln + (1 y i ) ln
1 + exi 1 + exi
Avec cette notation, la log-vraisemblance pour lechantillon des n individus est egale
a :
n
exi

X 1
ln P = yi ln + (1 yi ) ln (19)
1 + exi 1 + exi
i=1
Les valeurs des parametres sont les solutions du systeme a K + 1 equations (il y a
autant dequations que de parametres a estimer) :
ln P
=0 (20)

ou P est donnee par lexpression (19).

En theorie, de ce systeme de K + 1 equations a K + 1 inconnues k , on devrait
deduire les k comme fonctions des variables xk (pour k = 0, . . . , K) 16 . Pour obtenir
les valeurs estimees des k , traditionnellement notees k , il suffirait alors de donner
aux variables les valeurs quelles prennent dans lechantillon. Le probleme est quon
ne peut pas proceder comme cela, car il ny a pas dexpression analytique des k
comme fonctions des variables composant le vecteur x. On est oblige dutiliser des
algorithmes qui recherchent pas a pas les valeurs des parametres. Un des algorithmes
16. Ces fonctions sont appelees estimateurs des parametres du modele.
26
les plus souvent utilises est celui de Newton-Raphson. Tres schematiquement, il se
deroule de la maniere suivante. On part de valeurs initiales des K + 1 parametres du
modele (par exemple, k = 0 k = 0, . . . , K). Puis on remplace chaque equation
de (20) par son approximation lineaire autour de ces valeurs initiales. On resout
le systeme ainsi forme et on obtient un premier jeu de valeurs des parametres. On
repete loperation en remplacant chaque equation de (20) par son approximation
lineaire autour de ce premier jeu de parametres. On resout le systeme ainsi forme, et
ainsi de suite jusqua ce que les valeurs des parametres ainsi determinees ne changent
(quasiment) pas lorsquon itere loperation. On arrete alors la recherche des valeurs
des k et les dernieres obtenues sont les valeurs estimees des parametres.
Grace a elles, on peut calculer pour chaque individu i la probabilite dapparte-
nance a la categorie C1 predite par le modele, que lon note Pi = P (yi = 1|xi ). Il
suffit de remplacer, dans lexpression (5), par , vecteur (colonne) des parametres
estimes k 17 .
I.3.b Les proprietes des valeurs estimees des parametres

Nous avons donc obtenu un jeu de valeurs estimees des parametres du modele, sur
notre echantillon de n individus. Si nous avions tire, dans notre population dinteret
de N individus, un autre echantillon de meme taille n, et si nous avions estime les
parametres du modele sur ce deuxieme echantillon, nous aurions obtenu des valeurs
des parametres differentes des premieres. Avec un autre echantillon de taille n, nous
aurions obtenu encore dautres valeurs. Et ainsi de suite. Par consequent, les K + 1
valeurs k estimees sur notre echantillon ne constituent quun ensemble de valeurs
parmi toutes celles quon obtiendrait en estimant le modele sur tous les echantillons
possibles de n individus.
On montre que toutes ces valeurs possibles des parametres estimes du modele
sont distribuees autour de la vraie valeur de (i.e. des vraies valeurs des
parametres k associes aux xk ) selon approximativement une loi normale (de di-
mension K + 1), ceci a condition que n soit suffisamment grand. En dautres termes,
les valeurs k estimees sur notre echantillon peuvent etre considerees comme tirees
dans une loi normale centree autour de la vraie valeur de . On dit que la loi
de distribution asymptotique de lestimateur des parametres du modele est la loi
normale, dont la moyenne est la vraie valeur de et la variance 18 , inconnue,
peut etre estimee par des fonctions impliquant les valeurs estimees des parametres
et les valeurs prises sur lechantillon par les variables x. On recupere ainsi les valeurs
k des ecarts-types des k .
Cela etant, la loi normale est distribuee de telle maniere que 95% des valeurs
17. Pour eviter des lourdeurs decriture, on utilise la meme notation k pour representer a
la fois lestimateur de k (i.e. la fonction des variables xk issue du systeme dequations (20)) et
la valeur estimee de k , cest-a-dire celle prise par lestimateur pour les valeurs des variables xk
observees sur lechantillon detude.
18. Il sagit plus precisement de la matrice de variance-covariance, de dimension (K +1)(K +1).
Les racines carrees des elements diagonaux sont les ecarts-types des parametres estimes.
27
possibles des parametres associes aux variables xk sont comprises entre les valeurs
k 1.96k et k + 1.96k . Toujours dapres les proprietes de la loi normale, 99%
de ces valeurs possibles sont comprises entre k 2.58k et k + 2.58k . On a donc
95% de chances davoir :
k 1.96k k k + 1.96k
et 99% de chances que :
k 2.58k k k + 2.58k
Ces deux inegalites se reecrivent respectivement :
k 1.96k k k + 1.96k et k 2.58k k k + 2.58k
Autrement dit, on a 95% de chances que la vraie valeur de k soit dans linter-
valle :
I95 = [k 1.96k , k + 1.96k ]
et 99% de chances quelle appartienne a lintervalle :
I99 = [k 2.58k , k + 2.58k ]
Lintervalle I95 est appele intervalle de confiance a 95% du parametre estime k .

Lintervalle I99 est lintervalle de confiance a 99% de k .
On dit quun parametre est estime avec precision lorsque son ecart-type (estime)
est faible. Dans ce cas, lintervalle de confiance est peu etendu. La vraie valeur
du parametre est selon toute probabilite peu eloignee de la valeur estimee k . A
linverse, une estimation imprecise se manifeste par un ecart-type important. Cest
ce qui peut se produire avec une variable mal mesuree. Un exemple typique est celui
du revenu annuel total du foyer lorsquil est renseigne par le menage enquete. Il
est souvent arrondi a la centaine deuros. La valeur repondue peut etre assez eloignee
de la vraie valeur, si bien que les valeurs du parametre associe quon obtiendrait sur
les differents echantillons de taille n risquent detre plus dispersees (lecart-type du
parametre estime est donc plus important) que celles quon aurait si la variable etait
mieux renseignee.
Un dernier point. Si n est proche de N , alors les differents echantillons de taille
n tires dans la population dinteret auront un ensemble commun dindividus assez
important. Les valeurs des parametres estimees sur ces differents echantillons seront
alors (tres) proches les unes des autres puisquelles auront ete determinees en tres
large partie sur les memes individus. Ceci explique pourquoi les ecarts-types des
parametres estimes sont plus faibles lorsque la taille n de lechantillon est importante.
Autrement dit, la precision des estimations augmente avec la taille de lechantillon.
28
I.4 Les indicateurs de qualite du modele estime
Il y a deux manieres devaluer la qualite globale du modele estime. La premiere
sappuie sur sa vraisemblance, la seconde sur les probabilites Pi predites par le
modele.
I.4.a Les indicateurs fondes sur la vraisemblance du modele

Le premier type dindicateurs de qualite du modele decoule de la question suivante.
Par definition, la vraisemblance du modele est maximale pour les valeurs k des
parametres, mais est-elle suffisamment elevee pour que lon considere le modele ainsi
estime comme un bon modele ? Pour le savoir, il faut dabord regler deux points
prealables. En premier lieu, la valeur absolue de la vraisemblance na pas de sens
en soi. Il faut la comparer a une reference. Celle qui est generalement retenue est
la vraisemblance du modele quon peut considerer comme le plus pauvre , celui
sans aucune variable explicative, hormis le terme constant. Cest donc lecart ou le
rapport de la vraisemblance L 19 du modele estime a la vraisemblance du modele
sans variable explicative, notee L0 , qui importe. Deuxieme point, il faut trouver une
expression adequate dun indicateur qui fasse intervenir lecart ou le rapport des
deux vraisemblances et qui rende bien compte de la qualite du modele.
Un des premiers indicateurs que lon trouve dans la litterature est du a McFadden.
Il est note 2 et parfois appele pseudo-R2 (de McFadden). Il secrit :
ln L
2 = 1
ln L0
La log-vraisemblance du modele est la somme de n quantites qui sont toutes negatives

puisque chacune delles est le logarithme dune probabilite, qui est inferieure a 1 par
definition. Par consequent, ln L < 0. Comme le modele avec variable explicative
est plus vraisemblable que le modele sans variable explicative, on a ln L0 <
ln L < 0. En consequence, on a bien 0 < 2 < 1, et lindicateur 2 augmente avec la
(log)vraisemblance ln L du modele.
Pour tenir compte du nombre de variables introduites dans le modele, Ben-Akiva
et Lerman 20 ont propose lindicateur 2 , qui ajuste le 2 :
ln L (K + 1)
2 = 1 (21)
ln L0
ou K est le nombre de variables (hormis le terme constant). Attention ! Une variable

categorielle a m modalites compte pour nm 1 variables.
Les proprietes de 2 le fait quil soit compris entre 0 et 1 et quil augmente avec la
19. La vraisemblance est traditionnellement notee L a cause de la denomination anglo-saxonne

de la vraisemblance : Likelihood.
20. M. Ben-Akiva and S. Lerman, Discrete Choice Analysis : Theory and Application to Travel
Demand, MIT Press, 1985.
29
qualite (la vraisemblance) du modele font penser au coefficient de determination
R2 dun modele de regression lineaire classique. Mais il nen possede pas toutes
les proprietes. Notamment, ses valeurs ne couvrent pas tout lintervalle [0,1], elles
restent faibles meme lorsquun modele est considere comme tres bon . Estrella 21
a propose un autre indicateur qui pallie ces defauts :
2 ln L0
ln L n
0 = 1
ln L0
Il existe un autre type dindicateurs, toujours fondes sur la vraisemblance du

modele. Ils sont appeles criteres dinformation. Cette denomination provient de ce
quils mesurent la perte dinformation due au fait que lon remplace la realite par
un modele. De ce point de vue, plus la valeur du critere est faible, plus la perte
dinformation est limitee, et donc meilleur est le modele. Ces indicateurs sont des
outils permettant de departager plusieurs modeles concurrents qui reposent sur des
variables x differentes, a condition quils soient tous estimes sur le meme ensemble
de donnees.
Les deux criteres les plus utilises sont le critere dAkake (AIC) et le critere de
Schwartz (SC). Ils secrivent respectivement :
AIC = 2(K + 1) 2 ln(L) (22)
et :
SC = (K + 1) ln(n) 2 ln(L) (23)
ou L est la valeur maximale de la vraisemblance (i.e. la valeur de la vraisemblance

calculee avec les valeurs estimees des parametres) et K le nombre de variables du
modele.
La presence de K dans les expressions (22) ou (23) se justifie. Dune maniere
generale, la vraisemblance maximale L dun modele peut etre augmentee par le seul
fait dajouter des variables (donc des parametres) supplementaires, quelle quen soit
la pertinence. Dans ces conditions, on peut artificiellement augmenter la qualite
dun modele en ajoutant nimporte quelle caracteristique individuelle dans la liste
des x. La presence de K permet alors dempecher ce travers en penalisant lajout de
variables : avec des variables supplementaires ln(L), certes, augmente, mais 2K ou
K ln(n) aussi, et on ne sait pas a priori lequel des deux lemporte. On ne sait pas si
AIC ou SC augmente ou diminue. Sur cet aspect des choses, le critere de Schwartz
penalise plus fortement lajout de variables que ne le fait le critere dAkake.
Parce quils font intervenir de maniere antagoniste la vraisemblance et le nombre
de variables, ces indicateurs soulignent une qualite que doit avoir un modele : la parci-
21. A. Estrella, A New Measure of Fit for Equations With Dichotomous Dependent Variables ,
Journal of Business & Economic Statistics, 1998, vol. 16, no 2.
30
monie. On doit veiller a cela surtout lorsquon introduit dans le modele des variables
polytomiques. En effet, la prise en compte dune variable a, mettons, 10 modalites
introduit 9 variables indicatrices supplementaires. La qualite du modele, mesuree
par un critere dinformation, risque den etre affectee.
I.4.b Les indicateurs fondes sur les predictions du modele

Une autre maniere devaluer la qualite dun modele est de regarder sil reproduit
correctement la realite, si la categorie dappartenance quil predit pour chaque in-
dividu i correspond bien a la categorie a laquelle i appartient effectivement, si, en
dautres termes, le modele sajuste bien a la realite. Dou lappellation dindicateur
dajustement parfois utilisee. Cette idee, a premiere vue naturelle, est difficile a
mettre en uvre, car on est amene a comparer des grandeurs qui ne sont pas de
meme nature. En effet, ce que lon observe pour chaque individu i de lechantillon,
est la variable dappartenance categorielle yi , qui vaut 0 si i C0 ou 1 si i C1 .
Ce que predit le modele est une probabilite dappartenance a C1 , notee Pi pour
lindividu i (voir section I.3.a), qui varie entre 0 et 1. Pour comparer predictions et
realisations, il faut donc (essayer de) calculer lappartenance (et non la probabilite
dappartenance) predite par le modele, quon notera yi . Malheureusement, on va le
voir, il nexiste pas de solution entierement satisfaisante.
Une premiere solution est dadopter la regle de decision suivante. Si Pi est supe-
rieure a 0.5, alors la categorie dappartenance predite est C1 : yi = 1. Dans le cas
contraire, la categorie predite est C0 : yi = 0. Il suffit alors de compter le nombre
de fois ou yi et yi concident. Mais ce premier comptage est insuffisant. Pour le voir,
supposons que dans un echantillon de n = 100 personnes, on en observe 80 en ca-
tegorie C0 et 20 en categorie C1 22 . Supposons que le modele predise correctement
lappartenance de 70 de ces 80 individus, cest-a-dire quon ait yi = 0 dans 87.5%
(70/80) des cas. Meme si aucun des cas dappartenance a C1 nest correctement pre-
dit, la part de bonnes predictions par le modele est tout de meme de 70%. Pourtant,
on ne peut pas soutenir quun modele qui rate tous les cas dappartenance a C1
soit un bon modele. Il faut donc compter le nombre de fois ou on a yi = yi = 0 et le
nombre de fois ou yi = yi = 1, cest-a-dire le nombre de paires concordantes.
Cette maniere de faire ne regle pas tous les cas de figure, en particulier ceux
ou il y a un fort desequilibre dans la repartition observee des individus entre les
deux categories. Supposons, en effet, que 95% soient en C0 et 5% en C1 . Si on
garde la regle de decision qui veut que lappartenance predite yi soit egale a 1 si la
probabilite predite depasse le seuil de 0.5, alors etant donne la rarete des cas observes
dappartenance a C1 , il est fort possible quaucun des Pi calcules ne depasse 0.5. La
solution serait alors de retenir comme seuil non pas 0.5 mais 0.05, conformement a la
repartition globale des individus entre C0 et C1 . Mais on risque cette fois-ci de ne pas
predire assez dindividus de categorie C0 . Par consequent, le bon seuil se situe
22. Lexemple est tire de J.M. Wooldridge, Introductory Econometrics. A Modern Approach,
South-Western, 4th ed., 2009.
31
probablement entre 0.05 et 0.5. Il ny a pas de regle evidente pour le determiner.
Quoi quil en soit, les paires concordantes et discordantes entrent dans le calcul
dindicateurs de qualite predictive du modele. Un des plus utilises est le Somers D
qui correspond a lecart en valeur absolue (et divise par 100) entre le pourcentage de
paires concordantes et le pourcentage de paires discordantes. Tant que les categories
C0 et C1 ne sont pas trop desequilibrees, cet indicateur est somme toute valide.
Wooldridge 23 a propose un indicateur tres interessant, qui est dans lesprit du

coefficient R2 de determination dun modele lineaire classique. Il la de fait transpose
au cas du modele binaire, i.e. ou la variable y est binaire. On peut donc le denommer
pseudo-R2 (de Wooldridge). Wooldridge rappelle dabord la propriete selon laquelle,
dans le cas du modele classique, le R2 est egal au carre de la correlation empirique des
yi et des yi , et la prediction de y nest autre que lesperance conditionnelle (estimee)
de y : E(y|x). Dans le cas binaire ou y prend les valeurs 1 ou 0, on a :
E(y|x) = 1.P (y = 1|x) + 0.P (y = 0|x) = P (y = 1|x)
Par consequent :
yi = P (yi = 1|xi )
Il sensuit que le pseudo-R2 propose par Wooldridge (et note ici pR2 ) est egal au carre
du coefficient de correlation des yi et des P (yi = 1|xi ), quantite que lon peut calculer
une fois connues les valeurs estimees des parametres . On peut aussi calculer, par
analogie au R2 ajuste du modele lineaire classique, un pseudo-R2 ajuste, qui tient
compte du nombre K de variables introduites dans le modele :
(n 1)(1 pR2 )
pR2 = 1
(n K 1)
23. J.M. Wooldridge, op. cite, page 582.
32
I.5 Les tests sur les parametres estimes : evaluation de
leur significativite statistique
Les tests sur les parametres estimes du modele permettent de savoir si les variables
associees influent sur laffectation a lune ou lautre categorie. Leur mise en oeuvre
depend de la nature des variables introduites dans lanalyse.
I.5.a Les parametres des variables continues ou binaires

Comme on la vu precedemment (section I.2), une variable continue, par exemple
la variable mesurant lage de la personne, est introduite telle quelle dans le modele.
Dans le cas dune variable binaire, on definit deux indicatrices et on nen retient
quune. Par exemple, la variable renseignant sur le sexe de lindividu i est introduite
sous la forme (sexei = f emme). Dans les deux cas de figure continue ou binaire
la variable est associee a un parametre et un seul 24 .
Notons x1 la variable binaire consideree et 1 le parametre associe. On se demande
si x1 joue un role, cest-a-dire si le parametre 1 qui lui est associe est ou non different
de zero : sil est nul, la variable disparat de lexpression (5) du modele et ne joue
donc plus aucun role. Pour le savoir, il faut realiser un test dhypothese. Cette
demarche passe par la definition de trois objets : lhypothese dite nulle (notee
H0 ), lhypothese dite alternative (notee Ha ) et la statistique de test S.
Lhypothese nulle est celle que lon cherche a rejeter. Disant cela, il peut sembler
a priori peu naturel que la demarche consiste a infirmer une hypothese plutot qua
la valider. Cela tient a des raisons de nature statistique, quon verra plus loin.
Lobjectif du modele etant de mettre en evidence des traits distinctifs des deux
categories, on espere que les variables qui y sont introduites distinguent effectivement
les deux populations, cest-a-dire que les parametres associes ne sont pas nuls. Pour
la variable x1 , lhypothese nulle a poser et quon espere rejeter est donc :
H0 : 1 = 0
Par contraste, lhypothese alternative est celle quon est pret a accepter en cas de
rejet de H0 . Elle secrit :
Ha : 1 6= 0
A ce stade, la demarche semble immediate : il suffit de regarder si la valeur de 1

estimee sur lechantillon dont on dispose est nulle ou non. Cest evidemment plus
complique que cela, car la valeur 1 est incertaine . On se rappelle en effet (voir
la section I.3.b) que la valeur estimee est une valeur particuliere parmi toutes celles
quon aurait obtenues en estimant le parametre sur dautres echantillons de meme
taille n. Toutes ces valeurs potentielles sont distribuees selon une loi normale centree
24. Pour etre exact, rappelons que dans le cas dune variable binaire, il y a aussi un parametre
associe a la modalite de reference, mais il est force a 0.
33
autour de la vraie valeur de 1 , valeur quon ne connat pas.
Pour trancher entre H0 et Ha , on a recours a la statistique de test, qui permet pre-
cisement de prendre en compte la distribution des valeurs potentielles du parametre
estime. Dans notre cas particulier, la statistique de test est :
1
S=
1
ou 1 et 1 sont les estimateurs 25 respectivement de 1 et de son ecart-type 1 .

On conduit le test dhypothese de la maniere suivante. On suppose dans un premier
temps que lhypothese H0 est vraie. Sous cette hypothese, il a ete etabli que 1 /1
suit la loi normale centree (i.e. dont la moyenne est nulle) et reduite (i.e. dont lecart-
type vaut 1) 26 .
Les conclusions du test vont dependre de deux facteurs. Le premier est la valeur
prise par S sur lechantillon a notre disposition. Le second est la part de risque quon
est pret a assumer en rejetant lhypothese nulle. Car, de par la nature probabiliste
de S due au fait quon travaille sur un echantillon parmi dautres possibles, on nest
jamais certain de prendre la bonne decision, on nest pas a labri de lerreur consistant
a rejeter H0 alors quen realite le parametre 1 (quon nobserve pas, rappelons-le)
est nul.
Cela pose, si H0 est vraie, en vertu des proprietes de la loi normale, 90% des valeurs
potentielles de 1 /1 (i.e. celles qui seraient obtenues sur les differents echantillons
de taille n) sont comprises entre (environ) -1.65 et + 1.65, 95% entre -1.96 et + 1.96,
99% entre -2.58 et + 2.58, . . . . Cela implique quil est peu probable a priori que
la valeur de S estimee sur lechantillon detude soit superieure en valeur absolue a
1.96 : on a a priori 5% de chances, au maximum, que ce soit le cas.
Supposons quon ait, mettons, S = 2. Le fait quon tombe sur une valeur aussi
peu probable (5% de chances au maximum quelle soit observee) peut alors faire
douter de lhypothese de depart, qui postule que la vraie valeur 1 soit nulle.
Dans ces conditions, on est pret a la remettre en cause. Mais il y a un risque que,
ce faisant, on ne prenne pas la bonne decision. Ce risque correspond precisement au
nombre de fois ou la decision de remettre H0 en cause est discutable, cest-a-dire au
nombre de fois ou on peut observer une valeur jugee peu probable. Il est ici egal a
5%. Dans la litterature, ce risque est appele risque de premiere espece. On lappelle
aussi, beaucoup plus frequemment, seuil de significativite et on dit alors que lon
rejette lhypothese nulle au seuil de 5% (i.e. avec un risque maximal de 5% de se
tromper). On dit aussi que le parametre est statistiquement significatif au seuil de
5%.
Bien sur, plus la valeur observee de S est elevee (en valeur absolue), plus le risque
25. Voir la section (I.3.a) et la note 17 de la section.

26. En toute rigueur, la statistique de test suit une loi de Student. Mais lorsque lechantillon est
suffisamment important (i.e. n eleve, ce que nous supposons ici), cette loi est assimilable a la loi
normale.
34
de se tromper en rejetant lhypothese nulle est faible. Ainsi, avec la valeur de 2.58, le
risque est de 1% : le parametre est statistiquement significatif au seuil de 1%. Plus
generalement, on peut associer a toute valeur de S une probabilite de se tromper.
Par exemple, la valeur de 2.2 correspond a une probabilite de 0.0278. Dans ce cas
de figure, on peut rejeter H0 au seuil de 3% mais pas au seuil de 2%. Cette valeur
est appelee par les anglo-saxons p-value. Elle est automatiquement calculee par les
logiciels courants de statistique, comme SAS.
Supposons maintenant quon trouve 1.8 comme valeur de la statistique de test. Si
on fixe a 5% le seuil a partir duquel une valeur de la satistique peut etre consideree
comme peu probable, alors la valeur de 1.8 ne remet pas en cause la validite de
H0 puisquelle fait partie des 95% des valeurs considerees ici comme probables. En
consequence, sur cette base, on ne peut pas rejeter H0 .
Faut-il pour autant accepter H0 , cest-a-dire affirmer que 1 est nul, que x1 na
aucune influence ? En acceptant lhypothese nulle, on risque de se tromper si, en
realite, cest lhypothese alternative qui est vraie. On risque daccepter a tort lhy-
pothese nulle. Dans la litterature, ce risque est appele risque de deuxieme espece. La
prudence commande de ne pas accepter lhypothese, de se borner a dire que sur la
base de lechantillon a notre disposition, on ne peut pas rejeter la possibilite que le
parametre soit nul. Il y a deux raisons a cela. Dabord, dune maniere generale, pour
pouvoir calculer le risque de deuxieme espece du test dhypothese, il faut connatre
la loi de probabilite de la statistique de test S sous lhypothese Ha , ce qui est tres
exceptionnellement possible. Ensuite, il faut se rappeler que la decision daccepter
H0 pourrait etre remise en cause si on disposait dun echantillon de taille plus im-
portante, avec lequel les estimations seraient plus precises, cest-a-dire les valeurs
potentielles de 1 plus resserrees (voir fin de la section I.3.b).
Replacons-nous dans le cas ou la valeur de la statistique de test est de 1.8, mais
desserrons notre exigence sur le risque derreur si bien quon considere maintenant
que les valeurs superieures a 1.65 sont peu probables. Dans ce cas, on rejettera
lhypothese nulle au seuil de 10%.
Deux dernieres remarques. Dans le cas dune variable binaire, le parametre associe
a la modalite de reference est fixe a 0 (section I.2). Dans ces conditions, tester la
nullite de 1 , cest tester la difference de deux situations. Par exemple, si on prend
la modalite homme comme reference de la variable sexe , 1 est associe a
lindicatrice (sexei = f emme). Rejeter 1 = 0, cest dire que le sexe joue un role
dans lappartenance a C0 ou a C1 .
Seconde remarque, dautres statistiques de test que 1 /1 sont possibles. La seule
contrainte est quon en connaisse la loi de probabilite sous lhypothese nulle (i.e.
lorsquon suppose que H0 est vraie). Ainsi, la procedure de SAS qui estime les
modeles logit utilise la statistique dite de Wald, 12 /12 , qui, sous lhypothese nulle,
suit la loi du 2 a 1 degre de liberte. De par les proprietes de cette loi, le seuil de
significativite de 10% correspond a la valeur 2.71 de la statistique de Wald, le seuil
35
de 5% a 3.84 et le seuil de 1% a 6.63.
I.5.b Les parametres des variables polytomiques

On la vu (section I.2.c), une variable polytomique a M modalites est introduite
dans le modele sous la forme de M 1 variables indicatrices, la modalite non retenue
faisant office de reference. Il y a donc, pour la variable, M 1 parametres associes
aux M 1 indicatrices. Supposons par exemple que la categorie sociale, notee cs, soit
codee en 4 postes : categorie sociale dite tres favorisee, categorie favorisee, categorie
moyenne, et categorie defavorisee. Dans ce cas, M = 4. Prenons comme reference
la derniere nommee. La variable cs est donc representee dans le modele par trois
indicatrices : (csi = trf av), (csi = f av) et (csi = moy). Soit 1 , 2 et 3 les
parametres associes.
On peut tester la nullite de chacun de ces trois parametres en suivant la meme
demarche que dans la section precedente. Linterpretation des resultats est la meme
que dans le cas dune variable binaire. Par exemple, si on rejette ici lhypothese
3 = 0, cela signifie que les individus de la categorie sociale moyenne ne sont pas
repartis entre les categories C0 et C1 de la meme maniere que ceux faisant partie de
la categorie defavorisee (categorie de reference pour laquelle, rappelons-le, 4 = 0).
On peut aussi mettre en uvre dautres tests. Par exemple, regarder sil y a une
difference entre les categories tres favorisee et favorisee. Conformement a la demarche
generale dun test dhypothese (voir supra), lhypothese nulle est dans ce cas :
H0 : 1 = 2
Lhypothese alternative est :
Ha : 1 6= 2
Avant dexpliciter la statistique de test, notons que H0 et Ha peuvent secrire aussi :
H0 : 1 2 = 0 et Ha : 1 2 6= 0
En posant 12 = 1 2 , on se retrouve dans le cas de figure de la section precedente,

ou on teste la nullite dun parametre, en loccurrence 12 . La statistique de test est
donc :
12
S=
12
Cette statistique suit, sous lhypothese nulle, la loi normale centree reduite (i.e. de
moyenne nulle et de variance unitaire). La difficulte est quon ne peut pas deduire
lecart-type estime de 12 uniquement a partir des ecarts-types estimes 1 et 2 , car
il faut faire aussi intervenir la correlation entre 1 et 2 . Heureusement, ce calcul est
fait automatiquement dans les logiciels courants comme SAS.
36
Autre test possible : la nullite de lensemble des parametres associes aux indi-
catrices representant les modalites de la variable. Dans lexemple de la categorie
sociale, lhypothese nulle secrit alors :
H0 : 1 = 2 = 3 = 0
Elle signifie que la categorie sociale, du moins telle quelle est codee ici en quatre
modalites, ne joue pas de role. Lhypothese alternative est :
Ha : 1 6= 0 ou 2 6= 0 ou 3 6= 0
Plus formellement, lhypothese nulle peut secrire aussi :
H0 : Q = 0
ou Q est la matrice identite et le vecteur-colonne des parametres :

1 0 0 1
Q = 0 1 0 et = 2

0 0 1 3
Linteret de lecrire sous cette forme generale est quon peut lappliquer a dautres
matrices Q et donc a dautres tests sur les parametres. La statistique de test secrit :
W = (Q) [Q(V )Q ]1 (Q)
ou V est la matrice de variance covariance estimee de . W suit une loi du 2 a q

degres de liberte, ou q est le rang de la matrice Q. Les valeurs correspondant aux
seuils de significativite de 10%, 5% ou 1% dependent de q. Dans notre exemple ou
q = 3, les valeurs sont respectivement 6.25, 7.82 et 11.34. Dans la pratique, comme
on le verra, il nest pas necessaire de calculer toutes ces quantites. En utilisant les
instructions adequates de la procedure SAS, on obtient directement la p-value du
test.
Il faut signaler une difficulte dans ce type de test. Son resultat nest pas toujours
coherent avec les resultats des tests menes sur chacune des variables indicatrices 27 .
Il arrive quon puisse rejeter, au seuil de 5% par exemple, lhypothese H0 de la
nullite jointe des parametres (1 = 2 = 3 = 0), alors quaucun des parametres
nest statistiquement significatif a ce meme seuil. Linverse peut aussi se produire.
En consequence, il est prudent deffectuer tous les tests et de confronter les resultats.
Dans notre exemple, il y a donc quatre tests a realiser, dont les hypotheses nulles
27. D. Le Blanc, S. Lollivier, M. Marpsat, D. Verger, Leconometrie et letude des comporte-

ments. Presentation et mise en uvre de modeles de regression qualitative. Les modeles univaries
a residus logistiques et normaux , Document de travail no 0001, Unite Methodologie Statistique,
INSEE.
37
sont 1 = 0, 2 = 0, 3 = 0 et 1 = 2 = 3 = 0.
38
I.6 Les valeurs des parametres estimes : evaluation de
leur significativite pratique
La significativite statistique permet devaluer le degre de certitude avec lequel
on peut affirmer quune variable influe sur lappartenance aux categories C0 ou C1 .
Mais elle ne nous dit rien sur son importance. Cette information nous est fournie
par ce que daucuns nomment la significativite pratique 28 . Ces deux notions doivent
etre clairement distinguees. Une variable peut avoir un impact important alors que
le parametre qui lui est associe est tout juste significatif au seuil de 5%. A linverse,

le parametre peut etre significatif au seuil de 1% et la variable associee avoir un
faible role dans lappartenance a lune ou lautre categorie.
La significativite pratique est mesuree par la valeur estimee du parametre. Le
probleme est que cette valeur ne nous dit pas grand chose. Son signe en revanche
donne une information immediate. Sil est positif, alors la variable associee a un
impact positif sur la probabilite dappartenir a la categorie C1 . Quant a savoir si
limpact est important ou non, on ne peut pas le deviner car le lien entre la probabilite
dappartenance a lune des categories et le parametre expression (5) ou (11)
est somme toute relativement complexe. Il faut faire appel a dautres grandeurs
statistiques : les odds ratios ou bien les effets marginaux.
I.6.a Lodds ratio en epidemiologie

Les resultats dun logit sont souvent presentes sous la forme dodds ratio littera-
lement rapport des cotes (parfois appele rapport des chances ou encore rapport des
risques relatifs) dont lusage est traditionnel en epidemiologie. Il est en effet bien
adapte a cette discipline, comme lillustre lexemple suivant.
Dans le but detudier linfluence de la consommation de tabac sur la survenance
dun cancer, une enquete a ete conduite sur un echantillon de 300 personnes 29 . Les
resultats donnent le tableau suivant :
fumeur non-fumeur
cancer 10 10
pas de cancer 90 190
Avec ces donnees, on peut calculer 4 probabilites. Par exemple, le risque pour un
fumeur detre atteint dun cancer est egal a 10/(10+90) = 10%. Pour un non-fumeur,
il vaut 10/(10 + 190) = 5%, soit deux fois moins.
Supposons que lepidemiologiste ait eu un peu plus de temps et de moyens pour
recruter un nombre plus important de personnes atteintes de cancer et quil
dispose dun echantillon de 120 patients. Si le recrutement a ete fait de maniere
aleatoire, on devrait en principe observer, comme precedemment, une equirepartition
28. Cette denomination est employee, entre autres, par J.M. Wooldridge, op. cite, page 135.
29. Lexemple est inspire de : Emmanuel Lagarde, Deux mesures dassociation frequemment
utilisees en epidemiologie : lOdds-Ratio et le Risque Relatif , Transcriptases, no 72, mars 1999.
39
des fumeurs et des non fumeurs chez ces personnes atteintes de cancer. Sil y a
toujours 280 personnes non atteintes, la distribution des patients est :
fumeur non-fumeur
cancer 60 60
pas de cancer 90 190
Avec ces donnees, le risque pour un fumeur detre atteint dun cancer est egal a
60/(60 + 90) = 40%. Pour un non-fumeur, il vaut 60/(60 + 190) = 24%. le rapport
est maintenant inferieur a 2 (40% vs 24% ;40% vs 20% precedemment).
Cette mesure de limpact du tabac sur la survenance dun cancer le rapport de
ces deux risques est insatisfaisante car elle depend de la repartition, dans le plan
de recrutement , entre les personnes malades et les personnes saines. Pour eviter
de tirer un echantillon dont la repartition malades/sains soit representative de la
population totale et conserver ainsi la souplesse de recrutement , lepidemiologiste
a besoin dune mesure du lien entre la consommation de tabac et la maladie qui soit
invariante a la proportion : cest lodds ratio.
Dune maniere generale, soit y la variable binaire mesurant la survenance dun
evenement (exemple : etre atteint dun cancer) : y = 1 si levenement survient, 0
sinon. Soit X une caracteristique binaire du patient (exemple : fumeur X = 1
vs non fumeur X = 0). Les tables precedentes secrivent sous la forme :
X=1 X=0
y=1 a b
y=0 c d
ou a, b, c et d sont des effectifs. On appelle cote (au sens des parieurs) dun evenement
le rapport de la probabilite de levenement a celle de son complementaire. On parle
aussi de risque relatif. La cote peut se calculer pour chaque type de patient caracterise
par X. Pour les individus X = 1, il vaut :
a
p(y = 1|X = 1) a+c a
= c =
p(y = 0|X = 1) a+c c
Pour les individus X = 0, il vaut :
p(y = 1|X = 0) b
=
p(y = 0|X = 0) d
Le rapport des cotes (en anglais odds ratio ) est le rapport de ces deux cotes. Il
vaut donc :
a b
OR = (24)
c d
40
Ce rapport est invariant a la repartition entre patients malades (y = 1) et patients
sains (y = 0). Si on prend, par exemple, k fois plus de y = 1, a et b sont remplaces
par ka et kb (pour autant que le tirage des personnes malades soit aleatoire),
mais OR ne change pas.
OR est bien une mesure dassociation, qui mesure le lien entre la caracteristique
X et la survenance de levenement y = 1. En effet, on a :
a b
p(y = 1|X = 1) p(y = 1|X = 0) =
a+c b+d
bc
= (OR 1)
(a + c)(b + d)
En consequence, si OR = 1, levenement y et la caracteristique X sont independants.

Si OR > 1 (resp. OR < 1), le lien entre y et X est positif (resp. negatif).
On insistera sur le fait que lodds ratio nest pas un rapport de probabilites, mais
un rapport de rapports de probabilites. Il secrit :
p(y = 1|X = 1) p(y = 1|X = 0)

OR =
p(y = 0|X = 1) p(y = 0|X = 0)
et non :
OR = p(y = 1|X = 1)/p(y = 1|X = 0)
Ainsi, avec le deuxieme tableau de donnees, lodds ratio est egal a (60/90)/(60/190),
cest-a-dire 19/9 soit 2, 1 environ. Le rapport des probabilites est, quant a lui, egal
a (60/150)/(60/250) soit 1, 66.
I.6.b Odds ratio et analyse multivariee

Letude du lien entre tabac et cancer peut etre affinee en introduisant dautres
variables comme lage pour savoir si, a age fixe, limpact de la consommation de tabac
sur la survenance dun cancer est toujours le meme. Pour ce faire, les epidemiologistes
ont naturellement recours au modele logit, car le parametre associe a la variable
binaire etre ou non fumeur sinterprete en termes dodds ratio.
Pour le voir, on designe par x1 le fait de fumer ou non (1 etant le parametre
associe) et par x(K1) les autres variables du modele (avec (K1) comme parametres
associes). On part de legalite (5) ou (11) :
1
P (y = 1|x) =
1 + ex
On a aussi :
ex
P (y = 0|x) = 1 P (y = 1|x) =
1 + ex
Il vient alors :
41
P (y = 1|x)
= ex
P (y = 0|x)
ou encore :

P (y = 1|x)
ln = x (25)
P (y = 0|x)
Fixons les variables x(K1) a des valeurs quelconques x(K1) . Ecrivons lexpression
(25) pour x1 = 1 (fumeur) dune part, et pour x1 = 0 (non fumeur) dautre part, les
autres variables restant fixees a leurs valeurs x(K1) . On obtient respectivement :
P (y = 1|x1 = 1, x(K1) )

ln = 0 + 1 + (K1) x(K1)
P (y = 0|x1 = 1, x(K1) )
et :
P (y = 1|x1 = 0, x(K1) )

ln = 0 + (K1) x(K1)
P (y = 0|x1 = 0, x(K1) )
Par difference, on obtient :
P (y = 1|x1 = 1, x(K1) ) P (y = 1|x1 = 0, x(K1) )

ln ln = 1
P (y = 0|x1 = 1, x(K1) ) P (y = 0|x1 = 0, x(K1) )
cest-a-dire :
P (y=1|x1 =1,x
(K1) )

P (y=0|x1 =1,x(K1) )
ln P (y=1|x = 1
1 =0,x(K1) )
P (y=0|x1 =0,x(K1) )
En prenant lexponentielle des deux membres de lexpression, on obtient :

P (y=1|x1 =1,x(K1) )
P (y=0|x1 =1,x(K1) )
P (y=1|x1 =0,x(K1) )
= exp[1 ] (26)
P (y=0|x1 =0,x(K1) )
On reconnat a gauche du signe degalite lexpression de lodds ratio cf (24)

associe a x1 , les autres variables observees etant fixees a des valeurs quelconques.
Lodds ratio sexprime donc tres simplement en fonction du seul parametre attache
a x1 . Sa valeur sobtient en remplacant 1 par la valeur estimee 1 .
La contrepartie de cette simplicite est la difficulte a exposer les resultats, cest-a
dire a traduire lexpression (26) en des termes aisement comprehensibles. La lecture
precise de (26) consiste a dire quun fumeur (i.e. x1 = 1) a exp[1 ] fois plus de
risques de developper un cancer (i.e. y = 1) quun non-fumeur (x1 = 0), en ayant en
tete que le risque est ici un risque relatif (voir page 40) mesure par un rapport de
probabilites et non par une simple probabilite. Le message nest donc pas toujours
aise a faire passer, surtout si on vise un public non initie.
42
I.6.c Les effets marginaux
Leffet marginal 30 dune variable est la seconde maniere devaluer la significativite
pratique du parametre qui lui est associe. Cette seconde solution a lavantage de
rendre les resultats dun logit plus faciles a lire quavec lapproche par les odds ratio.
En revanche, leffet marginal peut etre estime de plusieurs facons, qui ne conduisent
pas exactement aux memes resultats.
Le calcul des effets marginaux depend de la nature discrete ou continue de la
variable. Commencons par le premier cas.
Prenons dabord le cas dune variable binaire, x1 par exemple. Pour obtenir son
effet marginal, on calcule la probabilite P (y = 1|x) pour x1 = 1 dune part, et pour
x1 = 0 dautre part. Leffet marginal de x1 sur P (y = 1|x) est la difference de ces
deux probabilites :
= G(0 + 1 + 2 x2 + . . . + K xK ) G(0 + 2 x2 + . . . + K xK ) (27)
ou G(x) = 1/[1 + ex ].
A la difference de lodds ratio qui ne depend que de 1 voir expression (26)
et peut donc etre facilemement estime en remplacant 1 par 1 , leffet marginal est
fonction non seulement des parametres du modele mais aussi de toutes les variables
x autres que x1 . Il faut donc leur attribuer des valeurs pour pouvoir estimer .
Une premiere possibilite est de partir du niveau individuel, de calculer la quan-
tite (27) pour chaque individu avec ses propres valeurs de x2 , x3 , . . . , xK , en don-
nant aux leurs valeurs estimees . On obtient ainsi la variation individuelle de
P (y = 1|x) due a la seule variation de x1 , cest-a-dire en maintenant constantes
les caracteristiques x2 , x3 , . . . , xK de lindividu. Leffet marginal de x1 est alors
la moyenne des variations individuelles ainsi calculees. Formellement, on procede
comme suit :
(i) On calcule pour chaque individu i de lechantillon la valeur predite de la quantite
(27), i.e. celle obtenue en remplacant par :
i = G(0 + 1 + 2 x2i + . . . + K xKi ) G(0 + 2 x2i + . . . + K xKi )
(ii) On prend la moyenne arithmetique de ces n valeurs predites.

Leffet marginal de x1 sur P (y = 1|x) est donc estime par :
n
1X 1 1
(28)
n 1 + e (0 +1 +2 x2i +...+K xKi ) 1 + e(0 +2 x2i +...+K xKi )
i=1
Une autre solution est de fixer les variables x2 , . . . , xK a des valeurs quelconques :
x2 , . . . , xK , les memes pour tous les individus. Leffet marginal de x1 sur P (y = 1|x)
30. Certains auteurs notamment J.M. Wooldridge (op cite, p 577) parlent deffet partiel. Nous
avons choisi marginal plutot que partiel car cest le terme le plus souvent utilise dans la litterature.
43
est alors estime par :
= G(0 + 1 + 2 x2 + . . . + K xK ) G(0 + 2 x2 + . . . + K xK )
On prend generalement comme valeurs x2 , . . . , xK , les moyennes des x : x2 , . . . , xK .

Ce faisant, on se situe au point moyen de lechantillon. Tout se passe alors comme
si on calculait leffet marginal de x1 pour l individu moyen , qui est un individu
fictif. Par exemple, si x2 est la variable de sexe et si lechantillon est compose a 60%
dhommes (x2 = 0) et a 40% de femmes (x2 = 1), alors x2 = 0.4 31 .
La premiere maniere expression (28) de calculer leffet marginal est en general
retenue comme preferable a la seconde, car elle respecte mieux le caractere non
lineaire de la relation entre les variables x et la probabilite P (y = 1|x). La seconde
maniere considere implicitement que la moyenne des quantites G(ai ), ou ai = 0 +
. . . + K xK , est egale a G(ai ), ou ai est la moyenne des ai , ce qui nest pas exact car
la fonction G nest pas lineaire.
Un cas particulier important, dont on reparlera dans la seconde partie du docu-
ment (voir page 44) : le modele a une seule variable, notee x1 , de nature binaire.
Leffet marginal de x1 est egal a P (y = 1|x1 = 1) P (y = 1|x1 = 0). La quantite
P (y = 1|x1 = 1) (resp. P (y = 1|x1 = 0)) sestime par la proportion des individus
appartenant a la categorie C1 (y = 1) parmi tous ceux dont x1 = 1 (resp. x1 = 0).
Ces deux proportions sont directement calculables sur lechantillon. Leur difference
est exactement leffet marginal de x1 .
Ces types de calcul setendent sans difficulte a une variable polytomique. Suppo-
sons, par exemple, que x1 , x2 et x3 representent les trois modalites dune variable
polytomique. Prenons x1 comme modalite de reference. On a donc 1 = 0 (voir
section I.2). De la meme maniere que leffet marginal moyen dune variable binaire
est fonde sur lexpression (27), leffet marginal moyen de la variable polytomique a
trois modalites (i.e. les effets moyens des modalites de la variable) est fonde sur les
deux quantites :
2 = G(0 + 2 +4 x4 + . . . + K xK )
G(0 + 4 x4 + . . . + K xK ) (29a)
3 = G(0 + 3 +4 x4 + . . . + K xK )
G(0 + 4 x4 + . . . + K xK ) (29b)
Supposons maintenant la variable x1 continue ou quasi-continue (comme lage).

Cela a un sens de deriver lexpression (11) par rapport a x1 . On obtient, tous calculs
31. Lindividu moyen est un hermaphrodite ! Notons que dans le cas dune variable polytomique
m modalites, on retient les valeurs moyennes des m 1 indicatrices representant les m 1 modalites
autres que la modalite de reference.
44
faits :
P (y = 1|x) exp(x)
= 1
x1 [1 + exp(x)]2
Cette quantite est leffet marginal de x1 sur P (y = 1|x). Par exemple, si x1 est lage,
limpact sur la probabilite P (y = 1|x) du vieillissement dun an (i.e. age = 1) est
egal a :
exp(x)
1 (30)
[1 + exp(x)]2
Comme dans le cas precedent, il y a deux possibilites pour calculer la valeur de leffet
marginal. La premiere consiste a calculer la quantite (30) pour chaque individu de
lechantillon, puis de prendre la moyenne arithmetique de ces quantites individuelles.
Leffet marginal de x1 sur P (y = 1|x) est estime par :
n
" n #
1X exp(xi ) 1X exp(xi )
1 = 1 (31)
n [1 + exp(xi )]2 n [1 + exp(xi )]2
i=1 i=1
La seconde solution est fixer les valeurs des autres variables (au point moyen de
lechantillon, par exemple). La aussi, la premiere solution est preferable.
Deux remarques, pour terminer. Le calcul des effets marginaux dune variable
continue au moyen de (31) est pleinement justifie lorsque la variable se compte
en unites de mesure, comme par exemple lage (mesure en annees) ou le revenu
(mesure en euros). En revanche, il lest moins lorsque la variable na pas dunite de
mesure, comme une note recue par un eleve a une epreuve : mesurer leffet dune
augmentation dun point de la note sur la variable y na pas de valeur en soi puisque
le correcteur peut choisir de noter sur 10 ou sur 20, ou utiliser un autre systeme de
notation. En revanche, comme une note sert a classer les eleves, on peut les repartir
en plusieurs groupes selon leur classement, par exemple 4 groupes selon les quartiles
de la distribution des notes : le premier groupe comprendrait les 25% deleves les
moins bien notes, le second groupe les 25% mieux notes que les precedents, et ainsi
de suite. Cela revient a transformer la variable continue en variable polytomique a
4 modalites, et les effets marginaux se calculent comme indique precedemment.
Seconde remarque, les effets marginaux, meme sils ont lavantage de permettre
une lecture plus immediate que les odds ratio, ne sont pas la panacee. Car lechelle
logistique, sur laquelle se fonde la mesure par les odds ratio, est bien mieux adaptee
aux cas ou lune des deux categories contient beaucoup plus dindividus que lautre.
Un exemple : x1 etant une variable binaire, supposons que la probabilite dapparte-
nance a C1 soit de 4% lorsque x1 = 0 et de 6% lorsque x1 = 1. Limpact apparent
de x1 sur lappartenance a C1 est donc de 2 points. Ce gain de 2 points est, dans
labsolu, (tres) faible. En revanche, il correspond a une augmentation relative de 50%
de la probabilite, ce qui donne limpression que limpact est tres important. Les odds
45
ratio combinent justement les deux aspects, une evolution faible dans labsolu mais
relativement importante 32 . Ce cas de figure est frequent en epidemiologie lorsquelle
analyse des maladies (relativement) rares, ce qui explique pourquoi les odds ratio y
soient bien adaptes.
I.6.d Significativite statistique des effets marginaux

Il reste a calculer les ecarts-types des grandeurs (31) ou (28) pour en apprecier la
precision en calculant des intervalles de confiance (voir section I.3.b). Pour ce faire,
on utilise une methode, appelee methode delta, traduction litterale de lappellation
anglo-saxonne delta method. Le principe est le suivant.
On a estime un jeu de parametres k (k = 0, 1, . . . , K). On connat la matrice de
variance covariance des estimateurs, notee V ar(). On sinteresse a la grandeur ,
qui est une fonction connue des parametres k : = h(). Une valeur estimee de
est donnee par : = h(). Pour en obtenir la variance, on applique la formule :
h() h()
2 = V ar() (32)

ou h()/ (resp. h()/ ) est le vecteur ligne (resp. colonne) des derivees
partielles de h par rapport aux k .
Un exemple dapplication, pour illustrer la methode. Supposons que notre gran-
deur dinteret soit = 2 /1 , ou 1 et 2 sont deux parametres du modele. Leurs
valeurs estimees sont 1 = 0.5 et 2 = 0.75. Leurs ecarts-types sont respectivement
0.2 et 0.3 (les variances respectives sont donc 0.04 et 0.09), et la covariance de 1 et
2 est de 0.01. La matrice de variance covariance est donc egale a :
!
0.04 0.01
V ar(1 , 2 ) =
0.01 0.09
Une valeur estimee de est : = 2 /1 = 0.75/0.5 = 1.5. Les derivees partielles de

h(1 , 2 ) sont egales a :
h(1 , 2 ) 2 0.75 h(1 , 2 ) 1 1

= = = 3 et = = =2
1 12 0.25 2 1 0.5
Par consequent, le carre de lecart-type de , donne par (32), est egal a :

! ! !
0.04 0.01 3 0.10
2
= 3 2 = 3 2 = 0.60
0.01 0.09 2 0.15
Il sensuit que lecart-type de est a peu pres egal a 0.775.

Pour calculer les ecarts-types des effets marginaux connaissant la matrice de va-
32. Le contraste logistique voir section I.1.b traite aussi cet aspect des choses.
46
riance covariance des k , il faut calculer leurs derivees partielles par rapport aux k
puis appliquer la formule (32). Les calculs ne sont pas reproduits ici, mais ils sont
integres dans la macro SAS utilisee dans la partie suivante du document.
47
48
II. Le modele Logit : application
49
50
II.1 Introduction : remarques generales
La suite du document est consacree au traitement complet dun exemple. Il sagit
de mettre en pratique ce qua detaille la premiere partie : estimer les parametres
du modele, juger sa qualite, realiser des tests dhypothese, . . . . On accordera une
attention particuliere a la presentation des resultats, surtout sils sont destines a un
public depassant largement le perimetre des connaisseurs de loutil.
Avant de presenter lexemple dapplication, on insistera sur deux points dont lim-
portance est souvent sous-estimee. Le premier concerne la specification du modele,
cest-a-dire le choix raisonne des variables. Le second a trait a lutilisation dune
expression toutes choses egales par ailleurs censee caracteriser le travail empi-
rique effectue avec un modele de type logit, qui peut induire le lecteur en erreur.
II.1.a Choix et organisation des variables

Le choix des variables est etroitement lie a la question que lon se pose et qui
motive lutilisation du modele logit. Cela concerne avant tout, bien entendu, les
variables x, mais aussi la variable y, comme le montre le cas suivant.
Lorsquon etudie les differences de salaires entre les hommes et les femmes, on est
souvent amene a specifier un modele de regression lineaire qui explique le niveau de
la remuneration par la variable de sexe et plusieurs autres le niveau de diplome, la
quotite de travail, le secteur dactivite, . . . ayant le statut de variables de controle.
Les estimations du modele donnent systematiquement une relation negative entre le
fait detre une femme et le niveau de salaire. Supposons maintenant quon sinteresse
a la relation inverse, et quon cherche a expliquer par un modele logit le sexe
de la personne (variable binaire) par son niveau de salaire. Cela parat a priori
tres etrange voire absurde. Cest pourtant tout a fait justifie si on se place dans
un contexte particulier, celui de limputation de valeurs manquantes. Supposons en
effet quon ait collecte un ensemble dinformations sur un echantillon de salaries. On
sapercoit que la variable de sexe nest pas toujours renseignee. On souhaite pourtant
faire des analyses sur lensemble de lechantillon, sans eliminer les observations pour
lesquelles on ne sait pas si lindividu est un homme ou une femme. Une solution est
de commencer par estimer un modele logit expliquant le sexe par le maximum de
variables qui lui sont a priori correlees. Lestimation se fait sur les seuls individus de
lechantillon pour lesquels on dispose de toutes les informations. Une fois connues les
valeurs des parametres du modele, on est capable de predire, pour chaque individu
de sexe inconnu de lechantillon, la probabilite quil soit un homme ou une femme
et dimputer une valeur (par exemple 1 pour un homme et 2 pour une femme) a la
variable de sexe.
Mis a part ce cas tres particulier, la question du choix se pose avant tout pour
les x : quelles variables doit-on introduire dans le modele et pourquoi ? Cela depend
de la finalite de la modelisation, et en particulier de la hierarchie que lon etablit au
sein des variables x.
Si on sinteresse a une caracteristique individuelle particuliere et a son role dans
51
lappartenance a C1 ou C0 , alors le modele sera construit autour de cette variable
particuliere, appelee ici variable principale. Il faudra la distinguer des autres carac-
teristiques introduites dans le modele, qui auront le statut de variables de controle
car leur fonction sera avant tout de controler ces effets de structure (ou effets de
composition) dont on a parle a plusieurs reprises. Dans lexemple introductif en
avant-propos du document, la variable de nationalite est la variable principale, et le
modele logit est utilise pour controler les effets de structure dus, entre autres, aux
differences de niveaux de diplome entre Francais et etrangers, le diplome etant alors
considere comme une variable de controle. La question a laquelle on cherchera a
repondre est : quel role joue la variable principale dans lappartenance des individus
aux categories C0 et C1 , compte tenu du fait que ces deux sous-populations ne se
ressemblent pas ?
Sil sagit de mettre en evidence les traits distinctifs des deux categories C0 et
C1 , cest-a-dire de mener une analyse discriminante (voir section I.1.d), alors on doit
traiter toutes les variables x au meme niveau et ne pas instaurer de hierarchie a
priori entre elles. Le modele sera utilise pour repondre a une question du type :
sur quelle(s) caracteristique(s) se distinguent fondamentalement les deux categories
dindividus ?
Independamment du mode dutilisation du logit analyse discriminante sans pri-
viligier a priori de variable, ou bien analyse centree sur une variable principale il
est rare quon parvienne du premier coup a trouver les bonnes caracteristiques x a
introduire dans le modele. Il est parfois si ce nest souvent necessaire de faire
des ajustements en fonction de ce que produit lestimation du modele. Le choix des
variables doit aussi etre guide par la facilite a presenter les resultats, qui conditionne
largement leur lisibilite.
II.1.b Toutes choses egales par ailleurs, une expression a eviter

Une des difficultes de lusage du modele logit est de resister a ce quon appelle la
tentation de la causalite . On entend par la lutilisation de loutil dans sa dimen-
sion explicative voir la section I.1.c dans lobjectif destimer l effet pur de
telle ou telle variable (x1 , x2 , . . . ) sur la variable categorielle y. Ceci est particuliere-
ment malvenu lorsque la variable principale, x1 mettons, est une variable decrivant
ou mesurant un comportement et peut etre suspectee dendogeneite. Lendogeneite
se produit, rappelons-le, lorsque des facteurs inobserves, non pris en compte dans
le modele et qui ne figurent donc pas dans la liste des variables x, sont susceptibles
dinfluencer a la fois x1 et y. On a cite voir la section I.1.d lexemple de la va-
riable caracterisant le secteur denseignement (public ou prive) dun etablissement
dans un modele cherchant a expliquer son impact dans la reussite scolaire. On le re-
dit, ignorer ces phenomenes dendogeneite peut conduire a des conclusions erronees,
voire dans le pire des cas contraires a la realite.
Lexpression toutes choses egales par ailleurs est une autre maniere dexprimer
cette idee de causalite, surtout si on la prend au pied de la lettre, cest-a-dire si on
52
considere que dans les choses en question il y a aussi bien des caracteristiques
observees et figurant dans la liste des variables x, que des caracteristiques inobservees
ou inobservables. La aussi, il convient detre tres prudent dans lusage de lexpression.
Car il ne faut pas oublier que les resultats des estimations sont conditionnels a la
liste des variables x introduites dans le modele, cest-a-dire quils dependent des

variables introduites. Ils peuvent varier, parfois substantiellement, si on en ajoute
ou si on en retire. Lexemple dapplication traite dans les pages suivantes va lillustrer
parfaitement.
II.1.c Presentation de lexemple dapplication

Lexemple retenu ici pour appliquer le modele logit sappuie sur une exploitation
du panel 1995 de la Direction de lEvaluation, de la Prospective et de la Performance
(DEPP) du ministere en charge de leducation nationale, panel qui suit sur longue
periode une cohorte denviron 18 000 eleves entres en 6eme en 1995. Lechantillon
detude contient 13 500 eleves de France metropolitaine quon a pu suivre jusquen
classe de seconde, qui sont passes par une troisieme generale et dont les variables
utilisees dans lanalyse (cf infra) ont ete correctement renseignees. Cest le logiciel
SAS avec sa procedure logistic qui est utilise.
Dans un premier temps, on souhaite etudier le role joue par leducation prioritaire
dans lorientation des eleves en fin de troisieme. Plus precisement, on se demande si
le fait pour un eleve de troisieme generale detre dans un etablissement situe en zone
deducation prioritaire est un avantage ou au contraire et comme on le pense sou-
vent un handicap pour passer en seconde generale (ou technologique). Pour cette
etude, la variable dinteret est la variable binaire qui distingue les eleves qui ont ete
affectes en seconde generale (categorie C1 ) et ceux qui lont ete en seconde profes-
sionnelle (categorie C0 ). La variable principale est la variable binaire qui distingue
les eleves en education prioritaire et les autres.
On va le voir, il y a des effets de structure quil faut demeler pour repondre
correctement a la question posee. Le recours a un modele logit est de ce fait justifie.
Pour controler les effets de structure, les variables (de controle) on ete regroupees en
quatre types : des caracteristiques demographiques de leleve (annee de naissance et
sexe), son niveau a lentree en sixieme, son milieu social et lacademie ou il etudie.
Apres avoir presente quelques statistiques descriptives bien choisies de maniere a
justifier le recours au logit, on se livre ensuite a plusieurs estimations en introduisant
une a une les variables de controle. Cette demarche est a visee pedagogique et na pas
a etre adoptee lors dune etude. Il sagit ici de bien comprendre les roles respectifs
des differentes variables de controle et de faire prendre conscience de lambigute de
lexpression toutes choses egales par ailleurs.
Dans un second temps, on ne privilegiera pas de variable. La variable deducation
prioritaire sera traitee au meme niveau que les autres. On utilisera le modele comme
un outil danalyse discriminante pour repondre a une question du type : parmi toutes
les variables a notre disposition, quelle est celle ou quelles sont celles qui joue(nt)
53
le(s) premier(s) role(s) dans lorientation en fin de 3eme ?
54
II.2 Premieres statistiques descriptives
Les donnees sont conservees dans une table SAS, appelee ici tab. La variable
dinteret, nommee secondeg, est la variable binaire distinguant les eleves qui ont
ete orientes en seconde generale (secondeg=1) a lissue de leur troisieme, et ceux qui
ont suivi la voie professionnelle (secondeg=0). La variable principale est la variable
binaire zep qui vaut 1 si leleve etudie en zone deducation prioritaire (11,4% des
eleves), et 0 sinon.
Pour poser le probleme, on commence par croiser la variable dinteret et la variable
principale, en utilisant la procedure freq de SAS :
proc freq data=tab;

table zep*secondeg;
run;
La table 1 qui sen deduit donne la part des eleves de troisieme qui passent en seconde
generale selon quils etudient ou non en zone deducation prioritaire. On constate un
ecart de 13,5 points, dans le taux de passage en seconde generale, entre les eleves en
ZEP et ceux hors ZEP, au benefice de ces derniers. Apparemment, etudier en ZEP
diminuerait les chances de passer en seconde generale.
Table 1. Taux de passage en seconde generale se-

lon la zone de letablissement
Part des eleves

orientes en
seconde generale (%)
ZEP 55,3
Hors ZEP 68,8
Ensemble 67,3
Lecture : 55,3% des eleves de troisieme etudiant en ZEP
sont passes en seconde generale.
Source : DEPP Panel 1995.
Mais les eleves en ZEP et ceux hors ZEP ne se ressemblent pas. Pour le voir, il
suffit de croiser la variable zep avec la variable retard, qui vaut 1 si leleve a au
moins un an de retard a lentree en 6eme, et 0 sinon :
proc freq data=tab;

table zep*retard;
run;
La table 2 montre que les eleves de ZEP sont, en proportion, deux fois plus nombreux
a etre entres en sixieme avec au moins un an de retard.
55
Table 2. Retard en sixieme selon la zone de letablis-
sement
Part des eleves

en retard
en sixieme (%)
ZEP 22,8
Hors ZEP 11,3
Ensemble 12,6
Lecture : 22,8% des eleves de troisieme etudiant en ZEP sont
entres en sixieme avec au moins un an de retard.
Or, dune maniere generale, que lon etudie ou non en ZEP, etre entre en retard
en sixieme diminue sensiblement les chances de se retrouver en seconde generale. On
le constate en croisant les variables secondeg et retard :
proc freq data=tab;

table retard*secondeg;
run;
Un quart seulement des entrants en sixieme avec retard passe en voie generale, contre
quasiment les trois-quarts des eleves a lheure ou en avance (table 3).
Table 3. Taux de passage en seconde generale selon le

retard en sixieme
Part des eleves

orientes en
seconde generale (%)
En retard en 6eme 25,3
A lheure ou en avance en 6eme 73,3
Ensemble 67,3
Lecture : 25,3% des eleves entres en retard en 6eme sont passes
en seconde generale.
En consequence, a partir du moment ou les eleves en ZEP sont plus souvent en

retard que les autres et ou le retard scolaire est un desavantage dans lorientation
post-troisieme, il nest pas etonnant de constater que les eleves de ZEP passent moins
souvent que les autres en seconde generale. Au moins une partie des 13,5 points
56
decart (table 2) sexplique ainsi par la difference de composition des populations
deleves de ZEP dune part, hors ZEP dautre part.
Pour le voir, on dedouble la table 1, en isolant les eleves ayant au moins un an de
retard dun cote, et les eleves a lheure ou en avance de lautre :
proc freq data=tab(where=(retard=1));

table zep*secondeg;
run;
proc freq data=tab(where=(retard=0));
table zep*secondeg;
run;
La table 4 montre que lecart, dans le taux de passage, entre les eleves de ZEP et les
autres setablit a 1,3 point pour les eleves en retard et a quasiment 10 points pour
ceux a lheure ou en avance. Par consequent, le retard en sixieme explique une partie
mais seulement une partie de lecart constate dans la table 1. Compte tenu de
lage a lentree en sixieme, lecart nest plus de 13,5 points mais dun pourcentage
compris entre 1,3 point et 9,8 points.
Table 4. Taux de passage en seconde generale selon

la zone de letablissement et le retard en
sixieme
Eleves en retard Eleves a lheure

ou en avance
ZEP 24,2 64,5
Hors ZEP 25,5 74,3
Ensemble 25,3 73,3
Lecture : 24,2% des eleves de troisieme etudiant en ZEP et qui
sont entres en retard en sixieme sont passes en seconde generale.
Dautres facteurs jouent, comme la categorie sociale de leleve. Ainsi, 4% des eleves
de troisieme en etablissement ZEP sont des filles ou fils de cadres, alors que dans
les etablissements ne relevant pas de leducation prioritaire, la proportion est de
18%. Or, 91% des enfants de cadres passent en seconde generale contre 63% pour les
enfants dautres milieux sociaux. En consequence, si les eleves de ZEP sont moins
frequemment orientes en voie generale, cest en partie parce quils vivent plus souvent
dans des milieux socialement defavorises, quils sont moins souvent portes par des
familles ayant les ressources pour les aider.
On tient donc la une autre explication possible de lecart des taux de passage
ZEP/hors ZEP de la table 1 : il serait aussi du a la difference de structure sociale
des deux populations ZEP et hors ZEP.
57
Pour la neutraliser, on doit distinguer les eleves non seulement selon leur retard
a lentree en sixieme mais aussi selon leur milieu social. On est donc amene a editer
la table 1 pour quatre sous-populations (en retard/a lheure croise avec cadre/non
cadre), donc a creer quatre tables, dont il faut faire la synthese pour repondre a
la question du lien entre zone deducation et passage en seconde generale. Avec
un critere binaire supplementaire distinguant deux grandes categories deleves, cela
ferait 8 tables. Et ainsi de suite.
On voit que cette maniere de faire est impraticable. Elle lest encore plus si on
introduit des criteres a plusieurs modalites, si, par exemple, on caracterise le milieu
social de leleve en distinguant plus finement les categories sociales au lieu de sen
tenir a la dichotomie cadre/non cadre. Et si on ajoute des variables continues, comme
le niveau de leleve en sixieme, cela devient pratiquement infaisable.
Il est donc necessaire de se tourner vers un outil comme le modele logit, qui permet
ici de savoir deux choses : a milieu social et age dentree en sixieme donnes, un eleve
de ZEP a-t-il toujours moins de chances quun autre de passer en seconde generale ?
Et si oui, a combien se chiffre son handicap ? La table 1 levalue a 13,5 points, mais
sans tenir compte des specificites des eleves en ZEP en termes dage dentree en
sixieme et de milieu social. Que devient cette difference si on les prend en compte ?
58
II.3 Specifications du modele et estimation
Tout au long de cette section II.3, on va progressivement enrichir le modele en
introduisant les variables de controle les unes apres les autres.
II.3.a Introduction de la variable dage a lentree en sixieme

On commence par la variable donnant lage a lentree en sixieme. On dispose, dans
la source de donnees, de la variable annais qui nous indique lannee de naissance
de leleve. On choisit de la transformer en une variable distinguant trois categories
deleves : ceux nes avant 1984, ceux nes en 1984, ceux nes en 1985 ou apres. Les
premiers sont en retard dau moins un an a lentree en sixieme, les deuxiemes sont
a lheure et les troisiemes en avance.
Dans une etape data de SAS, on cree donc trois variables binaires a partir de la
variable annais :
retard=(annais<1984);
alheure=(annais=1984);
avance=(annais>1984);
On a affaire ici a une variable polytomique ordonnee a trois modalites (voir section
I.2), dont il faut choisir une modalite qui sera consideree comme reference. Confor-
mement a ce quon a preconise page 23, on pourrait retenir la premiere (i.e. les
eleves en retard). Pour faciliter les commentaires, on prendra plutot la modalite qui
correspond a la norme , cest-a-dire les eleves nes en 1984 (variable alheure).
Pour estimer le modele logit avec la variable deducation prioritaire et la variable

dage a lentree en sixieme, on ecrit les instructions suivantes :
proc logistic data=tab descending ;

model secondeg = zep retard avance ;
run;
Loption descending est indispensable. Elle assure que les parametres estimes sont
bien ceux du modele pour lequel la valeur 1 de la variable secondeg correspond au
passage en seconde generale 33 . La variable binaire zep est introduite telle quelle.
Pour la variable dage a lentree en sixieme, on nintroduit pas lindicatrice repre-
sentant la modalite de reference (voir section I.2.c).
Lexecution de la procedure produit les resultats reportes ci-dessous. La partie
interessante est intitulee Analysis of Maximum Likelihood Estimates. Elle pre-
sente les resultats des estimations. La colonne Parameter donne le nom des variables
introduites dans le modele (Intercept est le nom du terme constant), la colonne
Estimate donne les valeurs estimees des parametres associes aux variables du mo-
dele, la colonne Standard Error en donne les ecarts-types, et la colonne Pr > Chisq
33. Il sagit la dune bizarrerie de SAS : au lieu de coder la variable categorielle en 1/0 comme il
est usuel de le faire, SAS la code par defaut en 1/2.
59
le seuil de significativite (voir section I.5), la colonne precedente presentant les va-
leurs de la statistique de test utilisee par defaut par SAS.
The LOGISTIC Procedure
Model Information
Data Set WORK.TAB

Response Variable secondeg
Number of Response Levels 2
Model binary logit
Optimization Technique Fishers scoring
Number of Observations Read 13499

Number of Observations Used 13499
Response Profile
Ordered Total
Value secondeg Frequency
1 1 9081
2 0 4418
Probability modeled is secondeg=1.
Model Convergence Status
Convergence criterion (GCONV=1E-8) satisfied.
Model Fit Statistics
Intercept
Intercept and
Criterion Only Covariates
AIC 17071.165 15417.143

SC 17078.676 15447.185
-2 Log L 17069.165 15409.143
Testing Global Null Hypothesis: BETA=0
Test Chi-Square DF Pr > ChiSq
Likelihood Ratio 1660.0223 3 <.0001

Score 1703.1205 3 <.0001
Wald 1324.0456 3 <.0001
60
Analysis of Maximum Likelihood Estimates
Standard Wald
Parameter DF Estimate Error Chi-Square Pr > ChiSq
Intercept 1 1.0048 0.0222 2047.5954 <.0001

zep 1 -0.3831 0.0597 41.1646 <.0001
retard 1 -2.0170 0.0599 1134.1102 <.0001
avance 1 1.8369 0.1924 91.1643 <.0001
Odds Ratio Estimates
Point 95% Wald

Effect Estimate Confidence Limits
zep 0.682 0.606 0.766

retard 0.133 0.118 0.150
avance 6.277 4.305 9.152
La table 5 est la maniere standard de reporter les resultats des estimations 34 . Il

est ainsi usuel de positionner la significativite de chaque parametre par rapport a
trois seuils predefinis en lespece, 1%, 5% et 10% et de la representer par des
asterisques. Ainsi, ladjonction de trois asterisques a la valeur du parametre signifie
quil est significatif au seuil de 1%. Avec deux asterisques, il nest pas significatif au
seuil de 1%, mais lest au seuil de 5%. Lorsquil ny a quun asterisque, le parametre
est significatif au seuil de 10% mais pas au seuil de 5%. Enfin, en labsence das-
terisque, il nest pas significatif au seuil de 10%. Derniere precision, la modalite de
reference de chaque variable qualitative (binaire ou polytomique) est rappelee par
la mention (ref= . . . ) attachee au libelle de la variable.
Table 5. Ajout de la variable Age a lentree en sixieme
Variable Parametre estime Ecart-type

Constante 1,005*** 0,022
Appartenance a une ZEP (ref=non)
oui 0,383*** 0,060
Age a lentree en sixieme (ref=a lheure)
en retard 2,017*** 0,060
en avance 1,837*** 0,192
Seuils de significativite : *** = 1% ; ** = 5% ; * = 10%.
Le signe dun parametre associe a une variable indique dans quel sens influe cette
variable sur la variable dinteret. Ainsi, le parametre de la variable zep est negatif :
34. Nous verrons en section II.4 comment presenter les resultats a un public moins initie.
61
etre en education prioritaire influe negativement sur le passage en seconde generale.
Les deux autres indicatrices, representant les modalites en retard et en avance de
la variable dage a lentree en sixieme, sinterpretent en regard de la modalite de
reference (etre a lheure) : etre en retard est, par rapport au fait detre a lheure,
penalisant pour passer en seconde generale (le parametre de lindicatrice retard est
negatif) ; en revanche, etre en avance est un avantage, toujours par rapport au fait
detre a lheure (le parametre de lindicatrice avance est positif).
Tous les parametres sont significatifs au seuil de 1%. Cela signifie quon a moins
de 1% de risques de se tromper en affirmant que ces parametres sont differents de 0
(voir section I.5.a). En realite, si on se reporte a la sortie SAS (page 60 et suivante),
le risque de se tromper est beaucoup plus faible : moins de 1/10000 (voir la colonne
Pr > Chisq). On peut donc affirmer sans crainte que les trois indicatrices influent
sur lorientation post-troisieme.
En conclusion, la zone deducation prioritaire joue negativement sur lorientation
en seconde generale meme en tenant compte de lage dentree en sixieme.
II.3.b Ajout de la distinction fille/garcon

On poursuit en introduisant la variable renseignant le sexe de leleve. On aura
prealablement cree la variable fille, qui vaut 1 si leleve est une fille et 0 sinon, et
qui comme toute variable binaire est introduite en letat dans linstruction model de
la procedure. On relance donc la procedure logistic :

model secondeg = zep retard avance fille;
run;
Les resultats, issus de la sortie SAS, sont mis en forme et reportes dans la table 6.
Table 6. Ajout de la variable Sexe de leleve

Constante 0,806*** 0,029
oui 0,382*** 0,060
en retard 2,035*** 0,060
en avance 1,845*** 0,193
Sexe de leleve (ref=garcon)
fille 0,400*** 0,040
Les filles, a zone deducation et age en sixieme donnes, vont davantage en seconde
generale que les garcons. On remarque que les valeurs des parametres des variables
62
deja presentes dans le modele ne changent quasiment pas (sauf celle de la constante).
Cest signe que la variable Sexe de leleve nest pas liee aux variables de zone dedu-
cation prioritaire et dage a lentree en sixieme. Il y a, a peu de choses pres, autant
de filles que de garcons en zone deducation prioritaire, et lage en sixieme des filles
et des garcons est le meme ou peu sen faut. On le verifie, sur les donnees, en croisant
ces variables entre elles.
II.3.c Ajout du milieu social de leleve

La source de donnees contient la variable pcschef a 7 modalites, numerotees de 1
a 7, qui repere la categorie sociale du chef de menage 35 . La modalite 7 regroupe les
cas ou le chef de famille a declare etre sans activite et les quelques autres ou il na
pas repondu a la question sur sa categorie sociale dappartenance, ou par consequent
la variable de milieu social est a valeurs manquantes .
Avant de poursuivre, il convient de sarreter un moment sur le traitement general
des variables a valeurs manquantes, cest-a-dire celles qui ne sont pas renseignees
alors quelles devraient letre.
Une solution serait deliminer les observations ou le cas se presente. Ainsi, on
aurait pu supprimer de notre analyse tous les eleves dont on ignore la categorie so-
ciale de ses parents. Cest une solution qui doit etre evitee, pour plusieurs raisons.
Dabord, elle fait diminuer la taille de lechantillon detude, avec la perte de preci-
sion des estimations que cela implique (voir page 28). Ensuite, si les cas de valeurs
manquantes ne sont pas distribues au hasard, supprimer les observations concernees
risquerait de conduire a un echantillon qui ne serait plus representatif de la popu-
lation etudiee et quil faudrait alors redresser. Enfin, lorsque cest une variable de
controle 36 qui est concernee, il faut rappeler quelle est somme toute secondaire par
rapport a la variable principale, et que cest le role joue par la variable principale
qui importe avant tout.
Plusieurs solutions alternatives sont envisageables. Un premier traitement possible
consiste a creer une modalite non renseignee et la variable indicatrice qui va avec,
a condition que le nombre de valeurs manquantes soit suffisamment eleve. Une autre
possibilite est de regrouper les valeurs manquantes avec une autre modalite de la
variable que lon pense a priori etre proche. Cest ce qui a ete fait avec les absences
de reponse a la question du milieu social, qui ont ete absorbees dans la categorie 7
(sans activite). Des analyses sur dautres donnees conduites par ailleurs ont en effet
montre que ces non repondants ont un profil tres proche des inactifs.
Il y a en pratique deux manieres dintegrer la variable polytomique pcschef a

lanalyse. Commencons par la plus econome en programmation. Elle consiste a faire
traiter par la procedure logistic la transformation de la variable pcschef en in-
35. On verra section II.9 que lajout de la categorie sociale comme variable de controle ne va
pas de soi.
36. Sil manque des valeurs a la variable principale, alors il faut se resoudre a supprimer les
observations correspondantes, avec tous les inconvenients que cette suppression implique.
63
dicatrices. Pour ce faire, on ajoute linstruction class en precisant la modalite de
reference on a pris ici la modalite 7 sans activite professionnelle et non repon-
dants de la maniere suivante (Attention ! La variable mise dans linstruction
class doit obligatoirement etre en format caractere) :

class pcschef (ref=7) / param=ref;
model secondeg = zep retard avance fille pcschef;
run;
On obtient en sortie :
Standard Wald
Intercept 1 -0.1771 0.1260 1.9766 0.1597

zep 1 -0.0627 0.0622 1.0161 0.3134
retard 1 -1.8560 0.0623 888.0160 <.0001
avance 1 1.6013 0.1957 66.9244 <.0001
fille 1 0.4959 0.0412 145.0180 <.0001
pcschef 1 1 0.7561 0.1664 20.6380 <.0001
pcschef 2 1 0.9170 0.1389 43.5526 <.0001
pcschef 3 1 2.3521 0.1452 262.2744 <.0001
pcschef 4 1 1.4266 0.1330 115.1187 <.0001
pcschef 5 1 0.6788 0.1311 26.8223 <.0001
pcschef 6 1 0.3000 0.1269 5.5872 0.0181
Cette maniere de proceder permet dobtenir directement, sans instruction supple-

mentaire, le resultat du test de nullite jointe des parametres associes aux modalites
de la variable de milieu social (voir section I.5.b, page 37). Il se trouve dans la partie
de la sortie standard de SAS intitulee Type 3 Analysis of Effects. La derniere
ligne donne la valeur de la statistique de test et le seuil de significativite :
Type 3 Analysis of Effects
Wald
Effect DF Chi-Square Pr > ChiSq
zep 1 1.0161 0.3134

retard 1 888.0160 <.0001
avance 1 66.9244 <.0001
fille 1 145.0180 <.0001
pcschef 6 833.1727 <.0001
Le seuil de significativite (Pr > ChiSq) nous dit que le risque de nous tromper en
affirmant que les 6 parametres ne sont pas tous egaux a 0 est inferieur a 1/10000. On
peut donc affirmer que le milieu social joue (globalement) un role dans lorientation
en seconde.
64
La seconde methode pour estimer les parametres associes aux modalites de la
variable de milieu social, conforme a la demarche generale (voir section I.2.c), est de
creer 7 indicatrices et den introduire 6 dans le modele, en excluant celle representant
la modalite de reference. Les 7 indicatrices, nommees csp1 a csp7, sont obtenues
par les instructions suivantes a placer dans une etape data :
array csp(i) csp1-csp7;

do i=1 to 7;csp=(i=pcschef*1);end;
Par exemple, la variable csp5 vaut 1 si leleve est fille ou fils demploye (moda-
lite 5 de la variable pcschef), et 0 sinon. Lestimation des parametres se fait par
les instructions suivantes (la modalite de reference csp7 est exclue de linstruction
model) :

model secondeg = zep retard avance fille csp1-csp6;
run;
Standard Wald
Intercept 1 -0.1771 0.1260 1.9766 0.1597

zep 1 -0.0627 0.0622 1.0161 0.3134
retard 1 -1.8560 0.0623 888.0160 <.0001
avance 1 1.6013 0.1957 66.9244 <.0001
fille 1 0.4959 0.0412 145.0180 <.0001
csp1 1 0.7561 0.1664 20.6380 <.0001
csp2 1 0.9170 0.1389 43.5526 <.0001
csp3 1 2.3521 0.1452 262.2744 <.0001
csp4 1 1.4266 0.1330 115.1187 <.0001
csp5 1 0.6788 0.1311 26.8223 <.0001
csp6 1 0.3000 0.1269 5.5872 0.0181
On pourrait prendre la modalite 6 ( ouvriers ) comme modalite de reference,

au motif que cest la plus frequente. Dans ce cas, on ecrit :

class pcschef (ref=6) / param=ref;
model secondeg = zep retard avance fille pcschef;
run;
ou bien :

model secondeg = zep retard avance fille csp1-csp5 csp7;
run;
65
qui produit :
Standard Wald
Intercept 1 0.1229 0.0412 8.9102 0.0028

zep 1 -0.0627 0.0622 1.0161 0.3134
retard 1 -1.8560 0.0623 888.0160 <.0001
avance 1 1.6013 0.1957 66.9244 <.0001
fille 1 0.4959 0.0412 145.0180 <.0001
csp1 1 0.4561 0.1166 15.2926 <.0001
csp2 1 0.6170 0.0724 72.5420 <.0001
csp3 1 2.0521 0.0837 601.4371 <.0001
csp4 1 1.1266 0.0602 350.4400 <.0001
csp5 1 0.3788 0.0561 45.5295 <.0001
csp7 1 -0.3000 0.1269 5.5872 0.0181
Avec cette autre modalite de reference, seules les valeurs des parametres associes
aux categories sociales, ainsi que celle du parametre du terme constant (Intercept),
sont modifiees. On verifie toutefois que les ecarts entre les differentes modalites de
la variable pcschef ne changent pas. Par exemple, la difference entre les employes
(modalite 5) et les ouvriers (modalite 6) est de 0,6788-0,3000=0,3788 dans le premier
cas (i.e. modalite de reference 7) et de 0,3788-0=0,3788 dans le second cas.
Lavantage de la methode consistant a creer explicitement les indicatrices est
quelle permet de faire des tests autres que celui de la nullite jointe des parametres
associes a la variable pcschef. On peut notamment realiser un test degalite de
deux parametres, par exemple ceux des categories l (agriculteurs exploitants) et 2
(artisans, commercants et chefs dentreprise). On utilise pour ce faire linstruction
test de la procedure :

model secondeg = zep retard avance fille csp1-csp6;
test csp1=csp2;
run;
On obtient :
Linear Hypotheses Testing Results
Wald
Label Chi-Square DF Pr > ChiSq
Test 1 1.5581 1 0.2119
Si on rejette lhypothese nulle de legalite des deux parametres, on a plus de 20%

de chances de se tromper. Il est donc preferable de ne pas le faire et daffirmer
que, sur notre echantillon, on ne distingue pas de difference dans lorientation post-
troisieme entre les enfants dagriculteurs et les enfants dartisans, commercants et
66
chefs dentreprise pourvu quils soient de meme sexe, aient le meme age a lentree
en sixieme et soient dans le meme secteur denseignement (education prioritaire ou
non).
La table 7 met en forme les resultats. Le resultat le plus spectaculaire est la

modification substantielle du parametre de la variable de zone deducation. Il est
toujours negatif mais nest pas significatif au seuil de 10%. En se reportant a la
sortie de la procedure ci-dessus, on constate meme quil ne lest pas au seuil de
30% (Pr > ChiSq = 0.3134). A sexe, age en sixieme et milieu social donnes, la
zone detude ne semble 37 pas jouer de role dans laffectation en seconde generale.
La categorie sociale des parents de leleve est ainsi responsable deffets de struc-
ture dampleur importante. On a deja vu (page 57) que les enfants de cadres sont
sous-representes en ZEP et quils poursuivent plus souvent leur scolarite en seconde
generale. Ce tout dernier point est confirme par la valeur du parametre associe a
la modalite Cadres, Professions intellectuelles superieures (table 7), valeur elevee
relativement a celles des parametres des autres modalites.
Table 7. Ajout de la variable Milieu social de leleve

Constante 0,177 0,126
oui 0,063 0,062
en retard 1,856*** 0,062
en avance 1,601*** 0,196
fille 0,496*** 0,041
Milieu social de leleve (ref=sans act. prof., non rep.)
agriculteurs exploitants 0,756*** 0,166
artis., commerc., chefs dentrep. 0,917*** 0,139
cadres, prof. intell. sup. 2,352*** 0,145
prof. intermediaires 1,427*** 0,133
employes 0,679*** 0,131
ouvriers 0,300** 0,127
Il y a un autre resultat, plutot surprenant : la valeur du parametre associe a

la variable Sexe de leleve a sensiblement change apres lajout du milieu social,
indiquant quil y aurait un lien entre sexe et milieu social. Quand on regarde les
choses dun peu plus pres et que lon croise la variable de sexe avec la CSP, on
sapercoit que les filles sont surrepresentees chez les employes et les ouvriers. Cela est
37. Restons prudents ! Voir page 35.
67
du aux processus dorientation qui ont lieu (ou avaient lieu a cette epoque) au cours
du premier cycle. Notamment, les eleves des quatrieme et troisieme technologiques se
recrutent souvent parmi les fils demployes ou douvriers. Par consequent, ceux-ci se
retrouvent en moins grand nombre en troisieme generale. Autrement dit, lechantillon
que nous avons selectionne les eleves qui sont passes par la troisieme generale
nest pas representatif des entrants en sixieme en 1995. Ceci peut produire ce
quon appelle des biais de selection, cest-a-dire des resultats biaises dus au fait
que lechantillon nest pas representatif, quil concerne une population qui a ete
selectionnee. Il faut lavoir en tete. Toutefois, la selection nest pas tres marquee, en
tout cas pas suffisamment pour remettre en cause les resultats presentes ici.
II.3.d Ajout du niveau de leleve en 6eme

Deux variables, issues des epreuves nationales devaluation pour les eleves de 6eme,
permettent davoir une idee du niveau de leleve, en francais et en mathematiques,
a son entree au college. Il sagit la de variables continues, nommees fran et math,
quon ajoute en letat a la liste des variables (voir section I.2) :

model secondeg = zep retard avance fille csp1-csp6 fran math;
test fran=math;
run;
On en profite pour faire un test degalite des parametres associes aux deux variables
de niveau (instruction test), test qui donne comme resultat :
Linear Hypotheses Testing Results
Wald
Label Chi-Square DF Pr > ChiSq
Test 1 0.4353 1 0.5094
Vu le seuil de significativite (Pr > ChiSq), on ne peut pas rejeter lhypothese dega-
lite des parametres : le niveau en francais et celui en mathematiques ont la meme
force dimpact sur lorientation 38 .
La table 8 presente les resultats du modele. Lajout des variables de niveau de

leleve a son entree en sixieme change considerablement la donne. Leducation prio-
ritaire joue maintenant un role positif dans le passage en seconde generale 39 . Le
parametre associe a la variable zep est significatif au seuil de 1% (et meme au seuil
de 1/10000, dapres les sorties SAS non reproduites ici). Les effets de structure, en
38. . . . conditionnellement aux autres variables du modele . . .

39. Ce type de resultat, mais applique a dautres variables que le passage en seconde, a deja ete
mis en evidence par Jean-Paul Caille : Les collegiens de ZEP a la fin des annees quatre-vingt-
dix. Caracteristiques des eleves et impact de la scolarisation en ZEP sur la reussite , Education et
Formation, no 61, oct-dec 2001.
68
tout cas ceux captes par les variables introduites dans le modele, sont tels que leur
prise en compte inverse le signe du parametre des premieres estimations.
Table 8. Ajout des deux variables de niveau de leleve

Constante 6,240*** 0,202
oui 0,489*** 0,072
en retard 1,278*** 0,068
en avance 1,248*** 0,208
fille 0,521*** 0,048
Milieu social de leleve (ref=sans act. prof., non rep.)
agriculteurs exploitants 0,370** 0,185
artis., commerc., chefs dentrep. 0,642*** 0,155
cadres, prof. intell. sup. 1,804*** 0,161
prof. intermediaires 1,009*** 0,148
employes 0,445*** 0,146
ouvriers 0,244* 0,142
Niveau en francais (en sixieme) 0,061*** 0,003
Niveau en maths (en sixieme) 0,064*** 0,003
Autre remarque, lajout des deux variables de niveau modifie les valeurs des pa-
rametres des autres variables, signe que les eleves ayant eu en sixieme les meilleurs
resultats ne vivent pas dans nimporte quelle famille.
II.3.e Ajout dindicatrices academiques

Dernier enrichissement du modele, lintroduction du niveau academique, cest-a-
dire de la variable nommee acad indiquant dans quelle academie leleve a suivi
sa scolarite de troisieme. Comme pour le milieu social de leleve (voir section II.3.c),
il y a deux manieres dintroduire la variable academique.
Si on retient la premiere qui consiste a utiliser linstruction class de la procedure
logistic en prenant comme academie de reference celle de Paris (acad=01), on
ecrit :

class pcschef (ref=7) acad (ref=01) / param=ref;
model secondeg = zep retard avance fille pcschef fran math acad;
run;
Les resultats, non reproduits ici, ne modifient pas significativement les precedents.
69
On notera juste que la valeur du parametre de la variable zep est un peu plus faible :
0, 376 au lieu de 0, 489 sans les indicatrices academiques.
Le resultat du test de nullite jointe des 25 parametres associes aux academies
nous dit que le risque de nous tromper en affirmant quils ne sont pas tous egaux a
0 est inferieur a 1/10000. Le niveau academique joue bien un role dans lorientation
post-troisieme.
Linconvenient de ces variables indicatrices est quelles ne nous disent pas ce que
lon cherche a controler dans le modele. Est-ce la politique academique dorientation ?
Ou bien le contexte economique ? Cela etant, ces indicatrices academiques sont ici
des variables de controle, dont lobjectif premier est de controler lheterogeneite
observee.
70
II.4 Calcul dun effet marginal
Les tables des pages precedentes presentent les resultats de lestimation sous la
forme generalement utilisee. A ce stade, on sait dire si telle ou telle caracteristique
joue un role positif ou negatif sur le passage en seconde generale : il suffit de lire
le signe du parametre concerne. On sait aussi mesurer notre degre de certitude
lorsquon affirme que tel ou tel facteur compte en matiere dorientation en fin de
troisieme : on regarde le seuil de significativite (statistique) du parametre. Par contre,
la valeur du parametre en tant que telle ne nous donne pas une idee immediate de
limportance du facteur. Notamment, on ne sait pas mesurer linfluence de notre
variable principale (leducation prioritaire) sur lorientation en fin de 3eme. Il faut
alors se tourner vers dautres grandeurs statistiques, celles qui mesurent ce quon a
appele la significativite pratique des differents facteurs (section I.6).
Lodds ratio est la mesure la plus employee. Elle est automatiquement produite
par la procedure. Lodds ratio figure a la fin de la sortie standard (voir page 60 et
suivante), dans la partie Odds Ratio Estimates.
Avec le modele complet sans les indicatrices academiques (i.e. celui de la section
II.3.d), on obtient en sortie :
Odds Ratio Estimates
Point 95% Wald

Effect Estimate Confidence Limits
zep 1.631 1.416 1.878

retard 0.279 0.244 0.319
avance 3.483 2.319 5.232
fille 1.683 1.532 1.849
csp1 1.447 1.007 2.081
csp2 1.900 1.402 2.574
csp3 6.073 4.432 8.322
csp4 2.742 2.050 3.668
csp5 1.560 1.172 2.078
csp6 1.276 0.967 1.685
fran 1.063 1.056 1.070
math 1.066 1.061 1.072
Lodds ratio attache a la variable zep est egal a 1,631, avec [1.416 , 1.878] comme
intervalle de confiance a 95%. On la vu en section I.6.b, cela signifie precisement que
la chance relative de passer en seconde generale est environ 1,6 fois plus elevee pour
un enfant en ZEP que pour un enfant hors ZEP, conditionnellement aux facteurs
pris en compte dans le modele (i.e. a sexe, age, milieu social et niveau en sixieme
fixes). Il est entendu que la chance relative est un rapport de probabilites : cest la
probabilite de passer en seconde generale rapportee a celle de ne pas y passer. Lodds
ratio nest donc pas un rapport de deux probabilites, mais un rapport de rapports
de probabilites. Il ne faut surtout pas dire que le fait detre en ZEP multiplie par
1,6 la probabilite de passer en seconde generale, a memes caracteristiques observees.

On verra plus loin que ce resultat est, en ces termes, completement faux.
71
La seconde solution est de calculer leffet marginal de la variable zep (section
I.6.c). Rappelons-en le principe :
- on force chaque eleve de lechantillon a etudier en ZEP : la valeur de la
variable zep est mise systematiquement a 1 ; dans ce contexte, on calcule pour
chaque eleve la probabilite quil a detre oriente en seconde generale ;
- on force chaque eleve de lechantillon a etudier hors ZEP : la valeur de la
variable zep est mise systematiquement a 0 ; on calcule pour chaque eleve la
probabilite quil a detre oriente en seconde generale ;
- on calcule, pour chaque eleve, la difference entre ces deux probabilites ;
- on prend la moyenne, sur lechantillon, de ces differences individuelles de pro-
babilites.
Leffet marginal dune variable qualitative, quelle soit binaire ou polytomique 40 ,
se calcule grace a la macro SAS marginal, detaillee en annexe du document. Elle
compte quatre parametres :
- tab_ent nomme la table SAS contenant les donnees individuelles, en entree de
la macro ;
- x donne la liste de toutes les variables introduites dans le modele, dans lordre
ou elles lont ete ;
- param_ent nomme la table SAS issue de lexecution de la procedure logistic,
qui contient les valeurs des parametres estimes ainsi que la matrice de leurs
variances et covariances ;
- var_qual nomme la variable (de nature qualitative) ou la liste des indicatrices
qui lui sont associees, dont on veut calculer leffet marginal ; sil sagit dune
variable binaire (comme la variable zep), alors la valeur du parametre est le
nom de la variable ; sil sagit dune variable polytomique (comme lage a lentree
en sixieme), on met la liste des variables binaires representant les modalites
(sauf la modalite de reference) de la variable polytomique, dans lordre ou elles
apparaissent dans la liste x.
La macro calcule aussi lecart-type de chaque effet marginal en utilisant la methode
delta (voir section I.6.d).
Pour calculer leffet marginal de la variable zep avec la specification du modele de

la section II.3.d, on procede comme suit. On definit dabord, par une macro-variable
appelee ici listvar, la liste des variables introduites dans le modele :
%let listvar=zep retard avance fille csp1 csp2 csp3 csp4 csp5 csp6
fran math ;
Linteret est de sassurer ainsi que la liste des variables ecrite dans la procedure
et dans la macro (parametre x) est strictement la meme, condition necessaire a sa

bonne execution. Attention ! Il ne faut pas utiliser la notation raccourcie csp1-csp6,
sinon la macro ne sexecute pas. Il faut ecrire toutes les modalites de la variable de
milieu social (exception faite de la modalite de reference).
40. On verra plus loin comment faire dans le cas dune variable continue.
72
On lance ensuite la procedure logistic avec deux options supplementaires :
outest= et covout. La premiere permet de conserver dans une table SAS, que lon
nomme apres le signe degalite, les valeurs des parametres ainsi que leurs variances
et covariances que lon obtient grace a la seconde option covout. On ecrit donc :
proc logistic data=tab descending covout outest=param;

model secondeg = &listvar;
run;
En faisant simplement appel a la macro variable &listvar, on introduit les variables

dans le modele selon lordre souhaite.
On est maintenant en mesure de calculer leffet marginal de la variable zep, cest-
a-dire dexecuter la macro qui le fait. Supposons que le fichier qui contient la macro
se nomme fichier1. Supposons aussi quil soit conserve dans un repertoire nomme,
mettons, d:\Macro SAS. On alloue dabord le fichier contenant la macro a la file
nommee ici ff :
filename ff d:\Macro SAS; run;
Puis on fait appel a la macro par linstruction :
%include ff(fichier1);
Enfin, on execute la macro :
%marginal(tab_ent=tab,x=&listvar,
param_ent=param,var_qual=zep);
En utilisant &listvar, on est certain davoir toutes la variables utilisees pour les-
timation et dans le meme ordre. La table des parametres estimes a le nom donne
par loption outest= de la procedure logistic. Enfin, var_qual designe la variable
pour laquelle on calcule leffet marginal. On obtient en sortie :
Effet marginal de zep
effet marginal ecart_type significativite
ZEP 6.6174 0.9169 < 0.0001
Le resultat senonce de la maniere suivante : a caracteristiques socio-demographiques

(sexe et age) identiques, a meme milieu social et a niveaux dentree en 6eme compa-
rables, les eleves en zone deducation prioritaire ont une probabilite plus elevee que
les autres de passer en seconde generale : lecart est de 6,6 points. Leffet marginal
de la variable ZEP est somme toute relativement modeste.
73
74
II.5 Bilan detape
Le moment est venu de tirer enseignement des sections II.3 et II.4. Pour com-
mencer, la table 9 donne les effets marginaux de la variable zep avec les differentes
specifications du modele qui ont ete utilisees. Pour la remplir, il suffit de passer la
sequence des operations ecrite dans la section II.4, en redefinissant a chaque fois
la macro-variable &listvar. Par exemple, la premiere ligne de la table 9 donne la
valeur de leffet marginal de zep avec uniquement la variable zep dans le modele.
Linstruction correspondante definissant &listvar est :
%let listvar=zep;
Notons quon retrouve le resultat etabli plus generalement page 44 : leffet marginal
de la variable zep est exactement egal a la difference (observee dans la table 1
page 55) de la part des eleves orientes en seconde generale entre ZEP (x1 = 1) et hors
ZEP (x1 = 0). Les autres lignes de la table sont obtenues en ajoutant successivement
les variables.
Table 9. Effet marginal de leducation prioritaire selon le modele estime
Modele Effet marginal Ecart-type

variable zep uniquement 13,51*** 1,34
zep + age 7,75*** 1,26
zep + age + sexe 7,66*** 1,25
zep + age + sexe + csp 1,12 1,12
zep + age + sexe + csp + fran + math 6,62*** 0,92
zep + age + sexe + csp + fran + math + acad 5,04*** 0,94
La table 9 illustre bien lambigute (et le terme est faible) de lexpression toutes
choses egales par ailleurs , qui est trop souvent prononcee mecaniquement lors des
commentaires sur les resultats de lestimation dun modele logit. Dans notre cas
de figure, on pourrait tres bien annoncer, selon le modele retenu, toutes choses
egales par ailleurs, etudier en ZEP a un impact negatif sur le passage en seconde
generale (3eme ligne de la table), ou bien toutes choses egales par ailleurs, etudier
en ZEP na pas dimpact sur le passage en seconde generale (4eme ligne), ou encore
toutes choses egales par ailleurs, etudier en ZEP a un impact positif sur le passage
en seconde generale (5eme ligne). Certes, il est logique de se fier a un modele plus
riche en variables. Mais si on navait pas dispose, dans notre source de donnees,
dinformation sur le niveau de leleve en 6eme, on sen serait probablement tenu a
labsence dimpact, toutes choses egales par ailleurs . Il est donc crucial de preciser
ce que sont ces choses, et de rappeler que la conclusion pourrait changer si la source
75
de donnees contenait dautres informations susceptibles dinfluer sur lorientation et
introduisant un effet de structure supplementaire.
Lorsquon examine la table, on est enclin a selectionner deux moments : (1) celui
ou, en ajoutant la variable de milieu social, limpact de leducation prioritaire devient
non statistiquement significatif (meme sil reste negatif) ; (2) et celui ou lajout des
variables de niveau scolaire en 6eme fait changer le signe de limpact. Cela ne permet
pas daffirmer que ces deux variables jouent les premiers roles. On verra dans la
section suivante quels outils mobiliser pour classer les variables selon leur ordre
dimportance. Regardons tout de meme de plus pres leur impact.
On reprend les estimations en specifiant un modele qui fait dependre lorientation
en seconde uniquement de la variable zep et de la variable de milieu social :
%let listvar=zep csp1 csp2 csp3 csp4 csp5 csp6;
On execute ensuite la procedure logistic. Le parametre de la variable zep vaut

0.216, qui se traduit par un effet marginal de 4, 38 (avec un ecart-type de 1, 19).
Lintroduction de la seule variable de milieu social fait donc passer lecart, entre les
eleves de ZEP et les autres, dans le taux de passage en seconde generale, de 13, 5%
a 4, 4%. Autrement dit, la difference de milieu social entre les eleves de ZEP et les
autres explique a elle seule plus des deux-tiers (67,4% pour etre precis 41 ) de lecart
brut constate de 13,5%. Le milieu social joue bien un role important.
Cette maniere de presenter les resultats est analogue a ce que produit la de-
composition dOaxaca-Binder , selon lappellation consacree. Cette methode de de-
composition a ete presentee a lorigine par les deux auteurs dans deux publications
differentes 42 , appliquee a la discrimination salariale, entre hommes et femmes no-
tamment. Le principe est de decomposer lecart salarial entre les hommes et les
femmes en une partie expliquee par les caracteristiques observees introduites dans
lanalyse, et une partie residuelle, cest-a-dire restant inexpliquee. De la meme ma-
niere, en revenant a notre sujet, 71,2% de lecart dans lorientation en seconde est
explique par la categorie sociale des parents, et les 28,8% restants expliques par
dautres facteurs.
Second exercice, on fait dependre lorientation uniquement du niveau de leleve

en 6eme (en plus, bien entendu, de la ZEP) :
%let listvar=zep fran math;
Le parametre de la variable zep est positif : 0, 205 (ecart-type de 0, 068). Converti

en effet marginal, il vaut 3, 13 points (ecart-type de 1, 02). On peut specifier un
modele encore plus parcimonieux, en definissant une variable de niveau qui cumule
le francais et les mathematiques (niveau=fran+math) :
41. (13, 5 4, 4)/13, 5 = 0, 674
42. A.S. Blinder (1973), Wage discrimination : reduced form and structural estimates , Jour-
nal of Human Resources, 8 (4) ; R.Oaxaca (1973), Male-female wage differentials in urban labor
markets , International Economic Review, 14 (3).
76
%let listvar=zep niveau;
Les resultats des estimations donnent 0, 208 comme valeur du parametre de la va-
riable zep, ce qui correspond a un effet marginal de 3, 18 points, valeurs tres proches
des precedentes.
Ainsi, a meme niveau initial en 6eme, les eleves de ZEP ont en moyenne une
probabilite de passer en seconde generale superieure a celle des autres eleves. Lecart
moyen est de 3, 2 points.
Ce resultat ne provient pas dune lecture directe des informations collectees par
le panel qui a suivi une cohorte denfants entres en 6eme en 1995. Il est issu dune
modelisation, cest-a-dire de la specification dun modele tres simple puisquim-
pliquant seulement les deux variables zep et niveau dont les parametres ont ete
estimes sur les donnees du panel 1995.
En fait, on peut faire une lecture plus directe des informations, sans passer par un
modele. On procede comme suit. On decoupe notre population deleves en groupes
de niveau, selon leurs resultats aux tests effectues en 6eme mesures par la variable
niveau. On a retenu ici 20 groupes. Le premier (resp. dernier) groupe rassemble les
5% deleves ayant eu les resultats les plus faibles (resp. les meilleurs). Dans chaque
groupe, on calcule la proportion des eleves de ZEP qui sont passes en seconde generale
et celle des eleves hors ZEP qui ont ete orientes en seconde generale. On compare
ensuite les deux proportions dans chacun des 20 groupes.
Concretement, pour repartir la population en 20 groupes de taille equivalente, on
ecrit :
proc rank data=tab groups=20 out=tabg;

var niveau;
ranks pniveau;
run;
La table en sortie de la procedure (option out=), nommee ici tabg, est la copie
conforme de la table tab augmentee dune variable, nomme pniveau, qui identifie
chacun des 20 groupes et qui prend les valeurs 0 a 19 (et non 1 a 20). On calcule
ensuite, groupe par groupe, les proportions deleves passes en seconde generale en
distinguant les eleves de ZEP et les autres :
proc summary data=tabg nway;

class pniveau zep;
var secondeg;
output out=tabs mean=prop_seconde;
run;
On recupere les statistiques souhaitees dans la table nommee ici tabs. La variable
prop_seconde donne la proportion de passage en seconde generale pour chaque
groupe (variable pniveau), selon lappartenance ou non en ZEP (variable zep).
77
On represente ces proportions dans un plan avec, en abscisse, le groupe de niveau
et, en ordonnee, les proportions de passage en seconde generale. On trace deux
courbes, lune reliant les proportions des eleves de ZEP et lautre reliant celles des
autres eleves. La courbe des eleves de ZEP etant un peu chahutee a cause des effectifs
relativement faibles des groupes, on prefere representer des courbes lissees 43 . Elles
offrent un plus grand confort de lecture sans trahir les resultats.
La courbe representant les taux de passage, en seconde generale, des eleves de
ZEP est globalement au-dessus de celle des eleves hors ZEP (figure 1). Lecart entre
les deux courbes varie autour de 3%, avec un maximum pour le premier groupe
(6, 2 points), puis pour le groupe median (4, 5 points), et un minimum pour les
groupes les plus eleves. Le constat est donc tout a fait coherent avec le resultat du
modele simple a deux variables, qui donne un ecart moyen de 3, 2 points.
Figure 1. Taux de passage en seconde generale des eleves de ZEP et

des eleves hors ZEP, selon leur groupe de niveau en 6eme
%
100
90
ZEP
80
70
hors ZEP
60
50
40
30
20
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Groupe de niveau
A ce stade, on peut se demander si la presentation des resultats de letude sur le

role de leducation prioritaire dans lorientation post-troisieme ne devrait pas reposer
essentiellement sur la figure 1. Celle-ci, en effet, ne sappuie sur aucun modele. Meme
43. Cest la procedure loess de SAS qui a ete utilisee ici. Des outils de lissage sont disponibles
sous Excel.
78
si les donnees ont ete un peu travaillees (decoupage de la population des eleves en
20 groupes, lissage des courbes), il sagit avant tout de la representation graphique de
statistiques descriptives, representation qui, davantage quun modele et ses resultats,
est susceptible de marquer les esprits . De plus, un modele logit plus complet
(sections II.3.d ou II.3.e) apporte une valeur ajoutee toute relative : il estime a 5 ou
6 points (voir section II.4) la difference moyenne dans les taux de passage au lieu
des 3 points de la figure 1, ce qui ne bouleverse pas la donne.
Cela etant, la modelisation a ete et reste utile. Dabord, il netait pas a priori
evident que lessentiel des resultats pouvait se resumer a la figure 1. Ceci est apparu
a lissue de la demarche de modelisation. Ensuite, les resultats du modele dans sa
plus simple expression (avec seulement les variables zep et niveau) permettent dune
part de chiffrer precisement lecart moyen des deux courbes (3, 2 points), dautre part
de pouvoir affirmer que cet ecart est statistiquement significatif (au seuil de 1%).
Autrement dit, la difference est reelle et ne repose pas sur les aleas de lechantillon.
Un dernier mot. A dire vrai, et en premiere lecture, on peut estimer que les
deux resultats quon vient detablir sont incoherents. Dun cote, la dimension sociale
explique 70% de lecart dans lorientation post-troisieme entre les eleves de ZEP et
les autres (voir supra, page 76). Elle capterait donc la plus grande partie des effets
de composition des ZEP sur lorientation post-troisieme. De lautre cote, prendre en
compte uniquement le niveau a lentree en sixieme rend positif limpact de leducation
prioritaire sur la probabilite de passer en seconde generale. La difference de structure
des populations en ZEP et hors ZEP serait dabord une difference de niveau initial.
En realite, il ny a pas de contradiction. Niveau initial de leleve et categorie sociale
de ses parents sont evidemement lies. Ainsi, lorsque le modele ne retient comme
variable de controle que le milieu social pour conclure que ce dernier explique 70%
de lecart dorientation entre eleves de ZEP et hors ZEP, cette variable embarque
aussi avec elle la difference de niveau scolaire des enfants appartenant a des milieux
differents. Et on ne saurait dire laquelle des deux variables niveau scolaire en 6eme
et milieu social a la preeminence sur lautre pour capter les effets de structure.
79
80
II.6 Changement de perspective (I) Quest-ce qui dis-
tingue les eleves sorientant en seconde generale ?
Tout en restant sur les memes donnees et les memes variables 44 , on change de
perspective pour montrer lautre aspect du modele logit : loutil danalyse discrimi-
nante. On ne centre plus lanalyse sur le role specifique de leducation prioritaire
dans lorientation post-troisieme. On souhaite maintenant aborder la problematique
suivante.
De maniere tres (trop ?) schematique, deux opinions sopposent sur les determi-
nismes a luvre dans les destins scolaires des collegiens. La premiere consiste a
dire que les choses se jouent en grande partie au cours du primaire, que la suite
de la scolarite est largement determinee par le niveau atteint en fin de CM2. Le
second discours insiste lui sur le role determinant de la famille lors des etudes se-
condaires. Les inegalites dorientation sont le reflet des inegalites sociales. Un parent
de milieu favorise a davantage de ressources financieres, intellectuelles, . . . pour
accompagner ses enfants sur le chemin de la reussite. Bien entendu, et on le dira
ulterieurement, la situation est plus complexe que cela. Partons neanmoins de ces
deux positions tranchees.
La question est : laquelle des deux dimensions milieu social et niveau de leleve
en 6eme joue le premier role dans lorientation en fin de college ? Dans cette
perspective, il ny a plus de variable principale. Toutes les variables sont mises sur
le meme plan, meme si on en privilegie a priori deux pour les besoins de lanalyse.
Pour repondre a la question, il faut decorreler les variables. En effet, quand on
compare les taux de passage en seconde generale des enfants de cadres (91,3%) et des
enfants douvriers (52,4%), on pense tenir la un facteur de distinction de premiere
importance puisque quelque 40 points (38,9 pour etre precis) les separent. Or, on
constate que, dune maniere generale, les eleves les mieux notes en 6eme poursuivent
plus frequemment que les autres leurs etudes dans la voie generale ou technologique :
ceux passes en seconde generale avaient obtenu en moyenne 57,3 points aux epreuves
de mathematiques de 6eme, contre 44,9 points pour les autres. Il se trouve que les
enfants de cadres ont eu une meilleure moyenne (59,4 points vs 44,3 points pour les
enfants douvriers) a ces epreuves. Par consequent, le fait que les enfants de cadres
et douvriers ne connaissent pas la meme orientation a la fin du college sexplique
au moins en partie par leur niveau a lentree en 6eme. Reste a savoir si cette part
expliquee est faible ou importante.
Decorreler les variables, cest adopter la demarche analytique au cur du modele
logit, qui, en sappuyant sur lhypothese dadditivite, permet destimer le role propre
joue par chaque variable (page 10) dans lorientation post-troisieme. On ne se limi-
tera pas a introduire seulement les variables de milieu social et de niveau de leleve,
pour deux raisons. La premiere est quon a privilegie ces deux dimensions en sup-
44. Le parti de travailler sur les memes variables a ete pris par souci de continuite dans lexpose.
Il se revelera critiquable (voir fin de la section II.7.a).
81
posant a priori quelles etaient les plus importantes dans le processus dorientation.
Cest une hypothese qui doit etre verifiee. Pour ce faire, il faut introduire dautres
variables. Deuxieme raison, on a vu (section II.3.c) que la proportion de filles netait
pas exactement la meme dune categorie sociale a une autre. Par ailleurs, les filles
ont eu en moyenne, par rapport aux garcons, de meilleurs resultats aux tests de
francais (mais pas aux tests de mathematiques). Le facteur Sexe de leleve etant lie
a la fois au milieu social (meme sil lest faiblement) et au niveau en 6eme (meme
sil lest de maniere complexe), on a interet a lisoler pour mieux mettre en balance
les deux dimensions qui nous interessent de prime abord.
Tout compte fait, on reproduit les estimations du modele de la section II.3.d.
Notons au passage quil est preferable de ne pas introduire la dimension academique
comme dans la section II.3.e, car les indicatrices qui la representent ne nous disent
pas precisement ce qui est mesure.
Cela etant, le probleme avec la table 8 est que les valeurs des parametres sont peu
parlantes. Pour une meilleure lisibilite, on a interet a les transformer en points de
pourcentage, en calculant les effets marginaux des variables auxquelles les parametres
sont associes.
On va donc etendre aux autres variables le calcul de leffet marginal effectue
section II.4 pour la variable zep, qui est une variable binaire. Lextension a une
variable polytomique, comme la variable dage a lentree en sixieme ou la variable de
milieu social, se fait sans probleme, comme on le verra ulterieurement. La difficulte
provient des variables de scores aux epreuves de francais et de mathematiques, qui
sont continues et en se comptent pas en unite de mesure (voir page 45). Pour calculer
des effets marginaux au meme titre que les autres variables, il faut dabord les
transformer en variables polytomiques. Pour ce faire, et pour chacune des variables
fran et math, on a choisi de distinguer quatre groupes deleves selon leur position
par rapport aux quatre quartiles de la distribution du score. Pour le score en francais
par exemple, on aura donc un premier groupe deleves rassemblant les 25% ayant eu
les moins bons resultats aux tests, un deuxieme groupe comprenant les 25% suivants
dans lordre croissant des resultats, un troisieme constitue des 25% suivants, les 25%
ayant eu les meilleurs resultats faisant partie du dernier groupe. On transforme la
variable continue fran en une variable polytomique ordonnee a quatre modalites. On
a interet a prendre comme reference la modalite correspondant au premier quartile
(voir page 23). Notons que le choix de 4 groupes est arbitraire, on pourrait en definir
5 en repartissant les eleves selon les quintiles de la distribution, ou bien 10 en retenant
les deciles.
Pour definir les quatre groupes, on utilise la procedure rank de SAS. Pour le test
en francais (variable fran), la syntaxe en est la suivante :
proc rank data=tab groups=4 out=tab;

var fran;
ranks qfran;
run;
82
La procedure cree quatre groupes 45 (option groups=4) numerotes de 0 a 3 (et non
de 1 a 4) par la variable qfran. La table en sortie, quon a choisie identique a la
table en entree, est enrichie de la variable qfran. On realise le meme exercice avec la
variable math. On cree ensuite les quatre variables binaires representant les quatre
modalites de qfran et qmath :
data tab;
set tab;
array qfr(i) qfr1-qfr4;
array qma(i) qma1-qma4;
do i=1 to 4;
qfr=(i=qfran+1);
qma=(i=qmath+1);
end;
run;
Puis on enchane les instructions suivantes. On definit dabord, par une macro-
variable, la liste des variables du modele :
%let listvar1=zep retard avance fille csp1 csp2 csp3 csp4 csp5 csp6
qfr2 qfr3 qfr4 qma2 qma3 qma4;
avant dexecuter la procedure logistic :

proc logistic data=tab descending covout outest=param1;
model secondeg = &listvar1;
run;
puis la macro marginal :

%marginal(tab_ent=tab,x=&listvar1,
param_ent=param1,var_qual=qfr2 qfr3 qfr4);
et :
%marginal(tab_ent=tab,x=&listvar1,
param_ent=param1,var_qual=qma2 qma3 qma4);
Attention de lister les 3 modalites de chaque variable (rappel : la modalite de refe-

rence est exclue) dans lordre ou elles apparaissent lors de la definition de la macro-
variable listvar1. Tout ceci donne en sortie :
Effet marginal de qfr2 qfr3 qfr4
QFR2 10.8619 1.0556 < 0.0001

QFR3 16.9216 1.2141 < 0.0001
QFR4 27.4096 1.3862 < 0.0001
45. Tous les eleves notes identiquement etant affectes au meme groupe, les quatre groupes nont
pas exactement le meme effectif.
83
et :
Effet marginal de qma2 qma3 qma4
QMA2 11.9175 1.0984 < 0.0001

QMA3 19.9986 1.2125 < 0.0001
QMA4 32.9009 1.3335 < 0.0001
Dernier exemple, la variable dage a lentree en sixieme :
param_ent=param,var_qual=retard avance);
Effet marginal de retard avance
RETARD -21.6386 1.1573 < 0.0001

AVANCE 15.8242 2.1166 < 0.0001
La table 10 rassemble tous les elements. La premiere colonne reprend les valeurs
estimees des parametres, la deuxieme les traduit en points de pourcentage (effets
marginaux) et la troisieme donne les ecarts bruts. Les ecarts bruts mesurent sim-
plement les differences constatees des taux de passage entre chaque modalite dune
variable et sa modalite de reference. Ainsi, on retrouve pour la variable ZEP lecart
de 13,5 points reporte dans la table 1 (page 55). Autre exemple, la difference de
taux de passage entre les eleves en retard et ceux a lheure en 6eme setablit a
43,1 points, au detriment des premiers. Les effets marginaux (deuxieme colonne)
pourraient aussi etre nommes ecarts residuels. Lecart residuel mesure le role joue
en propre par chaque variable (le role restant a chaque variable, si on prefere) lorsque
les autres variables sont maintenues constantes.
La comparaison des colonnes 2 et 3 permet dapprecier le changement induit par la
decorrelation des variables ou dimensions. Concernant notamment les variables
de milieu social et de niveau de leleve en 6eme, on obtient les resultats suivants.
Pour les enfants de cadres, lecart brut, cest-a-dire la difference constatee entre
le taux de passage en seconde generale de ces enfants et le taux des enfants des
familles dont le chef a declare etre sans activite professionnelle ou na pas repondu
a la question (population de reference), setablit a 51,8 points. Pour les enfants
douvriers, il vaut 12,9 points. Par consequent, lecart brut entre enfants de cadres
et enfants douvriers est de 38,9 points (51, 8 12, 9). Quand on passe aux ecarts
residuels (effets marginaux), ils valent respectivement pour les enfants de cadres
et pour les enfants douvriers 26,5 points et 4,7 points (toujours par rapport a la
84
Table 10. Les resultats du modele
Parametre Effet marginal Ecart brut

(%) (%)
en retard 1,321*** 21,6 43,1
en avance 1,229*** 15,8 22,0
fille 0,532*** 7,7 7,8
Milieu social de leleve (ref=sans act., nr )
agriculteurs exploitants 0,431** 7,1 27,0
artis., commerc., chefs dentrep. 0,685*** 11,1 29,3
cadres, prof. intell. sup. 1,842*** 26,5 51,8
prof. intermediaires 1,053*** 16,6 39,3
employes 0,528*** 8,7 22,9
ouvriers 0,281** 4,7 12,9
Niveau en francais (ref=groupe 1 )
groupe 2 0,610*** 10,9 27,8
groupe 3 0,984*** 16,9 45,1
groupe 4 1,759*** 27,4 59,9
Niveau en maths (ref=groupe 1 )
groupe 2 0,645*** 11,9 25,7
groupe 3 1,133*** 20,0 43,7
groupe 4 2,146*** 32,9 58,8
oui 0,389*** 5,4 13,5
reference). En consequence, lecart residuel entre enfants de cadres et douvriers

setablit a 21,8 points (26, 5 4, 7), soit 17 points de moins que lecart brut.
On remarquera que la valeur de leffet marginal de zep nest pas la meme que celle
calculee avec le modele specifie pourtant avec les memes variables (page 73). A ceci
pres que ce nest pas exactement les memes variables. Certes, on retrouve dans lun
et lautre cas lage a lentree en sixieme et le sexe de leleve, son milieu social, son
niveau en francais et en mathematiques, lappartenance de son etablissement a une
ZEP. Mais dans le premier cas ce sont les variables continues mesurant les niveaux en
francais et en mathematiques qui ont ete introduites, alors que dans cette section ce
sont des groupes de niveau qui ont ete retenus. Cela etant, les deux valeurs de leffet
marginal ne sont pas significativement differentes compte tenu de leurs ecarts-types
respectifs.
Une derniere remarque. On aurait pu decouper les variables fran et math en
20 groupes au lieu de 4, cest-a-dire classer les eleves en groupes de niveau selon
les vingtiles des distributions des scores en francais et en mathematiques au lieu
85
des quartiles, de maniere a capter plus finement limpact du niveau des eleves, dans
lhypothese ou limpact varierait en fonction du niveau meme de leleve. De fait,
lorsquon reestime le modele avec les 20 groupes en francais et en mathematiques,
lindicateur dAkake (voir section I.4) vaut 11 842 au lieu de 11 974 pour le modele
avec 4 groupes. Cette valeur plus faible est le signe dun modele de meilleur qualite.
Mais si on examine le critere de Schwartz, il passe de 12 101 pour le modele a
4 groupes de niveau a 12 211 pour celui a 20 groupes, signe cette fois-ci dune
degradation de la qualite du modele. Il faut se rappeler que le critere de Schwartz
penalise davantage que le critere dAkake les modeles peu parcimonieux. Il est donc
plus sensible a cette inflation de variables creees par les 20 groupes de niveau. Il
est donc important de limiter le nombre de variables, en tout cas de ne pas introduire
de variables polytomiques avec un nombre demesure de modalites, quil faut donc
prealablement regrouper.
86
II.7 Changement de perspective (II) Quelle hierarchie
des variables ?
La table 10 confirme que toutes les variables retenues sont discriminantes. Letape
suivante est de determiner celles qui jouent les premiers roles dans lorientation
post-troisieme. On cherche ainsi a etablir une hierarchie des variables par ordre
dimportance.
Les resultats des estimations du modele figurant dans la table 10 restent insuf-
fisants pour realiser lexercice. Certes, on peut classer deux variables binaires par
ordre dimportance en comparant les valeurs (absolues) de leurs parametres ou de
leurs effets marginaux. On conclura ainsi que le sexe de leleve joue un role plus
important (il est plus discriminant) que lappartenance a une zone deducation prio-
ritaire. Pour les variables polytomiques, on peut toujours comparer les amplitudes
des parametres ou des effets marginaux. Par exemple, pour la variable de milieu
social, les effets marginaux vont de 0 (pour la modalite de reference, par definition)
a 26,5 pour la modalite cadres et professions intellectuelles superieures. Lamplitude
des effets marginaux est donc de 26,5. Pour la variable dage a lentree en sixieme,
leffet marginal le plus faible est celui de la modalite en retard (-21,6) et le plus eleve
celui de la modalite en avance (15,8). Lamplitude est de 37,4. Lage serait ainsi plus
discriminant que le milieu social. Mais la conclusion reste incertaine. Surtout, cette
maniere de faire ne permet pas de regler le cas des variables continues qui ont ete
transformees en variables polytomiques ordonnees, comme ce qui a ete fait avec nos
deux variables de niveau en francais et en mathematiques, decoupees en 4 groupes.
Lamplitude des effets marginaux est de 32,9 pour les mathematiques et de 27,4 pour
le francais (table 10). Lage dentree en sixieme amplitude de 37,4 jouerait donc
un role plus important que le niveau en mathematiques ou en francais de leleve en
6eme. Mais si on transformait nos deux variables continues en variables polytomiques
a 10 modalites (selon les deciles des distributions des scores), alors lamplitude des
effets marginaux serait de 44,0 pour la variable de niveau en mathematiques et de
32,5 pour celle en francais. Dans ce cas, lage a lentree au college passerait derriere
le niveau en mathematiques a lentree en 6eme.
Il faut donc se tourner vers une autre methode. Mais, a notre connaissance, il
nen existe pas qui soit theoriquement eprouvee. Celle proposee ici est de nature
heuristique. Elle sappuie sur des indicateurs de qualite du modele (voir section I.4).
II.7.a Utilisation dun critere de prediction

Pour classer des variables selon leur importance, un premier moyen est dutiliser
le pseudo-R2 propose par Wooldridge (voir section I.4.b, page 32), qui mesure le
pouvoir predictif du modele, cest-a-dire sa capacite a predire lappartenance a lune
ou lautre des categories C0 ou C1 , compte tenu des variables xk . A priori, plus on
dispose dinformation sur lindividu, cest-a-dire plus le nombre de variables est eleve,
mieux on saura predire son appartenance a C0 ou C1 . A priori donc, le pseudo-R2
augmente avec le nombre de variables xk . A contrario, si on supprime des variables
87
du modele, il perd en capacite predictive et le pseudo-R2 diminue.
La demarche est alors la suivante. On part du modele de la section II.3.d, consi-
dere comme complet. Formellement, les variables du modele sont au nombre de 12,
si on comptabilise toutes les indicatrices associees aux modalites des variables po-
lytomiques. Elles peuvent etre regroupees en 5 dimensions : lage de leleve a son
entree en 6eme (represente par les variables binaires retard et avance), son sexe,
son niveau au debut du college (mesure par les deux variables continues fran et
math), sa scolarisation ou non dans une ZEP, son milieu social (variables csp1 a
csp6).
On calcule le pseudo-R2 du modele complet. Puis on supprime une des dimensions
(la dimension ZEP par exemple). On estime le modele ainsi reduit et on en deduit le
pseudo-R2 . On repart du modele complet, dont on enleve une des 3 autres dimensions
(lage par exemple). On estime le modele obtenu et on note son pseudo-R2 . Et ainsi
de suite. La dimension la plus influente est celle qui, lorsquon la retire du modele,
degrade le plus la qualite predictive du modele, cest-a-dire provoque la plus forte
baisse du pseudo-R2 . Les dimensions sont ainsi classees selon lecart entre le pseudo-
R2 du modele complet et celui calcule avec le modele sans la dimension consideree.
La procedure logistic ne produit pas automatiquement la valeur du pseudo-R2 .
Il faut ecrire des instructions specifiques. On commence par calculer le pseudo-R2 du
modele complet. Pour ce faire, on part de la liste des variables du modele, nommee
listvar et definie par :
%let listvar=zep retard avance fille csp1 csp2 csp3 csp4 csp5 csp6
fran math ;
Puis on execute la procedure logistic avec linstruction output :
proc logistic data=tab descending noprint;

model secondeg=&listvar;
output out=p0 p=pred0;
run;
Linstruction output cree une table, appelee p0, qui est limage de la table en entree,
tab, augmentee de la variable nommee ici pred0. Cette variable, creee par option p=
de linstruction output, est la probabilite predite par le modele et notee P (yi =
1|xi ) que lindividu i passe en seconde generale. On est alors en mesure de calculer
la correlation des yi et des P (yi = 1|xi ), qui est precisement le pseudo-R2 recherche
(voir section I.4.b). Pour ce faire, on utilise la procedure corr :
proc corr data=p0;

var secondeg pred0;
run;
ce qui donne :
88
Pearson Correlation Coefficients, N = 13499
Prob > |r| under H0: Rho=0
secondeg pred0
secondeg 1.00000 0.58891

<.0001
pred0 0.58891 1.00000

Estimated Probability <.0001
La correlation setablit a 0,589. Le pseudo-R2 est egal a son carre, soit 0,347. On cal-
cule ensuite le pseudo-R2 du modele reduit qui est obtenu en supprimant la variable
ZEP du modele complet. Comme precedemment, on execute successivement les deux
procedures logistic et corr mais en remplacant la liste des variables &listvar par
la liste &listvar1 definie par :
%let listvar1=retard avance fille csp1 csp2 csp3 csp4 csp5 csp6
fran math ;
On fait de meme avec le modele issu du modele complet mais sans la dimension
dage a lentree en 6eme. On en chane les procedures logistic et corr en utilisant
la liste des variables listvar2 :
%let listvar2=zep fille csp1 csp2 csp3 csp4 csp5 csp6

fran math ;
Et ainsi de suite.
La table 11 presente les resultats de lexercice. La premiere ligne donne la valeur
du pseudo-R2 pour le modele complet. Chaque ligne suivante donne la valeur obtenue
lorsquon enleve alternativement une seule des 5 dimensions.
Cest quand on exclut les variables mesurant le niveau de leleve quon perd le plus
dinformation. De ce point de vue, le niveau de leleve est donc la plus importante
des 5 dimensions. Viennent ensuite lage de leleve a lentree en sixieme, son milieu
social, son sexe et la scolarisation en ZEP.
A premiere vue, et contrairement a ce quon avait presuppose, le milieu social
ne ferait pas partie des deux dimensions les plus importantes dans le processus
dorientation en fin de troisieme. Il viendrait apres le niveau en 6eme et apres lage
auquel lenfant est entre au college. Mais, a lanalyse, ce constat est tres fragile.
Dabord, la variable dage mesure, du moins partiellement, le niveau atteint par
leleve a la fin du primaire. Lentree retardee au college est, en effet, la consequence
dun redoublement au cours des annees precedentes et donc le signe de difficultes
scolaires rencontrees par lenfant. Dans ces conditions, lage apparat comme une
variable redondante, le niveau de leleve etant mieux mesure par les tests de francais
et de mathematiques. En dautres termes, le modele se revele etre mal specifie, mal
89
Table 11. Qualite du modele selon les dimensions exclues
(selon le pseudo-R2 )
pR2
Modele complet 0,347
ZEP exclue 0,345
age en sixieme exclu 0,319
sexe exclu 0,340
milieu social exclu 0,321
niveau en sixieme exclu 0,194
Lecture : lorsquon exclut du modele les variables caracterisant le mi-
lieu social de leleve, le pseudo-R2 vaut 0,321.
adapte finalement au debat engage au debut de la section II.6 sur la preeminence

du milieu social ou du niveau de leleve. Par souci de clarte, il aurait peut-etre ete
preferable de ne pas retenir lage 46 .
Ensuite, meme en supposant quon ait su classer sans ambigute le niveau a lentree
en 6eme devant le milieu social, cela ne permet pas de conclure que le premier
prime sur le second. Car le niveau en 6eme est lui-meme le resultat dapprentissages
anterieurs qui sont socialement marques, si bien que cette variable de niveau contient
en elle-meme, si on peut dire, une part de social due au role joue par le contexte
familial avant lentree en 6eme. Ceci interdit donc de faire clairement la part des
choses. En dautres termes, avec les donnees a notre disposition, nous ne pouvons
pas repondre a la question sur la preeminence, dans labsolu, des roles respectifs du
niveau de leleve a son entree au college et de son milieu social 47 . Le role du milieu
social mis en evidence par le modele est a tout le moins celui limite aux annees
college.
II.7.b Utilisation dun critere dinformation

Une deuxieme possibilite pour hierarchiser les variables est dutiliser un critere
dinformation (voir section I.4.a, page 30), en utilisant une demarche analogue a la
precedente.
On part du modele complet, celui contenant toutes les variables. Lorsquon sup-
prime une ou plusieurs variables xk , le modele ainsi reduit seloigne encore davantage
de la realite que le modele complet. On perd donc de linformation, et les criteres
dinformation dAkake ou de Schwartz augmentent (voir section I.4.a). Laugmen-
tation est dautant plus forte que la variable (ou les variables) supprimee(s) joue(nt)
46. Ceci illustre la necessite de bien reflechir aux variables a introduire dans un modele pour
repondre a une question donnee.
47. . . . pour autant que cette question ait un sens !
90
un role important dans ladequation du modele a la realite.
Appliquons ce principe au modele de la section II.3.d, ou les variables ont ete
regroupees en 5 dimensions comme dans la section precedente. Le modele complet
fournit un certain niveau dinformation sur le processus de passage en seconde gene-
rale. Ce niveau est mesure par le critere dAkake AIC ou le critere de Schwartz SC,
dont les valeurs sont fournies automatiquement par la procedure logistic (voir
la colonne Intercept and Covariates du bloc intitule Model Fit Statistics,
page 60) et que lon note. Puis on supprime une des 5 dimensions du modele, on
estime le modele reduit ainsi obtenu, et on note les nouvelles valeurs des criteres.
On repart ensuite du modele complet, on supprime une des autres dimensions, on
estime le modele qui sen deduit, et on recupere les valeurs de AIC ou SC. Et ainsi
de suite jusqua avoir retire alternativement toutes les dimensions. Celle dont la sup-
pression provoque la plus forte perte dinformation, cest-a-dire la plus forte hausse
des criteres AIC ou SC, sera alors consideree comme la plus importante.
La table 12 rassemble les resultats de lexercice. La premiere ligne donne les valeurs
des criteres SC et AIC pour le modele complet. Chaque ligne suivante donne les deux
valeurs obtenues lorsquon enleve une seule des 5 dimensions.
Table 12. Qualite du modele selon les dimensions exclues

(criteres dinformation de Schwartz et dAkake)
SC AIC
Modele complet 12 023,3 11 925,6
ZEP exclue 12 060,9 11 970,8
age en sixieme exclu 12 437,7 12 355,1
sexe exclu 12 133,1 12 043,0
milieu social exclu 12 396,4 12 343,8
niveau en sixieme exclu 14 402,8 14 320,2
Lecture : lorsquon exclut du modele les variables caracterisant le milieu social
de leleve, les criteres de Schwartz et dAkake valent respectivement 12 396,4
et 12 343,8.
On retrouve la meme hierarchie des dimensions que precedemment avec un critere

de prediction.
91
92
II.8 La question des ponderations
Lechantillon detude peut ne pas etre representatif de la population generale pour
deux raisons :
parce que cause en amont de lenquete lors du tirage de lechantillon, cer-
taines categories ont ete surrepresentees (par exemple, les eleves detablissement
en education prioritaire) : lechantillon a ete constitue avec un tirage a probabilites
inegales ;
parce que cause en aval de lenquete tous les enquetes nont pas repondu, et
ceux qui ont echappe a lenquete sont particuliers si bien que lechantillon des
repondants nest pas representatif de lensemble de la population.
Lorsque lechantillon nest pas representatif pour lune ou lautre raison, alors il faut
ponderer les observations individuelles de maniere a reconstituer un echantillon a
limage de la population generale. Obtenir le bon jeu de ponderations est plus ou
moins simple, selon la cause de non representativite.
Si elle se situe exclusivement en amont, cest-a-dire si elle est entierement impu-
table au plan de sondage, le redressement est aise a faire. Les poids sont calcules
avec linverse de la probabilite de tirage. Par exemple, si les eleves en education
prioritaire ont ete tires avec une probabilite double de celle des autres eleves, ils
seront proportionnellement deux fois plus nombreux dans lechantillon que dans la
population generale. Ils devront alors peser deux fois moins dans lechantillon pour
que celui-ci retrouve sa representativite.
Si la cause se situe en aval de lenquete, si elle tient a la specificite des repondants,
alors le redressement peut etre tres delicat a realiser, surtout si on suspecte que
les repondants se sont autoselectionnes sur des caracteristiques inobservees dans
lenquete.
Supposons quon dispose dun jeu de ponderations affectees aux individus de
lechantillon. Faut-il les utiliser pour estimer correctement les parametres du mo-
dele ? Cette question est moins simple quon ne le pense a priori 48 . Insistons dabord
sur un point pratique : il faut verifier que la somme des poids utilises soit egale a la
taille de lechantillon (on dit alors que les poids sont normalises). Sinon, les ecarts-
types des differents parametres obtenus en ponderant les observations seront biaises,
avec le risque de conduire a des conclusions fortement erronees sur leur significativite
statistique.
Notons X lensemble des variables qui ont ete eventuellement utilisees, dune
part pour stratifier lechantillon et faire un tirage a probabilites inegales, dautre
part pour traiter la non-reponse. Supposons dans un premier temps que la non-
reponse ait ete correctement corrigee, cest-a-dire quon nait pas oublie dans la
liste X de variables distinguant les repondants des non repondants. Si toutes les
variables X sont introduites dans le modele logit, si elles se retrouvent toutes dans
48. Pour son traitement complet, voir L. Davezies et X. DHaultfuille (2009), Faut-il ponderer ?
. . . Ou leternelle question de leconometre confronte a des donnees denquete , Document de travail
de la Direction des Etudes et Syntheses Economiques, Insee, no 2009/06.
93
la liste de variables x du modele, alors la question de ponderer ou non na pas
dimportance : on obtient dans les deux cas des estimations sans biais. Sil fallait
choisir, on opterait plutot pour ne pas ponderer, car dans ce cas les estimations
obtenues sont plus precises. En revanche, si x ne contient pas toutes les variables
corrigeant la selection, alors il faut ponderer sinon les estimations des parametres
sont, en regle tres generale, biaisees.
Supposons maintenant que la liste X ne soit pas complete, que, par exemple,
le concepteur denquete ait redresse la non-reponse sur un nombre insuffisant de
variables. Si on pense que la liste x est, elle, complete, cest-a-dire que le redressement
aurait ete correct en lutilisant, alors il nest pas important de ponderer. Toutefois,
il peut etre preferable de ne pas le faire, a la fois pour une raison defficacite de
lestimation (la precision des valeurs estimees est meilleure sans ponderation) et
pour une raison pratique (utiliser les bonnes ponderations exige quon les recalcule
sur la base des variables x). Enfin, si la liste x nest pas complete non plus, alors
quoi quon fasse les estimations seront biaisees.
En pratique, si on decide de ponderer les observations par la variable appelee,

mettons, poids, les instructions sont les suivantes :
proc logistic data=tab descending covout outest=param;

model secondeg = &listvar;
weight poids/normalize;
run;
ou &listvar est la liste des variables x. Noter loption normalize de linstruction

weight, indispensable pour garantir des poids normalises et, partant, des ecarts-
types corrects (voir supra).
Pour le calcul des effets marginaux, si les individus ne pesent pas du meme
poids, alors il faut ponderer les observations. Pour ce faire, on renseigne le para-
metre ponder= de la macro marginal par le nom de la variable de ponderation. Par
exemple :
param_ent=param,var_qual=zep,ponder=poids);
94
II.9 En guise de conclusion : petit guide de conduite
dune etude
De maniere tres generale, la conduite dune etude passe par (au moins) trois
etapes :
bien clarifier la finalite de letude et organiser les donnees en consequence ;
justifier autant que faire se peut lutilisation du modele logit pour traiter le pro-
bleme ;
presenter de maniere la plus lisible possible, avec les outils adequats, les resultats
de lanalyse.
Explicitons ces trois points.
Premiere etape : clarifier la finalite de letude. Il sagit dabord de choisir entre les
deux demarches offertes par la modelisation : (1) centrer lanalyse sur une variable
principale, comme ce qui a ete fait avec la variable zep (jusqua la section II.5) ;
(2) ou bien se livrer a une analyse discriminante et identifier les variables les plus
discriminantes (sections II.6 et II.7). Dans le premier cas, on hierarchise a priori
les variables en en distinguant une la variable principale sur laquelle on centre
lanalyse et en conferant aux autres le statut de variables de controle. La finalite est
de neutraliser les effets de effets de structure (ou effets de composition) qui faussent
le lien entre la variable principale et la variable dinteret. Dans le second cas, on
ninstaure pas de distinguo a priori entre les variables, mais lanalyse doit conduire,
en regle tres generale, a les hierarchiser. Dans les deux cas de figure, les variables
doivent etre choisies et organisees avec le plus grand soin.
La premiere demarche exige une qualite quasi irreprochable de la variable prin-
cipale, centrale dans lanalyse. On ne peut admettre, par exemple, de valeurs man-
quantes. Si le cas se presente, il faut se resoudre a supprimer les observations concer-
nees, quitte a redresser lechantillon resultant si necessaire. En revanche, on peut etre
un peu moins regardant sur les variables de controle de par leur statut (relativement)
secondaire. On peut saccommoder de valeurs manquantes en les traitant en conse-
quence (section II.3.c). Autre point dattention, le choix des variables de controle qui
permettront de neutraliser au moins en partie les effets de structure doit etre pese.
Le cas du milieu social de leleve quon a introduit comme variable de controle dans
le modele logit (section II.3.c) en est une illustration. Le zonage de leducation prio-
ritaire, defini au debut des annees 1980, reposait sur la categorie sociale des eleves.
En principe, les etablissements scolarisant une proportion importante deleves de
milieux sociaux defavorises ont ete affectes en education prioritaire. Des lors, a par-
tir du moment ou la categorie sociale apparait comme intimement liee a leducation
prioritaire, comment justifier le fait de la decorreler de la dimension ZEP ? On peut
sautoriser a le faire en arguant que ce critere social na pas ete strictement respecte
dans la pratique, et ajouter que la categorie sociale capte dautres dimensions que
la difficulte scolaire, qui est le cur de cible de leducation prioritaire. Soit. On en
reste alors au constat, etabli en section II.3.d, du role positif de leducation priori-
95
taire sur le passage en seconde generale ou technologique. Peut-on aller plus loin,
introduire dautres variables de controle ? On sait que des moyens plus importants
ont ete affectes aux etablissements relevant de leducation prioritaire. Les classes sont
moins nombreuses quailleurs. Ceci pourrait expliquer en partie cela : si on pense
que des classes moins nombreuses favorisent les apprentissages et permettent aux
eleves concernes detre mieux prepares a la seconde generale, alors limpact positif
de lappartenance a une ZEP en est peut-etre la consequence. Faut-il alors raisonner
a taille de classe fixee, au risque de vider leducation prioritaire de toute substance
et den faire une coquille vide ?
Si on choisit une demarche de type analyse discriminante ou les variables ont le
meme statut, il faut dabord sassurer de la qualite de chacune delles. Les eventuelles
valeurs manquantes doivent etre traitees (voir section II.3.c). Ensuite, il faut bien
choisir ses variables, il faut les organiser dans la perspective de repondre a la ques-
tion : au bout du compte, parmi tous les facteurs qui distinguent les deux categories
dindividus, quels sont ceux qui jouent le plus grand role ? Surtout si elles sont nom-
breuses, il est utile de les regrouper en familles. Par exemple, et pour rester dans le
domaine de leducation, si on dispose de variables sur la categorie sociale des parents
des eleves, sur leurs diplomes, sur le niveau de leurs revenus, on peut envisager de
les mettre ensemble sous une rubrique environnement familial de leleve . Ceci
pourra faciliter les commentaires. Le cas echeant, on les selectionnera pour eviter
limpression de melanger des choux et des carottes , ou pour la clarte des conclu-
sions auxquelles on souhaite aboutir (voir a ce propos la discussion, page 89, sur la
variable dage).
Quelle que soit la demarche employee, on sattachera a bien definir la modalite de
reference (voir la section I.2.c) et on veillera a la parcimonie du modele, en evitant
en particulier un nombre trop important de modalites pour les variables polyto-
miques (voir section I.4.a). On pourra utilement croiser la variable dinteret avec
chaque variable (polytomique) du modele. Cela permettra notamment de reperer
les modalites rares (i.e. a effectif insuffisant), de les regrouper avec dautres qui lui
sont proches ou que lon considere comme telles. Cest par ailleurs un bon moyen de
prendre connaissance des donnees.
Deuxieme etape, la justification du logit. Il sagit de convaincre le lecteur de la

necessite dutiliser un modele statistique pour repondre aux questions posees. De
simples tables presentant des statistiques descriptives suffisent amplement, a
condition de bien les choisir.
Lorsque lanalyse est centree sur une variable principale, on commence par la
croiser avec la variable dinteret. Dans lexemple qui a ete traite, le croisement des
variables secondeg et zep a conduit a comparer deux proportions, le pourcentage
deleves de ZEP passant en seconde generale (P (y = 1|zep = 1)) et le pourcentage
deleves hors ZEP passant en seconde generale (P (y = 1|zep = 0)) voir table 1.
Puis, pour justifier le fait quon ne peut sarreter a cette comparaison, il faut trouver
96
une variable de controle qui est correlee a la fois a la variable principale et a la
variable dinteret. Dans notre exemple, le choix sest porte sur la variable dage
a lentree en 6eme, ce qui a conduit aux tables 2 et 3. La variable de controle est
responsable deffets de structure (ou effets de composition), qui expliquent une partie
de lecart constate au depart. Pour les neutraliser, cest-a-dire creer une situation
(fictive) ou ils nexisteraient pas, il faut recourir a un modele.
Lorsquon suit une demarche danalyse discriminante, la justification est de meme
nature. On choisit deux variables, que lon souhaite mettre en avant dans la demarche
(la categorie sociale et le niveau en 6eme dans notre exemple voir section II.6), qui
sont correlees. Lapport de la modelisation est de les decorreler pour savoir laquelle
joue le premier role.
Dernier point : la presentation des resultats. La aussi, elle depend de la demarche.

Avec une variable principale, loutil a privilegier est leffet marginal de la variable,
conditionnellement aux (compte tenu des) variables de controle retenues dans le mo-
dele. Son calcul et sa comparaison a lecart brut permettent, le cas echeant, de
calculer la part de lecart brut expliquee par les variables prises en compte. Cest par
exemple ce qui a ete fait avec la seule variable de categorie sociale, qui explique envi-
ron 67% de lecart brut constate de 13,5 points entre les eleves de ZEP et les autres
(page 76). Cela etant, le modele complet, cest-a-dire avec lensemble des variables
y compris le niveau de leleve a lentree en 6eme, fait davantage quexpliquer lecart
dans lorientation puisquil inverse le signe de limpact de leducation prioritaire qui,
de negatif, devient positif. Il faut bien voir que ce cas de figure arrive tres rarement
en pratique : en regle tres generale, la prise en compte des variables de controle fait
varier leffet marginal de la variable principale mais ne change pas le signe. Dans
notre cas tres specifique, on a deux solutions. La premiere consiste a enoncer les
resultats du modele en etant le plus rigoureux possible et en essayant de trouver la
formulation la moins lourde possible (voir un exemple denonce page 73 en toute fin
de section II.4). La seconde solution est, comme suggere en section II.5, de se passer
de modele . . .
Dans le cas dune analyse discriminante, on a interet a systematiser le calcul des
effets marginaux et a les presenter en face des ecarts bruts (comme ce qui a ete
fait pour la table 10 de la section II.6). On utilisera la gamme doutils disponibles
pour repondre autant que faire se peut a la question de la hierarchie des facteurs
discriminants (voir section II.7).
Dune maniere generale, on se gardera demployer des formulations ambigues.
On a souligne a plusieurs reprises le caractere inapproprie de lexpression toute
faite toutes choses egales par ailleurs . On evitera aussi le qualificatif impact
significatif lorsquon commente les seuils de significativite, car le lecteur pourrait
traduire par impact important , ce qui nest pas la meme chose.
En conclusion, le modele logit peut beaucoup apporter a lanalyse a condition

de lutiliser a bon escient et de ne pas lui attribuer une ambition demesuree. No-
97
tamment, il ne faut pas faire croire quil permet de mesurer un effet causal. Les
resultats restent conditionnels aux variables introduites. Son premier objectif est
daller au-dela des apparences (en neutralisant les effets de structure dans le cas
dune analyse centree sur une variable principale, en decorrelant les variables entre
elles dans le cas dune analyse discriminante) et, ce faisant, de produire des constats
parfois inattendus, susceptibles dorienter de nouvelles investigations.
98
Annexe
La macro SAS de calcul des effets marginaux
La macro SAS, nommee marginal, utilise la procedure iml proposee par SAS dans
un module specifique, qui permet de faire du calcul matriciel. La structure de la
macro est la suivante :
%macro marginal(tab_ent=,x=,param_ent=,var_qual=,ponder=);
/* etape prealable, executee si il y a une variable de ponderation */
%if &ponder ne %then %do;
proc summary data=&tab_ent(keep=&ponder);
var &ponder;
output out=poidsm(keep=poidsm) mean=poidsm;
run;
data &tab_ent(drop=poidsm);
if _n_=1 then set poidsm;
set &tab_ent;
poids=&ponder/poidsm;
run;
proc delete data=poidsm;run;
%end;
/* calcul et impression de leffet marginal */
proc iml;
start lecture;
(...)
finish lecture;
start effet;
(...)
finish effet;
start impress;
(...)
finish impress;
run lecture;
run effet;
run impress;
quit;
%if &syserr ne 0 %then %do;
data _message_;
message="Attention ! Erreur !";
run;
proc print data=_message_ noobs;
var message;
run;
proc delete data=_message_;run;
%end;
%mend;
La macro a cinq parametres : tab_ent nomme la table contenant les donnees en

entree de lanalyse, x donne la liste de toutes les variables x du modele, parm_ent
99
nomme la table des valeurs estimees des parametres issue de la procedure logistic,
var_qual liste les modalites de la variable (une seule dans le cas dune variable
binaire, p 1 dans le cas dune variable polytomique a p modalites) dont on calcule
leffet marginal, ponder donne le nom de la variable de poids (si elle existe).
La macro debute par une etape prealable, qui est executee si les individus de lechan-
tillon ne pesent pas du meme poids, auquel cas la variable de poids doit etre declaree
par le parametre ponder). Cette etape permet de normaliser la ponderation (i.e. faire
en sorte que la somme des poids soit egale a leffectif de lechantillon).
La macro lance ensuite la procedure iml. Elle se compose de trois modules. Le
premier, lecture, transforme les donnees conservees dans des tables SAS en matrices
ou vecteurs. Le second module, effet, calcule les effets marginaux de la (ou des)
variable(s) selectionnee(s). Le dernier, impress, imprime les resultats des calculs.
Ces trois modules sont successivement executes par la commande run.
Enfin, elle se termine par des instructions dimpression dun message derreur en cas
de probleme.
On detaille maintenant le contenu de chacun des trois modules.
Le module lecture
Son contenu est le suivant :
start lecture;
use &tab_ent;read all var{&x} into x;
use &param_ent;read all var{intercept &x}
where (_type_=PARMS) into b;
use &param_ent;read all var{intercept &x}
where (_type_=COV) into cov;
use &tab_ent;read all var{poids} into poids;
%end;
n=nrow(x);
x=j(n,1,1)||x;
beta=t(b);
explic={&x};
qual={&var_qual};
finish lecture;
La premiere declaration use &tab_ent ... part de la table SAS des donnees in-
dividuelles. Toutes les observations (option all) sont lues mais seules les variables
selectionnees par la clause var{} sont conservees. Les observations et les variables
sont versees dans une matrice nommee x. Chaque ligne de la matrice correspond
a une observation de la table SAS en entree, et le nombre de colonnes de x est egal
au nombre de variables selectionnees.
La deuxieme declaration, use &param_ent ..., part de la table SAS issue de la
procedure logistic, qui contient les valeurs estimees des parametres ainsi que leurs
variances et covariances. Elle ne retient quune observation (clause where), celle qui,
100
dans la table SAS, correspond a _type_=PARMS (i.e. les valeurs des parametres).
Ces valeurs sont conservees dans le vecteur-ligne nomme b.
La troisieme declaration use extrait clause where de la meme table SAS les
valeurs des variances et covariances des parametres, et les range dans la matrice
nommee cov. La matrice cov est ainsi une matrice carree de dimension egale au
nombre de variables introduites dans le modele auxquelles on ajoute le terme contant
(dont le parametre associe sappelle, par defaut, intercept).
Enfin, la quatrieme est optionnelle, car elle depend de lexistence dune variable de
ponderation. Elle cree le vecteur a une seule colonne contenant le poids.
La fonction nrow retourne le nombre de lignes de la matrice, nombre represente ici
par n.
j(n,1,1) represente une matrice de dimension n 1 (n premier parametre de j,
1 deuxieme parametre de j), dont les valeurs valent toutes 1 (troisieme parametre
de j). En bref, il sagit du vecteur colonne compose de 1. Le signe || signifie que
lon apparie ligne a ligne les matrices j(n,1,1) et x, pour en faire une nouvelle
matrice, dont on a conserve le nom x. Ce faisant, on ajoute a la matrice x une
colonne supplementaire qui represente le terme constant du modele.
Le vecteur des parametres beta est le transpose de b. Cest donc un vecteur-colonne,
conformement a sa representation adoptee lors de la presentation formelle du modele
(page 9).
explic est le vecteur-ligne qui contient les noms des variables du modele, qual est
le vecteur-ligne qui contient le nom de la variable qualitative du modele dont on
veut calculer leffet marginal. Noter que dans le cas dune variable polytomique, le
vecteur qual a plusieurs composantes.
Le module effet
Le contenu du module de calcul des effets marginaux est le suivant :
start effet;
/* on repere le rang, dans la liste &x des variables du modele, de la
variable qualitative &var_qual (ou de la 1ere variable de la liste
&var_qual sil sagit dune variable polytomique) */
r=0;
do q=1 to ncol(explic);
if explic[q]=qual[1] then r=q;
end;
/*** initialisation des grandeurs utilisees ... */
/* ... pour le calcul des effets marginaux */
delta=j(n,ncol(qual),0);
delta_moy=j(ncol(qual),1,0);
/* ... pour le calcul des ecarts-types */
gradi=j(1,ncol(x),0);
grad=j(ncol(qual),ncol(x),0);
sigma=j(ncol(qual),1,0); *ecart-type de leffet marginal;
p_value=j(ncol(qual),1,0);*seuil de significativite de leffet marginal;
/*** calcul des effets marginaux */
101
/* situation ou var_qual=0 */
x[,r+1:r+ncol(qual)]=j(n,ncol(qual),0);
x_0=x;
g0=1/(1+exp(-x_0*beta));
g0=g0#poids;
%end;
/* situation ou var_qual=1 */
do j=1 to ncol(qual);
x=x_0;
x[,r+j]=j(n,1,1);
g=1/(1+exp(-x*beta));
g=g#poids;
%end;
delta[,j]=g-g0;
delta_moy=t(delta[+,]*100/n);
/* calcul de lecart-type */
do i=1 to n;
gradi=x[i,]#(g[i]#(1-g[i])-g0[i]#(1-g0[i]));
gradi[1,r+j]=g[i]#(1-g[i]);
grad[j,]=grad[j,]+gradi[1,];
end;
grad[j,]=grad[j,]/n;
sigma[j]=sqrt(grad[j,]*cov*t(grad[j,]))*100;
end;
p_value=2*(1-probnorm(abs(delta_moy)/sigma));
finish effet;
Le module commence par reperer, dans la liste des variables introduites dans le
modele par linstruction model de la procedure logistic, la variable dont on veut
calculer leffet marginal. Si cette variable est une variable dichotomique (comme la
variable zep) alors ncol(qual) nombre de colonnes du vecteur qual (voir module
lecture) est egal a 1.
Le module calcule ensuite leffet marginal, en appliquant la formule (27) dans les cas
dune seule variable binaire, ou les formules de type (29) dans le cas dune variable
polytomique. On notera que linstruction SAS 1/(1+exp(-x*beta)), par exemple,
est lexacte transcription de la formule G = 1/[1 + ex ]. Cette facilite decriture (le
passage simple de lexpression formelle en instructions SAS) est rendue possible par
la convention que nous avons etablie page 9 sur les representations des variables x
en vecteur-ligne et des parametres en vecteur-colonne (voir la note 4 page 9).
Les resultats sont ponderes si une ponderation existe.
La grandeur delta_moy donne leffet marginal de la variable.
La boucle do j=1 to ncol(qual) est effective si ncol(qual) est superieur a 1,
cest-a-dire si on a affaire a une variable polytomique.
Enfin, la partie du module consacree au calcul de lecart-type, est lapplication de
la methode delta dans le cas ou = h() est leffet marginal (voir (32)).
102
Le module impress
Le module impress secrit :
start impress;
/* impression des resultats */
delta_moyc=char(delta_moy,10,4);
sigmac=char(sigma,10,4);
p_valuec=char(p_value,12,4);
do j=1 to ncol(qual);
if p_value[j]<0.0001 then p_valuec[j]=" < 0.0001";
end;
effetc=delta_moyc||sigmac||p_valuec;
noms_ligne=rowcat(t({&var_qual})||j(ncol(qual),1," "));
noms_col={"effet marginal"," ecart_type"," significativite"};
mattrib effetc rowname=noms_ligne
colname=noms_col
label=" ";
print "Effet marginal de &var_qual";
print effetc;
finish impress;
quit;
Il imprime trois grandeurs : leffet marginal de la variable, son ecart-type et son seuil
de significativite.
103
104
Index
A loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . 16
algorithme de Newton-Raphson . . . . . 27
M
C maximum de vraisemblance . . . . . . 2527
causalite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 methode delta . . . . . . . voir delta method
contraste logistique . . . . . . . . . . . . . . . . . .13 modalite de reference . . . . . . . . 22, 59, 65
cote . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 modele a variable latente . . . . . . . . . . . . 14
critere dAkake . . . . . . . . . . . . . . . . . 30, 90 modele logit conditionnel . . . . . . . . . . . . 19
critere dinformation . . . . . . . . . . . . . . . . 30
critere de Schwartz . . . . . . . . . . . . . . 30, 90 O
Oaxaca-Binder . . . . . . . . . . . . . . . . . . . . . . 76
D odds, odds ratio . . . . . . . . . . . . . . . . . 3942
delta method . . . . . . . . . . . . . . . . . . . . 46, 72
distribution asymptotique . . . . . . . . . . . 27 P
p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
E paires concordantes . . . . . . . . . . . . . . . . . 31
effet de structure (ou de composition) 3,
parametres du modele . . . . . . . . . . . . . . . . 9
52, 53
parcimonie du modele . . . . . . . .31, 86, 96
endogene, endogeneite . . . . . . . . . . . 17, 52
precision dune estimation . . . . . . . . . . . 28
estimateur . . . . . . . . . . . . . . . . . . . . . . . 26, 27
probabilite conditionnelle . . . . . . . . 11, 14
H probit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2
hypothese alternative . . . . . . . . . . . . . . . .33 pseudo-R
hypothese dadditivite . . . . . . . . . . . 10, 81 de McFadden . . . . . . . . . . . . . . . . . . . 29
hypothese nulle . . . . . . . . . . . . . . . . . . . . . 33 de Wooldridge . . . . . . . . . . . . . . . . . . 32
I R
identification . . . . . . . . . . . . . . . . . . . . . . . . 22 rapport des cotes . . . . . . . . . . . . . . . . 39, 40
independance stochastique . . . . . . . . . . 14 regression logistique . . . . . . . . . . . . . . . . . 15
indicateur dEstrella . . . . . . . . . . . . . . . . .30 risque de deuxieme espece . . . . . . . . . . . 35
intervalle de confiance . . . . . . . . . . . . . . . 28 risque de premiere espece . . . . . . . . . . . .34
risque relatif . . . . . . . . . . . . . . . . . . . . . . . . 40
L
log-vraisemblance . . . . . . . . . . . . . . . . . . . 26 S
loi conditionnelle . . . . . . . . . . . . . . . . . . . . 14 seuil de significativite . . . . . . . . . . . . . . . 34
loi logistique . . . . . . . . . . . . . . . . . . . . . . . . 15 significativite statistique . . . . . . . . . . . . .34
105
Somers D . . . . . . . . . . . . . . . . . . . . . . . . . . .32
statistique de test . . . . . . . . . . . . . . . . . . . 33
T
test dhypothese
generalites . . . . . . . . . . . . . . . . . . . 3338
test degalite . . . . . . . . . . . . . . . . 66, 68
test de nullite jointe . . . . . . . . . . . . . 64
toutes choses egales par ailleurs . . 4, 17,
5153, 75
U
utilite stochastique . . . . . . . . . . . . . . . . . . 18
V
variable a valeurs manquantes . . . . . . . 63
variable dinteret . . . . . . . . . . . . . . . . 16, 53
variable de controle . . . . . . . . . . . . . . . . . 52
variable polytomique
non ordonnee . . . . . . . . . . . . . . . .21, 23
ordonnee . . . . . . . . . . . . . 21, 23, 59, 82
variable principale . . . . . . . . . . . 52, 53, 81
106
Srie des Documents de Travail
Mthodologie Statistique
9601 : Une mthode aux enqutes auprs des 0101 : Diverses macros
synthtique, robuste et entreprises. 9809 : chantillonnage et SAS : Analyse exploratoire
efficace pour raliser des N. CARON, J.-C. DEVILLE stratification : une tude des donnes, Analyse des
estimations locales de empirique des gains de sries temporelles.
population. 9704 : La faisabilit dune prcision. D. LADIRAY
G. DECAUDIN, J.-C. enqute auprs des J. LE GUENNEC
LABAT mnages. 0102 : conomtrie linaire
1. au mois daot. 9810 : Le Kish : les des panels : une
9602 : Estimation de la 2. un rythme problmes de ralisation du introduction.
prcision dun solde dans hebdomadaire tirage et de son T. MAGNAC
les enqutes de conjoncture C. LAGARENNE, C. extrapolation.
auprs des entreprises. THIESSET C. BERTHIER, N. CARON, 0201 : Application des
N. CARON, P. RAVALET, B. NEROS mthodes de calages
O. SAUTORY 9705 : Mthodologie de lenqute EAE-Commerce.
lenqute sur les 9901 : Perte de prcision N. CARON
9603 : La procdure FREQ dplacements dans lie au tirage dun ou
de SAS - Tests lagglomration toulousaine. plusieurs individus Kish. C 0201 : Comportement
dindpendance et mesures P. GIRARD. N. CARON face au risque et lavenir
dassociation dans un et accumulation
tableau de contingence. 9801 : Les logiciels de 9902 : Estimation de patrimoniale - Bilan dune
J. CONFAIS, Y. GRELET, dsaisonnalisation TRAMO variance en prsence de exprimentation.
M. LE GUEN & SEATS : philosophie, donnes imputes : un L. ARRONDEL, A.
principes et mise en uvre exemple partir de MASSON, D. VERGER
9604 : Les principales sous SAS. lenqute Panel Europen.
techniques de correction de K. ATTAL-TOUBERT, D. N. CARON C 0202 : Enqute
la non-rponse et les LADIRAY Mthodologique Information
modles associs. 0001 : Lconomtrie et et Vie Quotidienne - Tome
N. CARON 9802 : Estimation de ltude des comportements. 1 : bilan du test 1,
variance pour des Prsentation et mise en novembre 2002.
9605 : Lestimation du taux statistiques complexes : uvre de modles de J.-A. VALLET, G.
dvolution des dpenses technique des rsidus et de rgression qualitatifs. Les BONNET, J.-C. EMIN, J.
dquipement dans linarisation. modles univaris rsidus LEVASSEUR, T. ROCHER,
lenqute de conjoncture : J.-C. DEVILLE logistiques ou normaux P. VRIGNAUD, X.
analyse et voies (LOGIT, PROBIT) (version DHAULTFOEUILLE, F.
damlioration. 9803 : Pour essayer den actualise). MURAT, D. VERGER, P.
P. RAVALET finir avec lindividu Kish. S. LOLLIVIER, M. ZAMORA
J.-C. DEVILLE MARPSAT, D. VERGER
9606 : Lconomtrie et 0203 : General principles for
ltude des comportements. 9804 : Une nouvelle (encore 0002 : Modles structurels data editing in business
Prsentation et mise en une !) mthode de tirage et variables explicatives surveys and how to
uvre de modles de probabilits ingales. endognes. optimise it.
rgression qualitatifs. Les J.-C. DEVILLE J.-M. ROBIN P. RIVIERE
modles univaris rsidus
logistiques ou normaux 9805 : Variance et 0003 : Lenqute 1997-1998 0301 : Les modles logit
(LOGIT, PROBIT). estimation de variance en sur le devenir des polytomiques non
S. LOLLIVIER, M. cas derreurs de mesure personnes sorties du RMI - ordonns : thories et
MARPSAT, D. VERGER non corrles ou de Une prsentation de son applications.
lintrusion dun individu Kish. droulement. C. AFSA ESSAFI
9607 : Enqutes rgionales J.-C. DEVILLE D. ENEAU, D. GUILLEMOT
sur les dplacements des 0401 : Enqute sur le
mnages : lexprience de 9806 : Estimation de 0004 : Plus damis, plus patrimoine des mnages -
Rhne-Alpes. prcision de donnes proches ? Essai de Synthse des entretiens
N. CARON, D. LE BLANC issues denqutes : comparaison de deux monographiques.
document mthodologique enqutes peu comparables. V. COHEN, C. DEMMER
9701 : Une bonne petite sur le logiciel POULPE. O. GODECHOT
enqute vaut-elle mieux N. CARON, J.-C. DEVILLE, 0402 : La macro SAS
quun mauvais O. SAUTORY 0005 : Estimation dans les CUBE dchantillonnage
recensement ? enqutes rptes : quilibr
J.-C. DEVILLE 9807 : Estimation de application lEnqute S. ROUSSEAU, F.
donnes rgionales laide Emploi en Continu. TARDIEU
9702 : Modles univaris et de techniques danalyse N. CARON, P. RAVALET
modles de dure sur multidimentionnelle. 0501 : Correction de la non-
donnes individuelles. K. ATTAL-TOUBERT, O. 0006 : Non-parametric rponse et calage de
S. LOLLIVIER SAUTORY approach to the cost-of- lenqutes Sant 2002
living index. N. CARON, S. ROUSSEAU
9703 : Comparaison de 9808 : Matrices de mobilit F. MAGNIEN, J.
deux estimateurs par le et calcul de la prcision POUGNARD
ratio stratifis et application associe.
N. CARON, C. CHAMBAZ
0502 : Correction de la non- 0801 : Rapport du groupe
rponse par rpondration de rflexion sur la qualit M2015/01 : la collecte
et par imputation des enqutes auprs des multimode et le paradigme de
N. CARON mnages lerreur denqute totale
D. VERGER T. RAZAFINDROVONA
0503 : Introduction la
pratique des indices M2013/01 : La rgression M2015/02 : Les mthodes
statistiques - notes de cours quantile en pratique de Pseudo-Panel
J-P BERTHIER P. GIVORD, X. M. GUILLERM
DHAULTFOEUILLE
0601 : La difficile mesure
M2015/03 : Les mthodes
des pratiques dans le
destimation de la prcision
domaine du sport et de la M2014/01 : La microsimu-
pour les enqutes mnages
culture - bilan dune lation dynamique : principes
de l'Insee tires dans
opration mthodologique gnraux et exemples en
Octopusse
C. LANDRE, D. VERGER langage R
E. GROS - K.MOUSSALAM
D. BLANCHET

Le Modele Logit CB

Transféré par

Droits d'auteur :

Formats disponibles

Le Modele Logit CB

Transféré par

Informations du document

Description originale:

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Le Modele Logit CB

Transféré par

Droits d'auteur :

Formats disponibles

Mthodologie statistique

Institut National de la Statistique et des tudes conomiques

Srie des documents de travail Mthodologie Statistique

de la Direction de la Mthodologie et de la Coordination Statistique et Internationale

Ce document a bnfici des commentaires, corrections et remarques de Pauline Givord, Marine

* DEPP (Dpartement de lvaluation, de la Prospective et de la Performance)

Mots cls : Modle Logit ; rgression logistique ; variable dichotomique

KeyWords : Logit model ; logistic regression ; dichotomous variable

* DEPP (Dpartement de l'Evaluation, de la Prospective et de la Performance)

I Le modele Logit : un peu de theorie 5

II Le modele Logit : application 49

Annexe : la macro SAS de calcul des effets marginaux 99

a la modelisation economique des comportements individuels. Dans ce contexte et

Il nest pas necessaire de lire integralement la premiere partie du document avant

Cela pose, il faudrait definir precisement la relation fonctionnelle entre lage et

ou G est une fonction qui sera definie ulterieurement et ou les 00 , 10 , . . ., K0 et

ou xi = ( 1 x1i . . . xKi ) est le vecteur-ligne des caracteristiques de lindividu

P (i Cj |xi ) = G(xi j ) pour j = 0, 1.

4. Il est preferable de representer le vecteur des caracteristiques individuelles par un vecteur-

Lequation du modele secrit plus frequemment avec la variable categorielle y

I.1.b Une application particuliere : le contraste logistique

La figure ci-dessus represente levolution temporelle de P selon la relation (6).

Cette difference est appelee contraste logistique

Un exemple dapplication. Le taux de bacheliers dont les parents sont cadres ou

I.1.c Approche explicative

On dispose par ailleurs de plusieurs informations sur les caracteristiques socio-

7. Voir Letat de lecole, DEPP, edition 2012, page 69

yi = 0 + 1 x1i + . . . + k xki + . . . + K xKi + ui (8)

Dans lequation (8), le parametre k represente leffet de la variable xk sur le niveau

Cette hypothese implique que la probabilite conditionnelle de u sachant x, notee

P (y = 1|x) = P (y > s0 |x) = P (0 s0 + 1 x1 + . . . + K xK + u > 0|x)

avec 0 = 0 s0 10 . En utilisant la notation (2) de la section precedente, la derniere

P (y = 1|x) = P (x + u > 0|x) = P (u < x|x) = P (u < x)

La derniere egalite provient de lindependance de u et de x, cest-a-dire du fait que

P (y = 1|x) = P (u < x) = P (u < x)

puisque la loi de u est supposee etre symetrique. Finalement :

P (y = 1|x) = G(x) (10)

ou G est la fonction de repartition de la loi de u 11 .

Il sagit du modele probit.

I.1.d Comparaison des deux approches

yi = 0 + 1 x1i + x(K1) i (K1) + ui (12)

I.1.e Une troisieme approche

Uji = Vji + uji

Uji = xi j + uji (13)

En introduisant les caracteristiques observees x et en remplacant lutilite par son

P (yi = 1|x) = P (V1 (xi ) + u1i > V0 (xi ) + u0i )

P (yi = 1|x) = G(xi ) (15)

Uji = xi j + zji + uji (16)

En appliquant toujours la meme regle de decision (14), la probabilite de prendre

I.2.a Les variables continues

I.2.b Les variables binaires

Puisque (sexei = h) + (sexei = f ) = 1, on peut ecrire :

ou 0 = 0 + c, 1 = 1 c et 2 = 2 c, avec c constante quelconque pouvant

I.2.c Les variables polytomiques

La difference entre m3 et m2 est la meme, que la modalite de reference soit m1

P = P (y1 = 1|x11 , y2 = 0|x12 , y3 = 1|x13 )

P = P (y1 = 1|x11 ) P (y2 = 0|x12 ) P (y3 = 1|x13 )

En remplacant les probabilites individuelles par leurs expressions (5) 15 , la probabilite

La probabilite P depend des deux quantites (parametres) 0 et de 1 , inconnues a

p(y = 1|X = 1) p(y = 1|X = 0)