Le Modele Logit CB
Le Modele Logit CB
Le Modele Logit CB
M 2016/01
Le modle Logit
Thorie et application
Cdric Afsa
Document de travail
M 2016/01
Le modle Logit
Thorie et application
Cdric Afsa *
Direction de la mthodologie et de la coordination statistique et internationale -Dpartement des Mthodes Statistiques - Timbre L101
18, bd Adolphe Pinard - 75675 PARIS CEDEX - France -
Tl. : 33 (1) 41 17 66 33 - Fax : 33 (1) 41 17 66 33 - CEDEX - E-mail :-DG75-L001@insee,fr - Site Web Insee : http://www.insee.fr
Ces documents de travail ne refltent pas la position de lInsee et n'engagent que leurs auteurs.
Working papers do not reflect the position of INSEE but only their author's views.
Le modle Logit : Thorie et applications
Cdric Afsa *
Rsum
Le modle logit a une double nature. Dune part, cest un modle de rgression o la variable
dpendante est binaire. Dautre part, cest une mthode alternative lanalyse discriminante linaire.
Par ailleurs, le modle logit peut aussi tre considr comme un modle conomique de choix
discrets.
Lobjectif de ce document est double. Dabord, il passe en revue les caractristiques du modle et
cette occasion rappelle certaines notions de base comme la mthode destimation ou les tests
dhypothse. Ensuite, il est appliqu des donnes sur lducation, et un point particulier est fait sur la
manire de prsenter les rsultats.
Abstract
The logit model has a dual nature. On the one hand it refers to a regression model where the
dependent variable is binary. On the other hand it is an alternative to linear discriminant analysis.
Moreover logit model may be considered as a discrete choice economic model.
The aim of the document is two-fold. Firstly key features of the logit model are presented and on this
occasion basic notions such as estimation method or hypothesis testing are recalled. Secondly the
model is applied to data on education and in particular stresses on how to present results.
Avant-propos 3
1
II.3.a Introduction de la variable dage a lentree en sixieme . . . . 59
II.3.b Ajout de la distinction fille/garcon . . . . . . . . . . . . . . . 62
II.3.c Ajout du milieu social de leleve . . . . . . . . . . . . . . . . 63
II.3.d Ajout du niveau de leleve en 6eme . . . . . . . . . . . . . . . 68
II.3.e Ajout dindicatrices academiques . . . . . . . . . . . . . . . . 69
II.4 Calcul dun effet marginal . . . . . . . . . . . . . . . . . . . . . . . . 71
II.5 Bilan detape . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
II.6 Changement de perspective (I) Quest-ce qui distingue les eleves
sorientant en seconde generale ? . . . . . . . . . . . . . . . . . . . . 81
II.7 Changement de perspective (II) Quelle hierarchie des variables ? . 87
II.7.a Utilisation dun critere de prediction . . . . . . . . . . . . . . 87
II.7.b Utilisation dun critere dinformation . . . . . . . . . . . . . . 90
II.8 La question des ponderations . . . . . . . . . . . . . . . . . . . . . . 93
II.9 En guise de conclusion : petit guide de conduite dune etude . . . . . 95
Index 105
2
Avant-propos
Supposons que lon sache distinguer, au sein dune population, deux categories
dindividus. Par exemple, il y a sur le marche du travail les personnes en emploi
et celles qui en recherchent un. Autre exemple : une partie des eleves etudie dans
des etablissements publics, lautre est scolarisee dans le prive. Ou encore : parmi les
candidats a un examen, les uns echouent, les autres reussissent. On part du principe,
(quasiment) toujours verifie, que les individus des deux categories ne se ressemblent
pas. On aimerait alors repondre a deux questions : sur quelles caracteristiques se
differencient-ils ? et lesquelles jouent les premiers roles en la matiere ?
Le modele logit 1 est tout a fait adapte a cette problematique. Outre quil permet
didentifier les caracteristiques distinguant les individus des deux groupes, il mesure
aussi linfluence de chacune dentre elles dans cette distinction.
Pour illustrer le propos, interessons-nous a la question de lacces a lemploi sur le
marche du travail. On cherche a connatre les facteurs qui font que certains individus
ont plus de difficultes que dautres a trouver un emploi. On distingue donc ceux qui
sont en emploi et ceux qui en recherchent un. On souhaite plus precisement etudier
le role joue en la matiere par le critere de nationalite. On sait que les travailleurs
etrangers ont davantage de problemes demploi que leurs homologues francais. Mais
on sait aussi que, dune maniere generale, ces travailleurs ont un niveau de formation
moins eleve que les francais, donc une moindre qualification, ce qui les handicape
sur le marche du travail. On peut des lors se demander si les problemes dinsertion
dans lemploi quils rencontrent ne sont pas dus au moins en partie a la difference
de qualification. Sil ny a pas la ce quon appelle un effet de structure : le fait que
les etrangers sinserent plus difficilement peut sexpliquer en partie par la difference
structurelle des deux sous-populations en niveaux de qualification. On parle aussi
deffet de composition.
Pour le savoir, on peut conduire lexercice consistant a se placer dans la situation
fictive ou les etrangers seraient autant formes que les Francais. La nationalite
aurait-elle encore un role dans lacces a lemploi ? Si oui, reste-t-il important ou non ?
Le modele logit permet precisement de faire lexercice, en tenant compte a la fois
de la nationalite et du niveau de formation, mesure par exemple par le diplome.
On peut approfondir lanalyse et introduire dautres caracteristiques comme le sexe,
lage, le lieu de residence, . . . , cest-a-dire creer une situation fictive ou les Francais
1. Sans autre precision, il sagit du modele logit dichotomique, qui modelise lappartenance
a une categorie parmi deux possibles. A partir de trois categories possibles (par exemple inac-
tif/chomeur/en emploi), on parle de modele logit polytomique.
3
et les etrangers auraient aussi la meme pyramide des ages, la meme structure par
sexe, seraient repartis pareillement sur le territoire national, . . . , puis regarder si les
situations vis-a-vis de lemploi seraient encore differentes.
Bien que le modele logit soit aujourdhui largement utilise, il reste paradoxale-
ment assez meconnu. On ignore souvent quil peut servir plusieurs finalites. Selon
les situations rencontrees, on lutilisera comme outil a visee ouvertement descriptive
(analyse discriminante), ou bien comme modele explicatif, sans parler de son apport
2. Le panneau
signale des aspects delicats du modele et de son utilisation, quil convient de
traiter avec soin.
4
I. Le modele Logit : un peu de theorie
5
6
I.1 La specification du modele : les differentes approches
I.1.a Approche descriptive
On observe un echantillon dindividus dont on connat K de leurs caracteristiques,
representees par les K variables x1 , x2 , ..., xK . .
On suppose que les individus sont repartis en 2 categories C0 et C1 . Sur le mar-
che du travail par exemple, certains travaillent (font partie de la categorie C1 des
personnes en emploi), dautres pas (categorie C0 des personnes sans emploi). Autre
exemple, une partie des eleves de terminale a reussi les epreuves du baccalaureat (ils
appartiennent a la categorie C1 des bacheliers), lautre a echoue (categorie C0 des
non bacheliers).
On souhaite analyser et quantifier le lien existant entre les caracteristiques indi-
viduelles xk et lappartenance a C0 ou C1 . Il faut un outil un modele specifique
pour pouvoir le faire. Lexemple suivant tres simplifie va le montrer.
On a conduit une enquete aupres dune centaine de personnes pour analyser le lien
entre lage et lactivite sur le marche du travail. On sinteresse plus precisement aux
individus ages de 45 ans a 75 ans. On leur a demande de preciser sils etaient actifs
ou inactifs. La figure ci-dessous represente les reponses individuelles a lenquete.
inactif
actif
45 ans 75 ans
Chaque point figure un individu. Sil a repondu etre actif, il se situe sur la droite
horizontale actif. Dans le cas contraire, il est sur la droite inactif. Les individus
proches de 45 ans sont tous actifs, ceux proches de 75 ans sont tous inactifs. Il y a un
lien positif entre lage et linactivite : le nombre de points sur la droite inactif (resp.
actif) augmente (resp. diminue) avec lage. On sen doutait. Plus interessante est
la question de savoir si ce lien est faible, moyen, fort, . . . , en deux mots la question
de sa quantification : de combien augmente linactivite quand on vieillit dun an ?
Poser ainsi la question suggere lutilisation dun outil comme la regression lineaire :
on explique linactivite par lage, et la valeur estimee du parametre associe a
lage donne la force du lien. On procede donc comme suit. On cree la variable a
expliquer , nommee par exemple inactif, qui vaut 1 si la personne a repondu etre
inactive au moment de lenquete (son inactivite est de 100%), et vaut 0 si elle se
7
dit active (son inactivite est de 0%) 3 . La figure suivante represente la droite de
regression, celle qui passe le plus pres possible de tous les points .
inactif
actif
45 ans 75 ans
Cette maniere de faire souleve au moins deux problemes. Le premier est quon
ne sait pas ce que represente chaque point de la droite, etant donne que la variable
a expliquer prend deux valeurs et deux seulement. De plus, la valeur predite
de linactivite (qui se situe sur la droite de regression) est negative pour des ages
proches de 45 ans. Il faut donc trouver une autre methode.
Au lieu de sinteresser au statut binaire inactif/actif, on se centre sur la probabilite
detre inactif. Il sagit la dune variable susceptible de varier continument entre 0 et
1. On modelise alors le lien entre la probabilite detre inactif et lage, et non entre
le statut et lage. Puisque cette probabilite doit etre comprise entre 0 et 1, son lien
avec lage ne peut etre represente par une droite, mais par une courbe respectant
cette contrainte. La figure suivante en est un exemple.
inactif
actif
45 ans 75 ans
3. Ce type de modele, appele modele lineaire de probabilite, est parfois utilise lorsquil est legitime
de le faire.
8
age compris entre 45 et 75 ans. Pour ce faire, on a besoin dun cadre formel general,
expose ci-dessous.
On part donc du principe que la population que lon etudie est scindee en deux
categories, C0 et C1 (dans lexemple precedent, C0 contient les actifs et C1 les in-
actifs). On dispose dun echantillon de n individus indices par i, representatifs de
cette population. On connat K caracteristiques de ces individus, mesurees par les
variables x1 , x2 , . . . , xK . Pour lindividu i, les K variables prennent les valeurs x1i ,
x2i , . . . , xKi .
On pose que la probabilite P que lindividu i (compte tenu de ses caracteristiques
x1i , x2i , ..., xKi ) appartienne a C1 ou a C0 est une fonction des x1i , x2i , ..., xKi . On
precise un peu la relation fonctionnelle en supposant que les probabilites dappar-
tenance dependent dune combinaison lineaire des caracteristiques. Formellement,
cela secrit :
(
P (i C0 |x1i , . . . , xKi ) = G(00 + 10 x1i + + K0 xKi )
(1)
P (i C1 |x1i , . . . , xKi ) = G(01 + 11 x1i + + K1 xKi )
Avant de poursuivre, une remarque sur les notations. La combinaison lineaire des
caracteristiques peut secrire de maniere synthetique, pour j = 0 ou j = 1 :
j
0
j
j j j
1 j
0 + 1 x1i + + K xKi = 1 x1i . . . xKi .
= xi , (2)
.
.
Kj
9
Quelle fonction choisir pour G ? P (i C0 |xi ) et P (i C1 |xi ) etant des probabili-
tes, on doit avoir :
(
0 < P (i C0 |xi ) < 1 et 0 < P (i C1 |xi ) < 1
(3)
P (i C0 |xi ) + P (i C1 |xi ) = 1
j
Poser G(xi j ) = exi assurerait P (i Cj |xi ) > 0. Mais les autres contraintes ne
seraient pas verifiees. Pour quelles le soient, il suffit de normer les deux quantites
0 1
exi et exi , cest-a-dire les diviser par leur somme. On obtient alors :
0 1
e xi e xi
P (i C0 |xi ) = et P (i C1 |xi ) =
e xi 0 + e x i 1 e xi 0 + e x i 1
Cest cette forme fonctionnelle qui donne au modele son nom de logit.
On peut simplifier en remarquant quune seule probabilite suffit pour le represen-
ter, puisque la somme de P (i C0 |xi ) et de P (i C1 |xi ) est egale a 1. Lune se
deduit de lautre. On se centre sur la probabilite dappartenir a C1 . Elle secrit :
1
e xi 1
P (i C1 |xi ) = 0 1 =
e xi + e x i 1 + exi ( 0 1 )
Finalement, si on pose = 1 0 , on a :
1
P (i C1 |xi ) = (4)
1 + exi
Dans le cas dune seule variable x1 , on peut representer la courbe, donnee par
lequation (4), sur un plan, avec en ordonnee la probabilite dappartenir a la categorie
C1 et en abscisse les valeurs prises par la variable x1 . Cest ce qui a ete fait page 8,
ou la categorie C1 est celle des inactifs et la variable x1 est lage de la personne
enquetee 5 .
1
P (yi = 1|xi ) = (5)
1 + exi
Cest elle qui est tres generalement utilisee. Dans cette expression, les valeurs prises
par les variables yi et xi sont connues puisquobservees sur lechantillon detude. En
revanche, les valeurs des parametres (0 , . . . , K ) = sont inconnues. On verra par
la suite (pages 25 et suivantes) comment les obtenir.
Une remarque sur les hypotheses du modele. Celle imposant que la probabilite
dappartenance soit fonction dune combinaison lineaire des caracteristiques hy-
pothese dite dadditivite nest pas innocente. Cest elle qui permet devaluer le
5. Tres precisement, la courbe a ete dessinee avec les valeurs 0 = 19.4 et 1 = 0.33.
10
role de chaque variable xk dans lappartenance a lune ou lautre categorie, inde-
pendamment des autres variables. Pour voir ce que cela signifie, reprenons lexemple
du marche du travail, ou sont distinguees les personnes en emploi (j = 1) et celles
sans emploi (j = 0). Les caracteristiques individuelles sont le sexe x1 , le niveau de
formation x2 , lage x3 et la nationalite x4 . La variable x4 vaut 0 ou 1 selon que
lindividu est de nationalite francaise ou etrangere. Fixons les trois autres variables
a des valeurs quelconques, par exemple celles les plus frequemment rencontrees dans
lechantillon. Si on connat les valeurs des parametres, on peut alors calculer, grace a
la formule (5), les deux probabilites dappartenance a la categorie C1 correspondant
aux deux valeurs possibles de x4 . La difference entre ces deux probabilites mesure le
role joue par le critere de nationalite dans lappartenance a C1 , a age, sexe et niveau
de formation fixes ou constants.
Ainsi, lhypothese dadditivite permet devaluer limpact, sur la probabilite dap-
partenir a C1 , de la variation de chaque variable xk , les autres etant maintenues
constantes.
Autre remarque : il faut ecrire P (yi = 1|xi ) et non simplement P (yi = 1). Lecri-
ture adoptee rappelle que la quantite P (yi = 1|xi ) depend bien de x, comme le
montre le membre de droite de lexpression (5). La quantite est une probabilite condi-
tionnelle, au sens ou elle mesure la probabilite que yi soit egal a 1 conditionnellement
aux (i.e. compte tenu des) variables x1 , x2 , . . . , xK introduites dans le modele. Si
on ajoute une variable xK+1 a la liste, alors la probabilite change. Il sagit la dun
point tres important, sur lequel on aura loccasion de revenir.
6. Lorigine du modele logit remonte au XIXeme siecle, lorsque Pierre-Francois Verhulst publia
11
Soit P la proportion des personnes possedant un bien donne (ou toute autre
caracteristique, comme un diplome). Cette proportion evolue avec le temps t : P =
P (t). Dans le cas dun nouveau bien, elle est nulle juste avant sa mise sur le marche,
puis augmente, dabord faiblement, des que le bien est disponible. Soit y la variable
indiquant si lindividu dispose du bien (y = 1) ou non (y = 0). La probabilite, pour
une personne quelconque, de posseder le bien a linstant t nest rien dautre que la
proportion P (t) : P (y = 1|t) = P (t).
On fait dependre la proportion P du temps t selon la relation :
1
P = P (t) = (6)
1 + et
On retrouve lequation (5) du modele logit avec une seule variable x, qui est ici le
temps t. La relation (6) permet dexprimer t en fonction de P . On a en effet, tous
calculs faits :
P
t = ln (7)
1P
ou ln est le logarithme neperien.
68%
50%
10%
5%
t t t
12
P2 est, en vertu de la relation (7), egale a :
P2 P1
t2 t1 = ln ln
1 P2 1 P1
13
demographiques des eleves : on connat les valeurs prises par un ensemble de variables
x1 , x2 , ..., xK pour chaque eleve.
La question centrale est ici de savoir si les caracteristiques de ces eleves influent sur
leur niveau, si elles sont susceptibles de lexpliquer et dans quelle mesure. Formalisons
tout cela avec le modele le plus simple traduisant linfluence des variables xk (pour
k = 1, . . . , K) sur y , celui ou les effets des variables explicatives x1 , x2 , ..., xK sur le
niveau de competences sont supposes etre additifs. Ce modele secrit :
u xk k = 1, . . . , K. (9)
14
les sous-ensembles E(x). En dautres termes, la probabilite P (u|x) ne depend pas de
x, elle est egale a P (u). On va utiliser ce resultat un peu plus tard.
On poursuit donc la specification du modele. A defaut dobserver y , on se re-
porte sur la variable y qui, elle, est observee. On sinteresse alors aux frequences des
reussites (y = 1) et des echecs (y = 0) pour differentes valeurs de x et on regarde
si ces frequences varient sensiblement selon x. On est ainsi amene a examiner les
probabilites P (y = 1|x) et P (y = 0|x). On a :
1
P (y = 1|x) = (11)
1 + ex
On retrouve lexpression (5) du modele logit. Notons ici que le modele est parfois
appele regression logistique. Cela provient du fait que (11) est derivee du modele
de regression (8), qui est a proprement parler une regression lineaire a residus logis-
tiques.
10. Cette egalite traduit le fait quon ne peut pas identifier le seuil minimal s0 et donc en estimer
le niveau.
11. La valeur que prend au point a la fonction de repartition de la loi de u est, rappelons-le, la
probabilite que u soit inferieure a a.
15
La seconde possibilite est de faire suivre a u la loi normale centree reduite, dont
la densite, traditionnellement notee (u), secrit analytiquement :
1 u2
(u) = exp[ ]
2 2
La fonction de repartition est notee (a), dont on ne connat lexpression que sous
la forme dune integrale. Lexpression (10) se reecrit alors :
P (y = 1|x) = (x)
12. Parmi les premiers travaux en la matiere, on citera G.W. Ladd, Linear Probability Functions
and Discriminant Functions , Econometrica, 1966, ou encore D. McFadden, A Comment on
Discriminant Analysis versus Logit Analysis , Annals of Economic and Social Measurement, 1976.
13. Pour etre precis, les valeurs effectivement prises par les variables x dans chacun des deux
groupes doivent pouvoir etre considerees comme des valeurs tirees dans des lois normales ayant la
meme matrice de variance-covariance. Voir a ce sujet O. Sautory et C. Vong, Une etude com-
parative des methodes de discrimination et de regression logistique , Insee Methodes, no 46-47-48,
1995.
16
du type (8). Supposons que la variable x1 indique si leleve etudie dans un etablis-
sement public (x1 = 0) ou dans un etablissement prive (x1 = 1). On sy interesse
particulierement, car on aimerait connatre leffet du secteur (public/prive) sur le
niveau de leleve, effet mesure par le parametre 1 . Si on lestime par le modele logit
(11), on risque fort de se tromper et de recuperer une valeur du parametre qui ne
correspond pas au vrai effet causal de x1 sur y . Car les eleves qui frequentent les
etablissements prives ne sont pas comme tous les autres. Ils viennent plus souvent
de familles aisees, pour qui le recours au prive fait partie dune strategie visant la
meilleure reussite possible de lenfant. Ces eleves ont pu aussi etre selectionnes sur
leurs resultats scolaires avant dentrer dans letablissement. Ces criteres distinctifs
ont par ailleurs une influence determinante dans les apprentissages et, par voie de
consequence, dans la reussite a lexamen. Les donnees les mesurant lattitude des
parents, les competences ex ante de leleve sont difficiles a collecter, si bien que ces
informations, en regle tres generale, ne sont pas observees et font partie du residu
u. Dans ce cas, elles tirent a la hausse la valeur moyenne du residu calculee sur la
sous-population des eleves frequentant les etablissements prives (i.e. E(u|x1 = 1)),
par rapport a celle calculee sur les eleves du public (i.e. E(u|x1 = 0)). On a donc :
E(u|x1 = 1) > E(u|x1 = 0). En consequence, la probabilite conditionnelle de u
sachant x1 (voir la section I.1.a supra) depend de x1 puisque les valeurs moyennes
de u pour x1 = 0 et x1 = 1 sont differentes. La propriete (9) nest pas satisfaite.
On dit dans ce cas que la variable x1 est endogene. On ne peut donc pas passer de
lexpression de base (8) du modele a sa formulation logistique (11).
Que se passe-t-il si on estime 1 comme parametre dun logit en labsence dinfor-
mations telles que la strategie parentale ou les resultats anterieurs de leleve, main-
tenant implicitement lhypothese dindependance entre le residu u de lexpression
(8) et la variable x1 ? Pour le voir, on repart du modele :
ou x1 est la variable de secteur, x(K1) les autres variables du modele et (K1) leurs
parametres associes. On suppose donc quil manque dans x(K1) les variables comme
la strategie parentale ou le niveau de leleve. Estimer 1 avec la specification (12)
suppose implicitement que u est independant de x1 . Ceci exclut que les variables
manquantes soient comprises dans le residu (sinon il y aurait un lien entre u et x1 ).
En consequence, elles sont englobees dans la variable x1 (puisquelles ne figurent pas
dans x(K1) ). Dans ces conditions, la valeur de 1 estimee par (12) capte a la fois
les effets positifs des deux variables manquantes sur y , et leffet net du secteur
prive (x1 = 1) sur y . En dautres termes, le parametre 1 ainsi estime surestime
leffet propre du prive sur y , appele aussi effet causal .
Il faut donc redoubler de prudence lorsquon commente les resultats dun modele
logit explicatif , ne pas parler d effet pur dune variable explicative lorsquelle
est presumee etre endogene. La formulation toutes choses egales par ailleurs nest
17
guere plus satisfaisante. On y reviendra dans la seconde partie du document.
La premiere est nommee ainsi car elle est entierement determinee ou expliquee par
un ensemble de caracteristiques individuelles observees et notees xi : Vji = Vj (xi ).
La forme generalement retenue de la fonction Vj (x) est lineaire en x : Vj (xi ) = xi j ,
en utilisant la notation condensee (2) supra. La seconde composante rassemble les
variables inobservees et inobservables qui peuvent jouer sur la decision de lagent i.
Elle est supposee varier de maniere aleatoire. En resume, lutilite que i retire(rait)
de loption j secrit :
La regle de decision est alors la suivante : lindividu choisit une des deux options
si lutilite quil en retire est superieure a lutilite attendue de lautre option. Si y est
la variable binaire reperant loption choisie (i.e. yi = 0 si lindividu i a choisi loption
0, et yi = 1 si i a choisi 1), alors :
(
yi = 0 U0i > U1i
(14)
yi = 1 U1i > U0i
ou = 1 0 . Finalement :
18
ou G est la fonction de repartition de la loi u0 u1 . On montre que si u0 et u1
suivent la loi dite type I extreme-value ou loi de Gumbel, dont la fonction de
densite secrit f (u) = eu exp[eu ], alors on retrouve lexpression du modele logit
deja rencontree :
1
G(xi ) =
1 + exi
Ce cadre theorique nest pas toujours pertinent, loin sen faut. Par exemple, cela
na pas de sens de traiter ainsi la reussite a un examen, car le candidat ne choisit pas
dechouer ! A priori, lutilite U1i est toujours superieure a U0i . En revanche, il est
surtout adapte aux cas ou les deux options entre lesquelles lindividu doit trancher
ont elles-memes des caracteristiques qui font partie des criteres de decision. Le choix
dun mode de transport en est lexemple-type. Supposons que lindividu i hesite entre
deux moyens de transport pour se rendre dans une ville eloignee de son domicile : le
train dun cote, lavion de lautre. Pour arbitrer, il tiendra compte notamment des
prix et des temps totaux du trajet, pour le train et pour lavion.
Ce cas ou des caracteristiques des options entrent dans les criteres de decision
se formalise de la maniere suivante. Soit zji , pour j = 0 ou 1, ces caracteristiques
pour lindividu i. Il sagit par exemple de ce que lui coutera(it) chacun des modes
de transport, les temps de trajet respectifs quil connatra(it). En supposant quelles
agissent de maniere additive sur lutilite, lexpression (13) devient :
1
P (yi = 1|xi , z0i , z1i ) = G[xi ( 1 0 ) + (z1i z0i )] =
1 + exi (z1i z0i )
Formalise ainsi, le modele, parfois appele modele logit conditionnel selon la deno-
mination que lui a donne McFadden (conditional logit model ), est passablement
different du modele logit represente par les expressions (5) ou (11). Il contient en
effet, en plus des caracteristiques individuelles x, des variables les zj qui varient
avec loption proposee. De plus, et surtout, les zj sont les variables du modele a
privilegier dans lanalyse. Les caracteristiques individuelles sont introduites dabord
pour prendre en compte lheterogeneite observee des individus. Car lutilisation qui
peut etre faite de ce type de modele est destimer limpact sur les comportements
dune modification des tarifs. Par exemple, reduire de, mettons, 10 % en moyenne les
prix des billets de train attirerait-il une partie de la clientele prenant habituellement
lavion, et si oui dans quelle proportion ?
Une derniere remarque. Si les modeles dutilite stochastique sont bien adaptes aux
cas ou les caracteristiques des options font partie des criteres de choix, on peut a la
19
rigueur y faire reference lorsquelles ne sont pas mesurees. Supposons que lon ait a
modeliser un choix dorientation, entre la voie generale et la voie professionnelle par
exemple. Dans les criteres de choix pourrait figurer ce que craint ou espere leleve a
lissue de ses etudes (le taux de chomage quil risque de connatre, le salaire espere),
mais aussi le cout de sa scolarite quil sattend a supporter. Si on dispose de ces
informations, alors on peut specifier puis estimer un modele du type (16), ou les
variables z sont le taux de chomage, le salaire et le cout de scolarite attendus. En
labsence de donnees sur ces variables, on peut sen tenir a (13), et on considere que
les informations non disponibles font partie du residu u 14 . Mais la portee du modele
reste limitee.
14. Cet exemple du choix dorientation fait partie de ceux quon ne peut pas modeliser par une
expression du type (8), car il nexiste pas de variable latente adaptee.
20
I.2 Les variables du modele
Jusqua present, nous nous sommes concentres sur la formalisation du modele pour
quil soit adapte au caractere particulier de la variable categorielle y. Nous navons
donne aucune precision sur les autres variables du modele, i.e. x1 , x2 , . . . , xK . Elles
peuvent etre de natures tres differentes, dont il faut tenir compte pour les traiter de
maniere adequate.
On distingue dabord les variables dites numeriques (ou quantitatives) et les va-
riables qualitatives. Par exemple, lage de la personne ou le nombre dhabitants de
sa commune de residence sont des variables numeriques. Le sexe, le diplome ou la
filiere denseignement sont des variables qualitatives.
Ensuite, il y a plusieurs types de variables qualitatives. Premier type, les variables
binaires (appelees aussi dichotomiques) qui, comme le sexe, ne comportent que deux
modalites. Second type, les variables polytomiques, qui ont plus de deux modalites.
On a coutume de distinguer parmi elles celles qui sont ordonnees et celles qui ne
le sont pas. Par exemple, les diplomes, en regle generale, permettent de classer
leurs detenteurs les uns par rapport aux autres. On dira ainsi que le baccalaureat
est superieur au brevet. En revanche, les filieres denseignement ou encore les
disciplines (sciences, lettre droit, . . . ) ne sont pas ordonnables.
1
P (yi = 1|agefi ) =
1+ e0 1 agefi
0 + 1 (sexei = h) + 2 (sexei = f )
= (0 + c) + (1 c)(sexei = h) + (2 c)(sexei = f )
21
= 0 + 1 (sexei = h) + 2 (sexei = f )
1
P (yi = 1|sexei ) =
1+ e0 1 (sexei =h)2 (sexei =f )
Il y a donc une infinite de jeux de parametres donc dequations conduisant au
meme modele. On dit que les parametres du modele ne sont pas identifies. Or le
modele doit etre represente par une equation et une seule, cest-a-dire par un jeu de
parametres et un seul.
Pour ce faire, on choisit une modalite qui fera office de reference, et on force
a zero le parametre correspondant. Par exemple, si on retient homme comme
modalite de reference de la variable sexe, le parametre associe 1 est force a 0.
La variable indicatrice (sexei = homme) disparat du modele. La situation de la
femme, mesuree par le parametre 2 , est evaluee en reference a celle de lhomme.
m3 m2 = (m3 m1 ) (m2 m1 )
22
modalite rare ne peut faire reference . . . ). Le choix doit aussi pouvoir faciliter les
commentaires des resultats. Dans le cas dune variable ordonnee, par exemple, on
prendra en general comme reference la modalite la plus faible , a condition quelle
recueille un nombre suffisant dobservations, lidee etant quune variable qualitative
ordonnee est un peu comme une variable numerique, dont les valeurs sont par de-
finition ordonnees. Dans le cas dune variable non ordonnee, sil ny a pas de choix
evident, on pourra retenir la modalite modale, celle qui rassemble le plus dindividus,
ou bien celle pour laquelle la repartition des individus entre les categories C0 et C1
est proche de celle constatee sur lensemble de lechantillon.
Mentionnons enfin quune variable numerique peut etre transformee en variable
polytomique ordonnee et traitee comme telle. Par exemple, lage peut etre de-
coupe en trois tranches moins de 35 ans, de 35 a 45 ans, plus de 45 ans. A ces trois
tranches sont associees trois variables indicatrices ((age < 35), (35 age < 45),
(45 age)). Si on souhaite mettre en evidence des effets non-lineaires de lage
sur la probabilite dappartenance, le fait quelle soit par exemple plus elevee pour
les deux tranches dage extremes, on a interet a retenir la modalite intermediaire
comme reference, cest-a-dire exclure lindicatrice (35 age < 45). On sattend a
ce que les parametres associes aux deux autres indicatrices soient positifs.
23
24
I.3 Estimation des parametres du modele
I.3.a La methode du maximum de vraisemblance
Pour estimer les parametres du modele, on utilise la methode du maximum de
vraisemblance. Pour expliquer en quoi elle consiste, nous allons partir dun exemple
simplifie a lextreme.
On observe un echantillon de trois individus tires, dans une population dinteret,
aleatoirement et independamment les uns des autres. On connat de ces individus
une seule caracteristique, notee x1 , dont les valeurs sont respectivement x11 = 2,
x12 = 1 et x13 = 3. Soit y la variable binaire reperant la categorie dappartenance.
Dans cet echantillon, on observe que le premier individu appartient a la categorie
1 (y1 = 1), le deuxieme a la categorie 0 (y2 = 0) et le troisieme a la categorie 1
(y3 = 1).
La probabilite dobserver cet echantillon est celle dobserver conjointement y1 = 1
compte tenu de la valeur de x11 , y2 = 0 compte tenu que x12 = 1 et y3 = 1 sachant
que x13 = 3. Cette probabilite secrit :
Puisque les individus ont ete tires independamment les uns des autres, cette proba-
bilite est egale au produit des trois probabilites individuelles :
25
elevee possible la probabilite P dobserver lechantillon tire, qui maximisent P. Dou
le nom de la methode, etant entendu que la probabilite P est traditionnellement
appelee vraisemblance du modele. Les valeurs des deux parametres sont donc celles
qui annulent les deux derivees partielles de P :
P P
=0 et =0
0 1
On montre que la fonction P est concave, ce qui fait que le point dannulation des
deux derivees partielles correspond bien a un maximum.
Avec la forme (18) de la vraisemblance P, les expressions des derivees partielles
sont assez compliquees. Pour simplifier, au lieu de maximiser P, on maximise son
logarithme ln P, ce qui revient au meme puisque la fonction logarithme est stricte-
ment croissante. La quantite ln P est appelee log-vraisemblance. Elle est la somme
de trois logarithmes. Chaque derivee partielle ln P /0 et ln P /1 est alors la
somme de trois derivees partielles (relativement) simples.
La generalisation a un echantillon de n individus est immediate. Le raisonnement
est exactement le meme. On remarquera que, quelle que soit la valeur prise par la
variable binaire y pour lindividu i, le logarithme de la probabilite individuelle de i,
que i appartienne a C0 ou a C1 , secrit toujours :
1 exi
ln Pi = yi ln + (1 y i ) ln
1 + exi 1 + exi
Avec cette notation, la log-vraisemblance pour lechantillon des n individus est egale
a :
n
exi
X 1
ln P = yi ln + (1 yi ) ln (19)
1 + exi 1 + exi
i=1
Les valeurs des parametres sont les solutions du systeme a K + 1 equations (il y a
autant dequations que de parametres a estimer) :
ln P
=0 (20)
26
les plus souvent utilises est celui de Newton-Raphson. Tres schematiquement, il se
deroule de la maniere suivante. On part de valeurs initiales des K + 1 parametres du
modele (par exemple, k = 0 k = 0, . . . , K). Puis on remplace chaque equation
de (20) par son approximation lineaire autour de ces valeurs initiales. On resout
le systeme ainsi forme et on obtient un premier jeu de valeurs des parametres. On
repete loperation en remplacant chaque equation de (20) par son approximation
lineaire autour de ce premier jeu de parametres. On resout le systeme ainsi forme, et
ainsi de suite jusqua ce que les valeurs des parametres ainsi determinees ne changent
(quasiment) pas lorsquon itere loperation. On arrete alors la recherche des valeurs
des k et les dernieres obtenues sont les valeurs estimees des parametres.
Grace a elles, on peut calculer pour chaque individu i la probabilite dapparte-
nance a la categorie C1 predite par le modele, que lon note Pi = P (yi = 1|xi ). Il
suffit de remplacer, dans lexpression (5), par , vecteur (colonne) des parametres
estimes k 17 .
17. Pour eviter des lourdeurs decriture, on utilise la meme notation k pour representer a
la fois lestimateur de k (i.e. la fonction des variables xk issue du systeme dequations (20)) et
la valeur estimee de k , cest-a-dire celle prise par lestimateur pour les valeurs des variables xk
observees sur lechantillon detude.
18. Il sagit plus precisement de la matrice de variance-covariance, de dimension (K +1)(K +1).
Les racines carrees des elements diagonaux sont les ecarts-types des parametres estimes.
27
possibles des parametres associes aux variables xk sont comprises entre les valeurs
k 1.96k et k + 1.96k . Toujours dapres les proprietes de la loi normale, 99%
de ces valeurs possibles sont comprises entre k 2.58k et k + 2.58k . On a donc
95% de chances davoir :
k 1.96k k k + 1.96k
k 2.58k k k + 2.58k
Autrement dit, on a 95% de chances que la vraie valeur de k soit dans linter-
valle :
28
I.4 Les indicateurs de qualite du modele estime
Il y a deux manieres devaluer la qualite globale du modele estime. La premiere
sappuie sur sa vraisemblance, la seconde sur les probabilites Pi predites par le
modele.
ln L
2 = 1
ln L0
ln L (K + 1)
2 = 1 (21)
ln L0
29
qualite (la vraisemblance) du modele font penser au coefficient de determination
R2 dun modele de regression lineaire classique. Mais il nen possede pas toutes
les proprietes. Notamment, ses valeurs ne couvrent pas tout lintervalle [0,1], elles
restent faibles meme lorsquun modele est considere comme tres bon . Estrella 21
a propose un autre indicateur qui pallie ces defauts :
2 ln L0
ln L n
0 = 1
ln L0
et :
21. A. Estrella, A New Measure of Fit for Equations With Dichotomous Dependent Variables ,
Journal of Business & Economic Statistics, 1998, vol. 16, no 2.
30
monie. On doit veiller a cela surtout lorsquon introduit dans le modele des variables
polytomiques. En effet, la prise en compte dune variable a, mettons, 10 modalites
introduit 9 variables indicatrices supplementaires. La qualite du modele, mesuree
par un critere dinformation, risque den etre affectee.
22. Lexemple est tire de J.M. Wooldridge, Introductory Econometrics. A Modern Approach,
South-Western, 4th ed., 2009.
31
probablement entre 0.05 et 0.5. Il ny a pas de regle evidente pour le determiner.
Quoi quil en soit, les paires concordantes et discordantes entrent dans le calcul
dindicateurs de qualite predictive du modele. Un des plus utilises est le Somers D
qui correspond a lecart en valeur absolue (et divise par 100) entre le pourcentage de
paires concordantes et le pourcentage de paires discordantes. Tant que les categories
C0 et C1 ne sont pas trop desequilibrees, cet indicateur est somme toute valide.
Par consequent :
yi = P (yi = 1|xi )
Il sensuit que le pseudo-R2 propose par Wooldridge (et note ici pR2 ) est egal au carre
du coefficient de correlation des yi et des P (yi = 1|xi ), quantite que lon peut calculer
une fois connues les valeurs estimees des parametres . On peut aussi calculer, par
analogie au R2 ajuste du modele lineaire classique, un pseudo-R2 ajuste, qui tient
compte du nombre K de variables introduites dans le modele :
(n 1)(1 pR2 )
pR2 = 1
(n K 1)
32
I.5 Les tests sur les parametres estimes : evaluation de
leur significativite statistique
Les tests sur les parametres estimes du modele permettent de savoir si les variables
associees influent sur laffectation a lune ou lautre categorie. Leur mise en oeuvre
depend de la nature des variables introduites dans lanalyse.
H0 : 1 = 0
Par contraste, lhypothese alternative est celle quon est pret a accepter en cas de
rejet de H0 . Elle secrit :
Ha : 1 6= 0
24. Pour etre exact, rappelons que dans le cas dune variable binaire, il y a aussi un parametre
associe a la modalite de reference, mais il est force a 0.
33
autour de la vraie valeur de 1 , valeur quon ne connat pas.
Pour trancher entre H0 et Ha , on a recours a la statistique de test, qui permet pre-
cisement de prendre en compte la distribution des valeurs potentielles du parametre
estime. Dans notre cas particulier, la statistique de test est :
1
S=
1
34
de se tromper en rejetant lhypothese nulle est faible. Ainsi, avec la valeur de 2.58, le
risque est de 1% : le parametre est statistiquement significatif au seuil de 1%. Plus
generalement, on peut associer a toute valeur de S une probabilite de se tromper.
Par exemple, la valeur de 2.2 correspond a une probabilite de 0.0278. Dans ce cas
de figure, on peut rejeter H0 au seuil de 3% mais pas au seuil de 2%. Cette valeur
est appelee par les anglo-saxons p-value. Elle est automatiquement calculee par les
logiciels courants de statistique, comme SAS.
Supposons maintenant quon trouve 1.8 comme valeur de la statistique de test. Si
on fixe a 5% le seuil a partir duquel une valeur de la satistique peut etre consideree
comme peu probable, alors la valeur de 1.8 ne remet pas en cause la validite de
H0 puisquelle fait partie des 95% des valeurs considerees ici comme probables. En
consequence, sur cette base, on ne peut pas rejeter H0 .
Faut-il pour autant accepter H0 , cest-a-dire affirmer que 1 est nul, que x1 na
aucune influence ? En acceptant lhypothese nulle, on risque de se tromper si, en
realite, cest lhypothese alternative qui est vraie. On risque daccepter a tort lhy-
pothese nulle. Dans la litterature, ce risque est appele risque de deuxieme espece. La
prudence commande de ne pas accepter lhypothese, de se borner a dire que sur la
base de lechantillon a notre disposition, on ne peut pas rejeter la possibilite que le
parametre soit nul. Il y a deux raisons a cela. Dabord, dune maniere generale, pour
pouvoir calculer le risque de deuxieme espece du test dhypothese, il faut connatre
la loi de probabilite de la statistique de test S sous lhypothese Ha , ce qui est tres
exceptionnellement possible. Ensuite, il faut se rappeler que la decision daccepter
H0 pourrait etre remise en cause si on disposait dun echantillon de taille plus im-
portante, avec lequel les estimations seraient plus precises, cest-a-dire les valeurs
potentielles de 1 plus resserrees (voir fin de la section I.3.b).
Replacons-nous dans le cas ou la valeur de la statistique de test est de 1.8, mais
desserrons notre exigence sur le risque derreur si bien quon considere maintenant
que les valeurs superieures a 1.65 sont peu probables. Dans ce cas, on rejettera
lhypothese nulle au seuil de 10%.
Deux dernieres remarques. Dans le cas dune variable binaire, le parametre associe
a la modalite de reference est fixe a 0 (section I.2). Dans ces conditions, tester la
nullite de 1 , cest tester la difference de deux situations. Par exemple, si on prend
la modalite homme comme reference de la variable sexe , 1 est associe a
lindicatrice (sexei = f emme). Rejeter 1 = 0, cest dire que le sexe joue un role
dans lappartenance a C0 ou a C1 .
Seconde remarque, dautres statistiques de test que 1 /1 sont possibles. La seule
contrainte est quon en connaisse la loi de probabilite sous lhypothese nulle (i.e.
lorsquon suppose que H0 est vraie). Ainsi, la procedure de SAS qui estime les
modeles logit utilise la statistique dite de Wald, 12 /12 , qui, sous lhypothese nulle,
suit la loi du 2 a 1 degre de liberte. De par les proprietes de cette loi, le seuil de
significativite de 10% correspond a la valeur 2.71 de la statistique de Wald, le seuil
35
de 5% a 3.84 et le seuil de 1% a 6.63.
H0 : 1 = 2
Ha : 1 6= 2
H0 : 1 2 = 0 et Ha : 1 2 6= 0
12
S=
12
Cette statistique suit, sous lhypothese nulle, la loi normale centree reduite (i.e. de
moyenne nulle et de variance unitaire). La difficulte est quon ne peut pas deduire
lecart-type estime de 12 uniquement a partir des ecarts-types estimes 1 et 2 , car
il faut faire aussi intervenir la correlation entre 1 et 2 . Heureusement, ce calcul est
fait automatiquement dans les logiciels courants comme SAS.
36
Autre test possible : la nullite de lensemble des parametres associes aux indi-
catrices representant les modalites de la variable. Dans lexemple de la categorie
sociale, lhypothese nulle secrit alors :
H0 : 1 = 2 = 3 = 0
Elle signifie que la categorie sociale, du moins telle quelle est codee ici en quatre
modalites, ne joue pas de role. Lhypothese alternative est :
Ha : 1 6= 0 ou 2 6= 0 ou 3 6= 0
H0 : Q = 0
Linteret de lecrire sous cette forme generale est quon peut lappliquer a dautres
matrices Q et donc a dautres tests sur les parametres. La statistique de test secrit :
37
sont 1 = 0, 2 = 0, 3 = 0 et 1 = 2 = 3 = 0.
38
I.6 Les valeurs des parametres estimes : evaluation de
leur significativite pratique
La significativite statistique permet devaluer le degre de certitude avec lequel
on peut affirmer quune variable influe sur lappartenance aux categories C0 ou C1 .
Mais elle ne nous dit rien sur son importance. Cette information nous est fournie
par ce que daucuns nomment la significativite pratique 28 . Ces deux notions doivent
etre clairement distinguees. Une variable peut avoir un impact important alors que
le parametre qui lui est associe est tout juste significatif au seuil de 5%. A linverse,
le parametre peut etre significatif au seuil de 1% et la variable associee avoir un
faible role dans lappartenance a lune ou lautre categorie.
La significativite pratique est mesuree par la valeur estimee du parametre. Le
probleme est que cette valeur ne nous dit pas grand chose. Son signe en revanche
donne une information immediate. Sil est positif, alors la variable associee a un
impact positif sur la probabilite dappartenir a la categorie C1 . Quant a savoir si
limpact est important ou non, on ne peut pas le deviner car le lien entre la probabilite
dappartenance a lune des categories et le parametre expression (5) ou (11)
est somme toute relativement complexe. Il faut faire appel a dautres grandeurs
statistiques : les odds ratios ou bien les effets marginaux.
fumeur non-fumeur
cancer 10 10
pas de cancer 90 190
Avec ces donnees, on peut calculer 4 probabilites. Par exemple, le risque pour un
fumeur detre atteint dun cancer est egal a 10/(10+90) = 10%. Pour un non-fumeur,
il vaut 10/(10 + 190) = 5%, soit deux fois moins.
Supposons que lepidemiologiste ait eu un peu plus de temps et de moyens pour
recruter un nombre plus important de personnes atteintes de cancer et quil
dispose dun echantillon de 120 patients. Si le recrutement a ete fait de maniere
aleatoire, on devrait en principe observer, comme precedemment, une equirepartition
28. Cette denomination est employee, entre autres, par J.M. Wooldridge, op. cite, page 135.
29. Lexemple est inspire de : Emmanuel Lagarde, Deux mesures dassociation frequemment
utilisees en epidemiologie : lOdds-Ratio et le Risque Relatif , Transcriptases, no 72, mars 1999.
39
des fumeurs et des non fumeurs chez ces personnes atteintes de cancer. Sil y a
toujours 280 personnes non atteintes, la distribution des patients est :
fumeur non-fumeur
cancer 60 60
pas de cancer 90 190
Avec ces donnees, le risque pour un fumeur detre atteint dun cancer est egal a
60/(60 + 90) = 40%. Pour un non-fumeur, il vaut 60/(60 + 190) = 24%. le rapport
est maintenant inferieur a 2 (40% vs 24% ;40% vs 20% precedemment).
Cette mesure de limpact du tabac sur la survenance dun cancer le rapport de
ces deux risques est insatisfaisante car elle depend de la repartition, dans le plan
de recrutement , entre les personnes malades et les personnes saines. Pour eviter
de tirer un echantillon dont la repartition malades/sains soit representative de la
population totale et conserver ainsi la souplesse de recrutement , lepidemiologiste
a besoin dune mesure du lien entre la consommation de tabac et la maladie qui soit
invariante a la proportion : cest lodds ratio.
Dune maniere generale, soit y la variable binaire mesurant la survenance dun
evenement (exemple : etre atteint dun cancer) : y = 1 si levenement survient, 0
sinon. Soit X une caracteristique binaire du patient (exemple : fumeur X = 1
vs non fumeur X = 0). Les tables precedentes secrivent sous la forme :
X=1 X=0
y=1 a b
y=0 c d
ou a, b, c et d sont des effectifs. On appelle cote (au sens des parieurs) dun evenement
le rapport de la probabilite de levenement a celle de son complementaire. On parle
aussi de risque relatif. La cote peut se calculer pour chaque type de patient caracterise
par X. Pour les individus X = 1, il vaut :
a
p(y = 1|X = 1) a+c a
= c =
p(y = 0|X = 1) a+c c
p(y = 1|X = 0) b
=
p(y = 0|X = 0) d
Le rapport des cotes (en anglais odds ratio ) est le rapport de ces deux cotes. Il
vaut donc :
a b
OR = (24)
c d
40
Ce rapport est invariant a la repartition entre patients malades (y = 1) et patients
sains (y = 0). Si on prend, par exemple, k fois plus de y = 1, a et b sont remplaces
par ka et kb (pour autant que le tirage des personnes malades soit aleatoire),
mais OR ne change pas.
OR est bien une mesure dassociation, qui mesure le lien entre la caracteristique
X et la survenance de levenement y = 1. En effet, on a :
a b
p(y = 1|X = 1) p(y = 1|X = 0) =
a+c b+d
bc
= (OR 1)
(a + c)(b + d)
et non :
Ainsi, avec le deuxieme tableau de donnees, lodds ratio est egal a (60/90)/(60/190),
cest-a-dire 19/9 soit 2, 1 environ. Le rapport des probabilites est, quant a lui, egal
a (60/150)/(60/250) soit 1, 66.
1
P (y = 1|x) =
1 + ex
On a aussi :
ex
P (y = 0|x) = 1 P (y = 1|x) =
1 + ex
Il vient alors :
41
P (y = 1|x)
= ex
P (y = 0|x)
ou encore :
P (y = 1|x)
ln = x (25)
P (y = 0|x)
Fixons les variables x(K1) a des valeurs quelconques x(K1) . Ecrivons lexpression
(25) pour x1 = 1 (fumeur) dune part, et pour x1 = 0 (non fumeur) dautre part, les
autres variables restant fixees a leurs valeurs x(K1) . On obtient respectivement :
P (y = 1|x1 = 1, x(K1) )
ln = 0 + 1 + (K1) x(K1)
P (y = 0|x1 = 1, x(K1) )
et :
P (y = 1|x1 = 0, x(K1) )
ln = 0 + (K1) x(K1)
P (y = 0|x1 = 0, x(K1) )
cest-a-dire :
P (y=1|x1 =1,x
(K1) )
P (y=0|x1 =1,x(K1) )
ln P (y=1|x = 1
1 =0,x(K1) )
P (y=0|x1 =0,x(K1) )
42
I.6.c Les effets marginaux
Leffet marginal 30 dune variable est la seconde maniere devaluer la significativite
pratique du parametre qui lui est associe. Cette seconde solution a lavantage de
rendre les resultats dun logit plus faciles a lire quavec lapproche par les odds ratio.
En revanche, leffet marginal peut etre estime de plusieurs facons, qui ne conduisent
pas exactement aux memes resultats.
Le calcul des effets marginaux depend de la nature discrete ou continue de la
variable. Commencons par le premier cas.
Prenons dabord le cas dune variable binaire, x1 par exemple. Pour obtenir son
effet marginal, on calcule la probabilite P (y = 1|x) pour x1 = 1 dune part, et pour
x1 = 0 dautre part. Leffet marginal de x1 sur P (y = 1|x) est la difference de ces
deux probabilites :
ou G(x) = 1/[1 + ex ].
A la difference de lodds ratio qui ne depend que de 1 voir expression (26)
et peut donc etre facilemement estime en remplacant 1 par 1 , leffet marginal est
fonction non seulement des parametres du modele mais aussi de toutes les variables
x autres que x1 . Il faut donc leur attribuer des valeurs pour pouvoir estimer .
Une premiere possibilite est de partir du niveau individuel, de calculer la quan-
tite (27) pour chaque individu avec ses propres valeurs de x2 , x3 , . . . , xK , en don-
nant aux leurs valeurs estimees . On obtient ainsi la variation individuelle de
P (y = 1|x) due a la seule variation de x1 , cest-a-dire en maintenant constantes
les caracteristiques x2 , x3 , . . . , xK de lindividu. Leffet marginal de x1 est alors
la moyenne des variations individuelles ainsi calculees. Formellement, on procede
comme suit :
(i) On calcule pour chaque individu i de lechantillon la valeur predite de la quantite
(27), i.e. celle obtenue en remplacant par :
Une autre solution est de fixer les variables x2 , . . . , xK a des valeurs quelconques :
x2 , . . . , xK , les memes pour tous les individus. Leffet marginal de x1 sur P (y = 1|x)
30. Certains auteurs notamment J.M. Wooldridge (op cite, p 577) parlent deffet partiel. Nous
avons choisi marginal plutot que partiel car cest le terme le plus souvent utilise dans la litterature.
43
est alors estime par :
= G(0 + 1 + 2 x2 + . . . + K xK ) G(0 + 2 x2 + . . . + K xK )
2 = G(0 + 2 +4 x4 + . . . + K xK )
G(0 + 4 x4 + . . . + K xK ) (29a)
3 = G(0 + 3 +4 x4 + . . . + K xK )
G(0 + 4 x4 + . . . + K xK ) (29b)
31. Lindividu moyen est un hermaphrodite ! Notons que dans le cas dune variable polytomique
m modalites, on retient les valeurs moyennes des m 1 indicatrices representant les m 1 modalites
autres que la modalite de reference.
44
faits :
P (y = 1|x) exp(x)
= 1
x1 [1 + exp(x)]2
Cette quantite est leffet marginal de x1 sur P (y = 1|x). Par exemple, si x1 est lage,
limpact sur la probabilite P (y = 1|x) du vieillissement dun an (i.e. age = 1) est
egal a :
exp(x)
1 (30)
[1 + exp(x)]2
Comme dans le cas precedent, il y a deux possibilites pour calculer la valeur de leffet
marginal. La premiere consiste a calculer la quantite (30) pour chaque individu de
lechantillon, puis de prendre la moyenne arithmetique de ces quantites individuelles.
Leffet marginal de x1 sur P (y = 1|x) est estime par :
n
" n #
1X exp(xi ) 1X exp(xi )
1 = 1 (31)
n [1 + exp(xi )]2 n [1 + exp(xi )]2
i=1 i=1
La seconde solution est fixer les valeurs des autres variables (au point moyen de
lechantillon, par exemple). La aussi, la premiere solution est preferable.
Deux remarques, pour terminer. Le calcul des effets marginaux dune variable
continue au moyen de (31) est pleinement justifie lorsque la variable se compte
en unites de mesure, comme par exemple lage (mesure en annees) ou le revenu
(mesure en euros). En revanche, il lest moins lorsque la variable na pas dunite de
mesure, comme une note recue par un eleve a une epreuve : mesurer leffet dune
augmentation dun point de la note sur la variable y na pas de valeur en soi puisque
le correcteur peut choisir de noter sur 10 ou sur 20, ou utiliser un autre systeme de
notation. En revanche, comme une note sert a classer les eleves, on peut les repartir
en plusieurs groupes selon leur classement, par exemple 4 groupes selon les quartiles
de la distribution des notes : le premier groupe comprendrait les 25% deleves les
moins bien notes, le second groupe les 25% mieux notes que les precedents, et ainsi
de suite. Cela revient a transformer la variable continue en variable polytomique a
4 modalites, et les effets marginaux se calculent comme indique precedemment.
Seconde remarque, les effets marginaux, meme sils ont lavantage de permettre
une lecture plus immediate que les odds ratio, ne sont pas la panacee. Car lechelle
logistique, sur laquelle se fonde la mesure par les odds ratio, est bien mieux adaptee
aux cas ou lune des deux categories contient beaucoup plus dindividus que lautre.
Un exemple : x1 etant une variable binaire, supposons que la probabilite dapparte-
nance a C1 soit de 4% lorsque x1 = 0 et de 6% lorsque x1 = 1. Limpact apparent
de x1 sur lappartenance a C1 est donc de 2 points. Ce gain de 2 points est, dans
labsolu, (tres) faible. En revanche, il correspond a une augmentation relative de 50%
de la probabilite, ce qui donne limpression que limpact est tres important. Les odds
45
ratio combinent justement les deux aspects, une evolution faible dans labsolu mais
relativement importante 32 . Ce cas de figure est frequent en epidemiologie lorsquelle
analyse des maladies (relativement) rares, ce qui explique pourquoi les odds ratio y
soient bien adaptes.
h() h()
2 = V ar() (32)
ou h()/ (resp. h()/ ) est le vecteur ligne (resp. colonne) des derivees
partielles de h par rapport aux k .
Un exemple dapplication, pour illustrer la methode. Supposons que notre gran-
deur dinteret soit = 2 /1 , ou 1 et 2 sont deux parametres du modele. Leurs
valeurs estimees sont 1 = 0.5 et 2 = 0.75. Leurs ecarts-types sont respectivement
0.2 et 0.3 (les variances respectives sont donc 0.04 et 0.09), et la covariance de 1 et
2 est de 0.01. La matrice de variance covariance est donc egale a :
!
0.04 0.01
V ar(1 , 2 ) =
0.01 0.09
32. Le contraste logistique voir section I.1.b traite aussi cet aspect des choses.
46
riance covariance des k , il faut calculer leurs derivees partielles par rapport aux k
puis appliquer la formule (32). Les calculs ne sont pas reproduits ici, mais ils sont
integres dans la macro SAS utilisee dans la partie suivante du document.
47
48
II. Le modele Logit : application
49
50
II.1 Introduction : remarques generales
La suite du document est consacree au traitement complet dun exemple. Il sagit
de mettre en pratique ce qua detaille la premiere partie : estimer les parametres
du modele, juger sa qualite, realiser des tests dhypothese, . . . . On accordera une
attention particuliere a la presentation des resultats, surtout sils sont destines a un
public depassant largement le perimetre des connaisseurs de loutil.
Avant de presenter lexemple dapplication, on insistera sur deux points dont lim-
portance est souvent sous-estimee. Le premier concerne la specification du modele,
cest-a-dire le choix raisonne des variables. Le second a trait a lutilisation dune
expression toutes choses egales par ailleurs censee caracteriser le travail empi-
rique effectue avec un modele de type logit, qui peut induire le lecteur en erreur.
51
lappartenance a C1 ou C0 , alors le modele sera construit autour de cette variable
particuliere, appelee ici variable principale. Il faudra la distinguer des autres carac-
teristiques introduites dans le modele, qui auront le statut de variables de controle
car leur fonction sera avant tout de controler ces effets de structure (ou effets de
composition) dont on a parle a plusieurs reprises. Dans lexemple introductif en
avant-propos du document, la variable de nationalite est la variable principale, et le
modele logit est utilise pour controler les effets de structure dus, entre autres, aux
differences de niveaux de diplome entre Francais et etrangers, le diplome etant alors
considere comme une variable de controle. La question a laquelle on cherchera a
repondre est : quel role joue la variable principale dans lappartenance des individus
aux categories C0 et C1 , compte tenu du fait que ces deux sous-populations ne se
ressemblent pas ?
Sil sagit de mettre en evidence les traits distinctifs des deux categories C0 et
C1 , cest-a-dire de mener une analyse discriminante (voir section I.1.d), alors on doit
traiter toutes les variables x au meme niveau et ne pas instaurer de hierarchie a
priori entre elles. Le modele sera utilise pour repondre a une question du type :
sur quelle(s) caracteristique(s) se distinguent fondamentalement les deux categories
dindividus ?
Independamment du mode dutilisation du logit analyse discriminante sans pri-
viligier a priori de variable, ou bien analyse centree sur une variable principale il
est rare quon parvienne du premier coup a trouver les bonnes caracteristiques x a
introduire dans le modele. Il est parfois si ce nest souvent necessaire de faire
des ajustements en fonction de ce que produit lestimation du modele. Le choix des
variables doit aussi etre guide par la facilite a presenter les resultats, qui conditionne
largement leur lisibilite.
52
considere que dans les choses en question il y a aussi bien des caracteristiques
observees et figurant dans la liste des variables x, que des caracteristiques inobservees
ou inobservables. La aussi, il convient detre tres prudent dans lusage de lexpression.
Car il ne faut pas oublier que les resultats des estimations sont conditionnels a la
liste des variables x introduites dans le modele, cest-a-dire quils dependent des
variables introduites. Ils peuvent varier, parfois substantiellement, si on en ajoute
ou si on en retire. Lexemple dapplication traite dans les pages suivantes va lillustrer
parfaitement.
53
le(s) premier(s) role(s) dans lorientation en fin de 3eme ?
54
II.2 Premieres statistiques descriptives
Les donnees sont conservees dans une table SAS, appelee ici tab. La variable
dinteret, nommee secondeg, est la variable binaire distinguant les eleves qui ont
ete orientes en seconde generale (secondeg=1) a lissue de leur troisieme, et ceux qui
ont suivi la voie professionnelle (secondeg=0). La variable principale est la variable
binaire zep qui vaut 1 si leleve etudie en zone deducation prioritaire (11,4% des
eleves), et 0 sinon.
Pour poser le probleme, on commence par croiser la variable dinteret et la variable
principale, en utilisant la procedure freq de SAS :
La table 1 qui sen deduit donne la part des eleves de troisieme qui passent en seconde
generale selon quils etudient ou non en zone deducation prioritaire. On constate un
ecart de 13,5 points, dans le taux de passage en seconde generale, entre les eleves en
ZEP et ceux hors ZEP, au benefice de ces derniers. Apparemment, etudier en ZEP
diminuerait les chances de passer en seconde generale.
Mais les eleves en ZEP et ceux hors ZEP ne se ressemblent pas. Pour le voir, il
suffit de croiser la variable zep avec la variable retard, qui vaut 1 si leleve a au
moins un an de retard a lentree en 6eme, et 0 sinon :
La table 2 montre que les eleves de ZEP sont, en proportion, deux fois plus nombreux
a etre entres en sixieme avec au moins un an de retard.
55
Table 2. Retard en sixieme selon la zone de letablis-
sement
Or, dune maniere generale, que lon etudie ou non en ZEP, etre entre en retard
en sixieme diminue sensiblement les chances de se retrouver en seconde generale. On
le constate en croisant les variables secondeg et retard :
Un quart seulement des entrants en sixieme avec retard passe en voie generale, contre
quasiment les trois-quarts des eleves a lheure ou en avance (table 3).
56
decart (table 2) sexplique ainsi par la difference de composition des populations
deleves de ZEP dune part, hors ZEP dautre part.
Pour le voir, on dedouble la table 1, en isolant les eleves ayant au moins un an de
retard dun cote, et les eleves a lheure ou en avance de lautre :
La table 4 montre que lecart, dans le taux de passage, entre les eleves de ZEP et les
autres setablit a 1,3 point pour les eleves en retard et a quasiment 10 points pour
ceux a lheure ou en avance. Par consequent, le retard en sixieme explique une partie
mais seulement une partie de lecart constate dans la table 1. Compte tenu de
lage a lentree en sixieme, lecart nest plus de 13,5 points mais dun pourcentage
compris entre 1,3 point et 9,8 points.
Dautres facteurs jouent, comme la categorie sociale de leleve. Ainsi, 4% des eleves
de troisieme en etablissement ZEP sont des filles ou fils de cadres, alors que dans
les etablissements ne relevant pas de leducation prioritaire, la proportion est de
18%. Or, 91% des enfants de cadres passent en seconde generale contre 63% pour les
enfants dautres milieux sociaux. En consequence, si les eleves de ZEP sont moins
frequemment orientes en voie generale, cest en partie parce quils vivent plus souvent
dans des milieux socialement defavorises, quils sont moins souvent portes par des
familles ayant les ressources pour les aider.
On tient donc la une autre explication possible de lecart des taux de passage
ZEP/hors ZEP de la table 1 : il serait aussi du a la difference de structure sociale
des deux populations ZEP et hors ZEP.
57
Pour la neutraliser, on doit distinguer les eleves non seulement selon leur retard
a lentree en sixieme mais aussi selon leur milieu social. On est donc amene a editer
la table 1 pour quatre sous-populations (en retard/a lheure croise avec cadre/non
cadre), donc a creer quatre tables, dont il faut faire la synthese pour repondre a
la question du lien entre zone deducation et passage en seconde generale. Avec
un critere binaire supplementaire distinguant deux grandes categories deleves, cela
ferait 8 tables. Et ainsi de suite.
On voit que cette maniere de faire est impraticable. Elle lest encore plus si on
introduit des criteres a plusieurs modalites, si, par exemple, on caracterise le milieu
social de leleve en distinguant plus finement les categories sociales au lieu de sen
tenir a la dichotomie cadre/non cadre. Et si on ajoute des variables continues, comme
le niveau de leleve en sixieme, cela devient pratiquement infaisable.
Il est donc necessaire de se tourner vers un outil comme le modele logit, qui permet
ici de savoir deux choses : a milieu social et age dentree en sixieme donnes, un eleve
de ZEP a-t-il toujours moins de chances quun autre de passer en seconde generale ?
Et si oui, a combien se chiffre son handicap ? La table 1 levalue a 13,5 points, mais
sans tenir compte des specificites des eleves en ZEP en termes dage dentree en
sixieme et de milieu social. Que devient cette difference si on les prend en compte ?
58
II.3 Specifications du modele et estimation
Tout au long de cette section II.3, on va progressivement enrichir le modele en
introduisant les variables de controle les unes apres les autres.
retard=(annais<1984);
alheure=(annais=1984);
avance=(annais>1984);
On a affaire ici a une variable polytomique ordonnee a trois modalites (voir section
I.2), dont il faut choisir une modalite qui sera consideree comme reference. Confor-
mement a ce quon a preconise page 23, on pourrait retenir la premiere (i.e. les
eleves en retard). Pour faciliter les commentaires, on prendra plutot la modalite qui
correspond a la norme , cest-a-dire les eleves nes en 1984 (variable alheure).
Loption descending est indispensable. Elle assure que les parametres estimes sont
bien ceux du modele pour lequel la valeur 1 de la variable secondeg correspond au
passage en seconde generale 33 . La variable binaire zep est introduite telle quelle.
Pour la variable dage a lentree en sixieme, on nintroduit pas lindicatrice repre-
sentant la modalite de reference (voir section I.2.c).
Lexecution de la procedure produit les resultats reportes ci-dessous. La partie
interessante est intitulee Analysis of Maximum Likelihood Estimates. Elle pre-
sente les resultats des estimations. La colonne Parameter donne le nom des variables
introduites dans le modele (Intercept est le nom du terme constant), la colonne
Estimate donne les valeurs estimees des parametres associes aux variables du mo-
dele, la colonne Standard Error en donne les ecarts-types, et la colonne Pr > Chisq
33. Il sagit la dune bizarrerie de SAS : au lieu de coder la variable categorielle en 1/0 comme il
est usuel de le faire, SAS la code par defaut en 1/2.
59
le seuil de significativite (voir section I.5), la colonne precedente presentant les va-
leurs de la statistique de test utilisee par defaut par SAS.
Model Information
Response Profile
Ordered Total
Value secondeg Frequency
1 1 9081
2 0 4418
Intercept
Intercept and
Criterion Only Covariates
60
Analysis of Maximum Likelihood Estimates
Standard Wald
Parameter DF Estimate Error Chi-Square Pr > ChiSq
Le signe dun parametre associe a une variable indique dans quel sens influe cette
variable sur la variable dinteret. Ainsi, le parametre de la variable zep est negatif :
34. Nous verrons en section II.4 comment presenter les resultats a un public moins initie.
61
etre en education prioritaire influe negativement sur le passage en seconde generale.
Les deux autres indicatrices, representant les modalites en retard et en avance de
la variable dage a lentree en sixieme, sinterpretent en regard de la modalite de
reference (etre a lheure) : etre en retard est, par rapport au fait detre a lheure,
penalisant pour passer en seconde generale (le parametre de lindicatrice retard est
negatif) ; en revanche, etre en avance est un avantage, toujours par rapport au fait
detre a lheure (le parametre de lindicatrice avance est positif).
Tous les parametres sont significatifs au seuil de 1%. Cela signifie quon a moins
de 1% de risques de se tromper en affirmant que ces parametres sont differents de 0
(voir section I.5.a). En realite, si on se reporte a la sortie SAS (page 60 et suivante),
le risque de se tromper est beaucoup plus faible : moins de 1/10000 (voir la colonne
Pr > Chisq). On peut donc affirmer sans crainte que les trois indicatrices influent
sur lorientation post-troisieme.
En conclusion, la zone deducation prioritaire joue negativement sur lorientation
en seconde generale meme en tenant compte de lage dentree en sixieme.
Les resultats, issus de la sortie SAS, sont mis en forme et reportes dans la table 6.
Les filles, a zone deducation et age en sixieme donnes, vont davantage en seconde
generale que les garcons. On remarque que les valeurs des parametres des variables
62
deja presentes dans le modele ne changent quasiment pas (sauf celle de la constante).
Cest signe que la variable Sexe de leleve nest pas liee aux variables de zone dedu-
cation prioritaire et dage a lentree en sixieme. Il y a, a peu de choses pres, autant
de filles que de garcons en zone deducation prioritaire, et lage en sixieme des filles
et des garcons est le meme ou peu sen faut. On le verifie, sur les donnees, en croisant
ces variables entre elles.
35. On verra section II.9 que lajout de la categorie sociale comme variable de controle ne va
pas de soi.
36. Sil manque des valeurs a la variable principale, alors il faut se resoudre a supprimer les
observations correspondantes, avec tous les inconvenients que cette suppression implique.
63
dicatrices. Pour ce faire, on ajoute linstruction class en precisant la modalite de
reference on a pris ici la modalite 7 sans activite professionnelle et non repon-
dants de la maniere suivante (Attention ! La variable mise dans linstruction
class doit obligatoirement etre en format caractere) :
On obtient en sortie :
Analysis of Maximum Likelihood Estimates
Standard Wald
Parameter DF Estimate Error Chi-Square Pr > ChiSq
Wald
Effect DF Chi-Square Pr > ChiSq
Le seuil de significativite (Pr > ChiSq) nous dit que le risque de nous tromper en
affirmant que les 6 parametres ne sont pas tous egaux a 0 est inferieur a 1/10000. On
peut donc affirmer que le milieu social joue (globalement) un role dans lorientation
en seconde.
64
La seconde methode pour estimer les parametres associes aux modalites de la
variable de milieu social, conforme a la demarche generale (voir section I.2.c), est de
creer 7 indicatrices et den introduire 6 dans le modele, en excluant celle representant
la modalite de reference. Les 7 indicatrices, nommees csp1 a csp7, sont obtenues
par les instructions suivantes a placer dans une etape data :
Par exemple, la variable csp5 vaut 1 si leleve est fille ou fils demploye (moda-
lite 5 de la variable pcschef), et 0 sinon. Lestimation des parametres se fait par
les instructions suivantes (la modalite de reference csp7 est exclue de linstruction
model) :
On obtient en sortie :
Standard Wald
Parameter DF Estimate Error Chi-Square Pr > ChiSq
ou bien :
65
qui produit :
Standard Wald
Parameter DF Estimate Error Chi-Square Pr > ChiSq
Avec cette autre modalite de reference, seules les valeurs des parametres associes
aux categories sociales, ainsi que celle du parametre du terme constant (Intercept),
sont modifiees. On verifie toutefois que les ecarts entre les differentes modalites de
la variable pcschef ne changent pas. Par exemple, la difference entre les employes
(modalite 5) et les ouvriers (modalite 6) est de 0,6788-0,3000=0,3788 dans le premier
cas (i.e. modalite de reference 7) et de 0,3788-0=0,3788 dans le second cas.
Lavantage de la methode consistant a creer explicitement les indicatrices est
quelle permet de faire des tests autres que celui de la nullite jointe des parametres
associes a la variable pcschef. On peut notamment realiser un test degalite de
deux parametres, par exemple ceux des categories l (agriculteurs exploitants) et 2
(artisans, commercants et chefs dentreprise). On utilise pour ce faire linstruction
test de la procedure :
On obtient :
Linear Hypotheses Testing Results
Wald
Label Chi-Square DF Pr > ChiSq
66
chefs dentreprise pourvu quils soient de meme sexe, aient le meme age a lentree
en sixieme et soient dans le meme secteur denseignement (education prioritaire ou
non).
67
du aux processus dorientation qui ont lieu (ou avaient lieu a cette epoque) au cours
du premier cycle. Notamment, les eleves des quatrieme et troisieme technologiques se
recrutent souvent parmi les fils demployes ou douvriers. Par consequent, ceux-ci se
retrouvent en moins grand nombre en troisieme generale. Autrement dit, lechantillon
que nous avons selectionne les eleves qui sont passes par la troisieme generale
nest pas representatif des entrants en sixieme en 1995. Ceci peut produire ce
quon appelle des biais de selection, cest-a-dire des resultats biaises dus au fait
que lechantillon nest pas representatif, quil concerne une population qui a ete
selectionnee. Il faut lavoir en tete. Toutefois, la selection nest pas tres marquee, en
tout cas pas suffisamment pour remettre en cause les resultats presentes ici.
On en profite pour faire un test degalite des parametres associes aux deux variables
de niveau (instruction test), test qui donne comme resultat :
Wald
Label Chi-Square DF Pr > ChiSq
Vu le seuil de significativite (Pr > ChiSq), on ne peut pas rejeter lhypothese dega-
lite des parametres : le niveau en francais et celui en mathematiques ont la meme
force dimpact sur lorientation 38 .
68
tout cas ceux captes par les variables introduites dans le modele, sont tels que leur
prise en compte inverse le signe du parametre des premieres estimations.
Autre remarque, lajout des deux variables de niveau modifie les valeurs des pa-
rametres des autres variables, signe que les eleves ayant eu en sixieme les meilleurs
resultats ne vivent pas dans nimporte quelle famille.
Les resultats, non reproduits ici, ne modifient pas significativement les precedents.
69
On notera juste que la valeur du parametre de la variable zep est un peu plus faible :
0, 376 au lieu de 0, 489 sans les indicatrices academiques.
Le resultat du test de nullite jointe des 25 parametres associes aux academies
nous dit que le risque de nous tromper en affirmant quils ne sont pas tous egaux a
0 est inferieur a 1/10000. Le niveau academique joue bien un role dans lorientation
post-troisieme.
Linconvenient de ces variables indicatrices est quelles ne nous disent pas ce que
lon cherche a controler dans le modele. Est-ce la politique academique dorientation ?
Ou bien le contexte economique ? Cela etant, ces indicatrices academiques sont ici
des variables de controle, dont lobjectif premier est de controler lheterogeneite
observee.
70
II.4 Calcul dun effet marginal
Les tables des pages precedentes presentent les resultats de lestimation sous la
forme generalement utilisee. A ce stade, on sait dire si telle ou telle caracteristique
joue un role positif ou negatif sur le passage en seconde generale : il suffit de lire
le signe du parametre concerne. On sait aussi mesurer notre degre de certitude
lorsquon affirme que tel ou tel facteur compte en matiere dorientation en fin de
troisieme : on regarde le seuil de significativite (statistique) du parametre. Par contre,
la valeur du parametre en tant que telle ne nous donne pas une idee immediate de
limportance du facteur. Notamment, on ne sait pas mesurer linfluence de notre
variable principale (leducation prioritaire) sur lorientation en fin de 3eme. Il faut
alors se tourner vers dautres grandeurs statistiques, celles qui mesurent ce quon a
appele la significativite pratique des differents facteurs (section I.6).
Lodds ratio est la mesure la plus employee. Elle est automatiquement produite
par la procedure. Lodds ratio figure a la fin de la sortie standard (voir page 60 et
suivante), dans la partie Odds Ratio Estimates.
Avec le modele complet sans les indicatrices academiques (i.e. celui de la section
II.3.d), on obtient en sortie :
Odds Ratio Estimates
Lodds ratio attache a la variable zep est egal a 1,631, avec [1.416 , 1.878] comme
intervalle de confiance a 95%. On la vu en section I.6.b, cela signifie precisement que
la chance relative de passer en seconde generale est environ 1,6 fois plus elevee pour
un enfant en ZEP que pour un enfant hors ZEP, conditionnellement aux facteurs
pris en compte dans le modele (i.e. a sexe, age, milieu social et niveau en sixieme
fixes). Il est entendu que la chance relative est un rapport de probabilites : cest la
probabilite de passer en seconde generale rapportee a celle de ne pas y passer. Lodds
ratio nest donc pas un rapport de deux probabilites, mais un rapport de rapports
de probabilites. Il ne faut surtout pas dire que le fait detre en ZEP multiplie par
1,6 la probabilite de passer en seconde generale, a memes caracteristiques observees.
On verra plus loin que ce resultat est, en ces termes, completement faux.
71
La seconde solution est de calculer leffet marginal de la variable zep (section
I.6.c). Rappelons-en le principe :
- on force chaque eleve de lechantillon a etudier en ZEP : la valeur de la
variable zep est mise systematiquement a 1 ; dans ce contexte, on calcule pour
chaque eleve la probabilite quil a detre oriente en seconde generale ;
- on force chaque eleve de lechantillon a etudier hors ZEP : la valeur de la
variable zep est mise systematiquement a 0 ; on calcule pour chaque eleve la
probabilite quil a detre oriente en seconde generale ;
- on calcule, pour chaque eleve, la difference entre ces deux probabilites ;
- on prend la moyenne, sur lechantillon, de ces differences individuelles de pro-
babilites.
Leffet marginal dune variable qualitative, quelle soit binaire ou polytomique 40 ,
se calcule grace a la macro SAS marginal, detaillee en annexe du document. Elle
compte quatre parametres :
- tab_ent nomme la table SAS contenant les donnees individuelles, en entree de
la macro ;
- x donne la liste de toutes les variables introduites dans le modele, dans lordre
ou elles lont ete ;
- param_ent nomme la table SAS issue de lexecution de la procedure logistic,
qui contient les valeurs des parametres estimes ainsi que la matrice de leurs
variances et covariances ;
- var_qual nomme la variable (de nature qualitative) ou la liste des indicatrices
qui lui sont associees, dont on veut calculer leffet marginal ; sil sagit dune
variable binaire (comme la variable zep), alors la valeur du parametre est le
nom de la variable ; sil sagit dune variable polytomique (comme lage a lentree
en sixieme), on met la liste des variables binaires representant les modalites
(sauf la modalite de reference) de la variable polytomique, dans lordre ou elles
apparaissent dans la liste x.
La macro calcule aussi lecart-type de chaque effet marginal en utilisant la methode
delta (voir section I.6.d).
Linteret est de sassurer ainsi que la liste des variables ecrite dans la procedure
72
On lance ensuite la procedure logistic avec deux options supplementaires :
outest= et covout. La premiere permet de conserver dans une table SAS, que lon
nomme apres le signe degalite, les valeurs des parametres ainsi que leurs variances
et covariances que lon obtient grace a la seconde option covout. On ecrit donc :
%include ff(fichier1);
%marginal(tab_ent=tab,x=&listvar,
param_ent=param,var_qual=zep);
En utilisant &listvar, on est certain davoir toutes la variables utilisees pour les-
timation et dans le meme ordre. La table des parametres estimes a le nom donne
par loption outest= de la procedure logistic. Enfin, var_qual designe la variable
pour laquelle on calcule leffet marginal. On obtient en sortie :
73
74
II.5 Bilan detape
Le moment est venu de tirer enseignement des sections II.3 et II.4. Pour com-
mencer, la table 9 donne les effets marginaux de la variable zep avec les differentes
specifications du modele qui ont ete utilisees. Pour la remplir, il suffit de passer la
sequence des operations ecrite dans la section II.4, en redefinissant a chaque fois
la macro-variable &listvar. Par exemple, la premiere ligne de la table 9 donne la
valeur de leffet marginal de zep avec uniquement la variable zep dans le modele.
Linstruction correspondante definissant &listvar est :
%let listvar=zep;
Notons quon retrouve le resultat etabli plus generalement page 44 : leffet marginal
de la variable zep est exactement egal a la difference (observee dans la table 1
page 55) de la part des eleves orientes en seconde generale entre ZEP (x1 = 1) et hors
ZEP (x1 = 0). Les autres lignes de la table sont obtenues en ajoutant successivement
les variables.
La table 9 illustre bien lambigute (et le terme est faible) de lexpression toutes
choses egales par ailleurs , qui est trop souvent prononcee mecaniquement lors des
commentaires sur les resultats de lestimation dun modele logit. Dans notre cas
de figure, on pourrait tres bien annoncer, selon le modele retenu, toutes choses
egales par ailleurs, etudier en ZEP a un impact negatif sur le passage en seconde
generale (3eme ligne de la table), ou bien toutes choses egales par ailleurs, etudier
en ZEP na pas dimpact sur le passage en seconde generale (4eme ligne), ou encore
toutes choses egales par ailleurs, etudier en ZEP a un impact positif sur le passage
en seconde generale (5eme ligne). Certes, il est logique de se fier a un modele plus
riche en variables. Mais si on navait pas dispose, dans notre source de donnees,
dinformation sur le niveau de leleve en 6eme, on sen serait probablement tenu a
labsence dimpact, toutes choses egales par ailleurs . Il est donc crucial de preciser
ce que sont ces choses, et de rappeler que la conclusion pourrait changer si la source
75
de donnees contenait dautres informations susceptibles dinfluer sur lorientation et
introduisant un effet de structure supplementaire.
Lorsquon examine la table, on est enclin a selectionner deux moments : (1) celui
ou, en ajoutant la variable de milieu social, limpact de leducation prioritaire devient
non statistiquement significatif (meme sil reste negatif) ; (2) et celui ou lajout des
variables de niveau scolaire en 6eme fait changer le signe de limpact. Cela ne permet
pas daffirmer que ces deux variables jouent les premiers roles. On verra dans la
section suivante quels outils mobiliser pour classer les variables selon leur ordre
dimportance. Regardons tout de meme de plus pres leur impact.
On reprend les estimations en specifiant un modele qui fait dependre lorientation
en seconde uniquement de la variable zep et de la variable de milieu social :
76
%let listvar=zep niveau;
Les resultats des estimations donnent 0, 208 comme valeur du parametre de la va-
riable zep, ce qui correspond a un effet marginal de 3, 18 points, valeurs tres proches
des precedentes.
Ainsi, a meme niveau initial en 6eme, les eleves de ZEP ont en moyenne une
probabilite de passer en seconde generale superieure a celle des autres eleves. Lecart
moyen est de 3, 2 points.
Ce resultat ne provient pas dune lecture directe des informations collectees par
le panel qui a suivi une cohorte denfants entres en 6eme en 1995. Il est issu dune
modelisation, cest-a-dire de la specification dun modele tres simple puisquim-
pliquant seulement les deux variables zep et niveau dont les parametres ont ete
estimes sur les donnees du panel 1995.
En fait, on peut faire une lecture plus directe des informations, sans passer par un
modele. On procede comme suit. On decoupe notre population deleves en groupes
de niveau, selon leurs resultats aux tests effectues en 6eme mesures par la variable
niveau. On a retenu ici 20 groupes. Le premier (resp. dernier) groupe rassemble les
5% deleves ayant eu les resultats les plus faibles (resp. les meilleurs). Dans chaque
groupe, on calcule la proportion des eleves de ZEP qui sont passes en seconde generale
et celle des eleves hors ZEP qui ont ete orientes en seconde generale. On compare
ensuite les deux proportions dans chacun des 20 groupes.
Concretement, pour repartir la population en 20 groupes de taille equivalente, on
ecrit :
La table en sortie de la procedure (option out=), nommee ici tabg, est la copie
conforme de la table tab augmentee dune variable, nomme pniveau, qui identifie
chacun des 20 groupes et qui prend les valeurs 0 a 19 (et non 1 a 20). On calcule
ensuite, groupe par groupe, les proportions deleves passes en seconde generale en
distinguant les eleves de ZEP et les autres :
On recupere les statistiques souhaitees dans la table nommee ici tabs. La variable
prop_seconde donne la proportion de passage en seconde generale pour chaque
groupe (variable pniveau), selon lappartenance ou non en ZEP (variable zep).
77
On represente ces proportions dans un plan avec, en abscisse, le groupe de niveau
et, en ordonnee, les proportions de passage en seconde generale. On trace deux
courbes, lune reliant les proportions des eleves de ZEP et lautre reliant celles des
autres eleves. La courbe des eleves de ZEP etant un peu chahutee a cause des effectifs
relativement faibles des groupes, on prefere representer des courbes lissees 43 . Elles
offrent un plus grand confort de lecture sans trahir les resultats.
La courbe representant les taux de passage, en seconde generale, des eleves de
ZEP est globalement au-dessus de celle des eleves hors ZEP (figure 1). Lecart entre
les deux courbes varie autour de 3%, avec un maximum pour le premier groupe
(6, 2 points), puis pour le groupe median (4, 5 points), et un minimum pour les
groupes les plus eleves. Le constat est donc tout a fait coherent avec le resultat du
modele simple a deux variables, qui donne un ecart moyen de 3, 2 points.
%
100
90
ZEP
80
70
hors ZEP
60
50
40
30
20
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Groupe de niveau
78
si les donnees ont ete un peu travaillees (decoupage de la population des eleves en
20 groupes, lissage des courbes), il sagit avant tout de la representation graphique de
statistiques descriptives, representation qui, davantage quun modele et ses resultats,
est susceptible de marquer les esprits . De plus, un modele logit plus complet
(sections II.3.d ou II.3.e) apporte une valeur ajoutee toute relative : il estime a 5 ou
6 points (voir section II.4) la difference moyenne dans les taux de passage au lieu
des 3 points de la figure 1, ce qui ne bouleverse pas la donne.
Cela etant, la modelisation a ete et reste utile. Dabord, il netait pas a priori
evident que lessentiel des resultats pouvait se resumer a la figure 1. Ceci est apparu
a lissue de la demarche de modelisation. Ensuite, les resultats du modele dans sa
plus simple expression (avec seulement les variables zep et niveau) permettent dune
part de chiffrer precisement lecart moyen des deux courbes (3, 2 points), dautre part
de pouvoir affirmer que cet ecart est statistiquement significatif (au seuil de 1%).
Autrement dit, la difference est reelle et ne repose pas sur les aleas de lechantillon.
Un dernier mot. A dire vrai, et en premiere lecture, on peut estimer que les
deux resultats quon vient detablir sont incoherents. Dun cote, la dimension sociale
explique 70% de lecart dans lorientation post-troisieme entre les eleves de ZEP et
les autres (voir supra, page 76). Elle capterait donc la plus grande partie des effets
de composition des ZEP sur lorientation post-troisieme. De lautre cote, prendre en
compte uniquement le niveau a lentree en sixieme rend positif limpact de leducation
prioritaire sur la probabilite de passer en seconde generale. La difference de structure
des populations en ZEP et hors ZEP serait dabord une difference de niveau initial.
En realite, il ny a pas de contradiction. Niveau initial de leleve et categorie sociale
de ses parents sont evidemement lies. Ainsi, lorsque le modele ne retient comme
variable de controle que le milieu social pour conclure que ce dernier explique 70%
de lecart dorientation entre eleves de ZEP et hors ZEP, cette variable embarque
aussi avec elle la difference de niveau scolaire des enfants appartenant a des milieux
differents. Et on ne saurait dire laquelle des deux variables niveau scolaire en 6eme
et milieu social a la preeminence sur lautre pour capter les effets de structure.
79
80
II.6 Changement de perspective (I) Quest-ce qui dis-
tingue les eleves sorientant en seconde generale ?
Tout en restant sur les memes donnees et les memes variables 44 , on change de
perspective pour montrer lautre aspect du modele logit : loutil danalyse discrimi-
nante. On ne centre plus lanalyse sur le role specifique de leducation prioritaire
dans lorientation post-troisieme. On souhaite maintenant aborder la problematique
suivante.
De maniere tres (trop ?) schematique, deux opinions sopposent sur les determi-
nismes a luvre dans les destins scolaires des collegiens. La premiere consiste a
dire que les choses se jouent en grande partie au cours du primaire, que la suite
de la scolarite est largement determinee par le niveau atteint en fin de CM2. Le
second discours insiste lui sur le role determinant de la famille lors des etudes se-
condaires. Les inegalites dorientation sont le reflet des inegalites sociales. Un parent
de milieu favorise a davantage de ressources financieres, intellectuelles, . . . pour
accompagner ses enfants sur le chemin de la reussite. Bien entendu, et on le dira
ulterieurement, la situation est plus complexe que cela. Partons neanmoins de ces
deux positions tranchees.
La question est : laquelle des deux dimensions milieu social et niveau de leleve
en 6eme joue le premier role dans lorientation en fin de college ? Dans cette
perspective, il ny a plus de variable principale. Toutes les variables sont mises sur
le meme plan, meme si on en privilegie a priori deux pour les besoins de lanalyse.
Pour repondre a la question, il faut decorreler les variables. En effet, quand on
compare les taux de passage en seconde generale des enfants de cadres (91,3%) et des
enfants douvriers (52,4%), on pense tenir la un facteur de distinction de premiere
importance puisque quelque 40 points (38,9 pour etre precis) les separent. Or, on
constate que, dune maniere generale, les eleves les mieux notes en 6eme poursuivent
plus frequemment que les autres leurs etudes dans la voie generale ou technologique :
ceux passes en seconde generale avaient obtenu en moyenne 57,3 points aux epreuves
de mathematiques de 6eme, contre 44,9 points pour les autres. Il se trouve que les
enfants de cadres ont eu une meilleure moyenne (59,4 points vs 44,3 points pour les
enfants douvriers) a ces epreuves. Par consequent, le fait que les enfants de cadres
et douvriers ne connaissent pas la meme orientation a la fin du college sexplique
au moins en partie par leur niveau a lentree en 6eme. Reste a savoir si cette part
expliquee est faible ou importante.
Decorreler les variables, cest adopter la demarche analytique au cur du modele
logit, qui, en sappuyant sur lhypothese dadditivite, permet destimer le role propre
joue par chaque variable (page 10) dans lorientation post-troisieme. On ne se limi-
tera pas a introduire seulement les variables de milieu social et de niveau de leleve,
pour deux raisons. La premiere est quon a privilegie ces deux dimensions en sup-
44. Le parti de travailler sur les memes variables a ete pris par souci de continuite dans lexpose.
Il se revelera critiquable (voir fin de la section II.7.a).
81
posant a priori quelles etaient les plus importantes dans le processus dorientation.
Cest une hypothese qui doit etre verifiee. Pour ce faire, il faut introduire dautres
variables. Deuxieme raison, on a vu (section II.3.c) que la proportion de filles netait
pas exactement la meme dune categorie sociale a une autre. Par ailleurs, les filles
ont eu en moyenne, par rapport aux garcons, de meilleurs resultats aux tests de
francais (mais pas aux tests de mathematiques). Le facteur Sexe de leleve etant lie
a la fois au milieu social (meme sil lest faiblement) et au niveau en 6eme (meme
sil lest de maniere complexe), on a interet a lisoler pour mieux mettre en balance
les deux dimensions qui nous interessent de prime abord.
Tout compte fait, on reproduit les estimations du modele de la section II.3.d.
Notons au passage quil est preferable de ne pas introduire la dimension academique
comme dans la section II.3.e, car les indicatrices qui la representent ne nous disent
pas precisement ce qui est mesure.
Cela etant, le probleme avec la table 8 est que les valeurs des parametres sont peu
parlantes. Pour une meilleure lisibilite, on a interet a les transformer en points de
pourcentage, en calculant les effets marginaux des variables auxquelles les parametres
sont associes.
On va donc etendre aux autres variables le calcul de leffet marginal effectue
section II.4 pour la variable zep, qui est une variable binaire. Lextension a une
variable polytomique, comme la variable dage a lentree en sixieme ou la variable de
milieu social, se fait sans probleme, comme on le verra ulterieurement. La difficulte
provient des variables de scores aux epreuves de francais et de mathematiques, qui
sont continues et en se comptent pas en unite de mesure (voir page 45). Pour calculer
des effets marginaux au meme titre que les autres variables, il faut dabord les
transformer en variables polytomiques. Pour ce faire, et pour chacune des variables
fran et math, on a choisi de distinguer quatre groupes deleves selon leur position
par rapport aux quatre quartiles de la distribution du score. Pour le score en francais
par exemple, on aura donc un premier groupe deleves rassemblant les 25% ayant eu
les moins bons resultats aux tests, un deuxieme groupe comprenant les 25% suivants
dans lordre croissant des resultats, un troisieme constitue des 25% suivants, les 25%
ayant eu les meilleurs resultats faisant partie du dernier groupe. On transforme la
variable continue fran en une variable polytomique ordonnee a quatre modalites. On
a interet a prendre comme reference la modalite correspondant au premier quartile
(voir page 23). Notons que le choix de 4 groupes est arbitraire, on pourrait en definir
5 en repartissant les eleves selon les quintiles de la distribution, ou bien 10 en retenant
les deciles.
Pour definir les quatre groupes, on utilise la procedure rank de SAS. Pour le test
en francais (variable fran), la syntaxe en est la suivante :
82
La procedure cree quatre groupes 45 (option groups=4) numerotes de 0 a 3 (et non
de 1 a 4) par la variable qfran. La table en sortie, quon a choisie identique a la
table en entree, est enrichie de la variable qfran. On realise le meme exercice avec la
variable math. On cree ensuite les quatre variables binaires representant les quatre
modalites de qfran et qmath :
data tab;
set tab;
array qfr(i) qfr1-qfr4;
array qma(i) qma1-qma4;
do i=1 to 4;
qfr=(i=qfran+1);
qma=(i=qmath+1);
end;
run;
Puis on enchane les instructions suivantes. On definit dabord, par une macro-
variable, la liste des variables du modele :
%let listvar1=zep retard avance fille csp1 csp2 csp3 csp4 csp5 csp6
qfr2 qfr3 qfr4 qma2 qma3 qma4;
et :
%marginal(tab_ent=tab,x=&listvar1,
param_ent=param1,var_qual=qma2 qma3 qma4);
45. Tous les eleves notes identiquement etant affectes au meme groupe, les quatre groupes nont
pas exactement le meme effectif.
83
et :
%marginal(tab_ent=tab,x=&listvar,
param_ent=param,var_qual=retard avance);
On obtient en sortie :
La table 10 rassemble tous les elements. La premiere colonne reprend les valeurs
estimees des parametres, la deuxieme les traduit en points de pourcentage (effets
marginaux) et la troisieme donne les ecarts bruts. Les ecarts bruts mesurent sim-
plement les differences constatees des taux de passage entre chaque modalite dune
variable et sa modalite de reference. Ainsi, on retrouve pour la variable ZEP lecart
de 13,5 points reporte dans la table 1 (page 55). Autre exemple, la difference de
taux de passage entre les eleves en retard et ceux a lheure en 6eme setablit a
43,1 points, au detriment des premiers. Les effets marginaux (deuxieme colonne)
pourraient aussi etre nommes ecarts residuels. Lecart residuel mesure le role joue
en propre par chaque variable (le role restant a chaque variable, si on prefere) lorsque
les autres variables sont maintenues constantes.
La comparaison des colonnes 2 et 3 permet dapprecier le changement induit par la
decorrelation des variables ou dimensions. Concernant notamment les variables
de milieu social et de niveau de leleve en 6eme, on obtient les resultats suivants.
Pour les enfants de cadres, lecart brut, cest-a-dire la difference constatee entre
le taux de passage en seconde generale de ces enfants et le taux des enfants des
familles dont le chef a declare etre sans activite professionnelle ou na pas repondu
a la question (population de reference), setablit a 51,8 points. Pour les enfants
douvriers, il vaut 12,9 points. Par consequent, lecart brut entre enfants de cadres
et enfants douvriers est de 38,9 points (51, 8 12, 9). Quand on passe aux ecarts
residuels (effets marginaux), ils valent respectivement pour les enfants de cadres
et pour les enfants douvriers 26,5 points et 4,7 points (toujours par rapport a la
84
Table 10. Les resultats du modele
85
des quartiles, de maniere a capter plus finement limpact du niveau des eleves, dans
lhypothese ou limpact varierait en fonction du niveau meme de leleve. De fait,
lorsquon reestime le modele avec les 20 groupes en francais et en mathematiques,
lindicateur dAkake (voir section I.4) vaut 11 842 au lieu de 11 974 pour le modele
avec 4 groupes. Cette valeur plus faible est le signe dun modele de meilleur qualite.
Mais si on examine le critere de Schwartz, il passe de 12 101 pour le modele a
4 groupes de niveau a 12 211 pour celui a 20 groupes, signe cette fois-ci dune
degradation de la qualite du modele. Il faut se rappeler que le critere de Schwartz
penalise davantage que le critere dAkake les modeles peu parcimonieux. Il est donc
plus sensible a cette inflation de variables creees par les 20 groupes de niveau. Il
est donc important de limiter le nombre de variables, en tout cas de ne pas introduire
de variables polytomiques avec un nombre demesure de modalites, quil faut donc
prealablement regrouper.
86
II.7 Changement de perspective (II) Quelle hierarchie
des variables ?
La table 10 confirme que toutes les variables retenues sont discriminantes. Letape
suivante est de determiner celles qui jouent les premiers roles dans lorientation
post-troisieme. On cherche ainsi a etablir une hierarchie des variables par ordre
dimportance.
Les resultats des estimations du modele figurant dans la table 10 restent insuf-
fisants pour realiser lexercice. Certes, on peut classer deux variables binaires par
ordre dimportance en comparant les valeurs (absolues) de leurs parametres ou de
leurs effets marginaux. On conclura ainsi que le sexe de leleve joue un role plus
important (il est plus discriminant) que lappartenance a une zone deducation prio-
ritaire. Pour les variables polytomiques, on peut toujours comparer les amplitudes
des parametres ou des effets marginaux. Par exemple, pour la variable de milieu
social, les effets marginaux vont de 0 (pour la modalite de reference, par definition)
a 26,5 pour la modalite cadres et professions intellectuelles superieures. Lamplitude
des effets marginaux est donc de 26,5. Pour la variable dage a lentree en sixieme,
leffet marginal le plus faible est celui de la modalite en retard (-21,6) et le plus eleve
celui de la modalite en avance (15,8). Lamplitude est de 37,4. Lage serait ainsi plus
discriminant que le milieu social. Mais la conclusion reste incertaine. Surtout, cette
maniere de faire ne permet pas de regler le cas des variables continues qui ont ete
transformees en variables polytomiques ordonnees, comme ce qui a ete fait avec nos
deux variables de niveau en francais et en mathematiques, decoupees en 4 groupes.
Lamplitude des effets marginaux est de 32,9 pour les mathematiques et de 27,4 pour
le francais (table 10). Lage dentree en sixieme amplitude de 37,4 jouerait donc
un role plus important que le niveau en mathematiques ou en francais de leleve en
6eme. Mais si on transformait nos deux variables continues en variables polytomiques
a 10 modalites (selon les deciles des distributions des scores), alors lamplitude des
effets marginaux serait de 44,0 pour la variable de niveau en mathematiques et de
32,5 pour celle en francais. Dans ce cas, lage a lentree au college passerait derriere
le niveau en mathematiques a lentree en 6eme.
Il faut donc se tourner vers une autre methode. Mais, a notre connaissance, il
nen existe pas qui soit theoriquement eprouvee. Celle proposee ici est de nature
heuristique. Elle sappuie sur des indicateurs de qualite du modele (voir section I.4).
87
du modele, il perd en capacite predictive et le pseudo-R2 diminue.
La demarche est alors la suivante. On part du modele de la section II.3.d, consi-
dere comme complet. Formellement, les variables du modele sont au nombre de 12,
si on comptabilise toutes les indicatrices associees aux modalites des variables po-
lytomiques. Elles peuvent etre regroupees en 5 dimensions : lage de leleve a son
entree en 6eme (represente par les variables binaires retard et avance), son sexe,
son niveau au debut du college (mesure par les deux variables continues fran et
math), sa scolarisation ou non dans une ZEP, son milieu social (variables csp1 a
csp6).
On calcule le pseudo-R2 du modele complet. Puis on supprime une des dimensions
(la dimension ZEP par exemple). On estime le modele ainsi reduit et on en deduit le
pseudo-R2 . On repart du modele complet, dont on enleve une des 3 autres dimensions
(lage par exemple). On estime le modele obtenu et on note son pseudo-R2 . Et ainsi
de suite. La dimension la plus influente est celle qui, lorsquon la retire du modele,
degrade le plus la qualite predictive du modele, cest-a-dire provoque la plus forte
baisse du pseudo-R2 . Les dimensions sont ainsi classees selon lecart entre le pseudo-
R2 du modele complet et celui calcule avec le modele sans la dimension consideree.
La procedure logistic ne produit pas automatiquement la valeur du pseudo-R2 .
Il faut ecrire des instructions specifiques. On commence par calculer le pseudo-R2 du
modele complet. Pour ce faire, on part de la liste des variables du modele, nommee
listvar et definie par :
%let listvar=zep retard avance fille csp1 csp2 csp3 csp4 csp5 csp6
fran math ;
Linstruction output cree une table, appelee p0, qui est limage de la table en entree,
tab, augmentee de la variable nommee ici pred0. Cette variable, creee par option p=
de linstruction output, est la probabilite predite par le modele et notee P (yi =
1|xi ) que lindividu i passe en seconde generale. On est alors en mesure de calculer
la correlation des yi et des P (yi = 1|xi ), qui est precisement le pseudo-R2 recherche
(voir section I.4.b). Pour ce faire, on utilise la procedure corr :
ce qui donne :
88
Pearson Correlation Coefficients, N = 13499
Prob > |r| under H0: Rho=0
secondeg pred0
La correlation setablit a 0,589. Le pseudo-R2 est egal a son carre, soit 0,347. On cal-
cule ensuite le pseudo-R2 du modele reduit qui est obtenu en supprimant la variable
ZEP du modele complet. Comme precedemment, on execute successivement les deux
procedures logistic et corr mais en remplacant la liste des variables &listvar par
la liste &listvar1 definie par :
%let listvar1=retard avance fille csp1 csp2 csp3 csp4 csp5 csp6
fran math ;
On fait de meme avec le modele issu du modele complet mais sans la dimension
dage a lentree en 6eme. On en chane les procedures logistic et corr en utilisant
la liste des variables listvar2 :
Et ainsi de suite.
La table 11 presente les resultats de lexercice. La premiere ligne donne la valeur
du pseudo-R2 pour le modele complet. Chaque ligne suivante donne la valeur obtenue
lorsquon enleve alternativement une seule des 5 dimensions.
Cest quand on exclut les variables mesurant le niveau de leleve quon perd le plus
dinformation. De ce point de vue, le niveau de leleve est donc la plus importante
des 5 dimensions. Viennent ensuite lage de leleve a lentree en sixieme, son milieu
social, son sexe et la scolarisation en ZEP.
A premiere vue, et contrairement a ce quon avait presuppose, le milieu social
ne ferait pas partie des deux dimensions les plus importantes dans le processus
dorientation en fin de troisieme. Il viendrait apres le niveau en 6eme et apres lage
auquel lenfant est entre au college. Mais, a lanalyse, ce constat est tres fragile.
Dabord, la variable dage mesure, du moins partiellement, le niveau atteint par
leleve a la fin du primaire. Lentree retardee au college est, en effet, la consequence
dun redoublement au cours des annees precedentes et donc le signe de difficultes
scolaires rencontrees par lenfant. Dans ces conditions, lage apparat comme une
variable redondante, le niveau de leleve etant mieux mesure par les tests de francais
et de mathematiques. En dautres termes, le modele se revele etre mal specifie, mal
89
Table 11. Qualite du modele selon les dimensions exclues
(selon le pseudo-R2 )
pR2
Modele complet 0,347
ZEP exclue 0,345
age en sixieme exclu 0,319
sexe exclu 0,340
milieu social exclu 0,321
niveau en sixieme exclu 0,194
Lecture : lorsquon exclut du modele les variables caracterisant le mi-
lieu social de leleve, le pseudo-R2 vaut 0,321.
Source : DEPP Panel 1995.
46. Ceci illustre la necessite de bien reflechir aux variables a introduire dans un modele pour
repondre a une question donnee.
47. . . . pour autant que cette question ait un sens !
90
un role important dans ladequation du modele a la realite.
Appliquons ce principe au modele de la section II.3.d, ou les variables ont ete
regroupees en 5 dimensions comme dans la section precedente. Le modele complet
fournit un certain niveau dinformation sur le processus de passage en seconde gene-
rale. Ce niveau est mesure par le critere dAkake AIC ou le critere de Schwartz SC,
dont les valeurs sont fournies automatiquement par la procedure logistic (voir
la colonne Intercept and Covariates du bloc intitule Model Fit Statistics,
page 60) et que lon note. Puis on supprime une des 5 dimensions du modele, on
estime le modele reduit ainsi obtenu, et on note les nouvelles valeurs des criteres.
On repart ensuite du modele complet, on supprime une des autres dimensions, on
estime le modele qui sen deduit, et on recupere les valeurs de AIC ou SC. Et ainsi
de suite jusqua avoir retire alternativement toutes les dimensions. Celle dont la sup-
pression provoque la plus forte perte dinformation, cest-a-dire la plus forte hausse
des criteres AIC ou SC, sera alors consideree comme la plus importante.
La table 12 rassemble les resultats de lexercice. La premiere ligne donne les valeurs
des criteres SC et AIC pour le modele complet. Chaque ligne suivante donne les deux
valeurs obtenues lorsquon enleve une seule des 5 dimensions.
SC AIC
Modele complet 12 023,3 11 925,6
ZEP exclue 12 060,9 11 970,8
age en sixieme exclu 12 437,7 12 355,1
sexe exclu 12 133,1 12 043,0
milieu social exclu 12 396,4 12 343,8
niveau en sixieme exclu 14 402,8 14 320,2
Lecture : lorsquon exclut du modele les variables caracterisant le milieu social
de leleve, les criteres de Schwartz et dAkake valent respectivement 12 396,4
et 12 343,8.
Source : DEPP Panel 1995.
91
92
II.8 La question des ponderations
Lechantillon detude peut ne pas etre representatif de la population generale pour
deux raisons :
parce que cause en amont de lenquete lors du tirage de lechantillon, cer-
taines categories ont ete surrepresentees (par exemple, les eleves detablissement
en education prioritaire) : lechantillon a ete constitue avec un tirage a probabilites
inegales ;
parce que cause en aval de lenquete tous les enquetes nont pas repondu, et
ceux qui ont echappe a lenquete sont particuliers si bien que lechantillon des
repondants nest pas representatif de lensemble de la population.
Lorsque lechantillon nest pas representatif pour lune ou lautre raison, alors il faut
ponderer les observations individuelles de maniere a reconstituer un echantillon a
limage de la population generale. Obtenir le bon jeu de ponderations est plus ou
moins simple, selon la cause de non representativite.
Si elle se situe exclusivement en amont, cest-a-dire si elle est entierement impu-
table au plan de sondage, le redressement est aise a faire. Les poids sont calcules
avec linverse de la probabilite de tirage. Par exemple, si les eleves en education
prioritaire ont ete tires avec une probabilite double de celle des autres eleves, ils
seront proportionnellement deux fois plus nombreux dans lechantillon que dans la
population generale. Ils devront alors peser deux fois moins dans lechantillon pour
que celui-ci retrouve sa representativite.
Si la cause se situe en aval de lenquete, si elle tient a la specificite des repondants,
alors le redressement peut etre tres delicat a realiser, surtout si on suspecte que
les repondants se sont autoselectionnes sur des caracteristiques inobservees dans
lenquete.
Supposons quon dispose dun jeu de ponderations affectees aux individus de
lechantillon. Faut-il les utiliser pour estimer correctement les parametres du mo-
dele ? Cette question est moins simple quon ne le pense a priori 48 . Insistons dabord
sur un point pratique : il faut verifier que la somme des poids utilises soit egale a la
taille de lechantillon (on dit alors que les poids sont normalises). Sinon, les ecarts-
types des differents parametres obtenus en ponderant les observations seront biaises,
avec le risque de conduire a des conclusions fortement erronees sur leur significativite
statistique.
Notons X lensemble des variables qui ont ete eventuellement utilisees, dune
part pour stratifier lechantillon et faire un tirage a probabilites inegales, dautre
part pour traiter la non-reponse. Supposons dans un premier temps que la non-
reponse ait ete correctement corrigee, cest-a-dire quon nait pas oublie dans la
liste X de variables distinguant les repondants des non repondants. Si toutes les
variables X sont introduites dans le modele logit, si elles se retrouvent toutes dans
48. Pour son traitement complet, voir L. Davezies et X. DHaultfuille (2009), Faut-il ponderer ?
. . . Ou leternelle question de leconometre confronte a des donnees denquete , Document de travail
de la Direction des Etudes et Syntheses Economiques, Insee, no 2009/06.
93
la liste de variables x du modele, alors la question de ponderer ou non na pas
dimportance : on obtient dans les deux cas des estimations sans biais. Sil fallait
choisir, on opterait plutot pour ne pas ponderer, car dans ce cas les estimations
obtenues sont plus precises. En revanche, si x ne contient pas toutes les variables
corrigeant la selection, alors il faut ponderer sinon les estimations des parametres
sont, en regle tres generale, biaisees.
Supposons maintenant que la liste X ne soit pas complete, que, par exemple,
le concepteur denquete ait redresse la non-reponse sur un nombre insuffisant de
variables. Si on pense que la liste x est, elle, complete, cest-a-dire que le redressement
aurait ete correct en lutilisant, alors il nest pas important de ponderer. Toutefois,
il peut etre preferable de ne pas le faire, a la fois pour une raison defficacite de
lestimation (la precision des valeurs estimees est meilleure sans ponderation) et
pour une raison pratique (utiliser les bonnes ponderations exige quon les recalcule
sur la base des variables x). Enfin, si la liste x nest pas complete non plus, alors
quoi quon fasse les estimations seront biaisees.
%marginal(tab_ent=tab,x=&listvar,
param_ent=param,var_qual=zep,ponder=poids);
94
II.9 En guise de conclusion : petit guide de conduite
dune etude
De maniere tres generale, la conduite dune etude passe par (au moins) trois
etapes :
bien clarifier la finalite de letude et organiser les donnees en consequence ;
justifier autant que faire se peut lutilisation du modele logit pour traiter le pro-
bleme ;
presenter de maniere la plus lisible possible, avec les outils adequats, les resultats
de lanalyse.
Explicitons ces trois points.
Premiere etape : clarifier la finalite de letude. Il sagit dabord de choisir entre les
deux demarches offertes par la modelisation : (1) centrer lanalyse sur une variable
principale, comme ce qui a ete fait avec la variable zep (jusqua la section II.5) ;
(2) ou bien se livrer a une analyse discriminante et identifier les variables les plus
discriminantes (sections II.6 et II.7). Dans le premier cas, on hierarchise a priori
les variables en en distinguant une la variable principale sur laquelle on centre
lanalyse et en conferant aux autres le statut de variables de controle. La finalite est
de neutraliser les effets de effets de structure (ou effets de composition) qui faussent
le lien entre la variable principale et la variable dinteret. Dans le second cas, on
ninstaure pas de distinguo a priori entre les variables, mais lanalyse doit conduire,
en regle tres generale, a les hierarchiser. Dans les deux cas de figure, les variables
doivent etre choisies et organisees avec le plus grand soin.
La premiere demarche exige une qualite quasi irreprochable de la variable prin-
cipale, centrale dans lanalyse. On ne peut admettre, par exemple, de valeurs man-
quantes. Si le cas se presente, il faut se resoudre a supprimer les observations concer-
nees, quitte a redresser lechantillon resultant si necessaire. En revanche, on peut etre
un peu moins regardant sur les variables de controle de par leur statut (relativement)
secondaire. On peut saccommoder de valeurs manquantes en les traitant en conse-
quence (section II.3.c). Autre point dattention, le choix des variables de controle qui
permettront de neutraliser au moins en partie les effets de structure doit etre pese.
Le cas du milieu social de leleve quon a introduit comme variable de controle dans
le modele logit (section II.3.c) en est une illustration. Le zonage de leducation prio-
ritaire, defini au debut des annees 1980, reposait sur la categorie sociale des eleves.
En principe, les etablissements scolarisant une proportion importante deleves de
milieux sociaux defavorises ont ete affectes en education prioritaire. Des lors, a par-
tir du moment ou la categorie sociale apparait comme intimement liee a leducation
prioritaire, comment justifier le fait de la decorreler de la dimension ZEP ? On peut
sautoriser a le faire en arguant que ce critere social na pas ete strictement respecte
dans la pratique, et ajouter que la categorie sociale capte dautres dimensions que
la difficulte scolaire, qui est le cur de cible de leducation prioritaire. Soit. On en
reste alors au constat, etabli en section II.3.d, du role positif de leducation priori-
95
taire sur le passage en seconde generale ou technologique. Peut-on aller plus loin,
introduire dautres variables de controle ? On sait que des moyens plus importants
ont ete affectes aux etablissements relevant de leducation prioritaire. Les classes sont
moins nombreuses quailleurs. Ceci pourrait expliquer en partie cela : si on pense
que des classes moins nombreuses favorisent les apprentissages et permettent aux
eleves concernes detre mieux prepares a la seconde generale, alors limpact positif
de lappartenance a une ZEP en est peut-etre la consequence. Faut-il alors raisonner
a taille de classe fixee, au risque de vider leducation prioritaire de toute substance
et den faire une coquille vide ?
Si on choisit une demarche de type analyse discriminante ou les variables ont le
meme statut, il faut dabord sassurer de la qualite de chacune delles. Les eventuelles
valeurs manquantes doivent etre traitees (voir section II.3.c). Ensuite, il faut bien
choisir ses variables, il faut les organiser dans la perspective de repondre a la ques-
tion : au bout du compte, parmi tous les facteurs qui distinguent les deux categories
dindividus, quels sont ceux qui jouent le plus grand role ? Surtout si elles sont nom-
breuses, il est utile de les regrouper en familles. Par exemple, et pour rester dans le
domaine de leducation, si on dispose de variables sur la categorie sociale des parents
des eleves, sur leurs diplomes, sur le niveau de leurs revenus, on peut envisager de
les mettre ensemble sous une rubrique environnement familial de leleve . Ceci
pourra faciliter les commentaires. Le cas echeant, on les selectionnera pour eviter
limpression de melanger des choux et des carottes , ou pour la clarte des conclu-
sions auxquelles on souhaite aboutir (voir a ce propos la discussion, page 89, sur la
variable dage).
Quelle que soit la demarche employee, on sattachera a bien definir la modalite de
reference (voir la section I.2.c) et on veillera a la parcimonie du modele, en evitant
en particulier un nombre trop important de modalites pour les variables polyto-
miques (voir section I.4.a). On pourra utilement croiser la variable dinteret avec
chaque variable (polytomique) du modele. Cela permettra notamment de reperer
les modalites rares (i.e. a effectif insuffisant), de les regrouper avec dautres qui lui
sont proches ou que lon considere comme telles. Cest par ailleurs un bon moyen de
prendre connaissance des donnees.
96
une variable de controle qui est correlee a la fois a la variable principale et a la
variable dinteret. Dans notre exemple, le choix sest porte sur la variable dage
a lentree en 6eme, ce qui a conduit aux tables 2 et 3. La variable de controle est
responsable deffets de structure (ou effets de composition), qui expliquent une partie
de lecart constate au depart. Pour les neutraliser, cest-a-dire creer une situation
(fictive) ou ils nexisteraient pas, il faut recourir a un modele.
Lorsquon suit une demarche danalyse discriminante, la justification est de meme
nature. On choisit deux variables, que lon souhaite mettre en avant dans la demarche
(la categorie sociale et le niveau en 6eme dans notre exemple voir section II.6), qui
sont correlees. Lapport de la modelisation est de les decorreler pour savoir laquelle
joue le premier role.
97
tamment, il ne faut pas faire croire quil permet de mesurer un effet causal. Les
resultats restent conditionnels aux variables introduites. Son premier objectif est
daller au-dela des apparences (en neutralisant les effets de structure dans le cas
dune analyse centree sur une variable principale, en decorrelant les variables entre
elles dans le cas dune analyse discriminante) et, ce faisant, de produire des constats
parfois inattendus, susceptibles dorienter de nouvelles investigations.
98
Annexe
La macro SAS de calcul des effets marginaux
La macro SAS, nommee marginal, utilise la procedure iml proposee par SAS dans
un module specifique, qui permet de faire du calcul matriciel. La structure de la
macro est la suivante :
%macro marginal(tab_ent=,x=,param_ent=,var_qual=,ponder=);
/* etape prealable, executee si il y a une variable de ponderation */
%if &ponder ne %then %do;
proc summary data=&tab_ent(keep=&ponder);
var &ponder;
output out=poidsm(keep=poidsm) mean=poidsm;
run;
data &tab_ent(drop=poidsm);
if _n_=1 then set poidsm;
set &tab_ent;
poids=&ponder/poidsm;
run;
proc delete data=poidsm;run;
%end;
/* calcul et impression de leffet marginal */
proc iml;
start lecture;
(...)
finish lecture;
start effet;
(...)
finish effet;
start impress;
(...)
finish impress;
run lecture;
run effet;
run impress;
quit;
%if &syserr ne 0 %then %do;
data _message_;
message="Attention ! Erreur !";
run;
proc print data=_message_ noobs;
var message;
run;
proc delete data=_message_;run;
%end;
%mend;
99
nomme la table des valeurs estimees des parametres issue de la procedure logistic,
var_qual liste les modalites de la variable (une seule dans le cas dune variable
binaire, p 1 dans le cas dune variable polytomique a p modalites) dont on calcule
leffet marginal, ponder donne le nom de la variable de poids (si elle existe).
La macro debute par une etape prealable, qui est executee si les individus de lechan-
tillon ne pesent pas du meme poids, auquel cas la variable de poids doit etre declaree
par le parametre ponder). Cette etape permet de normaliser la ponderation (i.e. faire
en sorte que la somme des poids soit egale a leffectif de lechantillon).
La macro lance ensuite la procedure iml. Elle se compose de trois modules. Le
premier, lecture, transforme les donnees conservees dans des tables SAS en matrices
ou vecteurs. Le second module, effet, calcule les effets marginaux de la (ou des)
variable(s) selectionnee(s). Le dernier, impress, imprime les resultats des calculs.
Ces trois modules sont successivement executes par la commande run.
Enfin, elle se termine par des instructions dimpression dun message derreur en cas
de probleme.
On detaille maintenant le contenu de chacun des trois modules.
Le module lecture
Son contenu est le suivant :
start lecture;
use &tab_ent;read all var{&x} into x;
use ¶m_ent;read all var{intercept &x}
where (_type_=PARMS) into b;
use ¶m_ent;read all var{intercept &x}
where (_type_=COV) into cov;
%if &ponder ne %then %do;
use &tab_ent;read all var{poids} into poids;
%end;
n=nrow(x);
x=j(n,1,1)||x;
beta=t(b);
explic={&x};
qual={&var_qual};
finish lecture;
La premiere declaration use &tab_ent ... part de la table SAS des donnees in-
dividuelles. Toutes les observations (option all) sont lues mais seules les variables
selectionnees par la clause var{} sont conservees. Les observations et les variables
sont versees dans une matrice nommee x. Chaque ligne de la matrice correspond
a une observation de la table SAS en entree, et le nombre de colonnes de x est egal
au nombre de variables selectionnees.
La deuxieme declaration, use ¶m_ent ..., part de la table SAS issue de la
procedure logistic, qui contient les valeurs estimees des parametres ainsi que leurs
variances et covariances. Elle ne retient quune observation (clause where), celle qui,
100
dans la table SAS, correspond a _type_=PARMS (i.e. les valeurs des parametres).
Ces valeurs sont conservees dans le vecteur-ligne nomme b.
La troisieme declaration use extrait clause where de la meme table SAS les
valeurs des variances et covariances des parametres, et les range dans la matrice
nommee cov. La matrice cov est ainsi une matrice carree de dimension egale au
nombre de variables introduites dans le modele auxquelles on ajoute le terme contant
(dont le parametre associe sappelle, par defaut, intercept).
Enfin, la quatrieme est optionnelle, car elle depend de lexistence dune variable de
ponderation. Elle cree le vecteur a une seule colonne contenant le poids.
La fonction nrow retourne le nombre de lignes de la matrice, nombre represente ici
par n.
j(n,1,1) represente une matrice de dimension n 1 (n premier parametre de j,
1 deuxieme parametre de j), dont les valeurs valent toutes 1 (troisieme parametre
de j). En bref, il sagit du vecteur colonne compose de 1. Le signe || signifie que
lon apparie ligne a ligne les matrices j(n,1,1) et x, pour en faire une nouvelle
matrice, dont on a conserve le nom x. Ce faisant, on ajoute a la matrice x une
colonne supplementaire qui represente le terme constant du modele.
Le vecteur des parametres beta est le transpose de b. Cest donc un vecteur-colonne,
conformement a sa representation adoptee lors de la presentation formelle du modele
(page 9).
explic est le vecteur-ligne qui contient les noms des variables du modele, qual est
le vecteur-ligne qui contient le nom de la variable qualitative du modele dont on
veut calculer leffet marginal. Noter que dans le cas dune variable polytomique, le
vecteur qual a plusieurs composantes.
Le module effet
Le contenu du module de calcul des effets marginaux est le suivant :
start effet;
/* on repere le rang, dans la liste &x des variables du modele, de la
variable qualitative &var_qual (ou de la 1ere variable de la liste
&var_qual sil sagit dune variable polytomique) */
r=0;
do q=1 to ncol(explic);
if explic[q]=qual[1] then r=q;
end;
/*** initialisation des grandeurs utilisees ... */
/* ... pour le calcul des effets marginaux */
delta=j(n,ncol(qual),0);
delta_moy=j(ncol(qual),1,0);
/* ... pour le calcul des ecarts-types */
gradi=j(1,ncol(x),0);
grad=j(ncol(qual),ncol(x),0);
sigma=j(ncol(qual),1,0); *ecart-type de leffet marginal;
p_value=j(ncol(qual),1,0);*seuil de significativite de leffet marginal;
/*** calcul des effets marginaux */
101
/* situation ou var_qual=0 */
x[,r+1:r+ncol(qual)]=j(n,ncol(qual),0);
x_0=x;
g0=1/(1+exp(-x_0*beta));
%if &ponder ne %then %do;
g0=g0#poids;
%end;
/* situation ou var_qual=1 */
do j=1 to ncol(qual);
x=x_0;
x[,r+j]=j(n,1,1);
g=1/(1+exp(-x*beta));
%if &ponder ne %then %do;
g=g#poids;
%end;
delta[,j]=g-g0;
delta_moy=t(delta[+,]*100/n);
/* calcul de lecart-type */
do i=1 to n;
gradi=x[i,]#(g[i]#(1-g[i])-g0[i]#(1-g0[i]));
gradi[1,r+j]=g[i]#(1-g[i]);
grad[j,]=grad[j,]+gradi[1,];
end;
grad[j,]=grad[j,]/n;
sigma[j]=sqrt(grad[j,]*cov*t(grad[j,]))*100;
end;
p_value=2*(1-probnorm(abs(delta_moy)/sigma));
finish effet;
Le module commence par reperer, dans la liste des variables introduites dans le
modele par linstruction model de la procedure logistic, la variable dont on veut
calculer leffet marginal. Si cette variable est une variable dichotomique (comme la
variable zep) alors ncol(qual) nombre de colonnes du vecteur qual (voir module
lecture) est egal a 1.
Le module calcule ensuite leffet marginal, en appliquant la formule (27) dans les cas
dune seule variable binaire, ou les formules de type (29) dans le cas dune variable
polytomique. On notera que linstruction SAS 1/(1+exp(-x*beta)), par exemple,
est lexacte transcription de la formule G = 1/[1 + ex ]. Cette facilite decriture (le
passage simple de lexpression formelle en instructions SAS) est rendue possible par
la convention que nous avons etablie page 9 sur les representations des variables x
en vecteur-ligne et des parametres en vecteur-colonne (voir la note 4 page 9).
Les resultats sont ponderes si une ponderation existe.
La grandeur delta_moy donne leffet marginal de la variable.
La boucle do j=1 to ncol(qual) est effective si ncol(qual) est superieur a 1,
cest-a-dire si on a affaire a une variable polytomique.
Enfin, la partie du module consacree au calcul de lecart-type, est lapplication de
la methode delta dans le cas ou = h() est leffet marginal (voir (32)).
102
Le module impress
Le module impress secrit :
start impress;
/* impression des resultats */
delta_moyc=char(delta_moy,10,4);
sigmac=char(sigma,10,4);
p_valuec=char(p_value,12,4);
do j=1 to ncol(qual);
if p_value[j]<0.0001 then p_valuec[j]=" < 0.0001";
end;
effetc=delta_moyc||sigmac||p_valuec;
noms_ligne=rowcat(t({&var_qual})||j(ncol(qual),1," "));
noms_col={"effet marginal"," ecart_type"," significativite"};
mattrib effetc rowname=noms_ligne
colname=noms_col
label=" ";
print "Effet marginal de &var_qual";
print effetc;
finish impress;
quit;
Il imprime trois grandeurs : leffet marginal de la variable, son ecart-type et son seuil
de significativite.
103
104
Index
A loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . 16
algorithme de Newton-Raphson . . . . . 27
M
C maximum de vraisemblance . . . . . . 2527
causalite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 methode delta . . . . . . . voir delta method
contraste logistique . . . . . . . . . . . . . . . . . .13 modalite de reference . . . . . . . . 22, 59, 65
cote . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 modele a variable latente . . . . . . . . . . . . 14
critere dAkake . . . . . . . . . . . . . . . . . 30, 90 modele logit conditionnel . . . . . . . . . . . . 19
critere dinformation . . . . . . . . . . . . . . . . 30
critere de Schwartz . . . . . . . . . . . . . . 30, 90 O
Oaxaca-Binder . . . . . . . . . . . . . . . . . . . . . . 76
D odds, odds ratio . . . . . . . . . . . . . . . . . 3942
delta method . . . . . . . . . . . . . . . . . . . . 46, 72
distribution asymptotique . . . . . . . . . . . 27 P
p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
E paires concordantes . . . . . . . . . . . . . . . . . 31
effet de structure (ou de composition) 3,
parametres du modele . . . . . . . . . . . . . . . . 9
52, 53
parcimonie du modele . . . . . . . .31, 86, 96
endogene, endogeneite . . . . . . . . . . . 17, 52
precision dune estimation . . . . . . . . . . . 28
estimateur . . . . . . . . . . . . . . . . . . . . . . . 26, 27
probabilite conditionnelle . . . . . . . . 11, 14
H probit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2
hypothese alternative . . . . . . . . . . . . . . . .33 pseudo-R
hypothese dadditivite . . . . . . . . . . . 10, 81 de McFadden . . . . . . . . . . . . . . . . . . . 29
hypothese nulle . . . . . . . . . . . . . . . . . . . . . 33 de Wooldridge . . . . . . . . . . . . . . . . . . 32
I R
identification . . . . . . . . . . . . . . . . . . . . . . . . 22 rapport des cotes . . . . . . . . . . . . . . . . 39, 40
independance stochastique . . . . . . . . . . 14 regression logistique . . . . . . . . . . . . . . . . . 15
indicateur dEstrella . . . . . . . . . . . . . . . . .30 risque de deuxieme espece . . . . . . . . . . . 35
intervalle de confiance . . . . . . . . . . . . . . . 28 risque de premiere espece . . . . . . . . . . . .34
risque relatif . . . . . . . . . . . . . . . . . . . . . . . . 40
L
log-vraisemblance . . . . . . . . . . . . . . . . . . . 26 S
loi conditionnelle . . . . . . . . . . . . . . . . . . . . 14 seuil de significativite . . . . . . . . . . . . . . . 34
loi logistique . . . . . . . . . . . . . . . . . . . . . . . . 15 significativite statistique . . . . . . . . . . . . .34
105
Somers D . . . . . . . . . . . . . . . . . . . . . . . . . . .32
statistique de test . . . . . . . . . . . . . . . . . . . 33
T
test dhypothese
generalites . . . . . . . . . . . . . . . . . . . 3338
test degalite . . . . . . . . . . . . . . . . 66, 68
test de nullite jointe . . . . . . . . . . . . . 64
toutes choses egales par ailleurs . . 4, 17,
5153, 75
U
utilite stochastique . . . . . . . . . . . . . . . . . . 18
V
variable a valeurs manquantes . . . . . . . 63
variable dinteret . . . . . . . . . . . . . . . . 16, 53
variable de controle . . . . . . . . . . . . . . . . . 52
variable polytomique
non ordonnee . . . . . . . . . . . . . . . .21, 23
ordonnee . . . . . . . . . . . . . 21, 23, 59, 82
variable principale . . . . . . . . . . . 52, 53, 81
106
Srie des Documents de Travail
Mthodologie Statistique
9601 : Une mthode aux enqutes auprs des 0101 : Diverses macros
synthtique, robuste et entreprises. 9809 : chantillonnage et SAS : Analyse exploratoire
efficace pour raliser des N. CARON, J.-C. DEVILLE stratification : une tude des donnes, Analyse des
estimations locales de empirique des gains de sries temporelles.
population. 9704 : La faisabilit dune prcision. D. LADIRAY
G. DECAUDIN, J.-C. enqute auprs des J. LE GUENNEC
LABAT mnages. 0102 : conomtrie linaire
1. au mois daot. 9810 : Le Kish : les des panels : une
9602 : Estimation de la 2. un rythme problmes de ralisation du introduction.
prcision dun solde dans hebdomadaire tirage et de son T. MAGNAC
les enqutes de conjoncture C. LAGARENNE, C. extrapolation.
auprs des entreprises. THIESSET C. BERTHIER, N. CARON, 0201 : Application des
N. CARON, P. RAVALET, B. NEROS mthodes de calages
O. SAUTORY 9705 : Mthodologie de lenqute EAE-Commerce.
lenqute sur les 9901 : Perte de prcision N. CARON
9603 : La procdure FREQ dplacements dans lie au tirage dun ou
de SAS - Tests lagglomration toulousaine. plusieurs individus Kish. C 0201 : Comportement
dindpendance et mesures P. GIRARD. N. CARON face au risque et lavenir
dassociation dans un et accumulation
tableau de contingence. 9801 : Les logiciels de 9902 : Estimation de patrimoniale - Bilan dune
J. CONFAIS, Y. GRELET, dsaisonnalisation TRAMO variance en prsence de exprimentation.
M. LE GUEN & SEATS : philosophie, donnes imputes : un L. ARRONDEL, A.
principes et mise en uvre exemple partir de MASSON, D. VERGER
9604 : Les principales sous SAS. lenqute Panel Europen.
techniques de correction de K. ATTAL-TOUBERT, D. N. CARON C 0202 : Enqute
la non-rponse et les LADIRAY Mthodologique Information
modles associs. 0001 : Lconomtrie et et Vie Quotidienne - Tome
N. CARON 9802 : Estimation de ltude des comportements. 1 : bilan du test 1,
variance pour des Prsentation et mise en novembre 2002.
9605 : Lestimation du taux statistiques complexes : uvre de modles de J.-A. VALLET, G.
dvolution des dpenses technique des rsidus et de rgression qualitatifs. Les BONNET, J.-C. EMIN, J.
dquipement dans linarisation. modles univaris rsidus LEVASSEUR, T. ROCHER,
lenqute de conjoncture : J.-C. DEVILLE logistiques ou normaux P. VRIGNAUD, X.
analyse et voies (LOGIT, PROBIT) (version DHAULTFOEUILLE, F.
damlioration. 9803 : Pour essayer den actualise). MURAT, D. VERGER, P.
P. RAVALET finir avec lindividu Kish. S. LOLLIVIER, M. ZAMORA
J.-C. DEVILLE MARPSAT, D. VERGER
9606 : Lconomtrie et 0203 : General principles for
ltude des comportements. 9804 : Une nouvelle (encore 0002 : Modles structurels data editing in business
Prsentation et mise en une !) mthode de tirage et variables explicatives surveys and how to
uvre de modles de probabilits ingales. endognes. optimise it.
rgression qualitatifs. Les J.-C. DEVILLE J.-M. ROBIN P. RIVIERE
modles univaris rsidus
logistiques ou normaux 9805 : Variance et 0003 : Lenqute 1997-1998 0301 : Les modles logit
(LOGIT, PROBIT). estimation de variance en sur le devenir des polytomiques non
S. LOLLIVIER, M. cas derreurs de mesure personnes sorties du RMI - ordonns : thories et
MARPSAT, D. VERGER non corrles ou de Une prsentation de son applications.
lintrusion dun individu Kish. droulement. C. AFSA ESSAFI
9607 : Enqutes rgionales J.-C. DEVILLE D. ENEAU, D. GUILLEMOT
sur les dplacements des 0401 : Enqute sur le
mnages : lexprience de 9806 : Estimation de 0004 : Plus damis, plus patrimoine des mnages -
Rhne-Alpes. prcision de donnes proches ? Essai de Synthse des entretiens
N. CARON, D. LE BLANC issues denqutes : comparaison de deux monographiques.
document mthodologique enqutes peu comparables. V. COHEN, C. DEMMER
9701 : Une bonne petite sur le logiciel POULPE. O. GODECHOT
enqute vaut-elle mieux N. CARON, J.-C. DEVILLE, 0402 : La macro SAS
quun mauvais O. SAUTORY 0005 : Estimation dans les CUBE dchantillonnage
recensement ? enqutes rptes : quilibr
J.-C. DEVILLE 9807 : Estimation de application lEnqute S. ROUSSEAU, F.
donnes rgionales laide Emploi en Continu. TARDIEU
9702 : Modles univaris et de techniques danalyse N. CARON, P. RAVALET
modles de dure sur multidimentionnelle. 0501 : Correction de la non-
donnes individuelles. K. ATTAL-TOUBERT, O. 0006 : Non-parametric rponse et calage de
S. LOLLIVIER SAUTORY approach to the cost-of- lenqutes Sant 2002
living index. N. CARON, S. ROUSSEAU
9703 : Comparaison de 9808 : Matrices de mobilit F. MAGNIEN, J.
deux estimateurs par le et calcul de la prcision POUGNARD
ratio stratifis et application associe.
N. CARON, C. CHAMBAZ
0502 : Correction de la non- 0801 : Rapport du groupe
rponse par rpondration de rflexion sur la qualit M2015/01 : la collecte
et par imputation des enqutes auprs des multimode et le paradigme de
N. CARON mnages lerreur denqute totale
D. VERGER T. RAZAFINDROVONA
0503 : Introduction la
pratique des indices M2013/01 : La rgression M2015/02 : Les mthodes
statistiques - notes de cours quantile en pratique de Pseudo-Panel
J-P BERTHIER P. GIVORD, X. M. GUILLERM
DHAULTFOEUILLE
0601 : La difficile mesure
M2015/03 : Les mthodes
des pratiques dans le
destimation de la prcision
domaine du sport et de la M2014/01 : La microsimu-
pour les enqutes mnages
culture - bilan dune lation dynamique : principes
de l'Insee tires dans
opration mthodologique gnraux et exemples en
Octopusse
C. LANDRE, D. VERGER langage R
E. GROS - K.MOUSSALAM
D. BLANCHET