Analyse Spatiale 11
Analyse Spatiale 11
Analyse Spatiale 11
Résumé
L’économétrie spatiale requiert des données exhaustives sur un territoire, ce qui interdit en principe
l’utilisation de données d’enquête. Le présent chapitre présente les écueils liés à l’estimation
d’un modèle spatial autorégressif (SAR) sur données échantillonnées et évalue les potentielles
corrections proposées par la littérature empirique. Nous identifions deux sources de biais : (i)
un "effet taille" résultant de la distorsion de la matrice de pondération spatiale et (ii) un effet
résultant de l’omission d’unités spatialement corrélées avec les unités observées. Tous deux tendent
à sous-estimer la corrélation spatiale. Le biais est cependant plus faible dans le cas d’un sondage
par grappes et lorsque l’échantillon est suffisamment grand. Deux catégories de méthodes sont
proposées par la littérature empirique afin de passer outre ces écueils : l’imputation des valeurs
manquantes (régression linéaire, hot deck) et l’agrégation des données à une échelle supérieure.
La difficulté est de reconstituer une information complexe à partir de peu d’observations, même si
l’imputation par hot deck statistique semble constituer une piste prometteuse. La dernière partie
de ce chapitre illustre cette problématique dans le cas concret de l’estimation d’externalités de
production entre les industries du département français des Bouches-du-Rhône.
288 Chapitre 11. Économétrie spatiale sur données d’enquête
Introduction
Les développement récents de l’économétrie spatiale et de la géolocalisation permettent l’ana-
lyse de phénomènes spatiaux à des échelles très locales (firmes, logements, . . . ), renforçant ainsi la
précision des estimations. Les concepts issus de ce champ sont utilisés dans des domaines de plus
en plus diversifiés : géostatistique, économie, analyse de réseaux. Cependant, l’application de ces
méthodes d’analyse spatiale requiert des données exhaustives, qui ne sont pas toujours accessibles
(non-réponse, temps de collecte trop important, . . . ) et ne peuvent pas aisément être traitées en un
temps restreint. L’extension de l’économétrie spatiale aux données d’enquête permettrait de tirer
pleinement parti d’une information détaillée pour mesurer finement l’incidence des corrélations
spatiales sur les estimations économétriques 1 . Dans ce chapitre, nous discutons ainsi les dévelop-
pements récents relatifs à l’application des méthodes d’estimation spatiales lorsqu’une partie des
observations est manquante, en particulier dans le cas de données d’enquête. Nous ne traitons ni la
possibilité d’un sondage spatialisé, qui est complexe dans le cas des données sociales 2 , ni les cas
d’observations dont la localisation est inconnue. Pourquoi l’économétrie spatiale requiert-elle des
données exhaustives ? L’économétrie classique repose sur une hypothèse d’indépendance mutuelle
des observations. Estimer un modèle sur un sous-ensemble de données peut affecter la puissance
des tests statistiques mais, en l’absence de problème de sélection, les estimateurs restent sans
biais et efficaces. Au contraire, dans les modèles d’économétrie spatiale, les observations sont
considérées comme corrélées entre elles : chaque unité est influencée par ses voisins. Supprimer
des observations revient à omettre leurs liens avec les unités observées proches, ce qui introduit un
biais dans l’estimation du paramètre de corrélation spatiale et des effets spatiaux estimés. Nous
constatons que ce biais tend à atténuer la valeur du paramètre de corrélation spatiale, puisque
certains liens de voisinage ne sont alors plus pris en compte dans l’estimation.
Conceptuellement, l’économétrie spatiale se distingue de l’économétrie classique par la façon
dont elle considère les observations. En économétrie classique, les observations s’apparentent à
un échantillon aléatoire représentatif d’une population et sont interchangeables. L’analyse spatiale
les conçoit comme l’unique réalisation d’un processus spatial, chaque observation étant alors
nécessaire à l’estimation du processus sous-jacent 3 . L’économétrie spatiale a été développée dans
le cadre très pur des modèles de C LIFF et al. 1972, caractérisé par une information exhaustive et
parfaite sur les unités spatiales et par l’absence de données manquantes (A RBIA et al. 2016). En
pratique, ces conditions ne sont quasiment jamais réunies et appliquer directement des techniques
d’estimation spatiale peut fortement altérer les résultats.
L’application de méthodes spatiales à des données non exhaustives pose plusieurs problèmes.
Premièrement, les estimations sont perturbées par un "effet taille". L’existence de m données
manquantes parmi une population de taille n donne lieu à une matrice de pondération de taille
(n − m) × (n − m) au lieu de la vraie matrice de taille n × n, ce qui biaise le paramètre de corrélation
spatiale du simple fait du changement de dimension (A RBIA et al. 2016). Nous illustrons par la suite
ce phénomène à partir d’un échantillon localement exhaustif de données simulées par un modèle
SAR, en montrant qu’appliquer le même modèle à cet échantillon ne permet pas de retrouver la
valeur du paramètre de corrélation spatiale. Deuxièmement, l’existence de données manquantes
engendre une erreur de mesure sur l’effet du voisinage (régresseur WY ) qui biaise les paramètres
estimés. Par simulation, nous montrons qu’au-delà de l’ "effet taille", ce biais a des conséquences
importantes.
Différentes corrections ont été proposées, sans qu’aucune ne s’impose radicalement 4 . Lorsque
la localisation des individus est connue, les solutions par imputation sont généralement privilégiées
(RUBIN 1976 ; L ITTLE 1988 ; L ITTLE et al. 2002). Cependant, une imputation naïve, par exemple
par un modèle linéaire, ne permet pas de corriger les biais (B ELOTTI et al. 2017a). Pour contourner
ce problème, K ELEJIAN et al. 2010b développent des estimateurs lorsque seul un sous-ensemble
incomplet d’une population est disponible. WANG et al. 2013a mettent en place une méthode
d’imputation par moindres carrés en deux étapes dans un cadre où des valeurs de la variable
dépendante sont aléatoirement manquantes. Dans ce même contexte, L E S AGE et al. 2004 recourent
à l’algorithme EM (D EMPSTER et al. 1977) : une phase "E" (espérance) assigne une valeur aux
données manquantes, conditionnellement aux observables et aux paramètres du modèle spatial sous-
jacent, puis une phase "M" (maximisation) détermine la valeur de ces paramètres par maximisation
de la vraisemblance du modèle. Par itération, cette procédure permet de tirer d’un modèle estimé
l’ensemble de l’information disponible pour imputer des valeurs manquantes. Les travaux plus
récents de B OEHMKE et al. 2015 étendent cette procédure au cas d’observations manquantes
(variables dépendante et indépendantes inconnues).
Des travaux empiriques récents illustrent l’importance de ces corrections. Dans un modèle
de prix hédoniques, L E S AGE et al. 2004 appliquent l’algorithme EM pour prédire la valeur
des logements non vendus. Dans un modèle de réseaux avec autocorrélation spatiale, L IU et al.
2017 montrent que la détection d’un effet de pair requiert de prendre en compte le processus
d’échantillonnage. Les méthodes complexes d’imputation selon un modèle estimé (model-based)
sont cependant encore peu appliquées. Lorsque certaines données sont manquantes, la solution
généralement retenue est de supprimer du champ de l’analyse les observations correspondantes, au
risque d’engendrer un biais d’atténuation de la corrélation spatiale. Certains travaux se restreignent
à un sous-ensemble, notamment une région ou un groupe particulier (R EVELLI et al. 2007), ce
qui peut poser un problème d’ "effet taille" et amener à sous-estimer les corrélations à la bordure
de l’espace considéré (K ELEJIAN et al. 2010b). Enfin, la plupart des applications sont réalisées
sur données agrégées pour bénéficier de données exhaustives sur une échelle plus large, mais
cette solution peut provoquer des erreurs positionnelles 5 (A RBIA et al. 2016) ainsi qu’un biais
écologique (A NSELIN 2002b). Nous discutons par la suite l’incidence de ces diverses méthodes sur
les estimations spatiales.
Le problème des valeurs manquantes dans un cadre d’observations non indépendantes a été mis
en avant par des champs proches de l’économétrie spatiale : séries temporelles et géostatistique
d’une part, économétrie des réseaux d’autre part. Les séries temporelles et la géostatistique se
rapprochent du traitement des données spatiales continues. Le problème des données manquantes
a été abordé très tôt dans le domaine des séries temporelles (C HOW et al. 1976, F ERREIRO
1987). J ONES 1980 ; H ARVEY et al. 1984 recommandent l’utilisation d’un filtre de Kalman pour
simultanément estimer un modèle et imputer des valeurs. L’analyse géostatistique corrige des
4. En particulier, ces méthodes varient selon les hypothèses sous-jacentes portant sur les données manquantes :
selon que la valeur et/ou la localisation des observations est manquante, que les variables dépendantes et/ou indé-
pendantes sont affectées et selon que la probabilité pour une donnée d’être manquante dépend des corrélations avec
les données observables et/ou inobservables. La littérature sur l’incidence des données manquantes établit ainsi une
distinction entre Missing at Random (MAR), Missing Completely at Random (MCAR) et Missing Not at random
(MNAR). cf RUBIN 1976, H UISMAN 2014
5. A RBIA et al. 2016 proposent ce concept pour désigner les cas où la position d’une observation (X,Y) n’est
pas connue précisément. Par exemple, manque de précision dans la mesure, mesure brouillée pour des questions de
confidentialité, adresses manquantes.
290 Chapitre 11. Économétrie spatiale sur données d’enquête
jeux de données incomplets soit en amont par des méthodes d’échantillonnage spatialisé, soit en
prédisant la valeur d’une variable spatiale continue en une position inconnue (interpolation spatiale
ou krigeage, voir chapitre 5 :"Géostatistique"). Des approches spatio-temporelles croisant krigeage
et filtre de Kalman ont également été développées (M ARDIA et al. 1998). Cependant, ces méthodes
propres aux données continues ne peuvent être transposées à l’analyse économique et sociale, où
les données sont fondamentalement discrètes. De plus, le recours à ces techniques de sondage
spatialisé irait à l’encontre des principes fondamentaux de la collecte de données sociales tels que
l’équipondération et l’utilisation de bases de sondages déterministes. L’économétrie des réseaux
a très vite souligné les biais engendrés par des observations manquantes (B URT 1987 ; S TORK
et al. 1992 ; KOSSINETS 2006), mais les solutions pratiques restent rares, même si les enjeux liés
à l’estimation de l’autocorrélation spatiale sur un échantillon d’un réseau prennent de l’ampleur
avec l’utilisation croissante des réseaux sociaux (Z HOU et al. 2017). De même qu’en économétrie
spatiale, la principale difficulté est de reconstituer l’information sur les données inobservées à
partir des données observées, sans connaître l’effet des premières sur les secondes (KOSKINEN
et al. 2010). En particulier, H UISMAN 2014 ne tranche pas entre diverses stratégies d’imputation
classiques et montre que celles-ci ne fonctionnent que dans des cas spécifiques. Des solutions
fondées sur des méthodes d’échantillonnage ont également été proposées afin de collecter des
données sur les populations d’intérêt (G ILE et al. 2010).
Le présent chapitre se concentre sur deux questions : quels sont les biais engendrés par
l’application de méthodes spatialisées à des données d’enquête ? quelles sont les conséquences des
diverses solutions classiques (suppression des données, imputation, agrégation) ? Ces questions
sont abordées par A RBIA et al. 2016, qui procèdent par simulation et observent une incidence plus
marquée des données manquantes lorsqu’elles sont regroupées en grappes, auquel cas l’intégralité de
phénomènes locaux peut être perdue. Ils considèrent cependant des cas où les données manquantes
représentent au maximum 25 % de la population, ce qui est très faible par rapport aux données
d’enquête, où elles atteignent généralement plus de 90 % de la population.
La section 11.1 présente les biais issus de l’application de méthodes spatiales à un échantillon
non exhaustif de données, selon la part des observations échantillonnées et le type de sondage.
La section 11.2 discute les conséquences de quelques solutions usuelles : le passage à l’échelle
supérieure par agrégation et l’imputation des valeurs manquantes. La section 11.3 illustre ces
biais à partir de l’estimation d’une équation de production avec externalités sur les industries du
département français des Bouches-du-Rhône.
avec β = 1 et ρ = 0.5, paramètres de référence que nous cherchons à retrouver par l’estimation
de modèles SAR sur des échantillons. Les données des variables simulées Y sont représentées sur
la figure 11.1. La présence de zones colorées concentrées est caractéristique de l’autocorrélation
spatiale positive résultant du processus générateur des données.
La table 11.1 présente les résultats de l’estimation d’un modèle SAR sur l’ensemble des zones
NUTS3 d’Europe. Ils confirment la validité de cette simulation, puisque les paramètres β et ρ
estimés sont très proches des valeurs calibrées initialement.
TABLE 11.1 – Paramètres estimés par SAR sur l’ensemble des zones
Encadré 11.1.1 — Simulation d’un SAR avec R. Pour simuler un SAR en R, l’étape la plus
importante est de formater sa matrice de voisinage W de la façon suivante :
Une fois la matrice de voisinage au format listw, il faut alors inverser 1 − ρW en utilisant la
fonction suivante, dont ρ est l’un des paramètres :
Attention, cette étape peut être chronophage. Il ne reste alors plus qu’à simuler notre variable Y :
Sondage poissonnien
Le sondage poissonnien (ou bernoullien) consiste à tirer à pile ou face pour chaque individu
de la population son appartenance à l’échantillon. Dans ce cas, les individus ont toujours la même
chance d’être sélectionnés dans l’échantillon. La sélection d’un individu dans un échantillon n’influe
pas sur la probabilité qu’ont les autres d’être également inclus, mais la taille de l’échantillon n’est
pas fixée a priori. Dans notre cas, chaque zone a une probabilité p d’être retenue dans l’échantillon :
la taille de l’échantillon obtenu est alors pN en espérance.
Ici, il s’agit de rassembler les zones NUTS3 en différentes grappes et ensuite de réaliser une
sélection aléatoire de certaines de ces grappes. L’intérêt principal est de limiter les coûts de collecte,
au prix d’une perte en précision liée à l’homogénéité intra-grappe.
Il serait envisageable d’utiliser les différents niveaux NUTS1 ou NUTS2 comme grappes.
Cependant, ils sont de taille importante et ne comportent pas tous le même nombre de NUTS3. Or
des grappes de taille trop importante vont limiter le nombre de simulations possibles. Au contraire,
des grappes comportant des nombres de zones différents introduisent soit une problématique
294 Chapitre 11. Économétrie spatiale sur données d’enquête
de poids de sondage différents entre les individus, que nous ne souhaitons pas traiter ici (voir
DAVEZIES et al. 2009 pour un débat sur l’usage des poids de sondage en économétrie), soit une
problématique de taille d’échantillon variable ce qui peut avoir des effets complexes à analyser.
Nous séparons donc les zones en grappes de même taille tout en maintenant une certaine cohérence
géographique. Comme la matrice de pondération est basée sur la distance géographique, nous
privilégions les grappes les moins étendues possible.
Afin d’obtenir des grappes de taille identique, il est nécessaire que le nombre de grappes soit un
diviseur du nombre de zones NUTS3. En vue de limiter la taille des grappes, nous rassemblons les
1445 zones NUTS3 en 85 grappes de 17 zones chacune. Pour cela, nous utilisons un algorithme de
construction des grappes : partant de la zone la plus éloignée du centre de la carte, nous agrégeons
les zones les plus proches de celle-ci jusqu’à en obtenir 17. Comme les grappes sont construites une
à une, les NUTS3 les plus éloignés seront déjà affectés pour la construction des grappes précédentes,
et l’algorithme se poursuit avec des zones plus centrales. Les grappes obtenues sont représentées
sur la figure 11.3.
Sondage stratifié
Le sondage stratifié correspond à un tirage de n boules, mais en tirant n1 boules dans une
première urne, n2 dans une deuxième, jusqu’à nH dans une H-ième, où n = n1 + n2 + . . . + nH . Pour
réaliser un tirage stratifié, il convient de bien définir les H strates d’une part, et de bien choisir
l’allocation (n1 , . . . , nH ) d’autre part. Une allocation classique est l’allocation de Neyman, qui a
pour propriété de minimiser la variance de l’estimateur du total d’une variable d’intérêt (voir par
exemple T ILLÉ 2001). La formule est la suivante :
Nh Sh
nh = n H (11.2)
∑i=1 Ni Si
avec n la taille de l’échantillon total, Nh la taille de la strate h et Sh la dispersion de la variable
d’intérêt au sein de la strate h. Dans certains cas, lorsque les comportements vis-à-vis de la variable
d’intérêt sont hétérogènes, cette formule peut conduire à enquêter exhaustivement certaines strates,
c’est-à-dire à leur appliquer un taux de sondage de 100 %.
à sa vraie valeur ρ = 0.5. Par conséquent, pour des échantillons de petite taille, l’effet indirect
n’est pas significativement différent de zéro et reste bien inférieur à celui observé sur la population
entière. L’autocorrélation spatiale est largement sous-estimée.
TABLE 11.2 – Estimation d’un modèle SAR sur des échantillons tirés par sondage aléatoire
simple
Note : *** désigne une significativité à 1 %, ** une significativité à 5 % et * une significativité à
10 %. Les écart-types sont entre parenthèses. n : nombre d’observation dans l’échantillon. Ces
estimations proviennent de 10 000 simulations.
TABLE 11.3 – Estimation d’un modèle SAR sur des échantillons tirés par grappes
Note : *** désigne une significativité à 1 %, ** une significativité à 5 % et * une significativité à
10 %. Les écart-types sont entre parenthèses. n : nombre d’observations dans l’échantillon. p :
nombre de grappes dans l’échantillon. Ces estimations proviennent de 10 000 simulations.
Avec un sondage par grappes, le paramètre ρ̂ est plus proche de sa vraie valeur et l’inclut
dans son intervalle de confiance. La précision de l’estimation s’améliore nettement lorsque n
augmente, mais l’estimateur reste biaisé. Ainsi, contrairement au cas du sondage aléatoire simple,
il est possible de capter les interactions spatiales même avec un taux de sondage très faible de
l’ordre de 3 %. En effet, les unités enquêtées sont fortement concentrées dans l’espace et donc très
représentatives de la corrélation spatiale. En revanche, si le nombre d’unités tirées est faible, il en
va de même pour la précision de l’estimation de la corrélation spatiale. Dès lors, l’effet indirect
296 Chapitre 11. Économétrie spatiale sur données d’enquête
est bien détecté même pour des échantillons de petite taille et sa valeur est plus proche de celle
obtenue sur la population totale. L’estimation d’effets géographiques semble ainsi raisonnable dans
le cadre d’un tel type de sondage.
Deux questions subsistent : tout d’abord, est-ce que cet échantillonnage par grappes n’aurait
pas tendance à favoriser la détection d’un modèle autocorrélé spatialement, même si la tendance
n’est pas majeure sur la totalité de la population ? Comme l’on dispose de peu de valeurs de X et Y ,
le terme WY est paradoxalement assez bien connu, ce qui pourrait amener à favoriser cette piste.
D’autre part, et cela sera developpé dans la partie 11.1.4, on peut s’étonner de l’écart observé entre
le ρ̂ estimé et la vraie valeur utilisée pour la génération du SAR, alors même qu’on détecte bien les
effets spatiaux.
7. Ce terme est lié à la différence entre approche sous le plan et sous le modèle en sondages. Si on raisonne sous
le plan, on suppose que la population a des valeurs de Y déterministes - approche usuelle. Sous le modèle, on suppose
qu’il y a un modèle dit de superpopulation dont dérivent les Y de la population. Ici on doit suivre cette approche pour
pouvoir estimer nos modèles SAR
8. On notera que plusieurs paramètres ne respectent pas cette loi : on peut par exemple penser au maximum
d’une variable Y sur une population, qui n’est pas possible à estimer sans biais à partir d’un échantillon. Par ailleurs,
dans notre cas de sondage aléatoire simple ou par grappes, il n’y a pas de problèmes de sous-couverture, c’est-à-dire
d’unités de la population qui ne peuvent pas appartenir à l’échantillon pour des raisons souvent liées à la qualité des
registres. Cette piste ne peut pas expliquer le biais sur ρ̂.
11.2 Pistes de résolution 297
0,6
Paramètre estimé
0,5
0,4
0,3
0,2
0,1
-0,2
-0,4
-0,6
-0,8
Vrai paramètre
-1,0
-0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8
9. Le manque d’information concernant la localisation de certaines unités est un autre enjeu des recherches
actuelles en économétrie spatiale (A RBIA et al. 2016) qui dépasse cependant le cadre du présent chapitre.
11.2 Pistes de résolution 299
8
10
5.0
8
6
4.5
4
4.0
3.5
2
2
3.0
0
0
2.5
−2
est relativement fine. Ainsi, pour des données exhaustives, plus le quadrillage est fin, plus on se
rapproche de la structure spatiale des données ponctuelles et, par conséquent, plus la corrélation
spatiale estimée est proche de sa vraie valeur.
2,0
Rho
Rho inf
Rho sup
1,5 Beta
Beta inf
Beta sup
1,0
0,5
0,0
10 15 20 25 30 35 40 45 50 55 60 65 70 75
Taille de la grille (nbr de cases par coté)
0,5
Application à un échantillon
Cette procédure est répliquée sur des données échantillonnées par sondage aléatoire simple.
La finesse de la grille répond à un arbitrage biais-variance : des maillons fins sont plus fidèles aux
distances entre observations mais mènent à des estimations de moyennes locales moins précises
pour chaque variable. Sous réserve d’assigner des poids nuls ainsi que des valeurs nulles des
variables expliquée et explicatives aux mailles sans observation, il est possible de retrouver l’effet
spatial simulé.
La table 11.4 présente les résultats de cette procédure pour différentes tailles d’échantillon et
diverses grilles spatiales. Dans la majorité des cas, la vraie valeur de ρ se situe bien dans l’intervalle
de confiance du paramètre estimé. Pour un petit échantillon, une grille trop grossière écrase les effets
spatiaux tandis qu’une grille trop fine fournit une mauvaise estimation des variables individuelles.
Comme précédemment, plus l’échantillon est grand, plus l’estimation est précise.
Ces simulations tendent à valider statistiquement l’approche par agrégation, sous réserve que
300 Chapitre 11. Économétrie spatiale sur données d’enquête
ρ̂ β̂
G
10 30 50 60 10 30 50 60
n
100 0.487∗∗∗ 0.494∗∗∗ 0.483∗∗∗ 0.478∗∗∗ 1.016∗∗∗ 1.007∗∗∗ 1.027∗∗∗ 1.030∗∗∗
(0.070) (0.060) (0.068) (0.072) (0.134) (0.115) (0.129) (0.134)
200 0.482∗∗∗ 0.499∗∗∗ 0.495∗∗∗ 0.489∗∗∗ 1.020∗∗∗ 0.998∗∗∗ 1.006∗∗∗ 1.011∗∗∗
(0.064) (0.045) (0.046) (0.050) (0.126) (0.084) (0.088) (0.095)
500 -0.093 0.488∗∗∗ 0.483∗∗∗ 0.489∗∗∗ 1.035∗∗∗ 1.022∗∗∗ 1.031∗∗∗ 1.021∗∗∗
(0.701) (0.032) (0.030) (0.032) (0.121) (0.060) (0.055) (0.059)
1000 -0.982 0.487∗∗∗ 0.485∗∗∗ 0.491∗∗∗ 1.048∗∗∗ 1.024∗∗∗ 1.028∗∗∗ 1.019∗∗∗
(0.159) (0.024) (0.020) (0.021) (0.119) (0.045) (0.038) (0.040)
TABLE 11.4 – Estimation d’un SAR sur échantillons agrégés par parcelle
Note : Chaque ligne correspond à une taille d’échantillon n tiré parmi les 6 000 points simulés et
chaque colonne correspond à la finesse de la grille en termes de nombre de carreaux (une grille
de taille 30 découpe le carré initial en 900 cases) *** désigne une significativité à 1 %.
l’interprétation ne soit pas effectuée directement à l’échelle individuelle, mais reposent cependant
sur des hypothèses fortes (coordonnées des unités déterminées par une loi uniforme, processus
SAR homogène), rarement vérifiées en pratique.
Méthodes d’imputation
Cette partie recense quelques méthodes classiques d’imputation. Le lecteur intéressé pourra se
reporter à un bon livre de théorie des sondages, par exemple A RDILLY 1994 ou T ILLÉ 2001, pour
plus d’informations, de contexte théorique ainsi que pour d’autres méthodes plus avancées. Dans
la cas d’une imputation par le ratio ou par hot deck, les variables explicatives X sont supposées
connues de façon exhaustive.
Imputation par la moyenne. La méthode d’imputation par la moyenne (ou par la médiane, ou
par la classe dominante dans le cas de variables qualitatives) est une méthode usuelle qui consiste à
remplacer toutes les valeurs manquantes par la moyenne des valeurs observées. Cette méthode ne
respecte pas une éventuelle structure économétrique entre différentes variables de l’enquête et peut
conduire à des résultats faux dans le cadre d’estimations de tels modèles.
Imputation par le ratio. La méthode d’imputation par le ratio consiste à mobiliser l’informa-
tion auxiliaire X disponible sur la totalité de la population, y compris les unités pour lesquelles
l’information d’intérêt Y est manquante, afin d’imputer des valeurs de Y plausibles. Pour cela, on
postule l’existence d’un modèle linéaire de la forme Y = β X + ε. β̂ est estimé par les moindres
carrés ordinaires, puis la valeur Yratio = β̂ X est imputée pour les Y manquants. Le ratio des Y sur
les X, dans le cas de données quantitatives, est le même entre les unités observées et les unités
pour lesquelles on ne dispose pas d’information. Cette méthode peut être affinée en rajoutant des
contraintes sur les unités pour lesquelles on calcule l’estimation du β , par exemple sur un domaine
ou sur une strate précise.
Imputation par hot deck. La méthode de hot deck associe un donneur à une valeur manquante
11.3 Application empirique : la production industrielle dans les
Bouches-du-Rhône 301
de façon aléatoire, par opposition au cold deck qui établit ce lien de manière déterministe. Un
donneur est ici un individu statistiquement "proche" de l’individu manquant (il partage des valeurs
proches des X auxiliaires, appartient à la même strate, au même domaine, ou encore se situe à la
même position spatiale). La mise en pratique d’un hot deck repose sur la définition d’un critère de
distance, à partir duquel sont déterminés k voisins de l’individu dépourvu de valeur Y . Un individu
parmi ces k voisins est choisi au hasard, uniformément ou non, pour donner sa valeur pour le
nouveau Yhotdeck . Il est possible d’introduire des variantes, par exemple en limitant le nombre de
fois où un même individu peut être donneur, ou en réalisant le hot deck de façon séquentielle.
Pour aller plus loin
Les méthodes d’imputation peuvent plus ou moins directement altérer les estimations effectuées
sur les données imputées. Le lien entre Y et X sur lequel repose l’imputation peut se retrouver
exacerbé dans l’estimation du modèle sur Y et X (voir C HARREAUX et al. 2016 pour une discussion
de ce point). De façon similaire, voire même amplifiée, l’utilisation de méthodes d’économétrie
spatiale sur de telles données requiert une extrême précaution. En effet, la méthode d’imputation
peut faire émerger une structure spatiale ex-nihilo ou au contraire briser les corrélations spatiales
qu’elle ne prend pas en compte. Des exemples d’application de ces méthodes sont présentés en
partie 11.3.6.
Enfin, tel que mentionné en introduction, des méthodes plus raffinées d’imputation au moyen
de l’algorithme EM ont été développées (L E S AGE et al. 2004 ; WANG et al. 2013a). Elles sont
cependant complexes, très spécifiques au type d’information manquante et restent encore peu
appliquées.
11.3.1 Données
Le répertoire SIRUS (Système d’Identification au Répertoire des Unités Statistiques) est le
répertoire référent en termes de champ de la statistique d’entreprises française. Il est composé des
entreprises, des groupes et de leurs établissements, contenus dans SIRENE (Système Informatisé
du RÉpertoire National des Entreprises et des établissements), le répertoire administratif qui permet
l’enregistrement des unités légales. Sont enregistrés pour chaque entreprise son chiffre d’affaires,
son activité principale (disponible via le code APE, suivant la nomenclature française), son total de
bilan, ses exportations, son effectif (tant administratif qu’en équivalent temps plein), son adresse
physique ainsi que la liste des établissements qui la composent.
Les informations géographiques disponibles sur les établissements ont permis, grâce à un travail
réalisé par la Division des Méthodes et Référentiels Géographiques de l’Insee, de géolocaliser aux
coordonnées (x,y) chacun d’entre eux. Pour cela, différentes données ont été utilisées : du plus
précis au moins précis, la référence cadastrale, la voie puis le centre de la commune pour les cas
pour lesquels on dispose de trop peu d’information. Ces données géographiques, associées aux
données économiques disponibles dans le répertoire SIRUS, permettent la modélisation de relations
économétriques en prenant en compte la structure spatiale.
302 Chapitre 11. Économétrie spatiale sur données d’enquête
11.3.2 Modèle
Une entreprise peut être influencée dans son processus de production par la proximité géo-
graphique qu’elle entretient avec des entreprises voisines. Ces interactions sont regroupées sous
le concept d’ "externalités" qui peuvent être positives lorsque le voisinage a un impact favorable
sur la production (complémentarités entre secteurs, intégration des chaînes de production, relation
avec des fournisseurs, transport, partage de connaissance,..) ou négatives lorsqu’elles nuisent à la
production (concurrence, pollution, embouteillages, etc.).
La production Yi d’une entreprise i peut s’exprimer selon une loi de type Cobb-Douglas :
β β
Yi = ALi L Ki K , en fonction de son effectif moyen Li , de son capital Ki et de la productivité générale
des facteurs A. Les paramètres βL et βK représentent respectivement la part des revenus du travail et
du capital dans la production 10 . Traditionnellement, le terme A désigne l’ensemble des mécanismes
qui influencent la production (capital humain, progrès technologique, complémentarités. . . ) sans
pouvoir être directement mesurés. Il peut aussi être conçu comme représentant les externalités
ρω
positives liées à la production et s’écrire : A = exp(β0 ) ∏ j∈vi Y j i j , où vi désigne le voisinage
de l’établissement i, Y j le niveau de production d’une unité voisine de i. Le terme ρωi j désigne
l’élasticité de la production de l’entreprise i par rapport à celle de l’entreprise j : lorsqu’une
entreprise j voisine de i augmente sa production de 1 %, la production de l’entreprise i augmente
de ρωi j %. Le paramètre ρ capte les complémentarités communes à toutes les unités tandis que ω j
capte les complémentarités spécifiques, résultant de l’impact de l’activité de j sur la production de
i. En composant par la fonction logarithme, l’équation estimée peut se réécrire :
log(Yi ) = β0 + ρ ∑ ωi j log(Y j ) + βL log(Li ) + βK log(Ki ) + εi (11.3)
j∈vi
On voit ainsi apparaître la forme d’une équation caractéristique d’un modèle spatial autorégressif
(SAR), où la variable expliquée de l’observation i est régressée sur la somme pondérée des valeurs
de cette variable chez les observations voisines de i. ρ peut alors être interprété comme le paramètre
de corrélation spatiale. ωi j représente la force de l’interaction entre les unités i et j : c’est le poids
associé à ces unités dans le matrice de pondération spatiale.
10. Ces paramètres peuvent également être interprétés respectivement comme les élasticités de la production au
travail et au capital.
11.3 Application empirique : la production industrielle dans les
Bouches-du-Rhône 303
11.3.3 Estimation
L’équation 11.3 est estimée sur 6 306 établissements géolocalisés dans les Bouches-du-Rhône,
appartenant au secteur de l’industrie 11 . Ce secteur est particulièrement approprié à une estimation
spatiale, car il ne fait pas directement intervenir la localisation géographique dans la production
(contrairement au commerce, aux transports ou à l’agriculture), n’est pas trop concentré (comme
les hautes technologies) et ne fait pas particulièrement intervenir des logiques de réseau autres que
spatiales (comme en finance ou dans les communications).
La production Yi d’un établissement est donnée par le chiffre d’affaires. Le total du bilan de
l’entreprise, qui est une mesure de son patrimoine, sert de proxy pour le capital de l’établissement
Ki . Ces deux variables, uniquement disponibles à l’échelle de l’entreprise, sont divisées par le
nombre d’établissements au sein de l’entreprise. Enfin, l’effectif Li est disponible au niveau de
l’établissement dans SIRUS.
La figure 11.8 représente par des croix la localisation de ces établissements. L’intensité de
la couleur verte de ces croix matérialise la taille de leur chiffre d’affaires : plus la couleur est
foncée, plus le chiffre d’affaires est important. Des cliques d’établissements avec des forts chiffres
d’affaires semblent se former, par exemple vers Aix-en-Provence ou autour de Fos-sur-Mer. De
même que dans les simulations de la section 11.1, le voisinage des établissements est représenté
par une matrice de poids fondée sur la distance. Selon notre définition, chaque établissement a en
moyenne 109 voisins et 76 établissements n’ont pas de voisins 12 .
β0 βL βK ρ
0.422 0.535 0.769 0.051
(0.050) (0.015) (0.009) (0.009)
La table 11.5 présente les résultats du modèle SAR estimé sur données exhaustives à l’échelle
du département des Bouches-du-Rhône. Les parts des revenus du travail et du capital dans la
production sont proches de celles généralement estimées (de l’ordre d’un demi à deux tiers pour
la première, un tiers à deux tiers pour la seconde, le fort rendement marginal du capital pouvant
ici s’expliquer par le choix du secteur industriel). Il existe bien une corrélation spatiale positive et
significative : lorsque le chiffre d’affaires moyen des établissements voisins de i augmente de 1 %,
le chiffre d’affaires de i augmente de 0,05 %.
11. Le secteur de l’industrie regroupe les établissements dont l’activité principale appartient aux divisions 10 à 33
de la NAF rév 2. 2008.
12. Ces unités sans voisins, aussi appelées "îles", ne participent donc pas à l’estimation du paramètre de corrélation
spatiale ρ. Le choix du seuil résulte ainsi d’un arbitrage visant à minimiser à la fois le nombre de voisins et le nombre
d’îles.
304 Chapitre 11. Économétrie spatiale sur données d’enquête
fréquemment employés dans le cadre d’études identifiant l’effet de l’effectif et du patrimoine sur le
chiffre d’affaires. Ces méthodes de sondages ont été présentées en partie 11.1.2.
Dans le répertoire SIRUS, l’effectif est renseigné sur l’ensemble de la population. La stratifica-
tion est effectuée selon cette variable d’effectif, sous l’hypothèse d’une corrélation entre effectif et
chiffre d’affaires. La table 11.6 présente les strates ainsi constituées selon une allocation de Neyman,
fondée sur la dispersion des chiffres d’affaires au sein de chacune des strates. La dispersion au sein
de la strate 4 est bien supérieure à celle des autres strates, ce qui amène à considérer la strate 4
comme exhaustive, c’est-à-dire à toujours enquêter ces 67 établissements afin de limiter la variance
d’estimation.
Résultats
Dans cette partie, nous comparons les résultats obtenus avec un plan de sondage aléatoire
simple et stratifié, en faisant varier la taille de l’échantillon : n ∈ {250, 500, 1000, 2000}.
TABLE 11.7 – Modèle 11.3 estimé sur échantillon aléatoire (sondage aléatoire simple)
Note : régression non pondérée.
Champ : ensemble des établissements du secteur de l’industrie, dans le département des
Bouches-du-Rhône, dont le chiffre d’affaires et le total de bilan sont strictement positifs.
Source : répertoire SIRUS, 2015.
La table 11.7 présente les paramètres du modèle SAR estimés à partir de 1 000 tirages d’échan-
tillon par sondage aléatoire simple (à gauche) et par sondage stratifié (à droite). Dans le cas d’un
sondage aléatoire simple, de même que dans la section 11.1, les paramètres classiques de régression
βL et βK , sont correctement estimés. En revanche, le paramètre de corrélation spatiale ρ n’est
11.3 Application empirique : la production industrielle dans les
Bouches-du-Rhône 305
significatif que pour un échantillon de taille supérieure à 1 000 et reste toujours inférieur à la valeur
qu’il prend sur données exhaustives.
Le plan de sondage stratifié appliqué aux données non repondérées biaise les estimateurs
classiques βL et βK lorsque la régression est non pondérée (DAVEZIES et al. 2009). En revanche, le
biais sur le paramètre de corrélation spatiale ρ semble moindre. En effet, les grosses entreprises
susceptibles d’avoir une influence spatiale importante sont toutes prises en compte dans l’échantillon
du fait de ce plan de sondage stratifié.
Le choix de ne pas pondérer la régression est effectué par défaut. En économétrie classique,
il est pertinent de pondérer les observations avant d’estimer un modèle économétrique lorsque la
structure du plan de sondage est liée aux variables estimées. Cependant, la question de l’utilisation
de poids de sondage dans le cadre d’un modèle de type SAR n’a pas été tranchée par la littérature
actuelle 13 . En l’état actuel des choses, la régression non pondérée semble le choix le plus sûr et le
plus simple à effectuer. Nous n’explorons pas plus avant cette question dans ce chapitre.
À partir de ce découpage, les observations d’un échantillon sont moyennées sur chaque cellule
de la grille puis l’analyse spatiale est menée à l’échelle de la grille, les distances considérées étant
définies entre centroïdes des cellules. Des valeurs nulles sont assignées aux variables et aux poids
spatiaux des cellules sans observations, ce qui les exclut de fait de l’estimation sans distordre la
taille de la matrice de pondération spatiale. La table 11.8 présente le paramètre ρ estimé pour
différentes tailles d’échantillon et diverses tailles de grille.
13. Par exemple, il n’est pas clair s’il est nécessaire ou non de faire intervenir les poids de sondage dans le calcul
de la matrice de pondération spatiale W ; cela pourrait également induire de l’endogénéité supplémentaire, liée à la
structure de l’échantillon.
306 Chapitre 11. Économétrie spatiale sur données d’enquête
G
20 30 50 60
n
100 0.007 0.009 0.014 0.015
(0.018) (0.022) (0.022) (0.024)
200 0.013 0.007 0.015 0.018
(0.021) (0.019) (0.018) (0.018)
500 0.024 0.023 0.012 0.013
(0.031) (0.023) (0.014) (0.013)
1000 0.031 0.057∗ 0.021∗ 0.014
(0.026) (0.040) (0.015) (0.012)
Mise en œuvre
La seconde approche, évoquée en section 11.2.2, consiste à imputer les données manquantes,
c’est-à-dire à attribuer des valeurs Yi estimées aux établissements pour lesquels on n’en dispose pas.
Nous considérons trois types d’imputation à l’échelle des établissements des Bouches-du-Rhône :
(i) l’imputation par le ratio, faisant intervenir les variables L et K d’effectif et de capital comme
variables explicatives du modèle, (ii) l’imputation par hot deck statistique, au sens où la distance
est calculée en fonction des valeurs de L et de K, c’est à dire que les voisins d’un individu sont les
établissements qui partagent des effectifs et des capitaux proches et (iii) l’imputation par hot deck
géographique, où l’on associe à un individu ses voisins au sens géographique.
La mise en œuvre de ces techniques requiert, dans le premier cas, d’estimer un modèle linéaire
(fonction lm de R) et dans les deux suivants, de définir les voisins (fonction knn du package class
de R) puis de réaliser un tirage aléatoire parmi eux (fonction sample de R). Ces trois approches
sont testées sur les données de l’industrie dans les Bouches-du-Rhône. 1 000 échantillons de taille
n sont tirés selon un sondage aléatoire simple, puis le processus d’imputation assigne des valeurs
de Y aux N − n établissements non échantillonnés. Les résultats obtenus sont présentés dans la
table 11.9. Pour rappel, les résultats sur la population entière sont en table 11.7.
11.3 Application empirique : la production industrielle dans les
Bouches-du-Rhône 307
Ratio Hot Deck Statistique Hot Deck Géographique
n ρ βL βK ρ βL βK ρ βL βK
250 0.002 0.560∗∗∗ 0.768∗∗∗ 0.043∗∗∗ 0.664∗∗∗ 0.646∗∗∗ 0.419∗∗∗ 0.028 0.104∗∗∗
(0.002) (0.112) (0.080) (0.009) (0.083) (0.059) (0.046) (0.034) (0.023)
500 0.004 0.548∗∗∗ 0.774∗∗∗ 0.042 ∗∗∗ 0.613 ∗∗∗ 0.698∗∗∗ 0.412 ∗∗∗ 0.061 ∗ 0.149∗∗∗
(0.003) (0.077) (0.058) (0.008) (0.061) (0.044) (0.035) (0.034) (0.022)
1000 0.008∗∗ 0.546∗∗∗ 0.774∗∗∗ 0.040 ∗∗∗ 0.577 ∗∗∗ 0.734∗∗∗ 0.389 ∗∗∗ 0.116 ∗∗∗ 0.217∗∗∗
(0.003) (0.051) (0.037) (0.007) (0.040) (0.028) (0.035) (0.035) (0.023)
2000 0.017∗∗∗ 0.542∗∗∗ 0.773∗∗∗ 0.040 ∗∗∗ 0.562 ∗∗∗ 0.751∗∗∗ 0.333 ∗∗∗ 0.203 ∗∗∗ 0.338∗∗∗
(0.004) (0.032) (0.024) (0.007) (0.031) (0.023) (0.022) (0.034) (0.022)
Résultats
Les résultats sont très variables selon la méthode utilisée. L’imputation par le ratio permet
de bien conserver la structure linéaire entre chiffre d’affaires, effectif et capital, ce qui se traduit
par des estimations sans biais et précises des coefficients βL et βK . En revanche, le ρ estimé est
très faible, encore plus que dans le cas du sondage aléatoire simple exploité directement (voir
table 11.7). En effet, l’imputation ne prend absolument pas en compte la structure spatiale, qui
est effacée lors de l’estimation du modèle sur les données complétées. Il n’est donc pas pertinent
d’essayer d’appliquer des modèles d’économétrie spatiale sur des données imputées avec cette
méthode.
L’imputation par hot deck statistique semble plus prometteuse. Les estimateurs sont du bon
ordre de grandeur par rapport aux valeurs obtenues sur la population et sont estimés avec précision.
Une comparaison avec la table 11.5 révèle un biais lorsque ρ̂, β̂L et β̂K sont estimés sur des
échantillons de petite taille. Ainsi, l’imputation par hot deck biaise les estimateurs du modèle
(C HARREAUX et al. 2016) mais permet de faire ressortir la structure des corrélations spatiales.
En effet, le lien entre donneur et receveur semble conserver de façon implicite la structure des
interactions spatiales. Il est également possible que la structure spatiale sous-jacente à Y existe aussi
pour L et K et soit récupérée par imputation. Ainsi, l’emploi de cette méthode d’imputation à des
fins d’analyse économétrique revient à un arbitrage entre biais et variance sur les paramètres βL et
βK , classique en théorie des sondages. Cependant, dans le cas présent, la méthode présente en outre
l’avantage de réduire considérablement le biais préexistant sur ρ. Ces résultats, testés uniquement
sur ce jeu de données et sur un plan de sondage simple, sont à utiliser avec précaution. En tout état
de cause, ce n’est pas sur la proximité spatiale entre donneur et receveur que repose l’efficacité de
cette méthode, comme le montre le dernier exemple.
La méthode d’imputation par hot deck géographique conduit à des résultats aberrants. Se fondant
directement sur la proximité spatiale entre donneur et receveur, elle entraîne une surestimation
très forte de l’effet spatial (ρ très supérieur à la vraie valeur), au détriment de l’effet des autres
variables du modèle (β1 et β2 très inférieurs aux vraies valeurs). En effet, selon cette méthode, des
établissement spatialement proches auront le même chiffre d’affaires Y , ce qui crée ex-nihilo une
très forte corrélation spatiale positive. L’utilisation de la dimension spatiale pour pallier le problème
des données manquantes n’est pas immédiate. La table 11.12 en annexe 11.3.6 présente les résultats
obtenus pour une imputation par hot deck géographique en se limitant aux établissements ayant
des effectifs proches. Le paramètre ρ est moins surestimé mais les résultats restent très éloignés de
308 Chapitre 11. Économétrie spatiale sur données d’enquête
Conclusion
Ce chapitre met en évidence les difficultés liées à l’application de modèles d’économétrie
spatiale à des données échantillonnées. Deux écueils s’y opposent en particulier : (i) un "effet taille"
par lequel l’estimation sur un échantillon distord la matrice de pondération spatiale, et (ii) un effet
résultant de l’omission d’unités spatialement corrélées avec les unités observées. Ces deux effets
tendent à sous-estimer l’ampleur de la corrélation spatiale. Néanmoins, ce biais est plus faible dans
le cas d’un sondage par grappes et lorsque l’échantillon est plus important.
Les études empiriques résolvent généralement ce problème en ignorant les observations man-
quantes, en agrégeant les données à une échelle plus large ou en imputant les valeurs manquantes.
La première solution n’est jamais souhaitable. Les deux autres sont loin d’être parfaites, la dif-
ficulté étant de reconstituer un ensemble d’information complexe à partir de peu d’observations.
L’imputation par hot deck statistique est prometteuse, mais nous ne montrons pas sa validité dans
un cas général.
Si cette problématique est vouée à se développer avec l’importance des réseaux sociaux et des
données géolocalisées, l’estimation de modèles spatiaux sur des données échantillonnées reste rare.
En l’état, il reste préférable de considérer des données exhaustives. Le présent chapitre met en garde
contre les solutions trop expéditives, telles que l’agrégation des données à une échelle supérieure,
les méthodes d’imputation simplistes ou la suppression des données manquantes. Lorsque qu’un
échantillon relativement important est disponible, ou issu d’un sondage par grappes, une estimation
spatiale pourrait alors être envisagée, en gardant à l’esprit que le paramètre de corrélation spatiale
obtenu sera sans doute sous-estimé.
11.3 Application empirique : la production industrielle dans les
Bouches-du-Rhône 309
Annexe
Choix du modèle et de la matrice de voisinage
Les tables 11.10 et 11.11 présentent des résultats obtenus en termes d’estimation des paramètres
de modèles SAR ou SEM via une méthode Monte Carlo selon différentes matrices de voisinage et
différentes tailles d’échantillon.
ρ β
M
2 voisins 5 voisins Distance 2 voisins 5 voisins Distance
n
50 0.020 −0.003 0.042 1.107∗∗∗ 1.050∗∗∗ 1.054∗∗∗
(0.110) (0.172) (0.043) (0.115) (0.095) (0.125)
100 0.063 0.069 0.058∗ 1.112∗∗∗ 1.056∗∗∗ 1.054∗∗∗
(0.076) (0.111) (0.031) (0.079) (0.065) (0.086)
150 0.097∗ 0.115 0.073∗∗ 1.107∗∗∗ 1.052∗∗∗ 1.049∗∗∗
(0.060) (0.088) (0.028) (0.062) (0.051) (0.068)
250 0.150∗∗∗ 0.189∗∗ 0.101∗∗ 1.105∗∗∗ 1.050∗∗∗ 1.053∗∗∗
(0.047) (0.065) (0.026) (0.049) (0.040) (0.052)
λ β
M
2 voisins 5 voisins Distance 2 voisins 5 voisins Distance
n
50 −0.025 −0.110 0.008 1.003∗∗∗ 1.003∗∗∗ 1.002∗∗∗
(0.167) (0.287) (0.193) (0.115) (0.113) (0.112)
100 0.008 −0.027 0.024 1.003∗∗∗ 1.004∗∗∗ 1.003∗∗∗
(0.113) (0.182) (0.124) (0.080) (0.078) (0.078)
150 0.023 0.002 0.034 0.998∗∗∗ 0.998∗∗∗ 0.998∗∗∗
(0.090) (0.144) (0.099) (0.065) (0.063) (0.063)
250 0.047 0.042 0.052 1.000∗∗∗ 1.000∗∗∗ 1.000∗∗∗
(0.069) (0.108) (0.079) (0.051) (0.050) (0.050)
L E S AGE, James P., Manfred M. F ISCHER et Thomas S CHERNGELL (2007). « Knowledge spillovers
across Europe : Evidence from a Poisson spatial interaction model with spatial effects ». Papers
in Regional Science 86.3, p. 393–421. ISSN : 1435-5957.
L E S AGE, J.P. et R.K. PACE (2004). « Models for spatially dependent missing data ». The journal of
real estate finance and economics 29.2, p. 233–254.
L ITTLE, Roderick J. A. (1988). « Missing-Data Adjustments in Large Surveys ». Journal of Business
and Economic Statistics 6.3, p. 287–296.
L ITTLE, Roderick J. A. et Donald B. RUBIN (2002). Statistical analysis with missing data. 2nd.
Wiley, Hoboken.
L IU, Xiaodong, Eleonora PATACCHINI et Edoardo R AINONE (2017). « Peer effects in bedtime
decisions among adolescents : a social network model with sampled data ». The Econometrics
Journal.
L ÓPEZ -BAZO, Enrique, Esther VAYÁ et Manuel A RTÍS (2004). « Regional Externalities And
Growth : Evidence From European Regions ». Journal of Regional Science 44.1, p. 43–73.
M ARDIA, Kanti V. et al. (1998). « The Kriged Kalman filter ». Test 7.2, p. 217–282.
P INKSE, Joris et Margaret E. S LADE (2010). « The Future of Spatial Econometrics ». Journal of
Regional Science 50.1, p. 103–117.
R EVELLI, Federico et Per T OVMO (2007). « Revealed yardstick competition : Local government
efficiency patterns in Norway ». Journal of Urban Economics 62.1, p. 121–134.
RUBIN, Donald B. (1976). « Inference and missing data ». Biometrika 63, p. 581–592.
S TORK, Diana et William D. R ICHARDS (1992). « Nonrespondents in Communication Network
Studies ». Group & Organization Management 17.2, p. 193–209.
T ILLÉ, Y. (2001). Théorie des sondages : échantillonnage et estimation en populations finies :
cours et exercices avec solutions :[2e cycle, écoles d’ingénieurs]. Dunod.
WANG, W. et L.-F. L EE (2013a). « Estimation of spatial autoregressive models with randomly
missing data in the dependent variable ». The Econometrics Journal 16.1, p. 73–102.
Z HOU, Jing et al. (2017). « Estimating Spatial Autocorrelation With Sampled Network Data ».
Journal of Business and Economic Statistics 35.1, p. 130–138.