Logit Probit
Logit Probit
Logit Probit
MODELO LOGIT
Características
• Cuando se analizan datos microeconómicos no resulta infrecuente descubrir que la variable dependiente se
encuentra de alguna forma “limitada”, en el sentido de que solo es observada plenamente en una parte de
su rango (censura) o solo es observada para una parte de la población (truncamiento o muestras
seleccionadas).
• En estos casos se rompe una de las hipótesis básicas del modelo de regresión clásico: el empleo de una
muestra aleatoria representativa de la población de interés
Ejemplos
• Tanto la censura como las muestras seleccionadas provocan que algunos datos no estén disponibles para
algunas unidades de la muestra.
• La censura aparece debido a la no observabilidad de la variable dependiente en una parte de los valores en
los que esta está definida.
• No obstante, en general se dispondrá de información relativa a todas las variables del modelo.
Muestras truncadas
• Los individuos excluidos no tendrán seguramente las mismas características que los incluidos.
• En el ejemplo el nivel medio de educación será mayor que en la población y la variancia será menor.
• Aunque pareciera que es posible hacer inferencia sobre la subpoblación, tampoco es posible esto.
• Una regresión sobre la subpoblación genera coeficientes sesgados hacia cero o “atenuados” en la medida
que la variancia del termino de error está sesgada hacia abajo.
Muestras censuradas
• En el caso de una variable censurada la variable de respuesta está fija en un valor arbitrario cuando la
variable está más allá del punto de censura.
• En el caso de truncamiento no se observa ni la variable dependiente ni las explicativas para los individuos
cuya yi está en la región de truncamiento.
• Cuando los datos son censurados no se observa los valores de la variable dependiente, pero se observan los
de las variables explicativas.
• Un ejemplo es cuando hay una codificación tope, que ocurre cuando una variable que toma valores de x o
más se registra como x (ej. Ingreso de la familia mas de x$)
• Si analizamos el gasto en automóvil (y), por ejemplo, este será positivo para aquellos individuos de la
muestra que efectivamente posean un auto y será nulo para el resto.
• Sin embargo, los determinantes del gasto (ingreso, situación familiar, etc.) serán, en general, observados
tanto para los que tienen auto como para los que no lo tienen.
• La censura no solo es común en estudios de demanda de bienes sino también en estudios de demanda con
restricciones de capacidad (billetes de avión, entradas para un concierto, etc.).
• En este caso el problema tiene tres elementos: la demanda potencial del bien
(y*i ), el nivel de capacidad (y0) y la demanda real o consumo efectivo (y i), siendo yi = y*i si yi < y0,, , e yi = y0 en
caso contrario.
• Los casos más comunes son aquellos en los que el muestreo se realiza dependiendo de los valores de la
variable dependiente (“muestreo endógeno”, también conocido como “truncamiento” o “muestreo basado
en la respuesta” si la variable es continua y “muestreo basado en la elección” si es discreta)
• O en función del comportamiento de los individuos respecto a otra variable dependiente (“truncamiento
incidental”, “auto-selección” o “selección muestral”).
Ejemplo
• Supongamos que estamos interesados en analizar los determinantes de los ingresos (y) a partir de la
siguiente relación funcional: y = f (educación, edad, experiencia, . . .) .
• Disponemos de una muestra de individuos cuyos ingresos son inferiores a un determinado umbral c
• Esto significa que la variable dependiente esta “truncada por arriba” y las observaciones por encima del
umbral no están incluidas en nuestra muestra.
• En particular, si tomamos como principal determinante de los ingresos los años de educación (x), la ecuación
de regresión será:
• Los residuos estarán correlacionados con la variable explicativa y los estimadores MCO serán inconsistentes.
• Dado que en el ejemplo es esperable que el β sea positivo y que la esperanza del término de error decrezca
con xi , entonces el estimador MCO estará sesgado “hacia abajo”
• Alternativamente, la selección de la muestra puede venir gobernada por el comportamiento de una variable
ajena al modelo de interés.
• Un ejemplo clásico es el de la ecuación de oferta salarial femenina (Heckman 1974): si tomamos una muestra
aleatoria de mujeres, el salario (wi) solo es observable para aquellas que están en el mercado laboral.
• Por lo tanto, la participación en el mercado laboral (z i) es la que determina que el salario (no) sea observable.
Esto supone que el modelo consta en realidad de dos ecuaciones:
Estimación
• Por su parte, el truncamiento implica la no observación de las colas de la distribución (desde el punto de
truncamiento).
• Los gráficos sugieren que el empleo de MCO para estimar relaciones censuradas es tan poco recomendable
como el hacerlo para relaciones truncadas.
Estimación MV
• Sea y el valor incompletamente observado de la variable latente y* con regla de observación y = g (y*).
• Esto significa que si la censura se produce por la izquierda en el valor c, la función g() vendrá definida por:
y = y* si y* > c
• Obviamente, las expresiones son extensibles al caso en el que la censura o el truncamiento se producen por
la derecha o por la derecha y la izquierda.
• Por simplicidad nos concentramos en los casos de censura y truncamiento por la izquierda.
• Si y > c, la densidad de probabilidad de y es igual que la de y*, por lo que f (y|x) = f* (y|x).
• Combinando estos resultados, la función de densidad se define como una “mezcla” (mixture) de una
distribución continua y una discreta:
• En presencia de truncamiento en la variable dependiente el par (yi, x) solo es observable cuando y > c, por lo
que para obtener la distribución de probabilidad de la variable aleatoria truncada es necesario normalizar la
función de distribución para que la probabilidad total sea igual a 1.
• Y la función de verosimilitud:
• Los modelos de regresión censurados se emplean en contextos en los que la variable dependiente es
(parcialmente) continua, pero presenta un punto (o varios) con masa probabilıstica positiva.
• Por un lado, situaciones en las que la estructura de la variable dependiente (y) viene generada por un
problema de observabilidad (“Modelo Tobit”).
• En este tipo de situaciones la variable latente (y) tiene pleno sentido económico y el interés,
consecuentemente, se centra en la regresión poblacional E (y|x).
• Por otro lado, situaciones en las que la estructura de la variable dependiente viene generada por la solución
(esquina) a un problema de optimización o la combinación de dos procesos estocásticos (Modelos con
“soluciones esquina” o “dos partes”).
• En este tipo de situaciones el interés se centra en la distribución de y dado x, particularmente a partir del
análisis de E (y|x) y Pr (y = 0|x).