08 Tobit
08 Tobit
08 Tobit
respuesta cualitativa:
- Truncados
- Censurados
Modelo TOBIT
Motivación
• Habíamos indicado que en la regresión tradicional MCO, la variable dependiente o
endógena (convencionalmente denominada Y) es cuantitativa, mientras que las
variables explicativas o exógenas (convencionalmente denominadas Xi), pueden ser
cuantitativas, cualitativas (por ejemplo dicotómicas), o una mezcla de ambas.
• Sin embargo, debido a que en las ciencias sociales abundan los casos de respuesta
cualitativa, resultaba necesario comprender la naturaleza de ese proceso generador
de datos, pues se presentan interesantes retos respecto de su cálculo y estimación
• Con ese marco, desarrollamos como una variante, el caso en que la variable
dependiente (la variable Y) puede ser en sí misma de naturaleza cualitativa,
mediante los modelos:
• Logit
• Probit
Definiciones
• Sin embargo, es posible que no se observen datos de la variable dependiente Y,
así como de las variables explicativas para toda la población.
• En situaciones como esas, estaremos frente al caso de muestras censuradas o
muestras truncadas, según sea el tipo de limitación en la información disponible.
• Los modelos de selección muestral constituyen una especialmente importante
generalización de estos modelos.
• Los modelos truncados o censurados: Son modelos econométricos donde la
variable dependiente solo representa a una parte de la población (datos
disponibles para una subpoblación inferior a la población total):
• La media de la variable truncada o censurada no será la misma que la original
Definiciones
• Si la variable objeto de estudio es una medición continua que se distribuye
según una ley normal, en la que existen uno o varios puntos de
truncamiento y/o censura, no es posible utilizar los habituales modelos de
regresión lineal estimados por mínimos cuadrados ordinarios (MCO),
porque proporcionan estimaciones incorrectas del efecto y de su
variabilidad.
• Cuando la variable de interés tiene un punto de truncamiento se debe
utilizar el denominado modelo de regresión truncado.
• Si tiene un único punto de censura tiene que utilizarse el llamado modelo
de regresión censurado o modelo Tobit.
• Cuando existen varios puntos de truncamiento o censura, o cuando
coexisten al mismo tiempo censura y truncamiento, se utilizan las
respectivas generalizaciones de estos modelos
Tomado de https://www.gacetasanitaria.org/es-pdf-S0213911102716518
Definiciones
• El modelo tobit fue propuesto por Tobin en 1958 (*) y es en su honor
por lo que se denomina de este modo.
• El modelo Tobit es como una mezcla del modelo de regresión y el
modelo Probit:
• Es parcialmente Probit porque la variable endógena es binaria
• Es parcialmente un modelo de regresión lineal por la inclusión de variables
continuas
(*) Tobin J. Estimation of relationships for limited dependent variables. Econometrica 1958;26:24-36.
Definiciones
• La censura no es una característica intrínseca de la
distribución de la variable objeto de estudio, sino un
defecto de los datos de la muestra, que si no estuvieran
censurados constituirían una muestra representativa de la
población de interés no censurada.
• Un ejemplo de una variable censurada sería el tiempo de
supervivencia desde el diagnóstico de una enfermedad hasta la • La línea discontinua representa la
función de densidad de una
fecha de muerte (evento). En la práctica el estudio tendrá
distribución N(0,1)
definida una fecha de finalización (punto de censura) en la que • La línea en negrita es la función de
ocurrirá que no todos los sujetos de la muestra escogida habrán densidad de una N(0,1) censurada
muerto (algunos seguirán vivos). inferiormente en a = –1,5, donde el
• El objetivo es estudiar el tiempo de supervivencia en la población área (probabilidad) de la cola inferior
de enfermos diagnosticados de dicha enfermedad. Como no es que queda a la izquierda del punto
posible disponer en la muestra de los tiempos de supervivencia de censura se acumula en dicho
de todos los enfermos. La variable tiempo de supervivencia se punto de censura a. Así, la altura de
dice entonces que está censurada superiormente. la línea vertical en el punto de
censura representa el valor de esta
área inferior.
Tomado de https://www.gacetasanitaria.org/es-pdf-S0213911102716518
Variables censuradas
Para algunas observaciones, sólo se sabe que la variable es mayor (o menor) que
un valor
• La censura puede producirse por diversos motivos: Como resultado del proceso
de recogida de datos o por soluciones económicas en esquina
Ejemplo: cobro de comisión por administrar
un fondo de pensiones (AFP)
• Dependiente sin censura: 1% de la • Dependiente censurada:
• Comisiones de gestión de fondos de pensión:
rentabilidad • Comisión mínima 0.5%
• Fondo: capital = 1,000,000.... Bolsa de valores • Comisión máxima 2%
• Fondo genera una rentabilidad (variable)….
+10%, +20%, +1%, 0%, -1%
• Como la AFP administran el fondo… Entonces • Administración de un fondo: capital = 1,000,000....
Bolsa de valores
cobran un comisión • Fondo genera una rentabilidad (variable)…. +10%,
• 10% = 100,000…. 1% = 1,000 +20%, +1%, 0%, -1%
• 20% = 200,000…. 1% = 2,000 • Como la AFP administran el fondo… Entonces
cobran un comisión
• 1% = 10,000……… 1% = 10 • 10% = 100,000…. 2% = 20,000
• 0% = 0……… 1% = 0 • 20% = 200,000…. 2% = 20,000
• -1% = -10,000 …..1% = -100 • 1% = 10,000……..
• 0% = 0……… 0.5% = 5,000
• -1% = -10,000 …..0.5% = 5,000
Definiciones
• El truncamiento de la variable objeto de estudio,
de la cual se extraen los datos de la muestra, se
produce cuando sólo la parte de la distribución de
la variable que se encuentra por encima (o por
debajo) del denominado punto de truncamiento
contiene la información relevante que se desea • La línea discontinua muestra la
función de densidad de una
estudiar. distribución N(0,1)
• La línea continua es la función de
• Un ejemplo de variable truncada sería el valor de densidad de una N(0,1) truncada
hemoglobina cuando el interés reside en estudiar a inferiormente en el punto a = –1,5,
donde el área (probabilidad) de la
aquellos pacientes con valores inferiores a 8 g/dl en la
cola de la N(0,1) que queda a la
población. El punto de truncamiento es 8 g/dl. izquierda del punto de truncamiento
se reparte entre el conjunto de
puntos no truncados, haciendo que
la función de densidad de la N(0,1)
truncada integre la unidad.
Tomado de https://www.gacetasanitaria.org/es-pdf-S0213911102716518
Variables truncadas
La muestra excluye determinadas observaciones.
𝑌 = 𝑌∗ , 𝑠𝑖 𝑌 ∗ < 𝑈
• Caso de truncamiento por la izquierda (o inferior)
𝑌 = 𝑌∗ , 𝑠𝑖 𝑌 ∗ > 𝐿
Formalización
• La censura/truncamiento puede considerarse como una situación en
que falta información (completa) sobre la variable dependiente
comparada con observar plenamente Y*
• Formalmente, la variable observada Y resulta de una mixtura de:
• Un proceso latente continuo Y*
• Un mecanismo de selección (censura o truncamiento), modelizado en forma
binaria
• O como:
𝑌𝑖∗ ; 𝑠𝑖 𝐷𝑖 = 1
𝑌𝑖 = ቊ
0 ; 𝑠𝑖 𝐷𝑖 = 0
• Donde 𝐷𝑖 toma valor 1 si 𝐷𝑖 > 0 y cero en caso contrario
b) La expectativa no condicional:
𝑋𝛽
𝐸 𝑌𝑋 = 𝑃 𝑌>0𝑋 𝐸 𝑌 𝑌 > 0, 𝑋 =Φ 𝐸 𝑌 𝑌 > 0, 𝑋
𝜎
𝑋𝛽 𝑋𝛽 𝑋𝛽 𝑋𝛽
Como 𝐸 𝑌 𝑌 > 0, 𝑋 = 𝑋𝛽 + 𝜎 , así como Φ 𝜎 = 𝜎∅
𝜎 𝜎 𝜎 𝜎
𝑋𝛽 𝑋𝛽 𝑋𝛽 𝑋𝛽
𝐸 𝑌𝑋 =Φ 𝑋𝛽 + 𝜎 =Φ 𝑋𝛽 + 𝜎∅
𝜎 𝜎 𝜎 𝜎
Esta ecuación muestra que cuando Y sigue un modelo Tobit, 𝐸 𝑌 𝑋 es una función no lineal
de X y también de 𝛽
𝜕𝐸 𝑌 𝑌 > 0, 𝑋 𝑑 𝑋𝛽
= 𝛽𝑗 + 𝛽𝑗
𝜕𝑋𝑗 𝑑𝑐 𝜎
Con base en esta último ecuación existen dos métodos para calcular un factor de ajuste
para obtener efectos parciales (para variables explicativas continuas).
𝑋𝛽
𝑋ത 𝛽
Primero: El efecto parcial al promedio, EPA, que se obtiene al evaluar Φ ෝ
que se denota Φ ෝ
.
𝜎 𝜎
𝑋𝑖 𝛽
−1 σ𝑛
Segundo: El efecto parcial promedio, EPP cuya fórmula es 𝑛 𝑖=1 Φ 𝜎ෝ
• Los factores escalares EPA y EPP siempre están entre cero y uno.
• Ambos factores (EPA y EPP) tienden a uno cuando hay pocas observaciones 𝑌𝑖 = 0.
• Si 𝑌𝑖 > 0 para toda i, los parámetros de Tobit y MCO son idénticos (entonces no tiene sentido aplicar TOBIT).
- Por ejemplo:
- Si los datos están censurados tanto a la izquierda como a la
derecha, se utiliza indicadores binarios separados para cada
forma de censura:
- Left: lcens
- Right: rcens
Donde LCENS es también un indicador binario.
asintóticos, los estadísticos z y los niveles de Variable Coefficient Std. Error z-Statistic Prob.
significación. C
GENERO
7.608487
0.945787
3.905987
1.062866
1.947904
0.889847
0.0514
0.3735
McDonald y Moffitt, 1980). Left censored obs 451 Right censored obs 0
Uncensored obs 150 Total obs 601
Fuente: Guía de uso Eviews
Estimando un Tobit censurado Dependent Variable: INFIEL
Method: ML - Censored Normal (TOBIT) (Newton-Raphson / Marquardt
Interpretación de los resultados steps)
Date: 11/17/21 Time: 12:11
Sample: 1 601
Included observations: 601
• También hay coeficiente adicional denominado Left censoring (value) at zero
Convergence achieved after 8 iterations
SCALE, que es el factor de escala estimado "σ". Coefficient covariance computed using observed Hessian
• Este factor de escala puede utilizarse para Variable Coefficient Std. Error z-Statistic Prob.
• Si no hay truncamiento inferior, entonces 𝑐𝑖 = −∞; Si no hay truncamiento superior entonces 𝑐ഥ𝑖 = ∞
Estimando un Tobit truncado
• Considerando el modelo: 𝑌𝑖 = 𝛽1 + 𝛽𝑖 𝑋𝑖 + 𝑢𝑖
utilizando las técnicas iterativas adecuadas. Variable Coefficient Std. Error z-Statistic Prob.
Error Distribution
• 'inlf=1 si está en la población activa, 1975 • 'huseduc: años de escolaridad del marido
• 'horas: horas trabajadas, 1975 • 'huswage: salario por hora del marido, 1975
• 'kidslt6: # niños < 6 años (Año 1: Madre-hija(o)(s), • 'faminc: ingresos familiares, 1975
primeros 3, 4, 5) • 'mtr: tipo impositivo marginal federal de la
mujer
• 'kidsge6: # niños 6-18 años • 'motheduc: años de escolaridad de la madre
• 'age: edad de la mujer en años • 'fatheduc: años de escolaridad del padre
• 'educ: años de escolaridad • 'unem: tasa de desempleo en el país de
• 'salario: salario estimado a partir de los ingresos, residencia
• 'Ciudad: =1 si vive en el SMSA
horas • 'Exper: experiencia real en el mercado laboral
• 'repwage: salario declarado en la entrevista en 1976 • 'Nwifeinc: (faminc - salario*horas)/1000
• 'hushrs: horas trabajadas por el marido, 1975
• 'husage: edad del marido
Circulo de la pobreza: Transmisión
intergeneracional de la pobreza
• Situación de embarazo
• Embarazo no planificado • Madre soltera
• Embarazo planificado
• Trabaja labores manuales
• Edad
• Madre menor de edad • Sector informal
• Madre es mayor de edad
• Salario: bajo
• Nivel educativo
• Madres tiene pocos años (primaria..) • Situación de pobreza
• Madre tiene estudios avanzados
• Situación económica
• Condición de pobreza
• Hogares no pobres
• Hija(o)s
• Pareja • Situación de pobreza
• Acompaña el embarazo
• No acompaña
• Mundo de pobreza, informalidad,
• Padres delincuencia
• Apoyan (ayudan) a la embarazada
• No apoyan (expulsan del hogar)
• Cuando crezcan y tengan hijos
Tobit con datos de MROZ: Trabajo mujeres
Estimamos un MCO
LS hours nwifeinc educ exper expersq age kidslt6 kidsge6 c
Estimamos un TOBIT
• Opción 1: En el menú de opciones: Quick/Estimate Equation o en la barra de comandos:
Censored. En el cuadro de diálogo que se abre en la ventana de especificación,
escribimos la regresión 𝑌𝑖 𝑋1 𝑋2 … 𝑋𝑘 𝛽1 . Con los datos de M. Roz sería:
hours nwifeinc educ exper expersq age kidslt6 kidsge6 c
• Opción 2: Estima un tobit censurado a la izquierda en 0. Guardar resultado como "eq1“:
tobit hours nwifeinc educ exper expersq age kidslt6 kidsge6 c
• Opción 3: Estima un tobit censurado a la izquierda en 0 y guarda directamente el
resultado con el nombre “eq1”
equation eq1.tobit hours nwifeinc educ exper expersq age kidslt6 kidsge6 c
Tobit con datos de MROZ: Trabajo mujeres
Dependent Variable: HOURS
Adjusted R-squared 0.258724 S.D. dependent var 871.3142 Mean dependent var 740.5764 S.D. dependent var 871.3142
S.E. of regression 750.1786 Akaike info criterion 16.08907 S.E. of regression 746.7157 Akaike info criterion 10.16758
Sum squared resid 4.19E+08 Schwarz criterion 16.13819 Sum squared resid 4.15E+08 Schwarz criterion 10.22285
Log likelihood -6049.534 Hannan-Quinn criter. 16.10799 Log likelihood -3819.095 Hannan-Quinn criter. 10.18887
F-statistic 38.49534 Durbin-Watson stat 1.371237 Avg. log likelihood -5.071839
Prob(F-statistic) 0.000000
Left censored obs 325 Right censored obs 0
Uncensored obs 428 Total obs 753
Tobit con datos de MROZ: Trabajo mujeres
• El signo de los coeficientes estimados de la regresión Tobit, así como la significancia
estadística de los mismos es similar.
• Pero, las magnitudes de las estimaciones de MCO y de Tobit no son comparables. El
hecho que algunos coeficientes Tobit, como la variable “kidslt6” sean
aproximadamente el doble que el respectivo coeficiente MCO, ello no implica una
respuesta mayor de horas trabajadas.
EFECTOS MARGINALES
1) El EPA (Efecto parcial al promedio)
• Si se desea el efecto estimado, por ejemplo, de otro año de educación a partir
de los valores promedio de todas las variables explicativas, entonces se calcula
el factor escalar EPA (Efecto parcial al promedio)
𝑋ത 𝛽መ
𝐸𝑃𝐴 = ( )
𝜎ො
Tobit con datos de MROZ: Trabajo mujeres
El efecto marginal (continua….)….Procedimiento en Eviews
𝑋𝑖 𝛽
−1 σ𝑛
promedio): 𝑛
2) El EPP (Efecto parcial 𝑖=1 Φ 𝜎ෝ
• 'Con base en los cálculos EPA, procedemos a calcular la inversa de Mills
(Mills ratio)
scalar mills = @dnorm(meanxb / sigma) / ufactor
• 'Con ello calculamos el factor de ajuste condicional y el vector de efectos
condicionales
scalar cfactor = (1 - mills*(meanxb / sigma + mills))
vector ceffects = beta * cfactor