7 Variables Ficticias Clase2022
7 Variables Ficticias Clase2022
7 Variables Ficticias Clase2022
TEMA 7
VARIABLES BINARIAS O FICTICIAS
I.- Modelos de regresión con regresores
binarios.
II.- Modelos de regresión con variables
dependientes binarias.
0 si ….
Yi = β1 + β2 X2i + β3Wi + εi Wi =
1 si ….
VARIABLES BINARIAS O FICTICIAS
- Variables de naturaleza esencialmente cualitativa
- Valores: 0 ausencia del atributo o característica
1 presencia del atributo o característica
- Denominaciones: variables dicotómicas, variables dummy, variables
binarias, variables ficticias o variables cualitativas.
- Este tipo de variable puede aparecer:
• como variable endógena (modelos probit, logit,…) o
• como variable explicativa.
Un modelo puede construirse exclusivamente con variables ficticias
como variables explicativas (Modelos de análisis de variancia).
¿Qué hacer cuando la característica presente más de dos modalidades?
Definir una variable ficticia para cada una de k-1 de las modalidades de la
característica cualitativa en estudio, para evitar la “trampa de la variable
ficticia”.
2
Por ejemplo, si el factor es nivel de estudios del trabajador y
asignamos:
- 0 para representar a los trabajadores que no tienen estudios,
- 1 para los que tienen estudios primarios,
¿qué valor asignamos a los que poseen estudios secundarios?
¿y a los que tienen estudios universitarios?
La solución es definir una variable ficticia (tipo 0 - 1) diferente
para cada una de las k modalidades del atributo:
W1, con valor 1 si no tiene estudios, 0 en caso contrario;
W2, si tiene estudios primarios, 0 en caso contrario;
W3, si tiene estudios secundarios, 0 en caso contrario;
y así sucesivamente.
3
En realidad se define una variable ficticia para cada una de
k-1 de las modalidades de la característica cualitativa en
estudio, para evitar la “trampa de la variable ficticia”.
4
I.- VARIABLES BINARIAS O FICTICIAS: OBSERVACIONES
- La asignación de los valores 0 y 1 a las categorías o
modalidades de un atributo es arbitraria. Por ello, es
fundamental conocer cómo se asignaron dichos valores para
interpretar los modelos.
Xi = 0 si el trabajador es mujer
Xi: Variable binaria
Xi = 1 si el trabajador es hombre
9
I.- MODELO DE ANÁLISIS DE VARIANCIA
Salario
β1+β2
β2
β1
EMPLEADAS EMPLEADOS
10
I.- MODELOS DE ANÁLISIS DE COVARIANCIA (ANCOVA)
Problema 5: El modelo a plantear es:
Yi = β1 +β2 Xi + β3Wi + εi
Siendo:
Yi: Consumo de gasolina Xi: Potencia del motor
Wi: Variable ficticia: Wi = 1 si el coche i es marca A
Wi = 0 si el coche i es marca B
- En este caso, la variable ficticia Wi ha sido introducida en el
modelo de forma aditiva, su efecto sobre Y se recoge en el
término independiente o constante de regresión del modelo.
Consumo promedio marca B: E[Yi / Xi, Wi= 0]=β1+β2Xi (1)
11
I.- MODELOS DE ANÁLISIS DE COVARIANCIA (ANCOVA)
Yi = β1 +β2 Xi + β3Wi + εi
Consumo
ar ca A
M
^
𝛽 1+ ^
𝛽3
arca B
^
𝛽3 M
^
𝛽1
Mantienen la misma pendiente
^
𝛽1
14
ESTIMACIÓN DEL MODELO
Marca Yi Xi Wi
A 6’2 7’0 1
A 7’5 9’7 1
A 9’6 12’0 1
B 6’5 7’5 0
B 8’0 10’0 0
B 10’0 11’5 0
15
ESTIMACIÓN DEL MODELO
- Coeficiente de determinación:
16
CONTRASTE DE SIGNIFICATIVIDAD DEL MODELO ESTIMADO
(las pequeñas diferencias en los decimales se deben al uso de menos decimales en los cálculos
anteriores que en el ordenador que los toma todos)
18
CONTRASTE DE LA SIGNIFICATIVIDAD DEL β3 ESTIMADO
Supuesta la igualdad de las pendientes de las ecuaciones de
regresión (1) y (2), la influencia de la marca en el consumo de
gasolina puede determinarse contrastando la significatividad
del β3 estimado mediante la “prueba t”.
H0: β3 = 0 vs. H1: β3 ≠ 0 ; α=0´05 g.de l.= 3
Consumo
B
rca
a
M
arca A
M
^
𝛽1 Mantienen el término constante, pero
varía la pendiente
Por tanto concluimos que la variación en el consumo promedio por potencia del motor
de la función de consumo de gasolina de la marca A no es diferente que el de la
marca B
22
I.- MODELOS DE ANALISIS DE COVARIANZA (ANCOVA)
Por último, si suponemos que la marca influye sobre el consumo de
gasolina de forma absoluta y también de forma relativa (en la tasa de
cambio de dicho consumo en función de la potencia del motor) , el modelo a
plantear es:
Consumo
B
rca
a
M
arca A
M
25
ESTIMACIÓN DEL MODELO: Siendo la variable Zi = Xi Wi
Micronumerosidad
26
Si el modelo estimado fuese “aceptable”:
27
I.- MODELOS DE ANÁLISIS DE COVARIANCIA (ANCOVA)
En términos geométricos: Si β3 y β4 son iguales a cero, las rectas
son coincidentes.
Consumo
ar ca A
M
a rc aB
M
28
Potencia del Motor
TÉRMINOS DE INTERACCIÓN
Puede ser con variables continuas y/o ficticias o binarias y representa
el efecto parcial conjunto de ambas variables.
Para el caso de dos variables explicativas con término de interacción,
el modelo queda:
a) Ser mujer o/y directora sólo afecta al gasto en términos absolutos, sobre
la constante de regresión del modelo. Las variables ficticias se
introducen en el modelo de forma aditiva.
Sin efecto interacción
Yi = β0 + β1Xi + β2W2i + β3W3i + εi
33
I.- VARIABLES BINARIAS O FICTICIAS: APLICACIONES DE INTERÉS
35
1.- MODELO LINEAL DE PROBABILIDAD (MLP)
Sea el modelo:
Yi = β1 + β2Xi + εi (1)
donde Xi representa el ingreso familiar y la variable endógena:
Y = 0 si la familia no posee casa en propiedad
Y = 1 si la familia posee casa en propiedad
Se denomina modelo lineal de probabilidad (MLP), porque
modeliza la probabilidad de que la variable dependiente sea
igual a 1.
E[Yi/Xi], la esperanza condicional de Yi dado Xi, puede ser
interpretada como la probabilidad condicional de que el evento
suceda (Y=1) dado Xi; es decir,
E[Yi/Xi] ≡ Pr (Yi = 1 / Xi)
Así, en nuestro ejemplo E[Yi/Xi] da la probabilidad que una
familia posea casa en propiedad dado un determinado nivel
36
ingreso familiar, Xi.
MODELO LINEAL DE PROBABILIDAD (MLP)
Suponiendo E[εi] = 0:
E[Yi / Xi] = β1 + β2Xi (2)
Si, para un valor dado de Xi:
pi =probabilidad que Y=1 (es decir, que el evento ocurra) y
1-pi =probabilidad que Y=0 (es decir, que el evento no ocurra)
42
3.- MODELO LOGIT
La probabilidad pi que [Y=1/Xi] expresado mediante la función de
distribución logística (acumulativa) queda
de donde,
44
MODELO LOGIT y PROBIT
45