7 Variables Ficticias Clase2022

GRADO EN ADMINISTRACIÓN Y DIRECCIÓN DE EMPRESAS
ECONOMETRÍA PARA LA EMPRESA
TEMA 7
VARIABLES BINARIAS O FICTICIAS
I.- Modelos de regresión con regresores
binarios.
II.- Modelos de regresión con variables
dependientes binarias.
0 si ….
Yi = β1 + β2 X2i + β3Wi + εi Wi =
1 si ….
VARIABLES BINARIAS O FICTICIAS
- Variables de naturaleza esencialmente cualitativa
- Valores: 0 ausencia del atributo o característica
1 presencia del atributo o característica
- Denominaciones: variables dicotómicas, variables dummy, variables
binarias, variables ficticias o variables cualitativas.
- Este tipo de variable puede aparecer:
• como variable endógena (modelos probit, logit,…) o
• como variable explicativa.
Un modelo puede construirse exclusivamente con variables ficticias
como variables explicativas (Modelos de análisis de variancia).
¿Qué hacer cuando la característica presente más de dos modalidades?
Definir una variable ficticia para cada una de k-1 de las modalidades de la
característica cualitativa en estudio, para evitar la “trampa de la variable
ficticia”.
2
Por ejemplo, si el factor es nivel de estudios del trabajador y
asignamos:
- 0 para representar a los trabajadores que no tienen estudios,
- 1 para los que tienen estudios primarios,
¿qué valor asignamos a los que poseen estudios secundarios?
¿y a los que tienen estudios universitarios?
La solución es definir una variable ficticia (tipo 0 - 1) diferente
para cada una de las k modalidades del atributo:
W1, con valor 1 si no tiene estudios, 0 en caso contrario;
W2, si tiene estudios primarios, 0 en caso contrario;
W3, si tiene estudios secundarios, 0 en caso contrario;
y así sucesivamente.
3
En realidad se define una variable ficticia para cada una de
k-1 de las modalidades de la característica cualitativa en
estudio, para evitar la “trampa de la variable ficticia”.
4
I.- VARIABLES BINARIAS O FICTICIAS: OBSERVACIONES
- La asignación de los valores 0 y 1 a las categorías o
modalidades de un atributo es arbitraria. Por ello, es
fundamental conocer cómo se asignaron dichos valores para
interpretar los modelos.
- La modalidad o categoría a la que se asigna el valor 0 se

suele denominar categoría base, fija, de control, de
comparación o categoría omitida. Dicha categoría, como
hemos indicado anteriormente, se elige.
- La técnica de la variable ficticia puede emplearse para

manejar más de una variable cuantitativa y más de una
variable cualitativa, así como, cuando la característica
explicativa presenta una clasificación múltiple. La única
precaución es no caer en la denominada trampa de la
variable ficticia.
5
I.- Modelos de regresión con regresores binarios (VARIABLES
EXPLICATIVAS BINARIAS O FICTICIAS)
I.1. MODELO DE ANÁLISIS DE VARIANCIA (ANOVA)
Yi: Salario anual del trabajador

Yi ~ N (μ1, σ2) para los hombres y ~ N (μ0, σ2) para las mujeres
Yi= β1+ β2Xi + εi
Xi = 0 si el trabajador es mujer
Xi: Variable binaria
Xi = 1 si el trabajador es hombre
εi cumple los supuestos del modelo clásico de regresión lineal.
Salario promedio - empleada → E [ Yi / Xi = 0 ] = β1
Salario promedio - empleado → E [ Yi / Xi = 1 ] = β1 + β2

6
Por lo tanto:
β1 = μ0 ; β1 + β2 =μ1 ; β2 = μ1 - μ0
- Es decir, la ordenada en el origen, término de intersección o
constante de regresión, β1, proporciona el salario promedio
de las trabajadoras.
- La pendiente o coeficiente de regresión, β2, señala la
diferencia entre el salario promedio de un trabajador (β1+β2)
y el salario promedio de una trabajadora (β1).
- Así, contrastar la hipótesis nula: H0: β2 = 0 equivale a
contrastar que no existe diferencia entre los salarios
promedios de empleados y empleadas de la empresa.
- Dicha contrastación se realiza estimando el modelo por
MCO y averiguando mediante la “prueba t” si el β2 estimado
es estadísticamente significativo. 7
Así definida la variable ficticia, los coeficientes β1 y β2 tienen una
interpretación inmediata: β1 es el valor esperado de Y cuando no se
presenta el atributo o característica y β2 es la diferencia que dicho valor
esperado experimenta cuando se presenta dicho atributo o característica. Si
hubiésemos definido la variable ficticia de forma diferente la interpretación
no es tan inmediata.
1 si es hombre E [Yi / Xi = 1] = β1 + β2
Xi
2 si es mujer E[Yi /Xi = 2] = β1 + 2β2
15 si es hombre E[Yi /Xi=15] = β1 + 15β2

Xi
20 si es mujer E[Yi/Xi =20] = β1 + 20β2
8
ESTIMACIÓN MCO DEL MODELO
: salario medio muestral de las empleadas

: es la diferencia entre los salarios medios muestrales de
trabajadores y trabajadoras.
H0: β2=0 H0: μ0 = μ1

(contrastar la no discriminación salarial por razón del sexo)
Sustituyendo las varianzas poblacionales por sus estimadores las
varianzas muestrales (sustituir σ12 y σ22 por s2).
9
I.- MODELO DE ANÁLISIS DE VARIANCIA
Salario
β1+β2
β2
β1
EMPLEADAS EMPLEADOS
10
I.- MODELOS DE ANÁLISIS DE COVARIANCIA (ANCOVA)
Problema 5: El modelo a plantear es:
Yi = β1 +β2 Xi + β3Wi + εi
Siendo:
Yi: Consumo de gasolina Xi: Potencia del motor
Wi: Variable ficticia: Wi = 1 si el coche i es marca A
Wi = 0 si el coche i es marca B
- En este caso, la variable ficticia Wi ha sido introducida en el
modelo de forma aditiva, su efecto sobre Y se recoge en el
término independiente o constante de regresión del modelo.
Consumo promedio marca B: E[Yi / Xi, Wi= 0]=β1+β2Xi (1)
Consumo promedio marca A: E[Yi / Xi, Wi= 1]= (β1+β3)+β2Xi (2)
11
Yi = β1 +β2 Xi + β3Wi + εi
El consumo promedio de gasolina de los coches de la marca A es diferente

del consumo promedio de los coches de la marca B, pero la tasa de cambio
en el consumo promedio por variaciones en la potencia del motor es la
misma en ambas marcas.
• β1: Constante de regresión. Se incluye para no restringir al modelo a

pasar por el origen, con lo que se facilita la aplicación del método de
MCO
• β2: Variación promedio en el consumo esperado de gasolina originado
por variaciones unitarias de la potencia del motor.
• β3: Variación que se produce en el consumo esperado según la marca
del coche. Es una variación constante para cada valor de la potencia del
motor. Representa, por tanto, un cambio de la ordenada en el origen
o constante de la regresión. Suele denominarse coeficiente de
intersección diferencial. 12
En términos geométricos:
Consumo
ar ca A
M
^
𝛽 1+ ^
𝛽3
arca B
^
𝛽3 M
^
𝛽1
Mantienen la misma pendiente
^
𝛽1
Potencia del Motor 13

LA TRAMPA DE LA VARIABLE FICTICIA
Como puede apreciarse, una sola variable ficticia es suficiente para distinguir dos
categorías del atributo marca del coche. Si lo expresáramos como:
Yi = β1 + β2W2i + β3W3i + β4 X4i + εi

Siendo:
W2i =1 si el coche i es de la marca A ; W2i =0 si el coche i NO es de la marca A
W3i =1 si el coche i es de la marca B ; W3i =0 si el coche i NO es de la marca B
Este modelo no se puede estimar

debido a la colinealidad perfecta
entre W2 y W3, lo que origina una
matriz de datos singular como la
adjunta.
Regla general recomendable: Utilizar siempre
modelos con término constante y, si una
variable cualitativa tiene m categorías,
introdúzcanse únicamente (m-1) variables
ficticias
14
ESTIMACIÓN DEL MODELO
Marca Yi Xi Wi
A 6’2 7’0 1
A 7’5 9’7 1
A 9’6 12’0 1
B 6’5 7’5 0
B 8’0 10’0 0
B 10’0 11’5 0
15
ESTIMACIÓN DEL MODELO
- Coeficiente de determinación:
- Variancia estimada de la distribución de las perturbaciones aleatorias:
16
CONTRASTE DE SIGNIFICATIVIDAD DEL MODELO ESTIMADO
La potencia del motor y/o la marca del vehículo “explican”

o “influyen” en el consumo de gasolina.
17
Los resultados en Gretl son los siguientes:
(las pequeñas diferencias en los decimales se deben al uso de menos decimales en los cálculos
anteriores que en el ordenador que los toma todos)
18
CONTRASTE DE LA SIGNIFICATIVIDAD DEL β3 ESTIMADO
Supuesta la igualdad de las pendientes de las ecuaciones de
regresión (1) y (2), la influencia de la marca en el consumo de
gasolina puede determinarse contrastando la significatividad
del β3 estimado mediante la “prueba t”.
H0: β3 = 0 vs. H1: β3 ≠ 0 ; α=0´05 g.de l.= 3
La marca del automóvil no influye en el consumo de

gasolina 19
I.- MODELOS DE ANALISIS DE COVARIANZA (ANCOVA)
Si hubiésemos supuesto que la marca sólo influye sobre la tasa de cambio
del consumo por potencia del motor (pendiente), el modelo se plantearía
como:
Yi = β1 +β2Xi + β4(Xi Wi) + εi
Marca B: E [Yi / Wi = 0, Xi ] = β1 + β2Xi (3)
Marca A: E [Yi / Wi = 1, Xi ] = β1 + (β2 + β4) Xi (4)
Introduciéndose la variable ficticia de forma multiplicativa “β4(XiWi)” para

recoger su efecto relativo sobre Y (en la tasa de cambio o pendiente).
β4: Coeficiente diferencial de la pendiente: Indica en qué cantidad el
coeficiente de la pendiente de la función de consumo de gasolina de la
marca A difiere del coeficiente de la pendiente de la función de consumo de
gasolina de la marca B (la tasa de cambio en el consumo promedio por
potencia del motor).
20
Consumo
B
rca
a
M
arca A
M
^
𝛽1 Mantienen el término constante, pero
varía la pendiente

Los resultados de la estimación de este modelo en Gretl son los siguientes (siendo Z = X*W):
Por lo que el modelo estimado será:

Yi = 0’7901 + 0’7655 Xi – 0’0386 (Xi Wi) + εi
Zi
no rechazamos la H0
Por tanto concluimos que la variación en el consumo promedio por potencia del motor
de la función de consumo de gasolina de la marca A no es diferente que el de la
marca B
22
I.- MODELOS DE ANALISIS DE COVARIANZA (ANCOVA)
Por último, si suponemos que la marca influye sobre el consumo de
gasolina de forma absoluta y también de forma relativa (en la tasa de
cambio de dicho consumo en función de la potencia del motor) , el modelo a
plantear es:
Yi = β1 +β2Xi + β3Wi + β4(Xi Wi) + εi
E [Yi / Wi = 0, Xi ] = β1 + β2Xi (5)
E [Yi / Wi = 1, Xi ] = (β1 + β3) + (β2 + β4) Xi (6)
Introduciéndose la variable ficticia de forma aditiva - β3Wi - para

recoger la influencia sobre Y en términos absolutos (en la constante
de regresión), y de forma multiplicativa – β4(XiWi) – para recoger su
efecto relativo sobre Y (en la tasa de cambio o pendiente).
Y tendremos que β3 es el coeficiente de intersección diferencial y β4 el

Coeficiente diferencial de la pendiente.
23
Consumo
B
rca
a
M
arca A
M

ESTIMACIÓN DEL MODELO: Siendo la variable Zi = Xi Wi
El único valor significativo es el coeficiente de la variable potencia del

motor, por el contrario la significatividad conjunta del modelo es negativa
(“micronumerosidad”).
25
ESTIMACIÓN DEL MODELO: Siendo la variable Zi = Xi Wi
Micronumerosidad
Una de las suposiciones realizadas en la regresión lineal múltiple es que el

número de observaciones ha de ser mayor que el número de regresores
considerados. Cuando el número de observaciones apenas supera el número
de parámetros a estimar pueden surgir problemas de multicolinealidad como la
estimación de signos inesperados o sensibilidad a cambios en la muestra.
Para resaltar el problema del tamaño de la muestra, Goldberger deﬁnió el
término de micronumerosidad aproximada de manera homóloga a la
multicolinealidad aproximada. En este ambiente, en el que la relación lineal de
las variables no se debe tanto a su naturaleza si no al bajo tamaño de la
muestra, proponemos identiﬁcar aquellas observaciones que puedan estar
provocando el problema de multicolinealidad y valorar su eliminación del
análisis.
26
Si el modelo estimado fuese “aceptable”:
Aunque el valor de algunas estimaciones son inconsistentes,

podríamos señalar que la marca A es más eficiente (menor
consumo) que la B porque el incremento de consumo de
gasolina ante incrementos unitarios de potencia son menores
que en la marca B, pues la pendiente de la regresión de A (0
´6749) es menor que la pendiente de la regresión de B (0
´8469) al ser la estimación del coeficiente β4 = -0´172.
27
En términos geométricos: Si β3 y β4 son iguales a cero, las rectas
son coincidentes.
Consumo
ar ca A
M
a rc aB
M
28
Potencia del Motor
TÉRMINOS DE INTERACCIÓN
Puede ser con variables continuas y/o ficticias o binarias y representa
el efecto parcial conjunto de ambas variables.
Para el caso de dos variables explicativas con término de interacción,
el modelo queda:
Su inclusión permite que el efecto sobre Y de un cambio en X1 dependa del valor

de X2 y, de forma inversa, permite que el efecto de un cambio en X2 pueda
depender del valor de X1.
Así, el efecto parcial de una de las variables, por ejemplo, X1 es ahora:
El caso de una variable ficticia y una continua, es equivalente a introducir la

variable ficticia de forma multiplicativa.
Para dos variables ficticias, la v. ficticia de interacción modifica los efectos de
los dos atributos considerados en forma individual introduciendo una
variación añadida por la acción conjunta de los mismos 29
EFECTOS DE INTERACCIÓN
Sea,
Yi : Gasto en vestuario Xi : Salario
W2i = 1 si el empleado es mujer ; W2i = 0 si el empleado es hombre

W3i =1 si el empleado es director/a ; W3i = 0 si el empleado no es director/a
a) Ser mujer o/y directora sólo afecta al gasto en términos absolutos, sobre
la constante de regresión del modelo. Las variables ficticias se
introducen en el modelo de forma aditiva.
Sin efecto interacción
Yi = β0 + β1Xi + β2W2i + β3W3i + εi
E [Yi / W2 = 1, W3 = 1, Xi] = (β0+ β2 + β3) + β1Xi
Con efecto interacción
Yi = β0 +β1Xi + β2W2i + β3W3i + β4(W2i .W3i) + εi
E [Yi / W2 = 1, W3 = 1, Xi]= (β0+ β2 + β3 + β4) + β1Xi 30

b) Ser mujer o/y directora sólo afecta a la pendiente o tasa de
cambio. Las variables ficticias aparecen en el modelo de
forma multiplicativa.

Yi = β0 +β1Xi + β2(W2i Xi) + β3(W3i Xi) + εi
E [Yi / W2 = 1, W3 = 1, Xi] = β0+ (β1+ β2 + β3)Xi

Con efecto interacción
Yi = β0 +β1Xi + β2(W2iXi) + β3(W3iXi) + β4(W2iW3iXi) + εi
E [Yi / W2 = 1, W3 = 1, Xi] = β0+ (β1+ β2 + β3 + β4) X31i

c) Ser mujer o/y directora afecta a la pendiente y la constante de
regresión. Las variables ficticias aparecen en el modelo de
forma aditiva y multiplicativa.
Yi = β0 +β1Xi + β2W2i + β3W3i + β4(W2iXi) + β5(W3i Xi) + εi
E [Yi / W2 = 1, W3 = 1, Xi] = (β0+ β2 + β3) + (β1+ β4 + β5) Xi
Con efecto interacción sólo en la constante de regresión

Yi = β0 +β1Xi + β2W2i + β3W3i + β4(W2iW3i) + β5(W2iXi) + β6(W3i Xi) + εi
E [Yi / W2 = 1, W3 = 1, Xi] = (β0+ β2 + β3 +β4) + (β1+ β5 + β6) X32i

Con efecto interacción sólo en la pendiente
Yi = β0 + β1 Xi + β2 W2i + β3 W3i + β4 (W2i Xi) + β5 (W3i Xi) + β6 (W2i W3i Xi) + εi
E[Yi / W2 = 1, W3 = 1, Xi] = (β0 + β2 + β3) + (β1 + β4 + β5 + β6) Xi
Con efecto interacción en la pendiente y en la constante de regresión:

Yi = β0 + β1 Xi + β2 W2i + β3 W3i + β4 (W2i W3i) + β5 (W2i Xi) + β6 (W3i Xi) + β7 (W2i W3i Xi) + εi
E[Yi/W2 = 1,W3 = 1, Xi]= (β0 + β2 + β3 + β4) + (β1 + β5 + β6 + β7) Xi
La significación estadística de las variables ficticias representativas

del efecto interacción se puede evaluar por medio de la prueba t. Si
ésta resulta significativa, la presencia simultánea de los dos atributos
atenuará o reforzará los efectos individuales de éstos.
33
I.- VARIABLES BINARIAS O FICTICIAS: APLICACIONES DE INTERÉS
- Análisis de observaciones anómalas (outliers): Se

considera anómala la observación cuya inclusión o exclusión
en la regresión produce cambios importantes en las
estimaciones MCO.
- Variables ficticias estacionales: Permiten recoger y
analizar patrones sistemáticos de estacionalidad para
diferentes períodos (trimestres, meses, semanas, días,…).
- Análisis del cambio estructural: Permite contrastar el
cumplimiento del supuesto de estabilidad estructural (no
existencia de cambio estructural) de los parámetros del
modelo mediante la comparación del modelo con o sin
determinadas restricciones sobre los parámetros que
acompañan a las variables ficticias que representan el
cambio estructural. 34
II.- MODELOS DE REGRESIÓN CON RESPUESTA CUALITATIVA
La variable dependiente o regresada de un modelo puede

ser de carácter cualitativo.
Solo ofreceremos una visión general de los modelos de
regresión con respuesta binaria o variable dependiente
binaria, para cuyo desarrollo se emplean los tres métodos
siguientes:
1.- El modelo lineal de probabilidad (MLP)
2.- El modelo Probit (o Normit)
3.- El modelo Logit
Por su simplicidad y dado que puede ser estimado por
MCO, analizaremos en primer lugar el MLP.
35
1.- MODELO LINEAL DE PROBABILIDAD (MLP)
Sea el modelo:
Yi = β1 + β2Xi + εi (1)
donde Xi representa el ingreso familiar y la variable endógena:
Y = 0 si la familia no posee casa en propiedad
Y = 1 si la familia posee casa en propiedad
Se denomina modelo lineal de probabilidad (MLP), porque
modeliza la probabilidad de que la variable dependiente sea
igual a 1.
E[Yi/Xi], la esperanza condicional de Yi dado Xi, puede ser
interpretada como la probabilidad condicional de que el evento
suceda (Y=1) dado Xi; es decir,
E[Yi/Xi] ≡ Pr (Yi = 1 / Xi)
Así, en nuestro ejemplo E[Yi/Xi] da la probabilidad que una
familia posea casa en propiedad dado un determinado nivel
36
ingreso familiar, Xi.
MODELO LINEAL DE PROBABILIDAD (MLP)
Suponiendo E[εi] = 0:
E[Yi / Xi] = β1 + β2Xi (2)
Si, para un valor dado de Xi:
pi =probabilidad que Y=1 (es decir, que el evento ocurra) y
1-pi =probabilidad que Y=0 (es decir, que el evento no ocurra)
Y ~ Bernoulli E[Yi] = 0 × (1-pi) + 1 × pi = pi (3)
Comparando (2) con (3), podemos igualar:

E[Yi / Xi] = β1 + β2Xi = pi = Pr (Yi = 1 / Xi)
Es decir, la esperanza condicional del modelo (1) puede ser
interpretada como la probabilidad condicional de Yi, que dada su
condición de probabilidad impone a la esperanza condicional la
restricción:
0 ≤ E[Yi / Xi] ≤ 1 37
En el caso del modelo lineal de regresión múltiple
Yi = β0 + β1 X1i + β2 X2i + … + βk Xki + εi
y, dado el carácter binario de Yi.
E [Y / X1, X2, …, Xk] = Pr [Y = 1 / X1, X2, …, Xk]
y el modelo lineal de probabilidad queda:
E [Y / X1, X2, …, Xk] = β0 + β1 X1 + β2 X2 + … + βk Xk
Donde el coeficiente de regresión parcial βi es la variación de la
probabilidad que Y = 1 asociada con una variación unitaria de Xi,
manteniéndose constante el resto de variables explicativas.
Los coeficientes de regresión se pueden estimar por MCO y se
pueden utilizar los errores estándar MCO heterocedásticos-
robustos para los intervalos de confianza y los contrastes de
hipótesis.
38
Pero el MLP presenta diversos problemas:
- No Normalidad de las perturbaciones aleatorias.
- Variancias heterocedásticas de las perturbaciones aleatorias.
- Valor cuestionable del R2 como medida de bondad del ajuste.
y, especialmente,
No cumplimiento de la restricción: 0 ≤ E[Yi / Xi] ≤ 1
Para su cumplimiento, el efecto sobre la Pr [Y = 1] de una variación
determinada en X debe ser no lineal (no constante), por lo que para
garantizar la restricción, podemos actuar:
1.- Estimamos el MLP por MCO y determinamos si el Y estimado se
encuentra entre 0 y 1. Si algunos valores son negativos, suponemos
que esos casos el Y estimado es cero; si son mayores de 1,
suponemos que son iguales a 1.
2.- Emplear modelos no lineales diseñados específicamente para
variables dependientes binarias que garantizan que las probabilidades
estimadas estarán con seguridad entre 0 y 1. 39
ALTERNATIVAS AL MLP
Características:
1. Que pi = E [ Yi / Xi] aumente a medida que lo haga Xi, pero nunca
se salga del intervalo (0, 1).
2. La relación entre pi y Xi sea no lineal, es decir, “pi se acerca a cero
a tasas cada vez más lentas a medida que Xi se hace más
pequeño; y se acerca a uno a tasas cada vez más lentas a medida
que Xi se hace muy grande”.
Gráficamente, el modelo tendría la forma muy parecida a la de la
función de distribución acumulativa (FDA) de una variable
aleatoria.
Por razones históricas y prácticas, las FDA empleadas para
representar los modelos de respuesta binaria son:
a) La Normal (modelo probit o normit)
b) La Logística (Modelo logit) 40
2.- MODELO PROBIT
El modelo de regresión probit con una sola variable explicativa y variable
dependiente binaria es
Pr (Y = 1 / Xi ) = Φ (β0 + β1 Xi )
Φ: función de distribución de probabilidad acumulada Normal estándar.
En el caso de modelos multivariantes:
Pr (Y = 1 / X1, X2, …, Xk ) = Φ (β0 + β1 X1 + β2 X2 +…+ βk Xk )
La probabilidad esperada que Y = 1, dado los valores de X1, X2, …, Xk,
se calcula mediante el cálculo del z-valor,
z = (β0 + β1 X1 + β2 X2 +…+ βk Xk )
y buscando luego la probabilidad correspondiente a este z-valor en la
tabla de la función de distribución de probabilidad acumulada Normal
estándar.
El coeficiente βi representa el cambio en el z-valor derivado de un
cambio unitario en Xi, manteniéndose constantes el resto de variables
explicativas. 41
MODELO PROBIT
El efecto sobre la probabilidad esperada de un cambio en un

regresor se calcula:
(1) calculando la probabilidad esperada para el valor inicial de
las variables explicativas,
(2) calculando la probabilidad esperada para el nuevo valor de
los regresores, y
(3) calculando la diferencia de ambas probabilidades.
La estimación de los coeficientes - al igual que en el modelo logit
- se realizan por MCO no lineales o por MV (mayormente
empleado por el software de regresión).
Ambos métodos proporcionan estimadores consistentes y
asintóticamente Normales, por lo que los estadísticos t y F y los
intervalos de confianza se pueden construir de forma habitual.
42
3.- MODELO LOGIT
La probabilidad pi que [Y=1/Xi] expresado mediante la función de
distribución logística (acumulativa) queda
Haciendo Zi = β1 + β2Xi es fácil comprobar que la razón de

probabilidades,
de donde,
Li, logaritmo natural o neperiano de la razón de probabilidades

es llamado logit, y de ahí el nombre de modelo logit, lineal tanto
en las variables como en los parámetros 43
MODELO LOGIT y PROBIT
• Ambas regresiones son similares excepto que emplean

funciones de distribución acumulada diferentes.
• La principal diferencia es que la distribución logística tiene
extremos ligeramente más anchos, lo que se traduce en que
las aproximaciones a 0 o 1 de la probabilidad condicionada se
realizan a una tasa menor en el modelo logit.
• También ha de tenerse en cuenta que los coeficientes
estimados con ambos modelos no son comparables, dado
que aunque la logística estándar y la Normal estándar tienen
media nula, sus variancias son diferentes.
44
MODELO LOGIT y PROBIT
• No existen razones de peso para elegir uno u otro modelo. La

elección más frecuente del modelo logit es debida a su
comparativa simplicidad matemática.
• Para conjunto de datos con pocos valores extremos de los
regresores, el modelo de probabilidad lineal puede
proporcionar aproximaciones adecuadas.
45

7 Variables Ficticias Clase2022

Cargado por

Copyright:

Formatos disponibles

7 Variables Ficticias Clase2022

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

7 Variables Ficticias Clase2022

Cargado por

Copyright:

Formatos disponibles

GRADO EN ADMINISTRACIÓN Y DIRECCIÓN DE EMPRESAS

ECONOMETRÍA PARA LA EMPRESA

- La modalidad o categoría a la que se asigna el valor 0 se

- La técnica de la variable ficticia puede emplearse para

Yi: Salario anual del trabajador

Yi= β1+ β2Xi + εi

εi cumple los supuestos del modelo clásico de regresión lineal.

Salario promedio - empleada → E [ Yi / Xi = 0 ] = β1

Salario promedio - empleado → E [ Yi / Xi = 1 ] = β1 + β2

15 si es hombre E[Yi /Xi=15] = β1 + 15β2

: salario medio muestral de las empleadas

H0: β2=0 H0: μ0 = μ1

Consumo promedio marca A: E[Yi / Xi, Wi= 1]= (β1+β3)+β2Xi (2)

El consumo promedio de gasolina de los coches de la marca A es diferente

• β1: Constante de regresión. Se incluye para no restringir al modelo a

Potencia del Motor 13

Yi = β1 + β2W2i + β3W3i + β4 X4i + εi

Este modelo no se puede estimar

- Variancia estimada de la distribución de las perturbaciones aleatorias:

La potencia del motor y/o la marca del vehículo “explican”

La marca del automóvil no influye en el consumo de

Marca B: E [Yi / Wi = 0, Xi ] = β1 + β2Xi (3)

Marca A: E [Yi / Wi = 1, Xi ] = β1 + (β2 + β4) Xi (4)

Introduciéndose la variable ficticia de forma multiplicativa “β4(XiWi)” para

Potencia del Motor 21

Por lo que el modelo estimado será:

Yi = β1 +β2Xi + β3Wi + β4(Xi Wi) + εi

E [Yi / Wi = 0, Xi ] = β1 + β2Xi (5)

E [Yi / Wi = 1, Xi ] = (β1 + β3) + (β2 + β4) Xi (6)

Introduciéndose la variable ficticia de forma aditiva - β3Wi - para

Y tendremos que β3 es el coeficiente de intersección diferencial y β4 el

Potencia del Motor 24

El único valor significativo es el coeficiente de la variable potencia del

Una de las suposiciones realizadas en la regresión lineal múltiple es que el

Aunque el valor de algunas estimaciones son inconsistentes,

Su inclusión permite que el efecto sobre Y de un cambio en X1 dependa del valor

El caso de una variable ficticia y una continua, es equivalente a introducir la

W2i = 1 si el empleado es mujer ; W2i = 0 si el empleado es hombre

E [Yi / W2 = 1, W3 = 1, Xi] = (β0+ β2 + β3) + β1Xi

Con efecto interacción

Yi = β0 +β1Xi + β2W2i + β3W3i + β4(W2i .W3i) + εi

E [Yi / W2 = 1, W3 = 1, Xi]= (β0+ β2 + β3 + β4) + β1Xi 30

Sin efecto interacción

E [Yi / W2 = 1, W3 = 1, Xi] = β0+ (β1+ β2 + β3)Xi

E [Yi / W2 = 1, W3 = 1, Xi] = β0+ (β1+ β2 + β3 + β4) X31i

Sin efecto interacción

Yi = β0 +β1Xi + β2W2i + β3W3i + β4(W2iXi) + β5(W3i Xi) + εi

E [Yi / W2 = 1, W3 = 1, Xi] = (β0+ β2 + β3) + (β1+ β4 + β5) Xi

Con efecto interacción sólo en la constante de regresión

E [Yi / W2 = 1, W3 = 1, Xi] = (β0+ β2 + β3 +β4) + (β1+ β5 + β6) X32i

E[Yi / W2 = 1, W3 = 1, Xi] = (β0 + β2 + β3) + (β1 + β4 + β5 + β6) Xi

Con efecto interacción en la pendiente y en la constante de regresión:

E[Yi/W2 = 1,W3 = 1, Xi]= (β0 + β2 + β3 + β4) + (β1 + β5 + β6 + β7) Xi

La significación estadística de las variables ficticias representativas

- Análisis de observaciones anómalas (outliers): Se

La variable dependiente o regresada de un modelo puede

Y ~ Bernoulli E[Yi] = 0 × (1-pi) + 1 × pi = pi (3)

Comparando (2) con (3), podemos igualar:

El efecto sobre la probabilidad esperada de un cambio en un

Haciendo Zi = β1 + β2Xi es fácil comprobar que la razón de