Capitulo 18

Análisis logit y discriminante
1
Contenido:
1 Descripción el procedimiento general para realizar un análisis discriminante
a) Formulación
b) Cálculo
c) Determinación de la significancia
d) Interpretación
e) Validación de los resultados
2 Análisis discriminante de dos grupos
3 Análisis discriminante múltiple (tres grupos)
4 Modelo LOGIT
2
Concepto Básico Del Análisis Discriminante
El análisis discriminante es una técnica para analizar los datos, cuando la
variable dependiente o de criterio es categórica, y las variables
predictivas o independientes son de naturaleza intervalar.
VARIABLE DEPENDIENTE Elección de una marca de computadora personal
Las calificaciones de los atributos de las

VARIABLE INDEPENDIENTE computadoras personales en una escala Likert de
7 puntos
3
Ejemplos de análisis discriminante
En términos de las características demográficas, ¿en qué difieren los clientes que
muestran lealtad hacia una tienda de quienes no lo hacen?
¿Existen diferencias entre usuarios frecuentes, moderados y esporádicos de bebidas

gaseosas, en cuanto al consumo de alimentos congelados?
¿Qué características psicográficas ayudan a diferenciar a los compradores de

comestibles sensibles a los precios de los quienes no lo son?
¿Los segmentos del mercado difieren en sus hábitos de exposición a los medios de
comunicación masiva?
4
Los objetivos del análisis discriminante
1. Desarrollar las funciones discriminantes, o combinaciones lineales de las
variables predictivas o independientes, que hagan una mejor diferenciación
entre las categorías de las variables dependientes o de criterio (grupos).
2. Examinar si hay diferencias significativas entre los grupos, en términos de
las variables predictivas.
3. Determinar qué variables predictivas contribuyen más a las diferencias
entre grupos.
4. Clasificar los casos en uno de los grupos, con base en los valores de las
variables predictivas.
5. Evaluar la precisión de la clasificación.
5
Realización de un análisis discriminante
6
Ejemplo análisis discriminante de dos grupos
Suponga que buscamos determinar las características sobresalientes de las familias que
han visitado un centro vacacional durante los últimos dos años.
Se obtuvieron datos de un pretest aplicado a una muestra de 42 familias.
Las familias que visitaron un centro vacacional durante los pasados dos años se
codificaron como 1 y las que no lo hicieron, como 2 (VISITA).
También se obtuvieron datos sobre el ingreso anual de la familia (INGRESO).
La actitud hacia los viajes (VIAJE, medida en una escala de 9 puntos)
La importancia asignada a las vacaciones familiares (VACACIONES, medida en una
escala de 9 puntos)
El tamaño de la familia (TAMAÑOF) y la edad del jefe de familia (EDAD).
7
Formulación del problema
A) Identificación de los objetivos, las variables de criterio y las variables
independientes.
- Las variables de criterio deben consistir en dos o más categorías que sean
excluyentes entre sí y exhaustivas en su conjunto.
- Cuando la variable dependiente se basa en una escala de intervalo o de razón,

primero debe convertirse en categorías. Por ejemplo, la actitud hacia una marca,
medida en una escala de 7 puntos, puede categorizarse como desfavorable (1, 2, 3),
neutra (4) o favorable (5, 6, 7).
- La elección de las variables predictivas tiene que basarse en un modelo teórico o en

investigaciones previas; sin embargo, en el caso de la investigación exploratoria, la
selección debe estar guiada por la experiencia del investigador.
8
El siguiente paso es dividir la muestra en dos partes.
Una parte de la muestra, llamada muestra de análisis o de estimación, se utiliza para

calcular la función discriminante.
La otra parte, llamada muestra de validación o de exclusión, se reserva para la

validación de la función discriminante.
Cuando la muestra es lo bastante grande, puede dividirse por la mitad.
Una mitad funge como muestra de análisis y la otra se usa para la validación.
Luego se intercambia el papel de las mitades y se repite el análisis.
Esto se conoce como validación cruzada doble y es similar al procedimiento estudiado

en el análisis de regresión.
9
Resultados del análisis discriminante de dos grupos
El examen de las medias y desviaciones estándar del grupo brinda una idea intuitiva de
los resultados. Parece que los dos grupos están más separados en términos del ingreso
que de otras variables. La separación parece ser mayor en la importancia atribuida a las
vacaciones familiares que en la actitud hacia los viajes. La diferencia entre los dos
grupos respecto a la edad del jefe de familia es pequeña y la desviación estándar de esta
variable es grande.
11
La matriz de correlaciones agrupadas intragrupales indica correlaciones bajas entre los

predictivos.
Es poco probable que la multicolinealidad sea un problema.
12
La significancia de las razones F univariadas indica que cuando se hace un análisis

individual de los predictivos, sólo el ingreso, la importancia de las vacaciones y el
tamaño de la familia distinguen de manera significativa a quienes visitaron centros
vacacionales de quienes no lo hicieron.
13
Dado que hay dos grupos, sólo se calculó una función discriminante.
El valor propio asociado con esta función es 1.7862 y da cuenta de 100 por ciento de la
varianza explicada.
La correlación canónica asociada con esta función es 0.8007. El cuadrado de esta
correlación es (0.8007)2=0.64, e indica que este modelo explica o da cuenta del 64 por
ciento de la varianza en la variable dependiente (VISITA).
Correlación canónica: la correlación canónica mide el grado de asociación entre las calificaciones discriminantes y los grupos.
14
Determinar la significancia de la función discriminante
No tendría sentido interpretar el análisis, si las funciones discriminantes calculadas no

fueran estadísticamente significativas. Es posible someter a prueba estadística la
hipótesis nula de que, en la población, las medias de todas las funciones discriminantes
en todos los grupos son iguales. En el SPSS esta prueba se basa en la  de Wilks. Si se
prueban al mismo tiempo varias funciones (como en el caso del análisis discriminante
múltiple), el estadístico  de Wilks es el producto de la univariada para cada función.
y ladesuma
Wilks: conocida también como estadístico U. La  de Wilks de cada predictivo es la razón entre la suma de los cuadrados intragrupo
total de los cuadrados. Su valor fluctúa entre 0 y 1. Los valores grandes de  (cerca de 1) indican que parece no haber diferencia
entre las medias del grupo. Los valores pequeños de  (cerca de 0) indican que parece haber diferencia entre las medias del grupo.
15
Determinar la significancia de la función discriminante
El cálculo del nivel de significancia se basa en la transformación del estadístico en una

chi cuadrada. En este ejercicio puede notarse que la Lambda de Wilks asociada con la
función es 0.3589, la cual se transforma en una chi cuadrada de 26.13 con 5 grados de
libertad. Esto es significativo más allá de un nivel de 0.05.
16
La interpretación de los pesos, o
coeficientes discriminantes es
similar a la del análisis de regresión
múltiple. El valor del coeficiente
para un predictivo específico
depende de los otros predictivos
incluidos en la función
discriminante.
17
Los signos de los coeficientes son
arbitrarios; pero indican qué valores
de la variable resultan en valores
grandes y pequeños de la función y
los asocia con grupos particulares.
El grupo 1, quienes han visitado un

centro vacacional, tiene un valor
positivo de (1.29118); mientras que
el grupo 2 tiene un valor negativo
igual.
18
Los signos de los coeficientes
asociados con todos los predictivos
son positivos, lo cual sugiere que:
Cuanto mayores sean el ingreso

familiar, el tamaño de la familia,
la importancia atribuida a las
vacaciones familiares, la actitud
hacia los viajes y la edad, mayor
será la probabilidad de que la
familia visite un centro
vacacional.
19
Semejanzas y diferencias
20
Modelo LOGIT
El análisis discriminante aborda la cuestión de a qué grupo de
observaciones es probable que pertenezca
El modelo LOGIT binario por lo común trata el problema de qué tan

probable es que una observación pertenezca a cada grupo.
Cuando la variable dependiente es binaria y hay diversas variables

independientes métricas, además del análisis discriminante de dos
grupos, en el cálculo también pueden usarse los modelos de regresión
MCO, logit y probit.
21
Ejemplo de una aplicación de la regresión logística
Se presenta los datos de 30 encuestados, de los cuales 15 son leales a la marca
(indicados con 1) y 15 no lo son (indicados con 0). También se miden las actitudes
hacia la marca (Marca), hacia la categoría del producto (Producto) y hacia las compras
(Compras), todo en una escala de 1 (no favorable) a 7 (favorable).
El objetivo: es calcular la probabilidad de que un consumidor sea leal a la marca como

función de la actitud hacia la marca, la categoría del producto y las compras.
22
Resultados del modelo logit binario o regresión logística
La R cuadrada de Cox y Snell y la R cuadrada de Nagelkerke indican un ajuste

razonable del modelo a los datos. Esto se verifica además en la tabla de clasificación que
revela una correcta clasificación de 24 de 30, es decir, del 80 por ciento de los casos.
23
La R cuadrada de Cox y Snell y la R cuadrada de Nagelkerke indican un ajuste

razonable del modelo a los datos. Esto se verifica además en la tabla de clasificación que
revela una correcta clasificación de 24 de 30, es decir, del 80 por ciento de los casos.
24
La significancia de los coeficientes calculados se basa en el estadístico de Wald. Se

advierte que sólo la actitud hacia la marca explica de manera significativa la lealtad
hacia la marca. A diferencia del análisis discriminante, la regresión logística da lugar a
cálculos del error estándar de los coeficientes estimados, lo cual permite evaluar su
significancia.
25
El signo positivo de los coeficientes indica que una actitud positiva hacia la marca se
traduce en una mayor lealtad hacia la misma. Las actitudes hacia la categoría del
producto y hacia las compras no influyen en la lealtad hacia la marca. Por
consiguiente, un gerente que busque incrementar la lealtad hacia la marca debería
concentrarse en fomentar una actitud más positiva hacia la marca, y no preocuparse por
la actitud hacia la categoría del producto y hacia las compras.
26
Conclusión del modelo logit binario o regresión logística
Por consiguiente, un gerente que busque incrementar la lealtad hacia la

marca debería concentrarse en fomentar una actitud más positiva hacia la
marca, y no preocuparse por la actitud hacia la categoría del producto y
hacia las compras.
27

Capitulo 18

Cargado por

Copyright:

Formatos disponibles

Capitulo 18

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Capitulo 18

Cargado por

Copyright:

Formatos disponibles

Análisis logit y discriminante

2 Análisis discriminante de dos grupos

3 Análisis discriminante múltiple (tres grupos)

VARIABLE DEPENDIENTE Elección de una marca de computadora personal

Las calificaciones de los atributos de las

¿Existen diferencias entre usuarios frecuentes, moderados y esporádicos de bebidas

¿Qué características psicográficas ayudan a diferenciar a los compradores de

- Cuando la variable dependiente se basa en una escala de intervalo o de razón,

- La elección de las variables predictivas tiene que basarse en un modelo teórico o en

Una parte de la muestra, llamada muestra de análisis o de estimación, se utiliza para

La otra parte, llamada muestra de validación o de exclusión, se reserva para la

Cuando la muestra es lo bastante grande, puede dividirse por la mitad.

Luego se intercambia el papel de las mitades y se repite el análisis.

Esto se conoce como validación cruzada doble y es similar al procedimiento estudiado

La matriz de correlaciones agrupadas intragrupales indica correlaciones bajas entre los

Es poco probable que la multicolinealidad sea un problema.

La significancia de las razones F univariadas indica que cuando se hace un análisis

No tendría sentido interpretar el análisis, si las funciones discriminantes calculadas no

El cálculo del nivel de significancia se basa en la transformación del estadístico en una

El grupo 1, quienes han visitado un

Cuanto mayores sean el ingreso

El modelo LOGIT binario por lo común trata el problema de qué tan

Cuando la variable dependiente es binaria y hay diversas variables

El objetivo: es calcular la probabilidad de que un consumidor sea leal a la marca como

La R cuadrada de Cox y Snell y la R cuadrada de Nagelkerke indican un ajuste

La R cuadrada de Cox y Snell y la R cuadrada de Nagelkerke indican un ajuste

La significancia de los coeficientes calculados se basa en el estadístico de Wald. Se

Por consiguiente, un gerente que busque incrementar la lealtad hacia la

También podría gustarte