Analisis Discriminante
Analisis Discriminante
Analisis Discriminante
(d) Ninguna variable discriminante puede ser combinación lineal de otras variables discriminantes.
(e) Máximo funciones discriminantes = mínimo(número variables, número grupos − 1) , con q grupos
y (q − 1) funciones discriminantes.
(f) Las matrices de covarianzas dentro de cada grupo deben de ser aproximadamente iguales.
(g) Las variables continuas deben seguir una distribución normal multivariante.
MODELO MATEMÁTICO
Partiendo de q grupos donde se asignan a una serie de objetos y de p variables medidas sobre ellos
(x1 , x2 , " , xp ) , se trata de obtener para cada objeto una serie de puntuaciones que indican el grupo al
que pertenecen (y1 , y 2 ," , ym ) , de modo que sean funciones lineales de (x1 , x2 , " , xp ) :
se puede considerar la media de la variable x j en cada uno de los grupos (I1 , I2 , " , Iq ) , es decir,
1
xk j =
nk
∑ xi j para k = 1, " , q .
i ∈ Ik
De esta forma, la media total de la variable x j se puede expresar como función de las medias dentro de
cada grupo: nk xk j = ∑ xi j
i ∈Ik
1 n
1 q 1 q q
nk
con lo cual, x j =
n
∑ xi j = ∑
n k =1
∑ xi j = ∑ nk xk j =
n k =1
∑ n
xk j
i=1 i ∈ Ik k =1
1 q
Así, Cov(x j , x j ' ) = ∑ ∑ (xi j − x j ) (xi j ' − x j ' )
n k =1 i ∈ Ik
1 q 1 q
Cov(x j , x j ' ) = ∑
n k =1
∑ (xi j − x j ) (xi j ' − x j ' ) =
n
∑ ∑ (xi j − xk j ) (xi j ' − x j' k ) +
i ∈ Ik k = 1 i ∈ Ik
q
nk
+ ∑ (xk j − x j ) (x j'j ' k − x j ' ) = V(x j , x j ' ) + F(x j , x j ' ) →
k =1 n
Covarianza total C ovarianza dentro grupos C ovarianza entre grupos MATRICIALMENTE
→ T (x , x ) = V(x , x ) + F(x , x ) ⇒ T= V+ F
j j' j j' j j'
La covarianza total es igual a la covarianza dentro de los grupos más la covarianza entre grupos.
( )
Si las variables (x1 , x2 , " , xp ) están tipificadas, las funciones y i = wi1 x1 + wi2 x2 + " + wip xp para
(i = 1, " , m) se denominan discriminantes canónicas.
• y1 sea la combinación lineal de (x1 , x2 , " , xp ) que proporciona la mayor discriminación posible entre
los grupos.
• y 2 sea la combinación lineal de (x1 , x2 , " , xp ) que proporciona la mayor discriminación posible entre
los grupos, después de y1 , tal que corre(y1 ,y 2 ) = 0
• En general, y i es la combinación lineal de (x1 , x2 , " , xp ) que proporciona la mayor discriminación
posible entre los grupos, después de y i − 1 , tal que corre(y i ,y j ) = 0 para j = 1, " , (i − 1)
Estos vectores son linealmente independientes y dan lugar a funciones incorreladas entre sí.
m
La suma de todos los autovalores ∑ λi es la proporción de varianza total que queda explicada, o se
i=1
conserva, al considerar sólo los ejes o funciones discriminantes.
Como consecuencia, el porcentaje explicado por la variable y i del total de varianza explicada por las
λ
funciones (y1 , y 2 ," , ym ) es: m i 100%
∑ λi
i= 1
Las puntuaciones discriminantes son los valores que se obtienen al dar valores a (X1 , X 2 , " , Xk ) en la
ecuación anterior.
Se trata de obtener los coeficientes de ponderación w j
Los ejes discriminantes vienen dados por los vectores propios asociados a los valores propios de la
matriz (V −1 F) ordenados de mayor a menor.
Las puntuaciones discriminantes se corresponden con los valores obtenidos al proyectar cada punto
del espacio k‐dimensional de las variables originales sobre el eje discriminante.
w' F w separación entre grupos
Los coeficientes w se obtienen: máx λ = =
w' V w separación dentro grupos
CLASIFICACIÓN
Se obtienen las puntuaciones discriminantes di para cada observación, introduciendo los
correspondientes valores de las k variables en la función discriminante.
Otro camino: Funciones discriminantes para cada grupo → Se clasifica la observación en el grupo
en que la función correspondiente arroja mayor valor.
HIPÓTESIS
Las variables son independientes y se distribuyen normalmente → problemas en la estimación.
Las matrices de las varianzas y covarianzas son iguales en todos los grupos → afecta a la
clasificación.
No multicolinealidad entre las variables clasificadoras.
Las relaciones son lineales.
No existen valores anómalos (outliers).
⎛ X1I ⎞ ⎛ X1II ⎞
⎜ ⎟ ⎜ ⎟
⎜ X2I ⎟ ⎜ X2II ⎟
XI = ⎜ ⎟ XII = ⎜ ⎟ Los subíndices I y II indican a qué grupo pertenece la variable.
⎜ # ⎟ ⎜ # ⎟
⎜ Xk I ⎟ ⎜ Xk II ⎟
⎝ ⎠ ⎝ ⎠
DI + DII
C: punto de corte discriminante C =
2
EN GENERAL:
{ D − C = w1 X1 + w2 X2 + " + wk XK − C } se clasifica dependiendo si (D − C) es positivo o negativo.
INFERENCIAS Y CÁLCULO DE PROBABILIDADES
La obtención de la función discriminante la realizó Fisher aplicando un enfoque puramente descriptivo.
Cuando en el análisis discriminante se desean abordar cuestiones de carácter inferencial y otros relativos
al modelo poblacional se requiere la formulación previa de hipótesis estadísticas.
Las cuestiones de tipo inferencial se refieren a diversos contrastes de significación sobre el modelo, así
como contrastes utilizados en el proceso de selección de variables cuando el número de éstas es muy
grande y no se conoce a priori las variables que son relevantes en el análisis.
Por otra parte, el cálculo de probabilidad de pertenencia a un grupo requiere que previamente se haya
postulado algún modelo probabilístico de la población.
Las hipótesis estadísticas que se adoptan, análogas a las postuladas en el análisis multivariante de la
varianza, se refieren tanto a la población como al proceso de obtención de la muestra.
) HIPÓTESIS ESTADÍSTICAS SOBRE LA POBLACIÓN:
(a) La matriz de covarianzas de todos los grupos es igual a Σ (hipótesis de homocedasticidad).
(b) Cada uno de los grupos tiene una distribución normal multivariante.
Las hipótesis implican que x g ≈ N(μ g , ∑ )
Vg
∑ Vg ∑ (ng − 1)Sg
g =1 g =1
donde: Sg = , S = = K ≡ variables
ng − 1 n− G n− G
⎛ n1 + n2 − k − 1 ⎞ T2
⎜ ⎟ n + n − 2 ≈ Fk , n1 + n2 − k − 1
⎝ k ⎠ 1 2
Existen otros estadísticos para realizar el contraste, diseñados para el caso general de G grupos, tales
como el estadístico de Rao o el estadístico V de Barlett (estos dos últimos estadísticos están construidos a
partir de la Λ de Wilks).
En el caso de que se rechace la hipótesis nula H0 : μ1 = μ2 , se puede aplicar el análisis univariante de la
varianza para contrastar la hipótesis de igualdad de medias para cada una de las variables clasificadoras
por separado.
Para realizar este tipo de cálculos se suelen asumir las hipótesis estadísticas sobre la población:
La matriz de covarianzas de todos los grupos es igual a Σ (hipótesis de homocedasticidad).
Cada uno de los grupos tiene una distribución normal multivariante.
Las hipótesis implican que x g ≈ N(μ g , ∑ ) , considerando además que se conocen los parámetros
poblacionales.
El cálculo de probabilidades se realiza en el contexto de la teoría de la decisión, que permite tener en
cuenta la probabilidad de pertenencia a un grupo, como los costes de una clasificación errónea.
La clasificación de los individuos se realiza utilizando el teorema de Bayes. La aplicación del teorema de
Bayes permite el cálculo de las probabilidades a posteriori a partir de estas probabilidades a priori y de la
información muestral contenida en las puntuaciones discriminantes.
En el caso general de G grupos, el teorema de Bayes establece que la probabilidad a posteriori de
pertenencia a un grupo g con una puntuación discriminante D, con probabilidades a priori π g es:
π g Prob(D / g)
Prob(g / D) = G
∑ πi Prob(D / i)
i=1
Aplicando la fórmula de probabilidad a posteriori se llega a los mismos resultados que aplicando la
DI + DII
fórmula discriminante de Fisher. Esto implica que el punto de corte C es el mismo: C =
2
⎛ w11 ⎞ ⎛ w21 ⎞ ⎛ w G − 1, 1 ⎞
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ w12 ⎟ ⎜ w22 ⎟ ⎜ w G − 1, 2 ⎟
w1 = , w2 = , "" , wG − 1 = ⎜
⎜ # ⎟ ⎜ # ⎟ # ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎝ w1k ⎠ ⎝ w2k ⎠ ⎜ w G − 1, k ⎟
⎝ ⎠
Para la obtención del primer eje discriminante se maximiza la ratio variabilidad entre grupos entre
variabilidad dentro grupos, es decir:
w1' F w1 separación entre grupos
máx λ 1 = '
= (criterio obtención del primer eje discriminante)
w1 V w1 separación dentro grupos
ϑλ 1
Derivando la ratio e igualando a cero: = 0 , con lo cual:
ϑ w1
ϑλ 1 2 F w1 (w1' V w1 ) − 2 V w1 (w1' F w1 )
= = 0 → 2 F w1 (w1' V w1 ) − 2 V w1 (w1' F w1 ) = 0
ϑ w1 (w1' V w1 ) 2
2F w1 (w1' F w1 )
operando con la expresión, resulta: = = λ1 → F w1 = V w1 λ 1
2 V w1 (w1' V w1 )
siendo, por tanto, λ 1 w1 = V −1 F w1
En el análisis multivariante de la varianza con un factor se contrasta esta hipótesis para determinar si el
factor (variable categórica con G grupos) explica la variabilidad del vector de variables dependientes de
forma significativa.
En el análisis discriminante múltiple la hipótesis a contrastar sigue siendo la misma, aunque los papeles
se han invertido. Ahora se realiza el contraste para tratar de dar respuesta a la pregunta: ¿Las k variables
clasificadoras contribuyen significativamente a discriminar entre los G grupos?
Si no se rechaza la hipótesis nula citada, no se debería continuar el análisis, puesto que las variables
clasificadoras utilizadas en la investigación no tienen ningún poder discriminante significativo.
Para examinar el poder discriminante de cada uno de los ejes que se construyen en el análisis
discriminante, se descompone el estadístico V en productos a partir de la descomposición de la Λ de
Wilks. De acuerdo con su definición, el recíproco de Λ se puede descomponer:
1 T −1
= = V T = V −1 T = V −1 T = V −1 (F + V) = I + V −1 F
Λ V
teniendo en cuenta que el determinante de una matriz es igual al producto de sus raíces
características, se obtiene que:
1
= I + V −1 F = (1 + λ 1 ) (1 + λ 2 ) " (1 + λ G − 1 )
Λ
sustituyendo en el estadístico V de Barlett, se obtiene la expresión alternativa del estadístico:
G−1
⎡ K + G⎤
Estadístico V de Barlett: V = ⎢n − 1 −
⎣ 2 ⎥⎦
∑ ln(1 + λ g )
g =1
Si se rechaza la hipótesis nula, significa que al menor uno de los ejes discriminantes es estadísticamente
significativo. Esto implica a su vez que el primer eje discriminante es estadísticamente significativo, debido
a que es precisamente el que tiene mayor poder discriminante.
En caso de que se acepte la hipótesis de que el primer eje discriminante es significativo, se pasa a
contrastar la significación conjunta del resto de los ejes discriminantes, utilizando el estadístico:
G− 1
⎡ K + G⎤
V = ⎢n − 1 −
⎣ 2 ⎥⎦
∑ ln(1 + λ g )
g=2
Así, en el proceso secuencial se van eliminando del estadístico V las raíces características que van
resultando significativas, deteniendo el proceso cuando se acepte la hipótesis nula de no
significatividad de los ejes discriminantes que queden por contrastar.
DIRECCIÓN DE RIESGOS
Cuando una entidad financiera concede un préstamo personal a un cliente se enfrenta a la doble
posibilidad de que sea reintegrado o de que no lo sea. En este último caso el préstamo será finalmente
clasificado como fallido.
Obviamente, si la entidad financiera conociera de antemano que una persona va a resultar fallida no le
concedería el préstamo en ningún caso. En esta línea, puede utilizar la información existente en la
entidad sobre préstamos concedidos en el pasado para la concesión de préstamos futuros de forma
que se evite, o al menos, se reduzca la posibilidad de conceder préstamos que después fueran fallidos.
En los archivos de la entidad financiera existe información de las características de las personas a las que
se les ha concedido un préstamo, ya que el cliente en el momento de solicitar el préstamo ha facilitado
datos acerca de cuestiones tales como ingresos, edad, sexo, situación familiar, antigüedad en el puesto
de trabajo, régimen de tenencia de la vivienda, etc. Es muy posible que los clientes cumplidores tengan
unas características distintas a los clientes fallidos.
Utilizando estas características se trata de establecer unas funciones que clasifiquen lo más
correctamente posible a los clientes a los que se les ha concedido un préstamo en cumplidores y
fallidos (finalidad explicativa).
Posteriormente, estas funciones se emplearán, en el caso de que se haya realizado adecuadamente
dicha clasificación, para determinar si se conceden o no los préstamos futuros a futuros solicitantes
(finalidad predictiva).
La tabla adjunta contiene información de 16 clientes de una entidad financiera a los que se les concedió
un préstamo. Pasados 3 años desde la concesión del préstamo, de los 16 clientes, había 8 que fueron
clasificados como fallidos (Grupo 1) mientras que los otros 8 clientes fueron cumplidores (Grupo 2), ya
que reintegraron el préstamo.
Para cada uno de los 16 clientes se dispone de información sobre X1 = 'su patrimonio neto' y
X2 ='sus deudas pendientes', en el momento de la solicitud.
Con esta información se pretende construir una función discriminante que separe/diferencie lo más
posible a los dos grupos y que permita clasificar, con los menores errores posibles, a los distintos clientes
en los dos grupos.
En primer lugar, hay que elegir cuál es la Variable de Agrupación, es decir, qué variable juega el papel de
variable categórica dependiente cuyas categorías definen los posibles grupos de pertenencia de los
individuos. En este caso, la variable es Préstamo.
Además, en el botón con el nombre Definir Rango, es necesario especificar cuáles son los valores Mínimo
y Máximo de esta variable. Se introducen los valores correspondientes: Mínimo: 1 y Máximo: 2.
Las variables:
X1 = 'Patrimonio_ Neto'
X2 = 'Deuda_Pendiente'
se eligen como variables independientes,
cuyos valores se utilizan para construir la
función discriminante.
Estas variables pueden introducirse en el
modelo simultáneamente o por etapas
El botón Método sólo se activa si previamente se ha elegido Usar método de inclusión por pasos
Variable de selección: Permite reducir el análisis a un subgrupo de la muestra total, subgrupo que vendrá
definido por una variable de selección. Este no es el caso, no se elige esta opción.
ESTADÍSTICOS UTILIZADOS:
F DE SNEDECOR: Se compara para cada variable las desviaciones de las medias de cada uno de los grupos
a la media total, entre las desviaciones a la media dentro de cada grupo.
Si F es grande para cada variable, entonces las medias de cada grupo están muy separadas y la variable
discrimina bien.
Si F es pequeña para cada variable, la variable discrimina poco, ya que habrá poca homogeneidad en los
grupos y éstos estarán muy próximos.
DESCRIPTIVOS:
Medias: Proporciona el vector de medias (los centroides) y desviaciones típicas de cada variable para cada
grupo.
Univariante ANOVA: Contrasta igualdad de medias entre los grupos para cada variable.
M de Box: Contrasta la hipótesis nula de que las matrices de varianzas‐covarianzas poblacionales son
iguales en los distintos grupos.
COEFICIENTES DE LA FUNCIÓN:
De Fisher: Coeficientes de la función de clasificación bajo Normalidad
No tipificados: Coeficientes de la función discriminante canónica de Fisher 'centrados'
MATRICES:
Covarianza de grupos separados: Proporciona la matriz de varianzas y covarianzas de cada grupo, es decir,
las matrices S1 y S2 , donde:
⎡ nk nk ⎤
( ) ∑( )( )
2
⎢
⎢
∑ i1 − X1
X (k ) (k ) (k )
X i1 − X1(k ) (k )
X i2 − X2(k ) ⎥
⎥
i=1 i=1
Sk = ⎢ n nk ⎥ k = 1,2
⎢ k (k ) ⎥
( )( ) ∑( )
2
⎢ ∑ X i1 − X1 − X2(k ) − X2(k )
(k ) (k ) (k )
X i2 X i2 ⎥
⎣i = 1 i=1 ⎦
Covarianza intra‐grupos: Proporciona la matriz de varianzas y covarianzas 'combinada', obtenida como
media ponderada de las dos anteriores, es decir:
(n1 − 1)S1 + (n2 − 1)S2
S =
n1 + n2 − 2
Covarianza Total: Proporciona la matriz de varianzas y covarianzas de (X1, X2) para todos los
n1+ n2 = 16 individuos de la población, sin distinción de grupo.
Estadísticos asociados:
F de Rao
χ2 de Barlett (tests sobre las diferencias de medias en ambos grupos)
λi
La i‐ésima correlación canónica viene dada por: CRi = 0 ≤ CRi ≤ 1
1 + λi
Mide, en términos relativos, el poder discriminante de la i‐ésima función discriminante, ya que
es el porcentaje de la variación total en dicha función que es explicada por la diferencia entre los grupos.
Cuanto más cerca de 1 esté su valor, mayor es la potencia discriminante de la i‐ésima función
discriminante.
PROBABILIDADES PREVIAS:
Son las probabilidades a priori para cada grupo. En este caso serían p1 = p(pertenecer al grupo 1),
p2 = p(pertenecer al grupo 2).
Estos valores se utilizan, por ejemplo, en la regla de clasificación de la máxima verosimilitud bajo el
supuesto de normalidad.
Todos los grupos iguales: p1 = p(pertenecer al grupo 1) = p2 = p(pertenecer al grupo 2) = 1 / 2
USAR MATRIZ DE COVARIANZA:
Intra‐grupos: De esta manera se especifica que cuando se obtengan los autovectores de la matriz
(V −1 F) , que son precisamente los coeficientes de las distintas funciones discriminantes, se utilice la
restricción a'Sa = 1 , utilizando la matriz de varianzas entre grupos 'combinada' S.
MOSTRAR:
Resultados para cada caso: Muestra el proceso de clasificación paso a paso para cada uno de los 16
individuos de la población, con las probabilidades a posteriori para cada uno de ellos, calculadas a partir
de las puntuaciones discriminantes.
Tabla de resumen: Proporciona la matriz de confusión, es decir la matriz de clasificación para los propios
16 individuos de la muestra para los que conocemos de antemano su adscripción.
Clasificación dejando uno fuera: Proporciona la matriz de clasificación pero obtenida con el método
Jacknife, que obtiene, en general una estimación de la proporción de clasificaciones erróneas más fiable.
GRÁFICOS:
Grupos combinados: Representa las puntuaciones discriminantes o valores de la(s) funcion(es)
discriminante(s), para los 16 individuos de la muestra (8 de cada grupo) todos juntos en un gráfico, junto
con sus centroides.
Como sólo hay una función discriminante este gráfico no se hace (si se selecciona, luego no aparece).
Grupos separados: Representa un gráfico como el anterior pero para cada grupo.
En este caso, representaría en el primer gráfico únicamente los 8 individuos del grupo 1 y en el segundo
sólo los 8 del grupo 2.
Mapa territorial: Con una única función discriminante no lo hace.
Se muestran los estadísticos descriptivos: media y desviación típica total de (X1, X2) sobre los
n = n1 + n2 = 16 individuos y para los dos grupos: Media y desviación típica de (X1, X2) para los n1= 8
clientes del grupo 1, y media y desviación típica de (X1, X2) para los n2 = 8 clientes del grupo 2.
El punto de corte discriminante de los dos grupos para la variable X1 = 'Patrimonio_Neto' se encuentra en
el valor 7:
X1,I + X1,II 5 + 9
X1,I = 5 X1,II = 9 C1 = = =7
2 2
El punto de corte se toma como referencia para clasificar a un individuo en uno u otro grupo (fallido,
cumplidores): Si el Patrimonio_Neto es menor que 7 se clasifica al cliente como fallido (grupo 1), mientras
que se clasifica como cumplidor (grupo 2) si el Patrimonio_Neto es mayor que esa cifra.
Por otra parte, el punto de corte discriminante de los dos grupos para la variable X2 = 'Deuda_Pendiente'
de los dos grupos será:
X2,I + X2,II 5 + 3
X2,I = 5 X2,II = 3 C1 = = =4
2 2
Si las deudas pendientes son mayores que 4 se clasifica al cliente como fallido (grupo 1), mientras que se
clasifica como cumplidor (grupo 2) si las deudas pendientes son menores que esa cifra.
Los contrastes de igualdad de medias entre los dos grupos para cada variable (en ambos casos se rechaza
la hipótesis nula, p_valor < 0,05, es decir, los dos grupos, en media son diferentes).
La información de esta tabla de ANOVAs univariados suele utilizarse como prueba preliminar para
detectar si los grupos difieren en las variables de clasificación seleccionadas.
Sin embargo, hay que considerar que una variable no significativa a nivel univariante podría aportar
información discriminativa a nivel multivariante.
Por otra parte, la media ponderada de S1 y S2 debe de coincidir con la matriz 'intra‐grupos combinada',
denominada S. Es decir, debe verificarse que:
g
El estadístico M de Box toma la forma: M = (n − g) log S − ∑ (n j − 1) log S j
j=1
Las variables son introducidas/eliminadas del modelo en la medida en que tengan asociado un menor
valor del estadístico Λ de Wilks.
Como hay g = 2 grupos y p = 2 variables, sólo hay q = min (k, g − 1) = 1 función discriminante, o
equivalentemente, la matriz (V −1 F) tiene rango q = min (k, g − 1) = 1 y sólo hay un autovalor distinto
de cero, λ 1 = 1,716, que es el que aparece en la tabla.
El autovalor de una función se interpreta como la parte de variabilidad total de la nube de puntos
proyectada sobre el conjunto de todas las funciones atribuible a la función. Si su valor es grande, la
función discriminará mucho.
λ1 1,716
Aparece el coeficiente eta o correlación canónica: η = = = 0,795
1 + λ1 1 + 1,716
Las correlaciones canónicas, miden las desviaciones de las puntuaciones discriminantes entre grupos
respecto a las desviaciones totales sin distinguir grupos.
Si su valor es grande (próximo a 1) la dispersión será debida a las diferencias entre grupos, y en
consecuencia, la función discriminará mucho.
Portal Estadística Aplicada ‐ Análisis Discriminante 26
1 1
El estadístico del contraste de significación global Lambda de Wilks: Λ = = = 0,368
1 + λ 1 1 + 1,716
Conduce a rechazar la hipótesis nula de igualdad de medias [p‐valor = 0,02 < 0,05] indicando la
conveniencia de extraer una (la única posible) función discriminante, o lo que es lo mismo, que dicha
función sea significativa.
INTERPRETACIÓN DE LAS FUNCIONES DISCRIMINANTES: A la vista de los valores de ρ (X1, y) y ρ (X2, y),
parece que la variable que más contribuye a la discriminación es X1 = 'Patrimonio_Neto'
Con los resultados obtenidos, el punto de corte discriminante será el punto medio de las funciones en los
D + D2 −1,225 + 1,225
centroides de los grupos: C = 1 = =0
2 2
Obtenida la función discriminante, en primer lugar se puede utilizar para efectuar una clasificación de los
mismos casos considerados para obtener la función: Esto permitirá comprobar el grado de eficacia de la
función desde el punto de vista de la clasificación. Si los resultados son satisfactorios, la función
discriminante podrá utilizarse, en segundo lugar, para clasificar futuros casos de los que, conociendo su
puntuación en las variables independientes, se desconozca el grupo al que pertenecen.
⎡ 4,764 1,001 ⎤
S=⎢ ⎥
⎣ 1,001 3,259 ⎦
−1 −1
⎡ 4,764 1,001 ⎤ ⎡ X1 ⎤ 1 ⎡ 4,764 1,001 ⎤ ⎡5⎤
d̂I (x) = ⎡⎣5 5 ⎤⎦ ⎢ ⎥ ⎢X ⎥ − ⎡5 5 ⎤
⎦ ⎢ 1,001 3,259 ⎥ ⎢ 5 ⎥ + ln(0,5) =
⎣ 1,001 3,259 ⎦ ⎣ 2⎦ 2 ⎣ ⎣ ⎦ ⎣ ⎦
X1 X2
= 0,777. Patrimonio _ Neto + 1,296. Deuda _ Pendiente − 5,876
1 ' −1
Grupo 2: La función de clasificación es de la forma: d̂II (x) = x2' S −1 x − x2 S x2 + ln(p2 )
2
−1 −1
⎡ 4,764 1,001 ⎤ ⎡ X1 ⎤ 1 ⎡ 4,764 1,001 ⎤ ⎡9⎤
d̂II (x) = ⎡⎣9 3⎤⎦ ⎢ ⎥ ⎢ X ⎥ − 2 ⎡⎣9 3⎤⎦ ⎢ 1,001 3,259 ⎥ ⎢ 3 ⎥ + ln(0,5) =
⎣ 1,001 3,259 ⎦ ⎣ 2⎦ ⎣ ⎦ ⎣ ⎦
X1 X2
= 1,813. Patrimonio _ Neto + 0,364. Deuda _ Pendiente − 9,396
Cada sujeto será asignado al grupo en el que obtenga un mayor valor de estas funciones.
La función discriminante de Fisher (no aparece en SPSS):
D − C = FII − FI = 1,035. Patrimonio _ Neto − 0,932. Deuda _ Pendiente − 3,520
Solo se encuentra un caso mal clasificado según la función lineal discriminante, se trata del Grupo 2 (caso
13 en la tabla de estadísticos de clasificación) que ha sido incluido erróneamente dentro del Grupo 1.
La aplicación de este criterio consiste en asignar cada individuo al grupo para el que la distancia de
Mahalanobis es menor.
La distancia de Mahalanobis clasifica a los individuos exactamente igual que lo hace la función
discriminante de Fisher. La diferencia entre uno y otro tipo de procedimiento es que, mientras la
distancia de Mahalanobis se calcula en el espacio de las variables originales, en el criterio de Fisher
se sintetizan todas las variables en la función discriminante, que es la utilizada para realizar la
clasificación.
Lambda de Wilks: Cada variable independiente candidata a ser incluida en el modelo se evalúa mediante
un estadístico Fcambio que mide el cambio en el valor que se produce de la lambda de Wilks al incorporar
cada una de las variables al modelo. Obtenido el valor del estadístico Fcambio para cada variable, se
incorpora al modelo la variable a la que corresponde el mayor valor Fcambio (o, lo que es lo mismo, la que
produce el mayor cambio en la lambda de Wilks):
⎛ n − g − p ⎞ ⎛ 1 − λ p +1 / λ p ⎞
Fcambio = ⎜ ⎟⎜ ⎟⎟
⎝ g − 1 ⎠ ⎜⎝ λ p +1 ⎠
donde n es el número de casos válidos, g es el número de grupos, λ p es la lambda de Wilks que
corresponde al modelo antes de incluir la variable que se está evaluando y λ p + 1 es la lambda de Wilks que
corresponde la modelo desde de incluir esa variable.
Este estadístico F también es conocido como R de Rao.
Varianza no explicada: Utiliza como criterio de inclusión la suma de la variación entre todos los pares de
grupos no explicada por las variables ya incluidas en el modelo. Se incorpora al modelo la variable que
minimiza la cantidad de varianza no explicada. La cantidad de varianza explicada por el modelo, R2, es
proporcional, en una constante c, a la distancia H de Mahalanobis:
R2 = c. H2ab
g −1 g
4
R= ∑ ∑ g es el número de grupos , a y b son dos grupos cualesquiera.
a = 1 b = a + 1 4 + Hab
2
donde n es el número de casos válidos, g es el número de grupos, Xi(a) es la media del grupo "a" en la
i‐ésima variable independiente, Xi(b) es la media del grupo "b" en la i‐ésima variable independiente,
w∗i j es un elemento de la inversa de la matriz de varianzas‐covarianzas intra‐grupos.
Menor razón F: Se incorpora en cada paso la variable que maximiza la menor razón F para las parejas de
grupos. El estadístico F utilizado en la distancia de Mahalanobis pondera por el tamaño de los grupos:
(n − p − 1) n1 n2
F= H2ab
p (n − 2) (n1 + n2 )
w∗i j es un elemento de la inversa de la matriz de varianzas‐covarianzas intra‐grupos.
Usar valor de F: Una variable pasa a formar parte de la función discriminante si el valor del estadístico F es
mayor que 3,84 (valor de entrada), siendo expulsada de la función si el valor del estadístico F es menor
que 2,71 (valor de salida).
Para modificar los valores de entrada y salida se utiliza el criterio Usar valor de F.
Usar la probabilidad de F: Una variable pasa a formar parte de la función discriminante si el nivel crítico
asociado al valor del estadístico F es menor que 0,05 (probabilidad de entrada), siendo expulsada de la
función si ese nivel crítico es mayor que 0,10 (probabilidad de salida). Se pueden modificar los valores de
entrada y salida, el valor de entrada debe ser menor que el de salida.
Resumen de los pasos: Estadísticos para cada una de las variables después de cada paso, así como
estadísticos de resumen del paso.
F para distancias por parejas: Muestra una matriz de estadísticos F que contrasta si cada pareja de grupos
difieren en la función discriminante. Se comparan todas las parejas de grupos. Esta opción es útil en el
caso de más de dos grupos.
Las medias de las cinco variables introducidas como independientes en el análisis son mayores en la
categoría de cumplidores que en las otras categorías.
Así, los clientes cumplidores, en relación con los otros dos grupos (morosos, fallidos), tienen mayores
ingresos, un mayor patrimonio, son propietarios de la vivienda que habitan están casados y son
asalariados con contrato fijo.
La tabla muestra un resumen de todos los pasos llevados a cabo en la construcción de la función
discriminante y recuerda los criterios utilizados en la selección de variables. En cada paso se informa de la
variable que ha sido incorporada al modelo y, en su caso, de la variable o variables que han sido
expulsadas.
Las notas a pie de la tabla recuerdan algunas de las opciones establecidas para el análisis: La selección de
variables se ha llevado a cabo utilizando el estadístico lambda de Wilks global. Puede observarse que el
valor del estadístico lambda de Wilks va disminuyendo en cada paso, lo cual es síntoma de que, conforme
se van incorporando variables al modelo, los grupos van estando cada vez menos solapados.
En la columna F exacta se encuentra el valor transformado de la lambda de Wilks y su significación. Los
valores del estadístico se refieren al estadístico global y no al cambio en el estadístico.
Antes de iniciar la construcción del modelo (paso 0) la tolerancia de todas las variables es la máxima
posible y, puesto que las variables están siendo evaluadas individualmente, la F para entrar en el modelo
(F para introducir) coincide con el valor de la F univariante que se obtendría al marcar la opción ANOVA
univariante del cuadro de dialogo Análisis discriminante / Estadísticos.
Estadístico Lambda de Wilks global para el modelo generado en cada caso, independientemente que se
haya optado por otro estadístico como método de selección de variables.
Se sabe que, este estadístico valorar el grado de diferenciación entre los grupos tomando como referencia
las variables independientes incluidas en cada caso. En este caso, la información coincide exactamente
con la tabla de variables introducidas/excluidas.
La tabla ofrece estadísticos F que permiten contrastar la hipótesis de igualdad de medias entre cada dos
grupos. Esta tabla tiene mayor sentido cuando el análisis busca discriminar entre más de dos grupos,
permitiendo averiguar qué grupos difieren de qué otros (señalar que lambda hace una valoración global
del grado de diferenciación entre los grupos).
λ 1 = 2,264
λ 2 = 0,043
⎡ k + G⎤ ⎡ 2 + 3⎤
V0 = ⎢n − 1 − ⎡⎣ln(1 + λ 1 ) + ln(1 + λ 2 ) ⎤⎦ = ⎢25 − 1 − ⎡ln(1 + 2,264) + ln(1 + 0,043)⎤⎦ = 26,343
⎣ 2 ⎦⎥ ⎣ 2 ⎥⎦ ⎣
Los grados de libertad de la Chi‐cuadrado son k (G − 1) = 2(3 − 1) = 4 y el nivel de significación crítico es
0,000 < 0,05 rechazando, por tanto, la hipótesis nula, lo que significa que al menos uno de los ejes
discriminantes es significativo, es decir, el primer eje discriminante es significativo (es el que tiene mayor
poder discriminante). Adviértase que si no se rechaza la hipótesis nula no debería continuar el análisis.
Se verifica la relación entre la Lambda de Wilks y las raíces características (autovalores):
1 1
Λ= = = 0,294
(1 + λ 1 ) (1 + λ 2 ) (1 + 2,264) (1 + 0,043)
Una vez determinada la significatividad del primer eje discriminante, se contrasta la significatividad de los
restantes, en este caso, del segundo eje discriminante. El contraste a aplicar es el siguiente:
⎡ k + G⎤ ⎡ 2 + 3⎤
V1 = ⎢n − 1 − ⎡ln(1 + λ 2 ) ⎦⎤ = ⎢25 − 1 −
⎣ ⎡ln(1 + 0,043) ⎦⎤ = 0,909
⎣ 2 ⎦⎥ ⎣ 2 ⎥⎦ ⎣
Los grados de libertad de la Chi‐cuadrado son (k − 1)(G − 1 − 1) = (2 − 1)(3 − 1 − 1) = 1 (en el análisis no
entran 3 variables clasificadoras) y el nivel de significación crítico es 0,340 > 0,05 , aceptando la hipótesis
nula, lo que significa que el segundo eje discriminante no es significativamente distinto de 0 para
cualquiera de los niveles de significación usuales.
La relación entre la Lambda de Wilks (obtenida después de excluir la primera función discriminante) y la
segunda raíz característica (segundo autovalor) es la siguiente:
1 1
Λ2 = = = 0,959
(1 + λ 2 ) (1 + 0,043)
Como información complementaria, se calcula la correlación canónica de cada función discriminante con
la variable categórica que define los grupos, obteniéndose:
λ1 2,264 λ2 0,043
η1 = = = 0,833 η2 = = = 0,203
1 + λ1 1 + 2,264 1 + λ2 1 + 0,043
Los resultados obtenidos confirman que la capacidad explicativa de la segunda función discriminante es
muy inferior a la primera. A efectos prácticos se podría prescindir de la segunda función discriminante, sin
que afectase de forma importante a los resultados de la clasificación.
Para su aplicación, se calcula la puntuación de cada individuo en cada uno de los grupos, utilizando las
funciones clasificadoras. Finalmente, un individuo se clasifica en el grupo en el que ha alcanzado la
puntuación más elevada.
Se observa que hay seis casos mal clasificados, comprobándose como las probabilidades de pertenencia
son mayores para la pertenencia al grupo mayor, y también que las puntuaciones discriminantes son las
que sitúan a cada caso en el mapa territorial.
Los resultados de la investigación son satisfactorios, ya que contiene un porcentaje elevado de clientes
clasificados satisfactoriamente (76%), si bien preocupa el caso de un cliente moroso (cliente 17) que ha
sido calificado como cumplidor. Este tipo de error de clasificación tiene mucha importancia, el banco se
preocupa sobre todo que un cliente moroso o fallido pueda ser considerado como cumplidor, pues el
coste de una clasificación errónea de este tipo es elevado para la entidad.