s4 - PPT - Analisis Discriminante - Practica - Sistemas Inteligentes
s4 - PPT - Analisis Discriminante - Practica - Sistemas Inteligentes
s4 - PPT - Analisis Discriminante - Practica - Sistemas Inteligentes
SISTEMAS INTELIGENTES
ANALISIS DISCRIMINANTE
PRACTICA
SISTEMAS INTELIGENTES
PRACTICA
1. Ejecutar la lectura adjunta acerca del Análisis
Discriminante y hacer uma síntesis del tema en
diapositivas ppt.
El Análisis Discriminante es una técnica estadística multivariante cuya finalidad es analizar si existen
diferencias significativas entre grupos de objetos respecto a un conjunto de variables medidas sobre
los mismos para, en el caso de que existan, explicar en qué sentido se dan y facilitar procedimientos
de clasificación sistemática de nuevas observaciones de origen desconocido en uno de los grupos
analizados.
• Se pretende encontrar relaciones lineales entre las variables continuas que mejor discriminen en
los grupos dados a los objetos.
• Construir una regla de decisión que asigne un objeto nuevo con un cierto grado de riesgo, cuya
clasificación previa se desconoce, a uno de los grupos prefijados.
(a) Se tiene una variable categórica y el resto de variables son de intervalo o de razón y son
independientes respecto de ella.
(b) Se necesitan al menos dos grupos, y para cada grupo se necesitan dos o más casos.
(c) El número de variables discriminantes debe ser menor que el número de objetos menos 2, es
decir, (x 1 , x 2 ,", x p ) donde p < (n − 2) siendo n ≡ número de objetos.
(d) Ninguna variable discriminante puede ser combinación lineal de otras variables discriminantes.
(f) Las matrices de covarianzas dentro de cada grupo deben de ser aproximadamente iguales.
(g) Las variables continuas deben seguir una distribución normal multivariante.
Partiendo de q grupos donde se asignan a una serie de objetos y de p variables medidas sobre
ellos (x 1 , x 2 ,", x p ) , se trata de obtener para cada objeto una serie de puntuaciones que indican el
grupo al que pertenecen (y 1 , y 2 ,", y m ) , de modo que sean funciones lineales de (x 1 , x 2 ,", x p ) :
Estas combinaciones lineales de las p variables deben maximizar la varianza entre los grupos y
minimizar la varianza dentro de los grupos.
1 n
Cov(x j , x j' ) = ∑ (x ij − x j ) (x ij' − x j' )
n i=1
se puede considerar la media de la variable x j en cada uno de los grupos (I1 , I2 ,", Iq ) , es decir,
1
xk j =
nk
∑x
i∈Ik
ij para k = 1,", q .
De esta forma, la media total de la variable x j se puede expresar como función de las medias dentro
de cada grupo: nk x k j = ∑ x ij
i∈Ik
1 n 1 q 1 q q
nk
con lo cual, x j = ∑
n i=1
x ij = ∑∑
n k=1 i∈I
x ij = ∑
n k=1
n x
k kj = ∑
k =1 n
xk j
k
1 q
Así, Cov(x j , x j' ) = ∑∑ (x ij − x j ) (x ij' − x j' )
n k=1 i∈I k
⎧(x ij − x j ) = (x ij − xk j ) + (xk j − x j )
⎪
Poniendo en cada uno de los términos: ⎨ se obtiene,
⎪(x i j' − x j' ) = (x i j' − xk j' ) + (xk j' − x j' )
⎩
1 q 1 q q
nk
Cov(x j , x j' ) = ∑∑
n k=1 i∈I
(x ij − x j ) (x ij'
− x j'
) = ∑∑
n k=1 i∈I
(x ij − x kj ) (x i j' − x k j' ) + ∑
k =1 n
(x k j − x j ) (x k j' − x j' ) =
k k
cov arianza total
cov arianza dentro grupos
cov arianza entre grupos
MATRICIALMENTE
La covarianza total es igual a la covarianza dentro de los grupos más la covarianza entre grupos.
La idea básica del Análisis Discriminante consiste en extraer a partir de (x 1 , x 2 ,", x p ) variables
observadas en k grupos, m funciones (y 1 , y 2 ,", y m ) de forma que:
yi = wi1 x1 + wi2 x2 + " + wip xp + wi0 donde m = mín( q − 1, p ) , tales que corre(y i , y j ) = 0 ∀i ≠ j
Si las variables (x 1 , x 2 ,", x p ) están tipificadas, las funciones ( yi = wi1 x1 + wi2 x 2 + " + wip xp ) para
(i = 1,", m) se denominan discriminantes canónicas.
Se sabe que La covarianza total es igual a la covarianza dentro de los grupos más la covarianza entre
MATRICIALM ENTE
grupos: T = F + V .
) Se maximiza la variabilidad entre los grupos para discriminarlos mejor, es decir, se maximiza la
⎡ w'F w ⎤
varianza entre grupos en relación con el total de la varianza: máx ⎢ ⎥
⎣ w' T w ⎦
w'F w
Considerando la función f(w) = se observa que es una función homogénea, es decir,
w' T w
⎡ w'F w ⎤
f(w) = f(μ w) ∀μ∈R . El hecho de que sea homogénea implica que calcular máx ⎢ ⎥ equivale
⎣ w' T w ⎦
a calcular máx [w'F w] tal que w' T w = 1
ϑL
L = w'F w − λ (w' T w − 1) ⇒ = 2F w − 2 λ T w = 0 ⇒ F w = λ T w ⇒ (T −1F) w = λ w
ϑw
Por tanto, tomando el vector asociado al máximo autovalor se obtendrá la función que recoge el
máximo poder discriminante.
El autovalor asociado a la función discriminante indica la proporción de varianza total explicada por
las m funciones discriminantes que recoge la variable y i
Para obtener más funciones discriminantes se siguen sacando los autovectores de la matriz
⎧ w'2 ⇒ w'2X = Y2
⎪
(T −1F) asociados a los autovalores elegidos en orden decreciente: ⎨ """""""
⎪ w' ⇒ w' X = Y
⎩ m m m
m
La suma de todos los autovalores ∑λ
i=1
i es la proporción de varianza total que queda explicada, o se
Como consecuencia, el porcentaje explicado por la variable y i del total de varianza explicada por las
funciones (y 1 , y 2 ,", y m ) es:
λi
m
100%
∑λ
i=1
i
Hipótesis: Las distribuciones sólo se diferencian por su localización (igual forma y varianza)
Las puntuaciones discriminantes son los valores que se obtienen al dar valores a
(X1 , X2 ," , Xk ) en la ecuación anterior.
X' X es una matriz simétrica que expresa las desviaciones cuadráticas con respecto a la media de
las variables (suma de cuadrados total).
Los ejes discriminantes vienen dados por los vectores propios asociados a los valores propios de
la matriz (V −1 F) ordenados de mayor a menor.
Las puntuaciones discriminantes se corresponden con los valores obtenidos al proyectar cada
punto del espacio k‐dimensional de las variables originales sobre el eje discriminante.
CLASIFICACIÓN
HIPÓTESIS
Las matrices de las varianzas y covarianzas son iguales en todos los grupos → afecta a la
clasificación.
⎛ X1 I ⎞ ⎛ X1II ⎞
⎜ ⎟ ⎜ ⎟
⎜ X2 I ⎟ ⎜ X2 II ⎟
XI = ⎜ ⎟ XII = ⎜ ⎟ Los subíndices I y II indican a qué grupo pertenece la variable.
# #
⎜ ⎟ ⎜ ⎟
⎜ Xk I ⎟ ⎜ Xk II ⎟
⎝ ⎠ ⎝ ⎠
⎧ DI = w1 X1 I + w2 X2 I + " + wk Xk I
⎪
PARA CADA GRUPO ⎨
⎪ D = w X + w X +"+ w X
⎩ II 1 1 II 2 2 II k k II
DI + DII
C: punto de corte discriminante C =
2
EN GENERAL:
Las cuestiones de tipo inferencial se refieren a diversos contrastes de significación sobre el modelo,
así como contrastes utilizados en el proceso de selección de variables cuando el número de éstas es
muy grande y no se conoce a priori las variables que son relevantes en el análisis.
Por otra parte, el cálculo de probabilidad de pertenencia a un grupo requiere que previamente se
haya postulado algún modelo probabilístico de la población.
Las hipótesis estadísticas que se adoptan, análogas a las postuladas en el análisis multivariante de la
varianza, se refieren tanto a la población como al proceso de obtención de la muestra.
(b) Cada uno de los grupos tiene una distribución normal multivariante.
Bajo las hipótesis citadas, la función discriminante obtenida por Fisher es óptima. La hipótesis
x g ≈ N(μg , ∑ ) exige que las variables clasificadoras sigan una distribución normal. Sin embargo, no
sería razonable postular est hipótesis respecto a variables categóricas, utilizadas frecuentemente en
el análisis discriminante como variables clasificadoras. Señalar que, cuando se utilizan variables de
este tipo, la función discriminante lineal de Fisher no tiene el carácter de óptima.
Con los contrastes de significación que se realizan en el análisis discriminante con dos grupos se trata
de dar respuesta a tres tipos de cuestiones diferentes:
Para el contraste de homocedasticidad (si la matriz de covarianzas es la misma para los distintos
grupos) se utiliza el estadístico de Barlett‐Box:
K
(ng −1) / 2 • En el numerador aparecen los determinantes de las estimaciones
∏S
g =1
g
de la matriz de covarianzas para cada grupo.
M= (n − K) / 2 • En el denominador, el determinante de la estimación global de la
S
matriz de covarianzas.
Cuando el numerador sea muy superior al denominador, será indicativo de que existe
heteroscedasticidad (no existe homogeneidad entre las matrices de covarianzas de cada grupo).
G G
Vg ∑ Vg
g =1
∑ (n
g =1
g − 1) Sg
donde: Sg = S= = K ≡ variables
ng − 1 n−G n−G
⎛ nn ⎞ V +V
T2 = (y1 − y2 )' S −1 (y1 − y2 ) ⎜⎜ 1 2 ⎟⎟ donde S = 1 2
⎝ n1 + n2 ⎠ n1 + n2 − 2
⎛ n1 + n2 − K − 1 ⎞ T2
⎜ ⎟ ≈ FK , n1 +n2 −K−1
⎝ K ⎠ n1 + n2 − 2
Existen otros estadísticos para realizar el contraste, diseñados para el caso general de G grupos, tales
como el estadístico de Rao o el estadístico V de Barlett (estos dos últimos estadísticos están
construidos a partir de la Λ de Wilks).
Como medida de evaluación de la bondad de ajuste se utiliza el coeficiente eta cuadrado (η2 ) , que
es el coeficiente de determinación obtenido al realizar la regresión entre la variable dicotómica, que
indica la pertenencia al grupo, y las puntuaciones discriminantes. A la raíz cuadrado de este
coeficiente se le denomina correlación canónica.
λ
η= (correlación canónica)
1+ λ
⎧ D = w 1 X 1 + w 2 X 2 + " + wk X k ⎫
Las funciones discriminantes del tipo ⎨ ⎬ clasifican a los diferentes
⎩ D − C = w1 X 1 + w 2 X 2 + " + wk X k − C ⎭
individuos en uno u otro grupo, pero no ofrecen más información acerca de los individuos
investigados.
Para realizar este tipo de cálculos se suelen asumir las hipótesis estadísticas sobre la población:
(d) Cada uno de los grupos tiene una distribución normal multivariante.
Las hipótesis implican que x g ≈ N(μg , ∑ ) , considerando además que se conocen los parámetros
poblacionales.
La clasificación de los individuos se realiza utilizando el teorema de Bayes. La aplicación del teorema
de Bayes permite el cálculo de las probabilidades a posteriori a partir de estas probabilidades a priori
y de la información muestral contenida en las puntuaciones discriminantes.
πg Prob (D / g)
Prob (g / D) = G
∑ π Prob (D / i)
i=1
i
Se presenta el cálculo de probabilidades en el caso de dos grupos, de forma que sea fácilmente
generalizable al caso de G grupos.
El cálculo de probabilidades se realiza bajo tres supuestos diferentes: (a) Cálculo de probabilidades
sin información a priori. (b) Cálculo de probabilidades con información a priori. (c) Cálculo de
probabilidades con información a priori considerando los costes.
Bajo las hipótesis estadísticas sobre la población, la probabilidad de pertenencia a cada grupo, dada
la puntuación discriminante obtenida, viene dada por la expresión:
F
eg
Prob (g / D) = g = I,II FI y FII son las funciones definidas.
eFI + eFII
Un individuo se clasifica en el grupo para el que la probabilidad sea mayor. Este criterio implica que
un individuo se clasificará en el grupo I si FI > FII
Aplicando la fórmula de probabilidad a posteriori se llega a los mismos resultados que aplicando la
D +D
fórmula discriminante de Fisher. Esto implica que el punto de corte C es el mismo: C = I II .
2
Santiago de la Fuente Fernández 12
Análisis Discriminante
) Cálculo de probabilidades a posteriori con información a priori
Cuando se utilizan probabilidades a priori los individuos se clasifican en el grupo para el que la
probabilidad a posteriori sea mayor.
F
πI e g
Prob (g / D) = g = I,II FI y FII son las funciones definidas.
πI eFI + πII eFII
Con este criterio, un individuo se clasifica en el grupo I si: FI ln πI > FII ln πII .
La aplicación implica que el punto de corte discriminante C vendrá dado por la expresión:
DI + DII π
Cp = − ln II
2 πI
La ratio de probabilidades a priori debe establecerse de forma que el punto de corte se desplace
hacia el grupo con menor probabilidad a priori. Al desplazarse el punto de corte de esta forma, se
tenderá a clasificar una proporción menor de individuos en el grupo con menor probabilidad a priori.
Hasta ahora no se ha considerado el coste que una clasificación errónea puede tener. En muchas
ocasiones el coste de clasificación errónea puede diferir para cada uno de los grupos. Por ejemplo,
en la concesión de préstamos, clasificar como fallido a un cliente cumplidor y clasificar como
cumplidor a un fallido, no es lo mismo para la entidad bancaria. En la primera de las posibilidades, el
coste para el banco es dejar de percibir los intereses del préstamo y la posible pérdida de un cliente
que en realidad es cumplidor. Por el contrario, en la segunda posibilidad el coste para el banco es la
pérdida de la cantidad prestada, ya que el cliente clasificado como cumplidor es realmente fallido. En
principio, y bajo el criterio de una prudente administración financiera, parece que el segundo tipo de
coste es superior al primero.
Se adjunta una tabla resumen del Ejercicio 1, donde se acompaña las puntuaciones
discriminantes para los 16 clientes.
DI + DII π
Para clasificar a los clientes se va a utilizar el punto de corte Cp = − ln II
2 πI
resultando:
Grupo Patrimonio Deuda Puntuación Grupo
Cliente
pertenencia Neto Pendiente discriminante clasificado
1 I 1,3 4,1 ‐3,7987 I
2 I 3,7 6,9 ‐3,9243 I
3 I 5 3 1,056 I
4 I 5,9 6,5 ‐1,2745 I
5 I 7,1 5,4 0,9927 I
6 I 4 2,7 0,3006 I
7 I 7,9 7,6 ‐0,2297 I
8 I 5,1 3,8 0,4139 I
9 II 5,2 1 3,127 II
10 II 9,8 4,2 4,9056 II
11 II 9 4,8 3,5184 II
12 II 12 2 9,233 II
13 II 6,3 5,2 0,3511 I
14 II 8,7 1,1 6,6563 II
15 II 11,1 4,1 6,3443 II
16 II 9,9 1,6 7,4323 II
La incorporación de los costes ha determinado que el nuevo punto de corte discriminante Cp , c esté
situado a la derecha del punto C, a diferencia de lo que ocurría cuando solamente se tenían en
cuenta las probabilidades a priori.
resultando:
Grupo Patrimonio Deuda Puntuación Grupo
Cliente
pertenencia Neto Pendiente discriminante clasificado
1 I 1,3 4,1 ‐6,7947 I
2 I 3,7 6,9 ‐6,9203 I
3 I 5 3 ‐1,94 I
4 I 5,9 6,5 ‐4,2705 I
5 I 7,1 5,4 ‐2,0033 I
6 I 4 2,7 ‐2,6954 I
7 I 7,9 7,6 ‐3,2257 I
8 I 5,1 3,8 ‐2,5821 I
9 II 5,2 1 0,131 II
10 II 9,8 4,2 1,9096 II
11 II 9 4,8 0,5224 II
12 II 12 2 6,237 II
13 II 6,3 5,2 ‐2,6449 I
14 II 8,7 1,1 3,6603 II
15 II 11,1 4,1 3,3483 II
16 II 9,9 1,6 4,4363 II
Se comprueba que no altera la clasificación de ningún cliente respecto a la utilización del punto de
corte inicial C. Es decir, la incorporación de los costes de clasificación errónea ha compensado, más o
menos, la menor probabilidad a priori de ser un cliente fallido.
Cada una de las funciones discriminantes Di se obtiene como función lineal de las k variables
explicativas: Di = wi1 X1 + wi2 X2 + " + wik Xk i = 1," , G − 1
Los (G − 1) ejes vienen definidos respectivamente por los vectores (w1 , w2 ," , wG−1 )
Para la obtención del primer eje discriminante se maximiza la ratio variabilidad entre grupos entre
variabilidad dentro grupos, es decir:
ϑ λ1
Derivando la ratio e igualando a cero: = 0 , con lo cual:
ϑ w1
ϑ λ1 2F w1 (w1' V w1 ) − 2 V w1 (w1' F w1 )
= =0 ⇒ 2F w1 (w1' V w1 ) − 2 V w1 (w'1 F w1 ) = 0
ϑ w1 (w1' V w1 ) 2
2 F w1 (w'1 F w1 )
operando con la expresión, resulta: =1 = λ1 6 F w1 = V w1 λ 1
2 V w1 (w1' V w1 )
⎡ w1' F w1 ⎤
Como λ1 es la ratio ⎢ ' ⎥ medirá el poder discriminante del primer eje discriminante. El resto
⎣ w1 V w1 ⎦
de los ejes discriminantes son otros vectores característicos de la matriz (V −1 F) , ordenados según el
orden decreciente de las raíces características. Así, el segundo eje discriminante tendrá menor poder
discriminante que el primero, pero más que cualquiera de los restantes.
Puesto que la matriz (V −1 F) no es simétrica, en general, esto implicará que los ejes discriminantes no
serán ortogonales, es decir, no serán perpendiculares entre sí.
En el análisis discriminante múltiple se plantean contrastes específicos para determinar si cada uno
de los valores λi es estadísticamente significativo, es decir, para determinar si cada uno de los
valores λi contribuye o no a la discriminación entre los diferentes grupos.
Este tipo de contrastes se realiza a partir del estadístico V de Barlett. El estadístico V es una función
de la Λ de Wilks y se aproxima a una chi‐cuadrado, tiene interés en el análisis discriminante por su
descomponibilidad.
Si no se rechaza la hipótesis nula citada, no se debería continuar el análisis, puesto que las variables
clasificadoras utilizadas en la investigación no tienen ningún poder discriminante significativo.
• Para examinar el poder discriminante de cada uno de los ejes que se construyen en el análisis
discriminante, se descompone el estadístico V en productos a partir de la descomposición de la Λ
de Wilks. De acuerdo con su definición, el recíproco de Λ se puede descomponer:
1 T −1
= = V T = V −1 T = V −1 T = V −1 (F + V) = I + V −1 F
Λ V
teniendo en cuenta que el determinante de una matriz es igual al producto de sus raíces
características, se obtiene que:
1
= I + V −1 F = (1 + λ1 ) (1 + λ2 ) " (1 + λ G−1 )
Λ
sustituyendo en el estadístico V de Barlett, se obtiene la expresión alternativa del estadístico:
⎡ K + G⎤ G−1
Estadístico V de Barlett: V = ⎢n − 1 −
⎣ 2 ⎥⎦
∑ln(1 + λ )
g=1
g
Si se rechaza la hipótesis nula, significa que al menor uno de los ejes discriminantes es
estadísticamente significativo. Esto implica a su vez que el primer eje discriminante es
estadísticamente significativo, debido a que es precisamente el que tiene mayor poder
discriminante.
En caso de que se acepte la hipótesis de que el primer eje discriminante es significativo, se pasa a
contrastar la significación conjunta del resto de los ejes discriminantes, utilizando el estadístico:
⎡ K + G⎤ G−1
Estadístico V de Barlett: Vj = ⎢n − 1 −
⎣ 2 ⎥⎦
∑ln(1 + λ )
g = j+1
g donde j = 0, 1, 2," , G − 2
Así, en el proceso secuencial se van eliminando del estadístico V las raíces características que van
resultando significativas, deteniendo el proceso cuando se acepte la hipótesis nula de no
significatividad de los ejes discriminantes que queden por contrastar.
Cuando una entidad financiera concede un préstamo personal a un cliente se enfrenta a la doble
posibilidad de que sea reintegrado o de que no lo sea. En este último caso el préstamo será
finalmente clasificado como fallido. Obviamente, si la entidad financiera conociera de antemano que
una persona va a resultar fallida no le concedería el préstamo en ningún caso. En esta línea, puede
utilizar la información existente en la entidad sobre préstamos concedidos en el pasado para la
concesión de préstamos futuros de forma que se evite, o al menos, se reduzca la posibilidad de
conceder préstamos que después fueran fallidos.
En los archivos de la entidad financiera existe información de las características de las personas a las
que se les ha concedido un préstamo, ya que el cliente en el momento de solicitar el préstamo ha
facilitado datos acerca de cuestiones tales como ingresos, edad, sexo, situación familiar, antigüedad
en el puesto de trabajo, régimen de tenencia de la vivienda, etc. Es muy posible que los clientes
cumplidores tengan unas características distintas a los clientes fallidos.
Utilizando estas características se trata de establecer unas funciones que clasifiquen lo más
correctamente posible a los clientes a los que se les ha concedido un préstamo en cumplidores y
fallidos (finalidad explicativa). Posteriormente, estas funciones se emplearán, en el caso de que se
haya realizado adecuadamente dicha clasificación, para determinar si se conceden o no los
préstamos futuros a futuros solicitantes (finalidad predictiva).
La tabla adjunta contiene información de 16 clientes de una entidad financiera a los que se les
concedió un préstamo. Pasados 3 años desde la concesión del préstamo, de los 16 clientes, había 8
que fueron clasificados como fallidos (grupo 1) mientras que los otros 8 clientes fueron cumplidores
(grupo 2), ya que reintegraron el préstamo.
Para cada uno de los 16 clientes se dispone de información sobre X1 = 'su patrimonio neto' y
X2 ='sus deudas pendientes', en el momento de la solicitud. Con esta información se pretende
construir una función discriminante que separe/diferencie lo más posible a los dos grupos y que
permita clasificar, con los menores errores posibles, a los distintos clientes en los dos grupos.
En primer lugar, hay que elegir cuál es la Variable de Agrupación, es decir, qué variable juega el
papel de variable categórica dependiente cuyas categorías definen los posibles grupos de
pertenencia de los individuos. En este caso, la variable es Préstamo. Además, en el botón con el
nombre Definir Rango, es necesario especificar cuáles son los valores Mínimo y Máximo de esta
variable. Se introducen los valores correspondientes: Mínimo: 1 y Máximo: 2.
Las otras dos variables, X1 = 'Patrimonio_ Neto' y X2 ='Deuda_Pendiente', se eligen como variables
independientes, cuyos valores se utilizan para construir la función discriminante. Estas variables
pueden introducirse en el modelo simultáneamente o por etapas
SPSS ofrece en los distintos botones activados del cuadro de diálogo: 'Seleccionar', 'Estadísticos',
'Clasificar', 'Guardar'. El botón 'Método' sólo se activa si previamente se ha elegido Introducir las
variables con un Método por pasos.
Seleccionar: Permite reducir el análisis a un subgrupo de la muestra total, subgrupo que vendrá
definido por una variable de selección. Este no es el caso, no se elige esta opción.
ESTADÍSTICOS UTILIZADOS:
F de Snedecor: Se compara para cada variable las desviaciones de las medias de cada uno de los
grupos a la media total, entre las desviaciones a la media dentro de cada grupo.
‐ Si F es grande para cada variable, entonces las medias de cada grupo están muy separadas y
la variable discrimina bien.
‐ Si F es pequeña para cada variable, la variable discrimina poco, ya que habrá poca
homogeneidad en los grupos y éstos estarán muy próximos.
Como criterio general para seleccionar una variable se emplea la selección del valor de la λ de Wilks
o, de modo equivalente, del valor de su F asociada.
(a) Se incluye en el análisis la variable que tenga el mayor valor real aceptable para el criterio de
selección o de entrada.
(b) Se evalúa el criterio de selección para las variables no seleccionadas. La variable que presenta el
valor más alto para el criterio se selecciona (siempre que se encuentre dentro de un límite).
(c) Se examinan las variables seleccionadas según un criterio de salida y se examinan también las
variables no seleccionadas, para ver si cumplen el criterio de entrada. Se excluyen o se incluyen
variables según cumplan los criterios de entrada y salida.
(d) Se repite el proceso © hasta que ninguna variable más pueda ser seleccionada o eliminada.
Además de todo lo expuesto, en el SPSS se considera un número máximo de pasos, dado que una
variable puede ser incluida y eliminada en más de una ocasión. Se toma el doble del número de
variables originales como número máximo de pasos del método stepwise.
En SPSS se considera también para cada variable la tolerancia asociada: Se define para un conjunto
de p variables, Ri ≡ coeficiente de correlación múltiple, que expresa el porcentaje de variabilidad de
la variable (x i i = 1," ,p) recogida por el resto de (p − 1) variables. R2i ≡ coeficiente de determinación.
La tolerancia se define como (1 − R2i ) . Cuanto mayor sea la tolerancia de una variable, más
información independiente del resto de variables recogerá.
De este modo, si en una iteración dada del procedimiento stepwise la variable seleccionada verifica
que su tolerancia con respecto a las variables ya incluidas en la función discriminante es muy
pequeña entonces la variable no se incluye en dicha etapa. Así, se evita la redundancia de
información.
DESCRIPTIVOS:
Medias: Proporciona el vector de medias (los centroides) y desviaciones típicas de cada variable
para cada grupo.
Univariante ANOVA: Contrasta igualdad de medias entre los grupos para cada variable.
COEFICIENTES DE LA FUNCIÓN:
MATRICES:
⎡ ⎤
(X(i1k) − X1(k) )2 ∑ (X − X1(k ) )(X(i2k) − X2(k ) )⎥
nk nk
⎢ ∑ (k )
i1
Sk = ⎢ nk i=1 i=1 ⎥ k = 1,2
⎢ (X(k ) − X (k) )(X(k) − X (k) ) (Xi2 − X2 ) ⎥⎥
nk
⎢⎣∑ ∑ (k ) (k ) 2
i1 1 i2 2
i=1 i=1 ⎦
(n1 − 1) S1 + (n2 − 1) S2
S=
n1 + n2 − 2
Covarianza Total: Proporciona la matriz de varianzas y covarianzas de (X1, X2) para todos los
n1+ n2 = 16 individuos de la población, sin distinción de grupo.
La segunda restricción se ocupa de la igualdad entre las matrices de covarianzas de los grupos.
Para comprobar esto, se puede utilizar la Prueba M de Box, que tiene como hipótesis nula que
las matrices de covarianzas son iguales. Se basa en el cálculo de los determinantes de las
matrices de covarianzas de cada grupo. El valor obtenido se aproxima por una F de Snedecor. Si
el p_valor < 0,05 se rechaza la igualdad entre las matrices de covarianzas.
V V 1
Λ= = = min(q−1, p) (0 ≤ Λ ≤1)
T V +F
∏ (1 + λI)
i=1
Cuanto más cerca de 0 mayor es el poder discriminante de las variables consideradas, y cuanto
más cerca de 1 menor es el poder discriminante.
Estadísticos asociados: F de Rao; χ2 de Barlett (tests sobre las diferencias de medias en ambos
grupos)
λi
La i‐ésima correlación canónica viene dada por: CRi =
1 + λi
PROBABILIDADES PREVIAS:
Son las probabilidades a priori para cada grupo. En este caso serían p1 = p(pertenecer al grupo 1),
p2 = p(pertenecer al grupo 2). Estos valores se utilizan, por ejemplo, en la regla de clasificación de la
máxima verosimilitud bajo el supuesto de normalidad.
Intra‐grupos: De esta manera se especifica que cuando se obtengan los autovectores de la matriz
(V −1 F) , que son precisamente los coeficientes de las distintas funciones discriminantes, se utilice la
restricción a’Sa=1, utilizando la matriz de varianzas entre grupos 'combinada' S.
MOSTRAR:
Resultados para cada caso: Muestra el proceso de clasificación paso a paso para cada uno de los 16
individuos de la población, con las probabilidades a posteriori para cada uno de ellos, calculadas a
partir de las puntuaciones discriminantes.
Tabla de resumen: Proporciona la matriz de confusión, es decir la matriz de clasificación para los
propios 16 individuos de la muestra para los que conocemos de antemano su adscripción.
Clasificación dejando uno fuera: Proporciona la matriz de clasificación pero obtenida con el método
Jacknife, que obtiene, en general una estimación de la proporción de clasificaciones erróneas más
fiable.
GRÁFICOS:
Grupos separados: Representa un gráfico como el anterior pero para cada grupo.
En este caso, representaría en el primer gráfico únicamente los 8 individuos del grupo 1 y en el
segundo sólo los 8 del grupo 2.
Se muestran los estadísticos descriptivos: media y desviación típica total de (X1, X2) sobre los
n = n1 + n2 = 16 individuos y para los dos grupos: Media y desviación típica de (X1, X2) para los n1= 8
clientes del grupo 1, y media y desviación típica de (X1, X2) para los n2 = 8 clientes del grupo 2.
Se observa que el punto de corte discriminante de los dos grupos para la variable
X1 = 'Patrimonio_Neto' se encuentra en el valor 7:
X1 , I + X1, II 5+9
X1, I = 5 X1, II = 9 C1 = = =7
2 2
El punto de corte se toma como referencia para clasificar a un individuo en uno u otro grupo (fallido,
cumplidores): Si el Patrimonio_Neto es menor que 7 se clasifica al cliente como fallido (grupo 1),
mientras que se clasifica como cumplidor (grupo 2) si el Patrimonio_Neto es mayor que esa cifra.
Por otra parte, el punto de corte discriminante de los dos grupos para la variable X2 =
'Deuda_Pendiente' de los dos grupos será:
X2 , I + X2 , II 5+3
X2 , I = 5 X2 , II = 3 C1 = = =4
2 2
Si las deudas pendientes son mayores que 4 se clasifica al cliente como fallido (grupo 1), mientras
que se clasifica como cumplidor (grupo 2) si las deudas pendientes son menores que esa cifra.
Por otra parte, la media ponderada de S1 y S2 debe de coincidir con la matriz 'intra‐grupos
combinada', denominada S. Es decir, debe verificarse que:
Aparece después la Prueba de Box para el contraste de la hipótesis nula de igualdad de las matrices
de varianzas‐covarianzas poblacionales. Uno de los supuestos del análisis discriminante es que todos
los grupos proceden de la misma población y, más concretamente, que las matrices de varianzas‐
covarianzas poblacionales correspondientes a cada grupo son iguales entre sí.
g
El estadístico M de Box toma la forma: M = (n − g) log S − ∑ (nj − 1) log S j
j=1
A continuación aparecen los resultados del análisis discriminante (estadísticos por pasos):
Las variables son introducidas/eliminadas del modelo en la medida en que tengan asociado un
menor valor del estadístico Λ de Wilks.
Como hay g=2 grupos y p=2 variables, sólo hay q=min (k, g‐1)=1 función discriminante, o
equivalentemente, la matriz (V −1 F) tiene rango q=min (k, g‐1)=1 y sólo hay un autovalor distinto de
cero, λ1=1,716, que es el que aparece en la tabla.
El autovalor de una función se interpreta como la parte de variabilidad total de la nube de puntos
proyectada sobre el conjunto de todas las funciones atribuible a la función. Si su valor es grande, la
función discriminará mucho.
λ1 1,716
Además, se refleja el coeficiente eta o correlación canónica: η = = = 0,795
1 + λ1 1 + 1,716
Las correlaciones canónicas, miden las desviaciones de las puntuaciones discriminantes entre grupos
respecto a las desviaciones totales sin distinguir grupos. Si su valor es grande (próximo a 1) la
dispersión será debida a las diferencias entre grupos, y en consecuencia, la función discriminará
mucho.
1 1
El estadístico del contraste de significación global Lambda de Wilks: Λ = = = 0,368
1 + λ1 1 + 1,716
que conduce a rechazar la hipótesis nula de igualdad de medias [p‐valor = 0,02 < 0,05], lo que indica
la conveniencia de extraer una (la única posible) función discriminante, o lo que es lo mismo, que
dicha función sea significativa.
Interpretación de las funciones discriminantes: a la vista de los valores de ρ(X1,y), y ρ(X2,y), parece
que la variable que más contribuye a la discriminación es X1 ='Patrimonio_Neto'
MATRIZ DE ESTRUCTURA: Es conveniente conocer cuáles son las variables que tienen mayor poder
discriminante en orden a clasificar a un individuo en uno de los grupos (fallidos, cumplidores). Una
forma de medir ese poder discriminante es calculando el coeficiente de correlación entre cada una
de las variables y la función discriminante. Esta es precisamente la información que se da en la tabla
(Matriz de estructura), en este caso, la correlación de la función discriminante con la variable
Patrimonio_Neto (0,748) es mayor en valor absoluto que con la variable Deuda_Pendiente (0,452).
Las comparaciones deben hacerse siempre en valor absoluto. En el programa SPSS las variables
aparecen ordenadas de acuerdo con el valor absoluto de los coeficientes de correlación.
Estadísticos de clasificación:
1 ' −1
Para el grupo 1, la función de clasificación es de la forma: d̂I (x) = x1' S −1 x − x1 S x1 + ln(p1 )
2
−1 −1
⎡4 ,764 1,001⎤ ⎡X 1 ⎤ 1 ⎡4 ,764 1,001⎤ ⎡5⎤
d̂I (x) = [5 5] ⎢ ⎥ ⎢X ⎥ − 2 [5 5] ⎢1,001 3,259⎥ ⎢5⎥ + ln(0,5) =
⎣1,001 3,259⎦ ⎣ 2⎦ ⎣ ⎦ ⎣ ⎦
X X2
1
= 0,777.Patrimonio _ Neto + 1,296.Deuda _ Pendiente − 5,876
1 ' −1
Para el grupo 2, la función de clasificación es de la forma: d̂II (x) = x2' S −1 x − x2 S x2 + ln (p2 )
2
−1 −1
⎡4 ,764 1,001⎤ ⎡X1 ⎤ 1 ⎡4 ,764 1,001⎤ ⎡9⎤
d̂II (x) = [9 3] ⎢ ⎥ ⎢X ⎥ − 2 [9 3] ⎢1,001 3,259⎥ ⎢3⎥ + ln(0,5) =
⎣1,001 3,259⎦ ⎣ 2⎦ ⎣ ⎦ ⎣ ⎦
X X2
1
= 1,813.Patrimonio _ Neto + 0,364 .Deuda _ Pendiente − 9,396
Cada sujeto será asignado al grupo en el que obtenga un mayor valor de estas funciones.
Estadísticos por casos: Para cada caso, se muestran las puntuaciones discriminantes, las
distancias de Mahalanobis de dichas puntuaciones al centroide de cada grupo y las probabilidades a
posteriori obtenidas a partir de esas distancias.
En este caso solo se ha encontrado un caso mal clasificado según la función lineal discriminante, se
trata del grupo 2 (caso 13 en la tabla de estadísticos de clasificación) que ha sido incluido
erróneamente dentro del grupo 1.
El director de la entidad financiera clasifica a las dos solicitudes de préstamos. Para ello, basta
sustituir, en la función discriminante de Fisher, los valores de Patrimonio_Neto y
Deuda_Pendiente:
D − C = 1,035.Patrimonio _ Neto − 0,932.Deuda _ Pendiente − 3,520
El cuadrado de la distancia euclídea d2ij entre los puntos (i, j) viene dado por la expresión:
p
d2ij = (xi − x j ) (x i − x j ) = ∑ (Xih − X jh ) 2
h=1
Con el criterio de Mahalanobis, aplicando DM2ij = (x i − x j )' Vw−1 (x i − x j ) , se calcula la distancia entre
cada punto y los dos centroides.
⎧ DMi2, I = (x i − xI )' Vw−1 (x i − xI )
⎪
Así, para el punto i‐ésimo se obtienen estas dos distancias: ⎨
⎪ DM2 = (x − x )' V −1 (x − x )
⎩ i , II i II w i II
La aplicación de este criterio consiste en asignar cada individuo al grupo para el que la distancia
de Mahalanobis es menor.
La distancia de Mahalanobis clasifica a los individuos exactamente igual que lo hace la función
discriminante de Fisher. La diferencia entre uno y otro tipo de procedimiento es que, mientras la
distancia de Mahalanobis se calcula en el espacio de las variables originales, en el criterio de
Un banco realiza un estudio con el objetivo de identificar con la mayor precisión posible aquellas
solicitudes de préstamos que probablemente puedan llegar a convertirse en morosos o fallidos en el
caso que se concedieran. Para ello, dispone de la información reflejada en la tabla adjunta, relativa a
25 clientes y a las variables que se analizan:
) Cumplimiento: Grado de cumplimiento del cliente en el reintegro del préstamo. Toma el valor 1
si el cliente es cumplidor, 2 si es moroso y 3 si es fallido.
) Ingresos: Ingresos anuales del cliente, en miles de euros.
) Patrimonio Neto: Patrimonio neto del cliente en miles de euros.
) Vivienda: Variable dicotómica que toma el valor 1 si el cliente es propietario; 0 en caso contrario.
) Casado: Variable dicotómica que toma el valor 1 si está casado; 0 en otro caso.
) Contrato Trabajo: Variable dicotómica que toma el valor 1 si el cliente es asalariado con contrato
fijo; 0 en otro caso.
Se trata de un Análisis discriminante múltiple, ya que el banco ha clasificado a los clientes en tres
grandes grupos, habrá que construir funciones discriminantes que permitan clasificar, con los
menores errores posibles, a los clientes en los diferentes grupos. Si se obtienen buenos resultados,
estas funciones discriminantes se podrán utilizar para analizar si se concede un préstamo o no a un
futuro cliente peticionario.
En consecuencia, las variables (Vivienda) y (Casado) no deberían tener una gran influencia a la hora
de clasificar a los clientes en uno u otro grupo. Obsérvese que en ambos casos, p_valor > 0,05, se
acepta la hipótesis nula, es decir, los grupos en media son iguales.
∑ V ∑ (n
g =1
g
g =1
g − 1) Sg
covarianzas global, calculada según la expresión S = = (donde S es una estimación
n−G n−G
de la matriz de covarianzas global Σ), así como el rango de cada una de estas matrices.
Las matrices son de orden 5x5, ya que existen cinco variables clasificadoras.
Si las matrices son no singulares (tienen inversa) su rango debe de ser 5. Se observa, en este caso,
que la matriz correspondiente al grupo 3 (cliente fallido) no se calcula porque existen muy pocos
casos para ser no singular, en efecto se puede observar que el número de individuos que pertenecen
al grupo 3 (clientes fallidos) es justamente 5 y con este tamaño la matriz de covarianzas de los
residuos es necesariamente singular.
Debido a que la matriz del grupo 3 (fallidos) es singular, SPSS contrasta la igualdad de las matrices de
covarianzas poblacionales en los grupos 1 y 2, respectivamente, cliente cumplidores y morosos,
estimando la matriz de covarianzas global con los datos de estos dos grupos. El nivel de significación
crítico que se obtiene en este contraste es 0,048, con lo que se acepta la hipótesis nula para un nivel
de significación del 1% (0,048 > 0,01), pero no para un nivel del 5% (0,048 < 0,05, rechazándose la
hipótesis nula).
En la tabla de Lambda de Wilks se aplica el contraste de significación para el conjunto de los dos ejes
discriminantes. El contraste V de Barlett que se aplica es:
⎡ K + G⎤ G−1
Vj = ⎢n − 1 −
⎣ 2 ⎥⎦
∑ln(1 + λ )
g= j+1
g donde j = 0, 1
K + G⎤
⎡
V0 = ⎢n − 1 − ⎥ [ln(1 + λ1 ) + ln(1 + λ2 )] = ⎡⎢25 − 1 − 2 + 3 ⎤⎥ [ln(1 + 2,264) + ln(1 + 0,043)] = 26,343
⎣ 2 ⎦ ⎣ 2 ⎦
Obsérvese que se cumple la relación entre la landa de Wilks y las raíces características (autovalores):
1 1
Λ= = = 0,294
(1 + λ1 ) (1 + λ2 ) (1 + 2,264) (1 + 0,043)
Una vez determinada la significatividad del primer eje discriminante, se contrasta la significatividad
de los restantes, en este caso, del segundo eje discriminante. El contraste a aplicar es el siguiente:
K + G⎤
⎡
V1 = ⎢n − 1 − ⎥ [ln(1 + λ2 )] = ⎡⎢25 − 1 − 2 + 3 ⎤⎥ [ln(1 + 0,043)] = 0,909
⎣ 2 ⎦ ⎣ 2 ⎦
La relación entre la landa de Wilks (obtenida después de excluir la primera función discriminante) y
la segunda raíz característica (segundo autovalor) es la siguiente:
1 1
Λ1 = = = 0,959
(1 + λ2 ) (1 + 0,043)
λ1 2,264 λ1 0,043
η1 = = = 0,833 η2 = = = 0,203
1 + λ1 1 + 2,264 1 + λ1 1 + 0,043
Los resultados obtenidos confirman que la capacidad explicativa de la segunda función discriminante
es muy inferior a la primera. Una confirmación final de esta conclusión es que el porcentaje de
varianza explicada con la primera función discriminante es del 98,1%, mientras que la varianza
explicada con la segunda función discriminante es del 1,9%. Con lo que a efectos prácticos se podría
prescindir de la segunda función discriminante, sin que afectase de forma importante a los
resultados de la clasificación.
MATRIZ DE ESTRUCTURA: Conviene conocer cuáles son las variables que tienen mayor poder
discriminante en orden a clasificar a un individuo en uno de los grupos (cumplidor, moroso, fallido).
Una forma de medir ese poder discriminante es calculando el coeficiente de correlación entre cada
una de las variables y la función discriminante. Con un asterisco se indica el coeficiente más grande
(en valor absoluto) que tiene cada variable.
Así, la variable Casado tienen su mayor coeficiente con la función discriminante 1, mientras que las
variables Contrato_Trabajo e Ingresos lo tienen con la función discriminante 2.
Aparecen las puntuaciones de los centroides de los grupos (Patrimonio_Neto, Contrato_Trabajo) con
respecto a las funciones discriminantes (conviene darse cuenta que en este caso no hay un punto de
corte discriminante, pues el conjunto de datos se encuentra separado en tres grupos).
Ahora falta calcular el valor de tres funciones de clasificación, y se clasificará a cada individuo en
aquél grupo cuya función discriminante resulte tomar el mayor valor.
Para su aplicación, se calcula la puntuación de cada individuo en cada uno de los grupos, utilizando
las funciones clasificadoras. Finalmente, un individuo se clasifica en el grupo en el que ha alcanzado
la puntuación más elevada.
El mapa territorial sirve para ver cómo quedan la clasificación en función de las dos funciones
lineales discriminantes:
El mapa territorial delimita, en el plano de las dos funciones discriminantes (no estandarizadas), las
áreas que se asignan a cada grupo. El área situada en la parte derecha de la función discriminante 1
es la correspondiente al grupo 1, mientras que el área de la izquierda corresponde al grupo 3. Se
clasifican en el grupo 2 los individuos con puntuaciones discriminantes canónicas situadas en el
triángulo de la parte central.
La salida de SPSS recoge el cálculo de probabilidades a posteriori, puntuaciones discriminantes y
resultados de la clasificación. En este caso, no aparece la columna etiquetada con (valores faltantes)
donde se refleja casos o individuos para los que no se dispone de información completa. Aparece la
columna Grupo real de pertenencia y Grupo pronosticado, que cuando aparece con un asterisco
refleja que el individuo a que corresponda se le clasifica de forma errónea.
Las columnas siguientes son relativas al cálculo de probabilidades. Las probabilidades a posteriori
P(G/D) se calculan para cada grupo con la fórmula:
⎧ g ≡ grupo
F
πI e g
Prob (g / D) = g = I, II ⎨ (extendida a tres variables)
πI e + πII e ⎩ πi ≡ probabilid ad a priori
FI FII
Con este criterio se clasifica a un individuo en el grupo I si: FI ln πI > FII ln πII .
La aplicación de este criterio implica que el punto de corte discriminante Cp viene definido por:
DI + DII π
Punto de corte con información a priori: Cp = − ln II
2 πI
En la salida del SPSS se indica la probabilidad a posteriori más alta con indicación al grupo a que
corresponde y la segunda probabilidad más alta con indicación del grupo. Junto a la probabilidad
más alta aparece la probabilidad de la puntuación discriminante P(D/G), que no tiene interés
especial en el análisis.
Las dos últimas columnas se refieren a las puntuaciones discriminantes. Cada una de ellas
corresponde a una función discriminante. En SPSS estas puntuaciones se calculan utilizando los
coeficientes de las funciones discriminantes canónicas no estandarizadas.
Estadísticos por caso: Para cada caso, se muestran las puntuaciones discriminantes, las distancias de
Mahalanobis de dichas puntuaciones al centroide de cada grupo y las probabilidades a posteriori
obtenidas a partir de esas distancias.
Se observa que hay seis casos mal clasificados, comprobándose como las probabilidades de
pertenencia son mayores para la pertenencia al grupo mayor, y también que las puntuaciones
discriminantes son las que sitúan a cada caso en el mapa territorial.