Analisis Discriminante

Portal Estadística Aplicada ‐ Análisis Discriminante 1

ANÁLISIS DISCRIMINANTE
El Análisis Discriminante es una técnica estadística multivariante cuya finalidad es analizar si existen
diferencias significativas entre grupos de objetos respecto a un conjunto de variables medidas sobre los
mismos para, en el caso de que existan, explicar en qué sentido se dan y facilitar procedimientos de
clasificación sistemática de nuevas observaciones de origen desconocido en uno de los grupos analizados.
¿Se puede predecir si una empresa va a entrar en bancarrota?
¿Es posible predecir con antelación si un cliente que solicita un préstamo a un banco va a ser un
cliente moroso?
¿Existe discriminación por razones de sexo o de raza en una empresa o en un colegio?
El Análisis Discriminante se puede considerar como un análisis de regresión donde la variable dependiente
es categórica y tiene como categorías la etiqueta de cada uno de los grupos, mientras que las variables
independientes son continuas y determinan a qué grupos pertenecen los objetos.
• Se pretende encontrar relaciones lineales entre las variables continuas que mejor discriminen en los
grupos dados a los objetos.
• Construir una regla de decisión que asigne un objeto nuevo con un cierto grado de riesgo, cuya
clasificación previa se desconoce, a uno de los grupos prefijados.
Para efectuar el análisis es necesario considerar una serie de supuestos:
(a) Se tiene una variable categórica y el resto de variables son de intervalo o de razón y son
independientes respecto de ella.
(b) Se necesitan al menos dos grupos, y para cada grupo se necesitan dos o más casos.
(c) El número de variables discriminantes debe ser menor que el número de objetos menos 2, es decir,
(x1 , x2 , " , xp ) donde p < (n − 2) siendo n ≡ número de objetos.
(d) Ninguna variable discriminante puede ser combinación lineal de otras variables discriminantes.
(e) Máximo funciones discriminantes = mínimo(número variables, número grupos − 1) , con q grupos
y (q − 1) funciones discriminantes.
(f) Las matrices de covarianzas dentro de cada grupo deben de ser aproximadamente iguales.
(g) Las variables continuas deben seguir una distribución normal multivariante.
MODELO MATEMÁTICO
Partiendo de q grupos donde se asignan a una serie de objetos y de p variables medidas sobre ellos
(x1 , x2 , " , xp ) , se trata de obtener para cada objeto una serie de puntuaciones que indican el grupo al
que pertenecen (y1 , y 2 ," , ym ) , de modo que sean funciones lineales de (x1 , x2 , " , xp ) :
⎧ y1 = w11 x1 + w12 x2 + " + w1p xp + w10

⎪
⎨ ............................................................ m = mín ⎡⎣ q − 1, p ⎦⎤
⎪y = w x + w x + " + w x + w
⎩ m m1 1 m2 2 mp p 10
tales que discriminen o separen lo máximo posible a los q grupos.

Estas combinaciones lineales de las p variables deben maximizar la varianza entre los grupos y minimizar
la varianza dentro de los grupos.

DESCOMPOSICIÓN DE LA VARIANZA: La variabilidad total de la muestra se puede descomponer en
variabilidad dentro de los grupos y entre los grupos. Para ello, se parte:
1 n
Cov(x j , x j ' ) = ∑ (xi j − x j ) (xi j ' − x j ' )
n i=1
se puede considerar la media de la variable x j en cada uno de los grupos (I1 , I2 , " , Iq ) , es decir,
1
xk j =
nk
∑ xi j para k = 1, " , q .
i ∈ Ik
De esta forma, la media total de la variable x j se puede expresar como función de las medias dentro de
cada grupo: nk xk j = ∑ xi j
i ∈Ik
1 n
1 q 1 q q
nk
con lo cual, x j =
n
∑ xi j = ∑
n k =1
∑ xi j = ∑ nk xk j =
n k =1
∑ n
xk j
i=1 i ∈ Ik k =1
1 q
Así, Cov(x j , x j ' ) = ∑ ∑ (xi j − x j ) (xi j ' − x j ' )
n k =1 i ∈ Ik
⎧ (xi j − x j ) = (xij − xk j ) + (xk j − x j )

⎪
Poniendo en cada uno de los términos: ⎨ se obtiene,
⎪(x − x ) = (x − x ) + (x − x )
⎩ i j' j' i j' j' k j' k j'
1 q 1 q
Cov(x j , x j ' ) = ∑
n k =1
∑ (xi j − x j ) (xi j ' − x j ' ) =
n
∑ ∑ (xi j − xk j ) (xi j ' − x j' k ) +
i ∈ Ik k = 1 i ∈ Ik
q
nk
+ ∑ (xk j − x j ) (x j'j ' k − x j ' ) = V(x j , x j ' ) + F(x j , x j ' ) →
k =1 n
Covarianza total C ovarianza dentro grupos C ovarianza entre grupos MATRICIALMENTE

→ T (x , x ) = V(x , x ) + F(x , x ) ⇒ T= V+ F
j j' j j' j j'
La covarianza total es igual a la covarianza dentro de los grupos más la covarianza entre grupos.

EXTRACCIÓN FUNCIONES DISCRIMINANTES
La idea básica del Análisis Discriminante consiste en extraer a partir de (x1 , x2 , " , xp ) variables
observadas en k grupos, m funciones (y1 , y 2 ," , ym ) de forma que:
y i = wi1 x1 + wi2 x2 + " + wip xp + wi 0 donde m = mín(q − 1, p) , tales que corre(y i ,y j ) = 0 ∀ i ≠ j
( )
Si las variables (x1 , x2 , " , xp ) están tipificadas, las funciones y i = wi1 x1 + wi2 x2 + " + wip xp para
(i = 1, " , m) se denominan discriminantes canónicas.
Las funciones (y1 , y 2 ," , ym ) se extraen de modo que:
• y1 sea la combinación lineal de (x1 , x2 , " , xp ) que proporciona la mayor discriminación posible entre
los grupos.
• y 2 sea la combinación lineal de (x1 , x2 , " , xp ) que proporciona la mayor discriminación posible entre
los grupos, después de y1 , tal que corre(y1 ,y 2 ) = 0
• En general, y i es la combinación lineal de (x1 , x2 , " , xp ) que proporciona la mayor discriminación
posible entre los grupos, después de y i − 1 , tal que corre(y i ,y j ) = 0 para j = 1, " , (i − 1)
MATRICIALMENTE: Se busca una función lineal de (x1 , x2 , " , xp ) : Y = w'X

Siendo covarianza total es igual a la covarianza dentro de los grupos más la covarianza entre grupos.
T = V + F.
De modo que, Var (y) = w' T w = w'F w + w' V w
Se maximiza la variabilidad entre los grupos para discriminarlos mejor, es decir, se maximiza la varianza
⎡ w'F w ⎤
entre grupos en relación con el total de la varianza: máx ⎢ ⎥
⎣ w' T w ⎦
w'F w
Considerando la función f(w) = se observa que es una función homogénea, es decir,
w' T w
⎡ w'F w ⎤
f(w) = f(μ w) ∀μ∈ R . El hecho de que sea homogénea implica que calcular máx ⎢ ⎥ equivale a
⎣ w' T w ⎦
calcular máx ⎣⎡w'F w ⎦⎤ tal que w' T w = 1
Como es el esquema habitual de los multiplicadores de Lagrange, se define:

ϑL
L = w'F w − λ ( w' T w − 1 ) → = 2F w − 2 λ T w = 0 ⇒ F w = λ T w ⇒ (T −1 F) w = λ w
ϑw
En consecuencia, el autovector asociado a la primera función discriminante lo es de la matriz (T −1 F) , que
en general no es simétrica.
Como F w = λ T w , se tiene w'F w = λ w' T w = λ

Por tanto, tomando el vector asociado al máximo autovalor se obtendrá la función que recoge el máximo
poder discriminante.
El autovalor asociado a la función discriminante indica la proporción de varianza total explicada por las m
funciones discriminantes que recoge la variable y i

Para obtener más funciones discriminantes se siguen sacando los autovectores de la matriz (T −1 F)
⎧ w'2 → w2' X = Y2
⎪
asociados a los autovalores elegidos en orden decreciente: ⎨ .......................... m = mín(q − 1, p) .
⎪ '
⎩ wm → wm X = Ym
'
Estos vectores son linealmente independientes y dan lugar a funciones incorreladas entre sí.
m
La suma de todos los autovalores ∑ λi es la proporción de varianza total que queda explicada, o se
i=1
conserva, al considerar sólo los ejes o funciones discriminantes.
Como consecuencia, el porcentaje explicado por la variable y i del total de varianza explicada por las
λ
funciones (y1 , y 2 ," , ym ) es: m i 100%
∑ λi
i= 1
ANÁLISIS DISCRIMINANTE: OBJETO

Clasificar las observaciones de la muestra en grupos, a partir de la información suministrada por un
conjunto de variables.
Un conjunto de variables Una variable categórica señalando

explicativas o criterio los grupos
Variables clasificadoras Variable dependiente

ANÁLISIS DISCRIMINANTE (A, D): CRITERIO DE CLASIFICACIÓN
Hipótesis: Las distribuciones sólo se diferencian por su localización (igual forma y varianza)
Se trata de minimizar los errores de clasificación
Si xi < C se clasifica en el grupo I
Si xi > C se clasifica en el grupo I
XI + XII
El punto C se denomina punto de corte discriminante: C =
2

ENFOQUES DE ANÁLISIS
Basado en la obtención de funciones discriminantes de cálculo similar a las ecuaciones de regresión
lineal múltiple. Consiste en conseguir, a partir de las variables explicativas, unas funciones lineales de
éstas con capacidad para clasificar a otros individuos. A cada nuevo caso se aplican dichas ecuaciones y la
función de mayor valor define el grupo al que pertenece.
Basado en técnicas de correlación canónica y de componentes principales (Análisis Factorial)
denominado Análisis Discriminante Canónico.
CLASIFICACIÓN EN DOS GRUPOS

Se estudia la aplicación del Análisis Discriminante (AD) a la clasificación de individuos en el caso de
que se puedan asignar solamente a dos grupos a partir de k variables discriminadoras.
Fisher resuelve el problema mediante su función discriminante: D = w1 X1 + w2 X 2 + " + wk Xk
Las puntuaciones discriminantes son los valores que se obtienen al dar valores a (X1 , X 2 , " , Xk ) en la
ecuación anterior.
Se trata de obtener los coeficientes de ponderación w j
Si se consideran N observaciones → La función discriminante Di = w1 X1i + w2 X 2 i + " + wk Xk i

para ∀ i = 1, " , N .
Di es la puntuación discriminante correspondiente a la observación i‐ésima.
⎛ D1 ⎞ ⎛ X11 X 21 " Xk1 ⎞ ⎛ w1 ⎞

⎜ ⎟ ⎜ ⎟ ⎜ ⎟
D2 X12 X 22 " Xk2 ⎟ ⎜ w2 ⎟
La función discriminante en forma matricial: ⎜ ⎟ = ⎜
⎜ # ⎟ ⎜ # # ⎟ ⎜ # ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎝ DN ⎠ ⎝ X1N X 2N " XkN ⎠ ⎝ wk ⎠

Expresando el modelo en función de las desviaciones a la media, resulta:
⎛ D1 − d 1 ⎞ ⎛ X11 X 21 " Xk1 ⎞ ⎛ w1 ⎞

⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ D2 − d 2 ⎟ ⎜ X12 X 22 " Xk2 ⎟ ⎜ w2 ⎟
⎜ ⎟=⎜ # # # # ⎟ ⎜ # ⎟
d = X w es la función discriminante en diferencias
⎜ # ⎟ ⎜ ⎟ ⎜ ⎟
⎜ DN − d N ⎟ ⎝ X1N X 2N " XkN ⎠ ⎝ wk ⎠
⎝ ⎠
La variabilidad de la función discriminante (suma de cuadrados de las desviaciones de las variables
discriminantes con respecto a su media) se expresa:
Suma de cuadrados explicada por esta función: d' d = w' X' X w
X' X es una matriz simétrica que expresa las desviaciones cuadráticas con respecto a la media
de las variables (suma de cuadrados total).
Se puede descomponer en suma de cuadrados entre grupos F y suma de cuadrados dentro de
los grupos V:
T = X' X (matriz de suma de cuadrados y productos cruzados (varianzas‐covarianzas) para el
conjunto de observaciones: T = X' X = F + V
con lo cual, d' d = w' X' X w = w' (F + V) w = w' F w + w' V w
Los ejes discriminantes vienen dados por los vectores propios asociados a los valores propios de la
matriz (V −1 F) ordenados de mayor a menor.
Las puntuaciones discriminantes se corresponden con los valores obtenidos al proyectar cada punto
del espacio k‐dimensional de las variables originales sobre el eje discriminante.
w' F w separación entre grupos
Los coeficientes w se obtienen: máx λ = =
w' V w separación dentro grupos
CLASIFICACIÓN
Se obtienen las puntuaciones discriminantes di para cada observación, introduciendo los
correspondientes valores de las k variables en la función discriminante.
⎧di < C (di − C) < 0 → pertenece al grupo I

Se aplica el criterio de clasificación: ⎨
⎩ di > C (di − C) > 0 → pertenece al grupo II
Otro camino: Funciones discriminantes para cada grupo → Se clasifica la observación en el grupo
en que la función correspondiente arroja mayor valor.
HIPÓTESIS
Las variables son independientes y se distribuyen normalmente → problemas en la estimación.
Las matrices de las varianzas y covarianzas son iguales en todos los grupos → afecta a la
clasificación.
No multicolinealidad entre las variables clasificadoras.
Las relaciones son lineales.
No existen valores anómalos (outliers).

CENTROIDES PARA CADA GRUPO (GRUPO I, GRUPO II)
⎛ X1I ⎞ ⎛ X1II ⎞
⎜ ⎟ ⎜ ⎟
⎜ X2I ⎟ ⎜ X2II ⎟
XI = ⎜ ⎟ XII = ⎜ ⎟ Los subíndices I y II indican a qué grupo pertenece la variable.
⎜ # ⎟ ⎜ # ⎟
⎜ Xk I ⎟ ⎜ Xk II ⎟
⎝ ⎠ ⎝ ⎠
⎧ DI = w1 X1I + w2 X2I + " + wk Xk I

⎪
PARA CADA GRUPO ⎨
⎪D = w X + w X + " + w X
⎩ II 1 1II 2 2II k k II
⎧ • Si Di < C se clasifica al individuo i en el grupo I

CRITERIO PARA CLASIFICAR ⎪
⎨
A UN INDIVIDUO ⎪ • Si D > C se clasifica al individuo i en el grupo II
⎩ i
DI + DII
C: punto de corte discriminante C =
2
EN GENERAL:
{ D − C = w1 X1 + w2 X2 + " + wk XK − C } se clasifica dependiendo si (D − C) es positivo o negativo.
INFERENCIAS Y CÁLCULO DE PROBABILIDADES
La obtención de la función discriminante la realizó Fisher aplicando un enfoque puramente descriptivo.
Cuando en el análisis discriminante se desean abordar cuestiones de carácter inferencial y otros relativos
al modelo poblacional se requiere la formulación previa de hipótesis estadísticas.
Las cuestiones de tipo inferencial se refieren a diversos contrastes de significación sobre el modelo, así
como contrastes utilizados en el proceso de selección de variables cuando el número de éstas es muy
grande y no se conoce a priori las variables que son relevantes en el análisis.
Por otra parte, el cálculo de probabilidad de pertenencia a un grupo requiere que previamente se haya
postulado algún modelo probabilístico de la población.
Las hipótesis estadísticas que se adoptan, análogas a las postuladas en el análisis multivariante de la
varianza, se refieren tanto a la población como al proceso de obtención de la muestra.
) HIPÓTESIS ESTADÍSTICAS SOBRE LA POBLACIÓN:
(a) La matriz de covarianzas de todos los grupos es igual a Σ (hipótesis de homocedasticidad).
(b) Cada uno de los grupos tiene una distribución normal multivariante.
Las hipótesis implican que x g ≈ N(μ g , ∑ )
) HIPÓTESIS SOBRE EL PROCESO DE OBTENCIÓN DE LA MUESTRA: Facilitan la realización del proceso

de inferencia a partir de la información disponible: << Se supone que se ha extraído una muestra
aleatoria multivariante independiente en cada uno de los G grupos >>.
Bajo las hipótesis citadas, la función discriminante obtenida por Fisher es óptima. La hipótesis
x g ≈ N(μ g , ∑ ) exige que las variables clasificadoras sigan una distribución normal. Sin embargo, no sería
razonable postular est hipótesis respecto a variables categóricas, utilizadas frecuentemente en el análisis
discriminante como variables clasificadoras.
Señalar que, cuando se utilizan variables de este tipo, la función discriminante lineal de Fisher no tiene el
carácter de óptima.
CONTRASTES DE SIGNIFICACIÓN Y EVALUACIÓN DE LA BONDAD DE AJUSTE
Con los contrastes de significación que se realizan en el análisis discriminante con dos grupos se trata de
dar respuesta a tres tipos de cuestiones diferentes:
(a) ¿Se cumple la hipótesis de homocedasticidad del modelo?
(b) ¿Se cumplen las hipótesis de normalidad?
(c) ¿Difieren significativamente las medias poblacionales de los dos grupos?
Para el CONTRASTE DE HOMOCEDASTICIDAD (si la matriz de covarianzas es la misma para los distintos
grupos) se utiliza el estadístico de Barlett‐Box:
K
(ng − 1)/2 • En el numerador aparecen los determinantes de las estimaciones de
∏ Sg la matriz de covarianzas para cada grupo.
g =1
M= (n − K)/2 • En el denominador, el determinante de la estimación global de la
S matriz de covarianzas.
Cuando el numerador sea muy superior al denominador, será indicativo de que existe
HETEROSCEDASTICIDAD (no existe homogeneidad entre las matrices de covarianzas de cada grupo).
G G
Vg
∑ Vg ∑ (ng − 1)Sg
g =1 g =1
donde: Sg = , S = = K ≡ variables
ng − 1 n− G n− G
La matriz S g es una estimación de la matriz de covarianzas correspondiente a la celda g‐ésima ∑ g ,

S es una estimación de la matriz de covarianzas global ∑ g .
¿DIFIEREN SIGNIFICATIVAMENTE LAS MEDIAS POBLACIONALES DE LOS DOS GRUPOS? : La respuesta es

decisiva para la realización del análisis discriminante.
En caso de que la respuesta fuera negativa carecería de interés continuar con el análisis, ya que
significaría que las variables introducidas no tienen capacidad discriminante significativa.
En el caso de dos Grupos, las hipótesis nula y alternativa para dar respuesta a la cuestión, son:
H0 : μ1 = μ2 H1 : μ1 ≠ μ2
El contraste de la hipótesis se puede realizar específicamente mediante el estadístico T2 de Hotelling:
⎛ n n ⎞ V1 + V2
T 2 = (y1 − y2 )' S −1 (y1 − y2 ) ⎜ 1 2 ⎟ donde S =
⎝ n1 + n2 ⎠ n1 + n2 − 2
La matriz S es un estimador insesgado de la matriz de covarianzas poblacional Σ, obtenido bajo el
supuesto de que la matriz de covarianzas poblacional es la misma en los dos grupos.
Bajo la hipótesis nula, el estadístico T2 de Hotelling se distribuye:
⎛ n1 + n2 − k − 1 ⎞ T2
⎜ ⎟ n + n − 2 ≈ Fk , n1 + n2 − k − 1
⎝ k ⎠ 1 2
Existen otros estadísticos para realizar el contraste, diseñados para el caso general de G grupos, tales
como el estadístico de Rao o el estadístico V de Barlett (estos dos últimos estadísticos están construidos a
partir de la Λ de Wilks).
En el caso de que se rechace la hipótesis nula H0 : μ1 = μ2 , se puede aplicar el análisis univariante de la
varianza para contrastar la hipótesis de igualdad de medias para cada una de las variables clasificadoras
por separado.

Como medida de evaluación de la bondad de ajuste se utiliza el coeficiente eta cuadrado (η2 ) , que es el
coeficiente de determinación obtenido al realizar la regresión entre la variable dicotómica, que indica la
pertenencia al grupo, y las puntuaciones discriminantes.
A la raíz cuadrado de este coeficiente se le denomina correlación canónica.
λ
η= (correlación canónica)
1+ λ
w1' F w1 separación entre grupos
λ ≡ ratio que se obtiene al maximizar máx λ = '
=
w1 V w 1 separación dentro grupos
CÁLCULO DE PROBABILIDADES DE PERTENENCIA A UNA POBLACIÓN

⎧⎪ D = w1 X1 + w2 X 2 + " + wk Xk ⎫⎪
Funciones discriminantes del tipo ⎨ ⎬ clasifican a los diferentes
⎪⎩ D − C = w1 X1 + w2 X 2 + " + wk Xk − C ⎪⎭
individuos en uno u otro grupo, pero no ofrecen más información acerca de los individuos investigados.
En muchas ocasiones es conveniente tener información complementaria a las puntuaciones

discriminantes. Si bien con estas puntuaciones se puede clasificar a cada individuo, también es interesante
disponer de información sobre la probabilidad de su pertenencia a cada grupo, pues con este dato se
puede realizar análisis más matizados, e incluir otras informaciones tales como la información a priori o
los costes que implica una información errónea.
Para realizar este tipo de cálculos se suelen asumir las hipótesis estadísticas sobre la población:
La matriz de covarianzas de todos los grupos es igual a Σ (hipótesis de homocedasticidad).
Cada uno de los grupos tiene una distribución normal multivariante.
Las hipótesis implican que x g ≈ N(μ g , ∑ ) , considerando además que se conocen los parámetros
poblacionales.
El cálculo de probabilidades se realiza en el contexto de la teoría de la decisión, que permite tener en
cuenta la probabilidad de pertenencia a un grupo, como los costes de una clasificación errónea.
La clasificación de los individuos se realiza utilizando el teorema de Bayes. La aplicación del teorema de
Bayes permite el cálculo de las probabilidades a posteriori a partir de estas probabilidades a priori y de la
información muestral contenida en las puntuaciones discriminantes.
En el caso general de G grupos, el teorema de Bayes establece que la probabilidad a posteriori de
pertenencia a un grupo g con una puntuación discriminante D, con probabilidades a priori π g es:
π g Prob(D / g)
Prob(g / D) = G
∑ πi Prob(D / i)
i=1
La probabilidad condicionada Prob(D / g) se obtiene calculando la probabilidad de la puntuación

observada suponiendo la pertenencia a un grupo g.
G
Dado que el denominador ∑ πi Prob(D / i) es una constante, se utiliza también la forma equivalente:
i=1
Prob(g / D) ∝ π g Prob(D / g) siendo ∝ ≡ proporcionalidad

La clasificación de cada individuo se puede realizar mediante la comparación de las probabilidades
a posteriori. Así, se asignará un individuo al grupo para el cual sea mayor su probabilidad a posteriori.
Se presenta el cálculo de probabilidades en el caso de dos grupos, de forma que sea fácilmente
generalizable al caso de G grupos.
El cálculo de probabilidades se realiza bajo tres supuestos diferentes:
(a) Cálculo de probabilidades sin información a priori.
(b) Cálculo de probabilidades con información a priori.
(c) Cálculo de probabilidades con información a priori considerando los costes.
CÁLCULO DE PROBABILIDADES A POSTERIORI SIN INFORMACIÓN A PRIORI

En el cálculo de estas probabilidades se considera que no existe conocimiento previo de las probabilidades
de pertenencia a cada grupo.
Cuando no existe dicha información, se adopta el supuesto de que la probabilidad de pertenencia a ambos
grupos es la misma, es decir, se adopta el supuesto de que πI = πII . Esto implica que estas probabilidades
a priori no afectan a los cálculos de las probabilidades a posteriori.
Bajo las hipótesis estadísticas sobre la población, la probabilidad de pertenencia a cada grupo, dada la
puntuación discriminante obtenida, viene dada por la expresión:
F
eg
Prob(g / D) = F FII
g = I, II , FI y FII son las funciones definidas
eI+ e
Un individuo se clasifica en el grupo para el que la probabilidad sea mayor. Este criterio implica que un
individuo se clasificará en el grupo I si FI > FII
Aplicando la fórmula de probabilidad a posteriori se llega a los mismos resultados que aplicando la
DI + DII
fórmula discriminante de Fisher. Esto implica que el punto de corte C es el mismo: C =
2
CÁLCULO DE PROBABILIDADES A POSTERIORI CON INFORMACIÓN A PRIORI

En ocasiones se dispone de información de la probabilidad a priori sobre pertenencia de un individuo a
cada uno de los grupos.
Por ejemplo, se puede tener información de que los préstamos fallidos suponen un 10% del total de los
préstamos concedidos a lo largo de cinco años. Para tener en cuenta este tipo de información se
introducen probabilidades a priori en el análisis.
Cuando se utilizan probabilidades a priori los individuos se clasifican en el grupo para el que la
probabilidad a posteriori sea mayor.
F
πI e g
Prob(g / D) = F FI I
g = I,II , FI y FII son las funciones definidas
πI e I + πII e
Con este criterio, un individuo se clasifica en el grupo I si: FI ln πI > FII ln πII
La aplicación implica que el punto de corte discriminante C vendrá dado por la expresión:
D + DII π
Cp = I − ln II
2 πI
La ratio de probabilidades a priori debe establecerse de forma que el punto de corte se desplace hacia el
grupo con menor probabilidad a priori. Al desplazarse el punto de corte de esta forma, se tenderá a
clasificar una proporción menor de individuos en el grupo con menor probabilidad a priori.

CÁLCULO DE PROBABILIDADES A POSTERIORI CON INFORMACIÓN A PRIORI Y CONSIDERANDO COSTES
Hasta ahora no se ha considerado el coste que una clasificación errónea puede tener.
En muchas ocasiones el coste de clasificación errónea puede diferir para cada uno de los grupos. Por
ejemplo, en la concesión de préstamos, clasificar como fallido a un cliente cumplidor y clasificar como
cumplidor a un fallido, no es lo mismo para la entidad bancaria.
En la primera de las posibilidades, el coste para el banco es dejar de percibir los intereses del préstamo y
la posible pérdida de un cliente que en realidad es cumplidor.
Por el contrario, en la segunda posibilidad el coste para el banco es la pérdida de la cantidad prestada, ya
que el cliente clasificado como cumplidor es realmente fallido.
En principio, y bajo el criterio de una prudente administración financiera, parece que el segundo tipo de
coste es superior al primero.
Cuando se introducen costes de clasificación no puede hablarse ya de cálculo de probabilidades a
posteriori. No obstante se puede obtener un criterio para clasificar minimizando el coste total de
clasificación errónea. Este total viene dado por la expresión:
πI Prob(II / I) Cos te(II / I) + πII Prob(I / II) Cos te(I / II)
Cada probabilidad se encuentra multiplicada por el coste en que se incurre. Al minimizar la expresión, bajo
las hipótesis estadísticas sobre la población, el punto de corte discriminante Cp,c se obtiene con la
DI + DII πII Cos te(I / II)
expresión: Cp,c = − ln
2 πI Cos te(II / I)
En los desarrollos anteriores se ha supuesto que las probabilidades son conocidas. En la práctica, se
utilizan estadísticos muestrales en su lugar.
El empleo de estadísticos muestrales tiene como consecuencia que se subestime la probabilidad de
clasificación errónea, cometiéndose por lo tanto sesgos sistemáticos en la clasificación. Para disminuir
estos sesgos se han propuesto, entre otros, dos procedimientos alternativos.
• Un procedimiento consiste en dividir la muestra total en dos submuestras, utilizando la primera
muestra para estimar la función discriminante, mientras que la segunda se utiliza para su validación.
Así, la potencia discriminante de la función vendrá determinada por el porcentaje de individuos
clasificados en esta segunda muestra.
• El segundo procedimiento consiste en excluir un individuo del grupo I, calcular la función discriminante,
y clasificar después al individuo que se ha excluido. Haciendo lo mismo con el resto de individuos del
grupo I, se estima la Prob(II/I) con el porcentaje de individuos que han sido clasificados en el grupo II.
Procediendo análogamente con los individuos del grupo II, se estima la Prob(I/II). A este segundo
procedimiento se le conoce con la denominación jacknife.

ANÁLISIS DISCRIMINANTE MÚLTIPLE: CLASIFICACIÓN EN MÁS DE DOS GRUPOS
Número máximo de ejes discriminantes mín(G − 1, k) , donde G es el número de categorías. Se obtienen
(G − 1) ejes discriminantes si el número de variables explicativas es mayor o igual que (G − 1) ,
generalmente, este hecho suele ser cierto.
Cada una de las funciones discriminantes Di se obtiene como función lineal de las k variables explicativas:
Di = wi1 X1 + wi2 X 2 + " + wik Xk i = 1, " , G − 1
Los (G − 1) ejes vienen definidos respectivamente por los vectores (w1 , w2 , " , w G − 1 )
⎛ w11 ⎞ ⎛ w21 ⎞ ⎛ w G − 1, 1 ⎞
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ w12 ⎟ ⎜ w22 ⎟ ⎜ w G − 1, 2 ⎟
w1 = , w2 = , "" , wG − 1 = ⎜
⎜ # ⎟ ⎜ # ⎟ # ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎝ w1k ⎠ ⎝ w2k ⎠ ⎜ w G − 1, k ⎟
⎝ ⎠
Para la obtención del primer eje discriminante se maximiza la ratio variabilidad entre grupos entre
variabilidad dentro grupos, es decir:
w1' F w1 separación entre grupos
máx λ 1 = '
= (criterio obtención del primer eje discriminante)
w1 V w1 separación dentro grupos
ϑλ 1
Derivando la ratio e igualando a cero: = 0 , con lo cual:
ϑ w1
ϑλ 1 2 F w1 (w1' V w1 ) − 2 V w1 (w1' F w1 )
= = 0 → 2 F w1 (w1' V w1 ) − 2 V w1 (w1' F w1 ) = 0
ϑ w1 (w1' V w1 ) 2
2F w1 (w1' F w1 )
operando con la expresión, resulta: = = λ1 → F w1 = V w1 λ 1
2 V w1 (w1' V w1 )
siendo, por tanto, λ 1 w1 = V −1 F w1
La obtención del vector w1 resulta un problema de cálculo de un vector característico asociado a la

matriz no simétrica (V −1 F) .
De las raíces características que se obtienen al resolver la ecuación ⎡⎣ λ 1 w1 = V −1 F w1 ⎤⎦ se retiene la
mayor, ya que λ 1 es la ratio que se pretende maximizar y w1 es el vector característico asociado a
dicha raíz característica.
⎡ w ' F w1 ⎤
Como λ 1 es la ratio ⎢ '1 ⎥ medirá el poder discriminante del primer eje discriminante. El resto de
⎣ w1 V w1 ⎦
los ejes discriminantes son otros vectores característicos de la matriz (V −1 F) , ordenados según el orden
decreciente de las raíces características.
Así, el segundo eje discriminante tendrá menor poder discriminante que el primero, pero más que
cualquiera de los restantes.
Puesto que la matriz (V −1 F) no es simétrica, en general, esto implicará que los ejes discriminantes no
serán ortogonales, es decir, no serán perpendiculares entre sí.

CONTRASTES DE SIGNIFICACIÓN
En el análisis discriminante múltiple se plantean contrastes específicos para determinar si cada uno de los
valores λ i es estadísticamente significativo, es decir, para determinar si cada uno de los valores λ i
contribuye o no a la discriminación entre los diferentes grupos.
Este tipo de contrastes se realiza a partir del estadístico V de Barlett.
El estadístico V es una función de la Λ de Wilks y se aproxima a una chi‐cuadrado, tiene interés en el
análisis discriminante por su descomponibilidad.
⎡ K + G⎤ ⎧ k ≡ var iables categóricas

Estadístico V de Barlett: V = ⎢n − 1 − (ln Λ ) V ≈ χk2 (G − 1) ⎨
⎣ 2 ⎥⎦ ⎩ G ≡ grupos
Este estadístico se utiliza en el análisis ⎧ H0 : μ1 = μ2 = " = μ G

⎨
multivariante para contrastar las hipótesis ⎩ H1 : No todas las μ g son iguales
En el análisis multivariante de la varianza con un factor se contrasta esta hipótesis para determinar si el
factor (variable categórica con G grupos) explica la variabilidad del vector de variables dependientes de
forma significativa.
En el análisis discriminante múltiple la hipótesis a contrastar sigue siendo la misma, aunque los papeles
se han invertido. Ahora se realiza el contraste para tratar de dar respuesta a la pregunta: ¿Las k variables
clasificadoras contribuyen significativamente a discriminar entre los G grupos?
Si no se rechaza la hipótesis nula citada, no se debería continuar el análisis, puesto que las variables
clasificadoras utilizadas en la investigación no tienen ningún poder discriminante significativo.
Para examinar el poder discriminante de cada uno de los ejes que se construyen en el análisis
discriminante, se descompone el estadístico V en productos a partir de la descomposición de la Λ de
Wilks. De acuerdo con su definición, el recíproco de Λ se puede descomponer:
1 T −1
= = V T = V −1 T = V −1 T = V −1 (F + V) = I + V −1 F
Λ V
teniendo en cuenta que el determinante de una matriz es igual al producto de sus raíces
características, se obtiene que:
1
= I + V −1 F = (1 + λ 1 ) (1 + λ 2 ) " (1 + λ G − 1 )
Λ
sustituyendo en el estadístico V de Barlett, se obtiene la expresión alternativa del estadístico:
G−1
⎡ K + G⎤
Estadístico V de Barlett: V = ⎢n − 1 −
⎣ 2 ⎥⎦
∑ ln(1 + λ g )
g =1
Si se rechaza la hipótesis nula, significa que al menor uno de los ejes discriminantes es estadísticamente
significativo. Esto implica a su vez que el primer eje discriminante es estadísticamente significativo, debido
a que es precisamente el que tiene mayor poder discriminante.
En caso de que se acepte la hipótesis de que el primer eje discriminante es significativo, se pasa a
contrastar la significación conjunta del resto de los ejes discriminantes, utilizando el estadístico:
G− 1
⎡ K + G⎤
V = ⎢n − 1 −
⎣ 2 ⎥⎦
∑ ln(1 + λ g )
g=2
De forma general, se puede establecer la expresión de contrastación secuencial mediante el

estadístico:

G−1
⎡ K +G⎤
Estadístico V de Barlett: Vj = ⎢n − 1 −
⎣ 2 ⎥⎦
∑ ln(1 + λ g ) donde j = 0, 1, 2," , G − 2
g= j+1
Así, en el proceso secuencial se van eliminando del estadístico V las raíces características que van
resultando significativas, deteniendo el proceso cuando se acepte la hipótesis nula de no
significatividad de los ejes discriminantes que queden por contrastar.
DIRECCIÓN DE RIESGOS
Cuando una entidad financiera concede un préstamo personal a un cliente se enfrenta a la doble
posibilidad de que sea reintegrado o de que no lo sea. En este último caso el préstamo será finalmente
clasificado como fallido.
Obviamente, si la entidad financiera conociera de antemano que una persona va a resultar fallida no le
concedería el préstamo en ningún caso. En esta línea, puede utilizar la información existente en la
entidad sobre préstamos concedidos en el pasado para la concesión de préstamos futuros de forma
que se evite, o al menos, se reduzca la posibilidad de conceder préstamos que después fueran fallidos.
En los archivos de la entidad financiera existe información de las características de las personas a las que
se les ha concedido un préstamo, ya que el cliente en el momento de solicitar el préstamo ha facilitado
datos acerca de cuestiones tales como ingresos, edad, sexo, situación familiar, antigüedad en el puesto
de trabajo, régimen de tenencia de la vivienda, etc. Es muy posible que los clientes cumplidores tengan
unas características distintas a los clientes fallidos.
Utilizando estas características se trata de establecer unas funciones que clasifiquen lo más
correctamente posible a los clientes a los que se les ha concedido un préstamo en cumplidores y
fallidos (finalidad explicativa).
Posteriormente, estas funciones se emplearán, en el caso de que se haya realizado adecuadamente
dicha clasificación, para determinar si se conceden o no los préstamos futuros a futuros solicitantes
(finalidad predictiva).

ANÁLISIS DISCRIMINANTE CON SPSS (prestamo‐riesgo.sav)
La tabla adjunta contiene información de 16 clientes de una entidad financiera a los que se les concedió
un préstamo. Pasados 3 años desde la concesión del préstamo, de los 16 clientes, había 8 que fueron
clasificados como fallidos (Grupo 1) mientras que los otros 8 clientes fueron cumplidores (Grupo 2), ya
que reintegraron el préstamo.
Para cada uno de los 16 clientes se dispone de información sobre X1 = 'su patrimonio neto' y
X2 ='sus deudas pendientes', en el momento de la solicitud.
Con esta información se pretende construir una función discriminante que separe/diferencie lo más
posible a los dos grupos y que permita clasificar, con los menores errores posibles, a los distintos clientes
en los dos grupos.
Cliente Préstamo Patrimonio Neto Deuda Pendiente

1 1 1,3 4,1
2 1 3,7 6,9
3 1 5,0 3,0
4 1 5,9 6,5
5 1 7,1 5,4
6 1 4,0 2,7
7 1 7,9 7,6
8 1 5,1 3,8
9 2 5,2 1,0
10 2 9,8 4,2
11 2 9,0 4,8
12 2 12,0 2,0
13 2 6,3 5,2
14 2 8,7 1,1
15 2 11,1 4,1
16 2 9,9 1,6
El director de la entidad financiera tiene dos nuevas solicitudes de un préstamo instantáneo.

El primer solicitante dispone de un patrimonio neto de 10,1, con unas deudas pendientes de 6,8.
Para el segundo solicitante los valores de estas variables son 9,7 y 2,2 respectivamente.
¿Qué decisión debe tomar?
Nota.‐ Las unidades monetarias se expresan en 100.000 euros

Analizar / Clasificar / Discriminante
En primer lugar, hay que elegir cuál es la Variable de Agrupación, es decir, qué variable juega el papel de
variable categórica dependiente cuyas categorías definen los posibles grupos de pertenencia de los
individuos. En este caso, la variable es Préstamo.
Además, en el botón con el nombre Definir Rango, es necesario especificar cuáles son los valores Mínimo
y Máximo de esta variable. Se introducen los valores correspondientes: Mínimo: 1 y Máximo: 2.
Las variables:
X1 = 'Patrimonio_ Neto'
X2 = 'Deuda_Pendiente'
se eligen como variables independientes,
cuyos valores se utilizan para construir la
función discriminante.
Estas variables pueden introducirse en el
modelo simultáneamente o por etapas
El botón Método sólo se activa si previamente se ha elegido Usar método de inclusión por pasos
Variable de selección: Permite reducir el análisis a un subgrupo de la muestra total, subgrupo que vendrá
definido por una variable de selección. Este no es el caso, no se elige esta opción.
ESTADÍSTICOS UTILIZADOS:
F DE SNEDECOR: Se compara para cada variable las desviaciones de las medias de cada uno de los grupos
a la media total, entre las desviaciones a la media dentro de cada grupo.
Si F es grande para cada variable, entonces las medias de cada grupo están muy separadas y la variable
discrimina bien.
Si F es pequeña para cada variable, la variable discrimina poco, ya que habrá poca homogeneidad en los
grupos y éstos estarán muy próximos.

λ DE WILKS: Se consideran las variables de modo individual, la λ es el cociente entre la suma de
cuadrados dentro de los grupos y la suma de cuadrados total (sin distinguir grupos).
Esto equivale a las desviaciones a la media dentro de cada grupo, entre las desviaciones a la media total
sin distinguir grupos.
Si λ es pequeño la variable discrimina mucho: La variabilidad total se debe a las diferencias entre grupos,
no a las diferencias dentro de grupos.
VARIABLES ORIGINALES QUE SE CONSIDERAN: La idea del análisis discriminante es construir funciones
lineales de las variables originales que discriminen entre los distintos grupos.
Sin embargo, no todas las variables discriminan de la misma forma o tienen los mismos valores de la F de
Snedecor o de la λ de Wilks.
Por ello, a la hora de construir las funciones lineales, no es necesario incluir a todas las variables iniciales
en la función.
Como criterio general para seleccionar una variable se emplea la selección del valor de la λ de Wilks o, de
modo equivalente, del valor de su F asociada.
Se utilizan fundamentalmente dos métodos de selección de variables: El
método directo (Introducir independientes juntas) y el método stepwise
(Usar método de selección por pasos).
En el método directo se consideran todas las variables originales que
verifiquen un criterio de selección.
El método stepwise funciona con varios pasos:
(a) Se incluye en el análisis la variable que tenga el mayor valor real aceptable para el criterio de selección
o de entrada.
(b) Se evalúa el criterio de selección para las variables no seleccionadas. La variable que presenta el valor
más alto para el criterio se selecciona (siempre que se encuentre dentro de un límite).
(c) Se examinan las variables seleccionadas según un criterio de salida y se examinan también las
variables no seleccionadas, para ver si cumplen el criterio de entrada. Se excluyen o se incluyen
variables según cumplan los criterios de entrada y salida.
(d) Se repite el proceso © hasta que ninguna variable más pueda ser seleccionada o eliminada.
Además de todo lo expuesto, en el SPSS se considera un número máximo de pasos, dado que una variable
puede ser incluida y eliminada en más de una ocasión. Se toma el doble del número de variables originales
como número máximo de pasos del método stepwise.
Se considera también para cada variable la tolerancia asociada: Se define para un conjunto de p variables,
Ri ≡ Coeficiente de correlación múltiple, que expresa el porcentaje de variabilidad de la variable
xi (i = 1, " ,p) recogida por el resto de (p − 1) variables.
R2i ≡ Coeficiente de determinación.
La tolerancia se define como (1 − R2i ) . Cuanto mayor sea la tolerancia de una variable, más información
independiente del resto de variables recogerá.
De este modo, si en una iteración dada del procedimiento stepwise la variable seleccionada verifica que su
tolerancia con respecto a las variables ya incluidas en la función discriminante es muy pequeña entonces
la variable no se incluye en dicha etapa. Así, se evita la redundancia de información.

La opción [Estadísticos] se encuentra dividida en tres
grandes áreas:
Descriptivos
Coeficientes de la función
Matrices.
DESCRIPTIVOS:
Medias: Proporciona el vector de medias (los centroides) y desviaciones típicas de cada variable para cada
grupo.
Univariante ANOVA: Contrasta igualdad de medias entre los grupos para cada variable.
M de Box: Contrasta la hipótesis nula de que las matrices de varianzas‐covarianzas poblacionales son
iguales en los distintos grupos.
COEFICIENTES DE LA FUNCIÓN:
De Fisher: Coeficientes de la función de clasificación bajo Normalidad
No tipificados: Coeficientes de la función discriminante canónica de Fisher 'centrados'
MATRICES:
Covarianza de grupos separados: Proporciona la matriz de varianzas y covarianzas de cada grupo, es decir,
las matrices S1 y S2 , donde:
⎡ nk nk ⎤
( ) ∑( )( )
2
⎢
⎢
∑ i1 − X1
X (k ) (k ) (k )
X i1 − X1(k ) (k )
X i2 − X2(k ) ⎥
⎥
i=1 i=1
Sk = ⎢ n nk ⎥ k = 1,2
⎢ k (k ) ⎥
( )( ) ∑( )
2
⎢ ∑ X i1 − X1 − X2(k ) − X2(k )
(k ) (k ) (k )
X i2 X i2 ⎥
⎣i = 1 i=1 ⎦
Covarianza intra‐grupos: Proporciona la matriz de varianzas y covarianzas 'combinada', obtenida como
media ponderada de las dos anteriores, es decir:
(n1 − 1)S1 + (n2 − 1)S2
S =
n1 + n2 − 2
Covarianza Total: Proporciona la matriz de varianzas y covarianzas de (X1, X2) para todos los
n1+ n2 = 16 individuos de la población, sin distinción de grupo.
COMPROBACIÓN SUPUESTOS PARAMÉTRICOS:

La función discriminante minimiza la probabilidad de equivocarse al clasificar a los individuos en cada
grupo.
Para ello, las variables originales se deben distribuir como una normal multivariante y las matrices de
covarianzas deben de ser iguales en todos los grupos.
En la práctica es una técnica robusta y funciona bien aunque las dos restricciones anteriores no se
verifiquen.

Si un conjunto de variables se distribuye como una normal multivariante, entonces cualquier
combinación lineal de ellas se distribuye como una normal multivariante. Por ello, si alguna de las
variables originales no se distribuye como una normal, entonces es seguro que todas las variables
conjuntamente no se distribuirán como una normal multivariante.
La segunda restricción se ocupa de la igualdad entre las matrices de covarianzas de los grupos. Para
comprobar esto, se puede utilizar la Prueba M de Box, que tiene como hipótesis nula que las matrices
de covarianzas son iguales. Se basa en el cálculo de los determinantes de las matrices de covarianzas de
cada grupo. El valor obtenido se aproxima por una F de Snedecor. Si el p_valor < 0,05 se rechaza la
igualdad entre las matrices de covarianzas.
El test de M de Box es sensible a la falta de normalidad multivariante, es decir, matrices iguales pueden
aparecer como significativamente diferentes si no existe normalidad. Por otra parte, si las muestras son
grandes, pierde efectividad (es más fácil rechazar la hipótesis nula).
En la opción [Método] se dejan las

opciones que vienen por defecto.
Lambda de Wilks: Estadístico que mide el poder discriminante de un conjunto de variables.

V V 1
Λ = = = min(q − 1 , p)
(0 ≤ Λ ≤ 1)
T V+F
∏ (1 + λ I )
i=1
Cuanto más cerca de 0 mayor es el poder discriminante de las variables consideradas, y cuanto más cerca
de 1 menor es el poder discriminante.
Estadísticos asociados:
F de Rao
χ2 de Barlett (tests sobre las diferencias de medias en ambos grupos)
λi
La i‐ésima correlación canónica viene dada por: CRi = 0 ≤ CRi ≤ 1
1 + λi
Mide, en términos relativos, el poder discriminante de la i‐ésima función discriminante, ya que
es el porcentaje de la variación total en dicha función que es explicada por la diferencia entre los grupos.
Cuanto más cerca de 1 esté su valor, mayor es la potencia discriminante de la i‐ésima función
discriminante.

La opción [Clasificación] es la de 'Reemplazar
los valores perdidos con la media'.
En más de una investigación, por algún
motivo en la base de datos hay valores
perdidos, y para que estos no afecten los
resultados finales, existe ésta opción de
reemplazo, que se recomienda utilizar.
PROBABILIDADES PREVIAS:
Son las probabilidades a priori para cada grupo. En este caso serían p1 = p(pertenecer al grupo 1),
p2 = p(pertenecer al grupo 2).
Estos valores se utilizan, por ejemplo, en la regla de clasificación de la máxima verosimilitud bajo el
supuesto de normalidad.
Todos los grupos iguales: p1 = p(pertenecer al grupo 1) = p2 = p(pertenecer al grupo 2) = 1 / 2
USAR MATRIZ DE COVARIANZA:
Intra‐grupos: De esta manera se especifica que cuando se obtengan los autovectores de la matriz
(V −1 F) , que son precisamente los coeficientes de las distintas funciones discriminantes, se utilice la
restricción a'Sa = 1 , utilizando la matriz de varianzas entre grupos 'combinada' S.
MOSTRAR:
Resultados para cada caso: Muestra el proceso de clasificación paso a paso para cada uno de los 16
individuos de la población, con las probabilidades a posteriori para cada uno de ellos, calculadas a partir
de las puntuaciones discriminantes.
Tabla de resumen: Proporciona la matriz de confusión, es decir la matriz de clasificación para los propios
16 individuos de la muestra para los que conocemos de antemano su adscripción.
Clasificación dejando uno fuera: Proporciona la matriz de clasificación pero obtenida con el método
Jacknife, que obtiene, en general una estimación de la proporción de clasificaciones erróneas más fiable.
GRÁFICOS:
Grupos combinados: Representa las puntuaciones discriminantes o valores de la(s) funcion(es)
discriminante(s), para los 16 individuos de la muestra (8 de cada grupo) todos juntos en un gráfico, junto
con sus centroides.
Como sólo hay una función discriminante este gráfico no se hace (si se selecciona, luego no aparece).
Grupos separados: Representa un gráfico como el anterior pero para cada grupo.
En este caso, representaría en el primer gráfico únicamente los 8 individuos del grupo 1 y en el segundo
sólo los 8 del grupo 2.
Mapa territorial: Con una única función discriminante no lo hace.
Si se desea que el análisis sea 'Guardado' se

procede a dar un clic en el botón de la opción
[Análisis discriminante].

El Visor de resultados de SPSS muestra:
Se muestran los estadísticos descriptivos: media y desviación típica total de (X1, X2) sobre los
n = n1 + n2 = 16 individuos y para los dos grupos: Media y desviación típica de (X1, X2) para los n1= 8
clientes del grupo 1, y media y desviación típica de (X1, X2) para los n2 = 8 clientes del grupo 2.
El punto de corte discriminante de los dos grupos para la variable X1 = 'Patrimonio_Neto' se encuentra en
el valor 7:
X1,I + X1,II 5 + 9
X1,I = 5 X1,II = 9 C1 = = =7
2 2
El punto de corte se toma como referencia para clasificar a un individuo en uno u otro grupo (fallido,
cumplidores): Si el Patrimonio_Neto es menor que 7 se clasifica al cliente como fallido (grupo 1), mientras
que se clasifica como cumplidor (grupo 2) si el Patrimonio_Neto es mayor que esa cifra.
Por otra parte, el punto de corte discriminante de los dos grupos para la variable X2 = 'Deuda_Pendiente'
de los dos grupos será:
X2,I + X2,II 5 + 3
X2,I = 5 X2,II = 3 C1 = = =4
2 2
Si las deudas pendientes son mayores que 4 se clasifica al cliente como fallido (grupo 1), mientras que se
clasifica como cumplidor (grupo 2) si las deudas pendientes son menores que esa cifra.
Los contrastes de igualdad de medias entre los dos grupos para cada variable (en ambos casos se rechaza
la hipótesis nula, p_valor < 0,05, es decir, los dos grupos, en media son diferentes).
La información de esta tabla de ANOVAs univariados suele utilizarse como prueba preliminar para
detectar si los grupos difieren en las variables de clasificación seleccionadas.
Sin embargo, hay que considerar que una variable no significativa a nivel univariante podría aportar
información discriminativa a nivel multivariante.

La matriz de covarianzas proporciona:
⎡ 4,289 1,824 ⎤
S1 = ⎢ ⎥
⎣1,824 3,474 ⎦
⎡ 5,240 0,177 ⎤
S2 = ⎢ ⎥
⎣ 0,177 3,043 ⎦
⎡ 8,713 −1,199 ⎤
S total = ⎢ ⎥
⎣ −1,199 4,108 ⎦
Por otra parte, la media ponderada de S1 y S2 debe de coincidir con la matriz 'intra‐grupos combinada',
denominada S. Es decir, debe verificarse que:
⎡ 4,764 1,001 ⎤ (n − 1)S1 + (n2 − 1)S2 7 ⎡ 4,289 1,824 ⎤ 7 ⎡ 5,240 0,177 ⎤

S = ⎢ ⎥ = 1 = +
⎣ 1,001 3,259 ⎦ n1 + n2 − 2 14 ⎣1,824 3,474 ⎦ 14 ⎢⎣ 0,177 3,043 ⎥⎦
⎢ ⎥
Prueba de Box para contrastar la hipótesis

nula de igualdad de las matrices de
varianzas‐covarianzas poblacionales.
Uno de los supuestos del análisis
discriminante es que todos los grupos
proceden de la misma población y, más
concretamente, que las matrices de
varianzas‐covarianzas poblacionales
correspondientes a cada grupo son iguales
entre sí.
g
El estadístico M de Box toma la forma: M = (n − g) log S − ∑ (n j − 1) log S j
j=1
Donde S es la matriz de varianzas‐covarianzas combinada, S j es la matriz de varianzas‐covarianzas del

grupo j‐ésimo, n es el número total de casos y g el número de grupos.
El estadístico M carece de distribución muestral conocida, pero puede transformarse en un estadístico F
e interpretarse como tal (muchos investigadores critican este estadístico por ser demasiado sensible a
pequeñas desviaciones de la normalidad multivariante y a tamaños muestrales grandes, tendiendo a ser
conservador).
Se observa que la primera tabla ofrece los logaritmos de los determinantes de todas las matrices utilizadas
en el cálculo del estadístico M. Dado que el estadístico es multivariante, la tabla permite comprobar qué
grupos (cuando hay más de dos) difieren más.
La tabla (Resultados de la prueba) ofrece la prueba M de Box y su transformación en un estadístico F. El
resultado de la prueba hace que no se rechace la igualdad de matrices de varianzas‐covarianzas
(Sig=0,849 > 0,05), concluyendo que los dos grupos tienen la misma matriz de varianzas‐covarianzas (no
hay un grupo más variable que otro).

A continuación aparecen los resultados del análisis discriminante (estadísticos por pasos):
Las variables son introducidas/eliminadas del modelo en la medida en que tengan asociado un menor
valor del estadístico Λ de Wilks.
Como hay g = 2 grupos y p = 2 variables, sólo hay q = min (k, g − 1) = 1 función discriminante, o
equivalentemente, la matriz (V −1 F) tiene rango q = min (k, g − 1) = 1 y sólo hay un autovalor distinto
de cero, λ 1 = 1,716, que es el que aparece en la tabla.
El autovalor de una función se interpreta como la parte de variabilidad total de la nube de puntos
proyectada sobre el conjunto de todas las funciones atribuible a la función. Si su valor es grande, la
función discriminará mucho.
λ1 1,716
Aparece el coeficiente eta o correlación canónica: η = = = 0,795
1 + λ1 1 + 1,716
Las correlaciones canónicas, miden las desviaciones de las puntuaciones discriminantes entre grupos
respecto a las desviaciones totales sin distinguir grupos.
Si su valor es grande (próximo a 1) la dispersión será debida a las diferencias entre grupos, y en
consecuencia, la función discriminará mucho.
1 1
El estadístico del contraste de significación global Lambda de Wilks: Λ = = = 0,368
1 + λ 1 1 + 1,716
Conduce a rechazar la hipótesis nula de igualdad de medias [p‐valor = 0,02 < 0,05] indicando la
conveniencia de extraer una (la única posible) función discriminante, o lo que es lo mismo, que dicha
función sea significativa.
INTERPRETACIÓN DE LAS FUNCIONES DISCRIMINANTES: A la vista de los valores de ρ (X1, y) y ρ (X2, y),
parece que la variable que más contribuye a la discriminación es X1 = 'Patrimonio_Neto'
COEFICIENTES ESTANDARIZADOS: Aparecen los coeficientes de la función discriminante canónica

estandarizados, estos coeficientes aparecen cuando se tipifican o estandarizan cada una de las variables
clasificadoras para que tengan media 0 y desviación típica 1.
De esta forma se evitan los problemas de escala que pudieran existir entre las variables y,
consecuentemente, la magnitud de los coeficientes estandarizados son un indicador de la importancia que
tiene cada variable en el cálculo de la función discriminante.
En esta línea, se observa que la variable Patrimonio_Neto (X1) tiene una influencia superior a la ejercida
por la variable Deuda_Pendiente (X2).
MATRIZ DE ESTRUCTURA: Es conveniente conocer cuáles son las variables que tienen mayor poder
discriminante en orden a clasificar a un individuo en uno de los grupos (fallidos, cumplidores).
Una forma de medir ese poder discriminante es calculando el coeficiente de correlación entre cada una
de las variables y la función discriminante.
Esta es precisamente la información que se da en la tabla (Matriz de estructura), en este caso, la
correlación de la función discriminante con la variable Patrimonio_Neto (0,748) es mayor en valor
absoluto que con la variable Deuda_Pendiente (0,452).
Las comparaciones deben hacerse siempre en valor absoluto. En el programa SPSS las variables aparecen
ordenadas de acuerdo con el valor absoluto de los coeficientes de correlación.

Los coeficientes de la función canónica no estandarizados de Fisher son estrictamente proporcionales a
los coeficientes de la función discriminante de Fisher (D − C) .
En este caso, el factor de proporcionalidad es 0,408. Esto es, cada coeficiente es igual a 0,408
multiplicado por el coeficiente de la función discriminante de Fisher.
Estos coeficientes no estandarizados se obtienen utilizando la regla de normalización de w' V w = 1 , así
pues, se toma como norma el denominador de la variación dentro de los grupos:
w' F w var iación entre grupos
Los coeficientes w se obtienen: máx λ = =
w' V w var iación dentro grupos
No es habitual solicitar esta tabla por dos motivos. En primer lugar, el programa calcula de forma
automática las puntuaciones discriminantes. En segundo lugar, este conjunto de coeficientes depende
de la variabilidad y la métrica de las variables dificultando su interpretación.
La función discriminante incluye una constante correctora que consigue que las puntuaciones
discriminantes tomen el valor 0 en algún punto entre los centroides.
Puede comprobarse que a partir de las medias de cada grupo en las variables discriminantes (Estadísticos
descriptivos) y este conjunto de coeficientes se obtienen los centroides en la función discriminante:
D1 = b 0 + b1 X1,I + b2 X2,I = − 1,437 + 0,422 . 5 − 0,380 . 5 = − 1,225
D2 = b 0 + b1 X1,II + b2 X2,II = − 1,437 + 0,422 . 9 − 0,380 . 3 = 1,225
Centroides de cada grupo (media de la función

discriminante en cada grupo)
Con los resultados obtenidos, el punto de corte discriminante será el punto medio de las funciones en los
D + D2 −1,225 + 1,225
centroides de los grupos: C = 1 = =0
2 2
Obtenida la función discriminante, en primer lugar se puede utilizar para efectuar una clasificación de los
mismos casos considerados para obtener la función: Esto permitirá comprobar el grado de eficacia de la
función desde el punto de vista de la clasificación. Si los resultados son satisfactorios, la función
discriminante podrá utilizarse, en segundo lugar, para clasificar futuros casos de los que, conociendo su
puntuación en las variables independientes, se desconozca el grupo al que pertenecen.
Probabilidades a priori de pertenencia a

los grupos (se supone p1 = p2 = 1/2)

Función discriminante de Fisher:
D ‐ C = (1,813 ‐ 0,777) X1 + (0,364 ‐ 1,296) X2 + (‐9,396 + 5,876)
X1 = Patrimonio_Neto
X2 = Deuda_Pendiente
Coeficientes de la función de clasificación: Se muestran los coeficientes de las funciones de clasificación

que se obtendrían bajo el supuesto de Normalidad bivariante para (X1, X2) en ambas poblaciones,
utilizando el criterio de la máxima verosimilitud y probabilidades (p1 = p2 = 1/2) a priori iguales.
Las funciones de clasificación son:
FI = 0,777.Patrimonio _ Neto + 1,296.Deuda _ Pendiente − 5,876
FII = 1,813.Patrimonio _ Neto + 0,364.Deuda _ Pendiente − 9,396
1 ' −1
Grupo 1: La función de clasificación es de la forma: d̂I (x) = x1' S −1 x − x1 S x1 + ln(p1 )
2
Centros de gravedad o centroides de los dos grupos:

⎡ X1,I ⎤ ⎡5 ⎤ ⎡ X1,II ⎤ ⎡9 ⎤ ⎡ X1 ⎤
xI = ⎢ ⎥ = ⎢ ⎥ xII = ⎢ ⎥ = ⎢ ⎥ x= ⎢ ⎥
⎣⎢ X2,I ⎦⎥ ⎣5 ⎦ ⎣⎢ X2,II ⎦⎥ ⎣ 3 ⎦ ⎣ X2 ⎦
⎡ 4,764 1,001 ⎤
S=⎢ ⎥
⎣ 1,001 3,259 ⎦
−1 −1
⎡ 4,764 1,001 ⎤ ⎡ X1 ⎤ 1 ⎡ 4,764 1,001 ⎤ ⎡5⎤
d̂I (x) = ⎡⎣5 5 ⎤⎦ ⎢ ⎥ ⎢X ⎥ − ⎡5 5 ⎤
⎦ ⎢ 1,001 3,259 ⎥ ⎢ 5 ⎥ + ln(0,5) =
⎣ 1,001 3,259 ⎦ ⎣ 2⎦ 2 ⎣ ⎣ ⎦ ⎣ ⎦
X1 X2

= 0,777. Patrimonio _ Neto + 1,296. Deuda _ Pendiente − 5,876
1 ' −1
Grupo 2: La función de clasificación es de la forma: d̂II (x) = x2' S −1 x − x2 S x2 + ln(p2 )
2
−1 −1
⎡ 4,764 1,001 ⎤ ⎡ X1 ⎤ 1 ⎡ 4,764 1,001 ⎤ ⎡9⎤
d̂II (x) = ⎡⎣9 3⎤⎦ ⎢ ⎥ ⎢ X ⎥ − 2 ⎡⎣9 3⎤⎦ ⎢ 1,001 3,259 ⎥ ⎢ 3 ⎥ + ln(0,5) =
⎣ 1,001 3,259 ⎦ ⎣ 2⎦ ⎣ ⎦ ⎣ ⎦
X1 X2

= 1,813. Patrimonio _ Neto + 0,364. Deuda _ Pendiente − 9,396
Cada sujeto será asignado al grupo en el que obtenga un mayor valor de estas funciones.
La función discriminante de Fisher (no aparece en SPSS):
D − C = FII − FI = 1,035. Patrimonio _ Neto − 0,932. Deuda _ Pendiente − 3,520

ESTADÍSTICOS POR CASOS: Para cada caso, se muestran las puntuaciones discriminantes, las distancias
de Mahalanobis de dichas puntuaciones al centroide de cada grupo y las probabilidades a posteriori
obtenidas a partir de esas distancias.
Solo se encuentra un caso mal clasificado según la función lineal discriminante, se trata del Grupo 2 (caso
13 en la tabla de estadísticos de clasificación) que ha sido incluido erróneamente dentro del Grupo 1.
Los dos centros de

gravedad equidistan de
la recta delimitadora.
El Director de la entidad financiera clasifica a las dos solicitudes de préstamos.

Para ello, basta sustituir, en la función discriminante de Fisher, los valores de
Patrimonio_Neto y Deuda_Pendiente.
D − C = 1,035. Patrimonio _ Neto − 0,932. Deuda _ Pendiente − 3,520
Primer solicitante: D − C = 1,035. (10,1) − 0,932.(6,8) − 3,520 = 0,5959
Segundo solicitante: D − C = 1,035. (9,7) − 0,932. (2,2) − 3,520 = 4,469
Como la puntuación es positiva en ambos casos, se clasifican a los dos solicitantes en el grupo de los
cumplidores, si bien hay que hacer notar que el segundo solicitante tiene una puntuación discriminante
mucho más elevada.

CRITERIOS ALTERNATIVOS DE CLASIFICACIÓN: Existen otros muchos criterios de clasificación. Entre ellos,
destacar el análisis de regresión y la aplicación de la distancia de Mahalanobis. A continuación se indican
sus rasgos básicos, así como su relación con el análisis discriminante de Fisher.
ANÁLISIS DE REGRESIÓN: La relación entre el análisis discriminante y el análisis de regresión es muy
estrecha. Si se realiza una ajuste por mínimos cuadrados, tomando como variable dependiente la
variable dicotómica que define la pertenencia a uno u otro grupo y como variables explicativas a las
variables clasificadoras, se obtienen unos coeficientes que tienen una estricta proporcionalidad con
los coeficientes de la función discriminante de Fisher.
A partir del coeficiente de determinación, que se calcula en el análisis de regresión, se puede pasar
con facilidad a la distancia de Mahalanobis entre los dos centroides de los dos grupos.
DISTANCIA DE MAHALANOBIS (1936): Es una generalización de la distancia euclídea, que tiene en

cuenta la matriz de covarianzas intra‐grupos. El cuadrado de la distancia de Mahalanobis (DM2ij )
entre los grupos i y j en un espacio de p dimensiones, siendo (Vw ) la matriz de covarianzas intra‐
grupos, viene definida de forma: DM2i j = (xi − x j )' Vw−1 (xi − x j ) donde los vectores xi y x j
representan dos puntos en el espacio p dimensional.
En la terminología usual para designar esta distancia se prescinde de la M (introducida para evitar
confusiones con las puntuaciones discriminantes a las que se ha designado por D).
El cuadrado de la distancia euclídea d2ij entre los puntos (i, j) viene dado por la expresión:
p
d2ij = (xi − x j ) (xi − x j ) = ∑ (Xih − X jh ) 2
h=1
La distancia euclídea es el caso particular de la distancia de Mahalanobis en la que (Vw = I) .

s decir, la distancia euclídea no tiene en cuenta la dispersión de las variables y las relaciones existentes
entre ellas, mientras que en la distancia de Mahalanobis sí que se descuentan estos factores al
introducir en la expresión DM2i j = (xi − x j )' Vw−1 (xi − x j ) la inversa de la matriz de covarianzas
intra‐grupos.
Con el criterio de Mahalanobis, aplicando DM2i j = (xi − x j )' Vw−1 (xi − x j ) , se calcula la distancia entre
cada punto y los dos centroides.
⎧ DM2i,I = (xi − xI )' Vw−1 (xi − xI )
⎪⎪
Así, para el punto i‐ésimo se obtienen estas dos distancias: ⎨
⎪ ' −1
⎪⎩ DMi,II = (xi − xII ) Vw (xi − xII )
2
La aplicación de este criterio consiste en asignar cada individuo al grupo para el que la distancia de
Mahalanobis es menor.
La distancia de Mahalanobis clasifica a los individuos exactamente igual que lo hace la función
discriminante de Fisher. La diferencia entre uno y otro tipo de procedimiento es que, mientras la
distancia de Mahalanobis se calcula en el espacio de las variables originales, en el criterio de Fisher
se sintetizan todas las variables en la función discriminante, que es la utilizada para realizar la
clasificación.

En el archivo (prestamo‐riesgo.sav) se han guardado las columnas:
Dis_1 (Grupo pronosticado para el análisis 1), Dis1_1 (Puntuación discriminante de la función 1 para el
análisis 1), Dis1_2 (Probabilidades de pertenencia al grupo 1 para el análisis 1) y Dis2_2 (Probabilidades
de pertenencia al grupo 2 para el análisis 1)

CONCESIÓN PRÉSTAMOS ‐ RIESGO
Un banco realiza un estudio con el objetivo de identificar con la mayor precisión posible
aquellas solicitudes de préstamos que probablemente puedan llegar a convertirse en
morosos o fallidos en el caso que se concedieran. Para ello, dispone de la información
reflejada en la tabla adjunta, relativa a 25 clientes y a las variables que se analizan:
Cumplimiento: Grado de cumplimiento del cliente en el reintegro del préstamo. Toma el valor 1 si el
cliente es cumplidor, 2 si es moroso y 3 si es fallido.
Ingresos: Ingresos anuales del cliente, en miles de euros.
Patrimonio Neto: Patrimonio neto del cliente en miles de euros.
Vivienda: Variable dicotómica que toma el valor 1 si el cliente es propietario; 0 en caso contrario.
Casado: Variable dicotómica que toma el valor 1 si está casado; 0 en otro caso.
Contrato Trabajo: Variable dicotómica que toma el valor 1 si el cliente es asalariado con contrato fijo;
0 en otro caso.
Cliente Cumplimiento Ingresos Patrimonio neto Vivienda Casado Contrato trabajo

1 1 32,7 336 1 1 0
2 1 18,6 204 1 0 1
3 1 24,6 138 0 1 1
4 1 37,2 270 1 0 1
5 1 23,7 114 1 1 1
6 1 7,5 132 1 1 1
7 1 29,4 90 0 1 1
8 1 53,4 228 1 1 1
9 1 20,1 324 0 1 1
10 1 31,2 480 1 1 0
11 1 17,1 108 1 1 1
12 1 39 132 1 1 1
13 1 45,6 216 1 1 1
14 2 26,1 234 1 1 0
15 2 8,1 48 0 1 1
16 2 12,6 114 0 0 1
17 2 8,7 150 1 0 1
18 2 38,4 24 0 1 1
19 2 22,8 114 1 1 0
20 2 14,7 60 0 1 1
21 3 19,8 42 0 1 0
22 3 5,1 72 0 1 0
23 3 7,2 30 1 1 1
24 3 11,1 36 1 0 0
25 3 15,9 150 0 0 0
ANÁLISIS DISCRIMINANTE CON SPSS (prestamo‐riesgo‐multiple.sav)

Se trata de un Análisis discriminante múltiple, ya que el banco ha clasificado a los clientes en tres grandes
grupos, habrá que construir funciones discriminantes que permitan clasificar, con los menores errores
posibles, a los clientes en los diferentes grupos. Si se obtienen buenos resultados, estas funciones
discriminantes se podrán utilizar para analizar si se concede un préstamo o no a un futuro cliente
peticionario.

Analizar/ Clasificar / Discriminante
Se selecciona Cumplimiento como

variable de agrupación (cuyo
rango es 1 y 3) y las otras cinco
variables como Independientes.
El método de inclusión por pasos.

Cualquiera que sea el método seleccionado, en la estrategia de inclusión por pasos siempre se comienza
seleccionando la mejor variable independiente desde el punto de vista de la clasificación (es decir, la
variable independiente en la que más se diferencian los grupos) .
Esta variable sólo es seleccionada si cumple el criterio de entrada. A continuación, se selecciona la variable
independiente que, cumpliendo el criterio de entrada, más contribuye a conseguir que la función
discriminante diferencie a los grupos.
Cada vez que se incorpora una nueva variable al modelo, las variables previamente seleccionadas son
evaluadas nuevamente para determinar si cumplen o no el criterio de salida. Si alguna de las variables ya
seleccionadas cumple el criterio de salida, es expulsada del modelo.
Con el botón Modelo se selecciona:

Lambda de Wilks.
Resumen de los pasos.
F para distancias por parejas.
Lambda de Wilks: Cada variable independiente candidata a ser incluida en el modelo se evalúa mediante
un estadístico Fcambio que mide el cambio en el valor que se produce de la lambda de Wilks al incorporar
cada una de las variables al modelo. Obtenido el valor del estadístico Fcambio para cada variable, se
incorpora al modelo la variable a la que corresponde el mayor valor Fcambio (o, lo que es lo mismo, la que
produce el mayor cambio en la lambda de Wilks):
⎛ n − g − p ⎞ ⎛ 1 − λ p +1 / λ p ⎞
Fcambio = ⎜ ⎟⎜ ⎟⎟
⎝ g − 1 ⎠ ⎜⎝ λ p +1 ⎠
donde n es el número de casos válidos, g es el número de grupos, λ p es la lambda de Wilks que
corresponde al modelo antes de incluir la variable que se está evaluando y λ p + 1 es la lambda de Wilks que
corresponde la modelo desde de incluir esa variable.
Este estadístico F también es conocido como R de Rao.
Varianza no explicada: Utiliza como criterio de inclusión la suma de la variación entre todos los pares de
grupos no explicada por las variables ya incluidas en el modelo. Se incorpora al modelo la variable que
minimiza la cantidad de varianza no explicada. La cantidad de varianza explicada por el modelo, R2, es
proporcional, en una constante c, a la distancia H de Mahalanobis:
R2 = c. H2ab
g −1 g
4
R= ∑ ∑ g es el número de grupos , a y b son dos grupos cualesquiera.
a = 1 b = a + 1 4 + Hab
2

Distancia de Mahalanobis: En cada paso se incorpora la variable que maximiza la distancia de
Mahalanobis entre los dos grupos más próximos. La distancia multivariante entre los grupos "a" y "b" se
define como:
p p
H2ab (
= (n − g) ∑ ∑ wi∗j Xi(a) − Xi(b) ) (X (a)
j − X (b)
j )
i=1j=1
donde n es el número de casos válidos, g es el número de grupos, Xi(a) es la media del grupo "a" en la
i‐ésima variable independiente, Xi(b) es la media del grupo "b" en la i‐ésima variable independiente,
w∗i j es un elemento de la inversa de la matriz de varianzas‐covarianzas intra‐grupos.
Menor razón F: Se incorpora en cada paso la variable que maximiza la menor razón F para las parejas de
grupos. El estadístico F utilizado en la distancia de Mahalanobis pondera por el tamaño de los grupos:
(n − p − 1) n1 n2
F= H2ab
p (n − 2) (n1 + n2 )
w∗i j es un elemento de la inversa de la matriz de varianzas‐covarianzas intra‐grupos.
V de Rao: El estadístico V de Rao es una transformación de la traza de Lawley‐Hotelling que es

directamente proporcional a la distancia entre los grupos. Al utilizar este criterio, la variable que se
incorpora al modelo es aquella que produce un mayor incremento en el valor de V:
p p
V = (nk − g) ∑ ∑ w∗i j ( Xi(k) − Xi ) ( X(k)j − X j )
i=1 k =1
donde p es el número de variables en el modelo, g es el número de grupos, nk es el número de casos
válidos del grupo k, Xi(k) es la media del grupo k en la i‐ésima variable, Xi es la media de todos los
grupos en la i‐ésima variable, y w∗i j es un elemento de la inversa de la matriz de varianzas‐covarianzas
intra‐grupos.
Esta opción permite especificar el incremento mínimo que se tiene que dar en el valor de V para que una
variable pueda ser incorporada en el modelo. Para establecer ese mínimo, se indtroduce un valor mayor
que 0 en el cuadro del texto V para entrar.
Usar valor de F: Una variable pasa a formar parte de la función discriminante si el valor del estadístico F es
mayor que 3,84 (valor de entrada), siendo expulsada de la función si el valor del estadístico F es menor
que 2,71 (valor de salida).
Para modificar los valores de entrada y salida se utiliza el criterio Usar valor de F.
Usar la probabilidad de F: Una variable pasa a formar parte de la función discriminante si el nivel crítico
asociado al valor del estadístico F es menor que 0,05 (probabilidad de entrada), siendo expulsada de la
función si ese nivel crítico es mayor que 0,10 (probabilidad de salida). Se pueden modificar los valores de
entrada y salida, el valor de entrada debe ser menor que el de salida.
Resumen de los pasos: Estadísticos para cada una de las variables después de cada paso, así como
estadísticos de resumen del paso.
F para distancias por parejas: Muestra una matriz de estadísticos F que contrasta si cada pareja de grupos
difieren en la función discriminante. Se comparan todas las parejas de grupos. Esta opción es útil en el
caso de más de dos grupos.

El Visor de resultados de SPSS muestra:
Las medias de las cinco variables introducidas como independientes en el análisis son mayores en la
categoría de cumplidores que en las otras categorías.
Así, los clientes cumplidores, en relación con los otros dos grupos (morosos, fallidos), tienen mayores
ingresos, un mayor patrimonio, son propietarios de la vivienda que habitan están casados y son
asalariados con contrato fijo.

Las variables Vivienda y Casado no deberían tener una gran influencia a la hora de clasificar a los clientes
en uno u otro grupo. Obsérvese que en ambos casos, p_valor > 0,05, se acepta la hipótesis nula, es decir,
los grupos en media son iguales.
La tabla muestra un resumen de todos los pasos llevados a cabo en la construcción de la función
discriminante y recuerda los criterios utilizados en la selección de variables. En cada paso se informa de la
variable que ha sido incorporada al modelo y, en su caso, de la variable o variables que han sido
expulsadas.
Las notas a pie de la tabla recuerdan algunas de las opciones establecidas para el análisis: La selección de
variables se ha llevado a cabo utilizando el estadístico lambda de Wilks global. Puede observarse que el
valor del estadístico lambda de Wilks va disminuyendo en cada paso, lo cual es síntoma de que, conforme
se van incorporando variables al modelo, los grupos van estando cada vez menos solapados.
En la columna F exacta se encuentra el valor transformado de la lambda de Wilks y su significación. Los
valores del estadístico se refieren al estadístico global y no al cambio en el estadístico.
Antes de iniciar la construcción del modelo (paso 0) la tolerancia de todas las variables es la máxima
posible y, puesto que las variables están siendo evaluadas individualmente, la F para entrar en el modelo
(F para introducir) coincide con el valor de la F univariante que se obtendría al marcar la opción ANOVA
univariante del cuadro de dialogo Análisis discriminante / Estadísticos.

Para cada variable ya incorporada al modelo, el valor de la F para salir en un determinado paso (F para
eliminar de la tabla variables introducidas/excluidas) coincide con el valor de la F para entrar en el paso
anterior (F para introducir).
En cuanto a la tolerancia de las variables, la tabla incluye dos columnas: La primera (Tolerancia) ofrece,
en cada paso, la tolerancia que tendría cada variable si fuera incorporada al modelo en el siguiente paso.
La segunda columnas (Tolerancia mínima) ofrece la tolerancia correspondiente a la variable (de las ya
incluidas en el modelo) cuya tolerancia más se vería afectada por la incorporación de la nueva variable (es
decir, la tolerancia de la variable cuya tolerancia pasaría a ser la más pequeña de todas).
Estadístico Lambda de Wilks global para el modelo generado en cada caso, independientemente que se
haya optado por otro estadístico como método de selección de variables.
Se sabe que, este estadístico valorar el grado de diferenciación entre los grupos tomando como referencia
las variables independientes incluidas en cada caso. En este caso, la información coincide exactamente
con la tabla de variables introducidas/excluidas.
La tabla ofrece estadísticos F que permiten contrastar la hipótesis de igualdad de medias entre cada dos
grupos. Esta tabla tiene mayor sentido cuando el análisis busca discriminar entre más de dos grupos,
permitiendo averiguar qué grupos difieren de qué otros (señalar que lambda hace una valoración global
del grado de diferenciación entre los grupos).
λ 1 = 2,264
λ 2 = 0,043
El autovalor es proporcional a la dispersión obtenida en la dirección del mayor autovector de la nube de

puntos multivariante. Las dos funciones que componen el modelo son muy desiguales. La primera función
explica el 98,1% de la variabilidad disponible en los datos, mientras que la segunda función sólo explica el
1,9%. De manera similar, la correlación canónica de la primera función es alta (0,833), mientras que la de
la segunda función es más bien baja (0,203).

La Lambda de Wilks contrasta de manera jerárquica la significación de las dos funciones obtenidas.
En la primera línea (1 a la 2) se contrasta la hipótesis nula de que el modelo completo (ambas funciones
discriminantes juntas) no permite distinguir las medias de los grupos.
En la tabla de Lambda de Wilks se aplica el contraste de significación para el conjunto de los dos ejes
discriminantes. El contraste V de Barlett que se aplica es:
G−1
⎡ k +G⎤
Vj = ⎢n − 1 −
⎣ 2 ⎥⎦
∑ ln(1 + λ g ) donde j = 0, 1
g= j+1
⎡ k + G⎤ ⎡ 2 + 3⎤
V0 = ⎢n − 1 − ⎡⎣ln(1 + λ 1 ) + ln(1 + λ 2 ) ⎤⎦ = ⎢25 − 1 − ⎡ln(1 + 2,264) + ln(1 + 0,043)⎤⎦ = 26,343
⎣ 2 ⎦⎥ ⎣ 2 ⎥⎦ ⎣
Los grados de libertad de la Chi‐cuadrado son k (G − 1) = 2(3 − 1) = 4 y el nivel de significación crítico es
0,000 < 0,05 rechazando, por tanto, la hipótesis nula, lo que significa que al menos uno de los ejes
discriminantes es significativo, es decir, el primer eje discriminante es significativo (es el que tiene mayor
poder discriminante). Adviértase que si no se rechaza la hipótesis nula no debería continuar el análisis.
Se verifica la relación entre la Lambda de Wilks y las raíces características (autovalores):
1 1
Λ= = = 0,294
(1 + λ 1 ) (1 + λ 2 ) (1 + 2,264) (1 + 0,043)
Una vez determinada la significatividad del primer eje discriminante, se contrasta la significatividad de los
restantes, en este caso, del segundo eje discriminante. El contraste a aplicar es el siguiente:
⎡ k + G⎤ ⎡ 2 + 3⎤
V1 = ⎢n − 1 − ⎡ln(1 + λ 2 ) ⎦⎤ = ⎢25 − 1 −
⎣ ⎡ln(1 + 0,043) ⎦⎤ = 0,909
⎣ 2 ⎦⎥ ⎣ 2 ⎥⎦ ⎣
Los grados de libertad de la Chi‐cuadrado son (k − 1)(G − 1 − 1) = (2 − 1)(3 − 1 − 1) = 1 (en el análisis no
entran 3 variables clasificadoras) y el nivel de significación crítico es 0,340 > 0,05 , aceptando la hipótesis
nula, lo que significa que el segundo eje discriminante no es significativamente distinto de 0 para
cualquiera de los niveles de significación usuales.
La relación entre la Lambda de Wilks (obtenida después de excluir la primera función discriminante) y la
segunda raíz característica (segundo autovalor) es la siguiente:
1 1
Λ2 = = = 0,959
(1 + λ 2 ) (1 + 0,043)
Como información complementaria, se calcula la correlación canónica de cada función discriminante con
la variable categórica que define los grupos, obteniéndose:
λ1 2,264 λ2 0,043
η1 = = = 0,833 η2 = = = 0,203
1 + λ1 1 + 2,264 1 + λ2 1 + 0,043
Los resultados obtenidos confirman que la capacidad explicativa de la segunda función discriminante es
muy inferior a la primera. A efectos prácticos se podría prescindir de la segunda función discriminante, sin
que afectase de forma importante a los resultados de la clasificación.

COEFICIENTES ESTANDARIZADOS: Aparecen los coeficientes de la función discriminante canónica
estandarizados (media 0 y desviación típica 1), de esta forma se evitan los problemas de escala que
pudieran existir entre las variables y, en consecuencia, la magnitud de los coeficientes estandarizados
es un indicador de la importancia que tiene esta variable en el cálculo de la función discriminante.
La matriz de los coeficientes estandarizados contiene dos columnas, una para cada función discriminante.
Las funciones se encuentran siempre ordenadas en correspondencia con los autovalores, siendo la
primera función la de mayor capacidad discriminante.
Conviene conocer cuáles son las variables que tienen

mayor poder discriminante en orden a clasificar a un
individuo en uno de los grupos (cumplidor, moroso,
fallido). Una forma de medir ese poder discriminante es
calculando el coeficiente de correlación entre cada una de
las variables y la función discriminante. Con un asterisco se
indica el coeficiente más grande (en valor absoluto) que
tiene cada variable.
Así, la variable Casado tienen su mayor coeficiente con la
función discriminante 1, mientras que las variables
Contrato_Trabajo e Ingresos lo tienen con la función
discriminante 2.
La tabla muestra la ubicación de los centroides en cada

una de las funciones discriminantes.
La primera función distingue fundamentalmente al
cliente cumplidor (cuyo centroide está ubicado en la
parte positiva) , cliente moroso y cliente fallido (cuyos
centroides se encuentran en la pare negativa).
La segunda función, el centroide de cliente moroso se sitúa en la parte positiva. Mientras que el centroide
del cliente fallido se sitúa en la parte negativa, el del cliente cumplidor en la parte central.
Dado que la primera función ha conseguido explicar el máximo de las diferencias existentes entre el
cliente cumplidor y el resto de clientes, es lógico que la segunda función discrime precisamente entre los
dos grupos que han quedado más próximos en la primera.
La tabla ofrece las probabilidades previas

basadas en los tamaños de los grupos.

De esta forma, las funciones de clasificación son:
⎧ F = 0,063.Patrimonio _ Neto + 13,721.Contrato _ Trabajo − 13,590 (cliente cumplidor)
⎪⎪ I
⎨ FII = 0,039.Patrimonio _ Neto + 9,604.Contrato _ Trabajo − 6,607 (cliente moroso)
⎪
⎪⎩ FIII = 0,018.Patrimonio _ Neto + 3,662.Contrato _ Trabajo − 2,051 (cliente fallido)
Para su aplicación, se calcula la puntuación de cada individuo en cada uno de los grupos, utilizando las
funciones clasificadoras. Finalmente, un individuo se clasifica en el grupo en el que ha alcanzado la
puntuación más elevada.

El Mapa territorial delimita,
en el plano de las dos funciones
discriminantes (no
estandarizadas), las áreas que
se asignan a cada grupo.
El área situada en la parte
derecha de la función
discriminante 1 es la
correspondiente al grupo 1,
mientras que el área de la
izquierda corresponde al
grupo 3.
Se clasifican en el grupo 2
los individuos con
puntuaciones discriminantes
canónicas situadas en el
triángulo de la parte central.
Los centroides de cada grupo
están representados por
asteriscos. Para representar los
centroides se utiliza las
coordenadas de la tabla de
centroides.
Cuando los casos o individuos
están bien clasificados, su
representación sobre el mapa
territorial los sitúa en el
territorio correspondiente al
grupo. Cuando la
discriminación es débil puede
haber sujetos que caen fuera
de su territorio y que estarían
mal clasificados.

Para cada caso, se muestran las puntuaciones discriminantes, las distancias de Mahalanobis de dichas
puntuaciones al centroide de cada grupo y las probabilidades a posteriori obtenidas a partir de esas
distancias. Aparece la columna Grupo real de pertenencia y Grupo pronosticado, que cuando aparece
con un asterisco refleja que el individuo a que corresponda se le clasifica de forma errónea.
En este caso, no aparece la columna etiquetada con (valores faltantes) donde se refleja casos o individuos
para los que no se dispone de información completa.
Las probabilidades a posteriori P(G/D) más altas con indicación al grupo a que corresponde y la segunda
probabilidad más alta con indicación del grupo P(D/G), no tienen interés especial en el análisis.
Se observa que hay seis casos mal clasificados, comprobándose como las probabilidades de pertenencia
son mayores para la pertenencia al grupo mayor, y también que las puntuaciones discriminantes son las
que sitúan a cada caso en el mapa territorial.
Los resultados de la investigación son satisfactorios, ya que contiene un porcentaje elevado de clientes
clasificados satisfactoriamente (76%), si bien preocupa el caso de un cliente moroso (cliente 17) que ha
sido calificado como cumplidor. Este tipo de error de clasificación tiene mucha importancia, el banco se
preocupa sobre todo que un cliente moroso o fallido pueda ser considerado como cumplidor, pues el
coste de una clasificación errónea de este tipo es elevado para la entidad.

Instrumentos Estadísticos Avanzados
Facultad Ciencias Económicas y Empresariales
Departamento de Economía Aplicada
Profesor: Santiago de la Fuente Fernández

Analisis Discriminante

Cargado por

Información del documentohacer clic para expandir la información del documento

Copyright:

Formatos disponibles

Analisis Discriminante

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Analisis Discriminante

Cargado por

Copyright:

Formatos disponibles

Portal Estadística Aplicada ‐ Análisis Discriminante 1

Portal Estadística Aplicada ‐ Análisis Discriminante 2

⎧ y1 = w11 x1 + w12 x2 + " + w1p xp + w10

tales que discriminen o separen lo máximo posible a los q grupos.

Portal Estadística Aplicada ‐ Análisis Discriminante 3

⎧ (xi j − x j ) = (xij − xk j ) + (xk j − x j )

Portal Estadística Aplicada ‐ Análisis Discriminante 4

y i = wi1 x1 + wi2 x2 + " + wip xp + wi 0 donde m = mín(q − 1, p) , tales que corre(y i ,y j ) = 0 ∀ i ≠ j

Las funciones (y1 , y 2 ," , ym ) se extraen de modo que:

MATRICIALMENTE: Se busca una función lineal de (x1 , x2 , " , xp ) : Y = w'X

Como es el esquema habitual de los multiplicadores de Lagrange, se define:

Como F w = λ T w , se tiene w'F w = λ w' T w = λ

Portal Estadística Aplicada ‐ Análisis Discriminante 5

ANÁLISIS DISCRIMINANTE: OBJETO

Un conjunto de variables Una variable categórica señalando

Variables clasificadoras Variable dependiente

Portal Estadística Aplicada ‐ Análisis Discriminante 6

Portal Estadística Aplicada ‐ Análisis Discriminante 7

CLASIFICACIÓN EN DOS GRUPOS

 Si se consideran N observaciones → La función discriminante Di = w1 X1i + w2 X 2 i + " + wk Xk i

⎛ D1 ⎞ ⎛ X11 X 21 " Xk1 ⎞ ⎛ w1 ⎞

Portal Estadística Aplicada ‐ Análisis Discriminante 8

⎛ D1 − d 1 ⎞ ⎛ X11 X 21 " Xk1 ⎞ ⎛ w1 ⎞

⎧di < C (di − C) < 0 → pertenece al grupo I

Portal Estadística Aplicada ‐ Análisis Discriminante 9

⎧ DI = w1 X1I + w2 X2I + " + wk Xk I

⎧ • Si Di < C se clasifica al individuo i en el grupo I

) HIPÓTESIS SOBRE EL PROCESO DE OBTENCIÓN DE LA MUESTRA: Facilitan la realización del proceso

La matriz S g es una estimación de la matriz de covarianzas correspondiente a la celda g‐ésima ∑ g ,

¿DIFIEREN SIGNIFICATIVAMENTE LAS MEDIAS POBLACIONALES DE LOS DOS GRUPOS? : La respuesta es

Portal Estadística Aplicada ‐ Análisis Discriminante 11

CÁLCULO DE PROBABILIDADES DE PERTENENCIA A UNA POBLACIÓN

En muchas ocasiones es conveniente tener información complementaria a las puntuaciones

La probabilidad condicionada Prob(D / g) se obtiene calculando la probabilidad de la puntuación

Prob(g / D) ∝ π g Prob(D / g) siendo ∝ ≡ proporcionalidad

Portal Estadística Aplicada ‐ Análisis Discriminante 12

CÁLCULO DE PROBABILIDADES A POSTERIORI SIN INFORMACIÓN A PRIORI

CÁLCULO DE PROBABILIDADES A POSTERIORI CON INFORMACIÓN A PRIORI

Portal Estadística Aplicada ‐ Análisis Discriminante 13

Portal Estadística Aplicada ‐ Análisis Discriminante 14

La obtención del vector w1 resulta un problema de cálculo de un vector característico asociado a la

Portal Estadística Aplicada ‐ Análisis Discriminante 15

⎡ K + G⎤ ⎧ k ≡ var iables categóricas

Este estadístico se utiliza en el análisis ⎧ H0 : μ1 = μ2 = " = μ G

De forma general, se puede establecer la expresión de contrastación secuencial mediante el

Portal Estadística Aplicada ‐ Análisis Discriminante 16

Portal Estadística Aplicada ‐ Análisis Discriminante 17

Cliente Préstamo Patrimonio Neto Deuda Pendiente

El director de la entidad financiera tiene dos nuevas solicitudes de un préstamo instantáneo.

Portal Estadística Aplicada ‐ Análisis Discriminante 18

Portal Estadística Aplicada ‐ Análisis Discriminante 19

Portal Estadística Aplicada ‐ Análisis Discriminante 20

COMPROBACIÓN SUPUESTOS PARAMÉTRICOS:

Portal Estadística Aplicada ‐ Análisis Discriminante 21

En la opción [Método] se dejan las

Lambda de Wilks: Estadístico que mide el poder discriminante de un conjunto de variables.

Portal Estadística Aplicada ‐ Análisis Discriminante 22

Si se desea que el análisis sea 'Guardado' se

Si se consideran N observaciones → La función discriminante Di = w1 X1i + w2 X 2 i + " + wk Xk i

DISTANCIA DE MAHALANOBIS (1936): Es una generalización de la distancia euclídea, que tiene en