Anda1 PDF

TEMA 4: CLASIFICACIÓN SUPERVISADA:
ANÁLISIS DISCRIMINANTE
ANÁLISIS DE DATOS (Grado en Estadı́stica)

ANÁLISIS MULTIVARIANTE (Grado en Matemáticas)
Departamento de Estadı́stica e I.O. · UVa

• Ejemplo: Sean X1=“Edad”, X2=“Mucina CA 15-37”, X3=“Proteina
pS2”, X4=“Proteina Hsp27”, X5=“Oncogen X”,...
X1 X2 X3 X4 X5 ... Diagnóstico
x11 x12 x13 x14 x15 ... Benigno
x21 x22 x23 x24 x25 ... Benigno
... ... ... ... ... ... ...
... ... ... ... ... ... Maligno buen tratamiento
... ... ... ... ... ... Maligno buen tratamiento
... ... ... ... ... ... ...
... ... ... ... ... ... Maligno mal tratamiento
... ... ... ... ... ... Maligno mal tratamiento
xn1 xn2 xn3 xn4 xn5 ... Maligno mal tratamiento
• Nuevo paciente con X1 = z1, X2 = z2,... y nos preguntamos: ¿qué

diagnóstico es más razonable para el nuevo paciente?
• Más ejemplos:
Etiquetar clientes en hipotécas de una banco (buenos clientes que lo
devuelven y los malos que no...)
Filtro de Spam (correo es spam o no...)
Detectar defectos automáticamente en cadena de montaje o, incluso,
distinguir distintos tipos de error...
Reconocimiento de voz, de matriculas, de iris del ojo,...
• Procedimientos: Clasificación; Aprendizaje Supervisado (supervised

learning); Inteligencia Artificial (Machine Learning); Reconocimiento de
Patrones (Pattern Recognition);...
• Muestra patrón:
X1 X2 X3 X4 X5 ... Asignación
x11 x12 x13 x14 x15 ... Grupo 1
x21 x22 x23 x24 x25 ... Grupo 1
... ... ... ... ... ... ...
xi1 xi2 xi3 xi4 xi5 ... Grupo k
... ... ... ... ... ... ...
xn1 xn2 xn3 xn4 xn5 ... Grupo q
• X = (xij )i=1,...,n;j=1,...,p
• {1, 2, 3, ..., n} = I1 ∪ ... ∪ Iq con #Ik = nk y n1 + ... + nq = n

• Sea X = (X1, ..., Xp)0 el vector aleatorio de caracterı́sticas y la variable
aleatoria G=“Grupo” con soporte en {1, ..., q}
• Regla “razonable” de clasificación:

Asignar x = (x1, ..., xp)0 al grupo K que da a x una mayor
probababilidad ’a posteriori’:
“asignar grupo K si P (G = K|X = x) = max P (G = k|X = x)”

k=1,...,q
• Si P (G = k) = πk (probabilidades ’a priori’) y P (X = x|G = k) =

fk (x), el (bien-conocido) Teorema de Bayes nos dice que:
πk fk (x)
P (G = k|X = x) = Pq .
k=1 πk fk (x)
• Regla de Bayes: En el caso general, asignamos x al grupo K si
πK fK (x) = max πk fk (x)

k=1,...,q
donde fk es la probabilidad o densidad de la v.a. X|G = k
• Sea Ĝ(X) =
( “estimación de G dado X” y la función de perdida 0-1
0 si K = k (acertamos)
L(K, k) = .
1 si K 6= k (no acertamos)
La regla de Bayes minimiza la perdida 0-1 esperada E[L(Ĝ(X), G)]
La regla de Bayes se puede ver como la mejor posible para alcanzar la
menor tasa de mal-clasificación esperable (no necesariamente 0...).
• πk y fk son desconocidas y solo contamos con una muestra patrón

{xi, gi}ni=1 (es decir, realizaciones X = xi y G = gi...)
Para probarlo si X|G = k no es discreta hay que usar esperanzas condicionadas...
• Distribución normal multivariante: Diremos que X = (X1, ..., Xp)0
sigue una distribución normal p-variante X ∼ Np(µ, Σ) si admite
densidad:

1 1 0 −1 p
f (x; µ, Σ) = p/2 1/2
exp − (x − µ) Σ (x − µ) para x ∈ R .
(2π) |Σ| 2
• Generalización de la normal clásica con
µ = EX = (EX1, ..., EXP )0
y  
Var(X1) Cov(X1, X2) ... Cov(X1, Xp)
 Cov(X1, X2) Var(X2) ... Cov(X2, Xp) 
Σ=

...

... ... ... 
Cov(X1, Xp) Cov(X2, Xp) ... Var(Xp)
• Conjuntos de equidensidad son elipsoides {x : (x−µ)0Σ−1(x−µ) = cte.}

• Los estimadores de µ y Σ más comunes son la media muestral y la
matriz de varianzas-covarianzas muestral:
n n
1X 1 X
µ̂ = x = b =S=
xi y Σ (xi − x)(xi − x)0
n i=1 n i=1
(Σ
b tiene las varianzas muestrales en la diagonal y las covarianzas fuera).
• Distancia de Mahalanobis:
p
d(x; µ, Σ) = (x − µ)0Σ−1(x − µ)
mide la distancia de x ∈ Rp al centro de la distribución µ teniendo en

cuenta la ’estructura de dispersión’ dada por Σ.
d(x; µ, Σ) es proporcional a kx − µk/σ si Σ = σ 2Ip (es decir, cuando
X1,...,Xp son independientes con la misma varianza σ 2...).
Discriminación Lineal
• Regla discriminate lineal para q = 2
Suponemos poblaciones normales con Σ1 = Σ2 = Σ. Es decir:
X|G = 1 ∼ Np(µ1, Σ) y X|G = 2 ∼ Np(µ2, Σ)
’Asignamos x al grupo 2’ si
π2f2(x) > π1f1(x).
Es decir, tomando logaritmos y quitando términos comúnes, si

1 1
− (x−µ2)0Σ−1(x−µ2)+log(π2) > − (x−µ1)0Σ−1(x−µ1)+log(π1)
2 2
Nótese que la asignación se basa en distancias de Mahalanobis si π1 = π2 . En ese caso, se procede

a asignar al grupo 2 cuando d(x; µ2 , Σ) < d(x; µ1 , Σ) y la regla simplifica a kx − µ2 k < kx − µ1 k
cuando π1 = π2 y Σ = σ 2 Ip ...
• Separación lineal:
Definimos
1
δk (x) = − (x − µk )0Σ−1(x − µk ) + log(πk )
2
1 1
= − x0Σ−1x + µ0k Σ−1x − µ0k Σ−1µk + log(πk )
2 2
Asignamos al grupo 2 si
1 1
δ2(x) − δ1(x) = − x0Σ−1x+ x0Σ−1x + ... = w0x + w0 > 0
2 2
con w ∈ Rp y w0 ∈ R.
La regla w0x + w0 > 0 es un “separador lineal” (la regla se reduce
a ver si una combinación lineal de las variable X1, ..., Xp es mayor o
menor que una constante).
• Costes asimétricos: Si c(i|j) el coste de mal-clasificar una observación
del grupo j en el grupo i. La regla de Bayes cambia a:
π2f2(x) π1f1(x)
’asignar al grupo 2’ si >
c(2|1) c(1|2)
Solo cambia w0 en el separador lineal anterior (a veces se usan curvas

ROC moviendo esa constante).
• Probabilidades de mal-clasificación: Si D2 = (µ1 − µ2)0Σ−1(µ1 − µ2)

y c(1|2)π2 = c(2|1)π1 (es decir, la regla simplifica a f2(x) > f1(x)...) y
se puede probar que las probabilidades de mal-clasificación entre clases
son:
P [2|1] = P [1|2] = φ(−D/2) > 0
• Reglas muestrales: Los parámetros µj y Σ desconocidos son estimados:
{1, 2, 3, ..., n} = I1 ∪ ... ∪ Iq con #Ik = nk y n1 + ... + nq = n
1 0
P
µ
ck = xk = n i∈Ik xi para xi = (xi1 , ..., xip )
k
1 0
P
Σk = n
c
i∈I k
(x i − x k )(x i − x k ) y el estimador combinado (pooled)
k
de Σ es q
1 X
Σ
b= (nk − 1)Σck
n−q
k=1
Si los πk son desconocidos pueden ser estimados por π

ck = nk /n
(¡dependiendo del tipo de muestreo realizado!)
Coordenadas discriminates
• Enfoque con la normal multivariante:

Usamos
1
δk (x) = − d2(x; µk , Σ) + log(πk )
2
p
Buscamos una partición R = A1 ∪ ... ∪ Aq tal que se asigna x al
grupo K si x ∈ AK
Se asigna al grupo K si δK (x) = maxk=1,...,q δk (x)
• Coordenadas discriminates de Fisher:

Fisher (1980-1962) propusó una métodologı́a basada en la busqueda de
mejores proyecciones en el sentido de que los grupos estén separados
y sean homogeneos en el espacio proyectado.
• Notación:
X1 X2 X3 X4 X5 ... Diagnóstico
x11 x12 x13 x14 x15 ... Grupo 1
x21 x22 x23 x24 x25 ... Grupo 1
... ... ... ... ... ... ...
xi1 xi2 xi3 xi4 xi5 ... Grupo k
... ... ... ... ... ... ...
xn1 xn2 xn3 xn4 xn5 ... Grupo q
X = (xij )i=1,...,n;j=1,...,p es la muestra patrón

{1, 2, 3, ..., n} = I1 ∪ ... ∪ Iq con #Ik = nk y n1 + ... + nq = n
1
Pn
xj = n i=1 xij es la media de la variable j
1
P
xkj = n i∈Ik xij es la media de la variable j para los individuos en
k
grupo k
• Descomposición de Huygens: La covarianza muestral entre las
variables j y j 0 se descompone en:
n
1X
Tjj 0 = (xij − xj )(xij 0 − xj 0 ) =
n i=1
q q
1XX X nk
= (xij −xkj )(xij 0 −xkj 0 )+ (xkj −xj )(xkj 0 −xj 0 ) = Wjj 0 +Bjj 0
n n
k=1 i∈Ik k=1
• Usando matrices:
T=W+B [“Total”(Total)=“Dentro”(Within) + “Entre”(Between)]
Recordar formulas de descomposición de cuadrados en ANOVA...

• Coordenadas discriminantes: Dada la muestra patrón X , buscamos
una combinación lineal de las variables originales
 
u1
 u2 
X u = (x1|...|xp) 
 ..  = u1x1 + u2x2 + ... + upxp

up
con kuk = 1 y permita “discriminar mejor” los grupos.

Mucha dispersión (↑) “entre grupos”
Poca dispersión (↓) “dentro grupos”
• “Dispersión total”= Var(X u) = u0T u = u0W u + u0Bu = “Dispersión
dentro grupos” + “Dispersión entre grupos”
• Se quiere maximizar u0Bu (↑) y minimizar u0W u (↓).
Si X = (X1 , ..., Xp )0 es un vector aleatorio y u ∈ Rp , entonces Var(Xu) = u0 Var(X)u. La

expresión Var(X u) = u0 T u en la versión muestral de dicha expresión ya que T es la matriz de
varianzas-covarianzas muestral basada en la muestra patrón...
• Queremos maximizar el ’cociente de Rayleigh’ definido como u0Bu/u0W u
(o, equiv., maximizar u0Bu sujeto a la restricción u0T u = 1):
Multiplicadores de Lagrange: L(u, λ) = u0Bu − λ(u0T u − 1) y al
derivar e igualar a 0 respecto a u llegamos a 2Bu − 2λT u = 0.
Es decir, necesitamos T −1Bu = λu
• Solución: La mejor proyeccion viene dada por u autovector de T −1B

asociado al autovalor mayor.
• El procedimiento se repite con los autovectores u1, ..., ud asociados a los

autovalores mayores de T −1B...
i) u0 T u = u0 W u + u0 Bu
∂ (x0 Ax) = 2Ax
ii) Por derivación matricial se tiene ∂x
iii) Tenemos u0 × (Bu − λT u) = 0. Despejando λ llegamos a λ = u0 Bu/u0 T u luego necesitamos
que el autovalor λ sea lo más grande posible.
• Dada una nueva observación sin clasificar con X1 = z1, ..., Xp = zp
se puede usar:
t(z) = (t1(z), ..., td(z)) para z = (z1, ..., zp)0 y tj (z) = u0j z
para clasificar esa nueva observación. Las funciones tj (·), j = 1, ..., d,

proporcionan las coordenadas discriminantes.
• Si Gk = (xk1, ..., xkp) (centroide del grupo k) entonces se asigna z al

grupo K cuando
kt(z) − t(GK )k = inf kt(z) − t(Gk )k

k=1,...,q
• Se puede ver que T −1B tiene rango máximo igual a min{q − 1, p}
luego el número de funciones discriminates a usar d debe verificar
d ≤ min{q − 1, p}
• El “poder discriminate” de la coordenada discriminante dada por tj (·) es

el autovalor asociado λj ≤ 1.
• La busqueda de proyecciones optimas, el uso de autovalores y

autovectores recuerda al Análisis de Componentes Principales (ACP).
Pero nótese que el ACP busca solo separar las observaciones sin tener en
cuenta su estructura en grupos.
i) Se pueden usar W −1 B y los autovectores serı́an los mismos pero no los autovalores...
ii) A efectos de clasificación no siempre es óptimo tomar d en su valor máximo...
• Ejemplo (pequeño para echar cuentas...): Tenemos la muestra
patrón:
X1 X2 Tipo fallo
1 1 1
2 1 1
1 2 1
-1 0 2
0 -1 2
y 1 = 3/5, y 2 = 3/5, y 11 = 4/3, y 12 = 4/3, y 21 = −1/2 y y 22 = −1/2

13 8 13 −8 1 1
10
T = 125 , T −1 = 42
5
y B = 363
8 13 −8 13 45 1 1

1 1
Luego T −1B ∝ con autovector (asociado al autovalor
1√ 1 √
mayor) unitario u = ( 2/2, 2/2)0
• Sea z = (1, 0) ⇐ ¿A qué tipo de fallo lo asignamos?
• Como G1 = (4/3, 4/3) y G2 = (−1/2, −1/2) se tiene
√ √ √

0 1
t(z) = u z = ( 2/2, 2/2) = 2/2,
0
√ √
t(G1) = 4 2/3 y t(G2) = − 2/2
• Como
√ √ 2
kt(G1) − t(z)k = (5 2/6) < (− 2) = kt(G2) − t(z)k2,
2 2
entonces asignamos z al “Fallo 1”

• Otros tópicos y relaciones:
Regresión Lineal (respuesta multivariante con columnas de 0-1
codificando niveles; respuesta univariante con valores especificamente
elegidos que codifican niveles;...)
· Permite selección de variables e inferencia clásica sobre coeficientes
· Técnicas LASSO aprovechando “sparseness”
Discriminación Logı́stica (muy relacionado pero no asume que la X
marginalmente es una mixtura de normales).
· Uso de técnicas clásicas de regresión logı́stica
Análisis Canónico (relaciones entre dos conjuntos de variables donde
unas son columnas 0-1 codificando niveles)
Análisis Multivariante de la Varianza MANOVA (permite testar cuantas
componentes es necesario añadir usando la Λ de Wilks...)
En esta asignatura no entraremos a detallar estas conexiones y posibilidades...
Discriminacı́on Cuadrática
• Discriminacı́on Cuadrática (QDA):
Permitimos covarianzas Σ1 y Σ2 diferentes en los grupos:

π2f2(x)
Q(x) = log(π2f2(x)) − log(π1f1(x)) = log
π1f1(x)
π2 1 |Σ2|
= log − log
π1 2 |Σ1|
1 0 −1 0 −1

− (x − µ2) Σ2 (x − µ2) − (x − µ1) Σ1 (x − µ1)
2
= ... = w0 + w10 x + x0Ωx
con w1 ∈ Rp y Ω una matriz p × p simétrica.

Las fronteras {x ∈ Rp : Q(x) = 0} son funciones cuadráticas en x
• No se usa Σ
b combinado en el caso muestral y se usan Σ
ck individuales
• Se puede “aproximar” usando LDA con variables x21,...,x2p, x1 ·x2, x1 ·x3,...
• El número de parámetros incrementa drásticamente con p. ¿Sobreajuste?

Compromiso entre LDA y QDA mediante “regularización”:
\
Σ k (α) = (1 − α)Σk + αΣ para α ∈ [0, 1]
c b
Validación y selección de modelos
• Tabla de clasificación: “fuera diagonal” ⇔ “mal clasificados”:
Predic.
Real 1 2 ... q
1 ♣
2 ♣
...
q ♣
• Pueden haber errores más importantes que otros:
Predic.
+ −
Real Positivos VP FN P
Negativos FP VN N
VP VP VN VN
“Sensibilidad” = V P +F N = P y “Especificidad” = V N +F P = N
• Sea Ĝ(X) = “estimación de G dado X” y la función de perdida 0-1
(
0 si K = k (acertamos)
L(K, k) = .
1 si K 6= k (no acertamos)
• Error aparente (training error): Es la proporción de mal clasificados

n n
1X 1X
err = L(Ĝ(xi), gi) = {Ĝ(xi) 6= gi}
n i=1 n i=1
al probar la regla de clasificación en la propia muestra patrón X .

Es “optimista” al estimar la tasa de error para futuras observaciones
y premia los modelos más complicados de lo necesario (premia el
“sobreajuste”...)
• Error de generalización (test error):
ErrX = E(X,G)[L(Ĝ(X), G)|X ]
¿Cuál es el funcionamiento en promedio para una nueva observación

aleatoria (X, G)?
Nótese que es condicional a la muestra X ...
• Error esperado de generalización (expected test error):
Err = E[ErrX ]
El valor esperado del error de generalización para las posibles muestras

patrón X aleatorias
¡¡Estos son los errores que realmente nos interesarı́a conocer!!
• Problema del sobreajuste en clasificación:
(
0 si Xm < 0
X1,...,Xm con Xi ∼ N (0, 1) independientes y G = .
1 si Xm ≥ 0
¿Nos proporciona información X1,...,Xm−1 sobre G? ¡¡¡Ninguna!!!
Código:
X <- matrix(rnorm(m*n),ncol=m)
G <- X[,m]>=0
ajuste <- lda(G~X[,1:(m-1)])
table(predict(ajuste)$class,G)
• Con muestras patrón X aleatorias n = 100 y p = m − 1 obtenemos:
Con m = 4:
0 1
0 28 24 <- Lo esperable (mala clasificación)...
1 22 26
Con m = 60 (sobreajuste):
0 1
0 42 4 <- Mejoramos...
1 4 50
Con m = 80 (sobreajuste total!):

0 1
0 53 0 <- Clasificamos todas las observaciones... (????)
1 0 47 (error aparente = 0)
• “Underfitting” y “overfitting”:
“Underfitting”: Modelos más simples de lo necesario (pocas variables
informativas o poca flexibilidad del método). Tienen problemas para
ajustarse a reglas de Bayes complejas (≈ “problema de sesgo”)
“Overfitting”: Modelos excesivamente complejos (demasiadas
variables o excesiva flexibilidad). Son métodos con alta variabilidad
que sobreajustan los datos de entrenamiento pero predicen mal nuevas
observaciones (≈ “problema de varianza”)
• Se puede ver como el tradicional conflicto “sesgo-varianza” en muchos

modelos estadı́sticos...
• “Sesgo-varianza” en regresión: y = 4 − 2x + x2 + ε con ε ∼ N (0, 42)
“Underfitting”: y en función de x1 = x (p = 1 < 2)
“Overfitting”: y en función de x1 = x, x2 = x2, ..., x7 = x7 (= 7 > 2)
30
30
30
●
25
25
25
●
●
20
20
20
●
●
● ●●
● ●
15
15
15
● ●
●
y
● ●
●
10
10
10
● ● ●
● ●
●
●
● ●
5
5
●
●
●
●
0
0
●
−5
−5
−5
−4 −2 0 2 4 −4 −2 0 2 4 −3 −2 −1 0 1 2 3 4
x x x
30
30
30
●
25
25
25
●
20
20
20
● ●
15
15
15
●
●
y
y
●
●
10
10
10
● ●
●
● ●
● ●
● ●
● ● ● ●
5
5
● ●
● ●
● ●
0
0
● ●
●
−5
−5
−5
−4 −2 0 2 −2 −1 0 1 2 3 4 −2 0 2 4
El sesgo está siempre presente aunque aumentemos n. Un n grande permite usar modelos más
complejos con p mayores. Desgraciadamente, muchos problemas actuales tienen p grande y n pequeño...
• Selección de modelos: Varios modelos (con distintas variables o grado
de complejidad) y queremos elegir el más interesante.
Métodos “paso a paso” de selección de variables
Penalizar por el número de parámetros efectivos libres en el modelo
(AIC, BIC,...)
Técnicas de validación cruzada
• Validación de modelos: Despuésde seleccionar el modelo final estimar

cuál será el error de generalización (estimar la proporción futura de
buenas predicciones)
Técnicas de validación cruzada
• Validación cruzada: Varios modelos (con distintas variables o grado de
complejidad) y queremos elegir el más interesante.

X1
Particionar la muestra patrón X = .
X2
Usamos solo observaciones en X1 (conjunto entrenamiento o Train)
para ajustar la regla de clasificación y vemos que tal funciona en las
observaciones en X2 (conjunto prueba o Test)
• Se recomienda (si hay datos de sobra...) realizar dos etapas:
Entrenamiento (50%) Selección (25%) Validación (25%)
Seleccionar el mejor modelo entre los candidatos (menor error de

validación cruzada en “Selección”) y usar el conjunto de “Validación”
para estimar el error de generalización del modelo final.
• K-fold: K bloques de la muestra patron X . Usamos K − 1 bloques
para ajustar la regla y el otro bloque para validar la regla. Cambiar de
bloque, intercambiar papeles y promediar los errores:
1 2 3 4 ... K
Train Train Train Test ... Train
• Leave-one-out: n
1X b
LOO = L(G−i(xi), gi)
n i=1
donde G b −i(xi) es la clase predicha para xi cuando la regla se ha obtenido
al eliminar la fila i-esima de X .
• Existen métodos basados en bootstrap (por ejemplo, el “.632 Bootstrap”

y procedimientos que admiten OOB “Out-of-bag”...)
Otros métodos de clasificación
• m-vecinos más próximos (k-nearest neighbors): Sea
Nm(x) = {las m observaciones xi más próximas a x}
Seguimos un simple esquema de votación. Asignar al grupo K si
#{xi ∈ Nm(x) con gi = K} = max #{xi ∈ Nm(x) con gi = k}

1≤k≤q
• Relacionado con métodos no-paramétricos. Se usa πk fbk (x) con fbk un

estimador no-paramétrico de la densidad (asign: Métodos de Suavizado)
• Presenta problemas en dimensión p alta por la “maldición de la

dimensionalidad” (Rp está bastante “vacio” localmente de observaciones
para p grande...)
• Paquete: library(class)
• Parámetro m:
m grande ⇒ “menos flexible (mayor sesgo) y menor variabilidad”
m pequeño ⇒ “más flexible (menor sesgo) y mayor variabilidad”
• Árboles de clasificación (CART-classification and regression trees):
Muy fácil interpretación. Se debe “podar” adecuadamente el arbol.

Son la base de métodos muy efectivos en clasificación (Random Forest;
mejorados con bagging y boosting;...)
• Paquete: library(rpart)
• Support Vector Machines (SVM):
Si tenemos clases separables linealmente buscamos el hiperplano que
separa las clases con el mayor “margen” posible:
Los puntos que determinan el “margen” son puntos “soporte”
• Paquete: library(e1071)
• ¿Qué pasa si las clases no son separables linealmente?
Se transforman los datos a un espacio de dimensión mayor donde sı́
son separables: xi ∈ Rp 7→ Φ(xi) ∈ Rr con r ≥ p
Ejemplo: G1 = “dentro bola B((2, 3)0, 1)” y G2 = “fuera bola”
4.5
●● ●● ● ● ● ●
●
● ●● ●● ● ● ●● ● ●
●
● ●● ● ● ● ●
●
● ● ●● ● ● ● ●●●● ● ●
● ● ● ● ● ●
● ● ● ●● ●● ●
●● ●●
●
●
● ● ●●● ●●● ●
● ● ●● ● ●● ● ● ●● ● ● ● ● ●
● ● ● ●
●
● ●●
●
●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●
●● ●● ● ●● ● ● ● ● ● ●● ● ●
●
● ● ● ● ● ● ● ● ● ● ●
● ●● ●● ●● ●
4.0
● ●
●● ●●● ●
●
●● ●● ● ● ● ● ●
●
●● ●● ● ● ● ●
● ●
● ● ● ● ● ●● ●
● ● ●●
● ● ● ●● ●● ● ● ● ● ●● ● ●
● ● ● ● ● ● ●
●● ●
● ● ● ● ● ● ●●● ● ● ●● ● ● ● ●● ● ●
● ● ● ●
●● ● ● ● ●●●● ●● ●●● ●
●
● ● ● ● ●● ● ● ● ●● ●
● ● ● ● ● ●● ●
● ● ● ● ● ●●● ● ● ● ● ●● ● ● ● ● ● ●
● ●
● ● ●● ● ● ●● ● ● ● ●●●●
3.5
●● ●●
●
●● ●●● ●● ● ●
● ● ● ● ●
● ●● ● ● ● ● ● ●
●● ● ● ●● ● ● ●
●
● ●● ● ● ● ● ●
● ● ● ● ●●●● ● ●● ● ● ● ● ● ● ● ● ●●
● ● ●
● ●● ● ● ● ● ● ● ● ●
●
●● ● ●● ● ● ● ● ●
●●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ●
● ● ● ●
●● ● ●● ● ●● ● ●
● ●● ●
●●
●●● ● ●●●
●●● ● ● ●● ●
3.0 ● ●
● ● ● ●
● ●
● ● ●
●●●●
● ● ●
●●● ●●
●● ● ●
●
●● ●● ●
●● ●
●●
●●
●● ● ●
● ● ● ● ●●
● ●
● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ●● ● ● ●
●● ● ● ● ●●● ● ●●● ● ● ●●● ●
● ● ●
● ● ●●
● ●●
● ● ●●● ●● ● ●
● ● ● ● ● ● ● ● ● ● ●
●
● ●● ● ●
● ● ● ● ● ●● ●● ● ● ●
● ● ● ● ● ● ●
●●● ●● ●● ●●
●
●
●● ●●
● ● ●● ● ● ●
●
2.5
● ● ●● ● ●● ●
●●●● ● ● ●
● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●
●● ● ●● ●
●
● ●
● ● ●● ● ●●●●● ●●
● ● ● ● ●●● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●●
● ●● ● ● ● ● ● ●● ● ● ●● ● ●● ● ●
● ●● ●
●
● ● ●●
●
●● ●● ●● ● ● ●● ● ● ● ● ● ● ● ●
● ● ● ●
●● ● ● ●● ● ● ● ● ●● ●
● ●
● ●
● ● ● ● ● ● ● ● ●● ●●● ●● ●● ● ●● ● ● ● ●
● ● ● ●
2.0
● ● ● ●
●● ● ● ●● ● ● ● ●●
● ● ● ● ● ● ● ●
● ●
● ● ●● ● ● ● ● ●●
●● ●● ● ● ●
● ●●
● ● ●
● ●
● ● ●
●
●
●● ●●● ●● ● ● ● ●
● ● ● ●●
● ●
● ● ● ●
● ●
●
●●●●● ● ● ● ●● ● ●● ● ● ● ●● ● ● ● ●●
● ●● ●● ●●
● ● ● ● ● ● ● ●● ● ●
● ● ● ● ● ●● ● ● ● ● ●
● ●●●● ●●● ● ● ●● ● ● ● ● ● ● ●
1.5
●●● ● ●● ● ● ●
0.5 1.0 1.5 2.0 2.5 3.0 3.5
G1 y G2 no separables linealmente con {x1, x2} y sı́ con {x1, x2, x21, x22}
“Nucleos” (kernel trick) para trabajar a nivel computacional

Anda1 PDF

Cargado por

Información del documentohacer clic para expandir la información del documento

Copyright:

Formatos disponibles

Anda1 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Anda1 PDF

Cargado por

Copyright:

Formatos disponibles

TEMA 4: CLASIFICACIÓN SUPERVISADA:

ANÁLISIS DE DATOS (Grado en Estadı́stica)

Departamento de Estadı́stica e I.O. · UVa

• Nuevo paciente con X1 = z1, X2 = z2,... y nos preguntamos: ¿qué

• Procedimientos: Clasificación; Aprendizaje Supervisado (supervised

• {1, 2, 3, ..., n} = I1 ∪ ... ∪ Iq con #Ik = nk y n1 + ... + nq = n

• Regla “razonable” de clasificación:

“asignar grupo K si P (G = K|X = x) = max P (G = k|X = x)”

• Si P (G = k) = πk (probabilidades ’a priori’) y P (X = x|G = k) =

πK fK (x) = max πk fk (x)

donde fk es la probabilidad o densidad de la v.a. X|G = k

• πk y fk son desconocidas y solo contamos con una muestra patrón

• Generalización de la normal clásica con

µ = EX = (EX1, ..., EXP )0

• Conjuntos de equidensidad son elipsoides {x : (x−µ)0Σ−1(x−µ) = cte.}

mide la distancia de x ∈ Rp al centro de la distribución µ teniendo en

X|G = 1 ∼ Np(µ1, Σ) y X|G = 2 ∼ Np(µ2, Σ)

π2f2(x) > π1f1(x).

Es decir, tomando logaritmos y quitando términos comúnes, si

Nótese que la asignación se basa en distancias de Mahalanobis si π1 = π2 . En ese caso, se procede

 Solo cambia w0 en el separador lineal anterior (a veces se usan curvas

• Probabilidades de mal-clasificación: Si D2 = (µ1 − µ2)0Σ−1(µ1 − µ2)

 Si los πk son desconocidos pueden ser estimados por π

• Enfoque con la normal multivariante:

• Coordenadas discriminates de Fisher:

 X = (xij )i=1,...,n;j=1,...,p es la muestra patrón

T=W+B [“Total”(Total)=“Dentro”(Within) + “Entre”(Between)]

Recordar formulas de descomposición de cuadrados en ANOVA...

con kuk = 1 y permita “discriminar mejor” los grupos.

• Se quiere maximizar u0Bu (↑) y minimizar u0W u (↓).

Si X = (X1 , ..., Xp )0 es un vector aleatorio y u ∈ Rp , entonces Var(Xu) = u0 Var(X)u. La

• Solución: La mejor proyeccion viene dada por u autovector de T −1B

• El procedimiento se repite con los autovectores u1, ..., ud asociados a los

para clasificar esa nueva observación. Las funciones tj (·), j = 1, ..., d,

• Si Gk = (xk1, ..., xkp) (centroide del grupo k) entonces se asigna z al

kt(z) − t(GK )k = inf kt(z) − t(Gk )k

• El “poder discriminate” de la coordenada discriminante dada por tj (·) es

• La busqueda de proyecciones optimas, el uso de autovalores y

 y 1 = 3/5, y 2 = 3/5, y 11 = 4/3, y 12 = 4/3, y 21 = −1/2 y y 22 = −1/2

• Como G1 = (4/3, 4/3) y G2 = (−1/2, −1/2) se tiene

entonces asignamos z al “Fallo 1”

con w1 ∈ Rp y Ω una matriz p × p simétrica.

• Se puede “aproximar” usando LDA con variables x21,...,x2p, x1 ·x2, x1 ·x3,...

• El número de parámetros incrementa drásticamente con p. ¿Sobreajuste?

• Pueden haber errores más importantes que otros:

• Error aparente (training error): Es la proporción de mal clasificados

al probar la regla de clasificación en la propia muestra patrón X .

ErrX = E(X,G)[L(Ĝ(X), G)|X ]

 ¿Cuál es el funcionamiento en promedio para una nueva observación

• Error esperado de generalización (expected test error):

 El valor esperado del error de generalización para las posibles muestras

 ¿Nos proporciona información X1,...,Xm−1 sobre G? ¡¡¡Ninguna!!!

 Con m = 80 (sobreajuste total!):

• Se puede ver como el tradicional conflicto “sesgo-varianza” en muchos

• Validación de modelos: Despuésde seleccionar el modelo final estimar

• Se recomienda (si hay datos de sobra...) realizar dos etapas:

Entrenamiento (50%) Selección (25%) Validación (25%)

 Seleccionar el mejor modelo entre los candidatos (menor error de

Solo cambia w0 en el separador lineal anterior (a veces se usan curvas

Si los πk son desconocidos pueden ser estimados por π

X = (xij )i=1,...,n;j=1,...,p es la muestra patrón

y 1 = 3/5, y 2 = 3/5, y 11 = 4/3, y 12 = 4/3, y 21 = −1/2 y y 22 = −1/2

¿Cuál es el funcionamiento en promedio para una nueva observación

El valor esperado del error de generalización para las posibles muestras

¿Nos proporciona información X1,...,Xm−1 sobre G? ¡¡¡Ninguna!!!

Con m = 80 (sobreajuste total!):

Seleccionar el mejor modelo entre los candidatos (menor error de

Seguimos un simple esquema de votación. Asignar al grupo K si

Muy fácil interpretación. Se debe “podar” adecuadamente el arbol.

Los puntos que determinan el “margen” son puntos “soporte”