0% encontró este documento útil (0 votos)
22 vistas41 páginas

Anda1 PDF

Descargar como pdf o txt
Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1/ 41

TEMA 4: CLASIFICACIÓN SUPERVISADA:

ANÁLISIS DISCRIMINANTE

ANÁLISIS DE DATOS (Grado en Estadı́stica)


ANÁLISIS MULTIVARIANTE (Grado en Matemáticas)

Departamento de Estadı́stica e I.O. · UVa


• Ejemplo: Sean X1=“Edad”, X2=“Mucina CA 15-37”, X3=“Proteina
pS2”, X4=“Proteina Hsp27”, X5=“Oncogen X”,...

X1 X2 X3 X4 X5 ... Diagnóstico
x11 x12 x13 x14 x15 ... Benigno
x21 x22 x23 x24 x25 ... Benigno
... ... ... ... ... ... ...
... ... ... ... ... ... Maligno buen tratamiento
... ... ... ... ... ... Maligno buen tratamiento
... ... ... ... ... ... ...
... ... ... ... ... ... Maligno mal tratamiento
... ... ... ... ... ... Maligno mal tratamiento
xn1 xn2 xn3 xn4 xn5 ... Maligno mal tratamiento

• Nuevo paciente con X1 = z1, X2 = z2,... y nos preguntamos: ¿qué


diagnóstico es más razonable para el nuevo paciente?
• Más ejemplos:
 Etiquetar clientes en hipotécas de una banco (buenos clientes que lo
devuelven y los malos que no...)
 Filtro de Spam (correo es spam o no...)
 Detectar defectos automáticamente en cadena de montaje o, incluso,
distinguir distintos tipos de error...
 Reconocimiento de voz, de matriculas, de iris del ojo,...

• Procedimientos: Clasificación; Aprendizaje Supervisado (supervised


learning); Inteligencia Artificial (Machine Learning); Reconocimiento de
Patrones (Pattern Recognition);...
• Muestra patrón:

X1 X2 X3 X4 X5 ... Asignación
x11 x12 x13 x14 x15 ... Grupo 1
x21 x22 x23 x24 x25 ... Grupo 1
... ... ... ... ... ... ...
xi1 xi2 xi3 xi4 xi5 ... Grupo k
... ... ... ... ... ... ...
xn1 xn2 xn3 xn4 xn5 ... Grupo q

• X = (xij )i=1,...,n;j=1,...,p

• {1, 2, 3, ..., n} = I1 ∪ ... ∪ Iq con #Ik = nk y n1 + ... + nq = n


• Sea X = (X1, ..., Xp)0 el vector aleatorio de caracterı́sticas y la variable
aleatoria G=“Grupo” con soporte en {1, ..., q}

• Regla “razonable” de clasificación:


 Asignar x = (x1, ..., xp)0 al grupo K que da a x una mayor
probababilidad ’a posteriori’:

“asignar grupo K si P (G = K|X = x) = max P (G = k|X = x)”


k=1,...,q

• Si P (G = k) = πk (probabilidades ’a priori’) y P (X = x|G = k) =


fk (x), el (bien-conocido) Teorema de Bayes nos dice que:

πk fk (x)
P (G = k|X = x) = Pq .
k=1 πk fk (x)
• Regla de Bayes: En el caso general, asignamos x al grupo K si

πK fK (x) = max πk fk (x)


k=1,...,q

donde fk es la probabilidad o densidad de la v.a. X|G = k

• Sea Ĝ(X) =
( “estimación de G dado X” y la función de perdida 0-1
0 si K = k (acertamos)
L(K, k) = .
1 si K 6= k (no acertamos)
La regla de Bayes minimiza la perdida 0-1 esperada E[L(Ĝ(X), G)]
 La regla de Bayes se puede ver como la mejor posible para alcanzar la
menor tasa de mal-clasificación esperable (no necesariamente 0...).

• πk y fk son desconocidas y solo contamos con una muestra patrón


{xi, gi}ni=1 (es decir, realizaciones X = xi y G = gi...)
Para probarlo si X|G = k no es discreta hay que usar esperanzas condicionadas...
• Distribución normal multivariante: Diremos que X = (X1, ..., Xp)0
sigue una distribución normal p-variante X ∼ Np(µ, Σ) si admite
densidad:
 
1 1 0 −1 p
f (x; µ, Σ) = p/2 1/2
exp − (x − µ) Σ (x − µ) para x ∈ R .
(2π) |Σ| 2

• Generalización de la normal clásica con

µ = EX = (EX1, ..., EXP )0

y  
Var(X1) Cov(X1, X2) ... Cov(X1, Xp)
 Cov(X1, X2) Var(X2) ... Cov(X2, Xp) 
Σ=

...

... ... ... 
Cov(X1, Xp) Cov(X2, Xp) ... Var(Xp)

• Conjuntos de equidensidad son elipsoides {x : (x−µ)0Σ−1(x−µ) = cte.}


• Los estimadores de µ y Σ más comunes son la media muestral y la
matriz de varianzas-covarianzas muestral:
n n
1X 1 X
µ̂ = x = b =S=
xi y Σ (xi − x)(xi − x)0
n i=1 n i=1


b tiene las varianzas muestrales en la diagonal y las covarianzas fuera).

• Distancia de Mahalanobis:
p
d(x; µ, Σ) = (x − µ)0Σ−1(x − µ)

mide la distancia de x ∈ Rp al centro de la distribución µ teniendo en


cuenta la ’estructura de dispersión’ dada por Σ.
 d(x; µ, Σ) es proporcional a kx − µk/σ si Σ = σ 2Ip (es decir, cuando
X1,...,Xp son independientes con la misma varianza σ 2...).
Discriminación Lineal
• Regla discriminate lineal para q = 2
 Suponemos poblaciones normales con Σ1 = Σ2 = Σ. Es decir:

X|G = 1 ∼ Np(µ1, Σ) y X|G = 2 ∼ Np(µ2, Σ)

 ’Asignamos x al grupo 2’ si

π2f2(x) > π1f1(x).

Es decir, tomando logaritmos y quitando términos comúnes, si


1 1
− (x−µ2)0Σ−1(x−µ2)+log(π2) > − (x−µ1)0Σ−1(x−µ1)+log(π1)
2 2

Nótese que la asignación se basa en distancias de Mahalanobis si π1 = π2 . En ese caso, se procede


a asignar al grupo 2 cuando d(x; µ2 , Σ) < d(x; µ1 , Σ) y la regla simplifica a kx − µ2 k < kx − µ1 k
cuando π1 = π2 y Σ = σ 2 Ip ...
• Separación lineal:
 Definimos
1
δk (x) = − (x − µk )0Σ−1(x − µk ) + log(πk )
2
1 1
= − x0Σ−1x + µ0k Σ−1x − µ0k Σ−1µk + log(πk )
2 2
 Asignamos al grupo 2 si
1 1
δ2(x) − δ1(x) = − x0Σ−1x+ x0Σ−1x + ... = w0x + w0 > 0
2 2
con w ∈ Rp y w0 ∈ R.
 La regla w0x + w0 > 0 es un “separador lineal” (la regla se reduce
a ver si una combinación lineal de las variable X1, ..., Xp es mayor o
menor que una constante).
• Costes asimétricos: Si c(i|j) el coste de mal-clasificar una observación
del grupo j en el grupo i. La regla de Bayes cambia a:

π2f2(x) π1f1(x)
’asignar al grupo 2’ si >
c(2|1) c(1|2)

 Solo cambia w0 en el separador lineal anterior (a veces se usan curvas


ROC moviendo esa constante).

• Probabilidades de mal-clasificación: Si D2 = (µ1 − µ2)0Σ−1(µ1 − µ2)


y c(1|2)π2 = c(2|1)π1 (es decir, la regla simplifica a f2(x) > f1(x)...) y
se puede probar que las probabilidades de mal-clasificación entre clases
son:
P [2|1] = P [1|2] = φ(−D/2) > 0
• Reglas muestrales: Los parámetros µj y Σ desconocidos son estimados:
 {1, 2, 3, ..., n} = I1 ∪ ... ∪ Iq con #Ik = nk y n1 + ... + nq = n
1 0
P
 µ
ck = xk = n i∈Ik xi para xi = (xi1 , ..., xip )
k

1 0
P
 Σk = n
c
i∈I k
(x i − x k )(x i − x k ) y el estimador combinado (pooled)
k
de Σ es q
1 X
Σ
b= (nk − 1)Σck
n−q
k=1

 Si los πk son desconocidos pueden ser estimados por π


ck = nk /n
(¡dependiendo del tipo de muestreo realizado!)
Coordenadas discriminates

• Enfoque con la normal multivariante:


 Usamos
1
δk (x) = − d2(x; µk , Σ) + log(πk )
2
p
 Buscamos una partición R = A1 ∪ ... ∪ Aq tal que se asigna x al
grupo K si x ∈ AK
 Se asigna al grupo K si δK (x) = maxk=1,...,q δk (x)

• Coordenadas discriminates de Fisher:


 Fisher (1980-1962) propusó una métodologı́a basada en la busqueda de
mejores proyecciones en el sentido de que los grupos estén separados
y sean homogeneos en el espacio proyectado.
• Notación:

X1 X2 X3 X4 X5 ... Diagnóstico
x11 x12 x13 x14 x15 ... Grupo 1
x21 x22 x23 x24 x25 ... Grupo 1
... ... ... ... ... ... ...
xi1 xi2 xi3 xi4 xi5 ... Grupo k
... ... ... ... ... ... ...
xn1 xn2 xn3 xn4 xn5 ... Grupo q

 X = (xij )i=1,...,n;j=1,...,p es la muestra patrón


 {1, 2, 3, ..., n} = I1 ∪ ... ∪ Iq con #Ik = nk y n1 + ... + nq = n
1
Pn
 xj = n i=1 xij es la media de la variable j
1
P
 xkj = n i∈Ik xij es la media de la variable j para los individuos en
k
grupo k
• Descomposición de Huygens: La covarianza muestral entre las
variables j y j 0 se descompone en:
n
1X
Tjj 0 = (xij − xj )(xij 0 − xj 0 ) =
n i=1

q q
1XX X nk
= (xij −xkj )(xij 0 −xkj 0 )+ (xkj −xj )(xkj 0 −xj 0 ) = Wjj 0 +Bjj 0
n n
k=1 i∈Ik k=1

• Usando matrices:

T=W+B [“Total”(Total)=“Dentro”(Within) + “Entre”(Between)]

Recordar formulas de descomposición de cuadrados en ANOVA...


• Coordenadas discriminantes: Dada la muestra patrón X , buscamos
una combinación lineal de las variables originales
 
u1
 u2 
X u = (x1|...|xp) 
 ..  = u1x1 + u2x2 + ... + upxp

up

con kuk = 1 y permita “discriminar mejor” los grupos.


 Mucha dispersión (↑) “entre grupos”
 Poca dispersión (↓) “dentro grupos”
• “Dispersión total”= Var(X u) = u0T u = u0W u + u0Bu = “Dispersión
dentro grupos” + “Dispersión entre grupos”

• Se quiere maximizar u0Bu (↑) y minimizar u0W u (↓).

Si X = (X1 , ..., Xp )0 es un vector aleatorio y u ∈ Rp , entonces Var(Xu) = u0 Var(X)u. La


expresión Var(X u) = u0 T u en la versión muestral de dicha expresión ya que T es la matriz de
varianzas-covarianzas muestral basada en la muestra patrón...
• Queremos maximizar el ’cociente de Rayleigh’ definido como u0Bu/u0W u
(o, equiv., maximizar u0Bu sujeto a la restricción u0T u = 1):
 Multiplicadores de Lagrange: L(u, λ) = u0Bu − λ(u0T u − 1) y al
derivar e igualar a 0 respecto a u llegamos a 2Bu − 2λT u = 0.
 Es decir, necesitamos T −1Bu = λu

• Solución: La mejor proyeccion viene dada por u autovector de T −1B


asociado al autovalor mayor.

• El procedimiento se repite con los autovectores u1, ..., ud asociados a los


autovalores mayores de T −1B...
i) u0 T u = u0 W u + u0 Bu
∂ (x0 Ax) = 2Ax
ii) Por derivación matricial se tiene ∂x
iii) Tenemos u0 × (Bu − λT u) = 0. Despejando λ llegamos a λ = u0 Bu/u0 T u luego necesitamos
que el autovalor λ sea lo más grande posible.
• Dada una nueva observación sin clasificar con X1 = z1, ..., Xp = zp
se puede usar:

t(z) = (t1(z), ..., td(z)) para z = (z1, ..., zp)0 y tj (z) = u0j z

para clasificar esa nueva observación. Las funciones tj (·), j = 1, ..., d,


proporcionan las coordenadas discriminantes.

• Si Gk = (xk1, ..., xkp) (centroide del grupo k) entonces se asigna z al


grupo K cuando

kt(z) − t(GK )k = inf kt(z) − t(Gk )k


k=1,...,q
• Se puede ver que T −1B tiene rango máximo igual a min{q − 1, p}
luego el número de funciones discriminates a usar d debe verificar
d ≤ min{q − 1, p}

• El “poder discriminate” de la coordenada discriminante dada por tj (·) es


el autovalor asociado λj ≤ 1.

• La busqueda de proyecciones optimas, el uso de autovalores y


autovectores recuerda al Análisis de Componentes Principales (ACP).
Pero nótese que el ACP busca solo separar las observaciones sin tener en
cuenta su estructura en grupos.

i) Se pueden usar W −1 B y los autovectores serı́an los mismos pero no los autovalores...
ii) A efectos de clasificación no siempre es óptimo tomar d en su valor máximo...
• Ejemplo (pequeño para echar cuentas...): Tenemos la muestra
patrón:

X1 X2 Tipo fallo
1 1 1
2 1 1
1 2 1
-1 0 2
0 -1 2

 y 1 = 3/5, y 2 = 3/5, y 11 = 4/3, y 12 = 4/3, y 21 = −1/2 y y 22 = −1/2


     
13 8 13 −8 1 1
10
 T = 125 , T −1 = 42
5
y B = 363
8 13 −8 13 45 1 1
 
1 1
 Luego T −1B ∝ con autovector (asociado al autovalor
1√ 1 √
mayor) unitario u = ( 2/2, 2/2)0
• Sea z = (1, 0) ⇐ ¿A qué tipo de fallo lo asignamos?

• Como G1 = (4/3, 4/3) y G2 = (−1/2, −1/2) se tiene

√ √ √
 
0 1
t(z) = u z = ( 2/2, 2/2) = 2/2,
0
√ √
t(G1) = 4 2/3 y t(G2) = − 2/2

• Como
√ √ 2
kt(G1) − t(z)k = (5 2/6) < (− 2) = kt(G2) − t(z)k2,
2 2

entonces asignamos z al “Fallo 1”


• Otros tópicos y relaciones:
 Regresión Lineal (respuesta multivariante con columnas de 0-1
codificando niveles; respuesta univariante con valores especificamente
elegidos que codifican niveles;...)
· Permite selección de variables e inferencia clásica sobre coeficientes
· Técnicas LASSO aprovechando “sparseness”
 Discriminación Logı́stica (muy relacionado pero no asume que la X
marginalmente es una mixtura de normales).
· Uso de técnicas clásicas de regresión logı́stica
 Análisis Canónico (relaciones entre dos conjuntos de variables donde
unas son columnas 0-1 codificando niveles)
 Análisis Multivariante de la Varianza MANOVA (permite testar cuantas
componentes es necesario añadir usando la Λ de Wilks...)
En esta asignatura no entraremos a detallar estas conexiones y posibilidades...
Discriminacı́on Cuadrática
• Discriminacı́on Cuadrática (QDA):
 Permitimos covarianzas Σ1 y Σ2 diferentes en los grupos:
 
π2f2(x)
Q(x) = log(π2f2(x)) − log(π1f1(x)) = log
π1f1(x)
π2 1 |Σ2|
= log − log
π1 2 |Σ1|
1 0 −1 0 −1

− (x − µ2) Σ2 (x − µ2) − (x − µ1) Σ1 (x − µ1)
2
= ... = w0 + w10 x + x0Ωx

con w1 ∈ Rp y Ω una matriz p × p simétrica.


 Las fronteras {x ∈ Rp : Q(x) = 0} son funciones cuadráticas en x
• No se usa Σ
b combinado en el caso muestral y se usan Σ
ck individuales

• Se puede “aproximar” usando LDA con variables x21,...,x2p, x1 ·x2, x1 ·x3,...

• El número de parámetros incrementa drásticamente con p. ¿Sobreajuste?


 Compromiso entre LDA y QDA mediante “regularización”:

\
Σ k (α) = (1 − α)Σk + αΣ para α ∈ [0, 1]
c b
Validación y selección de modelos
• Tabla de clasificación: “fuera diagonal” ⇔ “mal clasificados”:

Predic.
Real 1 2 ... q
1 ♣
2 ♣
...
q ♣

• Pueden haber errores más importantes que otros:

Predic.
+ −
Real Positivos VP FN P
Negativos FP VN N
VP VP VN VN
“Sensibilidad” = V P +F N = P y “Especificidad” = V N +F P = N
• Sea Ĝ(X) = “estimación de G dado X” y la función de perdida 0-1
(
0 si K = k (acertamos)
L(K, k) = .
1 si K 6= k (no acertamos)

• Error aparente (training error): Es la proporción de mal clasificados


n n
1X 1X
err = L(Ĝ(xi), gi) = {Ĝ(xi) 6= gi}
n i=1 n i=1

al probar la regla de clasificación en la propia muestra patrón X .


 Es “optimista” al estimar la tasa de error para futuras observaciones
y premia los modelos más complicados de lo necesario (premia el
“sobreajuste”...)
• Error de generalización (test error):

ErrX = E(X,G)[L(Ĝ(X), G)|X ]

 ¿Cuál es el funcionamiento en promedio para una nueva observación


aleatoria (X, G)?
 Nótese que es condicional a la muestra X ...

• Error esperado de generalización (expected test error):

Err = E[ErrX ]

 El valor esperado del error de generalización para las posibles muestras


patrón X aleatorias
¡¡Estos son los errores que realmente nos interesarı́a conocer!!
• Problema del sobreajuste en clasificación:
(
0 si Xm < 0
 X1,...,Xm con Xi ∼ N (0, 1) independientes y G = .
1 si Xm ≥ 0

 ¿Nos proporciona información X1,...,Xm−1 sobre G? ¡¡¡Ninguna!!!

 Código:

X <- matrix(rnorm(m*n),ncol=m)
G <- X[,m]>=0
ajuste <- lda(G~X[,1:(m-1)])
table(predict(ajuste)$class,G)
• Con muestras patrón X aleatorias n = 100 y p = m − 1 obtenemos:
 Con m = 4:
0 1
0 28 24 <- Lo esperable (mala clasificación)...
1 22 26

 Con m = 60 (sobreajuste):
0 1
0 42 4 <- Mejoramos...
1 4 50

 Con m = 80 (sobreajuste total!):


0 1
0 53 0 <- Clasificamos todas las observaciones... (????)
1 0 47 (error aparente = 0)
• “Underfitting” y “overfitting”:
 “Underfitting”: Modelos más simples de lo necesario (pocas variables
informativas o poca flexibilidad del método). Tienen problemas para
ajustarse a reglas de Bayes complejas (≈ “problema de sesgo”)
 “Overfitting”: Modelos excesivamente complejos (demasiadas
variables o excesiva flexibilidad). Son métodos con alta variabilidad
que sobreajustan los datos de entrenamiento pero predicen mal nuevas
observaciones (≈ “problema de varianza”)

• Se puede ver como el tradicional conflicto “sesgo-varianza” en muchos


modelos estadı́sticos...
• “Sesgo-varianza” en regresión: y = 4 − 2x + x2 + ε con ε ∼ N (0, 42)
 “Underfitting”: y en función de x1 = x (p = 1 < 2)
 “Overfitting”: y en función de x1 = x, x2 = x2, ..., x7 = x7 (= 7 > 2)
30

30

30

25

25

25


20

20

20


● ●●

● ●
15

15

15
● ●

y
● ●

10

10

10
● ● ●
● ●


● ●
5

5



0

0

−5

−5

−5
−4 −2 0 2 4 −4 −2 0 2 4 −3 −2 −1 0 1 2 3 4

x x x
30

30

30

25

25

25

20

20

20
● ●
15

15

15


y

y


10

10

10
● ●

● ●
● ●
● ●
● ● ● ●
5

5
● ●
● ●
● ●
0

0
● ●


−5

−5

−5
−4 −2 0 2 −2 −1 0 1 2 3 4 −2 0 2 4

El sesgo está siempre presente aunque aumentemos n. Un n grande permite usar modelos más
complejos con p mayores. Desgraciadamente, muchos problemas actuales tienen p grande y n pequeño...
• Selección de modelos: Varios modelos (con distintas variables o grado
de complejidad) y queremos elegir el más interesante.
 Métodos “paso a paso” de selección de variables
 Penalizar por el número de parámetros efectivos libres en el modelo
(AIC, BIC,...)
 Técnicas de validación cruzada

• Validación de modelos: Despuésde seleccionar el modelo final estimar


cuál será el error de generalización (estimar la proporción futura de
buenas predicciones)
 Técnicas de validación cruzada
• Validación cruzada: Varios modelos (con distintas variables o grado de
complejidad) y queremos elegir el más interesante.
 
X1
 Particionar la muestra patrón X = .
X2
 Usamos solo observaciones en X1 (conjunto entrenamiento o Train)
para ajustar la regla de clasificación y vemos que tal funciona en las
observaciones en X2 (conjunto prueba o Test)

• Se recomienda (si hay datos de sobra...) realizar dos etapas:

Entrenamiento (50%) Selección (25%) Validación (25%)

 Seleccionar el mejor modelo entre los candidatos (menor error de


validación cruzada en “Selección”) y usar el conjunto de “Validación”
para estimar el error de generalización del modelo final.
• K-fold: K bloques de la muestra patron X . Usamos K − 1 bloques
para ajustar la regla y el otro bloque para validar la regla. Cambiar de
bloque, intercambiar papeles y promediar los errores:

1 2 3 4 ... K
Train Train Train Test ... Train

• Leave-one-out: n
1X b
LOO = L(G−i(xi), gi)
n i=1
donde G b −i(xi) es la clase predicha para xi cuando la regla se ha obtenido
al eliminar la fila i-esima de X .

• Existen métodos basados en bootstrap (por ejemplo, el “.632 Bootstrap”


y procedimientos que admiten OOB “Out-of-bag”...)
Otros métodos de clasificación

• m-vecinos más próximos (k-nearest neighbors): Sea

Nm(x) = {las m observaciones xi más próximas a x}

 Seguimos un simple esquema de votación. Asignar al grupo K si

#{xi ∈ Nm(x) con gi = K} = max #{xi ∈ Nm(x) con gi = k}


1≤k≤q

• Relacionado con métodos no-paramétricos. Se usa πk fbk (x) con fbk un


estimador no-paramétrico de la densidad (asign: Métodos de Suavizado)

• Presenta problemas en dimensión p alta por la “maldición de la


dimensionalidad” (Rp está bastante “vacio” localmente de observaciones
para p grande...)

• Paquete: library(class)
• Parámetro m:
 m grande ⇒ “menos flexible (mayor sesgo) y menor variabilidad”
 m pequeño ⇒ “más flexible (menor sesgo) y mayor variabilidad”
• Árboles de clasificación (CART-classification and regression trees):

 Muy fácil interpretación. Se debe “podar” adecuadamente el arbol.


 Son la base de métodos muy efectivos en clasificación (Random Forest;
mejorados con bagging y boosting;...)

• Paquete: library(rpart)
• Support Vector Machines (SVM):
 Si tenemos clases separables linealmente buscamos el hiperplano que
separa las clases con el mayor “margen” posible:

 Los puntos que determinan el “margen” son puntos “soporte”

• Paquete: library(e1071)
• ¿Qué pasa si las clases no son separables linealmente?
 Se transforman los datos a un espacio de dimensión mayor donde sı́
son separables: xi ∈ Rp 7→ Φ(xi) ∈ Rr con r ≥ p
 Ejemplo: G1 = “dentro bola B((2, 3)0, 1)” y G2 = “fuera bola”

4.5
●● ●● ● ● ● ●

● ●● ●● ● ● ●● ● ●

● ●● ● ● ● ●

● ● ●● ● ● ● ●●●● ● ●
● ● ● ● ● ●
● ● ● ●● ●● ●
●● ●●


● ● ●●● ●●● ●
● ● ●● ● ●● ● ● ●● ● ● ● ● ●
● ● ● ●

● ●●

●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●
●● ●● ● ●● ● ● ● ● ● ●● ● ●

● ● ● ● ● ● ● ● ● ● ●
● ●● ●● ●● ●

4.0
● ●
●● ●●● ●

●● ●● ● ● ● ● ●

●● ●● ● ● ● ●
● ●
● ● ● ● ● ●● ●
● ● ●●
● ● ● ●● ●● ● ● ● ● ●● ● ●
● ● ● ● ● ● ●
●● ●
● ● ● ● ● ● ●●● ● ● ●● ● ● ● ●● ● ●
● ● ● ●
●● ● ● ● ●●●● ●● ●●● ●

● ● ● ● ●● ● ● ● ●● ●
● ● ● ● ● ●● ●
● ● ● ● ● ●●● ● ● ● ● ●● ● ● ● ● ● ●
● ●
● ● ●● ● ● ●● ● ● ● ●●●●

3.5
●● ●●

●● ●●● ●● ● ●
● ● ● ● ●
● ●● ● ● ● ● ● ●
●● ● ● ●● ● ● ●

● ●● ● ● ● ● ●
● ● ● ● ●●●● ● ●● ● ● ● ● ● ● ● ● ●●
● ● ●
● ●● ● ● ● ● ● ● ● ●

●● ● ●● ● ● ● ● ●
●●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ●
● ● ● ●
●● ● ●● ● ●● ● ●
● ●● ●
●●
●●● ● ●●●
●●● ● ● ●● ●
3.0 ● ●
● ● ● ●
● ●
● ● ●
●●●●
● ● ●
●●● ●●
●● ● ●

●● ●● ●
●● ●
●●
●●
●● ● ●
● ● ● ● ●●
● ●
● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ●● ● ● ●
●● ● ● ● ●●● ● ●●● ● ● ●●● ●
● ● ●
● ● ●●
● ●●
● ● ●●● ●● ● ●
● ● ● ● ● ● ● ● ● ● ●

● ●● ● ●
● ● ● ● ● ●● ●● ● ● ●
● ● ● ● ● ● ●
●●● ●● ●● ●●


●● ●●
● ● ●● ● ● ●

2.5

● ● ●● ● ●● ●
●●●● ● ● ●
● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●
●● ● ●● ●

● ●
● ● ●● ● ●●●●● ●●
● ● ● ● ●●● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●●
● ●● ● ● ● ● ● ●● ● ● ●● ● ●● ● ●
● ●● ●

● ● ●●

●● ●● ●● ● ● ●● ● ● ● ● ● ● ● ●
● ● ● ●
●● ● ● ●● ● ● ● ● ●● ●
● ●
● ●
● ● ● ● ● ● ● ● ●● ●●● ●● ●● ● ●● ● ● ● ●
● ● ● ●
2.0

● ● ● ●
●● ● ● ●● ● ● ● ●●
● ● ● ● ● ● ● ●
● ●
● ● ●● ● ● ● ● ●●
●● ●● ● ● ●
● ●●
● ● ●
● ●
● ● ●


●● ●●● ●● ● ● ● ●
● ● ● ●●
● ●
● ● ● ●
● ●

●●●●● ● ● ● ●● ● ●● ● ● ● ●● ● ● ● ●●
● ●● ●● ●●
● ● ● ● ● ● ● ●● ● ●
● ● ● ● ● ●● ● ● ● ● ●
● ●●●● ●●● ● ● ●● ● ● ● ● ● ● ●
1.5

●●● ● ●● ● ● ●

0.5 1.0 1.5 2.0 2.5 3.0 3.5

G1 y G2 no separables linealmente con {x1, x2} y sı́ con {x1, x2, x21, x22}
 “Nucleos” (kernel trick) para trabajar a nivel computacional

También podría gustarte