RN 06 SVM
RN 06 SVM
RN 06 SVM
n
i
i emp
y f c
n
f R
1
) ), ( (
2
1 1
) (
i
x
13
Aprendizagem Estatstica
Minimizao do Risco Funcional (generalizao)
Critrios considerados para escolha de um classificador (f):
- Minimizao do risco funcional, relativo a erro durante a
validao (generalizao), no qual se considera:
- Funo de custo relacionando a previso de sada com a sada
desejada.
- Distribuio de probabilidade dos pares.
) , ( ) ), ( (
2
1
) ( y dP y f c f R x x
14
Aprendizagem Estatstica
Minimizao do Risco Funcional (generalizao)
Limites do risco funcional determinam a escolha do classificador:
- Os limites do risco funcional para funes sinal (classe de
funes aqui considerada) relacionam o nmero de exemplos de
treinamento, o risco emprico para este conjunto e a
complexidade do espao de hipteses.
- O risco funcional de uma funo classificadora minimizado se o
nmero de observaes do conjunto de treinamento for suficientemente
grande.
- A complexidade do espao de hipteses medida atravs da
dimenso Vapnik-Chervonenkis (VC).
- O risco mdio de uma funo classificadora minimizado se a
dimenso VC do conjunto destas funes for suficientemente pequena.
15
Aprendizagem Estatstica
Dimenso-VC
A complexidade de um grupo de funes de deciso pode ser medida
por um valor h, chamado Dimenso-VC, que, avalia a quantidade
mxima de pontos que podem ser separados por este grupo de
funes se todas as permutaes de rtulos ocorrerem.
- Aqui trabalha-se com dicotomias: funes sinais que dividem o
espao de entradas em dois subconjuntos disjuntos.
- Valor alto de dimenso VC implica em grande complexidade das
funes de deciso. h=3
16
Aprendizagem Estatstica
Minimizao do Risco Estrutural
A equao de delimitao pode ser re-escrita empregando a
dimenso-VC, isto , usando h.
- Probabilidade da equao abaixo ser verdadeira: 1-d.
- O nmero de exemplos de treinamento n.
- O crescimento de d acarreta o aumento do risco esperado.
n
h
n
h
f R f R
emp
4
ln 1
2
ln
] [ ] [
de complexida de termo emprico risco esperado risco
,
_
+
+
+
17
Aprendizagem Estatstica
Minimizao do Risco Estrutural
R[f]
Termo de complexidade
Risco emprico
Dimenso-VC
Risco esperado
18
Aprendizagem Estatstica
Margem de Separao
A margem de separao de um classificador definida como a
menor distncia entre exemplos do conjunto de treinamento e o
hiperplano utilizado na separao destes dados em classes.
19
Aprendizagem Estatstica
Margem de Separao
Podem existir vrios hiperplanos separando os dados corretamente,
contudo existe ao menos um melhor que os demais.
Pode-se notar que o hiperplano com maior margem de separao tem melhor
capacidade de generalizao pois diminui a possibilidade de erro.
Quanto maior a margem
de um classificador menor
ser sua dimenso VC
(prova est em teorema).
Hiperplano com margem
alta e que minimize os
erros de treinamento e
teste chamado de
hiperplano timo.
20
SVM com Margens Rgidas
Separabilidade Linear
Um conjunto de pontos de treinamento chamado linearmente
separvel se existe ao menos um hiperplano que capaz de separa-
los corretamente.
21
SVM com Margens Rgidas
Hiperplano de Separao
As SVMs foram originalmente projetadas para classificao de
dados em duas classes, gerando dicotomias.
- Problema de classificao considerado: Classificar objetos m-
dimensionais (vetores) nas classes +1 e 1.
- Conjunto de treinamento: formado por n observaes dos vetores de
entradas com suas respectivas classificaes binrias.
0 + b
T
x w
Um conjunto de dados linearmente separvel se for possvel dividir
seus elementos em duas classes atravs de ao menos um hiperplano.
Estes classificadores lineares podem ser definidos por:
O produto escalar envolve um vetor normal ao hiperplano (w) e o
vetor de entrada. O par (w,b) determinado durante o treinamento.
22
A equao do hiperplano divide o espao de entrada em duas
regies que produzem dois tipos de sadas atravs da uma funo
sinal:
'
< +
> + +
0 se , 1
0 se , 1
b
b
y
i
T
i
T
i
x w
x w
Logo, um conjunto de treinamento ser linearmente separvel se
for possvel determinar ao menos um par (w,b) que faa a funo
sinal classificar corretamente os exemplos de tal conjunto.
SVM com Margens Rgidas
Hiperplano de Separao
23
Deseja-se determinar o hiperplano timo para padres
linearmente separveis. O hiperplano timo aquele cuja margem
de separao (
0
) mxima.
w
o
T
x+ b
o
= 0, eq. Hiperplano
timo
w
o
, vetor de pesos timo
b
o
, bias timo
Os vetores suporte so aqueles que
se situam sobre os hiperplanos que
distam
0
do hiperplano que separa
as classes.
SVM com Margens Rgidas
Hiperplano timo
24
O hiperplano timo definido pelos valores timos do vetor de
pesos (w
o
) e do bias (b
o
) da seguinte forma: w
o
T
x+ b
o
= 0.
0
0
0 0
0 0
0
0
0 0 0
) ( ) ( b r b r b g
T
p
T
p
T T
+ + + + +
w
w w
x w
w
w
x w x w x
A funo discriminante g(x) = w
o
T
x+ b
o
d uma medida algbrica
da distncia de x para o hiperplano timo. Neste caso, pode-se
escrever:
0
0
w
w
x x r
p
+ onde x
p
a projeo de x no hiperplano timo.
Para encontrar a distncia r faz-se:
SVM com Margens Rgidas
Hiperplano timo
25
Se b
0
> 0, a origem est no lado
positivo do hiperplano timo;
Se b
0
< 0, a origem est no negativo do
hiperplano timo;
Se b
0
= 0, o hiperplano timo passa
pela origem.
Se x estiver na origem ento
0
0
w
b
r
SVM com Margens Rgidas
Hiperplano timo
0
0
0
2
0
0 0
) (
) ( ) ( ) ( ) (
w
x
w x x
w
w
x w x
g
r r g g r b g
p p
T
+ + +
26
Para um conjunto de treinamento linearmente separvel, pode-se
re-escalonar que w e b para que os pontos mais prximos do
hiperplano separador que satisfaam |w
T
.x + b| = 1. Isto permite a
obteno da representao cannica do hiperplano que facilita
futuras consideraes na determinao do hiperplano timo.
Um vetor suporte definido como: g(x
(s)
) = w
0
T
x
(s)
b
0
= 1,
para d
(s)
= 1.
Os vetores suporte so os mais difceis para classificar por
estarem mais prximos da superfcie de deciso.
SVM com Margens Rgidas
Vetores de Suporte
27
A distncia dos vetores suporte para o hiperplano timo
calculada:
'
+
1 se
1
1 se
1
) (
) (
0
) (
0
0
(s)
s
s
d
d
g
r
w
w
w
x
Conclui-se da expresso acima que a maximizao da margem de
separao obtida pela minimizao da norma Euclidiana de w
o
.
Tem-se que
0
o valor timo da margem de separao entre as
duas classes que formam o conjunto de treinamento. Assim tem-se
que a expresso a seguir mede a distncia entre os hiperplanos
w
0
T
x
(s)
b
0
= 1:
0
0
2
2
w
r
SVM com Margens Rgidas
Vetores de Suporte
28
O problema de otimizao com restries a ser resolvido :
- Dado o conjunto de treinamento (x
i
, d
i
), i=1, ..., N; Encontre os
vetor de pesos w e do bias b timos que satisfaam as restries:
d
i
(w
T
x
i
+ b) 1, e w minimize a funo de custo:
- O fator de escala (1/2) includo por convenincia, a funo de
custo convexa, as restries so lineares.
- Este problema pode ser resolvido atravs do Mtodo de
Multiplicadores de Lagrange.
( ) w w w
T
2 1 ) (
O hiperplano timo definido por w
0
T
x + b
0
= 0 nico pois o vetor de
pesos timo w
o
d a separao mxima possvel de exemplos positivos e
os negativos. A condio tima atendida pela minimizao da norma
euclidiana do vetor de pesos w.
SVM com Margens Rgidas
Determinao dos Pesos timos
29
Mtodo dos Multiplicadores de Lagrange: Empregado para
resolver problemas de extremos sujeitos a restries de igualdade.
Seja o problema a seguir:
N i g
f
i
, , 1 , 0 ) ( s.a.
) ( (min) max
K x
x
onde f e g
i
(i=1,..,N) so funes reais de n (n > N) variveis e
duas vezes diferenciveis num determinado conjunto D.
Chama-se funo de Lagrange ou lagrangiano funo:
SVM com Margens Rgidas
Pesos timos por Multiplicadores de Lagrange
( )
+
N
i
i i
g f L
1
) ( ) , ( x x ? x
30
Funo Lagrangiana:
( ) [ ]
+
N
i
i
T
i i
T
b d b J
1
1
2
1
) , , ( x w w w w
( )
( )
N
i
i i
N
i
i i i
d
b
b J
d
b J
1
1
0 0
, ,
: 2 Condio
0
, ,
: 1 Condio
w
x w
w
w
O problema consiste em encontrar um ponto de sela que
minimize J(.) em relao a w e b e maximize-a com respeito aos
multiplicadores de Lagrange ().
- Minimizando J(w,b,) em relao a w e b.
SVM com Margens Rgidas
Pesos timos por Multiplicadores de Lagrange
31
+
+
N
i
N
i
i
N
i
i i i
T
i i
T
N
i
i
T
i i
T
d b d b J
b d b J
1 1 1
1
2
1
) , , (
] 1 ) [
2
1
) , , (
x w w w w
x (w w w w
N
i
N
j
j
T
i j i j i
N
i
i
T
i i
T
N
i
i i i
N
i
i i
d d d
d
d
1 1 1
1
1
;
; 0
x x x w w w
x w
x x w
Aps determinar os multiplicadores timos (
0, i
), w
0
e b
0
so obtidos:
1 para , 1
) (
0
1
, 0
s
N
i
i i i
d - b d
(s) T
0 0
x w x w
Deve-se encontrar os multiplicadores de Lagrange que maximize a
Funo Objetivo:
SVM com Margens Rgidas
Pesos timos por Multiplicadores de Lagrange
33
d
i
(w
T
x
i
+ b) 1 , para i = 1, 2, ... N A condio
pode ser violada em duas situaes:
1 situao de violao:
Ponto (x
i
, d
i
) est na
regio de separao, mas
do lado correto da
superfcie de deciso.
SVM com Margens Rgidas
Padres No-linearmente Separveis
34
2 situao de violao:
Ponto (x
i
, d
i
) est no lado
incorreto da superfcie de
deciso.
SVM com Margens Rgidas
Padres No-linearmente Separveis
35
d
i
(w
T
x
i
+ b) 1 -
i
, para i = 1, 2, ... N
A equao anterior pode ser re-escrita, com a introduo de um
conjunto de variveis escalares no negativas .
0
i
1: 1 situao
i
> 1: 2 situao
O conjunto adicionado funo de custo:
+
N
i
i
T
C
1
2
1
w w ) (w,
N
i i 1
} {
N
1 i i
} {
(21)
- que deve ser minimizada, sujeita s restries: Eq. (21) e
i
0.
SVM com Margens Rgidas
Padres No-linearmente Separveis
36
A maximizao de Q( ) realizada com alterao em uma de suas
restries:
Logo, w
0
obtido por:
e b
0
atravs de:
N
i
i i
d
1
0
e 0
i
C, para i = 1, 2, ... N
i
[y
i
(w
0
T
x
i
+ b
0
) - 1 +
i
] = 0
N
i
N
i
j
T
i j i j
N
j
i i
d d Q( b J
1 1 1
2
1
) ) , , ( x x w
N
i
i i
d
1
1 , 0 0
x w
SVM com Margens Rgidas
Padres No-linearmente Separveis
37
Classificadores lineares so limitados, veja a porta XOR. Contudo, eles
possuem boas propriedades como funo de deciso fcil.
Dados no-linearmente separveis podem se tornar linearmente separveis,
em um espao transformado atravs de um mapeamento . Este novo espao
chamado de espao de caractersticas (feature space).
SVM Separando Padres No-linearmente
Separveis - Mapeamento F
Feature Space
38
Deve-se substituir cada produto escalar no espao de entrada
por pontos transformados.
Possvel problema:
O espao transformado pode ter nmero muito alto, at infinito, de
dimenses, impossibilitando o clculo do produto interno.
difcil tambm encontrar a funo F que resolva o problema.
( ) ( ) ( )
,
_
,
_
N
i
j i
T
j i i j
N
i
j i
T
j i i j
b d f
b d f
1
1
sgn ) (
) ( sgn ) (
x F x F x
x x x
,
_
+
N
i
j i j i i
N
i
j i
T
j i i j
b K d b d f
1 1
) , ( sgn ) ( sgn ) ( x x x x x
( ) ( ) ( ) ( )
N
l
l l i j
T
i j
F F K
1
) , ( x x x F x F x x
40
A definio para K (x
i
,x
j
) um caso particular do teorema de Mercer
no mbito de anlise funcional:
Seja K (x,x) um kernel contnuo e simtrico que definido no
intervalo fechado a = x = b e da mesma forma para x. O kernel
pode ser expandido pela srie:
Expanso vlida e convergente, absoluta e uniformemente, se
e s se:
( ) ( ) 0 , ) , (
1
>
l
l
l l l
F F K x x x x
<
a
b
a
b
a
b
x x
x x x x x x
d
d d , K
) ( quando para vale
) ( ) ( ) (
2
As funes F
l
so chamadas
autofunes e os nmeros ?
l
so denominados autovalores.
SVM e a Funo Kernel
Definio e Papel
41
Exemplo com o Kernel RBF
Nestes exemplos de funes
kernel, geralmente, possuem
parmetros escolhidos pelo
usurio e faixa de validade destes
parmetros para o Teorema de
Mercer.
( ) ( )
( )
2
2
2
1
: Inv. tica Multiquadr ; ) . ( tanh : Sigmoidal
) . ( : Polinomial ; exp ) , ( : Guassiana RBF
: kernel funo de Exemplos
c
K
c K
d
+
+
+
y x
y x
y x y x y x
x x
SVM e a Funo Kernel
Definio e Papel
43
Trs idias fundamentais:
Definio de um hiperplano timo de modo que ele possa ser
identificado em maneira computacional eficiente: Maximize a
margem.
Extenso da definio acima para problemas linearmente no-
separveis: Considere uma penalidade para termos
equivocadamente classificados.
Mapeamento dos dados para um espao de dimenso mais alta no
qual mais fcil realizar classificao com superfcies lineares de
deciso: reformula o problema tal que os dados so mapeados
implicitamente para este espao.
SVM e a Funo Kernel
Definio e Papel
44
SVM e a Funo Kernel
Arquitetura
45
Reconhecimento de
caracteres
manuscritos:
Exemplos de
caracteres:
SVM: Aplicaes
46
Reconhecimen
to de
caracteres
manuscritos:
Desempenho
de mquinas
de
aprendizagem
distintas:
SVM: Aplicaes
47
Deteco de faces (definio): Dada
uma imagem digital arbitrria determine
se existe faces humanas nesta imagem.
Se existirem, retorne uma codificao de
sua localizao.
Codificao significa acomodar cada face
em uma caixa de fronteiras definida pelas
coordenadas das esquinas na imagem.
Pode ser extendida para reconhecimento de
faces, HCI, sistemas de vigilncia, etc.
SVM: Aplicaes
48
Deteco de faces (processo):
SVM treinada para padres
com tamanho fixo de face e
no face.
Teste de candidatos de
localizao de imagens para
padres locais com
procedimento de classificao
que determina se padro de
imagem local uma face.
Este problema de classificao,
tem duas classes dicotmicas.
SVM: Aplicaes
49
Resultados experimentais em imagens estticas:
Conjunto A: 313 com alta qualidade, mesmo nmero de faces.
Conjunto B: 23 com qualidade misturada, total de 155 faces.
SVM: Aplicaes
50
Viso Computacional:
Deteco de pele.
SVM: Aplicaes
51
Discusso
Os parmetros tm grande influncia no treinamento.
Interface de treinamento geral.
Tempo de treinamento depende da CPU.
Necessidade de interface para aplicaes.
SVM expressa aprendizagem como um programa matemtico
empregando a teoria de otimizao.
SVM emprega a transformao pelo kernel para mapear
indiretamente para espaos de dimenses mais altas.
SVM tem se caracterizado por bom desempenho, robustez,
eficincia e versatilidade ao mesmo tempo que existem
indicaes tericas dos motivos de sua capacidade de
generalizao.
52
Referncias
Haykin, S. (1999). Neural Networks A Compreensive Survey. Prentice-
Hall, New Jersey, second edition.
Smola, A. J., Barlett, P., Schlkopf, B., & Schuurmans, D. (1999). Advances
in Large Margin Classifiers. The MIT Press (http://www.kernel-
machines.org/nips98/lmc-book.pdf).
Vapnik, V. N. (1995). The Nature of Statistical Learning Theory. Springer-
Verlag.