lecture15-kernels
lecture15-kernels
fi (x) 6 0, i = 1, . . . , m, (1.1)
h (x) = 0, i = 1, . . . , p.
i
f0 (x) → min
∇f0 (x) = 0,
§1.1 Лагранжиан
Задача условной оптимизации (1.1) эквивалентна следующей безусловной за-
даче:
m p
X X
f0 (x) + I− (fi (x)) + I0 (hi (x)) → min,
x
i=1 i=1
1
2
Итак, получаем
g(λ, ν) 6 f0 (x∗ ).
3
fi (x) 6 0, i = 1, . . . , m,
Ax = b.
Теорема 1.1. Пусть x∗ — решение задачи (1.1). Тогда найдутся такие векторы λ∗
и ν ∗ , что выполнены условия (KKT).
Если задача (1.1) является выпуклой и удовлетворяет условию Слейтера, то
условия Куна-Таккера становятся необходимыми и достаточными.
2 Ядровой SVM
Вспомним, что метод опорных векторов сводится к решению задачи оптимиза-
ции
ℓ
1 2
X
2 kwk + C ξi → min
w,b,ξ
i=1 (2.1)
yi (hw, xi i + b) > 1 − ξi , i = 1, . . . , ℓ,
ξi > 0, i = 1, . . . , ℓ.
1. ξi = 0, λi = 0.
Такие объекты не влияют решение w (входят в него с нулевым весом λi ), пра-
вильно классифицируются (ξi = 0) и лежат вне разделяющей полосы. Объекты
этой категории называются периферийными.
2. ξi = 0, 0 < λi < C.
Из условия (2.5) следует, что yi (hw, xi i + b) = 1, то есть объект лежит строго на
границе разделяющей полосы. Поскольку λi > 0, объект влияет на решение w.
Объекты этой категории называются опорными граничными.
3. ξi > 0, λi = C.
Такие объекты могут лежать внутри разделяющей полосы (0 < ξi < 2) или
выходить за ее пределы (ξi > 2). При этом если 0 < ξi < 1, то объект клас-
сифицируется правильно, в противном случае — неправильно. Объекты этой
категории называются опорными нарушителями.
Отметим, что варианта ξi > 0, λi < C быть не может, поскольку при ξi > 0
из условия дополняющей нежесткости (2.6) следует, что µi = 0, и отсюда из уравне-
ния (2.4) получаем, что λi = C.
Итак, итоговый классификатор зависит только от объектов, лежащих на гра-
нице разделяющей полосы, и от объектов-нарушителей (с ξi > 0).
Построим двойственную функцию. Для этого подставим выражение (2.2) в
лагранжиан, и воспользуемся уравнениями (2.3) и (2.4) (данные три уравнения вы-
7
ℓ 2 ℓ ℓ ℓ ℓ
1 X X X X X
L= λi yi xi − λi λj yi yj hxi , xj i − b λi y i + λi + ξi (C − λi − µi )
2 i=1 i,j=1
| {z }
|i=1{z } i=1 i=1 0
0
ℓ ℓ
X 1X
= λi − λi λj yi yj hxi , xj i.
i=1
2 i,j=1
Связь с kNN. Если использовать гауссовское ядро (или, как его еще называют,
RBF-ядро) в методе опорных векторов, то получится следующее решающее правило:
ℓ
X kx − xi k2
a(x) = sign yi λi exp − 2
.
i=1
2σ
Вспомним теперь, что решающее правило в методе k ближайших соседей вы-
глядит как
ℓ
X
a(x) = arg max Γy (x, X ); ℓ ℓ
Γy (x, X ) = [yx(i) = y]w(i, x),
y∈Y
i=1
(i)
где w(i, x) — оценка важности i-го соседа для классификации объекта x, а yx —
метка i-го ближайшего соседа. Для случая двух классов {+1, −1} решающее правило
можно записать как знак разности оценок за эти классы:
a(x) = sign Γ+1 (x, X ℓ ) − Γ−1 (x, X ℓ ) =
ℓ ℓ
!
X X
= sign [yx(i) = +1]w(i, x) − [yx(i) = −1]w(i, x) =
i=1 i=1
ℓ
X
= sign ([yx(i) = +1] − [yx(i) = −1])w(i, x) =
i=1
Xℓ
= sign yx(i) w(i, x).
i=1
Заметим, что решающие правила метода опорных векторов с RBF-ядром и ме-
тода k ближайших соседей совпадут, если положить
kx − x(i) k2
w(i, x) = λ(i) exp − .
2σ 2
То есть SVM-RBF — это метод ℓ ближайших соседей, использующий гауссово ядро в
качестве функции расстояния, и настраивающий веса объектов путем максимизации
отступов.
Список литературы
[1] Boyd, S., Vandenberghe, L. Convex Optimization. // Cambridge University Press,
2004.