Lecture16 Kernels
Lecture16 Kernels
1
2
a∗ = arg min {L((x1 , y1 , a(x1 )), . . . , (xℓ , yℓ , a(xℓ ))) + g(kak)} (1.1)
a∈H
имеет вид
ℓ
X
a∗ (x) = αi K(x, xi ).
i=1
Доказательство.
Рассмотрим базис, состоящий из элементов ϕ(x1 ), . . . , ϕ(xℓ ). Любой элемент
гильбертова пространства a ∈ H можно представить в виде суммы двух компонент:
одна будет принадлежать линейной оболочке элементов ϕ(x1 ), . . . , ϕ(xℓ ), другая —
ортогональному дополнению:
ℓ
X
a= αi ϕ(xi ) + v,
i=1
ℓ
!
X
>g αi ϕ(xi )
i=1
Преобразуем интеграл:
Z Z Z
iw T (x−z) T
p(w)e dw = p(w) cos(w (x − z))dw + i p(w) sin(w T (x − z))dw =
R d d d
ZR R
Данная оценка является несмещённой для K(x, z) в силу свойств метода Монте-
Карло. Более того, с помощью неравенств концентрации меры можно показать, что
дисперсия данной оценки достаточно низкая. Например, для гауссова ядра будет
иметь место неравенство
P sup |K̃(x, z) − K(x, z)| > ε 6 28 (2dσ 2 /ε)2 exp(−dε2 /4(d + 2)).
x,z
Разумеется, найти распределение p(w) можно не для всех ядер K(x − z). Как
правило, данный метод используется для гауссовых ядер exp(kx−zk2 /2σ 2 ) — для них
распределение p(w) будет нормальным с нулевым матожиданием и дисперсией σ 2 .
(huj , xi)dj=1.
5
Список литературы
[1] Drineas, Petros and Mahoney, Michael W. On the NyströM Method for
Approximating a Gram Matrix for Improved Kernel-Based Learning. // Journal of
Machine Learning Research, 2005.
6
[2] Rahimi, Ali and Recht, Benjamin Random Features for Large-scale Kernel
Machines. // Proceedings of the 20th International Conference on Neural Information
Processing Systems, 2007.