Lecture05 Linclass
Lecture05 Linclass
Линейная классификация
Е. А. Соколов
ФКН ВШЭ
28 октября 2021 г.
1
2
Нам будет удобнее решать задачу минимизации, поэтому будем вместо этого исполь-
зовать долю неправильных ответов:
ℓ ℓ
1X 1X
Q(a, X) = [a(xi ) 6= yi ] = [signhw, xi i =
6 yi ] → min (1.1)
ℓ i=1 ℓ i=1 w
L(M) 6 L̃(M).
3
6
пороговая
логистическая
5
меточ опорных векторов
эк поненциальная
иямоигная
0
−4 −2 0 2 4
Если верхняя оценка L̃(M) является гладкой, то и данная верхняя оценка будет
гладкой. В этом случае её можно будет минимизировать с помощью, например, гра-
диентного спуска. Если верхнюю оценку удастся приблизить к нулю, то и доля непра-
вильных ответов тоже будет близка к нулю.
Приведём несколько примеров верхних оценок:
1. L̃(M) = log 1 + e−M — логистическая функция потерь
y=1 y = −1
a(x) = 1 True Positive (TP) False Positive (FP)
a(x) = −1 False negative (FN) True Negative (TN)
Таблица 1. Матрица ошибок
1.0 1.0
0.8 0.8
0.6 0.6
recall
recall
0.4 0.4
0.2 0.2
0.0 0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
precision precision
Рис. 2. Линии уровня для минимума из точности Рис. 3. Линии уровня для F-меры.
и полноты.
Можно показать, что R-точность равна точности при таком пороге, при котором
количество отнесённых к положительному классу объектов равно количеству поло-
жительных объектов в выборке.
Часто встречаются задачи, в которых целевой признак по-прежнему бинарный,
но при этом необходимо ранжировать объекты, а не просто предсказывать их класс.
Например, в задаче предсказания реакции клиента можно выдавать сортированный
список, чтобы оператор мог в первую очередь позвонить клиентам с наибольшей
вероятностью положительного отклика. Поскольку многие алгоритмы возвращают
вещественный ответ b(x), который затем бинаризуется по порогу t, то можно про-
сто сортировать объекты по значению b(x). Для измерения качества ранжирования
нередко используют среднюю точность (average precision, AP):
ℓ
1 X
AP = [y(k) = 1]precision@k,
ℓ+ k=1
FP
FPR = ;
FP + TN
TP
TPR = .
TP + FN
Каждый возможный выбор порога t соответствует точке в этом пространстве. Все-
го различных порогов имеется ℓ + 1. Максимальный порог tmax = maxi b(xi ) даст
классификатор с TPR = 0, FPR = 0. Минимальный порог tmin = mini b(xi ) − ε
даст TPR = 1 и FPR = 1. ROC-кривая — это кривая с концами в точках (0, 0)
и (1, 1), которая последовательно соединяет точки, соответствующие порогам b(x(1) )−
− ε, b(x(1) ), b(x(2) ), . . . , b(x(ℓ) ) (см. рис. 4). Площадь под данной кривой называется
AUC-ROC, и принимает значения от 0 до 1. Если порог t может быть подобран так,
что алгоритм a(x) не будет допускать ошибок, то AUC-ROC будет равен единице;
если же b(x) ранжирует объекты случайным образом, то AUC-ROC будет близок
к 0.5.
9
Список литературы
[1] Davis J., Goadrich M. (2006). The Relationship Between Precision-Recall and ROC
Curves. // Proceedings of the 23rd International Conference on Machine Learning,
Pittsburgh, PA.