Похибка узагальнення

У застосуваннях керованого навчання в машинному навчанні та теорії статистичного навчання, по́хибка узага́льнення (англ. generalization error, відома також як по́хибка за ме́жами ви́бірки, англ. out-of-sample error^[1]) — це міра того, наскільки точно алгоритм здатен передбачувати значення виходів для не бачених раніше даних. Оскільки навчальні алгоритми обчислюються на скінченних вибірках, обчислення навчальних алгоритмів може бути чутливим до похибки вибірки^[en]. В результаті, вимірювання похибки передбачування на поточних даних може не давати достатньо інформації про передбачувальну здатність на даних нових. Похибку узагальнення може бути мінімізовано униканням перенавчання в навчальних алгоритмах. Продуктивність алгоритму машинного навчання вимірюється шляхом відкладання на графіку значень похибки узагальнення протягом процесу навчання, що називається кривими навчання.

Визначення

Див. також: Теорія статистичного навчання

В задачі навчання метою є розробка функції $f(x)$ , яка передбачує вихідні значення $y$ на основі деяких вхідних даних $x$ . Очікуваною похибкою $I[f_{n}]$ певної функції $f_{n}$ над усіма можливими значеннями $x$ та $y$ є

I[f_{n}]=\int _{X\times Y}V(f_{n}(x),y)\rho (x,y)dxdy,

де $V$ позначає функцію втрат, а $\rho (x,y)$ є невідомим спільним розподілом імовірності для $x$ та $y$ .

Не знаючи цей спільний розподіл імовірності, неможливо обчислити $I[f]$ . Натомість, ми можемо обчислювати емпіричну похибку на даних вибірки. Для заданих $n$ точок даних емпіричною похибкою є

I_{S}[f_{n}]={\frac {1}{n}}\sum _{i=1}^{n}V(f_{n}(x_{i}),y_{i})

Похибка узагальнення є різницею між очікуваною та емпіричною похибками. Вона є різницею між похибкою на тренувальному наборі, та похибкою на розподілі ймовірності, що лежить в основі. Вона визначається як

G=I[f_{n}]-I_{S}[f_{n}]

Про алгоритм кажуть, що він узагальнюється, якщо

\lim _{n\rightarrow \infty }I[f_{n}]-I_{S}[f_{n}]=0

Оскільки $I[f_{n}]$ для невідомого розподілу ймовірності обчислено бути не може, то не може бути обчислено й похибку узагальнення. Натомість, метою багатьох задач у теорії статистичного навчання є обмежити або схарактеризувати похибку узагальнення в імовірності:

P_{G}=P(I[f_{n}]-I_{S}[f_{n}]\leq \epsilon )\geq 1-\delta _{n}

Тобто, метою є схарактеризувати ймовірність $1-\delta _{n}$ того, що похибка узагальнення є меншою за деяку межу похибки $\epsilon$ (відому як темп навчання, англ. learning rate, і в цілому залежну від $\delta$ та $n$ ).

Стосунок до стійкості

Для багатьох типів алгоритмів було показано, що алгоритм має межі узагальнення, якщо він відповідає певним критеріям стійкості^[en]. Зокрема, якщо алгоритм є симетричним (послідовність входів не впливає на результат), має обмежені втрати та відповідає двом умовам стійкості, то він узагальнюватиметься. Перша умова стійкості, стійкість перехресного затверджування з виключенням по одному (англ. leave-one-out cross-validation stability), каже, що для стійкості похибка передбачення для кожної точки даних при застосуванні перехресного затверджування з виключенням по одному мусить збігатися до нуля при $n\rightarrow \infty$ . Друга умова, стійкість похибки очікування до виключення по одному (англ. expected-to-leave-one-out error stability, відома також як стійкість гіпотези при дії в нормі $L_{1}$ ), виконується тоді, коли передбачення для не включеної точки не змінюється при усуненні однієї точки з тренувального набору.^[2]

Ці умови може бути формалізовано наступним чином:

Стійкість перехресного затверджування з виключенням по одному

Алгоритм $L$ має стійкість $CVloo$ , якщо для кожного $n$ існують такі $\beta _{CV}^{(n)}$ та $\delta _{CV}^{(n)}$ , що

\forall i\in \{1,...,n\},\mathbb {P} _{S}\{|V(f_{S^{i}},z_{i})-V(f_{S},z_{i})|\leq \beta _{CV}^{(n)}\}\geq 1-\delta _{CV}^{(n)}

і $\beta _{CV}^{(n)}$ та $\delta _{CV}^{(n)}$ прямують до нуля при прямуванні $n$ до нескінченності.^[2]

Стійкість похибки очікування до виключення по одному

Алгоритм $L$ має стійкість $Eloo_{err}$ , якщо для кожного $n$ існують такі $\beta _{EL}^{m}$ та $\delta _{EL}^{m}$ , що

\forall i\in \{1,...,n\},\mathbb {P} _{S}\{|I[f_{S}]-{\frac {1}{n}}\sum _{i=1}^{N}V(f_{S^{i}},z_{i})|\leq \beta _{EL}^{(n)}\}\geq 1-\delta _{EL}^{(n)}

де $\beta _{EL}^{(n)}$ та $\delta _{EL}^{(n)}$ прямують до нуля при $n\rightarrow \infty$ .

Для стійкості виключення по одному в нормі $L_{1}$ це є тим самим, що й стійкість гіпотези

\mathbb {E} _{S,z}[|V(f_{S},z)-V(f_{S^{i}},z)|]\leq \beta _{H}^{(n)}

де $\beta _{H}^{(n)}$ прямує до нуля при прямуванні $n$ до нескінченності.^[2]

Алгоритми з доведеною стійкістю

Стосовно ряду алгоритмів було доведено, що вони є стійкими, і, в результаті, мають межі на своїх похибках узагальнення. Перелік цих алгоритмів та праць, що довели стійкість, є тут^[en].

Стосунок до перенавчання

Див. також: Перенавчання

Цей малюнок показує взаємозв'язок між перенавчанням та похибкою узагальнення I[*f_n*] - *I_S*[*f_n*]. Точки даних було породжено зі співвідношення y = x із білим шумом, доданим до значень y. В лівому стовпчику синім кольором показано тренувальні точки. До тренувальних даних було допасовано функцію — многочлен сьомого порядку. В правому стовпчику цю функцію перевіряють на даних, вибраних зі спільного розподілу y та x, що лежить в основі. У верхньому рядку функцію допасовано до вибіркового набору з 10 точок даних. У нижньому рядку функцію допасовано до вибіркового набору зі 100 точок даних. Як можна бачити, для малих розмірів вибірки та складних функцій похибка на тренувальному наборі є малою, але похибка на розподілі, що лежить в основі даних, є великою, і ми маємо перенавчання даних. В результаті похибка узагальнення є великою. Зі збільшенням числа вибіркових точок похибка передбачення на тренувальних та перевірних даних збігаються, і похибка узагальнення прямує до 0.

Поняття похибки узагальнення та перенавчання тісно пов'язані. Перенавчання стається тоді, коли навчена функція $f_{S}$ стає чутливою до шуму в вибірці. В результаті ця функція працюватиме добре на тренувальному наборі, але не працюватиме добре на інших даних зі спільного розподілу ймовірності $x$ та $y$ . Таким чином, що більше перенавчання стається, то більшою є похибка узагальнення.

Величину перенавчання може бути перевірено застосуванням методів перехресного затверджування, які розділюють вибірку на імітовані тренувальні та випробувальні вибірки. Потім модель тренують на тренувальній вибірці, й оцінюють на випробувальній. Випробувальна вибірка є не баченою алгоритмом заздалегідь, і тому являє собою випадкову вибірку зі спільного розподілу ймовірності $x$ та $y$ . Ця випробувальна вибірка дозволяє отримувати наближення очікуваної похибки, і, як результат, отримувати наближення конкретного вигляду похибки узагальнення.

Існує багато алгоритмів для запобігання перенавчанню. Алгоритм мінімізації може штрафувати складніші функції (він відомий як регуляризація Тихонова), або простір гіпотез може бути обмежено, або явно виглядом функцій, або додаванням обмежень до функції мінімізації (регуляризація Іванова).

Підхід, що полягає в пошуку функції, яка не перенавчається, суперечить меті пошуку функції, яка є достатньо складною, щоби схоплювати особливі характеристики даних. Це відоме як компроміс зсуву та дисперсії. Збереження функції простою для запобігання перенавчанню може вносити зсув в отримувані в результаті передбачування, в той час як надання їй можливості ставати складнішою веде до перенавчання й вищої дисперсії в передбаченнях. Мінімізовувати й те, і друге одночасно — неможливо.

Примітки

↑ Y S. Abu-Mostafa, M.Magdon-Ismail, and H.-T. Lin (2012) Learning from Data, AMLBook Press. ISBN 978-1600490064 (англ.)
↑ ^а ^б ^в Mukherjee, S.; Niyogi, P.; Poggio, T.; Rifkin., R. M. (2006). Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization (PDF). Adv. Comput. Math. 25 (1-3): 161—193. (англ.)

Література

Bousquet, O., S. Boucheron and G. Lugosi. Introduction to Statistical Learning Theory. Advanced Lectures on Machine Learning Lecture Notes in Artificial Intelligence 3176, 169-207. (Eds.) Bousquet, O., U. von Luxburg and G. Ratsch, Springer, Heidelberg, Germany (2004) (англ.)
Bousquet, O. and A. Elisseef (2002), Stability and Generalization, Journal of Machine Learning Research, 499-526. (англ.)
Devroye L. , L. Gyorfi, and G. Lugosi (1996). A Probabilistic Theory of Pattern Recognition. Springer-Verlag. ISBN 978-0387946184. (англ.)
Poggio T. and S. Smale. The Mathematics of Learning: Dealing with Data. Notices of the AMS, 2003 (англ.)
Vapnik, V. (2000). The Nature of Statistical Learning Theory. Information Science and Statistics. Springer-Verlag. ISBN 978-0-387-98780-4. (англ.)
Bishop, C.M. (1995), Neural Networks for Pattern Recognition, Oxford: Oxford University Press, especially section 6.4. (англ.)
Finke, M., and Müller, K.-R. (1994), "Estimating a-posteriori probabilities using stochastic network models," in Mozer, Smolensky, Touretzky, Elman, & Weigend, eds., Proceedings of the 1993 Connectionist Models Summer School, Hillsdale, NJ: Lawrence Erlbaum Associates, pp. 324–331. (англ.)
Geman, S., Bienenstock, E. and Doursat, R. (1992), "Neural Networks and the Bias/Variance Dilemma", Neural Computation, 4, 1-58. (англ.)
Husmeier, D. (1999), Neural Networks for Conditional Probability Estimation: Forecasting Beyond Point Predictions, Berlin: Springer Verlag, ISBN 1-85233-095-3. (англ.)
McCullagh, P. and Nelder, J.A. (1989) Generalized Linear Models, 2nd ed., London: Chapman & Hall. (англ.)
Moody, J.E. (1992), "The Effective Number of Parameters: An Analysis of Generalization and Regularization in Nonlinear Learning Systems", in Moody, J.E., Hanson, S.J., and Lippmann, R.P., Advances in Neural Information Processing Systems 4, 847-854. (англ.)
Ripley, B.D. (1996) Pattern Recognition and Neural Networks, Cambridge: Cambridge University Press. (англ.)
Rohwer, R., and van der Rest, J.C. (1996), "Minimum description length, regularization, and multimodal data," Neural Computation, 8, 595-609. (англ.)
Rojas, R. (1996), "A short proof of the posterior probability property of classifier neural networks," Neural Computation, 8, 41-43. (англ.)
White, H. (1990), "Connectionist Nonparametric Regression: Multilayer Feedforward Networks Can Learn Arbitrary Mappings," Neural Networks, 3, 535-550. Reprinted in White (1992). (англ.)
White, H. (1992a), "Nonparametric Estimation of Conditional Quantiles Using Neural Networks," in Page, C. and Le Page, R. (eds.), Proceedings of the 23rd Sympsium on the Interface: Computing Science and Statistics, Alexandria, VA: American Statistical Association, pp. 190–199. Reprinted in White (1992b). (англ.)
White, H. (1992b), Artificial Neural Networks: Approximation and Learning Theory, Blackwell. (англ.)

[1] Y S. Abu-Mostafa, M.Magdon-Ismail, and H.-T. Lin (2012) Learning from Data, AMLBook Press. ISBN 978-1600490064 (англ.)

[MukherjeeEtAl-2] а ^б ^в Mukherjee, S.; Niyogi, P.; Poggio, T.; Rifkin., R. M. (2006). Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization (PDF). Adv. Comput. Math. 25 (1-3): 161—193. (англ.)

[1]

[2]