Прокляття розмірності
Прокляття розмірності (англ. curse of dimensionality) вказує на різні явища, які виникають при аналізі та роботі з даними в багатовимірних просторах (часто це сотні або тисячі вимірів). Ці явища не зустрічаються в маловимірних випадках, таких як тривимірний фізичний простір з яким ми стикаємось щодня. Термін спочатку використав Річард Беллман для задач динамічної оптимізації.[1][2]
Є численні явища, які виникають під подібною назвою у таких областях як чисельні методи, відбір вибірки, комбінаторика, машинне навчання, добування даних, бази даних. Спільним негараздом, який виникає при збільшенні розмірності, є дуже швидке збільшення об'єму простору, наслідком чого наявні дані стають розрідженими. Така розрідженість даних стає на заваді будь-якого методу, який використовує статистичну значущість. Для отримання статистично надійного результату, потрібно, щоб кількість даних, необхідних для отримання результату, зростала експоненціально розмірності. Також, організація та пошук даних часто залежить від виявлення областей, де об'єкти утворюють групи з подібними властивостями; однак, у випадку високої розмірності, всі об'єкти, з'являються розрідженими та різними в багатьох відношеннях, що перешкоджає ефективній організації спільних даних.
Ці ефекти також використовуються для спрощення алгоритмів машинного навчання у багатовимірних просторах, що називають благословенням розмірності. Благословення розмірності та прокляття розмірності визнаються двома взаємодоповнюючими впливовими принципами у багатовимірному аналізі даних.[3]
В деяких задачах кожна змінна може набувати одного з декількох дискретних значень, або ж діапазон можливих значень ділиться на задане скінченне число, щоб дати скінченну кількість варіантів. Якщо брати різні змінні разом, виникає велика кількість комбінацій значень. Цей ефект також відомий як комбінаторний вибух. Навіть у найпростішому випадку бінарних змінних кількість можливих комбінацій буде , яка є експоненціальною за розмірністю. По-простому, кожен додатковий вимір подвоює зусилля, необхідні для перебору всіх комбінацій.
Задачі машинного навчання, які передбачають навчання «природному стану» на скінченній кількості зразків даних у просторі властивостей з високим числом вимірів, зазвичай, потребують величезної кількості навчальних даних для того, щоб забезпечити хоча б декілька зразків з різною комбінацією значень. Типове правило полягає в тому, що в кожному вимірі повинно бути щонайменше 5 навчальних прикладів.[4] З фіксованою кількістю навчальних зразків прогностична потужність класифікатора або регресора спочатку збільшується, бо кількість використовуваних розмірів/функцій збільшується, але потім зменшується,[5] що відомо, як феномен Хьюза[6] або явище піка.[4]
Коли таку міру, як евклідова відстань визначають з використанням багатьох координат, то отримуємо маленьку різницю у відстані між різними парами зразків.
Один зі способів продемонструвати «величезність» багатовимірного Евклідового простору вимірності є порівняння об'єму гіперкуба з ребром і вписаної в нього гіперсфери радіуса . Об'єм сфери дорівнює , де є гамма-функція, а об'єм куба буде . Коли розмірність простору збільшується, об'єм гіперсфери стає незначним відносно об'єму гіперкуба. Це чітко видно при порівняння їх відношення коли розмірність прямує до нескінченності:
- коли .
Більше того, відстань між центром і кутами це величина , яка необмежено зростає при сталому . В цьому сенсі, майже все в багатовимірному просторі розташоване дуже далеко від центру. Інакше можна сказати, що багатовимірний одиничний гіперкуб складається майже повністю з «кутів» гіперкуба і майже не має «середини».
Це також допомагає зрозуміти розподіл хі-квадрат. Дійсно, (нецентральний) розподіл хі-квадрат, пов'язаний з випадковою точкою інтервалу [-1, 1], збігається з розподілом квадрата довжини випадкової точки в d-кубі. За законом великих чисел, цей розподіл концентрується у вузькій смузі, що становить приблизно d помножити на стандартний квадрат відхилення (σ2) від початкового розподілу. Що є ілюстрацією розподілу хі-квадрат, а також показує, що більша частина об'єму d-куба знаходиться біля поверхні сфери радіуса √dσ.
Подальший розвиток цього феномена наступний. Будь-який фіксований розподіл на числовій прямій індукує добуток розподілів на точки багатовимірного простору ℝd. Для фіксованого n, мінімальна і максимальна відстань між випадково вибраною точкою Q і списком з n випадкових точок P1,…,Pn стають незначними відносно мінімальної відстані:[7]
- .
Про таке зазвичай кажуть, що функція відстані втратила свою корисність (наприклад, для критерію найближчого сусіда у алгоритмі, якій порівнює властивості) у багатовимірному просторі. Однак, недавні дослідження показали, що це вірно для спеціального випадку, коли одновимірні розподіли на ℝ будуть незалежними і однаково розподіленими.[8] Коли є кореляція між ознаками, дані спрощуються і забезпечують більш виразну відстань і співвідношення сигнал/шум, як було визнано, відіграє важливу роль, тому слід застосовувати обирання ознак.[8]
Цей ефект ускладнює пошук найближчого сусіда у багатовимірному просторі. Бо неможливо швидко відкинути кандидатів, якщо використовувати різницю в одній координаті, як нижню оцінку відстані, яка залежить від усіх вимірів.[9][10]
Проте останнім часом було зазначено, що виключно число розмірів не обов'язково призводить до ускладнень,[11] оскільки пов'язані додаткові виміри також можуть збільшити відмінність. Крім того, для підсумкового ранжування точок зазвичай корисно розрізняти близьких та далеких сусідів. Не пов'язані («шумові») виміри, однак, зменшують відмінність, як описано вище. При аналізі часових рядів, де дані за своєю суттю є високорозмірними, функції відстані також працюють надійно, коли співвідношення сигнал-шум є досить високим.[12]
Інший ефект високої розмірності на функції відстані стосується графів k-найближчих сусідів (k-NN), побудованих з набору даних з використанням функції відстані. Коли розмірність збільшується, розподіл входів орієнтованого k-NN-графа стає асиметричним з піком справа через виникнення непропорційно великої кількості концентраторів, тобто точок даних, які з'являються в багатьох інших k-NN списках інших точок даних, частіше ніж у середньому. Це явище може суттєво впливати на різні методи класифікації (включаючи k-NN класифікатор), напівкероване навчання та кластеризацію,[13] а також впливає на інформаційний пошук.[14]
У нещодавньому огляді, Зімек та інші, описали наступні проблеми при пошуку аномалій у даних з високою розмірністю:[8]
- Скупчення оцінок та відстаней: похідні величини, такі як відстані, стають чисельно подібними
- Невідповідні атрибути: для багатовимірних даних значна кількість даних може бути невідповідною
- Визначення характеристик множин: для локальних методів набори характеристики множин часто ґрунтуються на найближчому сусідстві
- Оцінки для різних розмірностей неможливо порівнювати: різні підпростори дають різні оцінки
- Пояснення оцінок: оцінки часто не передають семантичного значення
- Експоненціальність простору пошуку: пошуковий простір більше не можна систематично сканувати
- Упередженість відома як p-hacking: враховуючи великий простір пошуку, можна знайти бажану значущість гіпотези
- Скупченість: певні об'єкти зустрічаються частіше в списках сусідів, ніж інші.
Багато з аналізованих спеціалізованих методів вирішують ті чи інші проблеми, але залишається багато відкритих питань.
- Динамічне програмування
- Метод найменших квадратів
- Метод головних компонент
- Сингулярний розклад матриці
- ↑ Richard Ernest Bellman; Rand Corporation (1957). Dynamic programming. Princeton University Press. ISBN 978-0-691-07951-6.,
Republished: Richard Ernest Bellman (2003). Dynamic Programming. Courier Dover Publications. ISBN 978-0-486-42809-3. - ↑ Richard Ernest Bellman (1961). Adaptive control processes: a guided tour. Princeton University Press.
- ↑ Donoho DL. (2000). High-dimensional data analysis: The curses and blessings of dimensionality. [Архівовано 15 квітня 2018 у Wayback Machine.] AMS Math Challenges Lecture, 1, 32 pp.
- ↑ а б Koutroumbas, Sergios Theodoridis, Konstantinos (2008). Pattern Recognition - 4th Edition (англ.). Burlington. Процитовано 8 січня 2018.
- ↑ Trunk, G. V. (July 1979). A Problem of Dimensionality: A Simple Example. IEEE Transactions on Pattern Analysis and Machine Intelligence. PAMI-1 (3): 306—307. doi:10.1109/TPAMI.1979.4766926.
- ↑ Hughes, G.F. (January 1968). On the mean accuracy of statistical pattern recognizers. IEEE Transactions on Information Theory. 14 (1): 55—63. doi:10.1109/TIT.1968.1054102.
- ↑ Beyer, K.; Goldstein, J.; Ramakrishnan, R.; Shaft, U. (1999). When is "Nearest Neighbor" Meaningful?. Proc. 7th International Conference on Database Theory - ICDT'99. LNCS. 1540: 217—235. doi:10.1007/3-540-49257-7_15. ISBN 978-3-540-65452-0.
- ↑ а б в Zimek, A.; Schubert, E.; Kriegel, H.-P. (2012). A survey on unsupervised outlier detection in high-dimensional numerical data. Statistical Analysis and Data Mining. 5 (5): 363—387. doi:10.1002/sam.11161.
- ↑ Marimont, R.B.; Shapiro, M.B. (1979). Nearest Neighbour Searches and the Curse of Dimensionality. IMA J Appl Math. 24 (1): 59—70. doi:10.1093/imamat/24.1.59.
- ↑ Chávez, Edgar; Navarro, Gonzalo; Baeza-Yates, Ricardo; Marroquín, José Luis (2001). Searching in Metric Spaces. ACM Computing Surveys. 33 (3): 273—321. CiteSeerX 10.1.1.100.7845. doi:10.1145/502807.502808.
- ↑ Houle, M. E.; Kriegel, H. P.; Kröger, P.; Schubert, E.; Zimek, A. (2010). Can Shared-Neighbor Distances Defeat the Curse of Dimensionality? (PDF). Scientific and Statistical Database Management. Lecture Notes in Computer Science. Т. 6187. с. 482. doi:10.1007/978-3-642-13818-8_34. ISBN 978-3-642-13817-1.
- ↑ Bernecker, T.; Houle, M. E.; Kriegel, H. P.; Kröger, P.; Renz, M.; Schubert, E.; Zimek, A. (2011). Quality of Similarity Rankings in Time Series. Symposium on Spatial and Temporal Databases. Lecture Notes in Computer Science. Т. 6849. с. 422. doi:10.1007/978-3-642-22922-0_25. ISBN 978-3-642-22921-3.
- ↑ Radovanović, Miloš; Nanopoulos, Alexandros; Ivanović, Mirjana (2010). Hubs in space: Popular nearest neighbors in high-dimensional data (PDF). Journal of Machine Learning Research. 11: 2487—2531.
- ↑ Radovanović, M.; Nanopoulos, A.; Ivanović, M. (2010). On the existence of obstinate results in vector space models. 33rd international ACM SIGIR conference on Research and development in information retrieval - SIGIR '10. с. 186. doi:10.1145/1835449.1835482. ISBN 9781450301534.