Кореляція рангу

Немає перевірених версій цієї сторінки; ймовірно, її ще не перевіряли на відповідність правилам проекту.

У статистиці кореляція рангу — це будь-яка із кількох статистик, які вимірюють порядкове-з'єднання — відносини між ранжируванням різних порядкових змінних або різних кореляцій однієї і тієї ж змінної, де «ранжируванням» називається наданням позначок «перший», «другий», «третій» і т. д. різним спостереженнями конкретної змінної. Коефіцієнт кореляції рангу вимірює ступінь подібності між двома ранжируваннями, і може бути використаний для оцінки статистичної значущості співвідношення між ними. Наприклад, двома загальними непараметричними методами важливості, які використовують кореляцію рангу є U-критерій Манна-Уітні і тест рангу Уілкоксона.

Контекст

Якщо, наприклад, одна змінна є одиницею, що позначає програми університетського баскетболу, а інша змінна позначає програму університетського футболу, можна було б оцінити співвідношення результатів соціального опитування: чи мають університети з вищою оцінкою баскетбольної програми тенденцію до володіння ще й високими оцінками футбольної програми? Коефіцієнт рангу кореляції може виміряти такі співвідношення, та міра значущості коефіцієнта рангу кореляції може показати, чи виміряне відношення є досить малим аби воно могло вважатися збігом.

Якщо є тільки одна змінна, що позначає футбольну програму коледжу, але яка є предметом для опитувань двох різних груп (скажімо, тренерів та авторів спортивних статей), тоді подібність результатів двох опитувань може визначатися за допомогою коефіцієнту кореляції рангу.

Як інший приклад, у таблиці спряженості з низькими, середнім і високим рівнем прибутку як змінної рядка та рівня освіти як змінної стовпця кореляція рангу допомагає виміряти співвідношення між прибутком та освітнім рівнем.

Коефіцієнти кореляції

Деякі з найбільш популярних статистичних даних кореляції рангу:

ρ Спірмена
τ Кендалла
γ Гудмана та Крускала
D Соммерса

Коефіцієнт кореляції рангу, що підвищується, означає зростання співвідношення між ранжируваннями. Коефіцієнт лежить в інтервалі [-1, 1] та приймає значення:

1, якщо співвідношення між двома ранжируваннями є досконалим; два результати однакові.
0, якщо ранжирування є абсолютно незалежними.
-1, Якщо розбіжність між двома ранжируваннями є досконалою; один результат є протилежністю іншого.

Згідно з Діаконієм (1988), ранжування може розглядатися як перестановка множини об'єктів. Таким чином, ми можемо розглядати рейтинги, що знаходяться під спостереженням, як дані, отримані, коли зразкова вибірка є (ототожнюється з) симетричною групою. Тоді можна ввести метрику, перетворюючи симетричну групу в метричний простір. Різні метрики будуть відповідати різним кореляціям рангів.

Загальний коефіцієнт кореляції

Кендалл (1944) показав, що його $\tau$ (тау) і $\rho$ (ро) Спірмена є окремими випадками загального коефіцієнта кореляції.

Припустимо, що у нас є безліч $n$ об'єктів, які розглядаються у співвідношенні з двома властивостями, представленими $x$ і $y$ , що утворюють безлічі значень $\{x_{i}\}_{i\leq n}$ і $\{y_{i}\}_{i\leq n}$ . Для будь-якої пари значень, скажімо, $i$ -й та $j$ -го ми призначаємо $x$ -рахунок, що позначається $a_{ij}$ та $y$ -рахунок, що позначається через $b_{ij}$ . (Зверніть увагу, оскільки вони є порівняннями , $a_{ij}$ і $b_{ij}$ не існують для $i=j$ ). Лише однією вимогою для цих функцій є лише те, що вони повинні бути не симетричними, тож $a_{ij}=-a_{ji}$ і $b_{ij}=-b_{ji}$ . Тоді узагальнений коефіцієнт кореляції $\Gamma$ визначається як

\Gamma ={\frac {\sum _{i,j=1}^{n}a_{ij}b_{ij}}{\sqrt {\sum _{i,j=1}^{n}a_{ij}^{2}\sum _{i,j=1}^{n}b_{ij}^{2}}}}

$\tau$ тау Кендалла як окремий випадок

Якщо $r_{i}$ , $s_{i}$ є ранжуваннями $i$ значень згідно з якістю $x$ та якістю $y$ відповідно, то ми можемо визначити

a_{ij}=\operatorname {sgn}(r_{j}-r_{i}),\quad b_{ij}=\operatorname {sgn}(s_{j}-s_{i}).

Сума $\sum a_{ij}b_{ij}$ є подвоєною кількістю узгоджених пар, зменшеного числа неузгоджених пар (див коефіцієнт кореляції рангу Кендала). Сума $\sum a_{ij}^{2}$ є лише $n(n-1)$ , кількістю виразів $a_{ij}$ , як і $\sum b_{ij}^{2}$ . Таким чином, в даному випадку,

\Gamma ={\frac {2\,(({\text{number of concordant pairs}})-({\text{number of discordant pairs}}))}{\sqrt {n(n-1)n(n-1)}}}={\text{Kendall's }}\tau

$\rho$ Спірмена як окремий випадок

Якщо $r_{i}$ , $s_{i}$ є категоріями $i$ -значень згідно з $x$ та якістю $y$ у відповідно, ми можемо просто визначити

a_{ij}=r_{j}-r_{i}

b_{ij}=s_{j}-s_{i}

Суми $\sum a_{ij}^{2}$ і $\sum b_{ij}^{2}$ є рівними, оскільки $r_{i}$ і $s_{i}$ належать проміжку від $1$ до $n$ , Тоді ми маємо:

\Gamma ={\frac {\sum (r_{j}-r_{i})(s_{j}-s_{i})}{\sum (r_{j}-r_{i})^{2}}}

отже

\sum _{i,j=1}^{n}(r_{j}-r_{i})(s_{j}-s_{i})=\sum _{i=1}^{n}\sum _{j=1}^{n}r_{i}s_{i}+\sum _{i=1}^{n}\sum _{j=1}^{n}r_{j}s_{j}-\sum _{i=1}^{n}\sum _{j=1}^{n}(r_{i}s_{j}+r_{j}s_{i})

=2n\sum _{i=1}^{n}r_{i}s_{i}-2\sum _{i=1}^{n}r_{i}\sum _{j=1}^{n}s_{j}

=2n\sum _{i=1}^{n}r_{i}s_{i}-{\frac {1}{2}}n^{2}(n+1)^{2}

оскільки $\sum r_{i}$ та $\sum s_{j}$ обидві дорівнюють сумі перших $n$ натуральних чисел, а саме ${\frac {1}{2}}n(n+1)$ .

Ми також маємо

S=\sum _{i=1}^{n}(r_{i}-s_{i})^{2}=2\sum r_{i}^{2}-2\sum r_{i}s_{i}

і тоді

\sum (r_{j}-r_{i})(s_{j}-s_{i})=2n\sum r_{i}^{2}-{\frac {1}{2}}n^{2}(n+1)^{2}-nS

$\sum r_{i}^{2}$

є сумою квадратів перших  $n$  натуральних чисел дорівнює  ${\frac {1}{6}}n(n+1)(2n+1)$ . Таким чином, останнє рівняння зводиться до

\sum (r_{j}-r_{i})(s_{j}-s_{i})={\frac {1}{6}}n^{2}(n^{2}-1)-nS

Отже

\sum (r_{j}-r_{i})^{2}=2n\sum r_{i}^{2}-2\sum r_{i}r_{j}

=2n\sum r_{i}^{2}-2(\sum r_{i})^{2}={\frac {1}{6}}n^{2}(n^{2}-1)

і, таким чином, підставляючи ці результати у початкову формулу ми отримуємо

\Gamma _{R}=1-{\frac {6\sum d_{i}^{2}}{n^{3}-n}}

де $d_{i}=x_{i}-y_{i},$ , є різницею між ранжируваннями.

що є , коефіцієнтом кореляції рангу Спірмена $\rho$ .

Ранг-бірядна кореляція

Жене Гласс (1965) зазначив, що бірядне ранжирування може бути отримано з $\rho$ Спірмена. «Можна вивести коефіцієнт, визначений на X, дихотомічної змінній, і Y, змінній ранжирування, яка оцінює Rho Спірмена між X і Y таким же чином, що бірядне г оцінює г Пірсона між двома нормальними змінними». Ранг бірядної кореляції був введена за дев'ять років до Едвард Куретона (1956) як метод визначення кореляції рангу, якщо ряди розподілені на два групи.

Формула простої різниці Кєрбі

Дейв Кербі (2014 рік) рекомендував застосовувати бірядний ранг як вступ студентів до вивчення кореляції рангу, оскільки загальна логіка може бути пояснена на початковому рівні. Бірядний ранг є співвідношенням, що використовується для визначення U-критерію Манна-Уітні, що зазвичай розглядається на ввідних лекціях статистики в університетах. Дані для цього тесту складається з двох груп; і для кожного члена групи, результат ранжирується для дослідження в цілому.

Кербі показав, що ця кореляція рангу може бути виражена в термінах двох понять: відсоток даних, які підтримують зазначену гіпотезу та відсоток даних, що її не підтримують. Формула простої різниці Кербі стверджує, що кореляція рангу може бути виражена як різниця між співвідношенням сприятливих подій (f) та несприятливих подій (u).

r=f-u

Приклад і розуміння

Щоб проілюструвати обчислення, припустимо, що тренер готує бігунів на довгі дистанції протягом одного місяця, використовуючи два методи. Група А складається з 5 бігунів, і групи B — з 4 бігунів. Зазначена гіпотеза полягає в тому, що метод А готує швидших бігунів. Змагання для оцінки результатів показує, що бігуни з групи А дійсно працюють швидше, з наступним ранжируванням: 1, 2, 3, 4 і 6. Найповільніші бігуни з групи B, таким чином, мають ранжування 5, 7, 8 і 9.

Аналіз проводиться за парами, які складаються з одного члена із кожної групи. Наприклад, найшвидший бігун у дослідженні є членом чотирьох пар: (1,5), (1,7), (1,8) і (1,9). Всі ці чотири пари підтверджують гіпотезу, тому що в кожній парі бігун з групи А швидший, ніж бігун з групи В. У результаті ми маємо 20 пар, 19 з яких підтверджують гіпотезу. Єдина пара, яка не підтримує гіпотезу складається з двох бігунів ранжуванням 5 і 6, тому що в цій парі бігун з групи Б пробіг швидше. Згідно з формулою простої різниці Кєрбі, 95 % даних, підтверджують гіпотезу (19 з 20 пар), і 5 % не підтримують (1 з 20 пар), тому ранг кореляції г = +0,95 — +0,05 = 0,90.

Максимальне значення для кореляції r = 1, що означає, що 100 % пар підтверджують гіпотезу. Кореляція г = 0 вказує на те, що половина пар підтверджують гіпотезу, а друга половина — ні. Іншими словами, вибірка групи не відрізняються ранжуванням, так що немає жодних доказів того, що вони походять з двох різних груп населення. Величина ефекту r = 0, може визначатися для того, щоб описати відсутність зв'язку між членами вибірки та їх ранжуванні.

Посилання

Cureton, E. E. (1956). Rank-biserial correlation. Psychometrika 21, 287—290. DOI:10.1007/BF02289138
Everitt, B. S. (2002), The Cambridge Dictionary of Statistics, Cambridge: Cambridge University Press, ISBN 0-521-81099-X
Diaconis, P. (1988), Group Representations in Probability and Statistics, Lecture Notes-Monograph Series, Hayward, CA: Institute of Mathematical Statistics, ISBN 0-940600-14-5
Glass, G. V. (1965). A ranking variable analogue of biserial correlation: implications for short-cut item analysis. Journal of Educational Measurement, 2(1), 91–95. DOI: 10.1111/j.1745-3984.1965.tb00396.x
Kendall, M. G. (1970), Rank Correlation Methods, London: Griffin, ISBN 0-85264-199-0
Kerby, D. S. (2014). The simple difference formula: An approach to teaching nonparametric correlation. Comprehensive Psychology, volume 3, article 1. doi:10.2466/11.IT.3.1. link to article [Архівовано 31 грудня 2019 у Wayback Machine.]