Коэффициент корреляции Кендалла
Коэффициент корреляции Кендалла (также известный как тау Кендалла, τ-Кендалла) — это непараметрическая мера статистической зависимости между двумя переменными, основанная на оценке согласованности и несогласованности пар наблюдений. В отличие от коэффициента корреляции Пирсона, который измеряет линейную связь, тау Кендалла оценивает порядковую (ранговую) корреляцию, то есть тенденцию к монотонной зависимости (возрастанию или убыванию одной переменной при изменении другой). Значение коэффициента лежит в диапазоне от −1 (полная обратная зависимость) до +1 (полная прямая зависимость), при этом 0 указывает на отсутствие монотонной связи. Коэффициент был предложен британским статистиком Морисом Кендаллом в 1938 году.
Определение и математическая формулировка
Пусть даны две выборки (X₁, Y₁), (X₂, Y₂), …, (Xₙ, Yₙ) из n наблюдений. Коэффициент корреляции Кендалла τ определяется как нормированная разность между числом согласованных (concordant) и несогласованных (discordant) пар наблюдений.
Для любых двух различных наблюдений i и j (i < j) пара называется:
- согласованной, если знаки разностей Xᵢ − Xⱼ и Yᵢ − Yⱼ совпадают (обе положительны или обе отрицательны);
- несогласованной, если знаки разностей противоположны;
- связанной (tie), если хотя бы одна из разностей равна нулю (то есть значения X или Y совпадают).
Формула для вычисления τ:
τ = (C − D) / (C + D + T),
где:
- C — число согласованных пар,
- D — число несогласованных пар,
- T — число связанных пар (в некоторых вариантах формулы T может быть разбито на Tₓ — связи по X, Tᵧ — связи по Y, и Tₓᵧ — одновременные связи).
В отсутствие связей (T = 0) формула упрощается до:
τ = (C − D) / (C + D) = (C − D) / (n(n−1)/2).
Интерпретация значений
- τ = +1: все пары наблюдений согласованы, то есть наблюдается строгая монотонная возрастающая зависимость (при увеличении X значение Y всегда увеличивается).
- τ = −1: все пары наблюдений несогласованы, то есть наблюдается строгая монотонная убывающая зависимость (при увеличении X значение Y всегда уменьшается).
- τ ≈ 0: число согласованных и несогласованных пар примерно равно, что указывает на отсутствие монотонной зависимости.
Коэффициент Кендалла менее чувствителен к выбросам, чем коэффициент Пирсона, и более устойчив к асимметрии распределений. Однако его абсолютное значение, как правило, меньше абсолютного значения коэффициента Спирмена при той же степени зависимости.
История
Коэффициент был впервые описан Морисом Кендаллом в 1938 году в статье «A new measure of rank correlation» (Biometrika, vol. 30, no. 1–2, pp. 81–93). Кендалл разработал его как альтернативу ранговому коэффициенту Спирмена, предложенному Чарльзом Спирменом в 1904 году. Основным преимуществом тау Кендалла перед коэффициентом Спирмена является более простая интерпретация через вероятностную меру: τ можно рассматривать как разность между вероятностью того, что две случайно выбранные пары наблюдений согласованы, и вероятностью того, что они несогласованы.
Свойства
- Непараметричность: не требует нормального распределения данных или линейности связи.
- Инвариантность к монотонным преобразованиям: значение τ не изменится, если применить к любой из переменных строго монотонное преобразование (например, логарифмирование или возведение в квадрат).
- Робастность: устойчив к выбросам, так как учитывает только порядок значений, а не их абсолютные величины.
- Симметричность: τ(X, Y) = τ(Y, X).
- Диапазон: −1 ≤ τ ≤ 1.
- Связь с другими мерами: при нормальном распределении данных τ ≈ (2/π) arcsin(ρ), где ρ — коэффициент корреляции Пирсона. При больших выборках τ и ρ сходятся к одному и тому же знаку, но τ всегда меньше по модулю.
Вычисление
Для выборки объёмом n число всех возможных пар равно n(n−1)/2. Алгоритм вычисления:
- Упорядочить наблюдения по возрастанию X (или Y).
- Для каждого наблюдения i подсчитать количество последующих наблюдений j > i, для которых Yⱼ > Yᵢ (согласованные пары) и Yⱼ < Yᵢ (несогласованные пары).
- Суммировать C и D по всем i.
- Учесть связи: если имеются одинаковые значения X или Y, их необходимо корректировать.
Современные статистические пакеты (R, Python с библиотеками SciPy, SPSS, SAS) реализуют вычисление τ с автоматической обработкой связей.
Разновидности
Существует несколько модификаций коэффициента Кендалла, различающихся способом учёта связей:
- τₐ (тау-а): классическая формула, в которой связи не учитываются (считается, что T = 0). Используется редко, так как на практике связи почти всегда присутствуют.
- τ_b (тау-b): наиболее распространённая версия, корректирующаяся на связи. Формула:
τ_b = (C − D) / √[(C + D + Tₓ)(C + D + Tᵧ)],
где Tₓ — число пар, связанных только по X, Tᵧ — только по Y. Эта версия может принимать значения от −1 до +1, но при большом числе связей её максимальное значение может быть меньше 1.
- τ_c (тау-c): предложена Стюартом (1953) для таблиц сопряжённости. Учитывает только число строк и столбцов, не требуя полного перебора пар. Часто используется для анализа порядковых данных в таблицах размером r × c.
Применение
Коэффициент корреляции Кендалла широко используется в различных областях:
- Статистика и анализ данных: для оценки связи между порядковыми переменными (например, уровень образования и доход, рейтинги и оценки).
- Медицина и биология: для анализа зависимости между дозировкой препарата и степенью выраженности симптомов, или между возрастом и биомаркерами.
- Экономика и финансы: для изучения взаимосвязи между рейтингами кредитоспособности и доходностью облигаций, или между индексами потребительских цен.
- Социология и психология: для корреляционного анализа ответов на вопросы с порядковыми шкалами (шкалы Ликерта, ранжирование предпочтений).
- Машинное обучение: как метрика для оценки качества ранжирования (например, в рекомендательных системах).
Сравнение с другими коэффициентами
| Характеристика | Коэффициент Пирсона (r) | Коэффициент Спирмена (ρ) | Коэффициент Кендалла (τ) |
|---|---|---|---|
| Тип данных | Интервальные/отношения | Порядковые/интервальные | Порядковые/интервальные |
| Чувствительность к выбросам | Высокая | Средняя | Низкая |
| Интерпретация | Линейная связь | Монотонная связь | Монотонная связь |
| Устойчивость к связям | Не применимо | Средняя | Высокая (с поправками) |
| Вычислительная сложность | O(n) | O(n log n) | O(n²) |
При малых выборках (n < 30) τ Кендалла часто предпочтительнее ρ Спирмена из-за лучших свойств распределения при проверке гипотез. При больших выборках оба коэффициента дают схожие результаты, но τ медленнее вычисляется.
Проверка значимости
Для проверки гипотезы H₀: τ = 0 (отсутствие монотонной связи) используется статистика:
Z = τ / √[2(2n+5) / (9n(n−1))],
которая при больших n (обычно n > 30) асимптотически нормальна. Для малых выборок применяют точные таблицы критических значений. В современных статистических пакетах p-значение вычисляется автоматически.
Ограничения
- Вычислительная сложность: алгоритм требует O(n²) операций, что делает его медленным для больших выборок (n > 10⁴).
- Чувствительность к связям: при большом количестве связанных наблюдений (например, при грубом округлении данных) значение τ может быть занижено.
- Не измеряет нелинейные зависимости: как и другие ранговые коэффициенты, τ обнаруживает только монотонные связи. Для немонотонных зависимостей (например, U-образных) он может быть близок к нулю.
Источники
- Kendall, M. G. (1938). «A new measure of rank correlation». Biometrika, 30(1–2), 81–93.
- Kendall, M. G. (1970). Rank Correlation Methods (4th ed.). Charles Griffin & Co.
- Stuart, A. (1953). «The estimation and comparison of strengths of association in contingency tables». Biometrika, 40(1–2), 105–110.
- Agresti, A. (2010). Analysis of Ordinal Categorical Data (2nd ed.). Wiley.
- Hollander, M., Wolfe, D. A., & Chicken, E. (2014). Nonparametric Statistical Methods (3rd ed.). Wiley.
BFOmetr — база данных и аналитика по компаниям России.
На главную BFOmetr →