Открыть сервис

Коэффициент корреляции Кендалла

Коэффициент корреляции Кендалла (также известный как тау Кендалла, τ-Кендалла) — это непараметрическая мера статистической зависимости между двумя переменными, основанная на оценке согласованности и несогласованности пар наблюдений. В отличие от коэффициента корреляции Пирсона, который измеряет линейную связь, тау Кендалла оценивает порядковую (ранговую) корреляцию, то есть тенденцию к монотонной зависимости (возрастанию или убыванию одной переменной при изменении другой). Значение коэффициента лежит в диапазоне от −1 (полная обратная зависимость) до +1 (полная прямая зависимость), при этом 0 указывает на отсутствие монотонной связи. Коэффициент был предложен британским статистиком Морисом Кендаллом в 1938 году.

Определение и математическая формулировка

Пусть даны две выборки (X₁, Y₁), (X₂, Y₂), …, (Xₙ, Yₙ) из n наблюдений. Коэффициент корреляции Кендалла τ определяется как нормированная разность между числом согласованных (concordant) и несогласованных (discordant) пар наблюдений.

Для любых двух различных наблюдений i и j (i < j) пара называется:

Формула для вычисления τ:

τ = (C − D) / (C + D + T),

где:

В отсутствие связей (T = 0) формула упрощается до:

τ = (C − D) / (C + D) = (C − D) / (n(n−1)/2).

Интерпретация значений

Коэффициент Кендалла менее чувствителен к выбросам, чем коэффициент Пирсона, и более устойчив к асимметрии распределений. Однако его абсолютное значение, как правило, меньше абсолютного значения коэффициента Спирмена при той же степени зависимости.

История

Коэффициент был впервые описан Морисом Кендаллом в 1938 году в статье «A new measure of rank correlation» (Biometrika, vol. 30, no. 1–2, pp. 81–93). Кендалл разработал его как альтернативу ранговому коэффициенту Спирмена, предложенному Чарльзом Спирменом в 1904 году. Основным преимуществом тау Кендалла перед коэффициентом Спирмена является более простая интерпретация через вероятностную меру: τ можно рассматривать как разность между вероятностью того, что две случайно выбранные пары наблюдений согласованы, и вероятностью того, что они несогласованы.

Свойства

Вычисление

Для выборки объёмом n число всех возможных пар равно n(n−1)/2. Алгоритм вычисления:

  1. Упорядочить наблюдения по возрастанию X (или Y).
  2. Для каждого наблюдения i подсчитать количество последующих наблюдений j > i, для которых Yⱼ > Yᵢ (согласованные пары) и Yⱼ < Yᵢ (несогласованные пары).
  3. Суммировать C и D по всем i.
  4. Учесть связи: если имеются одинаковые значения X или Y, их необходимо корректировать.

Современные статистические пакеты (R, Python с библиотеками SciPy, SPSS, SAS) реализуют вычисление τ с автоматической обработкой связей.

Разновидности

Существует несколько модификаций коэффициента Кендалла, различающихся способом учёта связей:

τ_b = (C − D) / √[(C + D + Tₓ)(C + D + Tᵧ)],

где Tₓ — число пар, связанных только по X, Tᵧ — только по Y. Эта версия может принимать значения от −1 до +1, но при большом числе связей её максимальное значение может быть меньше 1.

Применение

Коэффициент корреляции Кендалла широко используется в различных областях:

Сравнение с другими коэффициентами

ХарактеристикаКоэффициент Пирсона (r)Коэффициент Спирмена (ρ)Коэффициент Кендалла (τ)
Тип данныхИнтервальные/отношенияПорядковые/интервальныеПорядковые/интервальные
Чувствительность к выбросамВысокаяСредняяНизкая
ИнтерпретацияЛинейная связьМонотонная связьМонотонная связь
Устойчивость к связямНе применимоСредняяВысокая (с поправками)
Вычислительная сложностьO(n)O(n log n)O(n²)

При малых выборках (n < 30) τ Кендалла часто предпочтительнее ρ Спирмена из-за лучших свойств распределения при проверке гипотез. При больших выборках оба коэффициента дают схожие результаты, но τ медленнее вычисляется.

Проверка значимости

Для проверки гипотезы H₀: τ = 0 (отсутствие монотонной связи) используется статистика:

Z = τ / √[2(2n+5) / (9n(n−1))],

которая при больших n (обычно n > 30) асимптотически нормальна. Для малых выборок применяют точные таблицы критических значений. В современных статистических пакетах p-значение вычисляется автоматически.

Ограничения

Источники

BFOmetr — база данных и аналитика по компаниям России.

На главную BFOmetr →