Коэффициент ранговой корреляции Спирмена
Коэффициент ранговой корреляции Спирмена (или коэффициент корреляции рангов Спирмена, обозначается греческой буквой ρ (ро) или rₛ) — это непараметрический статистический показатель, используемый для измерения силы и направления монотонной связи между двумя переменными, представленными в порядковой (ранговой) шкале. В отличие от параметрического коэффициента корреляции Пирсона, который оценивает линейную зависимость, коэффициент Спирмена основан на рангах значений, а не на их абсолютных величинах, что делает его устойчивым к выбросам и пригодным для анализа данных, не подчиняющихся нормальному распределению.
История
Метод ранговой корреляции был предложен английским психологом и статистиком Чарльзом Спирменом в 1904 году. Спирмен разработал этот показатель в контексте исследований в области психометрии, где требовалось оценивать связи между переменными, измеренными в порядковых шкалах (например, результаты тестов способностей или ранги предпочтений). Первоначально Спирмен использовал коэффициент для анализа интеллектуальных способностей, что стало важным шагом в развитии непараметрической статистики. Позднее метод был формализован и включён в стандартный инструментарий статистического анализа.
Определение и формула
Коэффициент ранговой корреляции Спирмена вычисляется на основе рангов — порядковых номеров, присвоенных каждому значению переменной после сортировки данных по возрастанию. Для двух переменных X и Y, имеющих n наблюдений, расчёт производится следующим образом:
- Каждому значению X и Y присваивается ранг (от 1 до n). При наличии одинаковых значений (связей) используется средний ранг.
- Вычисляется разность рангов dᵢ для каждой пары наблюдений: dᵢ = R(Xᵢ) − R(Yᵢ).
- Коэффициент ρ рассчитывается по формуле:
ρ = 1 − (6 Σ dᵢ²) / (n (n² − 1))
где Σ dᵢ² — сумма квадратов разностей рангов, n — количество наблюдений.
В случае наличия большого числа связанных рангов (повторяющихся значений) применяется поправочная формула, использующая ковариацию рангов и их стандартные отклонения.
Свойства
- Диапазон значений: ρ принимает значения от −1 до +1.
- ρ = +1 указывает на полную прямую монотонную зависимость: с увеличением ранга одной переменной ранг другой строго возрастает.
- ρ = −1 указывает на полную обратную монотонную зависимость: с увеличением ранга одной переменной ранг другой строго убывает.
- ρ = 0 означает отсутствие монотонной связи (но не обязательно отсутствие любой зависимости, например, нелинейной).
- Непараметричность: Для расчёта не требуется предположение о нормальном распределении данных или о линейности связи.
- Устойчивость к выбросам: Поскольку используются ранги, а не исходные значения, экстремальные наблюдения оказывают меньшее влияние на результат.
- Монотонность: Коэффициент измеряет именно монотонную зависимость (когда одна переменная изменяется в одном направлении при изменении другой), а не только линейную.
Интерпретация
Интерпретация коэффициента Спирмена зависит от контекста исследования. Общепринятые эмпирические ориентиры (условные):
- |ρ| < 0,3 — слабая связь;
- 0,3 ≤ |ρ| < 0,7 — умеренная связь;
- |ρ| ≥ 0,7 — сильная связь.
Знак коэффициента указывает на направление связи: положительный — прямая зависимость, отрицательный — обратная. Важно помнить, что даже сильная корреляция не означает причинно-следственной связи.
Применение
Коэффициент Спирмена широко используется в различных областях науки и практики:
Психология и социология
- Оценка связи между ранговыми переменными, например, между уровнем образования и социальным статусом, или между результатами тестов и экспертными оценками.
- Анализ данных опросов, где ответы представлены в порядковых шкалах (например, «никогда», «иногда», «часто»).
Медицина и биология
- Изучение зависимости между дозировкой лекарства (в порядковой шкале) и степенью выраженности симптомов.
- Анализ экологических данных, где переменные не подчиняются нормальному распределению.
Экономика и финансы
- Оценка связи между рейтингами компаний (например, кредитными рейтингами) и их финансовыми показателями.
- Анализ ранговых предпочтений потребителей.
Машинное обучение и анализ данных
- Использование в качестве метрики для оценки качества ранжирования (например, в рекомендательных системах).
- Предварительный анализ зависимостей перед построением регрессионных моделей.
Пример расчёта
Рассмотрим гипотетический пример: пять студентов (n=5) получили баллы по двум тестам (X и Y):
| Студент | X (баллы) | Y (баллы) | Ранг X | Ранг Y | d | d² |
|---|---|---|---|---|---|---|
| A | 85 | 90 | 4 | 5 | −1 | 1 |
| B | 70 | 65 | 2 | 2 | 0 | 0 |
| C | 95 | 85 | 5 | 4 | 1 | 1 |
| D | 60 | 70 | 1 | 3 | −2 | 4 |
| E | 75 | 60 | 3 | 1 | 2 | 4 |
Σ d² = 1 + 0 + 1 + 4 + 4 = 10.
ρ = 1 − (6 10) / (5 (25 − 1)) = 1 − 60 / 120 = 1 − 0,5 = 0,5.
Таким образом, между баллами по тестам наблюдается умеренная прямая монотонная связь.
Ограничения и критика
- Только монотонность: Коэффициент не обнаруживает немонотонные зависимости (например, U-образную или циклическую).
- Потеря информации: Перевод количественных данных в ранги приводит к потере части информации о величине различий между значениями.
- Чувствительность к размеру выборки: При малом n (менее 10–15) оценка ρ может быть ненадёжной, для проверки значимости требуются специальные таблицы или точные методы.
- Связанные ранги: При большом количестве совпадающих значений (связей) стандартная формула даёт смещённую оценку, требуется коррекция.
- Не является мерой причинности: Как и любой корреляционный показатель, ρ не доказывает наличие причинно-следственной связи.
Сравнение с другими коэффициентами
- Коэффициент Пирсона (r): Измеряет линейную связь, требует нормального распределения и интервальной шкалы. Спирмен менее чувствителен к выбросам и пригоден для порядковых данных.
- Коэффициент Кендалла (τ): Альтернативный непараметрический показатель, основанный на подсчёте согласованных и несогласованных пар. τ обычно даёт более консервативные оценки, чем ρ, и лучше работает при малых выборках.
- Коэффициент ранговой корреляции Гудмана — Крускала (γ): Используется для порядковых переменных с большим числом связей.
Программная реализация
Коэффициент Спирмена реализован во всех основных статистических пакетах и языках программирования:
- Python: функция
spearmanrиз модуляscipy.stats. - R: функция
cor.test(..., method = "spearman"). - SPSS: опция «Spearman» в меню корреляционного анализа.
- Excel: функция
РАНГ.СРдля ранжирования и последующий расчёт по формуле, либо надстройка «Пакет анализа».
Источники
- Спирмен, Ч. (1904). «The proof and measurement of association between two things». American Journal of Psychology, 15(1), 72–101.
- Кендалл, М. Дж. (1970). Ранговые корреляции. Москва: Статистика.
- Холлендер, М., Вульф, Д. А. (1973). Непараметрические методы статистики. Москва: Финансы и статистика.
- Закс, Л. (1976). Статистическое оценивание. Москва: Статистика.
- Математическая энциклопедия. (1982). Т. 3. Москва: Советская энциклопедия.
BFOmetr — база данных и аналитика по компаниям России.
На главную BFOmetr →