Коэффициент корреляции Пирсона
Коэффициент корреляции Пирсона (также известный как коэффициент линейной корреляции Пирсона или Пирсоновский r) — это мера линейной зависимости между двумя переменными, принимающая значения в интервале от -1 до 1. Он был разработан британским математиком Карлом Пирсоном на основе идей Фрэнсиса Гальтона и используется в математической статистике для оценки силы и направления линейной связи между двумя количественными признаками.
Определение и математическая основа
Коэффициент корреляции Пирсона представляет собой ковариацию двух переменных, деленную на произведение их стандартных отклонений. Формально для выборки из n пар значений (x_i, y_i) выборочный коэффициент корреляции r рассчитывается по формуле:
\[ r_{xy} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}}, \]
где \(\bar{x}\) и \(\bar{y}\) — средние арифметические значений x и y соответственно. В генеральной совокупности параметр обозначается греческой буквой ρ (ро).
~~Ключевым свойством коэффициента является его нормированность: значение r = -1 указывает на строгую отрицательную линейную зависимость (при росте одной переменной другая строго убывает), r = 0 — на отсутствие линейной связи. Значение r = 1 соответствует строгой положительной линейной зависимости (одна переменная возрастает пропорционально другой). Промежуточные значения характеризуют степень разброса точек относительно прямой регрессии.~~
Предпосылки применения
Для корректного использования коэффициента корреляции Пирсона выполняются следующие предпосылки (условия):
- Непрерывность данных: обе переменные должны быть количественными (интервальная или относительная шкала).
- Линейность связи: предполагается, что зависимость между переменными аппроксимируется прямой линией. Если связь нелинейная, коэффициент Пирсона может быть близок к нулю, даже если между переменными существует сильная, но нелинейная зависимость.
- Нормальность распределения: для проверки статистической значимости коэффициента (например, при использовании t-критерия Стьюдента) требуется, чтобы обе переменные имели распределение, близкое к нормальному. При значительных отклонениях от нормальности может применяться непараметрический аналог — коэффициент ранговой корреляции Спирмена.
- Отсутствие выбросов: экстремальные значения (выбросы) могут сильно искажать оценку коэффициента, так как Пирсоновский r чувствителен к ним.
- Гомоскедастичность (постоянство дисперсии ошибок): разброс значений одной переменной должен быть примерно одинаков на всех уровнях другой переменной. Нарушение этого условия не препятствует вычислению r, но затрудняет интерпретацию его значимости.
Интерпретация значений
Численное значение коэффициента не является линейной мерой силы связи. Для удобства интерпретации используют эмпирические шкалы (например, предложенные Дж. К. Коэном в 1988 году или более раннюю шкалу Чеддока):
| Абсолютное значение r | Интерпретация (по шкале Коэна) |
|---|---|
| 0,00 — 0,10 | Отсутствует или очень слабая |
| 0,10 — 0,30 | Слабая |
| 0,30 — 0,50 | Умеренная |
| 0,50 — 0,70 | Сильная |
| 0,70 — 0,90 | Очень сильная |
| 0,90 — 1,00 | Практически функциональная |
Важно подчеркнуть: высокий коэффициент корреляции не обязательно означает причинно-следственную связь (каузальность). Наличие ложной (спуриозной) корреляции возможно, когда обе переменные зависят от третьей, неучтённой переменной. Пример: положительная корреляция между продажами мороженого и количеством солнечных дней не означает, что мороженое вызывает солнечную погоду; обе переменны связаны через скрытый фактор (температура воздуха). Также следует отличать статистическую значимость (p-значение) от практической значимости: при большом объёме выборки даже очень слабая корреляция (r = 0,05) может быть статистически значимой, но не иметь практического смысла.
Вычисление и статистическая значимость
Выборочный коэффициент корреляции r является точечной оценкой генерального параметра ρ. Для проверки нулевой гипотезы H0: ρ = 0 (отсутствие линейной связи в генеральной совокупности) обычно используют t-критерий Стьюдента с n − 2 степенями свободы. Наблюдаемое значение t-статистики вычисляется по формуле:
\[ t = r \cdot \sqrt{\frac{n-2}{1-r^2}}. \]
Если вычисленное t-значение превышает критическое при заданном уровне значимости (обычно α = 0,05), нулевая гипотеза отвергается, и корреляция признаётся статистически значимой. Для построения доверительных интервалов для ρ применяют z-преобразование Фишера, которое нормализует распределение выборочного r.
История
Понятие корреляции ввёл Фрэнсис Гальтон в 1880-х годах, изучая наследственность человека. Он обнаружил, что рост детей имеет тенденцию к регрессии к среднему значению. В 1888 году Гальтон предложил первое математическое выражение для измерения связи, названное им «индекс регрессии». В 1895 году его ученик Карл Пирсон в статье «Notes on regression and inheritance in the case of two parents» (опубликована в журнале «Proceedings of the Royal Society of London») вывел современную формулу коэффициента корреляции, основанную на произведении моментов. Пирсон также разработал теорию корреляции в контексте многомерного нормального распределения. В том же году Уильям Сидни Госсет (опубликовавшийся под псевдонимом «Стьюдент») заложил основы проверки значимости корреляции, что привело к созданию t-критерия.
Разновидности и обобщения
- Внутриклассовый коэффициент корреляции (ICC): используется для измерения согласованности внутри групп, например, при анализе надёжности измерений многократных наблюдений.
- Множественный коэффициент корреляции (R): мера связи между одной зависимой переменной и несколькими независимыми в модели множественной регрессии.
- Частный (парциальный) коэффициент корреляции: показывает степень линейной зависимости между двумя переменными при фиксированном (элиминированном) влиянии одной или нескольких других переменных.
- Коэффициент детерминации (r²): квадрат коэффициента корреляции Пирсона, интерпретируемый как доля дисперсии одной переменной, объясняемая линейной вариацией другой. Например, при r = 0,5 коэффициент детерминации r² = 0,25 означает, что 25% вариации y объясняется переменной x.
Ограничения и критика
- Неустойчивость к выбросам: даже одно экстремальное значение может существенно изменить величину r, что может привести к ложным выводам.
- Неспособность обнаруживать нелинейные связи: для выявления криволинейных зависимостей (например, U-образной) необходимы другие методы (корреляционное отношение, графический анализ).
- Проблема агрегирования данных (экологическая ошибка): корреляция, вычисленная по групповым средним, может сильно отличаться от корреляции по индивидуальным данным (парадокс Симпсона).
- Игнорирование контекста: коэффициент не учитывает возможные лаги (запаздывания) между переменными, что критично во временных рядах.
Применение
Коэффициент корреляции Пирсона широко применяется во многих областях:
- Статистика и психометрия: для анализа связи между тестовыми баллами, валидизации опросников.
- Эконометрика: оценка взаимосвязи экономических показателей (ВВП и инвестиции, инфляция и безработица).
- Биология и медицина: корреляция между дозой препарата и биологическим ответом, между физиологическими параметрами.
- География: анализ пространственных закономерностей.
- Социология: связь между уровнем образования и доходами.
Интересные факты
- Карл Пирсон полагал, что корреляция является ключом к пониманию эволюции и наследуемости признаков, и свои работы он называл «философией корреляции».
- Термин «корреляция» (от лат. correlatio — соотношение) ввёл в научный обиход французский палеонтолог Жорж Кювье в начале XIX века, но в статистическом смысле его впервые применил Гальтон.
- Курт Левин в 1931 году показал, что высокая корреляция между двумя переменными может быть следствием их общей динамики во времени, а не причинной зависимости.
Источники
- Пирсон К. «Notes on regression and inheritance in the case of two parents» // Proceedings of the Royal Society of London. — 1895. — Т. 58.
- Фишер Р. А. Статистические методы для исследователей. — М.: Госстатиздат, 1958.
- Cohen J. Statistical Power Analysis for the Behavioral Sciences. — 2nd ed. — Lawrence Erlbaum Associates, 1988.
- Сирота С. Что такое коэффициент корреляции Пирсона и как его интерпретировать // ПостНаука. — 2016.
- Статистический словарь / Под ред. Ю. А. Толпыгина. — М.: Статистика, 1975.
BFOmetr — база данных и аналитика по компаниям России.
На главную BFOmetr →