Открыть сервис

Коэффициент корреляции Пирсона

Коэффициент корреляции Пирсона (также известный как коэффициент линейной корреляции Пирсона или Пирсоновский r) — это мера линейной зависимости между двумя переменными, принимающая значения в интервале от -1 до 1. Он был разработан британским математиком Карлом Пирсоном на основе идей Фрэнсиса Гальтона и используется в математической статистике для оценки силы и направления линейной связи между двумя количественными признаками.

Определение и математическая основа

Коэффициент корреляции Пирсона представляет собой ковариацию двух переменных, деленную на произведение их стандартных отклонений. Формально для выборки из n пар значений (x_i, y_i) выборочный коэффициент корреляции r рассчитывается по формуле:

\[ r_{xy} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}}, \]

где \(\bar{x}\) и \(\bar{y}\) — средние арифметические значений x и y соответственно. В генеральной совокупности параметр обозначается греческой буквой ρ (ро).

~~Ключевым свойством коэффициента является его нормированность: значение r = -1 указывает на строгую отрицательную линейную зависимость (при росте одной переменной другая строго убывает), r = 0 — на отсутствие линейной связи. Значение r = 1 соответствует строгой положительной линейной зависимости (одна переменная возрастает пропорционально другой). Промежуточные значения характеризуют степень разброса точек относительно прямой регрессии.~~

Предпосылки применения

Для корректного использования коэффициента корреляции Пирсона выполняются следующие предпосылки (условия):

Интерпретация значений

Численное значение коэффициента не является линейной мерой силы связи. Для удобства интерпретации используют эмпирические шкалы (например, предложенные Дж. К. Коэном в 1988 году или более раннюю шкалу Чеддока):

Абсолютное значение rИнтерпретация (по шкале Коэна)
0,00 — 0,10Отсутствует или очень слабая
0,10 — 0,30Слабая
0,30 — 0,50Умеренная
0,50 — 0,70Сильная
0,70 — 0,90Очень сильная
0,90 — 1,00Практически функциональная

Важно подчеркнуть: высокий коэффициент корреляции не обязательно означает причинно-следственную связь (каузальность). Наличие ложной (спуриозной) корреляции возможно, когда обе переменные зависят от третьей, неучтённой переменной. Пример: положительная корреляция между продажами мороженого и количеством солнечных дней не означает, что мороженое вызывает солнечную погоду; обе переменны связаны через скрытый фактор (температура воздуха). Также следует отличать статистическую значимость (p-значение) от практической значимости: при большом объёме выборки даже очень слабая корреляция (r = 0,05) может быть статистически значимой, но не иметь практического смысла.

Вычисление и статистическая значимость

Выборочный коэффициент корреляции r является точечной оценкой генерального параметра ρ. Для проверки нулевой гипотезы H0: ρ = 0 (отсутствие линейной связи в генеральной совокупности) обычно используют t-критерий Стьюдента с n − 2 степенями свободы. Наблюдаемое значение t-статистики вычисляется по формуле:

\[ t = r \cdot \sqrt{\frac{n-2}{1-r^2}}. \]

Если вычисленное t-значение превышает критическое при заданном уровне значимости (обычно α = 0,05), нулевая гипотеза отвергается, и корреляция признаётся статистически значимой. Для построения доверительных интервалов для ρ применяют z-преобразование Фишера, которое нормализует распределение выборочного r.

История

Понятие корреляции ввёл Фрэнсис Гальтон в 1880-х годах, изучая наследственность человека. Он обнаружил, что рост детей имеет тенденцию к регрессии к среднему значению. В 1888 году Гальтон предложил первое математическое выражение для измерения связи, названное им «индекс регрессии». В 1895 году его ученик Карл Пирсон в статье «Notes on regression and inheritance in the case of two parents» (опубликована в журнале «Proceedings of the Royal Society of London») вывел современную формулу коэффициента корреляции, основанную на произведении моментов. Пирсон также разработал теорию корреляции в контексте многомерного нормального распределения. В том же году Уильям Сидни Госсет (опубликовавшийся под псевдонимом «Стьюдент») заложил основы проверки значимости корреляции, что привело к созданию t-критерия.

Разновидности и обобщения

Ограничения и критика

Применение

Коэффициент корреляции Пирсона широко применяется во многих областях:

Интересные факты

Источники

  1. Пирсон К. «Notes on regression and inheritance in the case of two parents» // Proceedings of the Royal Society of London. — 1895. — Т. 58.
  2. Фишер Р. А. Статистические методы для исследователей. — М.: Госстатиздат, 1958.
  3. Cohen J. Statistical Power Analysis for the Behavioral Sciences. — 2nd ed. — Lawrence Erlbaum Associates, 1988.
  4. Сирота С. Что такое коэффициент корреляции Пирсона и как его интерпретировать // ПостНаука. — 2016.
  5. Статистический словарь / Под ред. Ю. А. Толпыгина. — М.: Статистика, 1975.

BFOmetr — база данных и аналитика по компаниям России.

На главную BFOmetr →