Открыть сервис

Корреляционно-регрессионный анализ

Корреляционно-регрессионный анализ — это раздел математической статистики, объединяющий совокупность методов для изучения взаимосвязей между случайными величинами. Корреляционный анализ позволяет оценить силу и направление статистической связи, а регрессионный анализ — описать её форму в виде математического уравнения (регрессионной модели). Эти методы широко применяются в экономике, социологии, биологии, технике и других областях для построения прогнозов, выявления причинно-следственных зависимостей и тестирования гипотез.

Основные понятия

Корреляция

Корреляция (от лат. correlatio — соотношение) — мера статистической зависимости между двумя или более переменными. Корреляция указывает на согласованное изменение величин, но не доказывает причинно-следственную связь. Выделяют:

Регрессия

Регрессия (от лат. regressio — движение назад) — функциональная зависимость среднего значения одной случайной величины от значений другой (или нескольких) переменных. Регрессионная модель строится на основе эмпирических данных и позволяет предсказывать значения зависимой переменной (отклика) при заданных значениях независимых переменных (факторов).

История развития

Элементы корреляционного анализа встречаются в работах английского учёного Фрэнсиса Гальтона (конец XIX века), который изучал наследственность и ввёл понятие регрессии («регрессия к среднему»). Дальнейшее развитие методы получили в трудах Карла Пирсона, разработавшего коэффициент корреляции (коэффициент Пирсона), и Рональда Фишера, который заложил основы дисперсионного и регрессионного анализа. В XX веке с развитием вычислительной техники и многомерной статистики корреляционно-регрессионный анализ стал доступен для массового использования в прикладных исследованиях.

Корреляционный анализ

Коэффициенты корреляции

Основной инструмент корреляционного анализа — коэффициент корреляции. Выбор конкретной меры зависит от типа данных:

Другие характеристики

Проверка значимости

Статистическую значимость найденной корреляции проверяют с помощью гипотезы H₀: коэффициент равен нулю (связь отсутствует). Для этого используют t-критерий Стьюдента или z-преобразование Фишера. Результатом является p-значение: если оно меньше выбранного уровня значимости (чаще всего 0,05 или 0,01), нулевая гипотеза отклоняется, и связь считается статистически достоверной.

Регрессионный анализ

Виды регрессионных моделей

Оценка параметров модели

Параметры регрессионной модели чаще всего оценивают методом наименьших квадратов (МНК), который минимизирует сумму квадратов отклонений наблюдаемых значений от предсказанных моделью. Для нелинейных или сложных структур данных могут использоваться методы максимального правдоподобия, обобщённого МНК или робастные методы.

Качество модели

Для оценки адекватности регрессионной модели применяют:

Диагностика модели

После построения регрессионной модели необходим анализ остатков (разностей между наблюдаемыми и предсказанными значениями). Остатки должны быть случайными, нормально распределёнными, гомоскедастичными (постоянная дисперсия) и неавтокоррелированными (независимыми). Для проверки используют графики остатков, тесты Дурбина — Уотсона (на автокорреляцию), Бреуша — Пагана (на гетероскедастичность), Шапиро — Уилка (на нормальность).

Применение корреляционно-регрессионного анализа

Методы применяются:

Ограничения и критика

  1. Необходимость причинно-следственного подкрепления. Корреляция не означает причинность; ложные (спуриозные) корреляции возможны при наличии третьей скрытой переменной.
  2. Чувствительность к выбросам и нарушению предпосылок. Нелинейные связи могут остаться незамеченными, если применять только линейные модели.
  3. Проблема мультиколлинеарности — при сильной корреляции между независимыми переменными оценки коэффициентов становятся нестабильными.
  4. Переобучение модели — при включении слишком большого числа предикторов модель может хорошо описывать текущие данные, но плохо прогнозировать новые.
  5. Экстраполяция — прогнозы за пределами диапазона исходных данных ненадёжны.

Современные тенденции

В XXI веке корреляционно-регрессионный анализ развивается в сторону:

Несмотря на развитие более сложных алгоритмов, классический корреляционно-регрессионный анализ остаётся фундаментальным инструментом статистического моделирования и обязательной частью учебных курсов по эконометрике и прикладной статистике.

BFOmetr — база данных и аналитика по компаниям России.

На главную BFOmetr →