Регрессионный анализ

Регрессионный анализ — это раздел математической статистики и машинного обучения, совокупность статистических методов, предназначенных для моделирования взаимосвязи между зависимой переменной (откликом) и одной или несколькими независимыми переменными (предикторами, регрессорами). Основная цель регрессионного анализа — описание формы этой связи, оценка её силы и достоверности, а также прогнозирование значений зависимой переменной на основе известных значений предикторов. Метод широко применяется в естественных и социальных науках, экономике, инженерии, биостатистике и других областях, где требуется количественное описание причинно-следственных или корреляционных зависимостей.

История

Истоки регрессионного анализа восходят к работам Адриена Мари Лежандра (1805 год) и Карла Фридриха Гаусса (1809 год), которые независимо друг от друга разработали метод наименьших квадратов (МНК) для обработки астрономических и геодезических наблюдений. Гаусс впервые предложил теоретическое обоснование МНК на основе нормального распределения ошибок.

Термин «регрессия» ввёл Фрэнсис Гальтон в 1886 году при изучении наследственного роста. Он обнаружил феномен «регрессии к среднему»: дети очень высоких родителей в среднем ниже их, а дети очень низких — выше. Гальтон описал эту тенденцию линейной зависимостью. Впоследствии Карл Пирсон, Джордж Удни Юл и Рональд Фишер разработали математико-статистический аппарат корреляционного и регрессионного анализа, включая методы проверки гипотез и дисперсионного анализа.

В XX веке регрессионный анализ был существенно расширен: появились методы для нелинейных, многомерных, робастных, гребневых (ridge) и лассо-регрессий, а также непараметрические и полупараметрические подходы. С развитием вычислительной техники и машинного обучения регрессия стала одним из основных инструментов прогнозирования и интерпретации данных.

Основные понятия и термины

Зависимая переменная (Y) — отклик, целевая переменная, которая подлежит прогнозированию или объяснению.
Независимая переменная (X) — предиктор, фактор, регрессор; переменная, используемая для предсказания отклика.
Регрессионная модель — математическое уравнение, описывающее связь между Y и X.
Коэффициенты регрессии — параметры модели, показывающие величину изменения Y при изменении X (в линейном случае).
Остатки (ошибки) — разность между фактическими значениями Y и предсказанными по модели.
Метод наименьших квадратов (МНК, OLS) — классический способ оценивания параметров модели, минимизирующий сумму квадратов остатков.
Линия (поверхность) регрессии — графическое представление модели.

Классификация регрессионных моделей

По числу независимых переменных

Простая регрессия — одна независимая переменная: Y = a + b·X + ε.
Множественная регрессия — две и более независимых переменных: Y = a + b₁X₁ + b₂X₂ + … + bₖXₖ + ε.

По характеру зависимости

Линейная регрессия — связь между переменными предполагается линейной по параметрам. Включает как прямую линейную (Y = a + bX), так и полиномиальную (Y = a + bX + cX²) — последняя является линейной по параметрам, но нелинейной по переменным.
Нелинейная регрессия — модель нелинейна по параметрам (например, экспоненциальная, логарифмическая, степенная, логистическая). Оценивается нелинейными методами (например, методом Ньютона — Гаусса).

По типу данных и условиям применения

Робастная регрессия — устойчива к выбросам и нарушениям предположений о распределении остатков (например, регрессия наименьших модулей).
Гребневая регрессия (Ridge) — добавляет к функции потерь L2-регуляризацию для уменьшения мультиколлинеарности.
Лассо-регрессия (Lasso) — использует L1-регуляризацию, способную обнулять незначимые коэффициенты, что полезно для отбора признаков.
Логистическая регрессия — модель для бинарных зависимых переменных, на самом деле является методом классификации, но исторически относится к регрессионным.
Полиномиальная регрессия — расширение линейной регрессии добавлением степенных членов (X², X³ и т.д.).
Непараметрическая регрессия — не задаёт жёсткой функциональной формы связи, оценивает её локально (например, ядерная регрессия, сплайны, метод ближайших соседей).

Уравнение линейной регрессии

Простая линейная регрессия

Модель простой линейной регрессии имеет вид:

Y = β₀ + β₁·X + ε

где:

Y — зависимая переменная,
X — независимая переменная,
β₀ — свободный член (intercept), значение Y при X = 0,
β₁ — коэффициент регрессии, показывающий, на сколько единиц изменится Y при увеличении X на одну единицу,
ε — случайная ошибка (остаток), объясняющая влияние прочих факторов.

Множественная линейная регрессия

Y = β₀ + β₁X₁ + β₂X₂ + … + βₖXₖ + ε

Коэффициенты βⱼ интерпретируются как частные эффекты при изменении соответствующего предиктора при фиксированных остальных.

Оценивание параметров

Наиболее распространённый метод оценивания — метод наименьших квадратов (МНК). Он минимизирует сумму квадратов остатков:

S = Σ (Yᵢ — Ŷᵢ)² → min

где Ŷᵢ — предсказанное по модели значение для i-го наблюдения.

Для МНК требуется выполнение ряда предположений:

Линейность модели по параметрам.
Отсутствие мультиколлинеарности (сильной корреляции между предикторами).
Гомоскедастичность — постоянство дисперсии остатков.
Некоррелированность остатков (отсутствие автокорреляции).
Нормальное распределение остатков (для проверки гипотез и построения доверительных интервалов).

Нарушение этих условий может приводить к смещению оценок, неэффективности или некорректности выводов.

Проверка качества и адекватности модели

Коэффициент детерминации R² — доля дисперсии Y, объяснённая моделью. Принимает значения от 0 до 1 (чем ближе к 1, тем лучше подгонка).
Скорректированный R² — модификация, штрафующая за добавление лишних предикторов.
F-тест — проверка общей значимости регрессионной модели (гипотеза H₀: все βⱼ = 0).
t-тест — проверка значимости отдельного коэффициента регрессии.
Анализ остатков — визуальная и статистическая проверка предположений: графики остатков (квантиль-квантиль, «остатки — предсказанные значения»), тесты на гетероскедастичность (Бройша — Пагана, Уайта) и автокорреляцию (Дарбина — Уотсона).
Информационные критерии Акаике (AIC) и Байеса (BIC) — используются для сравнения моделей.

Применение регрессионного анализа

Регрессионный анализ применяется в широком спектре задач:

Экономика и финансы: моделирование спроса, прогнозирование цен, оценка эластичностей, анализ факторов, влияющих на ВВП или инфляцию.
Социология и психология: изучение связи между социально-демографическими характеристиками и поведением, тестирование гипотез о причинности.
Медицина и эпидемиология — оценка влияния дозы лекарства на эффект (дозозависимый эффект) или факторов риска на заболеваемость. Используются как линейные, так и логистические регрессии (в случае бинарного исхода).
Инженерия и технические науки: калибровка измерительных приборов, описание экспериментальных данных, анализ параметров технологических процессов.
Экология и география: моделирование распространения видов, климатических зависимостей.
Машинное обучение: регрессия является базовым алгоритмом обучения с учителем как для численного прогнозирования, так и для анализа важности признаков.

Пример простой регрессии

Нередко в учебных целях анализируется зависимость успеваемости студентов от числа часов подготовки. Предполагается модель: экзаменационный балл = β₀ + β₁·(часы подготовки) + ε. МНК-оценки позволяют получить линию регрессии и сделать прогноз.

Ограничения и критика

Необходимость статистических предположений. На практике данные часто не удовлетворяют условиям МНК: наличие выбросов, гетероскедастичность, мультиколлинеарность, автокорреляция — всё это может сильно искажать результаты.
Риск переобучения. Особенно при множественной регрессии с большим числом предикторов модель может описывать случайные флуктуации, а не истинную зависимость.
Линейность — многие реальные процессы нелинейны, и попытка описать их линейной моделью ведёт к ошибкам.
Только корреляция, не каузация. Регрессия не доказывает причинно-следственных связей, даже если модель хорошо подходит.
Чувствительность к мультиколлинеарности, когда предикторы сильно коррелируют друг с другом — оценки становятся нестабильными.

Для преодоления этих ограничений разработаны робастные методы, регуляризация (Ridge, Lasso), нелинейные и непараметрические подходы.

Интересные факты

Множественная регрессия была впервые применена в астрономии для уточнения орбит планет. Её первое крупное социологическое применение связано с работой Юла по анализу бедности конца XIX века.
В пакетах статистического анализа (R, Python, SPSS, STATA, SAS) регрессия входит в число наиболее востребованных инструментов.
Метод «наименьших квадратов» до сих пор остаётся стандартом благодаря своей математической простоте и тому, что при нормальном распределении ошибок оценка совпадает с оценкой максимального правдоподобия.

Источники

Гайдамака Н. А. Регрессионный анализ. — М.: Издательство МГУ, 2012.
Дрейпер Н., Смит Г. Прикладной регрессионный анализ. — М.: Финансы и статистика, 2007. — 3-е издание.
Seber G. A. F., Lee A. J. Linear Regression Analysis. — 2nd ed. — John Wiley & Sons, 2003.
Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — 2nd ed. — Springer, 2009.
Фёрстер Э., Рёнц Б. Методы корреляционного и регрессионного анализа. — М.: Финансы и статистика, 1983.

BFOmetr — база данных и аналитика по компаниям России.

На главную BFOmetr →