Регрессионный анализ
Регрессионный анализ — это раздел математической статистики и машинного обучения, совокупность статистических методов, предназначенных для моделирования взаимосвязи между зависимой переменной (откликом) и одной или несколькими независимыми переменными (предикторами, регрессорами). Основная цель регрессионного анализа — описание формы этой связи, оценка её силы и достоверности, а также прогнозирование значений зависимой переменной на основе известных значений предикторов. Метод широко применяется в естественных и социальных науках, экономике, инженерии, биостатистике и других областях, где требуется количественное описание причинно-следственных или корреляционных зависимостей.
История
Истоки регрессионного анализа восходят к работам Адриена Мари Лежандра (1805 год) и Карла Фридриха Гаусса (1809 год), которые независимо друг от друга разработали метод наименьших квадратов (МНК) для обработки астрономических и геодезических наблюдений. Гаусс впервые предложил теоретическое обоснование МНК на основе нормального распределения ошибок.
Термин «регрессия» ввёл Фрэнсис Гальтон в 1886 году при изучении наследственного роста. Он обнаружил феномен «регрессии к среднему»: дети очень высоких родителей в среднем ниже их, а дети очень низких — выше. Гальтон описал эту тенденцию линейной зависимостью. Впоследствии Карл Пирсон, Джордж Удни Юл и Рональд Фишер разработали математико-статистический аппарат корреляционного и регрессионного анализа, включая методы проверки гипотез и дисперсионного анализа.
В XX веке регрессионный анализ был существенно расширен: появились методы для нелинейных, многомерных, робастных, гребневых (ridge) и лассо-регрессий, а также непараметрические и полупараметрические подходы. С развитием вычислительной техники и машинного обучения регрессия стала одним из основных инструментов прогнозирования и интерпретации данных.
Основные понятия и термины
- Зависимая переменная (Y) — отклик, целевая переменная, которая подлежит прогнозированию или объяснению.
- Независимая переменная (X) — предиктор, фактор, регрессор; переменная, используемая для предсказания отклика.
- Регрессионная модель — математическое уравнение, описывающее связь между Y и X.
- Коэффициенты регрессии — параметры модели, показывающие величину изменения Y при изменении X (в линейном случае).
- Остатки (ошибки) — разность между фактическими значениями Y и предсказанными по модели.
- Метод наименьших квадратов (МНК, OLS) — классический способ оценивания параметров модели, минимизирующий сумму квадратов остатков.
- Линия (поверхность) регрессии — графическое представление модели.
Классификация регрессионных моделей
По числу независимых переменных
- Простая регрессия — одна независимая переменная: Y = a + b·X + ε.
- Множественная регрессия — две и более независимых переменных: Y = a + b₁X₁ + b₂X₂ + … + bₖXₖ + ε.
По характеру зависимости
- Линейная регрессия — связь между переменными предполагается линейной по параметрам. Включает как прямую линейную (Y = a + bX), так и полиномиальную (Y = a + bX + cX²) — последняя является линейной по параметрам, но нелинейной по переменным.
- Нелинейная регрессия — модель нелинейна по параметрам (например, экспоненциальная, логарифмическая, степенная, логистическая). Оценивается нелинейными методами (например, методом Ньютона — Гаусса).
По типу данных и условиям применения
- Робастная регрессия — устойчива к выбросам и нарушениям предположений о распределении остатков (например, регрессия наименьших модулей).
- Гребневая регрессия (Ridge) — добавляет к функции потерь L2-регуляризацию для уменьшения мультиколлинеарности.
- Лассо-регрессия (Lasso) — использует L1-регуляризацию, способную обнулять незначимые коэффициенты, что полезно для отбора признаков.
- Логистическая регрессия — модель для бинарных зависимых переменных, на самом деле является методом классификации, но исторически относится к регрессионным.
- Полиномиальная регрессия — расширение линейной регрессии добавлением степенных членов (X², X³ и т.д.).
- Непараметрическая регрессия — не задаёт жёсткой функциональной формы связи, оценивает её локально (например, ядерная регрессия, сплайны, метод ближайших соседей).
Уравнение линейной регрессии
Простая линейная регрессия
Модель простой линейной регрессии имеет вид:
Y = β₀ + β₁·X + ε
где:
- Y — зависимая переменная,
- X — независимая переменная,
- β₀ — свободный член (intercept), значение Y при X = 0,
- β₁ — коэффициент регрессии, показывающий, на сколько единиц изменится Y при увеличении X на одну единицу,
- ε — случайная ошибка (остаток), объясняющая влияние прочих факторов.
Множественная линейная регрессия
Y = β₀ + β₁X₁ + β₂X₂ + … + βₖXₖ + ε
Коэффициенты βⱼ интерпретируются как частные эффекты при изменении соответствующего предиктора при фиксированных остальных.
Оценивание параметров
Наиболее распространённый метод оценивания — метод наименьших квадратов (МНК). Он минимизирует сумму квадратов остатков:
S = Σ (Yᵢ — Ŷᵢ)² → min
где Ŷᵢ — предсказанное по модели значение для i-го наблюдения.
Для МНК требуется выполнение ряда предположений:
- Линейность модели по параметрам.
- Отсутствие мультиколлинеарности (сильной корреляции между предикторами).
- Гомоскедастичность — постоянство дисперсии остатков.
- Некоррелированность остатков (отсутствие автокорреляции).
- Нормальное распределение остатков (для проверки гипотез и построения доверительных интервалов).
Нарушение этих условий может приводить к смещению оценок, неэффективности или некорректности выводов.
Проверка качества и адекватности модели
- Коэффициент детерминации R² — доля дисперсии Y, объяснённая моделью. Принимает значения от 0 до 1 (чем ближе к 1, тем лучше подгонка).
- Скорректированный R² — модификация, штрафующая за добавление лишних предикторов.
- F-тест — проверка общей значимости регрессионной модели (гипотеза H₀: все βⱼ = 0).
- t-тест — проверка значимости отдельного коэффициента регрессии.
- Анализ остатков — визуальная и статистическая проверка предположений: графики остатков (квантиль-квантиль, «остатки — предсказанные значения»), тесты на гетероскедастичность (Бройша — Пагана, Уайта) и автокорреляцию (Дарбина — Уотсона).
- Информационные критерии Акаике (AIC) и Байеса (BIC) — используются для сравнения моделей.
Применение регрессионного анализа
Регрессионный анализ применяется в широком спектре задач:
- Экономика и финансы: моделирование спроса, прогнозирование цен, оценка эластичностей, анализ факторов, влияющих на ВВП или инфляцию.
- Социология и психология: изучение связи между социально-демографическими характеристиками и поведением, тестирование гипотез о причинности.
- Медицина и эпидемиология — оценка влияния дозы лекарства на эффект (дозозависимый эффект) или факторов риска на заболеваемость. Используются как линейные, так и логистические регрессии (в случае бинарного исхода).
- Инженерия и технические науки: калибровка измерительных приборов, описание экспериментальных данных, анализ параметров технологических процессов.
- Экология и география: моделирование распространения видов, климатических зависимостей.
- Машинное обучение: регрессия является базовым алгоритмом обучения с учителем как для численного прогнозирования, так и для анализа важности признаков.
Пример простой регрессии
Нередко в учебных целях анализируется зависимость успеваемости студентов от числа часов подготовки. Предполагается модель: экзаменационный балл = β₀ + β₁·(часы подготовки) + ε. МНК-оценки позволяют получить линию регрессии и сделать прогноз.
Ограничения и критика
- Необходимость статистических предположений. На практике данные часто не удовлетворяют условиям МНК: наличие выбросов, гетероскедастичность, мультиколлинеарность, автокорреляция — всё это может сильно искажать результаты.
- Риск переобучения. Особенно при множественной регрессии с большим числом предикторов модель может описывать случайные флуктуации, а не истинную зависимость.
- Линейность — многие реальные процессы нелинейны, и попытка описать их линейной моделью ведёт к ошибкам.
- Только корреляция, не каузация. Регрессия не доказывает причинно-следственных связей, даже если модель хорошо подходит.
- Чувствительность к мультиколлинеарности, когда предикторы сильно коррелируют друг с другом — оценки становятся нестабильными.
Для преодоления этих ограничений разработаны робастные методы, регуляризация (Ridge, Lasso), нелинейные и непараметрические подходы.
Интересные факты
- Множественная регрессия была впервые применена в астрономии для уточнения орбит планет. Её первое крупное социологическое применение связано с работой Юла по анализу бедности конца XIX века.
- В пакетах статистического анализа (R, Python, SPSS, STATA, SAS) регрессия входит в число наиболее востребованных инструментов.
- Метод «наименьших квадратов» до сих пор остаётся стандартом благодаря своей математической простоте и тому, что при нормальном распределении ошибок оценка совпадает с оценкой максимального правдоподобия.
Источники
- Гайдамака Н. А. Регрессионный анализ. — М.: Издательство МГУ, 2012.
- Дрейпер Н., Смит Г. Прикладной регрессионный анализ. — М.: Финансы и статистика, 2007. — 3-е издание.
- Seber G. A. F., Lee A. J. Linear Regression Analysis. — 2nd ed. — John Wiley & Sons, 2003.
- Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — 2nd ed. — Springer, 2009.
- Фёрстер Э., Рёнц Б. Методы корреляционного и регрессионного анализа. — М.: Финансы и статистика, 1983.
BFOmetr — база данных и аналитика по компаниям России.
На главную BFOmetr →