Открыть сервис

Регрессионный анализ

Регрессионный анализ — это раздел математической статистики и машинного обучения, совокупность статистических методов, предназначенных для моделирования взаимосвязи между зависимой переменной (откликом) и одной или несколькими независимыми переменными (предикторами, регрессорами). Основная цель регрессионного анализа — описание формы этой связи, оценка её силы и достоверности, а также прогнозирование значений зависимой переменной на основе известных значений предикторов. Метод широко применяется в естественных и социальных науках, экономике, инженерии, биостатистике и других областях, где требуется количественное описание причинно-следственных или корреляционных зависимостей.

История

Истоки регрессионного анализа восходят к работам Адриена Мари Лежандра (1805 год) и Карла Фридриха Гаусса (1809 год), которые независимо друг от друга разработали метод наименьших квадратов (МНК) для обработки астрономических и геодезических наблюдений. Гаусс впервые предложил теоретическое обоснование МНК на основе нормального распределения ошибок.

Термин «регрессия» ввёл Фрэнсис Гальтон в 1886 году при изучении наследственного роста. Он обнаружил феномен «регрессии к среднему»: дети очень высоких родителей в среднем ниже их, а дети очень низких — выше. Гальтон описал эту тенденцию линейной зависимостью. Впоследствии Карл Пирсон, Джордж Удни Юл и Рональд Фишер разработали математико-статистический аппарат корреляционного и регрессионного анализа, включая методы проверки гипотез и дисперсионного анализа.

В XX веке регрессионный анализ был существенно расширен: появились методы для нелинейных, многомерных, робастных, гребневых (ridge) и лассо-регрессий, а также непараметрические и полупараметрические подходы. С развитием вычислительной техники и машинного обучения регрессия стала одним из основных инструментов прогнозирования и интерпретации данных.

Основные понятия и термины

Классификация регрессионных моделей

По числу независимых переменных

По характеру зависимости

По типу данных и условиям применения

Уравнение линейной регрессии

Простая линейная регрессия

Модель простой линейной регрессии имеет вид:

Y = β₀ + β₁·X + ε

где:

Множественная линейная регрессия

Y = β₀ + β₁X₁ + β₂X₂ + … + βₖXₖ + ε

Коэффициенты βⱼ интерпретируются как частные эффекты при изменении соответствующего предиктора при фиксированных остальных.

Оценивание параметров

Наиболее распространённый метод оценивания — метод наименьших квадратов (МНК). Он минимизирует сумму квадратов остатков:

S = Σ (Yᵢ — Ŷᵢ)² → min

где Ŷᵢ — предсказанное по модели значение для i-го наблюдения.

Для МНК требуется выполнение ряда предположений:

  1. Линейность модели по параметрам.
  2. Отсутствие мультиколлинеарности (сильной корреляции между предикторами).
  3. Гомоскедастичность — постоянство дисперсии остатков.
  4. Некоррелированность остатков (отсутствие автокорреляции).
  5. Нормальное распределение остатков (для проверки гипотез и построения доверительных интервалов).

Нарушение этих условий может приводить к смещению оценок, неэффективности или некорректности выводов.

Проверка качества и адекватности модели

Применение регрессионного анализа

Регрессионный анализ применяется в широком спектре задач:

Пример простой регрессии

Нередко в учебных целях анализируется зависимость успеваемости студентов от числа часов подготовки. Предполагается модель: экзаменационный балл = β₀ + β₁·(часы подготовки) + ε. МНК-оценки позволяют получить линию регрессии и сделать прогноз.

Ограничения и критика

Для преодоления этих ограничений разработаны робастные методы, регуляризация (Ridge, Lasso), нелинейные и непараметрические подходы.

Интересные факты

Источники

BFOmetr — база данных и аналитика по компаниям России.

На главную BFOmetr →