Открыть сервис

Логистическая регрессия

Логистическая регрессия — это статистическая модель, используемая для прогнозирования вероятности наступления некоторого события на основе значений одного или нескольких независимых признаков. В отличие от линейной регрессии, которая предсказывает непрерывную числовую величину, логистическая регрессия применяется для задач бинарной классификации, то есть для отнесения объекта к одному из двух классов (например, «да»/«нет», «спам»/«не спам», «болен»/«здоров»). Несмотря на название, она относится к методам классификации, а не регрессии, хотя математически и использует регрессионный подход для оценки вероятности. Основная идея метода заключается в применении логистической (сигмоидальной) функции для преобразования линейной комбинации входных признаков в значение вероятности от 0 до 1.

История

Предпосылки и ранние работы

Математические основы логистической регрессии были заложены в XIX веке. В 1838 году бельгийский математик Пьер-Франсуа Ферхюльст (Pierre-François Verhulst) предложил логистическую кривую для описания роста популяции, ограниченного ресурсами. Эта S-образная кривая впоследствии стала центральным элементом модели. Однако длительное время она не находила применения в задачах классификации.

В 1920-х годах американский статистик Раймонд Пирл (Raymond Pearl) активно популяризировал использование логистической кривой в биологии. Тем не менее, ключевой шаг к созданию современной модели был сделан лишь в 1958 году, когда американский статистик Дэвид Кокс (David Cox) в статье «The regression analysis of binary sequences» («Регрессионный анализ бинарных последовательностей») формализовал логистическую регрессию как метод анализа бинарных данных. Его работа объединила идеи регрессионного анализа и логистической функции.

Развитие и применение

В 1960-е и 1970-е годы логистическая регрессия активно развивалась в эпидемиологии. В 1971 году американский биометр Норман Бреслоу (Norman Breslow) применил её для анализа факторов риска заболеваний. Этот период считается точкой отсчёта широкого использования метода в медицинских исследованиях. С ростом вычислительных мощностей в 1980-х годах модель стала внедряться в экономику, социологию и инженерные задачи. В 1990-х годах логистическая регрессия стала одним из стандартных инструментов в области машинного обучения, особенно для задач фильтрации спама и кредитного скоринга.

Математическая основа

Модель логистической регрессии описывает вероятность события \( p \) как функцию от набора входных признаков \( X = (x_1, x_2, ..., x_n) \). Базовая формула имеет вид:

\[ p = \frac{1}{1 + e^{-z}}, \quad \text{где } z = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_n x_n \]

Здесь:

Функция \( \frac{1}{1 + e^{-z}} \) называется сигмоидой или логистической функцией. Она преобразует любое вещественное число \( z \) (от \(-\infty\) до \(+\infty\)) в значение вероятности от 0 до 1. Чем больше \( z \), тем ближе \( p \) к 1, и наоборот.

Оценка коэффициентов

Коэффициенты модели обычно оцениваются с помощью метода максимального правдоподобия (ММП). В отличие от линейной регрессии, где используется метод наименьших квадратов, ММП ищет такие значения коэффициентов, при которых вероятность наблюдения имеющихся данных (то есть правильного отнесения каждого объекта к своему классу) была бы максимальной. На практике для этого применяют численные оптимизационные алгоритмы, такие как градиентный спуск или метод Ньютона-Рафсона.

Интерпретация коэффициентов

Коэффициенты \( \beta_i \) в логистической регрессии интерпретируются через отношение шансов (odds ratio). Шанс — это отношение вероятности события к вероятности его отсутствия: \( \frac{p}{1-p} \). Если признак \( x_i \) увеличивается на единицу, то шансы изменяются в \( e^{\beta_i} \) раз. При \( \beta_i > 0 \) увеличение признака повышает шансы наступления события, при \( \beta_i < 0 \) — понижает.

Применение

Логистическая регрессия используется в самых разных областях благодаря своей интерпретируемости и вычислительной простоте.

Медицина и эпидемиология

Финансы и бизнес

Технологии и машинное обучение

Социология и психология

Преимущества и недостатки

Преимущества

Недостатки

Разновидности

Мультиномиальная логистическая регрессия

Используется, когда целевая переменная имеет более двух категорий (например, три сорта цветов ириса или три уровня доходов: «низкий», «средний», «высокий»). В этом случае строится несколько моделей «один против всех» или используется обобщённая модель с базовым классом.

Порядковая логистическая регрессия

Применяется для порядковых (ординальных) целевых переменных, где категории имеют естественный порядок (например, рейтинг фильма от 1 до 5). Модель учитывает, что классы упорядочены, но расстояния между ними не обязательно равны.

Регуляризованная логистическая регрессия

Для предотвращения переобучения и повышения устойчивости модели на слабоструктурированных данных используются регуляризационные методы:

Оценка качества модели

Для проверки адекватности логистической регрессии используются метрики, специфичные для задач бинарной классификации:

Интересные факты

Источники

BFOmetr — база данных и аналитика по компаниям России.

На главную BFOmetr →