Логистическая регрессия

Логистическая регрессия — это статистическая модель, используемая для прогнозирования вероятности наступления некоторого события на основе значений одного или нескольких независимых признаков. В отличие от линейной регрессии, которая предсказывает непрерывную числовую величину, логистическая регрессия применяется для задач бинарной классификации, то есть для отнесения объекта к одному из двух классов (например, «да»/«нет», «спам»/«не спам», «болен»/«здоров»). Несмотря на название, она относится к методам классификации, а не регрессии, хотя математически и использует регрессионный подход для оценки вероятности. Основная идея метода заключается в применении логистической (сигмоидальной) функции для преобразования линейной комбинации входных признаков в значение вероятности от 0 до 1.

История

Предпосылки и ранние работы

Математические основы логистической регрессии были заложены в XIX веке. В 1838 году бельгийский математик Пьер-Франсуа Ферхюльст (Pierre-François Verhulst) предложил логистическую кривую для описания роста популяции, ограниченного ресурсами. Эта S-образная кривая впоследствии стала центральным элементом модели. Однако длительное время она не находила применения в задачах классификации.

В 1920-х годах американский статистик Раймонд Пирл (Raymond Pearl) активно популяризировал использование логистической кривой в биологии. Тем не менее, ключевой шаг к созданию современной модели был сделан лишь в 1958 году, когда американский статистик Дэвид Кокс (David Cox) в статье «The regression analysis of binary sequences» («Регрессионный анализ бинарных последовательностей») формализовал логистическую регрессию как метод анализа бинарных данных. Его работа объединила идеи регрессионного анализа и логистической функции.

Развитие и применение

В 1960-е и 1970-е годы логистическая регрессия активно развивалась в эпидемиологии. В 1971 году американский биометр Норман Бреслоу (Norman Breslow) применил её для анализа факторов риска заболеваний. Этот период считается точкой отсчёта широкого использования метода в медицинских исследованиях. С ростом вычислительных мощностей в 1980-х годах модель стала внедряться в экономику, социологию и инженерные задачи. В 1990-х годах логистическая регрессия стала одним из стандартных инструментов в области машинного обучения, особенно для задач фильтрации спама и кредитного скоринга.

Математическая основа

Модель логистической регрессии описывает вероятность события \( p \) как функцию от набора входных признаков \( X = (x_1, x_2, ..., x_n) \). Базовая формула имеет вид:

\[ p = \frac{1}{1 + e^{-z}}, \quad \text{где } z = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_n x_n \]

Здесь:

\( e \) — основание натурального логарифма (число Эйлера).
\( \beta_0, \beta_1, ..., \beta_n \) — коэффициенты модели (веса), которые оцениваются по обучающим данным.
\( z \) — линейная комбинация признаков, часто называемая логитом.

Функция \( \frac{1}{1 + e^{-z}} \) называется сигмоидой или логистической функцией. Она преобразует любое вещественное число \( z \) (от \(-\infty\) до \(+\infty\)) в значение вероятности от 0 до 1. Чем больше \( z \), тем ближе \( p \) к 1, и наоборот.

Оценка коэффициентов

Коэффициенты модели обычно оцениваются с помощью метода максимального правдоподобия (ММП). В отличие от линейной регрессии, где используется метод наименьших квадратов, ММП ищет такие значения коэффициентов, при которых вероятность наблюдения имеющихся данных (то есть правильного отнесения каждого объекта к своему классу) была бы максимальной. На практике для этого применяют численные оптимизационные алгоритмы, такие как градиентный спуск или метод Ньютона-Рафсона.

Интерпретация коэффициентов

Коэффициенты \( \beta_i \) в логистической регрессии интерпретируются через отношение шансов (odds ratio). Шанс — это отношение вероятности события к вероятности его отсутствия: \( \frac{p}{1-p} \). Если признак \( x_i \) увеличивается на единицу, то шансы изменяются в \( e^{\beta_i} \) раз. При \( \beta_i > 0 \) увеличение признака повышает шансы наступления события, при \( \beta_i < 0 \) — понижает.

Применение

Логистическая регрессия используется в самых разных областях благодаря своей интерпретируемости и вычислительной простоте.

Медицина и эпидемиология

Диагностика заболеваний: оценка вероятности наличия болезни (например, диабета или инфаркта) на основе симптомов и результатов анализов (возраст, давление, уровень сахара).
Изучение факторов риска: определение того, какие факторы (курение, ожирение) значимо влияют на развитие заболевания.
Прогноз выживаемости: бинарная классификация пациентов на «выживет» / «не выживет» в течение определённого периода.

Финансы и бизнес

Кредитный скоринг: оценка вероятности дефолта заёмщика по кредиту.
Маркетинг: прогнозирование того, совершит ли клиент покупку, подпишется ли на рассылку или отреагирует на рекламное предложение.
Оценка рисков: страхование (вероятность наступления страхового случая) и антифрод (вероятность того, что транзакция мошенническая).

Технологии и машинное обучение

Фильтрация спама: классификация электронных писем на «спам» и «не спам» по набору текстовых признаков (наличие определённых слов, длина письма).
Распознавание образов: базовые задачи бинарной классификации изображений (например, «есть лицо» / «нет лица»).
Системы рекомендаций: прогнозирование кликабельности (CTR) рекламных объявлений.

Социология и психология

Анализ опросов: прогнозирование ответов респондентов (например, «за» / «против» некоторого решения) на основе демографических данных.
Политическая наука: оценка вероятности участия в выборах или поддержки кандидата.

Преимущества и недостатки

Преимущества

Интерпретируемость: коэффициенты модели легко объяснить, оценить вклад каждого признака и рассчитать отношение шансов.
Простота и скорость: модель обучается быстро, даже на больших датасетах, и требует меньше вычислительных ресурсов, чем более сложные алгоритмы (нейронные сети, ансамбли).
Вероятностный вывод: результатом является не просто метка класса, а оценка вероятности, что позволяет ранжировать объекты по степени уверенности.
Устойчивость к выбросам: логистическая функция нечувствительна к экстремальным значениям признаков, так как преобразует их в вероятности.

Недостатки

Линейность границы: модель предполагает, что граница между классами линейна в пространстве логитов. На сложных, нелинейно разделимых данных её точность может быть низкой.
Требования к данным: чувствительна к мультиколлинеарности (сильной корреляции между признаками) и отсутствию важных переменных (неучтённые факторы могут искажать оценки).
Бинарная природа: в стандартной форме предназначена только для двух классов. Для многоклассовой классификации требуется расширение (мультиномиальная логистическая регрессия или «один против всех»).
Необходимость большого количества данных: при малом числе наблюдений на признак (правило 10–20 событий на каждый признак) оценки могут быть неустойчивыми.

Разновидности

Мультиномиальная логистическая регрессия

Используется, когда целевая переменная имеет более двух категорий (например, три сорта цветов ириса или три уровня доходов: «низкий», «средний», «высокий»). В этом случае строится несколько моделей «один против всех» или используется обобщённая модель с базовым классом.

Порядковая логистическая регрессия

Применяется для порядковых (ординальных) целевых переменных, где категории имеют естественный порядок (например, рейтинг фильма от 1 до 5). Модель учитывает, что классы упорядочены, но расстояния между ними не обязательно равны.

Регуляризованная логистическая регрессия

Для предотвращения переобучения и повышения устойчивости модели на слабоструктурированных данных используются регуляризационные методы:

L1-регуляризация (Лассо): добавляет к функции потерь штраф за абсолютное значение весов, что приводит к обнулению некоторых признаков и автоматическому отбору.
L2-регуляризация (Ридж): штрафует квадраты весов, уменьшая их значения без обнуления.
Эластичная сеть (Elastic Net): комбинация L1 и L2.

Оценка качества модели

Для проверки адекватности логистической регрессии используются метрики, специфичные для задач бинарной классификации:

Матрица ошибок (confusion matrix): истинно положительные (TP), ложноположительные (FP), истинно отрицательные (TN), ложноотрицательные (FN).
Точность (Accuracy): доля правильных предсказаний \( (TP + TN)/(TP+TN+FP+FN) \).
Точность (Precision): доля верно предсказанных положительных среди всех, кого модель назвала положительными \( TP/(TP+FP) \).
Полнота (Recall): доля верно предсказанных положительных среди всех реальных положительных объектов \( TP/(TP+FN) \).
F1-мера: гармоническое среднее точности и полноты.
ROC-кривая и AUC: кривая зависимости доли верно положительных (True Positive Rate) от доли ложноположительных (False Positive Rate). AUC — площадь под этой кривой, чем ближе к 1, тем лучше модель.
Логарифмическая функция потерь (Log-loss): метрика, используемая при обучении, которая штрафует за неуверенные или неверные вероятностные прогнозы.

Интересные факты

Название «логистическая регрессия» происходит от слова «логит» — обратной функции к сигмоиде, которая используется в модели для линеаризации.
Сигмоидальная функция, лежащая в основе модели, имеет важное нейробиологическое обоснование: она аппроксимирует поведение нейрона, который «возбуждается» при превышении порога потенциала на мембране.
Первое крупное применение модели в медицине пришлось на 1970-е годы при анализе Фремингемского исследования сердца — одного из самых известных продольных когортных исследований в истории эпидемиологии.
В машинном обучении логистическая регрессия часто используется как базовый алгоритм (baseline) для оценки сложности задачи: если она показывает приемлемое качество, более сложные модели считаются избыточными.

Источники

Cox, D. R. (1958). The regression analysis of binary sequences. Journal of the Royal Statistical Society: Series B (Methodological), 20(2), 215–232.
Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied Logistic Regression (3rd ed.). Wiley.
Breslow, N. E., & Day, N. E. (1980). Statistical Methods in Cancer Research: The Analysis of Case-Control Studies. IARC Scientific Publications, No. 32.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning: with Applications in R. Springer.
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.

BFOmetr — база данных и аналитика по компаниям России.

На главную BFOmetr →