Открыть сервис

Коэффициент детерминации

Коэффициент детерминации (обозначается \( R^2 \)) — это статистический показатель, используемый в регрессионном анализе для оценки качества подгонки модели. Он представляет собой долю дисперсии зависимой переменной, объясняемую независимыми переменными, включёнными в модель. Значение \( R^2 \) находится в диапазоне от 0 до 1 (или от 0 % до 100 %), где более высокие значения указывают на лучшее соответствие модели данным. Коэффициент детерминации является одним из наиболее распространённых критериев в эконометрике, социологии, психологии и других областях, где применяется регрессионный анализ.

Определение и математическая формула

Коэффициент детерминации определяется как отношение объяснённой суммы квадратов (ESS) к общей сумме квадратов (TSS):

\[ R^2 = \frac{ESS}{TSS} = 1 - \frac{RSS}{TSS} \]

где:

Таким образом, \( R^2 \) показывает, насколько хорошо регрессионная модель объясняет вариацию зависимой переменной. Например, значение \( R^2 = 0,85 \) означает, что 85 % дисперсии \( y \) обусловлено изменениями независимых переменных, а оставшиеся 15 % приходятся на случайные факторы или неучтённые переменные.

Свойства и интерпретация

Коэффициент детерминации обладает рядом ключевых свойств:

Интерпретация \( R^2 \) зависит от контекста. В социальных науках значения 0,3–0,5 часто считаются приемлемыми, тогда как в физике или инженерии ожидаются значения выше 0,9. Низкий \( R^2 \) не обязательно свидетельствует о некачественной модели — он может быть следствием высокой случайной вариации в данных или нелинейности связей.

Скорректированный коэффициент детерминации

Для устранения недостатка обычного \( R^2 \), связанного с его ростом при добавлении переменных, используется скорректированный коэффициент детерминации (adjusted \( R^2 \)). Он вводит штраф за количество предикторов:

\[ R^2_{\text{adj}} = 1 - \frac{RSS/(n-k-1)}{TSS/(n-1)} = 1 - (1-R^2) \cdot \frac{n-1}{n-k-1} \]

где \( n \) — число наблюдений, \( k \) — количество независимых переменных в модели. Скорректированный \( R^2 \) может уменьшаться при добавлении незначимых переменных, что делает его более объективным критерием при выборе модели. В отличие от обычного \( R^2 \), он может принимать значения меньше 0, если модель очень плохо описывает данные.

Разновидности и обобщения

В зависимости от типа регрессионного анализа применяются различные модификации коэффициента детерминации:

Ограничения и критика

Несмотря на широкое распространение, коэффициент детерминации имеет существенные ограничения:

В современной статистической практике \( R^2 \) часто дополняется другими критериями: информационными критериями Акаике (AIC) и Байеса (BIC), скорректированным \( R^2 \), а также кросс-валидацией. В машинном обучении для оценки качества регрессии чаще используют среднюю абсолютную ошибку (MAE) или среднеквадратичную ошибку (RMSE).

Примеры применения

В экономике коэффициент детерминации используется для оценки моделей спроса, производства или финансовых временных рядов. Например, модель зависимости потребления от дохода может иметь \( R^2 = 0,92 \), что свидетельствует о сильной линейной связи. В медицине \( R^2 \) применяется при анализе влияния дозировки лекарства на биомаркеры — значение 0,45 может указывать на умеренную предсказательную способность. В социологических опросах \( R^2 \) редко превышает 0,3 из-за высокой вариативности человеческого поведения.

История

Концепция объяснённой дисперсии восходит к работам Карла Пирсона и Фрэнсиса Гальтона в конце XIX века, связанным с корреляционным анализом. Термин «коэффициент детерминации» ввёл в 1920-х годах американский статистик Рональд Фишер, который разработал дисперсионный анализ (ANOVA). Фишер показал, что \( R^2 \) можно интерпретировать как квадрат коэффициента множественной корреляции между зависимой переменной и предсказанными значениями. Впоследствии показатель был обобщён для нелинейных моделей и получил широкое распространение в прикладной статистике.

Источники

BFOmetr — база данных и аналитика по компаниям России.

На главную BFOmetr →