Межквартильный размах
Межквартильный размах — это мера статистического рассеивания (разброса) данных, равная разности между третьим (верхним) и первым (нижним) квартилями распределения. В отличие от размаха (диапазона значений), межквартильный размах характеризует разброс центральных 50 % наблюдений и устойчив к выбросам. Обозначается как IQR (от англ. interquartile range), а также как Q₃ – Q₁ или Q0,75 – Q0,25.
Определение и математическая запись
Пусть упорядоченная выборка состоит из значений \(x_{1} \le x_{2} \le \dots \le x_{n}\). Первый квартиль (Q₁) — это медиана левой половины данных, третий квартиль (Q₃) — медиана правой половины. В общем виде:
\[ \mathrm{IQR} = Q_{3} - Q_{1}. \]
Границы квартилей могут вычисляться разными методами (например, метод Тьюки, метод включения медианы, метод эксклюзии медианы); стандартными в российской статистике считаются определения, используемые в Microsoft Excel и большинстве пакетов (функция QUARTILE с параметром 1 и 3). В случае чётного числа наблюдений медиана и квартили часто определяются как среднее арифметическое двух центральных элементов.
История и контекст
Понятие межквартильного размаха ввёл английский математик и статистик Фрэнсис Гальтон в конце XIX века при разработке описательных статистик для антропометрических данных. Позднее, в середине XX века, американский статистик Джон Тьюки популяризовал IQR как ключевой элемент «ящика с усами» (box plot). В отличие от среднего квадратического отклонения, IQR не требует предположения о нормальности распределения и применим к порядковым и количественным данным, включая асимметричные распределения.
Свойства и интерпретация
Устойчивость к выбросам
Межквартильный размах нечувствителен к экстремальным значениям (выбросам), так как затрагивает только центральную половину выборки. Если, например, в ряду измерений одно значение аномально велико, Q₁ и Q₃ не изменятся, и IQR останется тем же. Это важное преимущество перед стандартным отклонением и размахом.
Оценка разброса
Чем больше IQR, тем сильнее разбросаны значения вокруг медианы. Для нормального распределения IQR примерно равен 1,35σ (где σ — среднее квадратическое отклонение). Сравнение IQR для разных групп позволяет выявить различия в вариабельности.
Асимметрия
Если распределение симметрично, то расстояния от Q₁ до медианы и от медианы до Q₃ равны. В асимметричных распределениях эти расстояния различны, что видно на ящичной диаграмме (чем больше разница, тем сильнее асимметрия).
Применение в статистике и анализе данных
Выявление выбросов
Классический метод Тьюки: значения, расположенные за пределами интервала \([Q_{1} - 1,5 \cdot \mathrm{IQR},\; Q_{3} + 1,5 \cdot \mathrm{IQR}]\), считаются потенциальными выбросами (лёгкие выбросы). Выход за пределы интервала \([Q_{1} - 3 \cdot \mathrm{IQR},\; Q_{3} + 3 \cdot \mathrm{IQR}]\) указывает на сильные выбросы. Этот подход применяется в описательной статистике, при анализе пропусков в данных и при подготовке данных к машинному обучению.
Ящичная диаграмма (box plot)
На ящичной диаграмме IQR изображается в виде прямоугольника (ящика), высота которого равна IQR. Внутри ящика отмечается медиана (линия), а из верхнего и нижнего краёв протягиваются «усы» до ближайших значений, не являющихся выбросами. Выбросы отображаются отдельными точками. Ящичная диаграмма позволяет визуально сравнивать распределения нескольких групп.
Показатель масштаба
В робастной статистике IQR используется как состоятельная оценка масштаба (разброса) распределения. Вместе с медианой он образует устойчивую пару описательных статистик, альтернативную паре «среднее арифметическое ± стандартное отклонение».
Пример расчёта
Рассмотрим выборку: 2, 4, 6, 8, 10, 12, 14, 16, 18, 20.
- Упорядочиваем (уже упорядочено).
- Количество элементов n = 10 (чётное).
Медиана = (10 + 12) / 2 = 11. Нижняя половина: 2, 4, 6, 8, 10. Медиана нижней половины — Q₁ = 6. Верхняя половина: 12, 14, 16, 18, 20. Медиана верхней половины — Q₃ = 16.
- IQR = 16 – 6 = 10.
Таким образом, центральные 50 % значений лежат в диапазоне от 6 до 16.
Связь с другими мерами разброса
- Размах (max – min) равен 18; он сильно зависит от крайних значений.
- Среднее квадратическое отклонение (σ) для этого ряда ≈ 6,06; IQR (10) примерно в 1,65 раза больше σ, что характерно для равномерного распределения, а не для нормального.
- Медианное абсолютное отклонение (MAD) — ещё одна робастная мера, устойчивая к выбросам, но основанная на абсолютных отклонениях от медианы. IQR проще в расчёте и интерпретации.
Ограничения
- IQR не учитывает форму распределения за пределами центральных 50 % (область хвостов).
- При очень малых выборках (n < 5–10) оценка квартилей может быть неточной.
- Для бимодальных или мультимодальных распределений IQR может давать вводящую в заблуждение информацию о разбросе (например, если два пика находятся далеко друг от друга, центральная половина может оказаться «пустой»).
- Разные методы вычисления квартилей (9 основных алгоритмов, описанных в Hyndman & Fan, 1996) приводят к различным значениям IQR, особенно при малом объёме данных.
Применение в различных областях
- Финансовая аналитика — оценка волатильности доходностей активов, выявление аномальных торговых сессий.
- Медицина — анализ биомаркеров, где выбросы могут указывать на патологические состояния (например, концентрация глюкозы в крови).
- Управление качеством — контрольные карты, где IQR используется вместо стандартного отклонения для построения границ регулирования при несимметричных распределениях.
- Метаанализ — робастная оценка дисперсии эффектов в исследованиях, где исходные распределения далеки от нормальных.
- Социология и педагогика — анализ результатов тестирования; IQR показывает, насколько однородны знания группы.
Интересные факты
- В популярной литературе по статистике IQR часто называют «серединой половины» или «спредом между квартилями» (англ. midspread, H-spread).
- Для симметричного распределения IQR составляет примерно 1,35 стандартных отклонений. Это соотношение позволяет быстро пересчитывать IQR в σ и обратно при условии нормальности.
- В некоторых статистических пакетах (R, Python с библиотекой NumPy) по умолчанию используется метод «linear interpolation» для вычисления квартилей по методу Hyndman & Fan (Type 7), совпадающий с Excel.
- Свойство IQR: если к каждому элементу выборки прибавить одну и ту же константу, IQR не изменится (инвариантность к сдвигу). При умножении на положительную константу IQR умножается на ту же константу.
Источники
- Дж. Тьюки, «Анализ данных: устойчивые и регрессионные методы» (пер. с англ.), Москва: Мир, 1981.
- А. Афифи, С. Эйзен, «Статистический анализ: Подход с использованием ЭВМ», Москва: Мир, 1982.
- Hyndman, R. J., & Fan, Y. (1996). «Sample Quantiles in Statistical Packages». The American Statistician, 50(4), 361–365.
- Л. Н. Большев, Н. В. Смирнов, «Таблицы математической статистики», Москва: Наука, 1983.
- Э. Леман, «Проверка статистических гипотез», Москва: Наука, 1979.
BFOmetr — база данных и аналитика по компаниям России.
На главную BFOmetr →