Открыть сервис

Межквартильный размах

Межквартильный размах — это мера статистического рассеивания (разброса) данных, равная разности между третьим (верхним) и первым (нижним) квартилями распределения. В отличие от размаха (диапазона значений), межквартильный размах характеризует разброс центральных 50 % наблюдений и устойчив к выбросам. Обозначается как IQR (от англ. interquartile range), а также как Q₃ – Q₁ или Q0,75 – Q0,25.

Определение и математическая запись

Пусть упорядоченная выборка состоит из значений \(x_{1} \le x_{2} \le \dots \le x_{n}\). Первый квартиль (Q₁) — это медиана левой половины данных, третий квартиль (Q₃) — медиана правой половины. В общем виде:

\[ \mathrm{IQR} = Q_{3} - Q_{1}. \]

Границы квартилей могут вычисляться разными методами (например, метод Тьюки, метод включения медианы, метод эксклюзии медианы); стандартными в российской статистике считаются определения, используемые в Microsoft Excel и большинстве пакетов (функция QUARTILE с параметром 1 и 3). В случае чётного числа наблюдений медиана и квартили часто определяются как среднее арифметическое двух центральных элементов.

История и контекст

Понятие межквартильного размаха ввёл английский математик и статистик Фрэнсис Гальтон в конце XIX века при разработке описательных статистик для антропометрических данных. Позднее, в середине XX века, американский статистик Джон Тьюки популяризовал IQR как ключевой элемент «ящика с усами» (box plot). В отличие от среднего квадратического отклонения, IQR не требует предположения о нормальности распределения и применим к порядковым и количественным данным, включая асимметричные распределения.

Свойства и интерпретация

Устойчивость к выбросам

Межквартильный размах нечувствителен к экстремальным значениям (выбросам), так как затрагивает только центральную половину выборки. Если, например, в ряду измерений одно значение аномально велико, Q₁ и Q₃ не изменятся, и IQR останется тем же. Это важное преимущество перед стандартным отклонением и размахом.

Оценка разброса

Чем больше IQR, тем сильнее разбросаны значения вокруг медианы. Для нормального распределения IQR примерно равен 1,35σ (где σ — среднее квадратическое отклонение). Сравнение IQR для разных групп позволяет выявить различия в вариабельности.

Асимметрия

Если распределение симметрично, то расстояния от Q₁ до медианы и от медианы до Q₃ равны. В асимметричных распределениях эти расстояния различны, что видно на ящичной диаграмме (чем больше разница, тем сильнее асимметрия).

Применение в статистике и анализе данных

Выявление выбросов

Классический метод Тьюки: значения, расположенные за пределами интервала \([Q_{1} - 1,5 \cdot \mathrm{IQR},\; Q_{3} + 1,5 \cdot \mathrm{IQR}]\), считаются потенциальными выбросами (лёгкие выбросы). Выход за пределы интервала \([Q_{1} - 3 \cdot \mathrm{IQR},\; Q_{3} + 3 \cdot \mathrm{IQR}]\) указывает на сильные выбросы. Этот подход применяется в описательной статистике, при анализе пропусков в данных и при подготовке данных к машинному обучению.

Ящичная диаграмма (box plot)

На ящичной диаграмме IQR изображается в виде прямоугольника (ящика), высота которого равна IQR. Внутри ящика отмечается медиана (линия), а из верхнего и нижнего краёв протягиваются «усы» до ближайших значений, не являющихся выбросами. Выбросы отображаются отдельными точками. Ящичная диаграмма позволяет визуально сравнивать распределения нескольких групп.

Показатель масштаба

В робастной статистике IQR используется как состоятельная оценка масштаба (разброса) распределения. Вместе с медианой он образует устойчивую пару описательных статистик, альтернативную паре «среднее арифметическое ± стандартное отклонение».

Пример расчёта

Рассмотрим выборку: 2, 4, 6, 8, 10, 12, 14, 16, 18, 20.

  1. Упорядочиваем (уже упорядочено).
  2. Количество элементов n = 10 (чётное).

Медиана = (10 + 12) / 2 = 11. Нижняя половина: 2, 4, 6, 8, 10. Медиана нижней половины — Q₁ = 6. Верхняя половина: 12, 14, 16, 18, 20. Медиана верхней половины — Q₃ = 16.

  1. IQR = 16 – 6 = 10.

Таким образом, центральные 50 % значений лежат в диапазоне от 6 до 16.

Связь с другими мерами разброса

Ограничения

Применение в различных областях

Интересные факты

Источники

BFOmetr — база данных и аналитика по компаниям России.

На главную BFOmetr →