Медиана
Медиана — это один из видов средних величин в математической статистике, представляющий собой числовое значение, которое делит упорядоченный набор данных на две равные по объёму части: половина элементов выборки имеет значения, не превышающие медиану, а другая половина — не меньшие её. В отличие от среднего арифметического, медиана является робастной (устойчивой к выбросам) мерой центральной тенденции, что делает её особенно полезной при анализе распределений с асимметрией или наличием экстремальных значений.
Определение и способ вычисления
Медиана (обозначается как \(\tilde{x}\) или \(Me\)) определяется для одномерных наборов данных. Для её нахождения необходимо упорядочить все элементы выборки по возрастанию и выделить элемент, находящийся в середине ранжированного ряда.
Для нечётного количества элементов
Если объём выборки \(n\) нечётен, медианой является значение элемента на позиции \((n+1)/2\). Например, в наборе {1, 3, 7, 9, 12} пять значений. Упорядоченный ряд: 1, 3, 7, 9, 12. Позиция медианы: \((5+1)/2 = 3\). Медиана равна 7.
Для чётного количества элементов
Если \(n\) чётно, медиана вычисляется как среднее арифметическое двух центральных элементов, расположенных на позициях \(n/2\) и \(n/2+1\). Например, в наборе {2, 4, 6, 10} четыре значения. Упорядоченный ряд: 2, 4, 6, 10. Центральные позиции: 2 и 3 (значения 4 и 6). Медиана: \((4+6)/2 = 5\).
Для непрерывных распределений
В теории вероятностей медиана непрерывной случайной величины \(X\) определяется как такое число \(m\), при котором функция распределения \(F(x)\) принимает значение 0,5: \(F(m) = P(X \le m) = 0{,}5\). Для симметричных унимодальных распределений (например, нормального) медиана совпадает с математическим ожиданием и модой.
История понятия
Понятие медианы восходит к античным методам обработки данных. Первое известное использование термина в статистическом контексте связывают с английским учёным Фрэнсисом Гальтоном в конце XIX века. Гальтон ввёл медиану как альтернативу среднему арифметическому для анализа антропометрических данных, поскольку она менее чувствительна к ошибкам измерений и крайним значениям. В 1881 году он предложил использовать медиану в качестве оценки центра распределения в своих работах по евгенике. Позднее, в начале XX века, статистики Карл Пирсон и Рональд Фишер разработали математический аппарат для сравнения свойств медианы, среднего и моды.
Свойства медианы
Робастность
Медиана обладает низкой чувствительностью к выбросам. Если в выборку {1, 2, 3, 4, 100} добавить экстремальное значение (например, 1000), среднее арифметическое резко изменится (с 22 до 168), тогда как медиана останется равной 3. Это свойство делает медиану предпочтительной при анализе доходов населения, цен на недвижимость и других распределений с длинными хвостами.
Минимизация суммы абсолютных отклонений
Для любой выборки сумма модулей отклонений от медианы меньше или равна сумме модулей отклонений от любого другого числа. Формально: \(\sum_{i=1}^n |x_i - Me| \le \sum_{i=1}^n |x_i - a|\) для любого \(a\). Это отличает медиану от среднего, которое минимизирует сумму квадратов отклонений.
Инвариантность к монотонным преобразованиям
Если применить строго монотонную функцию (например, логарифмирование) к каждому элементу выборки, медиана преобразованных данных равна преобразованной медиане исходных данных. Это свойство не выполняется для среднего арифметического.
Статистическая эффективность
Для выборок из нормального распределения медиана менее эффективна (имеет большую дисперсию) по сравнению со средним арифметическим. Однако для распределений с тяжёлыми хвостами (например, распределение Коши) медиана может быть более эффективной оценкой.
Виды медиан
Медиана в порядковой шкале
В порядковой (ранговой) шкале медиана определяется как значение признака, которое находится в середине упорядоченного ряда. Поскольку для порядковых данных арифметические операции не всегда корректны, медиана является основной мерой центральной тенденции (например, при анализе ответов на опросы типа «оцените по шкале от 1 до 5»).
Медиана для интервальных данных
Для данных, сгруппированных в интервалы, медиана рассчитывается по формуле: \[ Me = x_0 + h \cdot \frac{0{,}5 \cdot n - S_{m-1}}{f_m} \] где \(x_0\) — нижняя граница медианного интервала, \(h\) — ширина интервала, \(n\) — объём выборки, \(S_{m-1}\) — накопленная частота до медианного интервала, \(f_m\) — частота медианного интервала.
Медиана в геометрии
В геометрии термин «медиана» имеет иное значение: это отрезок, соединяющий вершину треугольника с серединой противоположной стороны. Свойства геометрической медианы (точка пересечения медиан — центроид) не связаны со статистической медианой, однако оба понятия восходят к латинскому слову «mediānus» («средний»).
Применение
В социально-экономической статистике
Медианный доход, медианная заработная плата, медианная цена жилья используются в качестве более реалистичных показателей уровня жизни, чем средние арифметические, которые могут быть искажены доходами сверхбогатых. Например, Росстат регулярно публикует данные о медианной заработной плате в России, которая в 2023 году составила около 40 тысяч рублей, что значительно ниже среднего арифметического (порядка 70 тысяч рублей).
В медицине
При анализе выживаемости пациентов вычисляют медиану времени до наступления события (например, смерти или рецидива). Медианная выживаемость — это время, в течение которого 50% пациентов остаются живы, и она менее чувствительна к единичным случаям долгожительства, чем средняя.
В анализе данных
Медианный фильтр — популярный метод цифровой обработки сигналов и изображений. Он заменяет каждый элемент на медиану его окрестности, эффективно удаляя импульсные помехи («соль и перец») без размытия границ.
В машинном обучении
Медиана используется в качестве оценки центра при обучении некоторых алгоритмов (например, метод k-ближайших соседей для регрессии, деревья решений). Также медиана применяется для заполнения пропусков в данных (импутация медианой) как робастная альтернатива среднему.
Примеры из различных областей
- Демография: медианный возраст населения России в 2023 году составлял около 40,5 лет. Это означает, что половина населения младше этого возраста, половина — старше.
- Образование: при анализе результатов экзаменов медианный балл может быть более информативным, чем средний, особенно если несколько учеников получили аномально высокие или низкие оценки.
- Экология: медианная концентрация загрязняющего вещества в пробах воды часто используется вместо среднего, чтобы минимизировать влияние случайных выбросов при пробоотборе.
Критика и ограничения
Медиана не всегда является адекватной мерой центра, особенно для мультимодальных распределений (с несколькими пиками) или при необходимости учёта всех значений выборки. Она игнорирует величину отклонений, что может быть нежелательно при расчётах суммарных показателей (например, общего объёма производства). Кроме того, для малых выборок (менее 5–6 элементов) медиана может быть неустойчивой оценкой.
Связь с другими средними
В симметричных распределениях медиана, мода и среднее арифметическое совпадают. В асимметричных распределениях соотношение между ними подчиняется эмпирическому правилу: для умеренно асимметричных одномодальных кривых медиана находится между модой и средним (мода < медиана < среднее при положительной асимметрии и наоборот — при отрицательной). Наиболее точное соотношение даётся формулой Пирсона: \(\text{среднее} - \text{мода} \approx 3 \cdot (\text{среднее} - \text{медиана})\).
Источники:
- Ван дер Варден Б. Л. «Математическая статистика». — М.: Иностранная литература, 1960.
- Гмурман В. Е. «Теория вероятностей и математическая статистика». — М.: Высшее образование, 2008.
- Кендалл М. Дж., Стюарт А. «Статистические выводы и связи». — М.: Наука, 1973.
- Федеральная служба государственной статистики (Росстат). «Социально-экономические показатели Российской Федерации» (данные за 2023 год).
- Тьюки Дж. «Анализ результатов наблюдений». — М.: Мир, 1981.
BFOmetr — база данных и аналитика по компаниям России.
На главную BFOmetr →