Что такое Выбросы в данных: простое объяснение и Python-пример

Почему выбросы пугают аналитиков и моделей

Выброс — это не просто большое число. Это наблюдение, которое ведет себя иначе по сравнению с основной массой данных. Иногда оно действительно является ошибкой: сбой датчика, неверный ввод, дублирование, поломанный лог. А иногда это редкое, но реальное событие, которое как раз и важно для бизнеса. Именно поэтому тема выбросов никогда не сводится к механическому правилу «нашли и удалили».

Проблема в том, что выбросы способны сильно менять средние значения, стандартные отклонения, коэффициенты линейных моделей и даже визуальную картину распределения. Из-за этого и анализ, и обучение модели могут начать смотреть на данные под неверным углом.

Как их обычно замечают

Формула: раздел математики — математическая статистика

$$ z = \frac{x - \mu}{\sigma} $$

Что означает эта формула

Один из способов заметить аномально удаленное наблюдение — посмотреть, насколько далеко оно находится от среднего в единицах стандартного отклонения. Но важно помнить, что при сильных выбросах сами μ и σ уже могут быть искажены.

Что означает каждый символ

z — мера удаленности наблюдения от среднего
x — значение конкретного объекта
\mu — среднее по выборке
\sigma — стандартное отклонение признака

Кроме z-score, часто смотрят на квартильный размах, boxplot, логарифмирование, robust-метрики и визуальную диагностику. Но ни один инструмент не заменяет содержательный вопрос: откуда взялось это наблюдение и нужно ли его считать частью задачи.

Почему выбросы ломают модели по-разному

Линейные модели чувствительны к экстремальным точкам, потому что те могут сильно влиять на коэффициенты. Метрики вроде RMSE тоже начинают сильнее наказывать крупные отклонения. Деревья решений и бустинги часто более устойчивы, но и у них выбросы могут создавать странные сплиты или искажать распределение target. Поэтому обработка выбросов зависит не только от самих данных, но и от того, какую модель вы собираетесь использовать.

Очень важно не перепутать реальную редкость с ошибкой. Если редкое значение и есть тот самый важный кейс, удаление выброса сделает систему красивее в учебнике, но слабее в реальном мире.

Простой Python-пример

example.pyPython

import pandas as pd  # создаем маленький пример с резко выделяющимся наблюдением
from sklearn.preprocessing import StandardScaler  # используем стандартизацию для оценки удаленности значений

frame = pd.DataFrame({'revenue': [110, 115, 118, 121, 119, 650]})  # последний объект заметно выбивается из основной массы
scaler = StandardScaler()  # строим scaler для расчета z-оценок
frame['z_score'] = scaler.fit_transform(frame[['revenue']])  # измеряем удаленность каждого значения от среднего
print(frame.round(3))  # смотрим, как выброс меняет картину распределения

Даже на таком игрушечном примере видно, как один объект может изменить масштаб и восприятие всего столбца. Поэтому грамотная работа с выбросами — это всегда сочетание статистики, визуального анализа и понимания источника данных.

Выбросы в данных: как они ломают анализ и модели

Почему выбросы пугают аналитиков и моделей

Как их обычно замечают

Почему выбросы ломают модели по-разному

Простой Python-пример

Связанные статьи по этой теме