Что такое Bias: простое объяснение и Python-пример

Почему плохое качество модели бывает двух разных типов

Когда модель ошибается, хочется сказать что-то простое: модель слабая, данных мало, признаки плохие. Но очень часто ошибка рождается из более тонкого конфликта. Модель может быть слишком грубой и не улавливать структуру данных — это высокая систематическая ошибка, или bias. А может, наоборот, слишком старательно подгоняться под детали обучающей выборки и становиться нестабильной — это высокая variance. Именно этот конфликт и называют bias-variance tradeoff.

Это полезный взгляд, потому что он заставляет не просто видеть ошибку, а понимать ее характер. От характера ошибки зависит и лечение: больше гибкости, больше данных, сильнее регуляризация, проще архитектура или лучше признаки.

Как эта идея записывается математически

Формула: раздел математики — математическая статистика

$$ \mathbb{E}\left[(y - \hat f(x))^2\right] = Bias^2 + Variance + Noise $$

Что означает эта формула

Ожидаемая ошибка модели раскладывается на систематическое смещение, нестабильность предсказаний и неизбежный шум самих данных. Это очень полезная формула, потому что она показывает: не всю ошибку можно победить одной настройкой модели.

Что означает каждый символ

\mathbb{E}[(y - \hat f(x))^2] — ожидаемая квадратичная ошибка предсказания
Bias^2 — ошибка из-за чрезмерной простоты модели
Variance — ошибка из-за чувствительности к конкретной обучающей выборке
Noise — неустранимый шум в данных и измерениях

Геометрически это можно почувствовать так: если модель слишком жесткая, она не может подстроиться под реальную форму зависимости. Если слишком гибкая, она изгибается под случайные мелочи. Хорошая модель занимает промежуточную область между этими крайностями.

Почему это важно в реальном ML

Потому что много практических решений на самом деле и есть работа с этим балансом. Увеличение глубины дерева уменьшает bias, но может увеличить variance. Регуляризация в линейной модели специально повышает bias, чтобы уменьшить variance. Добавление признаков может помочь, но может и сделать модель менее устойчивой. Даже рост объема данных часто полезен именно тем, что снижает variance.

Если это понимать, тюнинг моделей перестает быть магией. Он становится осмысленным поиском правильного компромисса между недообучением и переобучением.

Небольшой Python-пример

example.pyPython

import pandas as pd  # собираем маленький пример качества на train и validation

scores = pd.DataFrame({  # задаем воображаемые результаты моделей разной сложности
    'model': ['very_simple', 'balanced', 'too_complex'],  # три режима сложности модели
    'train_score': [0.62, 0.86, 0.99],  # качество на обучающей выборке
    'valid_score': [0.60, 0.84, 0.71],  # качество на валидации
})
scores['gap'] = scores['train_score'] - scores['valid_score']  # измеряем разрыв между train и validation как сигнал variance
print(scores)  # сравниваем, где модель недоучилась, а где переобучилась

Даже без сложных графиков по такой таблице видно главное. Очень простая модель не дотягивает везде. Очень сложная сияет на train, но теряет устойчивость. А хорошая модель обычно не максимальна по сложности — она уместна по отношению к данным.

Bias-variance tradeoff: почему модель может быть и слишком простой, и слишком сложной

Почему плохое качество модели бывает двух разных типов

Как эта идея записывается математически

Почему это важно в реальном ML

Небольшой Python-пример

Связанные статьи по этой теме