Что такое XGBoost для начинающих: простое объяснение и Python-пример

Почему XGBoost стал почти синонимом сильной табличной модели

XGBoost любят не потому, что это магическая кнопка. Его сила в том, что он очень хорошо решает типичный конфликт табличного ML: хочется улавливать сложные зависимости, но при этом не строить чудовищно хрупкую модель. Бустинг на деревьях работает шаг за шагом. Каждое новое дерево не начинает задачу с нуля, а пытается исправить ошибки уже собранной системы.

Из-за этого XGBoost часто показывает высокий результат там, где линейные модели уже не дотягивают, а нейросети еще не дают устойчивого преимущества.

Что именно делает бустинг

Формула: раздел математики — оптимизация и ансамблевые методы

$$ \hat y^{(t)} = \hat y^{(t-1)} + \eta f_t(x) $$

Что означает эта формула

На каждом шаге бустинг добавляет новое дерево к уже накопленному прогнозу. Коэффициент η регулирует, насколько сильно очередное дерево влияет на общий ответ модели.

Что означает каждый символ

\hat y^{(t)} — прогноз ансамбля после t-го шага
\hat y^{(t-1)} — прогноз ансамбля до добавления нового дерева
\eta — learning rate, шаг обновления ансамбля
f_t(x) — предсказание нового дерева на шаге t

Эта формула хороша тем, что показывает характер метода: XGBoost не усредняет независимые деревья, как случайный лес, а последовательно дорабатывает решение, уменьшая остаточные ошибки. Именно поэтому параметры learning rate, глубина деревьев и число итераций так важны.

Почему метод так часто выигрывает

Он хорошо работает с нелинейностями, взаимодействиями признаков, пропусками и разными масштабами признаков. Кроме того, в библиотеке много инженерных оптимизаций: регуляризация, контроль сложности, эффективная работа с деревьями, возможность ранней остановки. Для практики это означает, что модель часто дает сильный результат без огромного количества ручных трюков.

Но есть и цена. Бустинг легко переобучить, если бездумно наращивать сложность. А еще он может выглядеть сильнее, чем есть, если валидация поставлена нечестно.

Минимальный код, который показывает идею

example.pyPython

import pandas as pd  # собираем небольшой табличный пример для бустинга
from sklearn.ensemble import GradientBoostingRegressor  # используем sklearn-аналог идеи бустинга деревьев

frame = pd.DataFrame({  # задаем признаки и непрерывный target
    'sessions': [1, 2, 3, 4, 5, 6, 7, 8],  # пользовательская активность
    'avg_time': [2, 3, 3, 4, 5, 6, 8, 9],  # среднее время в продукте
    'revenue': [100, 130, 160, 210, 280, 360, 470, 590],  # целевая переменная для прогноза
})

X = frame[['sessions', 'avg_time']]  # берем два числовых признака
y = frame['revenue']  # сохраняем target отдельно
model = GradientBoostingRegressor(n_estimators=200, learning_rate=0.05, max_depth=2, random_state=42)  # задаем бустинг с умеренным шагом
model.fit(X, y)  # обучаем ансамбль деревьев последовательно исправлять ошибки
print(model.predict(X[:3]).round(2).tolist())  # смотрим первые прогнозы обученной модели

Здесь использован GradientBoostingRegressor из sklearn, потому что он хорошо показывает саму механику бустинга. Когда эта механика становится ясной, XGBoost уже воспринимается не как модное слово, а как очень сильная инженерная реализация той же идеи.

XGBoost для начинающих: почему о нем так часто говорят в Data Science

Почему XGBoost стал почти синонимом сильной табличной модели

Что именно делает бустинг

Почему метод так часто выигрывает

Минимальный код, который показывает идею

Связанные статьи по этой теме