Extreme Gradient Boosting (XGBOOST)

XGBOOST, que significa "Extreme Gradient Boosting", es un modelo de aprendizaje automático que se utiliza para problemas de aprendizaje supervisado, en los que utilizamos los datos de entrenamiento para predecir una variable objetivo/respuesta.

¿Qué es XGBOOST?

XGBOOST, que significa "Extreme Gradient Boosting", es un modelo de aprendizaje automático empleado para problemas de aprendizaje supervisado, en el que utilizamos los datos de entrenamiento para predecir una variable objetivo/respuesta.

Elija este método para ajustar un modelo de clasificación o regresión sobre una muestra descrita por variables cualitativas y/o cuantitativas. El método maneja eficazmente grandes conjuntos de datos con un gran número de variables.

Clasificación (variable de respuesta cualitativa): el modelo permite predecir la clase a la que pertenece cada observación, basándose en variables explicativas que pueden ser cuantitativas y/o cualitativas.
Regresión (variable de respuesta continua): el modelo permite construir un modelo de predicción para una variable de respuesta cuantitativa a partir de variables explicativas que pueden ser cuantitativas y/o cualitativas.

¿Cuál es el principio de XGBOOST?

Los modelos de aprendizaje automático pueden ajustarse a los datos individualmente o combinarse con otros modelos, creando un conjunto. Un ensemble es una combinación de modelos individuales simples que juntos crean uno más potente.

El boosting de aprendizaje automático es un método que crea este tipo de conjuntos. Comienza ajustando un modelo inicial (en nuestro caso un árbol de regresión o clasificación) a los datos. A continuación, se construye un segundo modelo que se centra en predecir con exactitud las observaciones que el primer modelo predijo mal. Se espera que la combinación de estos dos modelos sea mejor que cada uno de ellos. Este proceso de refuerzo se repite varias veces, y cada modelo sucesivo intenta corregir las deficiencias del conjunto refuerzo combinado que contiene todos los modelos anteriores.

Refuerzo de gradiente

El refuerzo de gradiente es un tipo de refuerzo de aprendizaje automático. Se basa en la intuición de que el mejor modelo siguiente posible, cuando se combina con los modelos anteriores, minimiza el error de predicción global. La idea clave es establecer el peso de cada observación para este próximo modelo con el fin de minimizar el error. Estos se calculan de la siguiente manera:

En cada paso de boosting y para cada observación, se calcula una puntuación basada en el error de predicción del modelo.

El nombre de boosting de gradiente surge del hecho de que cada peso se establece en función del gradiente del error con respecto a la predicción. Cada nuevo modelo da un paso en la dirección que minimiza el error de predicción, en el espacio de predicciones posibles para cada observación.

Ver todos los tutoriales