Extreme Gradient Boosting (XGBOOST)

XGBOOST, qui signifie "Extreme Gradient Boosting", est un modèle d'apprentissage automatique utilisé pour les problèmes d'apprentissage supervisé, dans lesquels nous utilisons un ensemble de variables explicatives pour prédire une variable cible/réponse.

Qu’est-ce XGBOOST ?

XGBOOST, qui signifie "Extreme Gradient Boosting", est un modèle d'apprentissage automatique employé pour les problèmes d'apprentissage supervisé, dans lesquels nous utilisons un ensemble de variables explicatives pour prédire une variable cible/réponse.

Choisissez cette méthode pour réaliser une classification ou une régression sur un échantillon d'observations décrites par des variables qualitatives et/ou quantitatives. La méthode permet de traiter efficacement de gros jeux de données avec un grand nombre de variables.

En classification (variable réponse qualitative) : la méthode permet de prédire l'appartenance d'observations (observations, individus) à une classe d'une variable qualitative, sur la base de variables explicatives quantitatives et/ou qualitatives.
En régression (variable réponse quantitative) : la méthode permet de prédire la valeur prise par une variable quantitative dépendante, en fonction de variables explicatives quantitatives et/ou qualitatives.

Quel est le principe de XGBOOST ?

Les modèles d'apprentissage automatique peuvent être adaptés aux données individuellement, ou combinés à d'autres modèles, créant ainsi un ensemble. Un ensemble est une combinaison de modèles individuels simples qui, rassemblés, créent un modèle plus performant.

En apprentissage automatique, le boosting est une méthode qui permet de transformer les apprenants faibles (dans notre cas, un arbre de régression ou de classification) en apprenants forts. Il commence par construire un premier modèle sur les données puis en construit un second qui se concentrera sur la prédiction précise des observations que le premier modèle a mal prédites. La combinaison de ces deux modèles est censée être meilleure que les modèles pris individuellement. Ce processus de boosting est ensuite répété plusieurs fois, chaque modèle successif essayant de corriger les défauts des modèles précédents.

Boosting de gradient

Le boosting de gradient est un type de boosting en apprentissage automatique. Il part de l'idée que le meilleur modèle suivant possible, lorsqu'il est combiné aux modèles précédents, minimise l'erreur de prédiction globale. Le but est d’établir des résultats cibles (scores/poids) pour ce prochain modèle afin de minimiser les erreurs. A chaque itération de l'algorithme, pour chaque observation, un score/poids est calculé en fonction de l'erreur de prédiction du modèle.

Le nom de boosting de gradient vient du fait que chaque poids est fixé en fonction du gradient de l'erreur relative à la prédiction. Chaque nouveau modèle fait un pas dans la direction qui minimise l'erreur de prédiction, dans l'espace des prédictions possibles pour chaque observation.

Quels sont les résultats dans XLSTAT?

Statistiques descriptives : statistiques descriptives pour les variables sélectionnées.

Corrélations : matrice de corrélation pour les variables explicatives.

Prédictions et résidus (régression seulement) : prédictions et résidus pour l'ensemble des observations.

Résultats par objet (classification seulement) : affiche pour chaque observation la modalité observée, la modalité prédite, et, dans le cas où la variable dépendante est qualitative, la probabilité correspondant à chacune des modalités de la variable dépendante.

Statistiques pour chaque itération : affiche le tableau montrant l'évolution des mesures d'évaluation pour chaque itération.

Importance des variables : affiche les mesures d'importance des variables. XLSTAT affiches les mesures d'importance suivantes :

La Fréquence correspond au nombre de fois qu'une variable est utilisée pour diviser les données sur l'ensemble des arbres du modèle. Il est exprimé en pourcentage de l'ensemble des divisions réalisées.
Le Gain correspond à la contribution relative d'une variable au modèle et est calculé en prenant le rapport entre la contribution totale de la variable considérée et celle de l'ensemble des variables du modèle. La valeur de cette mesure est proportionnelle à l'implication de la variable pour générer une prédiction.
La Couverture correspond à la proportion d'observations liées à une variable. Lorsqu'une variable est utilisée pour diviser un nœud qui précède une feuille, on dit alors que les observations présentes dans ce nœud sont couvertes par la variable. Par exemple, vous possédez un jeu de données avec 100 observations et 4 variables, 3 arbres sont construits. La variable 1 est utilisée pour diviser un nœud précédant une feuille. Ces nœuds comportent respectivement 10, 5 et 2 observations dans les arbres 1, 2 et 3 respectivement. La couverture pour la variable 1 correspond à la somme des observations : 10+5+2 = 17 observations. Ce nombre est ensuite exprimé en pourcentage de la mesure de couverture sur l'ensemble des arbres du modèle.

Le gain est l'attribut le plus pertinent pour interpréter l'importance relative de chaque variable.

Matrice de confusion (classification seulement) : affiche le tableau permettant de visualiser les nombres d’observations bien et mal classées pour chacune des classes.

Statistiques pour chaque itération : affiche sous forme graphique l'évolution de la métrique d'évaluation en fonction du nombre d'itération.

Importance des variables : affiche sous forme de graphique les mesures d'importance des variables.

Graphiques de régression :

Variable réponse versus résidus normalisés.
Prédictions versus résidus normalisés.
Prédictions versus variable réponse.
Graphique en bâtons des résidus normalisés.

Graphique de confusion : permet une visualisation synthétique du tableau de classification. Les effectifs peuvent être liés soit à la largeur, soit l'aire, des carrés représentés.

Courbe Roc (classification seulement): affiche la courbe Roc.

Courbe Lift(classification seulement): affiche la courbe Lift.

Courbe de gain cumulée(classification seulement): affiche la courbe de gain cumulée.

Voir tous les tutoriels