Arbres de classification et de régression

Qu’est-ce que sont les arbres de classification et les arbres de régression ?

Les arbres de classification et de régression (parfois aussi appelés arbres de segmentation ou de décision) sont des méthodes qui permettent d’obtenir des modèles à la fois explicatifs et prédictifs. Parmi leurs avantages on notera d’une part leur simplicité du fait de la visualisation sous forme d’arbres, d’autre part la possibilité d’obtenir des règles en langage naturel.

On distingue notamment deux cas d’utilisation de ces modèles :

on utilise les arbres de classification pour expliquer et/ou prédire l’appartenance d’objets (observations, individus) à une classe (ou modalité ou catégorie) d’une variable qualitative, sur la base de variables explicatives quantitatives et/ou qualitatives.
on utilise les arbres de régression pour expliquer et/ou prédire les valeurs prise par une variable dépendante quantitative, en fonction de variables explicatives quantitatives et/ou qualitatives.

Algorithmes utilisés dans XLSTAT pour les arbres de classification et de régression

XLSTAT utilise les algorithmes CHAID, exhaustive CHAID, C&RT (Classification and Regression Trees) et QUEST.

CHAID et CHAID exhaustive

Ces deux méthodes procèdent en trois étapes : séparation, fusion, arrêt.

Séparation : à partir du nœud initial qui comprend la totalité des objets, la meilleure variable de séparation est celle pour laquelle la p-value est la plus petite, tout en étant inférieure au « seuil de séparation » défini par l'utilisateur. Dans le cas d'une variable dépendante quantitative, un test F d'ANOVA est utilisé pour comparer les moyennes de la variable dépendante pour chacune des catégories de la variable explicative utilisée pour la séparation. Dans le cas d'une variable dépendante qualitative, l'utilisateur a le choix entre le test du Khi² de Pearson et le test du rapport de vraisemblance.
Fusion : si la variable de séparation est qualitative, la procédure essaye d'en réunir les modalités similaires dans des sous-nœuds communs.
Arrêt: à chaque création d'un nouveau sous-nœud, les critères d'arrêt sont vérifiés, et si aucune des conditions n'est remplie, le nœud est à son tour considéré comme un nœud initial, et la procédure est itérée. Les conditions d'arrêt sont les suivantes :
- Nœud pur
- Profondeur maximale de l'arbre
- Taille minimale d'un nœud parent
- Taille minimale d'un nœud fils

C&RT

Cette méthode vérifie récursivement pour chaque nœud si une séparation est possible sur la base de la mesure choisie. Différentes mesures de pureté des groupes sont disponibles. Dans le cas où la variable dépendante est quantitative, une mesure basée sur la LSD (Least Square Deviation) est utilisée. Dans le cas d'une variable dépendante qualitative l'utilisateur a le choix entre les indices de Gini et de Twoing. Dans le cas d'une variable explicative quantitative, un partitionnement univarié en k groupes est effectué. Ensuite, les k-1 points de séparation sont calculés et testés. Pour une variable explicative qualitative, chaque regroupement en deux groupes des k modalités est testé (soit 2k – 1 possibilités). Les conditions d'arrêt sont les mêmes que dans la méthode CHAID.

QUEST

Cette méthode ne peut être utilisée qu'avec des variables dépendantes qualitatives. On procède à la séparation au niveau d'un nœud en deux sous étapes. On cherche d'abord la meilleure variable de séparation parmi les variables explicatives, puis on calcule le point de séparation pour cette variable. Les conditions d'arrêt sont les mêmes que dans la méthode CHAID.

Résultats des arbres de classification et de régression : Tableau de classification et courbe ROC

Parmi les nombreux résultats proposés, XLSTAT donne la possibilité d'afficher le tableau de classification (aussi appelé matrice de confusion) qui permet de calculer un pourcentage d'observations bien classées. Lorsque seules deux classes (ou catégories, ou modalités) sont présentes dans la variable dépendante, la courbe ROC, la courbe Lift et la courbe de gain cumulée peuvent aussi être affichées.

Courbe Lift : la courbe Lift est la courbe qui représente la valeur Lift en fonction du pourcentage de la population. Le Lift correspond au rapport entre la proportion de vrais positifs et la proportion de prédictions positives. Un lift de 1 signifie qu'il n'existe pas de gain par rapport à un algorithme qui ferait des prédictions de manière aléatoire. De manière générale, plus le Lift est élevé plus le modèle est performant.
Courbe de gain cumulée : la courbe des gains représente la sensibilité, ou rappel, en fonction du pourcentage de population totale. Elle nous permet de voir quelle part des données concentre le maximum d'événements positifs.
La courbe ROC (Receiver Operating Characteristics) permet de visualiser la performance d'un modèle, et de la comparer cette performance à celle d'autres modèles. Les termes utilisés viennent de la théorie de détection du signal.

On désigne par sensibilité (sensivity) la proportion d'événements positifs bien classés. La spécificité (specificity) correspond à la proportion d'événements négatifs bien classés. Si l'on fait varier la probabilité seuil à partir de laquelle on considère qu'un événement doit être considéré comme positif, la sensibilité et la spécificité varient. La courbe des points (1-spécificité, sensibilité) est la courbe ROC.

Considérons une variable dépendante binaire indiquant par exemple si un client a répondu favorablement à un mailing. Sur la figure ci-dessous, la courbe bleue correspond à un cas idéal où les n% de personnes ayant répondu favorablement correspondent aux n% de probabilités les plus élevées. La courbe verte correspond aux résultats d'un modèle bien discriminant. La courbe rouge (première bissectrice) correspond à ce que l'on obtiendrait avec un modèle aléatoire de Bernoulli avec une probabilité de réponse égale à celle observée sur l'échantillon étudié. Un modèle proche de la courbe rouge est donc inefficace puisqu'il n'est pas meilleur qu'un simple tirage au hasard. Un modèle en dessous de cette courbe serait catastrophique car il ferait moins bien que le hasard.

L'aire sous la courbe (ou Area Under the Curve – AUC) est un indice synthétique calculé pour les courbes ROC. L'AUC correspond à la probabilité pour qu'un événement positif ait une probabilité donnée par le modèle plus élevée qu'un événement négatif. Pour un modèle idéal, on a AUC=1, pour un modèle aléatoire, on a AUC=0.5. On considère habituellement que le modèle est bon dès lors que la valeur de l'AUC est supérieure à 0.7. Un modèle bien discriminant doit avoir une AUC entre 0.87 et 0.9. Un modèle ayant une AUC supérieure à 0.9 est excellent.

Comme pour les arbres de classification, l'analyse discriminante et la régression logistique permettent de modéliser une variable qualitative. Dans le cas de variables binaires l'utilisateur pourra comparer les performances des deux méthodes en s'appuyant sur les courbes ROC.

Enfin, il est conseillé de valider le modèle sur un échantillon de validation dans la mesure du possible. XLSTAT offre plusieurs possibilités pour automatiquement générer un échantillon de validation.

Voir tous les tutoriels