Forêts aléatoires de classification et de régression

Cet algorithme puissant d'apprentissage automatique permet de faire des prédictions en se basant sur l'agrégation de plusieurs arbres de décision. Il est disponible dans Excel avec le logiciel XLSTAT.

Les forêts aléatoires sont des méthodes qui permettent d’obtenir des modèles prédictifs pour la classification et la régression. La méthode met en œuvre des arbres de décision binaire, notamment des arbres CART proposés par Breiman et al. (1984).

L’idée générale derrière la méthode est la suivante : au lieu d’essayer d’obtenir une méthode optimisée en une fois, on génère plusieurs prédicteurs avant de mettre en commun leurs différentes prédictions.

Utilisez cette fonctionnalité XLSTAT pour réaliser une classification ou une régression sur un échantillon d’observations décrites par des variables qualitatives et/ou quantitatives. 

  • En classification (variable réponse qualitative) : la méthode permet de prédire l’appartenance d’observations (observations, individus) à une classe d’une variable qualitative, sur la base de variables explicatives quantitatives et/ou qualitatives.
  • En régression (variable réponse continue) : la méthode permet de prédire la valeur prise par une variable quantitative dépendante, en fonction de variables explicatives quantitatives et/ou qualitatives.

Options de la fonctionnalité Forêts aléatoires dans XLSTAT

Deux variantes sont implémentées dans XLSTAT. Le Bagging pour « Bootstrap aggregating » proposé par Breiman (1996), et la méthode Randon Input introduite dans Breiman (2001).

Bagging :L’idée ici est qu’en construisant des arbres CART à partir de différents échantillons bootstrap, on en modifie les prédictions, et on construit ainsi une collection variée de prédicteurs. L’étape d’agrégation permet alors d’obtenir un prédicteur robuste et plus performant.

Random Input :La variante Random Input est une modification importante du bagging, l’objectif étant de rendre les modèles (arbres) construits plus indépendants entre eux afin d'obtenir un modèle final plus efficace. La différence fondamentale entre les deux approches est que sur chaque échantillon   on ne construit pas les arbres en suivant l'approche classique de CART, mais une variante. 

Paramètres de la forêt :

Échantillonnage : des observations sont choisies au hasard et ne peuvent figurer qu'une seule fois (aléatoire sans remise) ou plusieurs fois dans l'échantillon (aléatoire avec remise).

Taille d’échantillon : entrez la taille des échantillons utilisés pour la construction des arbres.

Nombre d’arbres : entrez le nombre d’arbres souhaité dans la forêt.

Paramètres des arbres :

Taille minimale pour un parent : entrez la taille minimale (nombre d’observations) que doit avoir un nœud parent pour être éventuellement subdivisé.

Taille minimale pour un fils : entrez la taille minimale (nombre d’observations) que doit avoir un nœud fils après une subdivision pour être conservé.

Profondeur maximale : entrez la profondeur maximale des arbres.

Conditions d’arrêt :

Paramètre de complexité (uniquement en classification) : entrez la valeur du paramètre de complexité (CP). La construction d’un arbre ne se poursuit pas à moins de réduire l’impureté globale d’au moins un facteur CP. Cette valeur doit être inférieure à 1.Temps de construction (en secondes) : entrez le temps maximal alloué à la construction de l’ensemble des arbres de la forêt. Passé ce temps, si le nombre d’arbres souhaité dans la forêt n’a pu être construit, l’algorithme s’arrête et renvoies les résultats obtenus en utilisant les arbres construits jusque là.

Sorties de la fonctionnalité forêts aléatoires dans XLSTAT

Erreur OOB : activez cette option pour afficher l’erreur Out-Of-Bag de la forêt.

Prédictions OOB : activez cette option pour afficher le vecteur des prédictions Out-Of-Bag.

Détails des prédictions OOB : activez cette option pour afficher le détail des prédictions Out-Of-Bag.

Fréquence OOB par observation : activez cette option pour afficher pour chaque observation de l’ensemble d’apprentissage le nombre de fois où elle a été OOB.

Matrice de confusion (classification uniquement) : activez cette option pour afficher la matrice de confusion.

Evolution de l’erreur OOB : activez cette option pour afficher l’évolution de l’erreur OOB en fonction du nombre d’arbres. 

Importance des variables :La mesure d’importance calculée pour une variable donnée est l’accroissement moyen de l’erreur d’un arbre dans la forêt lorsque les valeurs observées de cette variable sont permutées au hasard dans les échantillons OOB.