Régression LASSO

Cet outil permet de réaliser une régression lorsque vous avez plus de variables que d'observations ou, plus universellement, lorsque le nombre de variables est important.

Description de la régression LASSO dans XLSTAT

LASSO est l’acronyme de Least Absolute Shrinkage and Selection Operator. La régression LASSO a été proposée par Robert Tibshirani en 1996. C'est une méthode d'estimation qui contraint ses coefficients à ne pas exploser, contrairement à la régression linéaire standard en grande dimension. Le contexte de grande dimension recoupe toutes les situations où l'on dispose d’un très grand nombre de variables par rapport au nombre d’individus.

La régression LASSO est une des méthodes qui vient pallier les manques (instabilité de l'estimation et manque de fiabilité de la prévision) de la régression linéaire dans un contexte de grande dimension. L'avantage principal de la régression LASSO réside dans sa capacité à effectuer une sélection de variables, ce qui peut s'avérer précieux en présence d'un grand nombre de variables.

Options de la régression LASSO dans XLSTAT

Paramètres du modèle : cette option vous permet de décider de la méthode utilisée pour définir le paramètre de régularisation λ.

Validation croisée : activez cette option si vous souhaitez calculer le paramètre λ par validation croisée. Cette option vous permet de lancer une validation croisée "k-fold" pour obtenir le paramètre de régularisation λ optimal. Les données sont divisées en k blocs de taille égales. Un seul bloc est retenu en tant qu'échantillon de validation pour tester le modèle, et les k-1 blocs restants sont utilisés en tant qu'échantillon d'apprentissage.

Saisie manuelle : activez cette option si vous souhaitez spécifier le paramètre de régularisation λ.

Lambda : activez cette option si vous souhaitez calculer le paramètre λ par validation croisée. Dans le cas contraire, saisissez la valeur que vous souhaitez affecter au paramètre λ.

Paramètres de la validation croisée :

Nombre de blocs : entrez le nombre de blocs à constituer pour la validation croisée. Valeur par défaut : 5.
Nombre de valeurs testées : entrez le nombre de valeurs de λ qui seront testées au cours de la validation croisée. Valeur par défaut : 100.

Conditions d'arrêt :

Convergence : entrez la valeur seuil d'évolution maximale de log vraisemblance d'une itération à l'autre, qui une fois atteinte permet de considérer que l'algorithme a convergé. Valeur par défaut : 0,000001.
Temps maximum (en secondes) : entrez le temps maximal alloué à une descente par coordonnée. Passé ce temps, si la convergence n'a pas été atteinte, l'algorithme s'arrête et renvoie les résultats obtenus lors de la dernière itération. Valeur par défaut : 180 secondes.

Interactions / Niveau : activez cette option pour inclure des interactions dans le modèle puis entrez le niveau maximum d'interaction (valeur comprise entre 1 et 5).

Résultats de la régression LASSO dans XLSTAT

Statistiques descriptives : le tableau des statistiques descriptives présente des statistiques simples pour toutes les variables sélectionnées. Le nombre de valeurs manquantes, le nombre de valeurs non manquantes, la moyenne, l'écart-type sont affichés pour les variables quantitatives.

Matrice de corrélation : ce tableau est affiché afin de vous permettre d'avoir un aperçu des corrélations entre les différentes variables sélectionnées.

Coefficients d'ajustement : dans ce tableau sont affichées les statistiques relatives à l'ajustement du modèle de régression :

Observations : le nombre d'observations prises en compte dans les calculs. Dans les formules présentées ci-dessous nn désigne le nombre d'observations.
Somme des poids : la somme des poids des observations prises en compte dans les calculs. Dans les formules présentées ci-dessous WW désigne la somme des poids.
DDL : le nombre de degrés de liberté pour le modèle retenu (ce nombre est égal au nombre de coefficients non-nuls dans le modèle).
R² : le coefficient de détermination du modèle. La valeur de ce coefficient est comprise entre 0 et 1.

Le R² s'interprète comme la proportion de la variabilité de la variable dépendante expliquée par le modèle. Plus le R² est proche de 1, meilleur est le modèle.

MCE : la moyenne des carrés des erreurs (MCE).

RMCE : la racine de la moyenne des carrés des erreurs (RMCE) est la racine carrée de la MCE.

Paramètres du modèle : ce tableau fournit pour chaque paramètre sa valeur après ajustement du modèle

Coefficients normalisés : ce tableau des coefficients normalisés (aussi appelés coefficients bêta) permet, si la matrice contenant les variables explicatives n'a pas été centrée, de comparer le poids relatif des variables. Plus la valeur absolue d'un coefficient est élevée, plus le poids de la variable correspondante est important.

Prédictions et résidus : ce tableau fournit, pour chaque observation, la valeur observée de la variable dépendante, la prédiction du modèle et les résidus.

Evolution de la MCE (Validation croisée) : ce tableau fournit l'évolution de la MCE ainsi que du nombre de variables actives en fonction du paramètre de régularisation lambda.

Graphiques des prédictions et résidus : ces graphiques permettent de visualiser les résultats mentionnés ci-dessus.

Graphique de l'importance des variables : la mesure d'importance calculée pour une variable donnée est la valeur absolue de son coefficient dans la régression.

Graphique de l'évolution de la MCE (Validation croisée) : ce graphique montre l'évolution de la MCE en fonction du paramètre lambda.

Voir tous les tutoriels