Régression Ridge

Utilisez cet outil pour réaliser une régression lorsque vous avez plus de variables que d'observations ou, plus universellement, lorsque le nombre de variables est important. Disponible dans Excel avec le logiciel XLSTAT.

Description de la régression Ridge

La régression Ridge, méthode dérivée de la régularisation de Tikhonov, a été proposée par Hoerl et Kennard en 1970. C'est une méthode d'estimation qui contraint ses coefficients à ne pas exploser, contrairement à la régression linéaire standard en grande dimension. Le contexte de grande dimension recoupe toutes les situations où l'on dispose d’un très grand nombre de variables par rapport au nombre d’individus.

La régression Ridge est une des méthodes qui vient pallier les manques (instabilité de l'estimation et manque de fiabilité de la prévision) de la régression linéaire dans un contexte de grande dimension. La régression Ridge se démarque de la régression LASSO dans sa plus grande robustesse face aux jeux de données présentant une forte multicolinéarité.

Paramétrage de la régression Ridge dans XLSTAT

Y / Variables dépendantes :

Quantitatives : sélectionnez la ou les variables réponses que vous souhaitez modéliser. Si plusieurs variables sont sélectionnées, XLSTAT fera les calculs pour chacune des variables indépendamment. Si des en-têtes de colonnes ont été sélectionnés, veuillez vérifier que l'option « Libellés des variables » est activée.

Type de réponse : sélectionnez le type de réponse que vous avez :

  • Quantitative : si votre variable réponse contient des valeurs numériques, choisissez ce type de variable réponse.

X / Variables explicatives :

Quantitatives : activez cette option si vous voulez inclure une ou plusieurs variables explicatives quantitatives dans le modèle. Sélectionnez alors la ou les variables correspondantes sur la feuille Excel. Les données sélectionnées doivent être de type numérique. Si le libellé des variables a été sélectionné, veuillez vérifier que l'option « Libellés des variables » est activée.

Qualitatives : activez cette option si vous voulez inclure une ou plusieurs variables explicatives qualitatives dans le modèle. Sélectionnez alors la ou les variables correspondantes sur la feuille Excel. Les données sélectionnées peuvent être de tout type, mais les données numériques sont automatiquement considérées comme nominales. Si le libellé des variables a été sélectionné, veuillez vérifier que l'option « Libellés des variables » est activée.

Options de la régression Ridge dans XLSTAT

Paramètres du modèle : cette option vous permet de décider de la méthode utilisée pour définir le paramètre de régularisation λ.

Validation croisée : activez cette option si vous souhaitez calculer le paramètre λ par validation croisée. Cette option vous permet de lancer une validation croisée "k-fold" pour obtenir le paramètre de régularisation λ optimal. Les données sont divisées en k blocs de taille égales. Un seul bloc est retenu en tant qu'échantillon de validation pour tester le modèle, et les k-1 blocs restants sont utilisés en tant qu'échantillon d'apprentissage.

Saisie manuelle : activez cette option si vous souhaitez spécifier le paramètre de régularisation λ.

Lambda : activez cette option si vous souhaitez calculer le paramètre λ par validation croisée. Dans le cas contraire, saisissez la valeur que vous souhaitez affecter au paramètre λ.

Paramètres de la validation croisée :

  • Nombre de blocs : entrez le nombre de blocs à constituer pour la validation croisée. Valeur par défaut : 5.

  • Nombre de valeurs testées : entrez le nombre de valeurs de λ qui seront testées au cours de la validation croisée. Valeur par défaut : 100.

Conditions d'arrêt :

  • Convergence : entrez la valeur seuil d'évolution maximale de log vraisemblance d'une itération à l'autre, qui une fois atteinte permet de considérer que l'algorithme a convergé. Valeur par défaut : 0,000001.

  • Temps maximum (en secondes) : entrez le temps maximal alloué à une descente par coordonnée. Passé ce temps, si la convergence n'a pas été atteinte, l'algorithme s'arrête et renvoie les résultats obtenus lors de la dernière itération. Valeur par défaut : 180 secondes.

Interactions / Niveau : activez cette option pour inclure des interactions dans le modèle puis entrez le niveau maximum d'interaction (valeur comprise entre 1 et 5).

Validation : activez cette option si vous souhaitez utiliser une partie des données sélectionnées pour valider le modèle.

Jeu de validation : choisissez l'une des options pour définir le mode de sélection des observations utilisées pour la validation :

  • Aléatoire : les observations sont sélectionnées de manière aléatoire. Le « Nombre d'observations » doit alors être saisi.

  • N dernières lignes : les N dernières observations sont sélectionnées pour la validation. Le « Nombre d'observations » N doit alors être saisi.

  • N premières lignes : les N premières observations sont sélectionnées pour la validation. Le « Nombre d'observations » N doit alors être saisi.

  • Variable de groupe : si vous choisissez cette option, vous devez ensuite sélectionner une variable indicatrice composée de 0 pour les observations à utiliser pour le calcul du modèle, et de 1 pour les observations à utiliser pour la validation du modèle.

Prédiction : activez cette option si vous souhaitez sélectionner des données à utiliser en mode prédiction. Si vous activez cette option, vous devez veiller à ce que les données de prédiction soient organisées comme les données d'estimation : mêmes variables, même ordre dans les sélections.

Résultats de la régression Ridge dans XLSTAT

Statistiques descriptives : le tableau des statistiques descriptives présente des statistiques simples pour toutes les variables sélectionnées. Le nombre de valeurs manquantes, le nombre de valeurs non manquantes, la moyenne, l'écart-type sont affichés pour les variables quantitatives.

Matrice de corrélation : ce tableau est affiché afin de vous permettre d'avoir un aperçu des corrélations entre les différentes variables sélectionnées.

Coefficients d'ajustement : dans ce tableau sont affichées les statistiques relatives à l'ajustement du modèle de régression :

  • Observations : le nombre d'observations prises en compte dans les calculs. Dans les formules présentées ci-dessous n désigne le nombre d'observations.

  • Somme des poids : la somme des poids des observations prises en compte dans les calculs. Dans les formules présentées ci-dessous W désigne la somme des poids.

  • DDL : le nombre de degrés de liberté pour le modèle retenu (ce nombre est égal au nombre de coefficients non-nuls dans le modèle).

  •  : le coefficient de détermination du modèle. La valeur de ce coefficient est comprise entre 0 et 1.

Le R² s'interprète comme la proportion de la variabilité de la variable dépendante expliquée par le modèle. Plus le R² est proche de 1, meilleur est le modèle.

  • MCE : la moyenne des carrés des erreurs (MCE).
  • RMCE : la racine de la moyenne des carrés des erreurs (RMCE) est la racine carrée de la MCE.

Paramètres du modèle : ce tableau fournit pour chaque paramètre sa valeur après ajustement du modèle

Coefficients normalisés : ce tableau des coefficients normalisés (aussi appelés coefficients bêta) permet, si la matrice contenant les variables explicatives n'a pas été centrée, de comparer le poids relatif des variables. Plus la valeur absolue d'un coefficient est élevée, plus le poids de la variable correspondante est important.

Prédictions et résidus : ce tableau fournit, pour chaque observation, la valeur observée de la variable dépendante, la prédiction du modèle et les résidus.

Evolution de la MCE (Validation croisée) : ce tableau fournit l'évolution de la MCE ainsi que du nombre de variables actives en fonction du paramètre de régularisation lambda

Graphique de l'importance des variables : la mesure d'importance calculée pour une variable donnée est la valeur absolue de son coefficient dans la régression.

Graphique de l'évolution de la MCE (Validation croisée) : ce graphique montre l'évolution de la MCE en fonction du paramètre lambda.

Graphiques des prédictions et résidus : ces graphiques permettent de visualiser les résultats mentionnés ci-dessus.

Exemple d'une régression Ridge dans XLSTAT

Un tutoriel sur la façon d'utiliser la régression Ridge est disponible sur le site d'Addinsoft.

ternary diagramneural network diagram

analysez vos données avec xlstat

essayez gratuitement pendant 14 jours