Régression des doubles moindres carrés

Principe de l’estimation par les doubles moindres carrés

La méthode des doubles moindres carrés est très utilisée lorsque, dans une régression linéaire, au moins une des variables explicatives est endogène. Dans ce cas, la variable sera corrélée au terme d’erreur, ce qui est en contradiction avec les hypothèses de la régression linéaire. On peut notamment rencontrer ce type de situation lorsque l'une des variables explicatives a été mesurée avec erreur

Le principe de la méthode des doubles moindres carrés est d’utiliser des variables instrumentales non corrélées au terme d’erreur pour estimer les paramètres du modèle. Ces variables instrumentales sont des variables corrélées aux variables endogènes mais pas à leur terme d’erreur.

Résultats de l’estimation par les doubles moindres carrés dans XLSTAT

Ci-dessous est donnée une liste non exhaustive des résultats obtenus pour la régression linéaire avec XLSTAT.

Coefficients d'ajustement : dans ce tableau sont affichées les statistiques relatives à l'ajustement du modèle de régression :

  • Observations : le nombre d'observations prises en compte dans les calculs.
  • Somme des poids : la somme des poids des observations prises en compte dans les calculs.
  • DDL : le nombre de degrés de liberté pour le modèle retenu (correspondant à la partie erreurs).
  • R² : le coefficient de détermination du modèle. Le R² s'interprète comme la proportion de la variabilité de la variable dépendante expliquée par le modèle. Plus le R² est proche de 1, meilleur est le modèle. L'inconvénient du R² est qu'il ne prend pas en compte le nombre de variables utilisées pour ajuster le modèle.
  • R² ajusté : le coefficient de détermination ajusté du modèle. Le R² ajusté peut être négatif si le R² est voisin de zéro. Le R² ajusté est une correction du R² qui permet de prendre en compte le nombre de variables utilisées dans le modèle.
  • MCE : la moyenne des carrés des erreurs (MCE).
  • RMCE : la racine de la moyenne des carrés des erreurs (RMCE) est la racine carrée de la MCE.
  • MAPE : la Mean Absolute Percentage Error.
  • DW : le coefficient de Durbin-Watson. Ce coefficient correspond au coefficient d'autocorrélation d'ordre 1 et permet de vérifier que les résidus du modèle ne sont pas autocorrélés, sachant que l'indépendance des résidus est l'une des hypothèses de base de la régression linéaire. L'utilisateur pourra se référer à une table des coefficients de Durbin-Watson pour vérifier si l'hypothèse d'indépendance des résidus est acceptable.
  • Cp : le coefficient Cp de Mallows.
  • AIC : le critère d'information d'Akaike (Akaike's Information Criterion). Ce critère proposé par Akaike (1973) dérive de la théorie de l'information, et s'appuie sur la mesure de Kullback et Leibler (1951). C'est un critère de sélection de modèles qui pénalise les modèles pour lesquels l'ajout de nouvelles variables explicatives n'apporte pas suffisamment d'information au modèle, l'information étant mesurée au travers de la SCE. On cherche à minimiser le critère AIC.
  • SBC : le critère bayésien de Schwarz (Schwarz's Bayesian Criterion). Ce critère proposé par Schwarz (1978) est proche du critère AIC, et comme ce dernier on cherche à le minimiser.
  • PC : le critère de prédiction d'Amemiya (Amemiya's Prediction Criterion).Ce critère proposé par Amemiya (1980) permet comme le R² ajusté de tenir compte de la parcimonie du modèle.

Le tableau d’analyse de la variance permet d’évaluer le pouvoir explicatif des variables explicatives. Dans le cas où la constante du modèle n’est pas fixée à une valeur donnée, le pouvoir explicatif est évalué en comparant l’ajustement (au sens des moindres carrés) du modèle final avec l’ajustement du modèle rudimentaire composé d’une constante égale à la moyenne de la variable dépendante. Dans le cas où la constante du modèle est fixée, la comparaison est faite par rapport au modèle pour lequel la variable dépendante serait égale à la constante fixée.

L’équation du modèle est ensuite affichée pour faciliter la lecture ou la réutilisation du modèle.

Le tableau des coefficients normalisés (aussi appelés coefficients bêta) permet de comparer le poids relatif des variables. Plus la valeur absolue d’un coefficient est élevée, plus le poids de la variable correspondante est important. Lorsque l’intervalle de confiance autour des coefficients normalisés comprend la valeur 0 (cela est facilement visible sur le graphique des coefficients normalisés), le poids d’une variable dans le modèle n’est pas significatif.

Dans le tableau des prédictions et résidus sont donnés pour chaque observation, son poids, la valeur de la variable explicative qualitative s’il n’y en a qu’une, la valeur observée de la variable dépendante, la prédiction du modèle, les résidus, les intervalles de confiance et  la prédiction ajustée. Deux types d’intervalles de confiance sont affichés : un intervalle de confiance autour de la moyenne (correspondant au cas où l’on ferait la prédiction pour un nombre infini d’observations avec un ensemble de valeurs données des variables explicatives) et un intervalle autour de la prédiction ponctuelle (correspondant au cas d’une prédiction isolée pour des valeurs données des variables explicatives). Le second intervalle est toujours plus grand que le premier, les aléas étant plus importants. Si des données de validation ont été sélectionnées, elles sont affichées en fin de tableau.

Résultats graphiques pour les doubles moindres carrés dans XLSTAT

Les graphiques qui suivent permettent de visualiser les résultats mentionnés ci-dessus :

 S’il n’y a qu’une seule variable explicative dans le modèle, le premier graphique affiché permet de visualiser les valeurs observées, la droite de régression et les deux types d’intervalles de confiance autour des prévisions.

Le second graphique permet quant à lui de visualiser les résidus normalisés en fonction de la variable explicative. En principe, les résidus doivent être distribués de manière aléatoire autour de l’axe des abscisses. L’observation d’une tendance ou d’une forme révèlerait un problème au niveau du modèle.

Les trois graphiques affichés ensuite permettent de visualiser respectivement l’évolution des résidus normalisés en fonction de la variable dépendante, la distance entre les prédictions et les observations (pour un modèle idéal, les points seraient tous sur la bissectrice), et les résidus normalisés sur la forme d’un diagramme en bâtons. Ce dernier graphique permet de rapidement voir si un nombre anormal de données sort de l’intervalle ]-2, 2[ sachant que ce dernier, sous hypothèse de normalité, doit contenir environ 95% des données.