Régression linéaire - méthode des moindres carrés (OLS)

La régression par la méthode des moindres carrés ordinaires, souvent appelée régression linéaire, est disponible dans Excel avec le logiciel XLSTAT.

La régression OLS (moindres carrés ordinaires) est une technique pour estimer les coefficients d'une régression linéaire qui décrivent les relations entre une ou plusieurs variables quantitatives et une variable dépendante (selon si la régression linéaire est simple ou multiple). Les moindres carrés désignent l'erreur quadratique minimale. Les estimateurs du maximum de vraisemblance ou des moments sont des approches alternatives à la régression OLS.

En pratique, la régression OLS s'utilise dans beaucoup de domaines :

la météorologie, pour prédire des températures ou le niveau de pluviométrie selon des facteurs externes
la biologie, pour prédire le nombre restant d'individus dans une espèce selon le nombre de prédateurs ou de ressources de vie
l'économie, pour prédire le chiffre d'affaires d'une entreprise en fonction du nombre de ventes
.... et bien d'autres.

Un peu de théorie : équations pour la régression OLS

La formule des moindres carrés ordinaires : quelle est l'équation du modèle ?

Dans le cas d'un modèle à p variables explicatives, le modèle statistique de la régression OLS s'écrit :

Y = β₀ + Σ_j=1..p β_jX_j + ε

où Y désigne la variable dépendante, β₀, est constante du modèle, X_j désigne la j^ème variable explicative du modèle (j= 1 à p), et e une erreur aléatoire d'espérance 0 et de variance σ². Dans le cas où l'on dispose de n observations, l'estimation de la valeur de la variable Y pour l'observation i est donnée par l'équation suivante :

y_i = β₀ + Σ_j=1..p β_jX_ij, (i= 1, … n)

Exemple : Nous voulons prédire la taille des plantes selon le nombre de jours passés au soleil. Avant exposition, les plantes mesurent 30 cm. Une plante pousse de 1 mm (0.1 cm) après un jour d'exposition au soleil.

Y représente la taille des plantes
X est le nombre de jours passés au soleil
β₀ est de 30 car Y vaut 30 pour X=0
β₁ est de 0.1 parce qu'il s'agit du coefficient à multiplier par le nombre de jours

Une plante se trouvant exposée 5 jours au soleil aura ainsi une hauteur estimée de Y = 30 + 0.1*5 = 30.5 cm.

Bien sûr, ce calcul n'est pas toujours exact. C'est pour ça que nous avons besoin de prendre en compte l'erreur aléatoire ε.

De plus, avant prédiction, nous devons identifier les coefficients β : nous commençons en spécifiant un tableau contenant les hauteurs des différentes plantes ainsi que le nombre de jours passés au soleil. Si vous voulez en savoir plus sur les calculs, vous pouvez lire le paragraphe suivant.

Comment marche la méthode OLS ?

La méthode OLS correspond à la minimisation de la somme des écarts quadratiques entre les valeurs observées et les valeurs prédites. On montre que cette minimisation conduit aux estimateurs des paramètres du modèle suivants :

β = (X’DX)^-1 X’ Dy

où β désigne le vecteur des estimateurs des paramètres β_i, X est la matrice des variables explicatives précédées d'un vecteur de 1, y est le vecteur des n valeurs observées pour la variable dépendante, p* est le nombre de variables explicatives auquel on additionne 1 si la constante n'est pas fixée, w_i est le poids associé à l'observation i, et W est la somme des poids w_i. D est la matrice diagonale des poids w_i.

Le vecteur des valeurs prédites s'écrit finalement :

y = X (X’ DX)^-1 X’Dy

Nous pouvons même calculer la valeur de la variance σ² de l'erreur aléatoire ε avec la formule suivante :

σ² = 1/(W –p*) Σ_i=1..n w_i(y_i - y_i)

Quelle est l'explication intuitive de la méthode OLS ?

Intuitivement parlant, le but de la méthode OLS est de minimiser l'erreur de prédiction entre les valeurs réelles et les valeurs prédites. On pourrait se demander pourquoi minimiser la somme des erreurs quadratiques et non la somme des erreurs directement.

La régression OLS prend en compte les erreurs au carré au lieu des erreurs classiques, car parfois elles peuvent prendre des valeurs négatives ou positives et ainsi s'additionner à une valeur pratiquement nulle.

Par exemple, si vos vraies valeurs sont 2, 3, 5, 2, et 4 et que vos valeurs prédites sont 3, 2, 5, 1, 5, alors l'erreur totale serait (3-2)+(2-3)+(5-5)+(1-2)+(5-4)=1-1+0-1+1=0 et l'erreur moyenne serait ainsi 0/5=0, ce qui pourrait mener à des conclusions fausses.

Cependant, si vous calculez l'erreur quadratique moyenne, elle serait de (3-2)^2+(2-3)^2+(5-5)^2+(1-2)^2+(5-4)^2=4 et 4/5=0.8. En ramenant l'erreur à l'échelle des données grâce à la racine carrée, on obtient sqrt(0.8)=0.89, donc les prédictions diffèrent en moyenne de 0.89 par rapport à la valeur réelle.

LANCEZ VOTRE MODELE DE REGRESSION

Quelles sont les hypothèses nécessaires pour la régression OLS ?

Les individus (ou observations) sont indépendants. C'est en général vrai dans les situations quotidiennes (la quantité de pluie ne dépend pas de la journée précédente, les bénéfices ne dépendent pas du jour précédent et la taille d'une personne ne dépend pas de la personne mesurée aupavarant...).
La variance est homogène. Le test de Levene est proposé par XLSTAT pour tester l'égalité des variances des erreurs.
Les résidus suivent une distribution normale. XLSTAT propose plusieurs méthodes pour tester la normalité des résidus.

Les résidus du modèle (ou erreurs) sont les distances entre les points représentant les observations et le modèle ajusté. Les résidus du modèle représentent la part de variabilité dans les données que le modèle n'a pas réussi à expliquer. La statistique du R² est la part de variabilité expliquée par le modèle, donc moins il y a de résidus, plus la statistique du R² est élevée.

L'homoscédasticité et l'indépendance des termes d'erreur sont des hypothèses clés dans la régression linéaire où il est supposé que les variances des termes d'erreur sont indépendantes et identiquement distribuées. Quand ces hypothèses ne peuvent pas être réalisées, une conséquence est qu'il est impossible d'estimer la matrice de covariance en utilisant la formule classique, et que la variance des paramètres correspondant aux coefficients bêta du modèle linéaire peut être fausse ainsi que leurs intervalles de confiance.

Comment configurer un modèle de régression linéaire dans XLSTAT ?

Dans XLSTAT, vous pouvez facilement lancer une régression linéaire sans même coder, juste en sélectionnant des données ! Vous n'avez qu'à sélectionner votre variable dépendante ainsi que vos variables explicatives.

Vous pouvez sélectionner plusieurs sorties telles que les statistiques descriptives de vos données, mais également les corrélations et l'analyse de la variance.

Hormis les statistiques et l'équation du modèle, vous pouvez aussi sélectionner les tableaux que vous voulez représenter, tels que celui de la régression. Vous pouvez également voir tous les points représentant les observations, par exemple, celui de la régression linéaire. Vous pouvez visualiser ces points ainsi que la ligne de régression centrale avec un intervalle de confiance.

Prédictions dans la régression OLS avec XLSTAT

Le modèle linéaire est souvent utilisé pour prédire des valeurs pour des échantillons dont les valeurs des variables explicatives sont connues ou non. Ainsi, avec XLSTAT, on peut mesurer la qualité de la prédiction et utiliser le modèle en s'assurant que sa qualité est bonne.

Aller plus loin : limitations du modèle de régression linéaire

Les limitations de la régression OLS viennent de la contrainte issue du calcul de l'inverse de la matrice X'X : il faut que la matrice soit de rang p+1. En outre, certains problèmes numériques peuvent être rencontrés. XLSTAT utilise des algorithmes notamment dus à Dempster (1969) qui permettent de contourner ces deux problèmes : dans le cas où la matrice est de rang q où q est strictement inférieur à p+1, certaines variables sont supprimées du modèle, soit parce qu'elles sont constantes, soit parce qu'elles font partie d'un bloc de variables colinéaires.

Quels sont les avantages de la régression OLS : sélection de variables

Par ailleurs, une sélection automatique des variables est effectuée dans le cas où l'utilisateur sélectionnerait un nombre de variables trop important pour le nombre d'observations (la limite théorique est n-1, car au-delà la matrice X'X est non inversible).

La suppression de certaines variables peut ne pas être optimale : dans certains cas, on n'ajoute pas une variable au modèle en raison de colinéarité avec une variable ou un bloc de variables déjà présentes. Cependant, il se pourrait qu'il soit plus pertinent de retirer une variable déjà présente dans le modèle et d'ajouter cette nouvelle variable.

Pour cette raison, ainsi que pour gérer les cas où il y a un très grand nombre de variables explicatives, d'autres méthodes ont été développées telles que la régression des Moindres Carrés Partiels (PLS).