Régression linéaire - méthode des moindres carrés

Equation du modèle de régression linéaire

Des trois méthodes, c'est la plus classique. La régression OLS (Ordinary Least Squares) est plus communément appelée régression linéaire (simple ou multiple). Dans le cas d'un modèle à p variables explicatives, le modèle statistique de la régression OLS s'écrit :

Y = β0 + Σj=1..p βjXj + ε

où Y désigne la variable dépendante, β0, est constante du modèle, X j désigne la jème variable explicative du modèle (j= 1 à p), et e une erreur aléatoire d'espérance 0 et de variance σ². Dans le cas où l'on dispose de n observations, l'estimation de la valeur de la variable Y pour l'observation i est donnée par l'équation suivante :

yi = β0 + Σj=1..p βjXij, (i= 1, … n)

La méthode OLS correspond à la minimisation de la somme des écarts quadratiques entre les valeurs observées et les valeurs prédites. On montre que cette minimisation conduit aux estimateurs des paramètres du modèle suivants :

[β = (X’DX)-1 X’ Dy σ² = 1/(W –p*) Σi=1..n wi(yi - yi)]

où β désigne le vecteur des estimateurs des paramètres βi, X est la matrice des variables explicatives précédées d'un vecteur de 1, y est le vecteur des n valeurs observées pour la variable dépendante, p* est le nombre de variables explicatives auquel on additionne 1 si la constante n'est pas fixée, wi est le poids associé à l'observation i, et W est la somme des poids wi. D est la matrice diagonale des poids wi.

Le vecteur des valeurs prédites s'écrit finalement :

y = X (X’ DX)-1 X’Dy

Limitations du modèle de régression linéaire

Les limitations de la régression OLS viennent de la contrainte issue du calcul de l'inverse de la matrice X'X : il faut que la matrice soit de rang p+1. En outre, certains problèmes numériques peuvent être rencontrés. XLSTAT utilise des algorithmes notamment dus à Dempster (1969) qui permettent de contourner ces deux problèmes : dans le cas où la matrice est de rang q où q est strictement inférieur à p+1, certaines variables sont supprimées du modèle, soit parce qu'elles sont constantes, soit parce qu'elles font partie d'un bloc de variables colinéaires.

Sélection de variables

Par ailleurs, une sélection automatique des variables est effectuée dans le cas où l'utilisateur sélectionnerait un nombre de variables trop important pour le nombre d'observations (la limite théorique est n-1, car au-delà la matrice X'X est non inversible).

La suppression de certaines variables peut ne pas être optimale : dans certains cas, on n'ajoute pas une variable au modèle en raison de colinéarité avec une variable ou un bloc de variables déjà présentes, mais il se pourrait qu'il soit plus pertinent de retirer une variable déjà présente dans le modèle et d'ajouter cette nouvelle variable.

Prédiction

Le modèle linéaire peut servir à prédire des valeurs pour des échantillons dont les valeurs des variables explicatives sont connues ou non. Ainsi l'on peut mesurer la qualité de la prédiction et utiliser le modèle en s'assurant que sa qualité est bonne.