Régression par les moindres carrés partiels (PLS)

La régression par les moindres carrés partiels, ou encore régression PLS est une méthode rapide, efficace et optimale pour un critère de minimisation des covariances bien maîtrisé. Son utilisation est recommandée dans le cas où un grand nombre de variables explicatives est utilisé, ou lorsqu'il y a de fortes colinéarités entre les variables.

Principe de la régression PLS (par les moindres carrés partiels)

L'idée de la régression PLS (Partial Least Squares) est de créer à partir d'un tableau de n observations décrites par p variables, un ensemble de h composantes avec h < p. La méthode de construction des composantes diffère de celle de l'ACP, et présente l'avantage de bien s'accommoder de la présence de données manquantes. La détermination du nombre de composantes à retenir est en général fondée sur un critère mettant en jeu une validation croisée. L'utilisateur peut aussi fixer lui-même le nombre de composantes à retenir.

Distinction entre PLS1 et PLS2

On distingue souvent la PLS1 de la méthode PLS2. La PLS1 concerne le cas où il y a une seule variable dépendante, la PLS2 celui où il y a plusieurs variables dépendantes. Les algorithmes utilisés dans XLSTAT sont tels que la PLS1 est un cas particulier de la PLS2. La distinction ne sera donc pas faite ici.

Equation du modèle de régression PLS

Dans le cas des méthodes OLS et PCR, si l'on doit calculer les modèles pour plusieurs variables dépendantes, le calcul des modèles consiste en une simple boucle sur les colonnes du tableau des variables dépendantes. Dans le cas de la régression PLS, la structure de covariance du tableau des variables dépendantes influe aussi sur les calculs.

L'équation du modèle de la régression PLS est donnée par :

Y = ThC’h + Eh = XWh*C’h + Eh = XWh (P’hWh)-1 C’h + Eh

où Y est la matrice des variables dépendantes, X celle des variables explicatives, et où Th, Ch, W*h , Wh et Ph, sont des matrices générées par l'algorithme PLS, et où Eh est la matrice des résidus.

La matrice B des coefficients de régression de Y sur X en utilisant h composantes générées par l'algorithme de régression PLS est donc définie par :

B = Wh(P’hWh)-1C’h

Remarque : il s'agit donc comme en régression OLS ou PCR d'un modèle linéaire.

Conditions d'arrêt pour le nombre de facteur en régression PLS

XLSTAT propose différentes conditions d’arrêt pour la régression PLS :

  • Automatique : XLSTAT détermine automatiquement le nombre de composantes à retenir.
  • Seuil Qi² : Vous pouvez fixer la valeur seuil du critère Qi² utilisée pour déterminer si l'apport d'une composante est significatif ou non. La valeur par défaut est 0.0975 et correspond à 1-0.95².
  • Amélioration du Qi² : Vous pouvez fixer la valeur seuil du critère d'amélioration du Qi² utilisée pour déterminer si l'apport d'une composante est significatif ou non. La valeur par défaut est 0.05 et correspond à 5% d'amélioration. La valeur de ce critère est donnée par : AméliorationQ²(h) = [Q²(h) - Q²(h-1)] / Q²(h-1)
  • Press minimum : Le nombre de composantes retenues correspond au modèle donnant le coefficient de Press minimal.
  • Max composantes : Vous pouvez fixer le nombre maximum de composantes à prendre en compte dans le modèle. La valeur par défaut est 2.

Résultats graphiques de la régression PLS : graphique des corrélations, des individus et biplots

L'avantage de la régression PLS en comparaison avec la régression classique est la possibilité d'obtenir des graphiques facilement interprétables. Ceux-ci représentent les relations entre les variables explicatives entre elles ou les variables dépendantes entre elles, ainsi qu'entre variables dépendantes et explicatives. Le graphique des individus ou score plot permet quant à lui d'étudier les proximités entre les échantillons et la structure du jeu de données. Le bi-plot réunit ces trois types d'information.

Prédiction

La régression PLS est aussi utilisée à des fins prédictives. XLSTAT permet de prédire de nouveaux résultats avec une erreur estimée connue.

Remarques générales

  1. Les trois méthodes (OLS, PCR, PLS) donnent le même résultat si le nombre de composantes issues de l'ACP (en régression PCR) ou de la PLS (régression PLS) est égal au nombre de variables explicatives sélectionnées.
  2. En régression PLS, les composantes sont créées de fait de telle sorte qu'elles expliquent au mieux Y, alors qu'en PCR elles sont au départ créées uniquement en fonction de X. XLSTAT permet de corriger partiellement ce désavantage en proposant de sélectionner les composantes les plus corrélées avec Y.