Régression sur les Composantes Principales (PCR)

Principes de la régression sur les composantes principales

La régression sur les composantes principales ou PCR (Principal Components Regression) comprend trois étapes :

  1. on réalise d'abord une ACP (Analyse en Composantes Principales) sur le tableau des variables explicatives,
  2. puis on effectue une régression OLS aussi appelée régression linéaire sur les composantes retenues,
  3. enfin on calcule les paramètres du modèle sur les variables d'origine.

Equations du modèle de la régression sur les composantes principales

L'ACP permet de passer d'un tableau X comprenant n observations décrites par p variables à un tableau S de n observations décrites par q composantes, où q est inférieur ou égal à p et tel que (S'S) est inversible. Une sélection supplémentaire peut être effectuée de telle sorte que seuls les r composantes les plus corrélées avec la variable Y soient gardées pour la régression OLS. On obtient alors le tableau R.

Le calcul de la régression OLS s'effectue sur le tableau R. On obtient alors les paramètres correspondant à chacun des r facteurs. Afin de palier le problème d'interprétation des paramètres ainsi obtenus, XLSTAT effectue automatiquement les calculs nécessaires pour obtenir les paramètres et les intervalles de confiance pour les variables de départ.

Résultats graphiques de la régression sur les composantes principales : Graphiques des corrélations, des individus et biplots

Grâce à la première étape, analyse en composantes principales, la régression PCR a l'avantage sur la régression classique de proposer des graphiques facilement interprétables. Ceux-ci représentent les relations entre les variables explicatives entre elles, ainsi qu'avec la variable dépendante. Le graphique des individus ou score plot permet quant à lui d'étudier les proximités entre les échantillons et la structure du jeu de données. Le bi-plot réunit ces trois types d'information.

Prédiction grâce à la régression sur les composantes principales

La régression en composantes principales (PCR) est aussi utilisée a des fins prédictives. XLSTAT permet de prédire de nouveaux résultats avec une erreur estimée connue.