Commencer avec la régression par les composantes corrélées (CCR) avec XLSTAT-CCR
Jeu de données pour Régression par les Composantes Corrélées (CCR) XLS121 Ko
Jeu de données pour réaliser une régression par les composantes corrélées
Ce tutoriel est basé sur un jeu de données fourni par Michel Tenenhaus et utilisé dans Magdinson (2011, “Correlated Component Regression: A Sparse Alternative to PLS Regression”, 5th ESSEC-SUPELEC Statistical Workshop on PLS (Partial Least Squares) Developments).
Il est composé de 24 modèles de voitures, d’une variable dépendante PRIX de la voiture, et de 6 variables explicatives (prédicteurs) qui ont toutes une corrélation positive avec la variable PRIX.

Ces prédicteurs ont aussi une corrélation modérée à forte avec les autres prédicteurs.

But de ce tutoriel sur la régression par les composantes corrélées (CCR)
La régression CCR applique une régularisation afin de réduire les effets venant du fait que les prédicteurs sont corrélés. Les coefficients de régression sont plus facilement interprétables, les prévisions sont meilleures et les effets des prédicteurs sont plus significatifs que dans la régression OLS classique.
La régression OLS maximise le R² dans l’échantillon d’apprentissage et on obtient R²=0,85. Cependant, comme l’échantillon est petit et que les prédicteurs sont corrélés, il est possible que cette estimation soit beaucoup trop optimiste. Les résultats obtenus par la régression OLS (ci-dessous) confirme cette hypothèse avec des écarts-types très grands et des estimations des coefficients négatives irréalistes pour les variables cylindrée, vitesse et largeur.

Tableau 1. Résultats de la régression OLS (CV-R²=0,63).
De plus, PUISSANCE est le seul prédicteur qui obtient un coefficient significativement différent de zéro en regardant les résultats du test t.
La régression CCR utilise un R² obtenu par validation croisée afin de déterminer le degré de régularisation (K) à utiliser dans le modèle de régression. La figure 1 montre la baisse du CV-R² lorsque K>2. Il faut donc un degré assez fort de régularisation dans ce cas (R²=0,75 avec CCR alors qu’on a 0,63 pour la régression OLS).

Figure 1. Graphique des composantes par validation croisée (CV-R²) montrant une baisse pour K>2.
En comparaison avec la régression OLS, la régression CCR obtient des coefficients positifs pour les 6 prédicteurs du modèle.


Tableau 2. Coefficients non standardisés / standardisés de la régression CCR avec 2 composantes.
La première partie de ce tutoriel montre comment utiliser XLSTAT-CCR afin d’obtenir les résultats ci-dessus. La seconde partie montre comment activer la procédure de sélection de prédicteurs afin de supprimer les prédicteurs non pertinents et ainsi obtenir de meilleurs résultats (CV-R²=0,77) comme on peut le voir dans le tableau suivant.

Tableau 3. Résultats de la régression CCR avec l’algorithme de sélection de variables.
Paramétrer une régression par les composantes corrélées
Une fois XLSTAT lancé en cliquant sur l'icône dans la barre d’outil d’Excel, choisissez la commande XLSTAT / Modélisation / Régression CCR ou cliquez sur le bouton Régression CCR de la barre d’outil Modélisation.

Une fois le bouton cliqué, la boîte de dialogue correspondant à la régression CCR apparaît avec la méthode CCR.LM (modèle de régression linéaire) sélectionnée par défaut.

Figure 2. Onglet général.
La variable dépendante correspond à la variable expliquée, qui est dans notre cas, la variable PRIX. Utilisez votre souris afin de sélectionner cette variable dans la feuille Excel.
Les prédicteurs correspondent aux 6 variables explicatives.
Le nom des modèles de voitures est sélectionné comme « Libellés des observations ».
Afin d’obtenir les résultats de la régression OLS, il suffit de fixer le nombre de composantes à 6 de façon à ce que celui-ci soit égal au nombre de prédicteurs. Dans l’onglet options de la boîte de dialogue, fixez le nombre de composantes à 6 en vérifiant que l’option automatique n’est pas activée.
Dans l’onglet options de la boîte de dialogue, vérifiez que les paramètres sont bien comme dans la figure ci-dessous.

Figure 3. Onglet options.
Le calcul débute lorsque vous cliquez sur le bouton OK.
Interpréter les résultats d’une régression par les composantes corrélées (CCR)
Une fois les statistiques descriptives affichées, les coefficients (non standardisés et standardisés) sont donnés. Par exemple, le tableau 3A présente les coefficients non standardisés. Si on compare les tableaux 3A et 1, on voit que les résultats sont équivalents.

Tableau 3A. Coefficients non standardisés obtenus à partir d’un modèle CCR à 6 composantes.
Ces coefficients peuvent être décomposés en fonction de chacune des 6 composantes à partir du tableau des poids des composantes (tableau 3B) et des loadings (tableau 3C).

Tableau 3B. Poids des composantes non standardisés.

Tableau 3C. Loadings non standardisés.
Par exemple, le coefficient -1,94 associé à la cylindrée peut être décomposé de la manière suivante :
-1.94 = .006*(92.774) + .124*(1.381) + .804*(-3.728) + .627*(-11.016) + .422*(15.190) + .167*(5.053)
Activer les options automatique et validation croisée
Lancer à nouveau la boîte de dialogue CCR en choisissant la commande XLSTAT / Modélisation / Régression CCR ou cliquez sur le bouton Régression CCR de la barre d’outil Modélisation.
Sachant que la taille de l’échantillon N est relativement petite (24) et que les corrélations entre les prédicteurs sont assez élevées, l’utilisation du modèle saturé (6 composantes) n’est pas adaptée. Nous allons montrer comment activer la validation croisée à M blocs (CV) et démontrer que le modèle à 6 composantes donne un "overfit" et que le fait d’éliminer les composantes 3 à 6 permet d’obtenir le bon degré de régularisation afin d’obtenir des résultats de meilleure qualité. Pour tester tous les degrés de régularisation, nous allons estimer 6 modèles de régression CCR (K plus petit ou égal à 6). Ceci est fait en activant l’option Automatique dans l’onglet options de la boîte de dialogue.
Le nombre de groupes pour la validation croisée est généralement choisi entre 5 et 10. Nous utiliserons 6 dans cet exemple (c’est le seul entier qui divise 24 afin d’obtenir un nombre pair). Dans l’onglet validation, nous activons Validation croisée et entrons 100 pour le nombre de répétitions pour 6 groupes. En demandant plus d’un groupe, on obtient un écart-type pour le CV-R².

Figure 4. Onglet validation.
Lorsqu’on active l’option automatique, le graphique des composantes par validation croisée apparaît dans les sorties à condition que l’option soit activée dans l’onglet graphiques.
Une fois que vous avez cliqué sur OK les analyses sont effectuées. Les statistiques de qualité d’ajustement montrent que le modèle obtenu a 2 composantes. Le CV-R² de ce modèle est de 0,750 avec un écart-type de seulement 0,014, ce qui constitue une amélioration significative par rapport au CV-R²=0,64 de la régression OLS.

Table 4A. Coefficients obtenus avec le modèle à 2 composantes.

Table 4B. Poids des composantes obtenus avec le modèle à 2 composantes.

Table 4C. Loadings obtenus avec le modèle à 2 composantes.
A partir des tableaux 4A, 4B et 4C, nous voyons comment les coefficients du modèle sont construits à partir des 2 composantes. Par exemple, le coefficient pour la variable cylindrée peut être décomposé de la manière suivante :
20.944 = .221*92.774 + .349*1.381
Activer l’algorithme de sélection de variables
Lancer à nouveau la boîte de dialogue CCR en choisissant la commande XLSTAT / Modélisation / Régression CCR ou cliquez sur le bouton Régression CCR de la barre d’outil Modélisation.
Pour supprimer des prédicteurs non pertinents ou ayant une trop faible contribution au modèle, XLSTAT-CCR utilise un algorithme de sélection de variables. Dans l’onglet options, activez l’option sélectionner les variables comme indiqué ci-dessous.

Figure 5. Onglet options.
L’activation de cette option permet d’appliquer un algorithme de sélection de variable et d'afficher le graphique donnant le R² en fonction du nombre de variables sélectionnées (à condition que l’option soit activée dans l’onglet graphiques).
Une fois que vous avez cliqué sur OK, l’analyse est lancée.
Le graphique de sélection des prédicteurs suggère que l’inclusion de 3 prédicteurs dans le modèle donne les meilleurs résultats.

Figure 6. Graphique de sélection de variables avec validation croisée
Le tableau de comptage du nombre de prédicteurs sélectionnés par validation croisée montre que la puissance et le poids sont les prédicteurs les plus importants. Ils sont inclus dans 600 et 584 des 600 régressions de la validation croisée.

Le modèle ainsi obtenu a un CV-R²=0,766 et comprend les prédicteurs puissance, vitesse et poids.

Discussion
La « key-driver regression » tente de vérifier l’importance de certains leviers clés (prédicteurs) X1, X2, …, Xp qui influencent une variable dépendante. Par exemple, une variable dépendante typique de ce type d’analyse est la satisfaction des consommateurs. La régression OLS rencontre des difficultés dans ce genre de cas car les prédicteurs ont bien souvent des corrélations élevées les uns avec les autres, ce qui entraîne des problèmes d’estimation et l’obtention de paramètres instable et donc inutilisables afin de mesurer une importance.
La régression sur les composantes corrélées (CCR) a été créée afin de traiter ce genre de problèmes (de plus, elle fonctionne aussi lorsqu’il y a plus de prédicteurs que d’observations). Les estimations des paramètres sont alors plus faciles à interpréter et la validation croisée permet d’éviter les problèmes de « over-fitting » afin d’obtenir de meilleurs prédictions.