Commencer avec la régression par les composantes corrélées (CCR) avec XLSTAT-CCR

Jeu de données pour Régression par les Composantes Corrélées (CCR) XLS121 Ko

Vidéo du tutoriel
"Régression par les Composantes Corrélées (CCR)" inclus dans : Télécharger L'évaluation Plus d'info Commentaires utilisateurs
  • CCR Logiciel de régression par les composantes corrélées

  • Pré-requis système

    • Windows:
      • Versions : 9x/Me/NT/2000/XP/Vista/Win 7
      • Excel : 97 et supérieures
      • Processeur : 32 ou 64 bits
      • Disque dur : 150 Mo

Avantages

  • Pratique et simple d'utilisation
    Pratique et simple d'utilisation XLSTAT est parfaitement intégré à Microsoft Excel qui est le tableur le plus populaire au monde. Grâce à cette intégration, et au suivi de la même philosophie qu'Excel, l'utilisation de XLSTAT est aisée. Le logiciel est accessible dans un onglet dédié qui contient le menu de chaque module. Les analyses disponibles sont regroupées en menus fonctionnels. Les boîtes de dialogues sont pratiques et leur paramétrage est simple.
  • Partage aisé des données et résultats
    Partage aisé des données et résultats Un des plus grands avantages de XLSTAT est le fait que les données et résultats peuvent être partagés sans contrainte. En effet, données et résultats sont stockés dans Microsoft Excel et donc accessibles à tous. Il n'est pas nécessaire pour le receveur d'avoir une licence XLSTAT ou tout autre visionneur additionnel. Ceci facilite votre travail d'équipe et le rend plus économique. Enfin, les résultats sont transposables dans les autres logiciels de Microsoft Office dont PowerPoint ce qui vous permet de créer des présentations avec d'excellents graphiques en quelques minutes.
  • Modulaire
    Modulaire XLSTAT est un produit modulaire articulé autour de XLSTAT-Pro qui est le logiciel de base de XLSTAT. XLSTAT-Pro inclut déjà toutes les fonctionnalités les plus courantes en statistiques et analyses de données multivariées. Des fonctions plus avancées sont aussi disponibles dans des modules additionnels qui répondent à des demandes plus spécifiques. Ainsi, vous pouvez adapter le logiciel à vos propres besoins ce qui le rend plus rentable.
  • Didactique
    Didactique Les résultats de XLSTAT sont affichés pour chaque analyse et sont toujours disponibles pour une navigation plus simple. De plus, des informations utiles sont associées aux résultats afin de faciliter votre interprétation.
  • A un juste prix
    A un juste prix XLSTAT est un logiciel de statistique et d'analyse de données complet et modulaire qui s'adapte à tous les besoins analytiques d'une organisation. Son prix est très raisonnable ce qui vous permet de le rentabiliser presque immédiatement. Toutes les licences XLSTAT incluent un support et une assistance de première qualité.
  • Accessible en de nombreuses langues
    Accessible en de nombreuses langues Nous nous sommes assurés que XLSTAT puisse être accessible au plus grand nombre en distribuant le programme dans de nombreuses langues dont le français, l'anglais, l'allemand, l'espagnol, l'italien, le portugais, le polonais, le chinois et le japonais.
  • Automatisable et personnalisable
    Automatisable et personnalisable La plupart des fonctions disponibles dans XLSTAT peuvent être directement appelées depuis l'application Visual Basic de Microsoft Excel. Elles peuvent être intégrées à vos routines pour répondre aux besoins d'une application particulière. Ajouter des tableaux de résultats, des graphiques, ou modifier l'existant est simplifié. De plus, XLSTAT inclut des outils permettant de sauvegarder ou de recharger des paramètres automatiquement, mais aussi de générer du code VBA. Ceci permet de reproduire vos analyses depuis l'éditeur VBA. Cette automatisation des analyses routinières vous fera gagner du temps.

Jeu de données pour réaliser une régression par les composantes corrélées

Ce tutoriel est basé sur un jeu de données fourni par Michel Tenenhaus et utilisé dans Magdinson (2011, “Correlated Component Regression: A Sparse Alternative to PLS Regression”, 5th ESSEC-SUPELEC Statistical Workshop on PLS (Partial Least Squares) Developments).

Il est composé de 24 modèles de voitures, d’une variable dépendante PRIX de la voiture, et de 6 variables explicatives (prédicteurs) qui ont toutes une corrélation positive avec la variable PRIX.

Corrélation avec prix

 Ces prédicteurs ont aussi une corrélation modérée à forte avec les autres prédicteurs.

Matrice de corrélation prédicteurs

But de ce tutoriel sur la régression par les composantes corrélées (CCR)

La régression CCR applique une régularisation afin de réduire les effets venant du fait que les prédicteurs sont corrélés. Les coefficients de régression sont plus facilement interprétables, les prévisions sont meilleures et les effets des prédicteurs sont plus significatifs que dans la régression OLS classique.

La régression OLS maximise le R² dans l’échantillon d’apprentissage et on obtient R²=0,85. Cependant, comme l’échantillon est petit et que les prédicteurs sont corrélés, il est possible que cette estimation soit beaucoup trop optimiste. Les résultats obtenus par la régression OLS (ci-dessous) confirme cette hypothèse avec des écarts-types très grands et des estimations des coefficients négatives irréalistes pour les variables cylindrée, vitesse et largeur.  

 paramètres regression ols

Tableau 1. Résultats de la régression OLS (CV-R²=0,63).

De plus, PUISSANCE est le seul prédicteur qui obtient un coefficient significativement différent de zéro en regardant les résultats du test t.

La régression CCR utilise un R² obtenu par validation croisée afin de déterminer le degré de régularisation (K) à utiliser dans le modèle de régression. La figure 1 montre la baisse du CV-R² lorsque K>2. Il faut donc un degré assez fort de régularisation dans ce cas (R²=0,75 avec CCR alors qu’on a 0,63 pour la régression OLS).

Graphique des composantes

Figure 1. Graphique des composantes par validation croisée (CV-R²)  montrant une baisse pour K>2.

En comparaison avec la régression OLS, la régression CCR obtient des coefficients positifs pour les 6 prédicteurs du modèle.

Coefficients non standardisés

Coefficients standardisés

Tableau 2. Coefficients non standardisés / standardisés de la régression CCR avec 2 composantes.

La première partie de ce tutoriel montre comment utiliser XLSTAT-CCR afin d’obtenir les résultats ci-dessus. La seconde partie montre comment activer la procédure de sélection de prédicteurs afin de supprimer les prédicteurs non pertinents et ainsi obtenir de meilleurs résultats (CV-R²=0,77) comme on peut le voir dans le tableau suivant.

 Coefficients non standardisés par sélection

Tableau 3. Résultats de la régression CCR avec l’algorithme de sélection de variables.

Paramétrer une régression par les composantes corrélées

Une fois XLSTAT lancé en cliquant sur l'icône dans la barre d’outil d’Excel, choisissez la commande XLSTAT / Modélisation / Régression CCR ou cliquez sur le bouton Régression CCR de la barre d’outil Modélisation.

 Barre modélisation

Une fois le bouton cliqué, la boîte de dialogue correspondant à la régression CCR apparaît avec la méthode CCR.LM (modèle de régression linéaire) sélectionnée par défaut.

 Boite de dialogue CCR général

Figure 2. Onglet général.

La variable dépendante correspond à la variable expliquée, qui est dans notre cas, la variable PRIX. Utilisez votre souris afin de sélectionner cette variable dans la feuille Excel.

Les prédicteurs correspondent aux 6 variables explicatives.

Le nom des modèles de voitures est sélectionné comme « Libellés des observations ».

Afin d’obtenir les résultats de la régression OLS, il suffit de fixer le nombre de composantes à 6 de façon à ce que celui-ci soit égal au nombre de prédicteurs. Dans l’onglet options de la boîte de dialogue, fixez le nombre de composantes à 6 en vérifiant que l’option automatique n’est pas activée.

Dans l’onglet options de la boîte de dialogue, vérifiez que les paramètres sont bien comme dans la figure ci-dessous.

 Boite de dialogue CCR options 6 composantes

Figure 3. Onglet options.

 Le calcul débute lorsque vous cliquez sur le bouton OK.

Interpréter les résultats d’une régression par les composantes corrélées (CCR)

Une fois les statistiques descriptives affichées, les coefficients (non standardisés et standardisés) sont donnés. Par exemple, le tableau 3A présente les coefficients non standardisés. Si on compare les tableaux 3A et 1, on voit que les résultats sont équivalents.

 Coefficients non standardisés 6 composantes ccr

Tableau 3A. Coefficients non standardisés obtenus à partir d’un modèle CCR à 6 composantes.

 Ces coefficients peuvent être décomposés en fonction de chacune des 6 composantes à partir du tableau des poids des composantes (tableau 3B) et des loadings (tableau 3C).

 Poids 6 composantes ccr

Tableau 3B. Poids des composantes non standardisés.

 Loadings 6 composantes ccr

Tableau 3C. Loadings non standardisés.

Par exemple, le coefficient -1,94 associé à la cylindrée peut être décomposé de la manière suivante :

-1.94 = .006*(92.774) + .124*(1.381) + .804*(-3.728) + .627*(-11.016) + .422*(15.190) + .167*(5.053)

Activer les options automatique et validation croisée

Lancer à nouveau la boîte de dialogue CCR en choisissant la commande XLSTAT / Modélisation / Régression CCR ou cliquez sur le bouton Régression CCR de la barre d’outil Modélisation.

Sachant que la taille de l’échantillon N est relativement petite (24) et que les corrélations entre les prédicteurs sont assez élevées, l’utilisation du modèle saturé (6 composantes) n’est pas adaptée.  Nous allons montrer comment activer la validation croisée à M blocs (CV) et démontrer que le modèle à 6 composantes donne un "overfit" et que le fait d’éliminer les composantes 3 à 6 permet d’obtenir le bon degré de régularisation afin d’obtenir des résultats de meilleure qualité. Pour tester tous les degrés de régularisation, nous allons estimer 6 modèles de régression CCR (K plus petit ou égal à 6). Ceci est fait en activant l’option Automatique dans l’onglet options de la boîte de dialogue.

Le nombre de groupes pour la validation croisée est généralement choisi entre 5 et 10. Nous utiliserons 6 dans cet exemple (c’est le seul entier qui divise 24 afin d’obtenir un nombre pair). Dans l’onglet validation, nous activons Validation croisée et entrons 100 pour le nombre de répétitions pour 6 groupes. En demandant plus d’un groupe, on obtient un écart-type pour le CV-R².

 Boite de dialogue CCR validation

Figure 4. Onglet validation.

Lorsqu’on active l’option automatique, le graphique des composantes par validation croisée apparaît dans les sorties à condition que l’option soit activée dans l’onglet graphiques.

Une fois que vous avez cliqué sur OK les analyses sont effectuées. Les statistiques de qualité d’ajustement montrent que le modèle obtenu a 2 composantes. Le CV-R² de ce modèle est de 0,750 avec un écart-type de seulement 0,014, ce qui constitue une amélioration significative par rapport au CV-R²=0,64 de la régression OLS.

 Coefficients non standardisés

Table 4A. Coefficients obtenus avec le modèle à 2 composantes.

Poids 2 composantes ccr

Table 4B. Poids des composantes obtenus avec le modèle à 2 composantes.

Loadings 2 composantes ccr

Table 4C. Loadings obtenus avec le modèle à 2 composantes.

A partir des tableaux 4A, 4B et 4C, nous voyons comment les coefficients du modèle sont construits à partir des 2 composantes. Par exemple, le coefficient pour la variable cylindrée peut être décomposé de la manière suivante :

20.944 = .221*92.774 + .349*1.381

Activer l’algorithme de sélection de variables

Lancer à nouveau la boîte de dialogue CCR en choisissant la commande XLSTAT / Modélisation / Régression CCR ou cliquez sur le bouton Régression CCR de la barre d’outil Modélisation.

Pour supprimer des prédicteurs non pertinents ou ayant une trop faible contribution au modèle, XLSTAT-CCR utilise un algorithme de sélection de variables. Dans l’onglet options, activez l’option sélectionner les variables comme indiqué ci-dessous.

 Boite de dialogue CCR sélection

Figure 5. Onglet options.

L’activation de cette option permet d’appliquer un algorithme de sélection de variable et d'afficher le graphique donnant le R² en fonction du nombre de variables sélectionnées (à condition que l’option soit activée dans l’onglet graphiques).

Une fois que vous avez cliqué sur OK, l’analyse est lancée.

Le graphique de sélection des prédicteurs suggère que l’inclusion de 3 prédicteurs dans le modèle donne les meilleurs résultats.

 Graphique de sélection ccr

Figure 6. Graphique de sélection de variables avec validation croisée

Le tableau de comptage du nombre de prédicteurs sélectionnés par validation croisée montre que la puissance et le poids sont les prédicteurs les plus importants. Ils sont inclus dans 600 et 584 des 600 régressions de la validation croisée.

Validation croisée répétitions ccr

Le modèle ainsi obtenu a un CV-R²=0,766 et comprend les prédicteurs puissance, vitesse et poids.

Qualité ajustement ccr

Discussion

La « key-driver regression » tente de vérifier l’importance de certains leviers clés (prédicteurs) X1, X2, …, Xp qui influencent une variable dépendante. Par exemple, une variable dépendante typique de ce type d’analyse est la satisfaction des consommateurs. La régression OLS rencontre des difficultés dans ce genre de cas car les prédicteurs ont bien souvent des corrélations élevées les uns avec les autres, ce qui entraîne des problèmes d’estimation et l’obtention de paramètres instable et donc inutilisables afin de mesurer une importance.

La régression sur les composantes corrélées (CCR) a été créée afin de traiter ce genre de problèmes (de plus, elle fonctionne aussi lorsqu’il y a plus de prédicteurs que d’observations). Les estimations des paramètres sont alors plus faciles à interpréter et la validation croisée permet d’éviter les problèmes de « over-fitting » afin d’obtenir de meilleurs prédictions.