Obtenir des prédictions avec un modèle de régression CCR à deux classes

Jeu de données pour Régression par les Composantes Corrélées (CCR) XLS565 Ko

Vidéo du tutoriel
"Régression par les Composantes Corrélées (CCR)" inclus dans : Télécharger L'évaluation Plus d'info Commentaires utilisateurs
  • CCR Logiciel de régression par les composantes corrélées

  • Pré-requis système

    • Windows:
      • Versions : 9x/Me/NT/2000/XP/Vista/Win 7
      • Excel : 97 et supérieures
      • Processeur : 32 ou 64 bits
      • Disque dur : 150 Mo

Avantages

  • Pratique et simple d'utilisation
    Pratique et simple d'utilisation XLSTAT est parfaitement intégré à Microsoft Excel qui est le tableur le plus populaire au monde. Grâce à cette intégration, et au suivi de la même philosophie qu'Excel, l'utilisation de XLSTAT est aisée. Le logiciel est accessible dans un onglet dédié qui contient le menu de chaque module. Les analyses disponibles sont regroupées en menus fonctionnels. Les boîtes de dialogues sont pratiques et leur paramétrage est simple.
  • Partage aisé des données et résultats
    Partage aisé des données et résultats Un des plus grands avantages de XLSTAT est le fait que les données et résultats peuvent être partagés sans contrainte. En effet, données et résultats sont stockés dans Microsoft Excel et donc accessibles à tous. Il n'est pas nécessaire pour le receveur d'avoir une licence XLSTAT ou tout autre visionneur additionnel. Ceci facilite votre travail d'équipe et le rend plus économique. Enfin, les résultats sont transposables dans les autres logiciels de Microsoft Office dont PowerPoint ce qui vous permet de créer des présentations avec d'excellents graphiques en quelques minutes.
  • Modulaire
    Modulaire XLSTAT est un produit modulaire articulé autour de XLSTAT-Pro qui est le logiciel de base de XLSTAT. XLSTAT-Pro inclut déjà toutes les fonctionnalités les plus courantes en statistiques et analyses de données multivariées. Des fonctions plus avancées sont aussi disponibles dans des modules additionnels qui répondent à des demandes plus spécifiques. Ainsi, vous pouvez adapter le logiciel à vos propres besoins ce qui le rend plus rentable.
  • Didactique
    Didactique Les résultats de XLSTAT sont affichés pour chaque analyse et sont toujours disponibles pour une navigation plus simple. De plus, des informations utiles sont associées aux résultats afin de faciliter votre interprétation.
  • A un juste prix
    A un juste prix XLSTAT est un logiciel de statistique et d'analyse de données complet et modulaire qui s'adapte à tous les besoins analytiques d'une organisation. Son prix est très raisonnable ce qui vous permet de le rentabiliser presque immédiatement. Toutes les licences XLSTAT incluent un support et une assistance de première qualité.
  • Accessible en de nombreuses langues
    Accessible en de nombreuses langues Nous nous sommes assurés que XLSTAT puisse être accessible au plus grand nombre en distribuant le programme dans de nombreuses langues dont le français, l'anglais, l'allemand, l'espagnol, l'italien, le portugais, le polonais, le chinois et le japonais.
  • Automatisable et personnalisable
    Automatisable et personnalisable La plupart des fonctions disponibles dans XLSTAT peuvent être directement appelées depuis l'application Visual Basic de Microsoft Excel. Elles peuvent être intégrées à vos routines pour répondre aux besoins d'une application particulière. Ajouter des tableaux de résultats, des graphiques, ou modifier l'existant est simplifié. De plus, XLSTAT inclut des outils permettant de sauvegarder ou de recharger des paramètres automatiquement, mais aussi de générer du code VBA. Ceci permet de reproduire vos analyses depuis l'éditeur VBA. Cette automatisation des analyses routinières vous fera gagner du temps.

Jeu de données pour un modèle CCR à deux classes

Ce tutoriel utilise les données de Tenenhaus, et al. (2005): Tenenhaus, M., Pagès, J., Ambroisine L. and & Guinot, C. (2005); PLS methodology for studying relationships between hedonic judgments and product characteristics; Food Quality and Preference. 16, 4, pp 315-325.

Le jeu de données présente l'appréciation (note) de 96 juges sur 6 jus d'orange. Chacun des jus a été décrit par 16 attributs physico-chimiques. De plus, le jeu de données contient des informations sur une précédente classification des juges en deux groupes basée sur leur préférence en termes de jus d'orange. Vous pouvez obtenir des détails sur la régression utilisée pour obtenir les probabilités d'appartenance aux groupes, en cliquant ici

But de la régression par les Composantes Corrélées (CCR) dans cet exemple

Quand un jeu de données présente des mesures répétées par cas, l'hypothèse sur l'indépendance des observations de la méthode de régression classique (à une classe) n'est pas respectée. De ce fait, les prédictions sont trop optimistes. En effet, les résidus des mesures associées au même cas vont typique ment être corrélés. Dans ce tutoriel nous montrons comment la régression par les Composantes Corrélées peut améliorer les prédictions des notes à partir des attributs en permettant la différenciation entre les effets des attributs pour les deux classes qui présentent des préférences différentes en termes de jus d'orange. 

En particulier, ce tutoriel présente la deuxième phase de ce procédé en deux étapes. La première phase consiste à développer un modèle de régression à 2 classes seulement sur les dummy variables associées aux jus d'orange. Dans la phase 2, CCR est utilisé pour prédire les notes basées sur les descripteurs pour déterminer ceux qui ont le plus d'importance dans la prédiction. On développe des modèles séparés pour les deux classes à l'étape 1, puis on combine les modèles pour les deux classes pour obtenir un seul jeu de notes prédites. L'utilisation de cette méthode en deux étapes sur deux classes, permet d'améliorer la prédiction par rapport à la méthode classique : le R² en validation croisée passe de 0.28 à 0.48.

Paramétrer un modèle de régression par les composantes corrélées (CCR)

Pour activer la boîte de dialogue Régression par les composantes corrélées, ouvrez XLSTAT en cliquant sur le bouton de la barre d'outil d'Excel et sélectionner la commande XLSTAT / Modéliser les données / Correlated Component Regression, ou sur le bouton correspondant dans le menu.

Correlated Component Regression menu

La boîte de dialogue Correlated Component Regression s'ouvre.

Dans l'onglet Général, choisissez pour la variable dépendante Y les notes qui sont dans la colonne D.

Pour les prédicteurs, sélectionnez les colonnes  I à Y qui correspondent à la variable CFactor1 ainsi que les 16 attributs. CFactor1 qui a été obtenue lors de la régression sur les classes latentes seulement basée sur les notes sur jus d'orange est fortement corrélé à la variableRating_mean (colonne E), qui représente la valeur moyenne des notes sur les 6 jus d'orange pour chaque juge. Inclure cette variable dans la régression permet de simuler un centrage des données.

La variable ID (colonne B), renseigne le champ Libellé des observations. Ainsi les 6 notes de chaque juge sont affectées dans le même groupe durant la validation-croisée.

Des modèles différents vont être développés pour chaque segment. Pour le segment#1, on utilisera la probabilité de faire partie de ce segment (Posterior1). On entre donc cette variable dans le champ Poids des observations. Pour plus d'informations sur l'utilisation des probabilités d'appartenance à un segment basé sue un cas antérieur se référer à Magidson, 2005.

Correlated Component Regression General Tab

Figure 1. Onglet Général

Pour déterminer le nombre de composantes, dans l'onglet Options, activez l'option Automatique et entrez "17" dans le champ Max composantes. De même pour déterminer le nombre de prédicteur, cochez les cases Sélectionner les variables et Suppression par % en laissant les paramètres par défaut.

Régression par les Composantes Corrélées : Boite de dialogue / Onglet option

Figure 2. Onglet Options

Notez que dans l'onglet Validation, la validation croisée est activée par défaut avec les paramètres par défaut : une répétition et 10 blocs.

Régression par les Composantes Corrélées : Boite de dialogue / Onglet validation

Figure 3. Onglet Validation

Une fois l'analyse paramétrer cliquez sur OK pour lancer les calculs.

Interpréter les résultats de la régression par les composantes corrélées pour le Segment #1

Dans le deuxième tableau de résultat, matrice de corrélation, notez que la corrélation entre note et acidité est de -0.433, ce qui suggère que les juges du segment#1 n'aime pas les jus d'orange acides. Nous verrons par la suite que les juges du segment#2 préfèrent les jus acides (corrélation = 0.252).

Regardez ensuite le tableau des composantes (VC), ainsi que le graphique associé. Le nombre optimal de composantes est 5 avec un R² de 0.398.

Cross-validation component plot (Segment #1)

Figure 4. Graphique des composantes (VC) (Segment #1)

Regardez ensuite le graphique de sélection descendante des prédicteurs. Le R² maximum est obtenu pour P* = 4 prédicteurs. Comme P* < 5, K est réajusté à 4.

Correlated Component Regression Cross-validation step-down plot (Segment #1)

Figure 5. Graphique de sélection descendante (VC) (Segment #1)

Dans le tableau suivant, vous pouvez voir la fréquence à laquelle les variables sont retenues.

Table 1. Nombre de fois où chaque variable est retenue (VC) (Segment #1)

Le tableau 2 montre que l'acidité est un facteur important du modèle. Le coefficient est négatif (-0.325) ce qui confirme que les juges du segment n'apprécient pas les jus acides. 

Correlated Component Regression Standardized Coefficients

Table 2. Coefficients standardisés pour le modèle (Segment #1) 

Nous allons maintenant calculés les résultats pour le Segment #2.

Développer le modèle CCR pour le Segment #2

Nous allons relancer les calculs CCR, ouvrez la boîte de dialogue en cliquant sur XLSTAT / Modéliser les données / Correlated Component Regression.

Nous allons seulement changer les poids dans l'onglet Général et sélectionner la variable Posterior2 de la colonne H.

Nous pouvons mettre les résultats pour le segment#2 côte à côte avec les résultats du segment #1 en changeant l'option Feuille en Range. Choisissez la cellule V1 dans la feuille ‘CCR.LM’.

Régression par les Composantes Corrélées : Boite de dialogue / Onglet général

Figure 6. Onglet Général

Cliquez sur OK pour lancer les calculs.

Ci-dessous vous avez les résultats pour le Segment #2 qui peuvent être comparé à ceux de Segment#1.

Correlated Component Regression Cross-Validation Component Plot

Figure 7. Graphique des composantes (VC) (Segment #2). CV-R2 = .409

Correlated Component Regression Cross-Validation Step-Down Plot

Figure 8. Graphique de sélection descendante (VC) (Segment #2). CV-R2 = .411

Le tableau 3 montre que l'acidité est aussi un paramètre important du modèle pour SEgment#2. Cependant ici la valeur du coefficient est positive (0.214) ce qui montre que les juges préfèrent les jus acides. Aussi ils n'apprécient pas les jus avec un fort arôme (-0.129) ni avec un fort pouvoir sucrant (-0.169).

 Correlated Component Regression Standardized Coefficients

Table 3. Coefficients standardisés pour le modèle (Segment #2) 

Obtenir les prédictions pour un modèle à 2 classes

L'amélioration de la prédiction par rapport au modèle où l'on ne prend en compte qu'une classe est due à l'information supplémentaire provenant de la segmentation. Si l'on connait l'appartenance d'un juge au segment#1 on utilisera le modèle créé sur segment#1, idem pour segment#2. Nous ne connaissons pas cette appartenance de façon certaine, mais nous avons la probabilité d'appartenance que nous utilisons comme poids.

Notre modèle de prédiction sur deux classes est une moyenne pondérée des deux jeux de prédiction obtenue sur les deux modèles. Par exemple, notre prédiction pour les notes pour le jus fruivita fr donné par le juge #1 est obtenue grâce aux deux modèles avec le poids des probabilités : 

Prédiction = .98(3.441) + .02(2.373) = 3.42

Pour le juge#1, la probabilité d'appartenir au segment#1 est 0.98 et celle d'appartenir au segment#2 0.02.  

For judge #1, the probability of being in Segment #1 is about .98, and thus the probability of being in Segment #2 is about .02. The predicted rating from the Segment #1 model (3.441) is weighted more heavily for this judge than that from the Segment #2 model (2.373), resulting in a prediction of 3.42 based on the 2-class regression model.

Dans la feuille de résultats Excel que nous vous avons fourni, il y a des valeurs qui ont été calculées telles que le carrée des résidus pour les prédictions sur les 2 modèles et le modèle combiné. Vous pouvez voir que l'erreur est plus faible quand on utilise le modèle combiné.

Correlated Component Regression Predictions and Residuals

Table 4A. Prédictions et résidus pour le modèle avec les poids Posterior1

Correlated Component Regression Predictions and Residuals

Table 4B. Prédictions et résidus pour le modèle avec les poids Posterior2

Correlated Component Regression Predictions and Residuals

Table 4C. Prédictions et résidus pour le modèle incluant les deux classes

Les premiers résultats correspondent au jus fruivita fr. Ce jus a un niveau d'acidité faible il est donc prédit que les juges du segment#1 lui donnent une valeur plus élevée que les juges du segment#2 (3.441 vs. 2.373).

Notez que le juge#1 semble noter les 6 jus plus bas que le juge moyen (CFactor1 = -.214 et note moyenne = 2.67). Les prédictions de ce modèle en 2 classes sont plus exactes qu'un modèle qui ignore les deux classes. Un producteur de jus d'orange pourrait utiliser ces résultats pour développer un jus pour chaque secteur, en se basant sur les attributs utilisé dans chaque modèle.

Références

  • Popper, R., J. Kroll, Jeff and J. Magidson (2004). Applications of latent class models to food product development: a case study. Sawtooth Software Proceedings, 2004. (pdf[W4] )
  • Magidson, J., and Vermunt, J.K. (2006). Use of latent class regression models with a random intercept to remove overall response level effects in ratings data. In: A. Rizzi and M Vichi (eds.), Proceedings in Computational Statistics, 351-360, Heidelberg: Springer (pdf).
  • Magidson, J., and Vermunt, J.K. (2005). An Extension of the CHAID Tree-based Segmentation Algorithm to Multiple Dependent Variables. C. Weihs & W. Gaul, Classification: The Ubiquitous Challenge, 176-183. Heidelberg: Springer (pdf).