Obtenir des prédictions avec un modèle de régression CCR à deux classes
Jeu de données pour Régression par les Composantes Corrélées (CCR) XLS565 Ko
Jeu de données pour un modèle CCR à deux classes
Ce tutoriel utilise les données de Tenenhaus, et al. (2005): Tenenhaus, M., Pagès, J., Ambroisine L. and & Guinot, C. (2005); PLS methodology for studying relationships between hedonic judgments and product characteristics; Food Quality and Preference. 16, 4, pp 315-325.
Le jeu de données présente l'appréciation (note) de 96 juges sur 6 jus d'orange. Chacun des jus a été décrit par 16 attributs physico-chimiques. De plus, le jeu de données contient des informations sur une précédente classification des juges en deux groupes basée sur leur préférence en termes de jus d'orange. Vous pouvez obtenir des détails sur la régression utilisée pour obtenir les probabilités d'appartenance aux groupes, en cliquant ici.
But de la régression par les Composantes Corrélées (CCR) dans cet exemple
Quand un jeu de données présente des mesures répétées par cas, l'hypothèse sur l'indépendance des observations de la méthode de régression classique (à une classe) n'est pas respectée. De ce fait, les prédictions sont trop optimistes. En effet, les résidus des mesures associées au même cas vont typique ment être corrélés. Dans ce tutoriel nous montrons comment la régression par les Composantes Corrélées peut améliorer les prédictions des notes à partir des attributs en permettant la différenciation entre les effets des attributs pour les deux classes qui présentent des préférences différentes en termes de jus d'orange.
En particulier, ce tutoriel présente la deuxième phase de ce procédé en deux étapes. La première phase consiste à développer un modèle de régression à 2 classes seulement sur les dummy variables associées aux jus d'orange. Dans la phase 2, CCR est utilisé pour prédire les notes basées sur les descripteurs pour déterminer ceux qui ont le plus d'importance dans la prédiction. On développe des modèles séparés pour les deux classes à l'étape 1, puis on combine les modèles pour les deux classes pour obtenir un seul jeu de notes prédites. L'utilisation de cette méthode en deux étapes sur deux classes, permet d'améliorer la prédiction par rapport à la méthode classique : le R² en validation croisée passe de 0.28 à 0.48.
Paramétrer un modèle de régression par les composantes corrélées (CCR)
Pour activer la boîte de dialogue Régression par les composantes corrélées, ouvrez XLSTAT en cliquant sur le bouton de la barre d'outil d'Excel et sélectionner la commande XLSTAT / Modéliser les données / Correlated Component Regression, ou sur le bouton correspondant dans le menu.

La boîte de dialogue Correlated Component Regression s'ouvre.
Dans l'onglet Général, choisissez pour la variable dépendante Y les notes qui sont dans la colonne D.
Pour les prédicteurs, sélectionnez les colonnes I à Y qui correspondent à la variable CFactor1 ainsi que les 16 attributs. CFactor1 qui a été obtenue lors de la régression sur les classes latentes seulement basée sur les notes sur jus d'orange est fortement corrélé à la variableRating_mean (colonne E), qui représente la valeur moyenne des notes sur les 6 jus d'orange pour chaque juge. Inclure cette variable dans la régression permet de simuler un centrage des données.
La variable ID (colonne B), renseigne le champ Libellé des observations. Ainsi les 6 notes de chaque juge sont affectées dans le même groupe durant la validation-croisée.
Des modèles différents vont être développés pour chaque segment. Pour le segment#1, on utilisera la probabilité de faire partie de ce segment (Posterior1). On entre donc cette variable dans le champ Poids des observations. Pour plus d'informations sur l'utilisation des probabilités d'appartenance à un segment basé sue un cas antérieur se référer à Magidson, 2005.

Figure 1. Onglet Général
Pour déterminer le nombre de composantes, dans l'onglet Options, activez l'option Automatique et entrez "17" dans le champ Max composantes. De même pour déterminer le nombre de prédicteur, cochez les cases Sélectionner les variables et Suppression par % en laissant les paramètres par défaut.

Figure 2. Onglet Options
Notez que dans l'onglet Validation, la validation croisée est activée par défaut avec les paramètres par défaut : une répétition et 10 blocs.

Figure 3. Onglet Validation
Une fois l'analyse paramétrer cliquez sur OK pour lancer les calculs.
Interpréter les résultats de la régression par les composantes corrélées pour le Segment #1
Dans le deuxième tableau de résultat, matrice de corrélation, notez que la corrélation entre note et acidité est de -0.433, ce qui suggère que les juges du segment#1 n'aime pas les jus d'orange acides. Nous verrons par la suite que les juges du segment#2 préfèrent les jus acides (corrélation = 0.252).
Regardez ensuite le tableau des composantes (VC), ainsi que le graphique associé. Le nombre optimal de composantes est 5 avec un R² de 0.398.
Figure 4. Graphique des composantes (VC) (Segment #1)
Regardez ensuite le graphique de sélection descendante des prédicteurs. Le R² maximum est obtenu pour P* = 4 prédicteurs. Comme P* < 5, K est réajusté à 4.
Figure 5. Graphique de sélection descendante (VC) (Segment #1)
Dans le tableau suivant, vous pouvez voir la fréquence à laquelle les variables sont retenues.
Table 1. Nombre de fois où chaque variable est retenue (VC) (Segment #1)
Le tableau 2 montre que l'acidité est un facteur important du modèle. Le coefficient est négatif (-0.325) ce qui confirme que les juges du segment n'apprécient pas les jus acides.
Table 2. Coefficients standardisés pour le modèle (Segment #1)
Nous allons maintenant calculés les résultats pour le Segment #2.
Développer le modèle CCR pour le Segment #2
Nous allons relancer les calculs CCR, ouvrez la boîte de dialogue en cliquant sur XLSTAT / Modéliser les données / Correlated Component Regression.
Nous allons seulement changer les poids dans l'onglet Général et sélectionner la variable Posterior2 de la colonne H.
Nous pouvons mettre les résultats pour le segment#2 côte à côte avec les résultats du segment #1 en changeant l'option Feuille en Range. Choisissez la cellule V1 dans la feuille ‘CCR.LM’.

Figure 6. Onglet Général
Cliquez sur OK pour lancer les calculs.
Ci-dessous vous avez les résultats pour le Segment #2 qui peuvent être comparé à ceux de Segment#1.
Figure 7. Graphique des composantes (VC) (Segment #2). CV-R2 = .409
Figure 8. Graphique de sélection descendante (VC) (Segment #2). CV-R2 = .411
Le tableau 3 montre que l'acidité est aussi un paramètre important du modèle pour SEgment#2. Cependant ici la valeur du coefficient est positive (0.214) ce qui montre que les juges préfèrent les jus acides. Aussi ils n'apprécient pas les jus avec un fort arôme (-0.129) ni avec un fort pouvoir sucrant (-0.169).
Table 3. Coefficients standardisés pour le modèle (Segment #2)
Obtenir les prédictions pour un modèle à 2 classes
L'amélioration de la prédiction par rapport au modèle où l'on ne prend en compte qu'une classe est due à l'information supplémentaire provenant de la segmentation. Si l'on connait l'appartenance d'un juge au segment#1 on utilisera le modèle créé sur segment#1, idem pour segment#2. Nous ne connaissons pas cette appartenance de façon certaine, mais nous avons la probabilité d'appartenance que nous utilisons comme poids.
Notre modèle de prédiction sur deux classes est une moyenne pondérée des deux jeux de prédiction obtenue sur les deux modèles. Par exemple, notre prédiction pour les notes pour le jus fruivita fr donné par le juge #1 est obtenue grâce aux deux modèles avec le poids des probabilités :
Prédiction = .98(3.441) + .02(2.373) = 3.42
Pour le juge#1, la probabilité d'appartenir au segment#1 est 0.98 et celle d'appartenir au segment#2 0.02.
For judge #1, the probability of being in Segment #1 is about .98, and thus the probability of being in Segment #2 is about .02. The predicted rating from the Segment #1 model (3.441) is weighted more heavily for this judge than that from the Segment #2 model (2.373), resulting in a prediction of 3.42 based on the 2-class regression model.
Dans la feuille de résultats Excel que nous vous avons fourni, il y a des valeurs qui ont été calculées telles que le carrée des résidus pour les prédictions sur les 2 modèles et le modèle combiné. Vous pouvez voir que l'erreur est plus faible quand on utilise le modèle combiné.
Table 4A. Prédictions et résidus pour le modèle avec les poids Posterior1
Table 4B. Prédictions et résidus pour le modèle avec les poids Posterior2
Table 4C. Prédictions et résidus pour le modèle incluant les deux classes
Les premiers résultats correspondent au jus fruivita fr. Ce jus a un niveau d'acidité faible il est donc prédit que les juges du segment#1 lui donnent une valeur plus élevée que les juges du segment#2 (3.441 vs. 2.373).
Notez que le juge#1 semble noter les 6 jus plus bas que le juge moyen (CFactor1 = -.214 et note moyenne = 2.67). Les prédictions de ce modèle en 2 classes sont plus exactes qu'un modèle qui ignore les deux classes. Un producteur de jus d'orange pourrait utiliser ces résultats pour développer un jus pour chaque secteur, en se basant sur les attributs utilisé dans chaque modèle.
Références
- Popper, R., J. Kroll, Jeff and J. Magidson (2004). Applications of latent class models to food product development: a case study. Sawtooth Software Proceedings, 2004. (pdf[W4] )
- Magidson, J., and Vermunt, J.K. (2006). Use of latent class regression models with a random intercept to remove overall response level effects in ratings data. In: A. Rizzi and M Vichi (eds.), Proceedings in Computational Statistics, 351-360, Heidelberg: Springer (pdf).
- Magidson, J., and Vermunt, J.K. (2005). An Extension of the CHAID Tree-based Segmentation Algorithm to Multiple Dependent Variables. C. Weihs & W. Gaul, Classification: The Ubiquitous Challenge, 176-183. Heidelberg: Springer (pdf).