Classification sur une variable dichotomique avec CCR.LDA (régression par les Composantes Corrélées)
Jeu de données pour Régression par les Composantes Corrélées (CCR) XLS8.34 Mo
Jeu de données pour une classification avec CCR.LDA (régression par les Composantes Corrélées)
Ce tutoriel est basé sur un jeu de données simulées. Le nombre de variable est P = 84, qui inclue 28 28 réels prédicteurs (la liste est dans la table 1 avec leurs coefficents), certains ayant de fortes corrélations intra-groupes et 56 prédicteurs ( ‘INDPT1’ – ‘INDPT28’ and ‘extra1’ – ‘extra28’) qui ont dans le modèle un coefficient égal à 0. 100 échantillons ont été générés par simulation avec N = 50 cas, et des tailles de groupes égaux N1 = N2 = 25.
Table 1 : Réels coefficients du modèle LDA logit.
But de la régression par les Composantes Corrélées (CCR) dans cet exemple : Classification
Une régression CCR est utilisée pour appliquer le bon nombre de composantes (K) pour réduire l'effet de confusion dû aux fortes corrélations entre prédicteur. L'algorithme de sélection descendante de variable devrait permettre d'exclure les variables qui ne sont pas incluses dans le modèle à savoir les 56 prédicteurs additionnels ainsi que les prédicteurs trop faibles. Le modèle de classification CCR.LDA devrait être meuilleur qu'un modèle LDA classique.
Ce tutoriel traite du groupe #1 (N=50). Les résultats sur les 100 simulations sont présentés dans Magidson (2010).
Paramétrer un modèle CCR.LDA
Pour activer la boîte de dialogue Régression par les composantes corrélées, ouvrez XLSTAT en cliquant sur le bouton de la barre d'outil d'Excel et sélectionner la commande XLSTAT / Modéliser les données / Correlated Component Regression, ou sur le bouton correspondant dans le menu.
La boîte de dialogue Correlated Component Regression s'ouvre.
La méthode par défaut est CCR.LM (pour la régression linéaire), il faut donc changer la méthode en CCR.LDA.

Figure 1. Onglet Général - paramètres par défaut
Dans le champ Y/ Variables dépendantes, sélectionnez la variable ‘ZPC1’ qui est dans la colonne A. Cette variable est une mesure de l’appartenance au groupe ZPC1. Si la valeur est 1, l’individu fait partie du groupe. Le modèle est Logit(Y)=exp(Prob[Y=1|X])/(1+exp(Prob[Y=1|X]).
Les 84 prédicteurs sont à mettre dans le champ X/ Prédicteurs.
Enfin, les Libellés des Observations sont à renseigner avec la variable ID.

Figure 2. Boîte de dialogue / Onglet Général rempli
Dans l’onglet suivant, Options, nous allons déterminer le nombre de composantes à ‘5’. Nous allons aussi activer l’option Sélectionner les variables avec les paramètres montrés ci-dessous.
Figure 3. Boîte de dialogue / Onglet Options
Dans l’onglet Validation, activez la validation et choisissez les N dernières lignes du jeu de données pour la validation, le nombre d’observations à prendre en compte est 4950. Le jeu de calibration est donc de 50 échantillons et le jeu de validation de 4950.
Activez aussi la validation croisée, avec 1 pour le nombre de répétition et 5 pour le nombre de blocs. Enfin cochez l’option Stratifier.

Figure 4. Onglet Validation
Lancez les calculs pour ce modèle à 5 composantes, en cliquant sur OK.
Interpréter les résultats du model CCR.LDA avec 10 prédicteurs
Regardez les résultats de la validation croisée et en particulier la synthèse sur la sélection des variables. La valeur ACC (Cross-validation Accuracy), ou précision du modèle est la meilleure pour un modèle à 10 prédicteurs.
Figure 5. Graphique de selection descendante présentant l’aire sous la courbe ROC (AUC) et la precision (ACC) pour K=5, N=50
Regardez ensuite les valeurs dans le tableau des coefficients d’ajustement du modèle avec 5 composantes et 10 prédicteurs (modèle sélectionné automatiquement par XLSTAT). Ce tableau résume les performances du modèle.
Vous pouvez ensuite regarder la composition du modèle dans le tableau des coefficients non-standardisés par exemple et comparer les valeurs aux coefficients réels.
Ces résultats obtenus avec CCR.LDA sont plus performants que ceux ici d’une analyse discriminante linéaire classique, et ceux pour plusieurs points :
- Le modèle final contient 10 prédicteurs valides pour le modèle CCR.LDA contre seulement 4 pour une LDA stepwise.
- Il y a moins de prédicteurs non-inclus dans le modèle retenu par CCR.LDA (0) et 2 pour LDA stepwise.
- La précision des prédictions est meilleure pour CCR.LDA : 83.6% vs. 77.8 %.
Résultats de la classification LDA stepwise pour comparaison :
Conclusion sur ce modèle CCR.LDA
De manière générale, les résultats obtenus sur les échantillons de simulation montrent que la méthode CCR.LDA est plus performante qu’une LDA classique avec sélection ascendante. Plus de détails dans la publication suivante : Magidson, 2010: Correlated Component Regression: A Prediction/Classification Methodology for Possibly Many Features. 2010 Proceedings of the American Statistical Association.