Classification sur une variable dichotomique avec CCR.LDA (régression par les Composantes Corrélées)

Jeu de données pour Régression par les Composantes Corrélées (CCR) XLS8.34 Mo

Vidéo du tutoriel
"Régression par les Composantes Corrélées (CCR)" inclus dans : Télécharger L'évaluation Plus d'info Commentaires utilisateurs
  • CCR Logiciel de régression par les composantes corrélées

  • Pré-requis système

    • Windows:
      • Versions : 9x/Me/NT/2000/XP/Vista/Win 7
      • Excel : 97 et supérieures
      • Processeur : 32 ou 64 bits
      • Disque dur : 150 Mo

Avantages

  • Pratique et simple d'utilisation
    Pratique et simple d'utilisation XLSTAT est parfaitement intégré à Microsoft Excel qui est le tableur le plus populaire au monde. Grâce à cette intégration, et au suivi de la même philosophie qu'Excel, l'utilisation de XLSTAT est aisée. Le logiciel est accessible dans un onglet dédié qui contient le menu de chaque module. Les analyses disponibles sont regroupées en menus fonctionnels. Les boîtes de dialogues sont pratiques et leur paramétrage est simple.
  • Partage aisé des données et résultats
    Partage aisé des données et résultats Un des plus grands avantages de XLSTAT est le fait que les données et résultats peuvent être partagés sans contrainte. En effet, données et résultats sont stockés dans Microsoft Excel et donc accessibles à tous. Il n'est pas nécessaire pour le receveur d'avoir une licence XLSTAT ou tout autre visionneur additionnel. Ceci facilite votre travail d'équipe et le rend plus économique. Enfin, les résultats sont transposables dans les autres logiciels de Microsoft Office dont PowerPoint ce qui vous permet de créer des présentations avec d'excellents graphiques en quelques minutes.
  • Modulaire
    Modulaire XLSTAT est un produit modulaire articulé autour de XLSTAT-Pro qui est le logiciel de base de XLSTAT. XLSTAT-Pro inclut déjà toutes les fonctionnalités les plus courantes en statistiques et analyses de données multivariées. Des fonctions plus avancées sont aussi disponibles dans des modules additionnels qui répondent à des demandes plus spécifiques. Ainsi, vous pouvez adapter le logiciel à vos propres besoins ce qui le rend plus rentable.
  • Didactique
    Didactique Les résultats de XLSTAT sont affichés pour chaque analyse et sont toujours disponibles pour une navigation plus simple. De plus, des informations utiles sont associées aux résultats afin de faciliter votre interprétation.
  • A un juste prix
    A un juste prix XLSTAT est un logiciel de statistique et d'analyse de données complet et modulaire qui s'adapte à tous les besoins analytiques d'une organisation. Son prix est très raisonnable ce qui vous permet de le rentabiliser presque immédiatement. Toutes les licences XLSTAT incluent un support et une assistance de première qualité.
  • Accessible en de nombreuses langues
    Accessible en de nombreuses langues Nous nous sommes assurés que XLSTAT puisse être accessible au plus grand nombre en distribuant le programme dans de nombreuses langues dont le français, l'anglais, l'allemand, l'espagnol, l'italien, le portugais, le polonais, le chinois et le japonais.
  • Automatisable et personnalisable
    Automatisable et personnalisable La plupart des fonctions disponibles dans XLSTAT peuvent être directement appelées depuis l'application Visual Basic de Microsoft Excel. Elles peuvent être intégrées à vos routines pour répondre aux besoins d'une application particulière. Ajouter des tableaux de résultats, des graphiques, ou modifier l'existant est simplifié. De plus, XLSTAT inclut des outils permettant de sauvegarder ou de recharger des paramètres automatiquement, mais aussi de générer du code VBA. Ceci permet de reproduire vos analyses depuis l'éditeur VBA. Cette automatisation des analyses routinières vous fera gagner du temps.

Jeu de données pour une classification avec CCR.LDA (régression par les Composantes Corrélées)

Ce tutoriel est basé sur un jeu de données simulées. Le nombre de variable est P = 84, qui inclue 28 28 réels prédicteurs (la liste est dans la table 1 avec leurs coefficents), certains ayant de fortes corrélations intra-groupes et 56 prédicteurs ( ‘INDPT1’ – ‘INDPT28’ and ‘extra1’ – ‘extra28’) qui ont dans le modèle un coefficient égal à 0. 100 échantillons ont été générés par simulation avec N = 50 cas, et des tailles de groupes égaux N1 = N2 = 25.

Table 1 : Réels coefficients du modèle LDA logit.

True LDA Logit Model Coefficients

But de la régression par les Composantes Corrélées (CCR) dans cet exemple : Classification

Une régression CCR est utilisée pour appliquer le bon nombre de composantes (K) pour réduire l'effet de confusion dû aux fortes corrélations entre prédicteur. L'algorithme de sélection descendante de variable devrait permettre d'exclure les variables qui ne sont pas incluses dans le modèle à savoir les 56 prédicteurs additionnels ainsi que les prédicteurs trop faibles. Le modèle de classification CCR.LDA devrait être meuilleur qu'un modèle LDA classique.

Ce tutoriel traite du groupe #1 (N=50). Les résultats sur les 100 simulations sont présentés dans Magidson (2010).

Paramétrer un modèle CCR.LDA

Pour activer la boîte de dialogue Régression par les composantes corrélées, ouvrez XLSTAT en cliquant sur le bouton de la barre d'outil d'Excel et sélectionner la commande XLSTAT / Modéliser les données / Correlated Component Regression, ou sur le bouton correspondant dans le menu.

Régression par les composantes corrélées modèle LDA : Menu 

La boîte de dialogue Correlated Component Regression s'ouvre.

La méthode par défaut est CCR.LM (pour la régression linéaire), il faut donc changer la méthode en CCR.LDA.

Régression par les composantes corrélées modèle LDA :Boîte de dialogue, onglet Général

Figure 1. Onglet Général - paramètres par défaut

Dans le champ Y/ Variables dépendantes, sélectionnez la variable ‘ZPC1’ qui est dans la colonne A. Cette variable est une mesure de l’appartenance au groupe ZPC1. Si la valeur est 1, l’individu fait partie du groupe.  Le modèle est Logit(Y)=exp(Prob[Y=1|X])/(1+exp(Prob[Y=1|X]).

Les 84 prédicteurs sont à mettre dans le champ X/ Prédicteurs.

Enfin, les Libellés des Observations sont à renseigner avec la variable ID.

Régression par les composantes corrélées modèle LDA :Boîte de dialogue, onglet Général rempli

Figure 2. Boîte de dialogue / Onglet Général rempli

Dans l’onglet suivant, Options, nous allons déterminer le nombre de composantes à ‘5’. Nous allons aussi activer l’option Sélectionner les variables avec les paramètres montrés ci-dessous.

Régression par les composantes corrélées modèle LDA :Boîte de dialogue, onglet Options 

Figure 3. Boîte de dialogue / Onglet Options

Dans l’onglet Validation, activez la validation et choisissez les N dernières lignes du jeu de données pour la validation, le nombre d’observations à prendre en compte est 4950. Le jeu de calibration est donc de 50 échantillons et le jeu de validation de 4950.

Activez aussi la validation croisée, avec 1 pour le nombre de répétition et 5 pour le nombre de blocs. Enfin cochez l’option Stratifier.

Régression par les composantes corrélées modèle LDA :Boîte de dialogue, onglet Validation

Figure 4. Onglet Validation

Lancez les calculs pour ce modèle à 5 composantes, en cliquant sur OK.

Interpréter les résultats du model CCR.LDA avec 10 prédicteurs

Regardez les résultats de la validation croisée et en particulier la synthèse sur la sélection des variables. La valeur ACC (Cross-validation Accuracy), ou précision du modèle est la meilleure pour un modèle à 10 prédicteurs.

Régression par les composantes corrélées modèle LDA : Graphique de sélection descendante

Figure 5. Graphique de selection descendante présentant l’aire sous la courbe ROC (AUC) et la precision (ACC) pour K=5, N=50

Regardez ensuite les valeurs dans le tableau des coefficients d’ajustement du modèle avec 5 composantes et 10 prédicteurs (modèle sélectionné automatiquement par XLSTAT). Ce tableau résume les performances du modèle.

Régression par les composantes corréllées modèle LDA : Coefficients d'ajustement

Vous pouvez ensuite regarder la composition du modèle dans le tableau des coefficients non-standardisés par exemple et comparer les valeurs aux coefficients réels.

Régression par les Composantes Corrélées modèle LDA : Coefficients non standardisés 

Ces résultats obtenus avec CCR.LDA sont plus performants que ceux ici d’une analyse discriminante linéaire classique, et ceux pour plusieurs points :

  • Le modèle final contient 10 prédicteurs valides pour le modèle CCR.LDA contre seulement 4 pour une LDA stepwise.
  • Il y a moins de prédicteurs non-inclus dans le modèle retenu par CCR.LDA (0) et 2 pour LDA stepwise.
  • La précision des prédictions est meilleure pour CCR.LDA : 83.6% vs. 77.8 %.
Résultats de la classification pour CCR.LDA :
Régression par les Composantes Corrélées modèle LDA : Classification pour l'échantillon de validation

Résultats de la classification LDA stepwise pour comparaison :

Correlated Component Regression: Classification functions and beta

Correlated Component Regression: Confusion matrix 

Conclusion sur ce modèle CCR.LDA

De manière générale, les résultats obtenus sur les échantillons de simulation montrent que la méthode CCR.LDA est plus performante qu’une LDA classique avec sélection ascendante. Plus de détails dans la publication suivante : Magidson, 2010: Correlated Component Regression: A Prediction/Classification Methodology for Possibly Many Features. 2010 Proceedings of the American Statistical Association.