Faire une classification ascendante hiérarchique sur une grande table de données - Utiliser une classification k-means suivie d'une CAH

Jeu de données pour Classification Ascendante Hiérarchique (CAH), Classification par la méthode des nuées dynamiques (k-means) XLS289 Ko

Vidéo du tutoriel
"Classification Ascendante Hiérarchique (CAH), Classification par la méthode des nuées dynamiques (k-means)" inclus dans : Télécharger L'évaluation Plus d'info Commentaires utilisateurs
  • Pro Logiciel de base de la suite XLSTAT

  • Pré-requis système

    • Windows:
      • Versions : 9x/Me/NT/2000/XP/Vista/Win 7
      • Excel : 97 et supérieures
      • Processeur : 32 ou 64 bits
      • Disque dur : 150 Mo
    • Mac OS X:
      • OS : OS X
      • Excel : X, 2004 et 2011
      • Disque dur : 150 Mo

Avantages

  • Pratique et simple d'utilisation
    Pratique et simple d'utilisation XLSTAT est parfaitement intégré à Microsoft Excel qui est le tableur le plus populaire au monde. Grâce à cette intégration, et au suivi de la même philosophie qu'Excel, l'utilisation de XLSTAT est aisée. Le logiciel est accessible dans un onglet dédié qui contient le menu de chaque module. Les analyses disponibles sont regroupées en menus fonctionnels. Les boîtes de dialogues sont pratiques et leur paramétrage est simple.
  • Partage aisé des données et résultats
    Partage aisé des données et résultats Un des plus grands avantages de XLSTAT est le fait que les données et résultats peuvent être partagés sans contrainte. En effet, données et résultats sont stockés dans Microsoft Excel et donc accessibles à tous. Il n'est pas nécessaire pour le receveur d'avoir une licence XLSTAT ou tout autre visionneur additionnel. Ceci facilite votre travail d'équipe et le rend plus économique. Enfin, les résultats sont transposables dans les autres logiciels de Microsoft Office dont PowerPoint ce qui vous permet de créer des présentations avec d'excellents graphiques en quelques minutes.
  • Modulaire
    Modulaire XLSTAT est un produit modulaire articulé autour de XLSTAT-Pro qui est le logiciel de base de XLSTAT. XLSTAT-Pro inclut déjà toutes les fonctionnalités les plus courantes en statistiques et analyses de données multivariées. Des fonctions plus avancées sont aussi disponibles dans des modules additionnels qui répondent à des demandes plus spécifiques. Ainsi, vous pouvez adapter le logiciel à vos propres besoins ce qui le rend plus rentable.
  • Didactique
    Didactique Les résultats de XLSTAT sont affichés pour chaque analyse et sont toujours disponibles pour une navigation plus simple. De plus, des informations utiles sont associées aux résultats afin de faciliter votre interprétation.
  • A un juste prix
    A un juste prix XLSTAT est un logiciel de statistique et d'analyse de données complet et modulaire qui s'adapte à tous les besoins analytiques d'une organisation. Son prix est très raisonnable ce qui vous permet de le rentabiliser presque immédiatement. Toutes les licences XLSTAT incluent un support et une assistance de première qualité.
  • Accessible en de nombreuses langues
    Accessible en de nombreuses langues Nous nous sommes assurés que XLSTAT puisse être accessible au plus grand nombre en distribuant le programme dans de nombreuses langues dont le français, l'anglais, l'allemand, l'espagnol, l'italien, le portugais, le polonais, le chinois et le japonais.
  • Automatisable et personnalisable
    Automatisable et personnalisable La plupart des fonctions disponibles dans XLSTAT peuvent être directement appelées depuis l'application Visual Basic de Microsoft Excel. Elles peuvent être intégrées à vos routines pour répondre aux besoins d'une application particulière. Ajouter des tableaux de résultats, des graphiques, ou modifier l'existant est simplifié. De plus, XLSTAT inclut des outils permettant de sauvegarder ou de recharger des paramètres automatiquement, mais aussi de générer du code VBA. Ceci permet de reproduire vos analyses depuis l'éditeur VBA. Cette automatisation des analyses routinières vous fera gagner du temps.

Jeu de données pour faire une classification ascendante hiérarchique sur une grande table de données

Une feuille Excel contenant à la fois les données et les résultats peut être téléchargée en cliquant ici.

Les données proviennent du US Census Bureau. Elles correspondent à la mesure de paramètres démographiques dans 51 Etats des Etats-Unis en 2000 et 2001. Dans le cadre de ce tutoriel, seules les données de l'année 2001 ont été conservées et, afin de supprimer les effets d'échelle, les variables initiales ont été converties en taux pour 1000 habitants.

Le but est ici de créer des groupes homogènes d'Etats. Ces données sont aussi utilisées pour le tutoriel de l'Analyse en Composantes Principales (ACP), de la classification k-means et de la classification ascendante hiérarchique (CAH).

Remarque : si vous essayez de faire l'analyse proposée ci-dessous sur les mêmes données, il est possible que vous n'obteniez pas les mêmes résultats. En effet, la méthode des nuées dynamiques implique un tirage aléatoire.

Paramétrer la classification k-means

Une fois que XLSTAT est activé, cliquez sur Analyse de données / Classification k-means dans le menu XLSTAT, ou cliquez sur le bouton correspondant de la barre Analyse de données (voir ci-dessous).

kmeans_ahc_menubarKMfr.png

Une fois le bouton cliqué, la boîte de dialogue de la classification k-means apparaît. Vous pouvez alors sélectionner les données sur la feuille Excel. Il y a plusieurs façons de sélectionner les données dans les boîtes de dialogue de XLSTAT (voir le tutoriel sur le sujet).

Dans l'exemple étudié ici, les données commencent dès la première ligne et il est donc plus rapide de choisir le mode de sélection par colonnes.

C'est pourquoi dans la boîte de dialogue ci-dessous, les sélections apparaissent sous forme de colonnes. Nous sélectionnons les colonnes C à H.

Fixez le nombre de classes à créer à 25. Dans le cas d’un jeu de données plus important vous pouvez utiliser un nombre de groupe plus élevé.

Le critère de classification à sélectionner est le Déterminant(W) car il permet de s’affranchir de l’effet d’échelle des variables.

statistical software

Dans l’onglet Options augmentez le nombre de répétitions à 50 pour améliorer la stabilité et la qualité des résultats.

statistical software

Dans l’onglet Sorties choisissez seulement les options Barycentres qui nous serviront pour la classification ascendante hiérarchique, ainsi que les résultats par classe et par objet pour connaitre la répartition des échantillons dans les 25 groupes.

statistical software

Une fois que vous avez clique sur le bouton OK, les résultats apparaissent dans une nouvelle feuille Excel.

Résultats de la classification k-means

Nous allons utiliser le tableau Barycentres des classes.

statistical software

Un autre résultat important est le tableau présentant la distribution des états dans les différents groupes: Résultats par classe.

statistical software

Cette information se trouve aussi dans le tableau des résultats par objet.

Paramétrer la Classification Ascendante Hiérarchique

Sélectionnez maintenant l’option XLSTAT / Analyse des données / Classification Ascendante Hiérarchique (CAH) .

statistical software

Dans l’onglet Général sélectionnez les données à regrouper : les barycentres des classes selon leur description dans l’espace des données originelles. Sélectionnez la description des 25 barycentres par les variables d'origine soit de Migration domestique à Pop < 65 ans.

Le format des données est un tableau observations/variables. Nous utilisons le type de proximité Dissimilarités ainsi que la méthode de Ward comme méthode d’agrégation.

Le nom des variables est inclu dans la sélection donc l’option Libellés des colonnes doit restée cochée. Nous allons inclure les Libellés des lignes qui sont les numéros des groupes de la classification k-means allant de 1 à 25.

Nous devons mettre un poids sur les lignes correspondant à la colonne Somme des poids dans la table Barycentre des classes.

Les résultats seront affichés dans une nouvelle feuille Excel comme l’option Feuille est sélectionnée.

statistical software

Dans l’onglet Options nous laissons l’option Regrouper les lignes sélectionnée car nous voulons regrouper les groupes de la classification k-means. Cependant nous devons inclure l’information sur la variance intra-classe. La colonne à sélectionner est la colonne Variance intra-classe dans le tableau Barycentre des classes.

statistical software

Dans l’onglet Sorties tous les résultats peuvent être sélectionnés.

statistical software

Enfin, dans l’onglet Graphiques, selectionnez aussi toutes les options. Notez que le type du dendrogramme est Vertical.

statistical software

Interpréter les résultats de la Classification Ascendante Hiérarchique

Parmi les résultats de la classification CAH, on peut analyser les deux dendrogrammes qui présentent la composition des 3 groupes et comment les 25 groupes ont eux-mêmes été regroupés.

statistical software

Vous pouvez aussi regarder comment se décompose la variance totale.

statistical software

Vous pouvez enfin utiliser le tableau obtenu à l'issue de la CAH pour recoder le tableau de classification obtenu en classification k-means.

Finaliser les résultats d'une classification ascendante hiérarchique sur une grande table de données

Allez à XLSTAT / Préparation des données / Codage.

Ensuite vous devez sélectionner la colonne Classe de la table résultats par objet obtenue en classification k-means en tant que variable à recoder. Ensuite vous sélectionnez le tableau résultats par objet obtenu avec la CAH en incluant le nom des colonnes en tant que tableau de codage. Cochez l’option Libellés des colonnes.

Pour accoler les résultats à la table des données sélectionnez l’option Plage et la première cellule à côté de la table de données. Décochez l’option Afficher l’en-tête du rapport.

statistical software

Après avoir cliqué sur OK, vous obtenez les résultats de la classification en 3 groupes pour tous les Etats.

statistical software

La vidéo ci-dessous montre comment reproduire ce tutoriel. (Cette vidéo n'a pas de son.)