Classification avec la méthode des nuées dynamiques (k-means clustering)

Jeu de données pour Classification par la méthode des nuées dynamiques (k-means) XLS104 Ko

Vidéo du tutoriel
"Classification par la méthode des nuées dynamiques (k-means)" inclus dans : Télécharger L'évaluation Plus d'info Commentaires utilisateurs
  • Pro Logiciel de base de la suite XLSTAT

  • Pré-requis système

    • Windows:
      • Versions : 9x/Me/NT/2000/XP/Vista/Win 7
      • Excel : 97 et supérieures
      • Processeur : 32 ou 64 bits
      • Disque dur : 150 Mo
    • Mac OS X:
      • OS : OS X
      • Excel : X, 2004 et 2011
      • Disque dur : 150 Mo

Avantages

  • Pratique et simple d'utilisation
    Pratique et simple d'utilisation XLSTAT est parfaitement intégré à Microsoft Excel qui est le tableur le plus populaire au monde. Grâce à cette intégration, et au suivi de la même philosophie qu'Excel, l'utilisation de XLSTAT est aisée. Le logiciel est accessible dans un onglet dédié qui contient le menu de chaque module. Les analyses disponibles sont regroupées en menus fonctionnels. Les boîtes de dialogues sont pratiques et leur paramétrage est simple.
  • Partage aisé des données et résultats
    Partage aisé des données et résultats Un des plus grands avantages de XLSTAT est le fait que les données et résultats peuvent être partagés sans contrainte. En effet, données et résultats sont stockés dans Microsoft Excel et donc accessibles à tous. Il n'est pas nécessaire pour le receveur d'avoir une licence XLSTAT ou tout autre visionneur additionnel. Ceci facilite votre travail d'équipe et le rend plus économique. Enfin, les résultats sont transposables dans les autres logiciels de Microsoft Office dont PowerPoint ce qui vous permet de créer des présentations avec d'excellents graphiques en quelques minutes.
  • Modulaire
    Modulaire XLSTAT est un produit modulaire articulé autour de XLSTAT-Pro qui est le logiciel de base de XLSTAT. XLSTAT-Pro inclut déjà toutes les fonctionnalités les plus courantes en statistiques et analyses de données multivariées. Des fonctions plus avancées sont aussi disponibles dans des modules additionnels qui répondent à des demandes plus spécifiques. Ainsi, vous pouvez adapter le logiciel à vos propres besoins ce qui le rend plus rentable.
  • Didactique
    Didactique Les résultats de XLSTAT sont affichés pour chaque analyse et sont toujours disponibles pour une navigation plus simple. De plus, des informations utiles sont associées aux résultats afin de faciliter votre interprétation.
  • A un juste prix
    A un juste prix XLSTAT est un logiciel de statistique et d'analyse de données complet et modulaire qui s'adapte à tous les besoins analytiques d'une organisation. Son prix est très raisonnable ce qui vous permet de le rentabiliser presque immédiatement. Toutes les licences XLSTAT incluent un support et une assistance de première qualité.
  • Accessible en de nombreuses langues
    Accessible en de nombreuses langues Nous nous sommes assurés que XLSTAT puisse être accessible au plus grand nombre en distribuant le programme dans de nombreuses langues dont le français, l'anglais, l'allemand, l'espagnol, l'italien, le portugais, le polonais, le chinois et le japonais.
  • Automatisable et personnalisable
    Automatisable et personnalisable La plupart des fonctions disponibles dans XLSTAT peuvent être directement appelées depuis l'application Visual Basic de Microsoft Excel. Elles peuvent être intégrées à vos routines pour répondre aux besoins d'une application particulière. Ajouter des tableaux de résultats, des graphiques, ou modifier l'existant est simplifié. De plus, XLSTAT inclut des outils permettant de sauvegarder ou de recharger des paramètres automatiquement, mais aussi de générer du code VBA. Ceci permet de reproduire vos analyses depuis l'éditeur VBA. Cette automatisation des analyses routinières vous fera gagner du temps.

Jeu de données pour réaliser une classification avec la méthode des nuées dynamiques (k-means clustering)

Une feuille Excel contenant à la fois les données et les résultats peut être téléchargée en cliquant ici.

Les données proviennent du US Census Bureau. Elles correspondent à la mesure de paramètres démographiques dans 51 Etats des Etats-Unis en 2000 et 2001. Dans le cadre de ce tutoriel, seules les données de l'année 2001 ont été conservées et, afin de supprimer les effets d'échelle, les variables initiales ont été converties en taux pour 1000 habitants.

But de ce tutoriel sur la classification avec la méthode des nuées dynamiques (k-means clustering)

Le but est ici de créer des groupes homogènes d'Etats. Ces données sont aussi utilisées pour le tutoriel de l'Analyse en Composantes Principales (ACP) et dans le tutoriel sur la classification ascendante hiérarchique (CAH).

Remarque : si vous essayez de faire l'analyse proposée ci-dessous sur les mêmes données, il est fort probable que vous n'obteniez pas les mêmes résultats. En effet, la méthode des nuées dynamiques implique un tirage aléatoire. Pour obtenir les mêmes résultats, vous devrez fixer la graine des nombres aléatoires à 910837696 dans les Options/Avancées de XLSTAT.

Paramétrer une classification avec la méthode des nuées dynamiques (k-means clustering)

Une fois que XLSTAT est activé, cliquez sur Analyse de données / Classification k-means dans le menu XLSTAT, ou cliquez sur le bouton correspondant de la barre Analyse de données (voir ci-dessous).

barkmcf.gif

Une fois le bouton cliqué, la boîte de dialogue de la classification k-means apparaît. Vous pouvez alors sélectionner les données sur la feuille Excel.

Il y a plusieurs façons de sélectionner les données dans les boîtes de dialogue de XLSTAT (voir le tutoriel sur le sujet).

Dans l'exemple étudié ici, les données commencent dès la première ligne et il est donc plus rapide de choisir le mode de sélection par colonnes. C'est pourquoi dans la boîte de dialogue ci-dessous les sélections apparaissent sous forme de colonnes.

kmc1f.gif

La variable "Population totale" n'a pas été sélectionnée car seuls les aspects dynamiques de la population nous intéressent ici.

La dernière colonne n'a pas non plus été sélectionnée, car nous avons vu avec l'analyse en composantes principales que les deux dernières colonnes sont parfaitement corrélées.

L'option Libellés des variables est laissée activée, car la première ligne de données contient le nom des variables, et les libellés des individus sont sélectionnés.

Le nombre de groupes à créer est fixé à 4.

Le critère d'optimisation choisi est le Déterminant(W), qui permet de supprimer les effets d'échelle des variables.

Dans l'onglet Options nous fixons le nombre de répétitions à 50. L'algorithme sera alors lancé 50 fois, avec à chaque fois un nouveau point de départ aléatoire.

kmc12f.gif

Les calculs commencent lorsque vous cliquez sur le bouton OK.

Interpréter les résultats d'une classification avec la méthode des nuées dynamiques (k-means clustering)

Après les statistiques descriptives des variables sélectionnées, et la synthèse des différentes répétitions, XLSTAT indique comment se décompose la variance pour la classification optimale.

kmc2f.gif

Le tableau ci-dessous indique pour chaque groupe les observations qui lui ont été affectées.

kmc3f.gif

Un tableau présente ensuite pour chaque Etat, l'identifiant du groupe auquel il a été affecté. Un partie du tableau est présentée ci-dessous. On pourra ensuite fusionner ces données avec le tableau initial pour d'éventuelles analyses complémentaires (une analyse discriminante par exemple).

kmc4f.gif

Dans le tutoriel sur la Classification Ascendante Hiérarchique (CAH), on montre qu'il serait plus pertinent de regrouper les Etats en trois groupes plutôt qu'en quatre.

La vidéo ci-dessous vous montre comment réaliser ce tutoriel sur les nuées dynamiques.