Classification par la méthode des nuées dynamiques (k-means)

Qu’est-ce que la classification par la méthode des nuées dynamiques ?

La classification k-means a été introduite par MacQueen en 1967. D'autres algorithmes similaires ont été développés par Forgey (1965) (centres mobiles) et Friedman (1967). La classification k-means présente notamment les avantages suivants :

  • Un objet peut être affecté à une classe au cours d'une itération puis changer de classe à l'itération suivante, ce qui n'est pas possible avec la classification ascendante hiérarchique pour laquelle une affectation est irréversible.
  • En multipliant les points de départ et les répétitions on peut explorer plusieurs solutions possibles.

L'inconvénient de cette méthode est qu'elle ne permet pas de découvrir quel peut être un nombre cohérent de classes, ni de visualiser la proximité entre les classes ou les objets. Les méthodes k-means et CAH sont donc complémentaires.

Remarque : dans le cas où vous souhaiteriez prendre en compte des variables qualitatives pour la classification, il est nécessaire d'effectuer au préalable une analyse des correspondances multiples (ACM) et de considérer les coordonnées des individus sur les axes factoriels obtenus comme de nouvelles variables.

Principe de la classification par la méthode des nuées dynamiques ouméthode k-means

La classification par la méthode des nuées dynamiques (classification k-means) est une méthode itérative qui, quel que soit son point de départ converge vers une solution. La solution obtenue n'est pas nécessairement la même quel que soit le point de départ. Pour cette raison, on répète en général plusieurs fois les calculs pour ne retenir que la solution la plus optimale pour le critère choisi. Pour la première itération on choisit un point de départ qui consiste à associer le centre des k classes à k objets (pris au hasard ou non). On calcule ensuite la distance entre les objets et les k centres et on affecte les objets aux centres dont ils sont les plus proches. Puis on redéfinit les centres à partir des objets qui ont été affectés aux différentes classes. Puis on réaffecte les objets en fonction de leur distance aux nouveaux centres. Et ainsi de suite jusqu'à ce que la convergence soit atteinte.

Critères de classification de la classification par la méthode des nuées dynamiques

Plusieurs critères de classification peuvent être utilisés pour parvenir à une solution. XLSTAT propose quatre critères à minimiser.

  • Trace(W) : la trace de W, matrice d'inertie intra-classe commune (pooled SSPC matrix) est le critère le plus classique. Minimiser la trace de W pour un nombre de classes donné, revient à minimiser la variance intra-classe totale, autrement à minimiser l'hétérogénéité des groupes. Ce critère est sensible aux effets d'échelle. Si on ne veut pas donner plus de poids à certaines variables plutôt qu'à d'autres, on doit préalablement normaliser les données. Par ailleurs, ce critère tend à produire des classes de même taille.
  • Déterminant(W) : le déterminant de W, matrice de covariance intra-classe commune (pooled within covariance matrix) est un critère nettement moins sensible aux effets d'échelle que le critère trace(W). Par ailleurs, la taille des groupes peut être moins homogène qu'avec le critère de la trace.
  • Wilks lambda : les résultats donnés par la minimisation de ce critère sont identiques à ceux donnés par le déterminant de W. Le critère du lambda de Wilks correspond à la division du déterminant(W) par le déterminant(T) où T est la matrice d'inertie totale. La division par le déterminant de T permet d'avoir un critère toujours compris entre 0 et 1.
  • Trace(W) / Médiane : si l'on choisit ce critère, le barycentre d'une classe n'est pas le point moyen de la classe, mais le point médian qui correspond à un objet de la classe. L'utilisation de ce critère entraîne des calculs plus longs.

Résultats de la classification par la méthode des nuées dynamiques

  • Bilan de l'optimisation : dans ce tableau est affichée l'évolution de la variance intra-classe. Si plusieurs répétitions ont été demandées, les résultats sont affichés pour chaque répétition.
  • Statistiques pour chaque itération : activez cette option pour l'évolution des diverses statistiques calculées au fur et à mesure des itérations de la répétition ayant donné le résultat optimal pour le critère choisi. Un graphique présentant l'évolution du critère choisi au fur et à mesure des itérations est affiché.

Remarque : si les données sont centrées/réduites les résultats pour le bilan de l'optimisation et les statistiques pour chaque itération sont calculés dans l'espace centré-réduit. En revanche, les résultats qui suivent sont affichés dans l'espace d'origine si l'option « Résultats dans l'espace d'origine » est activée.

  • Décomposition de la variance pour la classification optimale : dans ce tableau sont affichées la variance intra-classe, la variance inter-classe et la variance totale.
  • Barycentres des classes : dans ce tableau sont affichées les coordonnées des barycentres des classes pour les différents descripteurs.
  • Distances entre les barycentres des classes : dans ce tableau sont affichées les distances euclidiennes entre les barycentres des classes pour les différents descripteurs.
  • Objets centraux : dans ce tableau sont affichées, pour chaque classe, les coordonnées de l'objet le plus proche du barycentre de la classe.
  • Distances entre les objets centraux : dans ce tableau sont affichées les distances euclidiennes entre les objets centraux des classes pour les différents descripteurs.
  • Résultats par classe : les statistiques descriptives des classes (nombre d'objets, somme des poids, variance intra-classe, distance minimale au barycentre, distance maximale au barycentre, distance moyenne au barycentre) sont affichées dans la première partie du tableau. Dans la seconde partie sont affichés les objets.
  • Résultats par objet : dans ce tableau est indiquée, pour chaque objet, sa classe d'affectation dans l'ordre initial des objets.