Classification Ascendante Hiérarchique (CAH)

Principes de la classification ascendante hiérarchique

La classification ascendante hiérarchique (CAH) est une méthode de classification itérative dont le principe est simple.

  1. On commence par calculer la dissimilarité entre les N objets.
  2. Puis on regroupe les deux objets dont le regroupement minimise un critère d'agrégation donné, créant ainsi une classe comprenant ces deux objets.
  3. On calcule ensuite la dissimilarité entre cette classe et les N-2 autres objets en utilisant le critère d'agrégation. Puis on regroupe les deux objets ou classes d'objets dont le regroupement minimise le critère d'agrégation.

On continue ainsi jusqu'à ce que tous les objets soient regroupés.

Ces regroupements successifs produisent un arbre binaire de classification (dendrogramme), dont la racine correspond à la classe regroupant l'ensemble des individus. Ce dendrogramme représente une hiérarchie de partitions. On peut alors choisir une partition en tronquant l'arbre à un niveau donné, le niveau dépendant soit des contraintes de l'utilisateur (l'utilisateur sait combien de classes il veut obtenir), soit de critères plus objectifs.

Avantages de la classification ascendante hiérarchique

La classification ascendante hiérarchique (CAH) est une méthode de classification qui présente les avantages suivants :

  • On travaille à partir des dissimilarités entre les objets que l'on veut regrouper. On peut donc choisir un type de dissimilarité adapté au sujet étudié et à la nature des données.
  • L'un des résultats est le dendrogramme, qui permet de visualiser le regroupement progressif des données. On peut alors se faire une idée d'un nombre adéquat de classes dans lesquelles les données peuvent être regroupées.

Méthode d'aggrégation pour la Classification Ascendante Hiérarchique

Plusieurs méthodes d'agrégation sont disponibles :

  • Méthode de Ward (iniertie)
  • Méthode de Ward (variance)
  • Lien complet
  • Lien simple
  • Lien fort
  • Lien flexible
  • Lien moyen
  • Lien proportionnel

Mesure de proximité pour la Classification Ascendante Hiérarchique

XLSTAT propose plusieurs similarités/dissimilarités qui sont adaptées à un type de données particulier.

 SimilarityDissimilarity
Quantitative dataCorrélation de Pearson Corrélation de Spearman Corrélation de Kendall Inertie Covariance (n) Covariance (n-1) Similarité généraleDistance euclidienne Distance du khi’² Distance de Manhattan Dissimilarité de Pearson Dissimilarité de Spearman Dissimilarité de Kendall Dissimilarité générale
données binaires (0/1)Similarité/Dissimilarité Indice de Jaccard Indice de Dice Indice de Sokal & Sneath (2) Indice de Rogers & Tanimoto Indice de Sokal & Michener Indice de Sokal & Sneath (1) Phi de Pearson Indice de Ochiai Indice de KulczinskiSimilarité/Dissimilarité Indice de Jaccard Indice de Dice Indice de Sokal & Sneath (2) Indice de Rogers & Tanimoto Indice de Sokal & Michener Indice de Sokal & Sneath (1) Phi de Pearson Indice de Ochiai Indice de Kulczinski

Remarque : pour les variables qualitatives non binaires il est préférable d'effectuer au préalable une analyse des correspondances multiples (ACM) et de considérer les coordonnées des individus sur les axes factoriels comme de nouvelles variables.

Résultats pour la Classification Ascendante Hiérarchique dans XLSTAT

  • Statistiques des nœuds : dans ce tableau sont affichées les informations concernant les nœuds successifs du dendrogramme. Le premier nœud a pour indice le nombre d'objets augmenté de 1. Ainsi, il est aisé de repérer à quel moment un objet ou un groupe d'objets est regroupé avec un autre objet ou groupe d'objets au niveau d'un nouveau nœud dans le dendrogramme.
  • Diagramme des niveaux : dans ce tableau sont affichées les statistiques des nœuds du dendrogramme.
  • Dendrogrammes : le dendrogramme complet permet de visualiser le regroupement progressif des objets. Si une troncature a été demandée, un trait en pointillé marque le niveau auquel est effectuée la troncature. Le dendrogramme tronqué permet de visualiser les classes après la troncature.
  • Barycentres des classes : dans ce tableau sont affichées les coordonnées des barycentres des classes pour les différents descripteurs.
  • Distances entre les barycentres des classes : dans ce tableau sont affichées les distances euclidiennes entre les barycentres des classes pour les différents descripteurs.
  • Objets centraux : dans ce tableau sont affichées pour chaque classe les coordonnées de l'objet le plus proche du barycentre de la classe.
  • Distances entre les objets centraux : dans ce tableau sont affichées les distances euclidiennes entre les objets centraux des classes pour les différents descripteurs.
  • Résultats par classe : les statistiques descriptives des classes (nombre d'objets, somme des poids, variance intra-classe, distance minimale au barycentre, distance maximale au barycentre, distance moyenne au barycentre) sont affichées dans la première partie du tableau. Les objets sont affichés dans la seconde partie.
  • Résultats par objet : dans ce tableau est indiquée pour chaque objet sa classe d'affectation dans l'ordre initial des objets.