Classification k-means floue

Utilisez la classification k-means floue pour constituer des groupes (classes) homogènes d'observations sur la base de leur description par un ensemble de variables quantitatives.

La classification k-means floue permet de créer des classes d'observations dont les limites sont ambigües car trop proches les unes des autres. Cette méthode est apparue dès 1973 grâce aux travaux de Dunn et Bezdek[4] et permet notamment de faire apparaître des sous-classes ou bien de faire une estimation du nombre de classes adéquat en faisant l'analyse sur un nombre de classes très élevé. Le k-means flou est en fait une généralisation du k-means dans laquelle chaque observation possède une probabilité d'appartenir à chaque classe.

Options de la fonctionnalité Classification k-means floue dans XLSTAT

Indices de dissimilarité et critère de classification

Plusieurs indices de dissimilarité peuvent être utilisées pour parvenir à une solution. XLSTAT propose trois distances décritent par Chuanren Liu, Tianming Huy, Yong Gez et Hui Xiongx [5] :

  • Distance Cosinus  : La distance cosinus est spécifique au k-means sphérique, elle est basée sur le cosinus de l'angle entre deux observations. Plus ce dernier est faible et plus la distance est petite, une distance de 1 correspond à deux observations n'ayant aucune valeur commune sur l'ensemble des variables.

  • Distance de Jaccard : Cette distance est basée sur l'index de Jaccard étendu. Le coefficient de Jaccard compare l'ensemble des termes partagés à l'ensemble des termes qui sont présents dans chacun des deux documents mais ne sont pas les termes partagés. L'index de Jaccard étendu effectue la même chose en traitant des observations non binaires. Pour des raisons d'optimisation, nous avons fondé le calcul de cette distance sur le cosinus.

  • Distance Euclidienne : La distance euclidienne est très commune en statistique et celle-ci permet d'obtenir des résultats robustes dans la plupart des cas. En revanche, pour des analyses impliquant des matrices creuses, il est recommandé d'utiliser les deux premières distances pour des raisons d'optimisation.

Le critère de classification Q

Le critère de classification QQ (ou fontion objective) correspond à l'algorithme choisi : dans le cas euclidien trois choix sont possibles (Trace(W), Determinant(W), Lambda de Wilks), dans le cas de la distance de Jaccard c'est Trace(W)) et dans le cas sphérique c'est la somme des distances entre chaque observation et centre pondérés par μ et m(pour des raisons d'optimisation). 

Type de clustering

Absolu : Choisissez cette option pour effectuer l'algorithme classique du k-means (hard clustering).

Flou : Choisissez cette option pour effectuer l'algorithme fuzzy k-means Le coefficient de flou par défaut est 1,05.

Résultats d'une classification k-means floue dans XLSTAT

Résultats globaux

Tableau de synthèse : activez cette option pour afficher la synthèse de l'optimisation. Ceci inclut le nombre de classes ainsi que d'iterations effectué par l'algorithme, le critère de classification, les variances inter et intra-classe, la largeur de la silhouette (Cf. description ci-dessous) ainsi que le lambda de Wilks.

Statistiques descriptives : activez cette option pour afficher les statistiques descriptives pour les variables sélectionnées.

Effectif des classes : activez cette option pour afficher le nombre d'observations par classe pour chaque partition créée.

Résultats par classe

Centres : activez cette option pour afficher les coordonnées des centres des classes.

Objets centraux : activez cette option pour afficher les coordonnées de l'observation la plus proche du centre de chaque classe.

Résumé du cluster : activez cette option pour afficher les caractéristiques de chaque classe (variance intra-classe, distance moyenne, minimum et maximum) ainsi que les observations associées à chaque classe.

Colonnes les plus présents : activez cette option pour afficher les mots les plus présents dans chaque classe. Le nombre de mots affiché par défaut est 10.

Appartenances : activez cette option pour afficher la classe à laquelle appartient chaque observation ainsi que la distance séparant l'observation du centre associé.

Probabilités d'appartenance : Activez cette option pour afficher les probabilités d'appartenance \mu_{i,j}μi,j​ associées à chaque observation de chacune des classes (en classification k-means floue uniquement)

Graphiques

Evolution du critère : si vous avez choisi un nombre de classes entre deux bornes distinctes, XLSTAT affiche dans un premier temps l'évolution du critère de classification. Ce critère diminue lorsque le nombre de classes augmente. Si les données sont distribuées de manière homogène, la décroissance est linéaire. en revanche, si une structure de classe est bien présente, une zone de coude sera observé sur la courbe afin de déterminer le nombre adéquat de classes.

Profil des classes : activez cette option pour afficher un graphique permettant de comparer les moyennes des différentes classes créées.

Effectif des classes : activez cette option pour avoir une visualisation graphique de l'effectif des classes.

Silhouette : activez cette option pour afficher la silhouette de la partition. Pour chaque observation, on calcule un coefficient de fidélité allant de 1 à -1, où 1 correspond à une fidélité parfaite et un coefficient négatif correspond à une mauvaise partition (l'observation peut-être soit une valeur extrême ou bien alors la partition possède un mauvais nombre initial de classes).