CLUSTATIS

Utilisez CLUSTATIS pour réaliser une classification des sujets sur la base de leurs perceptions des produits. Disponible dans Excel avec le logiciel XLSTAT.

Classification de tableaux avec CLUSTATIS dans Excel

Les cas où les données sont constituées de différents blocs de variables sont de plus en plus fréquents. L'analyse sensorielle est particulièrement concernée par ce phénomène, puisque de nombreuses épreuves amènent à ce type de données, chaque consommateur/juge/sujet apportant un tableau (une configuration) de données (ex: épreuve de Projective mapping/Napping, profil conventionnel, profil libre). Étant donné que les perceptions entre les sujets sont bien souvent différentes, une classification de ces derniers peut s'avérer nécessaire. La méthode CLUSTATIS s'inscrit dans ce contexte. De plus, cette stratégie permet de mettre de côté les configurations qui ne se conforment à aucune des classes construites, qui correspondent à des sujets atypiques dans le cadre de l'analyse sensorielle.

Qu’est-ce que l’Analyse CLUSTATIS ?

Description de l'analyse

CLUSTATIS est une méthode de classification basée sur les matrices des produits scalaires de chaque configuration, ce qui permet de considérer des configurations ayant des nombres de colonnes différents. L'objectif de cette méthode est de constituer des classes de configurations les plus homogènes possible, chaque groupe de configurations étant représenté par une configuration latente (nommée consensus) déterminée par STATIS. Il est donc naturel que chaque classe soit finalement analysée par STATIS, afin de déterminer les différences entre les classes constituées. CLUSTATIS consiste en un algorithme hiérarchique pouvant être « consolidé » par un algorithme de partitionnement (c'est à dire que l'algorithme de partitionnement est initialisé par la coupe du dendrogramme). Une option intéressante est la création d'une classe « K+1 » (correspondant à une classe supplémentaire) afin de mettre de côté les tableaux ne se conformant à aucune classe. Une configuration sera placée dans cette classe si les similarités (coefficents RV) entre le consensus de chaque classe et cette configuration sont tous considérés comme faibles.

Structure des données

Il existe deux cas différents :

1. Le nombre de variables est identique pour les m configurations.

2. Le nombre de variables varie d'une configuration à l'autre.

Pour la saisie des données, XLSTAT vous demande de sélectionner une configuration correspondant aux m configurations contiguës, et de donner le cas de structure.

Mise à l'échelle

Si les données au sein même d'une même configuration ne sont pas à la même échelle, et uniquement dans ce cas, il est conseillé de mettre à l'échelle (réduire) les variables de chaque configuration. Ce n'est par exemple pas le cas pour des notes attribuées entre 0 et 20 pour différents attributs sensoriels, mais conseillé si certaines notes sont entre 0 et 10 et d'autres entre 0 et 20.

Interprétation des résultats

Pour chaque classe, la représentation des objets/observations dans l'espace des facteurs permet d'interpréter visuellement les proximités entre ces objets, moyennant certaines précautions. On peut considérer que la projection d'un objet sur un plan est fiable si l'objet est éloigné du centre du graphique.

Étant donné que la classe « K+1 » contient les tableaux ne se conformant à aucune des classes, cette classe est très dépendante du nombre de groupes.

Nombre de facteurs

Deux méthodes sont communément utilisées pour déterminer le nombre de facteurs à retenir pour l'interprétation des résultats :

Regarder la courbe décroissante des valeurs propres. Le nombre de facteurs à retenir correspond au premier point d'inflexion sur la courbe.
On peut aussi se baser sur le pourcentage cumulé de variabilité représenté par les axes factoriels et décider de se contenter d'un certain pourcentage.

Représentations graphiques

Les représentations graphiques ne sont fiables que si la somme des pourcentages de variabilité associé aux axes de l'espace de représentation est suffisamment élevée. Si ce pourcentage est élevé (par exemple 80%), on peut considérer que la représentation est fiable. Si le pourcentage est faible, il est conseillé de faire des représentations sur plusieurs paires d'axes afin de valider l'interprétation faite sur les deux premiers axes factoriels.

Qualité de la classification

Afin de déterminer la qualité d'une classification hiérarchique, on peut s'aider de l'augmentation de la variance intra-classes (erreur du critère CLUSTATIS) provoquée par la fusion de deux classes. Cette augmentation est égale à la hauteur du dendrogramme à laquelle les deux classes de configurations se retrouvent rassemblées dans la même classe.

L'homogénéité de chaque classe et l'homogénéité globale sont également des indices très importants (entre 1/m et 1, m étant le nombre de configurations) qui permettent de juger de la qualité de la classification. Il est à noter que la consolidation et l'ajout d'une classe « K+1 » peuvent augmenter les homogénéités.

Résultats de l'analyse CLUSTATIS dans XLSTAT

Statistiques descriptives : le tableau de statistiques descriptives présente pour toutes les variables sélectionnées des statistiques simples. Sont affichés le nombre d'observations, le nombre de données manquantes, le nombre de données non manquantes, la moyenne, et l'écart-type (non biaisé).

Matrice RV : la matrice des coefficients RV entre toutes les configurations est affichée. Le coefficient RV est un indice de similarité entre deux configurations compris entre 0 et 1. Plus il est proche de 1, plus la similarité est forte.

Statistiques des nœuds : dans ce tableau sont affichées les informations concernant les nœuds successifs du dendrogramme. Le premier nœud a pour indice le nombre de configurations augmenté de 1. Ainsi, il est aisé de repérer à quel moment une configuration ou un groupe de configurations est regroupé avec un autre groupe de configurations dans le dendrogramme.

Diagramme des niveaux : dans ce graphique sont affichées les niveaux des nœuds du dendrogramme, qui correspondent à l'augmentation du critère de minimisation de CLUSTATIS (équivalent à l'augmentation de la variance intra-classes) lors de la fusion de deux classes.

Dendrogrammes : le dendrogramme complet permet de visualiser le regroupement progressif des configurations. Si une troncature a été demandée, un trait en pointillé marque le niveau auquel est effectuée la troncature. Le dendrogramme tronqué permet de visualiser les classes après la troncature.

Compositions des classes :

Résultats par configuration : dans ce tableau est indiquée pour chaque configuration sa classe d'affectation dans l'ordre initial des configurations. Si une consolidation est demandée, les résultats sont donnés avant et après la consolidation. Dans le cas où vous avez coché classe K+1, il est possible que certains tableaux aient une valeur manquante après la consolidation. Ceci signifie qu'ils ne sont placés dans aucune des classes principales (ils sont placés dans la classe K+1).

Résultats par classe : Les résultats sont donnés par classe. Ainsi, une liste de configurations est affichée pour chacune des classes.

Nombre de configurations par classe : Le nombre de configurations dans chaque classe est indiqué.

Analyse de la classe k :

Dans cette section est affichée l'analyse de chacune des classes par la méthode STATIS. Chaque classe est analysée tour à tour.

Valeurs propres : les valeurs propres et le graphique (scree plot ) correspondant sont affichés.

Coordonnées du consensus : les coordonnées du consensus dans l'espace des facteurs sont affichées, ainsi que les graphiques correspondants (en fonction du nombre de facteurs choisi).

Configuration consensus : la configuration consensus créée par STATIS est affichée. Elle correspond à la moyenne pondérée par les poids des matrices de produits scalaires des configurations initiales (réduites globalement et éventuellement par variable).

RV config/consensus : les coefficients RV entre les configurations et le consensus sont affichés, ainsi que le diagramme en bâtons associé. Tout comme les poids de STATIS, ces coefficients permettent de détecter des configurations atypiques. L'avantage de ces coefficients est qu'ils sont compris entre 0 et 1, donc plus faciles à interpréter que les poids.

Poids : les poids calculés par STATIS sont affichés, ainsi que le diagramme en bâtons associé. Plus un poids est grand, plus la configuration a contribué à l'élaboration du consensus. Sachant que STATIS donne du poids aux configurations les plus proches du point de vue global, un poids beaucoup plus faible que les autres signifiera que la configuration est atypique.

Indices :

Homogénéités : l'homogénéité de chaque classe est affichée. C'est une valeur comprise entre 1/m (m étant le nombre de configurations de la classe) et 1, qui croît avec l'homogénéité des configurations. Dans un second temps, l'homogénéité globale, qui est une moyenne pondérée des homogénéités de chaque classe, est affichée.

Erreur globale/Variance intra-classes : l'erreur du critère CLUSTATIS est affichée. Elle correspond à la variance intra-classes.

RV entre consensus : la matrice des coefficients RV entre les consensus de chaque classe est affichée. Cette matrice permet de voir dans quelle mesure les classes sont proches les unes des autres.