Nouvelle version du module de Classification Ascendante Hiérarchique (CAH)

Grâce à vos précieux retours et au travail de notre équipe R&D, nous avons notamment pu développer de nouvelles méthodes de troncature, ajouter de nouveaux graphiques ainsi que donner la possibilité de colorer votre dendrogramme selon vos groupes.

Quelles sont les dernières nouveautés dans la CAH ?

Colorez vos différents groupes sur un dendrogramme

Cette nouvelle option vous permet d’identifier rapidement différents groupes sur un dendrogramme. Vous pouvez à la fois classifier vos observations selon diverses variables (l'âge, la catégorie socio-professionnelle, les revenus, etc) et identifier visuellement les hommes et les femmes sur le dendrogramme réalisé.

Gage R&R for qualitative variables - X-bar chart

Cette option est disponible en sélectionnant vos groupes dans le champ Colorer par groupe de l’onglet Graphiques.

Créez des groupes plus homogènes grâce à l’ajout de la consolidation par k-means

La partition obtenue par la CAH n’est pas toujours optimale et peut être améliorée, en la consolidant par l'algorithme K-means. Certaines observations peuvent alors changer de classe pour que les classes soient plus homogènes (l'inertie intra-classes est diminuée).

La consolidation est disponible dans l’onglet Options.

Calculez automatiquement le nombre optimal de classes à partir de nos nouveaux indices

Nous avons ajouté les indices de Hartigan, Silhouette et Calinski Harabasz dans les méthodes de troncature afin que vous puissiez choisir le nombre de classes qui vous donnera le meilleur regroupement. A noter que ces nouveaux indices peuvent s’utiliser avec toutes les distances (et pas seulement la distance euclidienne) grâce aux recherches de notre équipe R&D.

Ces indices sont disponibles dans le champ Troncature de l’onglet Options.

Visualisez si une observation appartient au bon groupe grâce aux coefficients de silhouette

Lorsque les observations ont des coefficients de silhouette proches de 1, cela signifie qu’elles sont bien regroupées. En revanche, si le coefficient de silhouette d’une observation est négatif alors cela signifie que cette dernière est à la limite entre deux groupes, et aurait pu être placée dans un autre groupe.

Gage R&R for qualitative variables - X-bar chart

Les coefficients de silhouette sont disponibles dans les onglets Sorties et Graphiques.

Formez des groupes avec des variables négativement liées entre elles.

La classification directionnelle vous permet de regrouper des variables qui sont négativement corrélées entre elles (par exemple le prix d’un bien et sa demande). Ce type de classification est désormais faisable grâce au nouveau type de proximité appelé “Corrélations carrées”.

Les corrélations carrées sont disponibles dans le champ Type de proximité de l’onglet Général.

Comptez les différences entre 2 observations avec la distance de Hamming

Cette distance est souvent utilisée en informatique, en traitement du signal et dans les télécommunications. Elle permet de compter le nombre de différences entre 2 observations. Il s’agit de l'opposé de la Co-occurence qui compte le nombre d’items identiques entre 2 observations.

Cette distance est disponible dans le champ Dissimilarités de l’onglet Général.

Identifiez rapidement des observations mal-classées

Nous avons ajouté une nouvelle option Observation bruitée afin d’identifier très rapidement les observations qui ont moins de caractéristiques communes avec les autres observations. Il est par exemple judicieux de supprimer les valeurs extrêmes.

Une observation est considérée bruitée lorsque la corrélation de celle-ci avec le barycentre de sa classe est inférieure au seuil entré par l’utilisateur.

Gage R&R for qualitative variables - X-bar chart

Cette nouvelle option est disponible dans l’onglet Sorties.

Comment bénéficier des dernières améliorations?

Si vous n'utilisez pas la dernière version de XLSTAT (2022.1.2), ne perdez pas une minute pour mettre à jour votre version !


Derniers tweets

Pas de tweet à afficher