Wie mache ich eine hierarchische Clusteranalyse mit XLSTAT?
Eine Excel-Mappe mit den Daten und den Ergebnissen, die in diesem Tutoriel behandelt werden, kann hier heruntergeladen werden. Die Daten stammen vom US Census Bureau. Sie entsprechen einer Erhebung von demographischen Merkmalen in 51 Staaten der vereinigten Staaten in 2000 und 2001. Der Ausgangsdatensatz wurde in Anteilen pro 1000 Einwohner transformiert, wobei die Daten des Jahres 2001 als Schwerpunkt der analyse benutzt wurden. Das Ziel ist es, homogene Gruppen von Staaten zu finden basierend auf den vorliegenden demografischen Daten.
Nach dem Öffnen von XLSTAT, wählen Sie den Befehl XLSTAT/Analyse der Daten/Agglomerative Hierarchisches Clustering oder klicken Sie auf den entsprechenden Button in der Toolbar "Analyse der Daten" (siehe unten).


Nach dem Klicken des Buttons erscheint das entsprechende Dialogfenster des Hierarchischen Clusterings. Sie können nun die Daten im Excel-Blatt auswählen. Es gibt mehrere Arten die Daten in den XLSTAT Dialogfenstern auszuwählen (siehe auch das Tutoriel Datenauswahl zu diesem Thema). Im untersuchten Beispiel beginnen die Daten in der ersten Zeile; es ist daher schneller die Spaltenauswahl zu benutzen. Daher erscheinen im Dialogfenster unten die Auswahlen in Form von Spalten. Die Option „Variablenbeschriftungen“ ist aktiviert, da die erste Zeile der Daten die Namen der Variablen enthält. Die Variablen "Gesamtbevölkerung" wurde nicht ausgewählt, da wir hauptsächlich in der dynamische Demografie interessiert sind. Die letzte Spalte wurde nicht ausgewählt, da sie mir der vorhergehenden voll korreliert. Die Beschriftung der Beobachtungen wurden ausgewählt, da sie verfügbar sind.

Im Reiter "Optionen" wurde die Option Standardisieren aktiviert, um Skaleneffekte bei der Gruppenbildung zu vermeiden. Das automatische Abstumpfen wurde aktiviert, damit die Ergebnisse in Form von Gruppen und der Zuherögkeit der Beobachtungen zu den Gruppen angezeigt werden. Die übrigen Optionen wurden bei den Vorgabewerten belassen.

Die Berechnungen beginnen, sobald der Button "OK" geklickt wird. Falls Sie in den Optionen von XLSTAT die Option „Auswahl bestätigen lassen“ aktiviert haben, so bittet Sie XLSTAT die Anzahl der Zeilen und der Spalten der Auswahlen zu bestätigen.
Das erste dargestellte Ergebnis ist die Tabelle der Baumniveaus. Die Form beschreibt sehr gut die Datenstruktur. Wenn der Anstieg des Unähnlichkeitsniveaus sehr stark ist, so ist ein Niveau erreicht, bei den schon homogene Gruppen miteinander vereinigt werden. Das automatische Abstumpfen benutzt dieses Kriterium, um zu enscheiden, ab wann das Zusammenfügen von Beobachtungen (oder Gruppen von Beobachtungen) beendet wird.

Das Diagramm unterhalb ist das Dendrogramm. Er zeigt an, wie der Algorithmus arbeitet, um die Beobachtungen zusammenzufügen. Wie Sie sehen können, has der Algorithmus alle Beobachtungen erfolgreich zusammengefügt. Die gestrichelte Linie deutet das automatische Abstumpfung an, die hier zu zwei Gruppen gleicher Grösse führt. Die erste Gruppe (an blau angezeigt) ist homogener als die zweite (das Dendrogramm ist flacher). Die wird bestätigt, wenn man die Intra-Klassen-Varianz betrachtet. Diese ist viel höher für die zweite Gruppe (599.88 gegenüber 139.11).


Eine Tabelle mit der zugeordneten Gruppennummer für jeden Staat wird in den Ergebnissen anzeigt. Ein Ausschnitt wird unten angezeigt. Diese Tabelle ist wertvoll, da sie mit der Ausgangstabelle zusammengefügt werden kann, um weitere Analysen wie die Diskriminanzanalyse oder Parallelkoordinaten durchzuführen.
Klicken Sie hier, um zu den übrigen Einführungen zu gelangen.