Wie mache ich eine k-means Clusteranalyse?

Eine Excel-Mappe mit den Daten und den Ergebnissen, die in diesem Tutoriel behandelt werden, kann hier heruntergeladen werden. Die Daten stammen vom US Census Bureau (die Originaldatei kann unter http://eire.census.gov/popest/states_dataset.csv herunter geladen werden). Sie entsprechen einer Erhebung von demographischen Merkmalen in 51 Staaten der vereinigten Staaten in 2000 und 2001. Das Ziel ist es, homogene Gruppen von Staaten zu finden basierend auf den vorliegenden demografischen Daten.

Bemerkung: Wenn sie die gleiche Analyse wie unten beschrieben auf den gleichen Daten ausführen, so ist der Startpunkt der K-Means Methode zufällig gewählt und daher sind ihrer Ergebnisse wahrscheinlich leicht abweichend und verschieden von den unten stehenden. Um die gleichen Ergebnisse zu erhalten, müssen Sie den folgenden Startwert des Zufallszahlengenerators im Menupunkt "Optionen" Reiter "Fortgeschritten" von XLSTAT wählen : 910837696

Nach dem Öffnen von XLSTAT, wählen Sie den Befehl XLSTAT/Analyse der Daten/K-Means-Clustering oder klicken Sie auf den entsprechenden Button in der Toolbar "Analyse der Daten" (siehe unten).

barkmcd.gif

Nach dem Klicken des Buttons erscheint das entsprechende Dialogfenster des K-Means-Clustering. Sie können nun die Daten im Excel-Blatt auswählen. Es gibt mehrere Arten die Daten in den XLSTAT Dialogfenstern auszuwählen (siehe auch das Tutoriel Datenauswahl zu diesem Thema). In untersuchten Beispiel beginnen die Daten in der ersten Zeile; es ist daher schneller die Spaltenauswahl zu benutzen. Daher erscheinen im Dialogfenster unten die Auswahlen in Form von Spalten. Die Option „Variablenbeschriftungen“ ist aktiviert, da die erste Zeile der Daten die Namen der Variablen enthält. Die Variablen "Gesamtbevölkerung" wurde nicht ausgewählt, da wir hauptsächlich in der dynamische Demografie interessiert sind. Die letzte Spalte wurde nicht ausgewählt, da sie mir der vorhergehenden voll korreliert. Die Beschriftung der Beobachtungen wurden ausgewählt, da sie verfügbar sind. Wir wechseln die Anzahl der zu erzeugenden Gruppen zu 4. Das ausgewählte Optimierungskriterium ist Determinante(W), das es erlaubt Skaleneffekte der Variablen zu unterdrücken.

kmc1d.gif

Im Reiter "Optionen" wurde die Option Standardisieren aktiviert, um Skaleneffekte bei der Gruppenbildung zu vermeiden. Die Anzahl der Wiederholungen und die maximale Anzahl der Iterationen wurden auf 50 erhöht, um die Qualität und Stabilität der Ergebnisse zu erhöhen.

kmc12d.gif

Die Berechnungen beginnen, sobald der Button "OK" geklickt wird. Falls Sie in den Optionen von XLSTAT die Option „Auswahl bestätigen lassen“ aktiviert haben, so bittet Sie XLSTAT die Anzahl der Zeilen und der Spalten der Auswahlen zu bestätigen.

Das erste dargestellte Ergebnis ist die Tabelle der Trägheiten für die besten Lösungen unter den Wiederholungen. Die beste Lösung ist diejenige, die die Zwischengruppen-Trägheit maximiert (oder die die Innergruppen-Trägheit minimiert: Totale Trägheit = Zwischengruppen-Trägheit + Innergruppen-Trägheit.) Die Trägheit ist proportional zur Varianz der Population (Disivion der Trägheit durch die Größe der Population ergibt die Varianz der Population.)

kmc2d.gif

Eine Tabelle mit den Gruppen IDs für jeden Staat wird angezeigt. Ein Ausschnitt wird unten angezeigt. Diese Tabelle umfaßt ebenfalls eine stabile Gruppe für jede Beobachtung. Dies rührt von den zahlreichen Wiederholungen her und zeigt, ob die Beobachtungen zu einer stabilen Gruppe oder nicht gehören. Die Cluster IDs können mit der Ausgangstabelle verschmolzen werden, um weitere Analysen durchzuführen (bespielsweise Diskriminanzanlyse).

kmc3d.gif

Die nächste Tabelle zeigt die Beobachtungen, die in jedem Cluster vereint wurden.

kmc4d.gif

Vergleicht man die Ergebnisse mit denen des Tutorials über Hierarchisch agglomeratives Clustering, so kann man sehen, dass die beiden Methoden verschiedene Resultate zeigen, wenn auch die Mehrheit der Daten gleichen Gruppen zugehört (Wir vergleichen Gruppen ähnlicher Größe.). Zum Beispiel sind in der größten Gruppe mit 31 Beobachtungen, 25 Staaten in beiden Methoden identisch.

Die folgende Tabelle zeigt die Zentroide der Cluster und für jeden Cluster, die Beobachtungen, die den Zentroiden am nächsten liegen, sowie deren Koordinaten.

kmc5d.gif
kmc5bisd.gif

Zuletzt wird eine Zusammenfassung der besten 10 Wiederholungen angezeigt. Wie man sehen kann, so konvergierte der Algorithmus schnell für jede der Wiederholungen. Mann kann auch sehen, wie sich die Innergruppen-Trägheit von der ersten bis zur letzten Iteration entwickelt.

kmc6d.gif

Klicken Sie hier, um zu den übrigen Einführungen zu gelangen.