Fuzzy k-means clustering

Verwenden Sie Fuzzy-K-Means-Clustering, um homogene Gruppen von Objekten zu erstellen, die durch eine Reihe quantitativer Variablen beschrieben werden. Fuzzy-Clustering wird verwendet, um Cluster mit unklaren Grenzen zu erstellen, entweder weil sie nah beieinander sind oder sich sogar überschneiden. Diese Methode wurde 1973 von Dunn und Bezdek [4] 1981 eingeführt. Sie kann Subcluster hervorheben und sogar eine Schätzung der richtigen Anzahl von Clustern vorhersagen, indem die Daten mit einer hohen Anzahl von Clustern verarbeitet werden. Fuzzy-K-Mean ist eine Verallgemeinerung des klassischen K-Mean Verfahrens.

Fuzzy k-means Clustering Optionen in XLSTAT

Unähnlichkeitsindex und Clustering-Kriterium

Es können mehrere Unähnlichkeitsindizes verwendet werden, um eine Lösung zu erreichen. XLSTAT bietet drei von Chuanren Liu, Tianming Huy, Yong Gez und Hui Xiongx [5] angegebene Entfernungen an:

  • Cosinus Unähnlichkeit: Die Cosinus-Unähnlichkeit ist der Abstand, der die sphärischen k-Mittel charakterisiert und sich auf den Cosinus des Winkels zwischen zwei Beobachtungen bezieht. Je breiter der Winkel ist, desto mehr wird die Cosinus-Unähnlichkeit in der Nähe von 1 liegen, wobei 1 ein Winkel von 90 ° ist, was bedeutet, dass keine Variablen zwischen den Beobachtungen geteilt werden. Bei der Textanalyse, bei der der Skalierungseffekt gering sein muss, wird die Cosinus-Unähnlichkeit empfohlen.
  • Jaccard Unähnlichkeit: Dieser Abstand basiert auf dem erweiterten Jaccard-Index. Der Basis-Jaccard-Index berechnet die binäre Schnittmenge zwischen zwei Binärvektoren über der binären Vereinigung zwischen diesen Beobachtungen. Der erweiterte Jaccard-Index tut dasselbe, berücksichtigt jedoch die Werte der Vektoren als Gewichtungen. Um die Berechnung zu optimieren, stützen wir den erweiterten Jaccard-Index auf die Cosinus-Ähnlichkeit.
  • Euklidische Entfernung: Die euklidische Entfernung wird häufig in der statistischen Analyse verwendet und liefert in den meisten Fällen stabile Ergebnisse. Bedenken Sie jedoch, dass dies auf den Optimierungsprozess zurückzuführen ist. Bezüglich spärlicher Daten werden die anderen beiden Entfernungen empfohlen.

Das Clustering-Kriterium QQ (oder Zielfunktion)

Das Clustering-Kriterium QQ (oder Zielfunktion) wird abhängig von der Wahl des Clustering-Abstands berechnet: Für den euklidischen Abstand stehen drei Optionen zur Verfügung (Trace (W), Determinante (W), Wilks 'Lambda), während wir für den Jaccard-Index die Spur (W) verwenden und für Cosinus-Unähnlichkeit ist es die Summe der Abstände zwischen jeder Beobachtung und den mit μ und m gewichteten Zentren.

Arten des Clusterns

Hart: Wählen Sie diese Option, um den harten K-Means-Algorithmus zu berechnen.

Fuzzy: Wählen Sie diese Option aus, um den Fuzzy-K-Means-Algorithmus zu berechnen. Der voreingestellte Fuzzy-Koeffizient beträgt 1,05.

Fuzzy-K-Means bedeutet Clustering-Ergebnisse innerhalb von XLSTAT

Globale Ergebnisse

Übersichtstabelle: Aktivieren Sie diese Option, um die Zusammenfassung der einzelnen Cluster anzuzeigen. Dazu gehören die Anzahl der Cluster und Iterationen, das Clustering-Kriterium, die Summe der Quadrate innerhalb und zwischen den Klassen sowie die mittlere Breite der Silhouette.

Deskriptive Statistik: Aktivieren Sie diese Option, um deskriptive Statistiken für die ausgewählten Variablen anzuzeigen. Cluster Größe: Aktivieren Sie diese Option, um die Anzahl der Beobachtungen für jeden Cluster anzuzeigen.

Ergebnisse nach Klassen

Zentrum: Aktivieren Sie diese Option, um die Cluster-Koordinaten anzuzeigen.

Zentrale Objekte: Aktivieren Sie diese Option, um die Koordinaten der nächstgelegenen Beobachtung zum Zentrum für jede Klasse anzuzeigen.

Cluster Übersichtstabelle: Aktivieren Sie diese Option, um die Merkmale jedes Clusters in dieser Partition anzuzeigen

(Abweichungen innerhalb der Klasse, mittlerer, maximaler und minimaler Abstand vom Clusterzentrum) und alle Beobachtungen in den Clustern.

Die häufigsten Variablen: Aktivieren Sie diese Option, um die aktuellsten Variablen jedes Clusters anzuzeigen. Die Standardanzahl der angezeigten Wörter beträgt 10.

Mitgliedschaften: Aktivieren Sie diese Option, um den jeder Beobachtung zugeordneten Cluster und den Abstand zwischen diesen beiden anzuzeigen.

Wahrscheinlichkeit der Mitgliedschaft: Aktivieren Sie diese Option, um die Mitgliedschaftswahrscheinlichkeiten \ mu_ {i, j} ui, j für jede Beobachtung anzuzeigen (nur bei Fuzzy-Clustering verfügbar).

Diagramme:

Entwicklung des Kriteriums: Wenn Sie sich für das Clustering zwischen zwei Cluster entscheiden, zeigt XLSTAT das Kriterium für jede Partition an. Je höher die Anzahl der Cluster desto niedriger ist dieses Kriterium. Wenn der Datensatz keine bestimmte Struktur enthält, nimmt das Kriterium stetig ab. Wenn sich jedoch innerhalb des Datensatzes eine Struktur befindet, wird im Diagramm möglicherweise ein Bogen mit der richtigen Anzahl von Clustern angezeigt.

Profildarstellung: Mit diesem Diagramm können Sie die Mittel der verschiedenen Cluster vergleichen.

Cluster Größe: Dieses Diagramm gibt die Anzahl der Beobachtungen in jedem Clusters an.

Silhouette: Aktivieren Sie diese Option, um die Silhouette der Partition zu zeichnen. Für jede Beobachtung wird ein Anpassungskoeffizient zwischen -1 und 1 berechnet, wobei 1 die perfekte Anpassung ist und negative Werte eine schlechte Partition darstellen. Alle diese Anpassungskoeffizienten bilden die Silhouette.