Wie mache ich eine Diskriminanzanalyse mit XLSTAT?

Eine Excel-Mappe mit den Daten und den Ergebnissen, die in diesem Tutoriel behandelt werden, kann hier heruntergeladen werden. Die Daten stammen von [Fisher M. (1936). The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics, 7, pp 179 -188] und entsprechen 150 Schwerlilienblüten, beschrieben durch vier Variablen (Kelchblattlänge, Kelchblattbreite, Blütenblattlänge und Blütenblattbreite) und Ihrer Spezies. Drei verschiedene Spezies wurden in die Studie einbezogen: Setosa, Versicolor und Virginica. Das Ziel ist es, zu überprüfen, ob die vier Variablen das Diskrimieren der Spezies erlauben und die Beobachtungen in einer 2-dimensionalen Karte darzustellen, die so gut wie möglich die Unterscheidung der Gruppen anzeigt.

iris_setosa.jpgiris_versicolor.jpgiris_virginica.jpg

Iris Setosa, Versicolor und Virginica.

Nach dem Öffnen von XLSTAT, wählen Sie den Befehl XLSTAT/Analyse der Daten /Diskriminanzanalyse oder klicken Sie auf den entsprechenden Button der "Analyse der Daten" Toolbalkens (siehe unten).

bardad.gif

Nach dem Klicken des Buttons erscheint das Dialogfenster der Diskriminanzanalyse. Die „abhängige Variable“ entspricht in diesem Fall der Spezies-Variablen. Die “erklärenden Variablen” sind die vier beschreibenden Variablen. Die “Beobachtungsbeschriftungen” werden mit dem entsprechenden Feld ausgewählt. Im Reiter Optionen sind fortgeschrittene Optionen verfügbar. Im Beispiel wurde die Option „Gleichheit der Kovarianzmatrizen” deaktiviert, da anhand des Box-Test überprüft werden soll, ob diese Annahme gerechtfertigt wäre.

da1d.gif
da1bisd.gif

Die Berechnungen beginnen sobald Sie auf "OK" klicken. Nach der Auswahl der beiden anzuzeigenden Achsen, die einfach durch Klicken auf „Beenden“ ausgewählt werden, werden die Ergebnisse angezeigt. Zunächst werden die verschiedenen Matrizen, die während den Berechnungen benutzt werden, angezeigt. Die beiden Box-Test bestätigen die Annahme, dass die Hypothese gleicher Kovarianzmatrizen in den verschiedenen Gruppen zurückgewiesen werden muss.

da2d.gif

Der Wilk's Lambda-Test erlaubt es, zu überprüfen of der Vector der Mittelwerte für die verschiedenen Gruppen gleich ist oder nicht (Dies kann als multidimensionelle Variante des Fisher's LSD oder des Tukey's HSD Tests angesehen werden.). Man erkennt, dass die Unterschiede zwischen den verschiedenen Mittelwertvektoren der Gruppen signifikant ist.

da3d.gif

Die folgende Tabelle zeigt die Diskriminanzfunktionen an. Wenn man die Gleichheit der Kovarianzmatrix unterstellt, so sind die zugehörigen Diskriminanzfunktionen linear. Wenn keine Gleichheit der Kovarianzmatrizen unterstellt wird, welches der Fall in diesem Tutoriel ist, so sind die Diskriminanzfunktionen quadratisch. Die Regel basierend auf diesen Funktionen ist die Zuordnung einer Beobachtung zu der Gruppe, deren entsprechende Diskriminanzfunktion den grössten Wert aufweist. Diese Funktionen können ebenfalls in einem Vorhersagemodus auf neue Beobachtungen angewandt werden.

da4d.gif

Die nächste Tabelle zeigt die Eigenwerte und die zugehörigen Varianzprozentsätze an. Man kann sehen, dass 99% der Varianz durch den ersten Faktor erklärt wird. Es gibt nur zwei Faktoren: Die maximale Anzahl an Faktoren ist gleich k-1, mit n>p>k, wobei n die Anzahl der Beobachtungen, p die Anzahl der erklärenden Variablen und k die Anzahl der Gruppen ist.

da5d.gif

Die folgende Grafik stellt die Korrelation der Ausgangsvariablen zu den beiden Faktoren dar ( Diese Grafik entspricht der Faktorladungstabelle.). Man kann erkennen, dass der Faktor F1 mit der Kelchblattlänge, der Blütenblattlänge und der Blütenblattbreite korreliert. Der Faktor F2 ist mit der Kelchblattbreite korreliert.

da6d.gif

Die nächste Tabelle listet für jede Beobachtung die Faktorscores (die Koordinaten der Beobachtungen im neuen Faktorraum), die Wahrscheinlichkeit der Zugehörigkeit zu jeder der Gruppen und der quadratische Mahalanobisabstand vom Gruppenzentroid. Jede Beobachtung wird der Gruppe zugeordnet, deren Zugehörigkeitswahrscheinlichkeit am grössten ist. Die Wahrscheinlichkeiten sind ex post Werte, die die a priori Zugehörigkeitswahrscheinlichkeiten nach der Bayes Formel berücksichtigen. Man kann sehen, dass drei Beobachtungen (5,9 und 12) erneut klassifiziert wurden. Es verschiedene Interpretationsmöglichkeiten der Ergebnisse: Zum einen könnte die Person, die die Messungen vornahm Fehler bei der Aufzeichnung der Werte begangen haben oder die entsprechenden Schwertlilienblüten hatten einen ungewöhnlichen Wuchs oder die Kriterien des Spezialisten zur Bestimmung der Spezies sind nicht präzise genug oder noch notwendige Informationen zur Diskriminierung der Blumen sind in diesem Fall nicht verfügbar.

da7d.gif

Die folgenden Grafiken stellen die Beobachtungen auf den Faktorachsen dar. Dies erlaubt es zu überprüfen, ob alle Spezies gut diskriminiert auf den Faktorachsen extrahiert aus den Ausgangsvariablen wurden.

da8d.gif

Zuletzt fasst die Konfusionsmastrix die Klassifizierung der Beobachtungen zusammen und gibt die Einordnungsfehlerrate, die dem Quotienten aus der Anzahl der Beobachtungen, die falsch klassifiziert wurden, und der Gesamtzahl der Beobachtungen an.

da9d.gif

Klicken Sie hier, um zu den übrigen Einführungen zu gelangen.