Wie führe ich eine Hauptkomponentenanalyse (HKA) mit XLSTAT durch?
Eine Excel-Mappe mit den Daten und den Ergebnissen, die in diesem Tutoriel behandelt werden, kann hier heruntergeladen werden. Die Daten stammen vom US Census Bureau (die Originaldatei kann unter http://eire.census.gov/popest/states_dataset.csv herunter geladen werden). Sie entsprechen einer Erhebung von demographischen Merkmalen in 51 Staaten der vereinigten Staaten in 2000 und 2001. Im Rahmen dieses Tutoriels wurden ausschließlich die Daten des Jahres 2001 betrachtet und um Skaleneffekte zu vermeiden, wurden die Ausgangsvariablen in Raten pro 1000 Einwohner umgewandelt. Das Ziel ist es, die Korrelationen zwischen den Variablen zu analysieren und die Staaten zu identifizieren, die sich stark von den übrigen Staaten unterscheiden. Diese Daten werden ebenfalls für das Tutoriel der Hierarchischen Klassifizierung eingesetzt. (AHC).
Die HKA ist eine sehr effiziente Methode zur Analyse von quantitativen (kontinuierlichen oder diskreten) Daten, die in Form von Tabellen mit M Beobachtungen und N Variablen vorliegen. Die Methode erlaubt:
- schnell die Korrelationen zwischen den N Variablen darzustellen und zu analysieren,
- darstellen und analysieren der M Beobachtungen, die anfänglich von N Variablen beschrieben wurden, mittels eines zwei- oder dreidimensionalen Diagramms, das so konstruiert wird, dass die Dispersion zwischen den Daten so gut wie möglich erhalten bleibt,
- konstruieren einer Menge von P nicht korrelierten Faktoren, (P<=N) die anschließend in anderen Methoden verwandt werden können (in einer Regression beispielsweise).
Die Grenzen der HKA rühren von der Tatsache her, dass es sich um eine Projektionsmethode handelt und dass die durch die Projektion verlorene Information Interpretationsfehler verursachen kann. Tipps erlauben es jedoch solche Nachteile zu vermeiden.
Nach dem Öffnen von XLSTAT, wählen Sie den Befehl XLSTAT/Analyse der Daten/Hauptkomponentenanalyse oder klicken Sie auf den entsprechenden Button in der Toolbar "Analyse der Daten" (siehe unten).


Nach dem Klicken des Buttons erscheint das entsprechende Dialogfenster der Hauptkomponentenanalyse. Sie können nun die Daten im Excel-Blatt auswählen. Es gibt mehrere Arten die Daten in den XLSTAT Dialogfenstern auszuwählen (siehe auch das Tutoriel zu diesem Thema). In untersuchten Beispiel beginnen die Daten in der ersten Zeile; es ist daher schneller die Spaltenauswahl zu benutzen. Daher erscheinen im Dialogfenster unten die Auswahlen in Form von Spalten. Die Option „Variablenbeschriftungen“ ist aktiviert, da die erste Zeile der Daten die Namen der Variablen enthält. Das hier gewählte „Datenformat“ ist „Beobachtungen/Variablen-Tabelle“, das auch der Vorgabewert ist. Der „PCA-Typ“ wird als Pearson gewählt, was Berechnungen auf Basis einer Matrix mit den Korrelationskoeffizienten nach Pearson zur Folge hat. Dieser Korrelationskoeffizient ist der klassische Korrelationskoeffizient.

Im Reiter „Ausgabe“ wird die Option „Signifikanztest“ zur Anzeige der signifikant von Null verschiedenen Korrelationen im Fettdruck aktiviert.

Im Reiter „Diagramme“ werden die Optionen „Beschriftungen“ alle aktiviert, damit die Beschriftungen der Variablen und der Beobachtungen angezeigt werden. Die Option der Filterung der Beobachtungen ist deaktiviert, um alle Beobachtungen anzuzeigen. Wenn es viele Beobachtungen gibt, so wird angeraten, keine Beschriftungen anzuzeigen, um die Erstellung der Diagramme zu beschleunigen und nicht alle Beobachtungen anzuzeigen, damit die Diagramme lesbarer werden.

Die Berechnungen beginnen, sobald der Button "OK" geklickt wird. Falls Sie in den Optionen von XLSTAT die Option „Auswahl bestätigen lassen“ aktiviert haben, so bittet Sie XLSTAT die Anzahl der Zeilen und der Spalten der Auswahlen zu bestätigen.
Anschließend erlaubt Ihnen ein neues Dialogfenster die Auswahl der Achsen, für die ein Diagramm anzeigt werden soll. In unserem Fall ist der Prozentsatz der auf den ersten beiden Achsen dargestellten Variabilität nicht sehr groß (67,72%). Um eine Fehlinterpretation zu vermeiden, wird ebenfalls eine Darstellung auf den Achsen 1 und 3 ausgewählt.

Das erste interessante zu analysierende Ergebnis ist die Korrelationsmatrix. Man erkennt sofort, dass die Raten der Proportionen der älteren Leute jünger als 65 und älter als 65 perfekt korreliert sind (r = -1). Die beiden Variablen sind daher redundant. Man erkennt ebenfalls, dass die Zuwanderung aus anderen Staaten der USA sehr wenig mit den anderen Variablen korreliert ist einschließlich der Immigration aus dem Ausland. Dies deutet darauf hin, dass die Motivation der Immagration für beide Populationen verschieden ist.

Die folgende Tabelle mit ihrem zugehörigen Diagramm sind an ein mathematisch Objekt angelehnt, den Eigenwerten, die einem einfachen Konzept folgen: Die Qualität der Projektion von N Dimensionen (N ist die Anzahl der Variable, hier 7) auf eine kleinere Anzahl von Dimensionen. In unserem Fall sieht man, dass der erste Eigenwert 3,567 ist und 51% der Variabilität repräsentiert. Dies bedeutet, falls man die Daten auf einer einzigen Achse darstellt, so wird immer noch 51% der Gesamtvariabilität erhalten bleiben.
Jedem Eigenwert ist ein Faktor zugeordnet. Jeder Faktor ist in Wirklichkeit eine Linearkombination der Ausgangsvariablen. Die Faktoren haben die Eigenheit nicht untereinander korreliert zu sein. Die Eigenwerte und die Faktoren werden in absteigender Ordnung gemäß der Variabilität dargestellt.


Idealerweise entsprechen die ersten beiden Eigenwerte einem hohen Prozentsatz der Variabilität, so dass die Darstellung auf den ersten beiden Faktorachsen eine gute Qualität bietet. In unserem Beispiel trifft dies nicht ganz zu, daher die Notwendigkeit des Gebrauchs der Diagramme der Faktoren F1 und F2 einerseits und den Faktoren F1 und F3 andererseits. Wir sehen, dass die Anzahl der Faktoren 6 beträgt, wobei die Anzahl der Ausgangsvariablen 7 betrug. Dies ist auf die beiden redundanten Variablen zurückzuführen. Man kann leicht einsehen, dass die Information auf 6 Dimensionen zusammengefasst werden kann. Die Anzahl der maximal „nützlichen“ Dimensionen wird automatisch durch die verwendete Methode erkannt.
Das erste Diagramm, das speziell von dieser Methode stammt ist der Korrelationskreis (siehe unten den Kreis der Achsen F1 und F2). Er entspricht einer Projektion der Ausgangsvariablen auf eine zweidimensionale Ebene mit den beiden ersten Faktoren als Achsen. Wenn zwei Variablen weit vom Zentrum entfernt sind, so sind sie:
- nah beieinander abgebildet, und daher sind sie signifikant positiv korreliert (r ist nah bei),
- orthogonal liegend abgebildet, und daher signifikant nicht-korreliert (r nah bei 0),
- symmetrisch gegenüberliegend in Bezug auf das Zentrum, und daher signifikant negativ korreliert (r nah bei -1).
Wenn die Variablen nah am Zentrum des Diagramms liegen, so ist jede Interpretation riskant, und es ist notwendig, sich auf die Korrelationsmatrix zu berufen und andere Faktorenebenen zu betrachten, um die Ergebnisse zu interpretieren. In unserem Beispiel kann man vom unten abgebildeten Diagramm folgern, dass die Variablen Inlandseinwanderung und Auslandseinwanderung korreliert sind, wobei dies jedoch nicht der Fall ist, was man anhand der Korrelationsmatrix sehen kann oder im Korrelationskreis der Achsen F1 und F3. Im Gegensatz dazu sieht man jedoch sehr gut die Korrelation zwischen der Todesrate und der Rate der Personen über 65.

Die Korrelationskreise sind ebenfalls nützlich zur Interpretation der Signifikanz der Achsen. In unserem Fall ist die Achse F1 klar an das Alter der Population angelehnt und Ihrer Erneuerung, wogegen die Achse F2 essentiell auf die Inlandseinwanderung aufbaut. Diese Tendenzen sind insbesondere interessant herauszulesen zur Interpretation der Beobachtungsdiagramme (siehe unten). Um zu überprüfen, ob eine Variablen stark an einen Faktor gebunden ist, reicht es aus die Tabelle der Kosinuswerte zu betrachten: Je größer der Kosinus ist (in absoluten Werten), desto mehr ist die Variable an die Achse gebunden. Je näher der Kosinus bei Null liegt, desto weniger ist die Variable an die Achse gebunden. In unserem Fall kann man sehen, dass für die Auslandseinwanderung besser die Achsen F2/F3 zu interpretieren sind.

Das unten stehende Diagramm entspricht einem der Ziele der HKA. Es erlaubt die Darstellung der Individuen auf einer zweidimensionalen Karte und so die Tendenzen zu identifizieren. Man sieht in unserem Beispiel, dass auf Basis der vorliegenden demographischen Variablen Nevada und Florida sehr andersartig sind, so wie Utah und Alaska einander ähnlich zu sein scheinen: Beim Betrachten der Daten stellt man fest, dass die beiden Staaten eine viel jüngere Bevölkerung und eine sehr hohe Geburtenrate im Vergleich zu den übrigen Staaten aufweisen.

Klicken Sie
um ein Diagramm in drei Dimensionen zu sehen, dass mittels XLSTAT-3DPlot erstellt wurde um die ersten drei Faktorachsen zu repräsentieren.
Die Hauptkomponentenanalyse wird oft vor einer Regression angewandt, da sie den Gebrauch redundanter Variablen vermeidet, oder vor einer Klassifizierung, da sie die Struktur der Population identifiziert und eventuell die Anzahl der zu erzeugenden Gruppen vorgibt. Die in diesem Tutoriel verwendeten Daten werden ebenfalls im Tutoriel zur Hierarchischen Klassifizierung verwendet. Aufbauend auf die obigen Bemerkungen wurde die Variablen „Pop > 65“ entfernt, um die Gewichtung der Variablen gebunden an das Alter nicht für die Gruppierung nicht zu stark ausfallen zu lassen.
Klicken Sie hier, um zu den übrigen Einführungen zu gelangen.