Wie führe ich eine multinomiale logistische Regression mit XLSTAT durch?
Das multinomiale Logit Modell ist eine Verallgemeinerung des Logit Modells für den Fall einer Antwortvariablen mit mehr als zwei Kategorien.
Diese Methode ist sehr nützlich, um den Effekt einer Serie von Variablen auf eine ungeordnete qualitative Antwortvariable (eine Variable, die mehr als zwei Kategorien haben kann) zu verstehen und diese vorherzusagen. Multinomiale Logit Modelle können zur Modellierung des Effekts von einigen beschreibenden Variablen auf die Markenwahl in einem imaginären Markt mit mehr als zwei Marken.
Alle Ergebnisse werden relativ zu einer Referenzkategorie angezeigt.
Mit XLSTAT können Sie multinomiale Analysen auf Rohdaten durchführen. Das Dialogfenster des multinomialen Logit Modells ist das gleiche wie für die logistische Regression.
Die Methodologie des multinomialen Logit Modells versucht die jeder Kategorie zugeordnete Wahrscheinlichkeit in Abhängigkeit von den Werten der erklärenden Variablen, die qualitativ oder quantitativ sein können, zu modellieren. Das vorgestellt Beispiel behandelt einen Fall als dem Marketing, wobei man ermitteln möchte, ob Kunden in Abhängigkeit Ihres Alters und Geschlecht aus drei verschiedenen Marken wählen.
Eine Excel-Mappe mit den Daten und den Ergebnissen, die in diesem Tutorial behandelt werden, kann hier heruntergeladen werden. Die Daten enthalten eine Stichprobe von 750 Zeilen. Die Referenzkategorie ist Marke 1. Unser Ziel ist es zu verstehen, ob die Kunden abhängig von Ihrem Alter und Geschlecht eher die Marken 2 oder 3 der Marke 1 vorziehen.
Nach dem Öffnen von XLSTAT, wählen Sie den Befehl XLSTAT/Modellierung der Daten/Logistische Regression oder klicken Sie auf den entsprechenden Button in der Toolbar "Modellierung der Daten" (siehe unten).

Nach dem Klicken des Buttons erscheint das entsprechende Dialogfenster der linearen Regression. Sie können nun die Daten im Excel-Blatt auswählen. Es gibt mehrere Arten die Daten in den XLSTAT Dialogfenstern auszuwählen (siehe auch das Tutorial Datenauswahl zu diesem Thema). Im untersuchten Beispiel beginnen die Daten in der ersten Zeile; es ist daher schneller die Spaltenauswahl zu benutzen. Daher erscheinen im Dialogfenster unten die Auswahlen in Form von Spalten. Um das multinomiale Logit Modell zu aktivieren, wählen Sie den Antworttyp “multinomial”. Es erschein eine neue Auswahlbox, in dem Sie die Kontroll- oder Referenzkategorie auswählen können (in unserem Fall wählen Sie a1=0 für die erste Kategorie).

Wählen Sie nun die Daten aus. Die „Antwort“ entspricht der Spalte, in der die zu erklärende Variable sich befindet. In diesem Beispiel gibt es zwei erklärende Variablen. Die Option „Variablenbeschriftungen“ ist aktiviert, da die erste Zeile der Daten die Namen der Variablen enthält.

Es sind viele Optionen verfügbar. Bitte lesen Sie in der XLSTAT Hilfe für detaillierte Informationen nach.
Die Berechnungen beginnen, sobald der Button "OK" geklickt wird. Falls Sie in den Optionen von XLSTAT die Option „Auswahl bestätigen lassen“ aktiviert haben, so bittet Sie XLSTAT die Anzahl der Zeilen und der Spalten der Auswahlen zu bestätigen.
Die erste Tabelle zeigt die Koeffizienten der Anpassungsgüte des Modells an. Diese Ergebnisse entsprechen dem R² (Determinationskoeffizienten) und der Varianzanalyse in der linearen Regression und ANOVA. Der wichtigste Wert ist die Wahrscheinlichkeit des Chi-Quadrat Test des Log-Verhältnisses. Dies ist dem Fisher F Test gleichwertig: Man versucht zu ermitteln, ob die Variablen signifikante Information einbringen durch den Vergleich des vorliegenden Modells mit einem Modell mit lediglich einer Konstante. In diesem Fall ist die Wahrscheinlichkeit geringer als 0.0001 und man kann folgern, dass signifikante Information durch die Variablen eingebracht wird.

Die folgende Tabelle zeigt Modelldetails an. Diese Tabelle ist hilfreich, wenn man den Effekt der verschiedenen Variablen auf die Kategorien der Antwortvariablen verstehen möchte. Sie ist recht verschieden von der Tabelle der logistischen Regression. Parameter werden für jede Variable und für jede Kategorie der Antwortvariablen ermittelt (außer für die Referenzkategorie). Wahrscheinlichkeitsraten (Odds ratios) sind ebenfalls für ein besseres Verständnis verfügbar.

Die Interpretation der Parameter ist nicht direkt möglich. Die Modellgleichung für die Modalität 2 ist:
Log(P(Antwort=2)/P(Antwort =1))=-11.775+0.524*weiblich+0.368*Alter
Man kann beispielsweise sagen, dass für die Veränderung um eine Einheit der Variablen Alter, der Logarithmus des Verhältnisses der beiden Wahrscheinlichkeiten, P(Antwort =2)/P(Antwort =1), um 0.368 zunimmt. Daher kann man allgemein schließen, je älter die Person ist, desto mehr wird sie Marke 2 bevorzugen. Das Verhältnis der Wahrscheinlichkeit Wahl einer Kategorie im Vergleich zur Wahl der Referenzkategorie wird oft als Wahrscheinlichkeitsrate (Odds ratios) oder auch als relatives Risiko bezeichnet. Daher kann man die Regressionsergebnisse auch aus der Sicht der Odds ratios interpretieren. Man kann sagen, dass für die Veränderung um eine Einheit in der Variablen Alter, das relative Risiko Marke 2 der Marke 1 zu bevorzugen um 1.445 zunimmt.
Man kann durch das Betrachten der Wahrscheinlichkeiten der Chi-Quadrate sehen, dass die einflussreichste Variable in Bezug auf die Antwortvariable für beide Kategorien 2 und 3 das Kundenalter ist. Die Achsenabschnitte sind signifikant.
Die Marketingexperten sollten sich auf ältere Leute konzentrieren, falls Sie den Marktanteil der Marke 1 erhöhen möchten.
Weitere Ergebnisse schließen sich an und vervollständigen die vorhergehende Analyse.
Klicken Sie hier, um zu den übrigen Einführungen zu gelangen.