Wie führe ich eine logistische Regression mit XLSTAT durch?
Die logistische Regression, und verwandte Methoden wie die Probit Analyse, sind sehr nützlich, wenn man den Einfluss einer Reihe von Variablen auf eine binäre Antwortvariable (eine Variable, die nur zwei Werte beispielsweise 0/1 oder Ja/Nein annimmt). Die logistische Regression kann hilfreich sein, einen Dosiseffekt in der Medizin zu modellieren, oder die Antwortwahrscheinlichkeit eines Kunden zu im Direktmarketing vorherzuberechnen, oder das Risiko für eine Bank, dass ein Kunde einen Kredit nicht zurückzahlen wird, zu bewerten.
Mit XLSTAT können Sie eine logistische Regression entweder auf den Ausgangsdaten (die Antwort ist als 0 oder 1 gegeben) oder auf den aggregierten Daten (die Antwort ist als Summe von „Erfolgen“ oder Einsen, und die Anzahl an Wiederholungen muss ebenfalls als Variable bereitgestellt werden).

Beispiel von Ausgrangsdaten - (Effekt der Temperatur auf die Chipwiderstandsfähigkeit)

Beispiel von aggregierten Daten - (Effekt eines Insektizids auf eine spezifische Insektenspezies)
Beachten Sie, dass Addinsoft ein spezifisches Modul zur Dosisanalyse entwickelt hat. Dieses Modul heißt XLSTAT-Dose und kann separat bestellt werden.
Die Methode der logistischen Regression sucht die Erfolgswahrscheinlichkeit in Abhängigkeit von den Werten der erklärenden Variablen, die kategorisch oder numerischer Natur sein können, zu modellieren. Das hier behandelte Beispiel ist ein Marketingfall, in dem man versucht zu erkennen, ob Kunden gewillt sind, ihr Abonnement für einen Online Sportinformationsservice zu erneuern. Eine Excel-Mappe mit den Daten und den Ergebnissen, die in diesem Tutorial behandelt werden, kann hier heruntergeladen werden.
Die Daten stellen eine Stichprobe von 60 Benutzern mit deren Altersklasse, deren durchschnittliche Anzahl an angezeigten Seiten pro Woche, und deren Anzahl der während des letzten Monats angezeigten Seiten dar. Diesen Benutzern wurde die Möglichkeit geboten, das Abonnement zu erneuern, das in zwei Wochen endet. Unser Ziel ist es zu verstehen, warum einige ihr Abonnementen erneuert haben, und andere nicht.
Durch ein logistisches Regressionsmodell möchte man die erhaltenen Ergebnisse erklären, und dann das Modell auf der gesamten Population zu benutzen, um die Benutzer zu identifizieren, die wahrscheinlich ihr Abonnement erneuern. Diesen gefilterten Benutzern könnte ein Ansporn (ein zusätzlicher Service zum Beispiel) geboten werden, das Abonnement zu erneuern.
Nach dem Öffnen von XLSTAT, wählen Sie den Befehl XLSTAT/Modellierung der Daten/Logistische Regression oder klicken Sie auf den entsprechenden Button in der Toolbar "Modellierung der Daten" (siehe unten).

Nach dem Klicken des Buttons erscheint das entsprechende Dialogfenster der logistischen Regression. Sie können nun die Daten im Excel-Blatt auswählen. Es gibt mehrere Arten die Daten in den XLSTAT Dialogfenstern auszuwählen (siehe auch das Tutorial Datenauswahl zu diesem Thema). Im untersuchten Beispiel beginnen die Daten in der ersten Zeile; es ist daher schneller die Spaltenauswahl zu benutzen. Daher erscheinen im Dialogfenster unten die Auswahlen in Form von Spalten. Die Option „Variablenbeschriftungen“ ist aktiviert, da die erste Zeile der Daten die Namen der Variablen enthält. Die „Antwort“ entspricht der Spalte, in der sich die binäre Variable oder die Anzahl der positiven Fälle befindet (Achtung: Wenn Sie die aggregierten Daten benutzen, dass müssen die „Gewichte“ ausgewählt werden). In diesem speziellen Fall liegen drei erklärende Variablen vor, eine kategorische — die Altersgruppe — und zwei numerische: die Anzahl der Seiten.

Die Berechnungen beginnen, sobald der Button "OK" geklickt wird. Die folgende Tabelle gibt die Modelldetails wieder. Dies ist hilfreich, um den Effekt der verschiedenen Variablen und die relativen Effekte der Alterskategorien zu verstehen.

In dieser Tabelle kann man anhand der Chi-Quadrat Wahrscheinlichkeiten sehen, dass die einflussreichste Variable für eine Erneuerung die Anzahl der im letzten Monat angezeigten Seiten ist. Man sieht ebenfalls, dass der Achsenabschnitt signifikant ist, und dass das Kundenalter zwischen 40-49 einen stark negativen Einfluss auf die Erneuerung des Abonnements hat. Der letzte Punkt muss von Marketingmitarbeitern interpretiert werden, damit die richtige Aktion für diese spezifische Population ergriffen werden kann.
Die nächste Tabelle gibt verschiedene Indikatoren der Modellqualität wieder (oder goodness of fit). Diese Ergebnisse sind dem R2 und der Varianzanalysetabelle der linearen Regression und ANOVA gleichwertig. Der wichtigste zu betrachtende Wert ist die Chi-Quadrat Wahrscheinlichkeitstest auf dem log Verhältnis. Dies ist gleichwertig mit dem Fisher F Test: Man versucht zu beurteilen, ob die Variable signifikante Information einbringt durch Vergleichen des aktuellen Modells mit einem Modell, das nur eine konstante enthält. In diesem Fall, da die Wahrscheinlichkeit kleiner als 0.0001 ist, kann man schließen, dass signifikante Information durch die Variablen in das Modell eingebracht wird.

Der letzte Schritt ist die Anwendung des Modells auf die gesamte Population. In vorliegenden Fall schreibt sich das Modell als:
Y = Exp( L(x) ) / [ 1 + Exp( L(x) ], wobei L(x) = -2.3567 + 0.0235.durchschnSeiten/Woche + 0.0893.Seite/Woche + Faktor und Faktor nimmt den Wert des der Altergruppe des Kunden zugehörigen Parameters.
Nachdem man das Modell auf die 600 Kunden anwendet, die ihr Abonnement erneuern im folgenden Monat erneuern müssen, fand man nur 40% Kandidaten. Durch angepasste Marketingaktionen konnte jedoch dieses Ergebnis auf 85% erhöht werden!
Klicken Sie hier, um zu den übrigen Einführungen zu gelangen.
