Wie führe ich eine logistische Regression mit XLSTAT durch?

Datensatz für Binäre und multinomiale Logistische Regression (Logit, Probit, ...) XLS69.0 KB

Videos für dieses Tutorial
Binäre und multinomiale Logistische Regression (Logit, Probit, ...) ist enthalten in: Download Demoversion Mehr Details Kommentare ansehen
  • Pro Statistische Kernsoftware

  • Voraussetzungen

    • Windows:
      • Versionen: 9x/Me/NT/2000/XP/Vista/Win 7
      • Excel: 97 oder höher
      • Prozessor: 32 oder 64 bit
      • Festplattenspeicher: 150 MB
    • Mac OS X:
      • OS: OS X
      • Excel: X, 2004 und 2011
      • Festplattenspeicher: 150 MB

Vorteile von XLSTAT

  • Praktisch und einfache Benutzung
    Praktisch und einfache Benutzung XLSTAT ist perfekt in Microsoft Excel integriert, das das am meisten benutzte Tabellenkalkulationsprogramm ist. Dank dieser Integration und der gleichen Philosophie wie Excel, ist die Benutzung von XLSTAT leicht. Die Software ist in einem speziellen Reiter verfügbar, der das Menu der XLSTAT-Module enthält. Die verfügbaren Analysen sind in Gruppen ähnlicher Funktion zusammengefasst. Die Dialogfenster sind einfach und Ihre Einstellungen verständlich.
  • Einfaches Mitteilen der Daten und Ergebnisse
    Einfaches Mitteilen der Daten und Ergebnisse Einer der größten Vorteile von XLSTAT ist die Tatsache, das die Daten und Ergebnisse ohne Einschränkung kommuniziert werden können. Denn die Daten und Ergebnisse werden in Microsoft Excel gespeichert und sind daher allen zugänglich. Eine XLSTAT Lizenz oder ein Programm zur Ansicht ist nicht erforderlich, um die Daten und Ergebnisse zu empfangen und anzusehen. Darüber hinaus sind die Ergebnisse leicht in andere Programme von Microsoft Office, wie PowerPoint kopierbar, was Ihnen das Erstellen von Präsentationen mit ausgezeichneten Diagrammen in wenigen Minuten erlaubt.
  • Modular
    Modular XLSTAT ist ein modulares Produkt um XLSTAT-Pro herum, das die Basissoftware von XLSTAT darstellt. XLSTAT-Pro schließt bereits alle verbreiteten statistischen Funktionen und multivariaten Datenanalysen ein. Die fortgeschrittenen Funktionen sind ebenfalls in zusätzlichen Modulen verfügbar, die speziellen Anforderungen gerecht werden. So können Sie Ihre Software an Ihre eigenen Anforderungen anpassen, was sie attraktiver werden lässt.
  • Didaktisch
    Didaktisch Die XLSTAT Ergebnisse sind nach Analysen aufgebaut und einfach durchzublättern. Darüber hinaus sind den Ergebnissen nützliche Informationen hinzugefügt, um die Interpretation zu erleichtern.
  • Preiswert
    Preiswert XLSTAT ist eine modulare, komplette Statistik- und Datenanalysesoftware, die sich an alle Ihre analytischen Anforderungen Ihrer Organisation anpasst. Der Preis ist sehr gering, was Ihnen eine quasi sofortige Amortisierung erlaubt. Alle XLSTAT Lizenzen schließen ein Support und eine Unterstützung hervorragender Qualität ein.
  • Zugänglich
    Zugänglich Wir setzen uns ein, XLSTAT so vielen Personen wie möglich durch eine Benutzerschnittstelle in vielen Sprachen darunter Deutsch, englisch, französisch, spanisch, italienisch, portugiesisch, polnisch, chinesisch und japanisch zugänglich zu machen.
  • Automatisierbar und personalisierbar
    Automatisierbar und personalisierbar Die Mehrzahl der in XLSTAT verfügbaren Funktionen können direkt aus Visual Basic for Applications von Microsoft Excel heraus aufgerufen werden. Sie können in Ihre Routinen integriert werden, um Ihren Anforderungen einer speziellen Anwendung gerecht zu werden. Das Hinzufügen von Ergebnistabellen, Diagrammen, oder das Verändern bereits existierender ist vereinfacht. Darüber hinaus schließt XLSTAT die Werkzeuge zur Erzeugen des VBA Kodes für die Dialogfenster ein, so dass Sie Ihre Analysen vom VBA Editor heraus einfach reproduzieren können, indem Sie die Einstellungen automatisch laden. Diese Automatisierung der Analysen wird Ihnen viel Zeit einsparen.

Die logistische Regression, und verwandte Methoden wie die Probit Analyse, sind sehr nützlich, wenn man den Einfluss einer Reihe von Variablen auf eine binäre Antwortvariable (eine Variable, die nur zwei Werte beispielsweise 0/1 oder Ja/Nein annimmt). Die logistische Regression kann hilfreich sein, einen Dosiseffekt in der Medizin zu modellieren, oder die Antwortwahrscheinlichkeit eines Kunden zu im Direktmarketing vorherzuberechnen, oder das Risiko für eine Bank, dass ein Kunde einen Kredit nicht zurückzahlen wird, zu bewerten.

Mit XLSTAT können Sie eine logistische Regression entweder auf den Ausgangsdaten (die Antwort ist als 0 oder 1 gegeben) oder auf den aggregierten Daten (die Antwort ist als Summe von „Erfolgen“ oder Einsen, und die Anzahl an Wiederholungen muss ebenfalls als Variable bereitgestellt werden).

log1.gif Beispiel von Ausgrangsdaten - (Effekt der Temperatur auf die Chipwiderstandsfähigkeit)

log2.gif Beispiel von aggregierten Daten - (Effekt eines Insektizids auf eine spezifische Insektenspezies)

Beachten Sie, dass Addinsoft ein spezifisches Modul zur Dosisanalyse entwickelt hat. Dieses Modul heißt XLSTAT-Dose und kann separat bestellt werden.

Die Methode der logistischen Regression sucht die Erfolgswahrscheinlichkeit in Abhängigkeit von den Werten der erklärenden Variablen, die kategorisch oder numerischer Natur sein können, zu modellieren. Das hier behandelte Beispiel ist ein Marketingfall, in dem man versucht zu erkennen, ob Kunden gewillt sind, ihr Abonnement für einen Online Sportinformationsservice zu erneuern. Eine Excel-Mappe mit den Daten und den Ergebnissen, die in diesem Tutorial behandelt werden, kann hier heruntergeladen werden.

Die Daten stellen eine Stichprobe von 60 Benutzern mit deren Altersklasse, deren durchschnittliche Anzahl an angezeigten Seiten pro Woche, und deren Anzahl der während des letzten Monats angezeigten Seiten dar. Diesen Benutzern wurde die Möglichkeit geboten, das Abonnement zu erneuern, das in zwei Wochen endet. Unser Ziel ist es zu verstehen, warum einige ihr Abonnementen erneuert haben, und andere nicht.

Durch ein logistisches Regressionsmodell möchte man die erhaltenen Ergebnisse erklären, und dann das Modell auf der gesamten Population zu benutzen, um die Benutzer zu identifizieren, die wahrscheinlich ihr Abonnement erneuern. Diesen gefilterten Benutzern könnte ein Ansporn (ein zusätzlicher Service zum Beispiel) geboten werden, das Abonnement zu erneuern.

Nach dem Öffnen von XLSTAT, wählen Sie den Befehl XLSTAT/Modellierung der Daten/Logistische Regression oder klicken Sie auf den entsprechenden Button in der Toolbar "Modellierung der Daten" (siehe unten).

barlog1.gif

Nach dem Klicken des Buttons erscheint das entsprechende Dialogfenster der logistischen Regression. Sie können nun die Daten im Excel-Blatt auswählen. Es gibt mehrere Arten die Daten in den XLSTAT Dialogfenstern auszuwählen (siehe auch das Tutorial Datenauswahl zu diesem Thema). Im untersuchten Beispiel beginnen die Daten in der ersten Zeile; es ist daher schneller die Spaltenauswahl zu benutzen. Daher erscheinen im Dialogfenster unten die Auswahlen in Form von Spalten. Die Option „Variablenbeschriftungen“ ist aktiviert, da die erste Zeile der Daten die Namen der Variablen enthält. Die „Antwort“ entspricht der Spalte, in der sich die binäre Variable oder die Anzahl der positiven Fälle befindet (Achtung: Wenn Sie die aggregierten Daten benutzen, dass müssen die „Gewichte“ ausgewählt werden). In diesem speziellen Fall liegen drei erklärende Variablen vor, eine kategorische — die Altersgruppe — und zwei numerische: die Anzahl der Seiten.

log3.gif

Die Berechnungen beginnen, sobald der Button "OK" geklickt wird. Die folgende Tabelle gibt die Modelldetails wieder. Dies ist hilfreich, um den Effekt der verschiedenen Variablen und die relativen Effekte der Alterskategorien zu verstehen.

log4.gif

In dieser Tabelle kann man anhand der Chi-Quadrat Wahrscheinlichkeiten sehen, dass die einflussreichste Variable für eine Erneuerung die Anzahl der im letzten Monat angezeigten Seiten ist. Man sieht ebenfalls, dass der Achsenabschnitt signifikant ist, und dass das Kundenalter zwischen 40-49 einen stark negativen Einfluss auf die Erneuerung des Abonnements hat. Der letzte Punkt muss von Marketingmitarbeitern interpretiert werden, damit die richtige Aktion für diese spezifische Population ergriffen werden kann.

Die nächste Tabelle gibt verschiedene Indikatoren der Modellqualität wieder (oder goodness of fit). Diese Ergebnisse sind dem R2 und der Varianzanalysetabelle der linearen Regression und ANOVA gleichwertig. Der wichtigste zu betrachtende Wert ist die Chi-Quadrat Wahrscheinlichkeitstest auf dem log Verhältnis. Dies ist gleichwertig mit dem Fisher F Test: Man versucht zu beurteilen, ob die Variable signifikante Information einbringt durch Vergleichen des aktuellen Modells mit einem Modell, das nur eine konstante enthält. In diesem Fall, da die Wahrscheinlichkeit kleiner als 0.0001 ist, kann man schließen, dass signifikante Information durch die Variablen in das Modell eingebracht wird.

log5.gif

Der letzte Schritt ist die Anwendung des Modells auf die gesamte Population. In vorliegenden Fall schreibt sich das Modell als: Y = Exp( L(x) ) / [ 1 + Exp( L(x) ], wobei L(x) = -2.3567 + 0.0235.durchschnSeiten/Woche + 0.0893.Seite/Woche + Faktor und Faktor nimmt den Wert des der Altergruppe des Kunden zugehörigen Parameters.

Nachdem man das Modell auf die 600 Kunden anwendet, die ihr Abonnement erneuern im folgenden Monat erneuern müssen, fand man nur 40% Kandidaten. Durch angepasste Marketingaktionen konnte jedoch dieses Ergebnis auf 85% erhöht werden!