Wie führe ich eine multiple lineare Regression durch?

Datensatz für Lineare Regression XLS107 KB

Videos für dieses Tutorial
Lineare Regression ist enthalten in: Download Demoversion Mehr Details Kommentare ansehen
  • Pro Statistische Kernsoftware

  • Voraussetzungen

    • Windows:
      • Versionen: 9x/Me/NT/2000/XP/Vista/Win 7
      • Excel: 97 oder höher
      • Prozessor: 32 oder 64 bit
      • Festplattenspeicher: 150 MB
    • Mac OS X:
      • OS: OS X
      • Excel: X, 2004 und 2011
      • Festplattenspeicher: 150 MB

Vorteile von XLSTAT

  • Praktisch und einfache Benutzung
    Praktisch und einfache Benutzung XLSTAT ist perfekt in Microsoft Excel integriert, das das am meisten benutzte Tabellenkalkulationsprogramm ist. Dank dieser Integration und der gleichen Philosophie wie Excel, ist die Benutzung von XLSTAT leicht. Die Software ist in einem speziellen Reiter verfügbar, der das Menu der XLSTAT-Module enthält. Die verfügbaren Analysen sind in Gruppen ähnlicher Funktion zusammengefasst. Die Dialogfenster sind einfach und Ihre Einstellungen verständlich.
  • Einfaches Mitteilen der Daten und Ergebnisse
    Einfaches Mitteilen der Daten und Ergebnisse Einer der größten Vorteile von XLSTAT ist die Tatsache, das die Daten und Ergebnisse ohne Einschränkung kommuniziert werden können. Denn die Daten und Ergebnisse werden in Microsoft Excel gespeichert und sind daher allen zugänglich. Eine XLSTAT Lizenz oder ein Programm zur Ansicht ist nicht erforderlich, um die Daten und Ergebnisse zu empfangen und anzusehen. Darüber hinaus sind die Ergebnisse leicht in andere Programme von Microsoft Office, wie PowerPoint kopierbar, was Ihnen das Erstellen von Präsentationen mit ausgezeichneten Diagrammen in wenigen Minuten erlaubt.
  • Modular
    Modular XLSTAT ist ein modulares Produkt um XLSTAT-Pro herum, das die Basissoftware von XLSTAT darstellt. XLSTAT-Pro schließt bereits alle verbreiteten statistischen Funktionen und multivariaten Datenanalysen ein. Die fortgeschrittenen Funktionen sind ebenfalls in zusätzlichen Modulen verfügbar, die speziellen Anforderungen gerecht werden. So können Sie Ihre Software an Ihre eigenen Anforderungen anpassen, was sie attraktiver werden lässt.
  • Didaktisch
    Didaktisch Die XLSTAT Ergebnisse sind nach Analysen aufgebaut und einfach durchzublättern. Darüber hinaus sind den Ergebnissen nützliche Informationen hinzugefügt, um die Interpretation zu erleichtern.
  • Preiswert
    Preiswert XLSTAT ist eine modulare, komplette Statistik- und Datenanalysesoftware, die sich an alle Ihre analytischen Anforderungen Ihrer Organisation anpasst. Der Preis ist sehr gering, was Ihnen eine quasi sofortige Amortisierung erlaubt. Alle XLSTAT Lizenzen schließen ein Support und eine Unterstützung hervorragender Qualität ein.
  • Zugänglich
    Zugänglich Wir setzen uns ein, XLSTAT so vielen Personen wie möglich durch eine Benutzerschnittstelle in vielen Sprachen darunter Deutsch, englisch, französisch, spanisch, italienisch, portugiesisch, polnisch, chinesisch und japanisch zugänglich zu machen.
  • Automatisierbar und personalisierbar
    Automatisierbar und personalisierbar Die Mehrzahl der in XLSTAT verfügbaren Funktionen können direkt aus Visual Basic for Applications von Microsoft Excel heraus aufgerufen werden. Sie können in Ihre Routinen integriert werden, um Ihren Anforderungen einer speziellen Anwendung gerecht zu werden. Das Hinzufügen von Ergebnistabellen, Diagrammen, oder das Verändern bereits existierender ist vereinfacht. Darüber hinaus schließt XLSTAT die Werkzeuge zur Erzeugen des VBA Kodes für die Dialogfenster ein, so dass Sie Ihre Analysen vom VBA Editor heraus einfach reproduzieren können, indem Sie die Einstellungen automatisch laden. Diese Automatisierung der Analysen wird Ihnen viel Zeit einsparen.

Eine Excel-Mappe mit den Daten und den Ergebnissen, die in diesem Tutorial behandelt werden, kann hier heruntergeladen werden. Die Daten stammen aus Lewis T. und Taylor L.R. (1967). Introduction to Experimental Ecology, New York: Academic Press, Inc.. Die Daten handeln von 237 Kindern, beschrieben durch ihr Geschlecht, Alter in Zoll (1 inch = 2.54 cm), und Gewicht in engl. Pfund (1 pound = 0.45 kg).

Durch den Einsatz der multiplen linearen Regression soll ermittelt werden, wie das Gewicht der Kinder in Abhängigkeit der Größe und des Alters variiert und ob ein lineares Modell sinnvoll ist. Die Methode der linearen Regression gehört zu der großen Familie der GLM (Generalized Linear Models), ebenso wie die ANCOVA und ANOVA. Dieser Datensatz wird ebenfalls in beiden Tutorials zur einfachen linearen Regression und zur ANCOVA benutzt, mit der Größe, dem Alter und dem Geschlecht als erklärenden Variablen.

Nach dem Öffnen von XLSTAT, wählen Sie den Befehl XLSTAT/Modellierung der Daten/Lineare Regression oder klicken Sie auf den entsprechenden Button in der Toolbar "Modellierung der Daten" (siehe unten).

barreg.gif

Nach dem Klicken des Buttons erscheint das entsprechende Dialogfenster der linearen Regression. Sie können nun die Daten im Excel-Blatt auswählen. Es gibt mehrere Arten die Daten in den XLSTAT Dialogfenstern auszuwählen (siehe auch das Tutorial Datenauswahl zu diesem Thema). Im untersuchten Beispiel beginnen die Daten in der ersten Zeile; es ist daher schneller die Spaltenauswahl zu benutzen. Daher erscheinen im Dialogfenster unten die Auswahlen in Form von Spalten. Die Option „Variablenbeschriftungen“ ist aktiviert, da die erste Zeile der Daten die Namen der Variablen enthält. Wählen Sie die "Abhängigen Variablen" (oder Modellvariable) als das Gewicht und das Alter. Die quantitativen erklärenden Variablen sind die Größe und das Alter.

reg21.gif

Im Reiter "Ausgabe" aktivieren wir die Option "Typ III SS", um die zugehörigen Ergebnisse anzuzeigen.

reg212.gif

Die Berechnungen beginnen, sobald der Button "OK" geklickt wird. Falls Sie in den Optionen von XLSTAT die Option „Auswahl bestätigen lassen“ aktiviert haben, so bittet Sie XLSTAT die Anzahl der Zeilen und der Spalten der Auswahlen zu bestätigen. Die erste Tabelle zeigt die Koeffizienten der Anpassungsgüte des Modells an. Das R² (Determinationskoeffizient) gibt den Prozentsatz der Variabilität der abhängigen Variablen an, die durch die erklärende Variable beschrieben wird. Je näher R² bei 1 liegt, desto besser ist die Anpassung.

reg22.gif

In diesem speziellen Fall werden 63 % der Variabilität des Gewichts durch die Größe und das Alter erklärt. Der Rest der Variabilität ist auf Effekte zurückzuführen (andere erklärende Variablen), die nicht in die Analyse eingeschlossen wurden.

Es ist wichtig die Ergebnisse der Varianzanalyse-Tabelle zu untersuchen (siehe unten). Diese Ergebnisse lassen uns entscheiden, ob die erklärenden Variablen eine signifikante Information (Nullhypothese H0) in das Modell einbringen oder nicht. Mit anderen Worten ausgedrückt, ist dies eine Art zu überprüfen, ob es Sinn macht den Mittelwert zu benutzen, um die gesamte Population zu beschreiben, oder ob die Information, die von der/den erklärenden Variable(n) eingebracht wurde, wertvoll ist.

reg23.gif

Fisher's F Test wird eingesetzt. Anhand der Tatsache, dass die Wahrscheinlichkeit die dem F value entspricht kleiner als 0.0001 ist, ist das Risiko kleiner als 0.01%, dass die Annahme der Nullhypothese (kein Einfluss der erklärenden Variablen) falsch ist. Daher kann man sicher schließen, dass die drei Variablen eine signifikante Information einbringen.

Die nächste Tabelle zeigt die Typ III SS an. Diese Ergebnisse bestimmen, ob eine Variable signifikante Information in das Modell einbringt oder nicht, wenn alle anderen Variablen schon im Modell vorhanden sind.

reg232.gif

Die folgende Tabelle zeigt Modelldetails an. Diese Tabelle ist hilfreich, wenn Vorhersagen benötigt werden oder wenn Sie die Koeffizienten des Modells für eine vorgegebene Population mit denen für eine andere Population vergleichen möchten(Es kann zum Vergleich der Modelle für Mädchen und Jungen eingesetzt werden). Man kann sehen, dass das 95% Konfidenzintervall des Parameters der Variable Größe sehr eng ist, wobei der p-value für den Parameter Alter fast 0 ist. Dies zeigt an, dass der Effekt der Variable Alter kleiner als der Effekt der Variable Größe ist. Die Modellgleichung ist unter der Tabelle aufgeschrieben. Man stellt fest, dass für eine gegebene Größe, das Alter einen positiven Effekt auf das Gewicht hat. Wenn das Alter um einen Monat zunimmt, so steigt dass Gewicht um 0,2 Pfund.

reg24.gif

Die sich anschließende Tabelle und Diagramm entsprechen den standardisierten Regressionskoeffizienten (manchmal auch als Beta-Koeffizienten bezeichnet). Diese erlauben es den Einfluss und die Signifikanz der verschiedenen Variablen auf die abhängige Variable zu vergleichen.

reg242.gifreg243.gif

Die nächste Tabelle zeigt die Residuen an. Dies ermöglicht es, jedes standardisiertes Residuum genauer zu betrachten. Diese Residuen gemäß der Annahme des linearen Regressionsmodells sollten normalverteilt sein. Dies bedeutet, dass 95% der Residuen im Intervall [-1.96, 1.96] liegen sollten. Alle Werte außerhalb des Intervalls sind potentielle Ausreißer oder lassen unterstellen, dass die Annahme der Normalität falsch ist. Wir benutzten XLSTATs DataFlagger um die Residuen außerhalb des Intervalls [-1.96, 1.96] hervorzuheben.

So kann man von den 237 15 Residuen finden, die außerhalb des Bereiches [-1.96, 1.96] liegen, was 6.3% anstatt 5% darstellt. Eine genauere Analyse der Residuen kann im Tutorial zur ANCOVA gefunden werden.

Das unten angezeigte Diagramm erlaubt es, die Vorhersagen und beobachteten Werte zu vergleichen.

reg25.gif

Das Histogramm der Residuen erlaubt es rasch die Residuen zu sehen, die außerhalb des Bereichs [-2, 2] liegen.

reg26.gif

Das Fazit ist, dass die Größe und Alter es erlauben 63 % der Variabilität des Gewichts zu erklären. Ein signifikanter Anteil an Information wird nicht durch das benutzte Regressionsmodell erklärt. Im Tutorial zur ANCOVA wird die Variable Geschlecht dem Modell hinzugefügt, um die Anpassungsgüte des Modells zu erhöhen.