Wie führe ich eine nichtparametrische Regression mit XLSTAT durch?

Datensatz für Kernel Regression XLS119 KB

Videos für dieses Tutorial
Kernel Regression ist enthalten in: Download Demoversion Mehr Details Kommentare ansehen
  • Pro Statistische Kernsoftware

  • Voraussetzungen

    • Windows:
      • Versionen: 9x/Me/NT/2000/XP/Vista/Win 7
      • Excel: 97 oder höher
      • Prozessor: 32 oder 64 bit
      • Festplattenspeicher: 150 MB
    • Mac OS X:
      • OS: OS X
      • Excel: X, 2004 und 2011
      • Festplattenspeicher: 150 MB

Vorteile von XLSTAT

  • Praktisch und einfache Benutzung
    Praktisch und einfache Benutzung XLSTAT ist perfekt in Microsoft Excel integriert, das das am meisten benutzte Tabellenkalkulationsprogramm ist. Dank dieser Integration und der gleichen Philosophie wie Excel, ist die Benutzung von XLSTAT leicht. Die Software ist in einem speziellen Reiter verfügbar, der das Menu der XLSTAT-Module enthält. Die verfügbaren Analysen sind in Gruppen ähnlicher Funktion zusammengefasst. Die Dialogfenster sind einfach und Ihre Einstellungen verständlich.
  • Einfaches Mitteilen der Daten und Ergebnisse
    Einfaches Mitteilen der Daten und Ergebnisse Einer der größten Vorteile von XLSTAT ist die Tatsache, das die Daten und Ergebnisse ohne Einschränkung kommuniziert werden können. Denn die Daten und Ergebnisse werden in Microsoft Excel gespeichert und sind daher allen zugänglich. Eine XLSTAT Lizenz oder ein Programm zur Ansicht ist nicht erforderlich, um die Daten und Ergebnisse zu empfangen und anzusehen. Darüber hinaus sind die Ergebnisse leicht in andere Programme von Microsoft Office, wie PowerPoint kopierbar, was Ihnen das Erstellen von Präsentationen mit ausgezeichneten Diagrammen in wenigen Minuten erlaubt.
  • Modular
    Modular XLSTAT ist ein modulares Produkt um XLSTAT-Pro herum, das die Basissoftware von XLSTAT darstellt. XLSTAT-Pro schließt bereits alle verbreiteten statistischen Funktionen und multivariaten Datenanalysen ein. Die fortgeschrittenen Funktionen sind ebenfalls in zusätzlichen Modulen verfügbar, die speziellen Anforderungen gerecht werden. So können Sie Ihre Software an Ihre eigenen Anforderungen anpassen, was sie attraktiver werden lässt.
  • Didaktisch
    Didaktisch Die XLSTAT Ergebnisse sind nach Analysen aufgebaut und einfach durchzublättern. Darüber hinaus sind den Ergebnissen nützliche Informationen hinzugefügt, um die Interpretation zu erleichtern.
  • Preiswert
    Preiswert XLSTAT ist eine modulare, komplette Statistik- und Datenanalysesoftware, die sich an alle Ihre analytischen Anforderungen Ihrer Organisation anpasst. Der Preis ist sehr gering, was Ihnen eine quasi sofortige Amortisierung erlaubt. Alle XLSTAT Lizenzen schließen ein Support und eine Unterstützung hervorragender Qualität ein.
  • Zugänglich
    Zugänglich Wir setzen uns ein, XLSTAT so vielen Personen wie möglich durch eine Benutzerschnittstelle in vielen Sprachen darunter Deutsch, englisch, französisch, spanisch, italienisch, portugiesisch, polnisch, chinesisch und japanisch zugänglich zu machen.
  • Automatisierbar und personalisierbar
    Automatisierbar und personalisierbar Die Mehrzahl der in XLSTAT verfügbaren Funktionen können direkt aus Visual Basic for Applications von Microsoft Excel heraus aufgerufen werden. Sie können in Ihre Routinen integriert werden, um Ihren Anforderungen einer speziellen Anwendung gerecht zu werden. Das Hinzufügen von Ergebnistabellen, Diagrammen, oder das Verändern bereits existierender ist vereinfacht. Darüber hinaus schließt XLSTAT die Werkzeuge zur Erzeugen des VBA Kodes für die Dialogfenster ein, so dass Sie Ihre Analysen vom VBA Editor heraus einfach reproduzieren können, indem Sie die Einstellungen automatisch laden. Diese Automatisierung der Analysen wird Ihnen viel Zeit einsparen.

Die Kernel Regression ist ein Tool der Modellierung, das gleichzeitig Teil der Familie der Glättungsmethoden ist. Im Gegensatz zur linearen Regression, die mit einem erklärenden und vorhersagendem Ziel betrieben wird (Verständnis eines Phänomens und seine anschließende Vorhersage) , so ist die Kernel regression unter den nicht parametrischen Regressionsmethoden erfasst mit überwiegendem Vorhersagecharakter.

Die Kernel Regression gehört zur Familie der nichtparametrischen Regressionsmethoden. Die Kernel Regression gliedert sich in drei Phasen auf: - Eine Anpassungsetape während derer man versucht die beste Kombination eines Modelltyps, einer Kernelfunktion und einer Bandbreite auf Basis einer Teststichprobe zu finden. - Eine Bestätigungsphase die es erlaubt das Modell an neuen Beobachtungen zu überprüfen für die Vorhersagewerte bekannt sind; - Eine Anwendungsphase, in der das Modell auf einen neuen Datensatz angewendet wird, für den die Vorhersagewerte unbekannt sind.

Bemerkung: Die nichtparametrische Regression beinhaltet eine Bestätigungsphase, da eine bestimmte Beobachtung niemals zum Erstellen des Modells benutzt wird, das die zugehörige Vorhersage erzeugt. Jedoch ist es jederzeit möglich, eine Unterstichprobe zu isolieren, die ausschließlich zur Bestätigungsphase des Modells eingesetzt wird, um die Robustheit des Modells zu überprüfen.

Im Gegensatz zur linearen Regression, die mit einem erklärenden und vorhersagendem Ziel betrieben wird (Verständnis eines Phänomens und seine anschließende Vorhersage) , so ist die Kernel regression unter den nicht parametrischen Regressionsmethoden erfasst mit überwiegendem Vorhersagecharakter. Die Modellstruktur ist wirklich variabel und komplex, ähnlich einem Filter oder einer Black Box. Es existieren zahlreiche Varianten der Kernel regression.

Das in diesem Tutorial behandelte Beispiel entspricht einem sehr einfachen Fall, der nur von illustrativen Interesse ist. Die nichtparametrische Regression kann von großen Nutzen sein, um komplexe Phänomene vorherzusagen, wie Zeitreihen im Finanzwesen, Luftverschmutzung von einem Tag auf den anderen oder Verkaufszahlen von Quartal zu Quartal. Sie wird ebenfalls manchmals zum Glätten einer Zeitreihe eingesetzt.

Das Beispiel benutzt die gleichen Daten wir das Tutorial über die lineare Regression. Ein Excel-Ordner mit den Daten und den Ergebnissen kann durch Klicken hier heruntergeladen werden. Die Daten stammen aus [Lewis T. and Taylor L.R. (1967). Introduction to Experimental Ecology, New York: Academic Press, Inc.]. Sie betreffen 237 Kinder, die durch Geschlecht, Alter in Monaten, Größe in Inch (1 inch = 2.54 cm) und Gewicht in Pfund (1 pound = 0.45 kg) beschrieben sind. Die Studie ist in zwei Phasen aufgeteilt: Eine Anpassungsphase, in der 217 Individuen benutzt werden und eine Bestätigungsphase mit 20 Individuen (10 Frauen und 10 Männer).

Nach dem Öffnen von XLSTAT, wählen Sie den XLSTAT/Modellieren der Daten/Nichparametrische Regression Befehl oder klicken Sie auf den entsprechenden Button der "Modellierung der Daten" Toolbar (siehe unten).

barkern.gif

Nach den Klicken des Bouttons erscheint das Dialogfenster der nichtparametrischen Regression. Sie können nun die Daten auf dem Excel-Blatt auswählen. Die "Ahängige Variable" entspricht der Variablen, die erklärt werden soll (oder der Variable, die modelliert werden soll). In diesem Fall ist es das Gewicht. Die erklärenden Variablen sind die Größe und das Alter (quantitative Daten) und das Geschlecht (qualitative Daten). Die Auswahlen werden spaltenweise durchgeführt, da die Daten in der ersten Zeile beginnen. Die Option "Beschriftung der Variablen" ist aktiviert, da die erste Zeile den Namen der Variablen entspricht. Hier wird eine Polynomielle Funktion ersten Grades mit alle Daten (außen denen die zur Vorhersage bestimmt sind), einer Gewichtung auf Basis des Gauß-Kernels und einer Bandbreite basierend auf der Standardverteilung der Variablen gewählt. Letztere erlaubt es Skaleneffekte während der Berechnungen zu vermeiden.

Bemerkung: Die Methode ist einem ANCOVA Modell sehr verwandt, der Unterschied besteht darin, dass man eine Beobachtung nicht im Modell benutzt um die zugehörige Vorhersage zu treffen und darin dass die Gewichtung der Beobachtungen im Modell von ihrem Abstand zu der vorherzusagenden Beobachtung abhängen.

kern1.gifkern2.gifkern3.gif

Die Berechnungen beginnen, sobald der Button "OK" geklickt wurde. Die Ergebnisse werden angezeigt. Die Koeffizienten der Anpassungsgüte erlauben es die Performanz des Modells zu beurteilen und mehrere Modelle zu vergleichen. Die R’² (der Bestimmungskoeffizient) gibt eine Idee des %-Satzes der Variabilität der Gewichtsvariablen, die durch die erklärenden Variablen erklärt wird. Je näher R’² bei 1 liegt, desto besser ist das Modell.

kern4.gif

Die Tabelle der Vorhersagen und Residuen erlaubt es für jedes Individuum die Ausgangsdaten, die Vorhersage und das Residuum zu betrachten. Die Residuen variieren in absoluten Werten zwischen 0.01 (Individuum 45) und 40 (Individuum 195). Bei den Valdierungsdaten im zweiten Teil der Tabelle bemerkt man, dass die Residuen stark variieren. Für die Individuen 229 und 235 sind die Vorhersagen ausgezeichnet. Es ist um einiges schlechter für das Individuum 224.

kern5.gif