Wie erstelle ich einen Klassifikations- und Regressionsbaum?

Datensatz für Klassifikations- und Regressionsbäume XLS146 KB

Videos für dieses Tutorial
Klassifikations- und Regressionsbäume ist enthalten in: Download Demoversion Mehr Details Kommentare ansehen
  • Pro Statistische Kernsoftware

  • Voraussetzungen

    • Windows:
      • Versionen: 9x/Me/NT/2000/XP/Vista/Win 7
      • Excel: 97 oder höher
      • Prozessor: 32 oder 64 bit
      • Festplattenspeicher: 150 MB
    • Mac OS X:
      • OS: OS X
      • Excel: X, 2004 und 2011
      • Festplattenspeicher: 150 MB

Vorteile von XLSTAT

  • Praktisch und einfache Benutzung
    Praktisch und einfache Benutzung XLSTAT ist perfekt in Microsoft Excel integriert, das das am meisten benutzte Tabellenkalkulationsprogramm ist. Dank dieser Integration und der gleichen Philosophie wie Excel, ist die Benutzung von XLSTAT leicht. Die Software ist in einem speziellen Reiter verfügbar, der das Menu der XLSTAT-Module enthält. Die verfügbaren Analysen sind in Gruppen ähnlicher Funktion zusammengefasst. Die Dialogfenster sind einfach und Ihre Einstellungen verständlich.
  • Einfaches Mitteilen der Daten und Ergebnisse
    Einfaches Mitteilen der Daten und Ergebnisse Einer der größten Vorteile von XLSTAT ist die Tatsache, das die Daten und Ergebnisse ohne Einschränkung kommuniziert werden können. Denn die Daten und Ergebnisse werden in Microsoft Excel gespeichert und sind daher allen zugänglich. Eine XLSTAT Lizenz oder ein Programm zur Ansicht ist nicht erforderlich, um die Daten und Ergebnisse zu empfangen und anzusehen. Darüber hinaus sind die Ergebnisse leicht in andere Programme von Microsoft Office, wie PowerPoint kopierbar, was Ihnen das Erstellen von Präsentationen mit ausgezeichneten Diagrammen in wenigen Minuten erlaubt.
  • Modular
    Modular XLSTAT ist ein modulares Produkt um XLSTAT-Pro herum, das die Basissoftware von XLSTAT darstellt. XLSTAT-Pro schließt bereits alle verbreiteten statistischen Funktionen und multivariaten Datenanalysen ein. Die fortgeschrittenen Funktionen sind ebenfalls in zusätzlichen Modulen verfügbar, die speziellen Anforderungen gerecht werden. So können Sie Ihre Software an Ihre eigenen Anforderungen anpassen, was sie attraktiver werden lässt.
  • Didaktisch
    Didaktisch Die XLSTAT Ergebnisse sind nach Analysen aufgebaut und einfach durchzublättern. Darüber hinaus sind den Ergebnissen nützliche Informationen hinzugefügt, um die Interpretation zu erleichtern.
  • Preiswert
    Preiswert XLSTAT ist eine modulare, komplette Statistik- und Datenanalysesoftware, die sich an alle Ihre analytischen Anforderungen Ihrer Organisation anpasst. Der Preis ist sehr gering, was Ihnen eine quasi sofortige Amortisierung erlaubt. Alle XLSTAT Lizenzen schließen ein Support und eine Unterstützung hervorragender Qualität ein.
  • Zugänglich
    Zugänglich Wir setzen uns ein, XLSTAT so vielen Personen wie möglich durch eine Benutzerschnittstelle in vielen Sprachen darunter Deutsch, englisch, französisch, spanisch, italienisch, portugiesisch, polnisch, chinesisch und japanisch zugänglich zu machen.
  • Automatisierbar und personalisierbar
    Automatisierbar und personalisierbar Die Mehrzahl der in XLSTAT verfügbaren Funktionen können direkt aus Visual Basic for Applications von Microsoft Excel heraus aufgerufen werden. Sie können in Ihre Routinen integriert werden, um Ihren Anforderungen einer speziellen Anwendung gerecht zu werden. Das Hinzufügen von Ergebnistabellen, Diagrammen, oder das Verändern bereits existierender ist vereinfacht. Darüber hinaus schließt XLSTAT die Werkzeuge zur Erzeugen des VBA Kodes für die Dialogfenster ein, so dass Sie Ihre Analysen vom VBA Editor heraus einfach reproduzieren können, indem Sie die Einstellungen automatisch laden. Diese Automatisierung der Analysen wird Ihnen viel Zeit einsparen.

Eine Excel-Mappe mit den Daten und den Ergebnissen, die in diesem Tutoriel behandelt werden, kann hier heruntergeladen werden. Die Daten stammen von [Fisher M. (1936). The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics, 7, pp 179 -188] und entsprechen 150 Schwerlilienblüten, beschrieben durch vier Variablen (Kelchblattlänge, Kelchblattbreite, Blütenblattlänge und Blütenblattbreite) und Ihrer Spezies. Drei verschiedene Spezies wurden in die Studie einbezogen: Setosa, Versicolor und Virginica.

Das Ziel ist es, zu überprüfen, ob die vier Variablen das Vohersagem der Spezies erlauben und in diesem Fall die Regeln zu identifizieren, die die Bestimmung der Art eine Blume erlauben, wenn die 4 beschreibenden Variablen bekannt sind.

iris_setosa.jpgiris_versicolor.jpgiris_virginica.jpg

Iris Setosa, Versicolor und Virginica.

Nach dem Öffnen von XLSTAT, wählen Sie den Befehl XLSTAT/Analyse der Daten /Klassifikations- und Regressionsbäume oder klicken Sie auf den entsprechenden Button der "Analyse der Daten" Toolbalkens (siehe unten).

bartreed.gif

Nach dem Klicken des Buttons erscheint das Dialogfenster der Diskriminanzanalyse. Nun können Sie die Daten auf dem Excel-Blatt auswählen. Die „abhängige Variable“ entspricht in diesem Fall der Spezies-Variablen. Sie ist eine qualitative Variable, die den Name der Art der Iris angibt. Die “erklärenden Variablen” sind die vier beschreibenden Variablen. Die “Beobachtungsbeschriftungen” werden mit dem entsprechenden Feld ausgewählt. Es wird die Methode CHAID ausgewählt, wobei die maximalie Baumtiefe 3 betragen soll.

tree1d.gif

Die Optionen erlauben das Anpassen mehrerer Parameter, die die Baumerzeugung beeinflussen. In unserem Beispiel werden die Vorgabewerte benutzt.

tree2d.gif

Betreffend die Diagramme, wird zunächst eine Darstellung des Baumes in Form von Balkendiagrammen gewählt, die die Häufigkeiten der Arten für jeden Knoten des Baumes anzeigt. Die weiter unten dargestellten Ergebnisse benutzen die Baumdarstellung mit Knoten in Form von Kuchendiagrammen.

tree3d.gif

Die Berechnungen beginnen sobald Sie auf "OK" klicken und die Ergebnisse werden angezeigt. Nach den beschreibenden Statistiken der Variablen, zeigt XLSTAT erste Inforamtionen über die Struktur des Baumes an. Diese Tabelle erlaubt es die p-values der berechneten Tests für die verschiedenen Knoten, die Anzahl der Beobachtungen im Knoten, den zugehörigen Prozentsatz, den Vaterknoten und die Sohnknoten, die Teilungsvariable, deren zugehörigen Wert(e) (Intervalle im Fall von quantitativen Variablen) und die Reinheit, die den Prozentsatz an Objekten im Knoten, die die dominante Kategorie aufweisen angibt, vergleichen.

tree4d.gif

Anschließend wird der Klassifikationsbaum angezeigt.

tree5d.gif

Dieses Diagramm erlaubt es, die verschiedenen aufeinanderfolgenden Etapen mittels derer der Algorithmus CHAID die besten Teilungsvariablen zur Trennung der Kategorien der abhängigen Variable identifiziert. So sieht man in diesem Fall, dass ausschließlich durch die Blütenblattlänge der Algorithmus eine Regel gefunden hat, die die Irisart Setosa von den übrigen trennt: Wenn die Blütenblattlänge zwischen 10 und 24.5 ist, so gehört die Iris zur Art Setosa.

Die verschiedenen Informationen die für die einzelnen Knoten geliefert werden, werden im Folgenden erläutert.

tree51d.gif

Der Algoritmus stoppt, wenn keine Regel mehr gefunden werden kann oder wenn eine der vom Benutzer gesetzten Grenzen erreicht wurde (Anzahl der Objekte im Vater- oder Sohnknoten, Baumtiefe, Schwellwert des p-values für eine Teilungsvariable).

XLSTAT bietet Ihnen eine alternative Darstellung an. Anstatt die Verteilungen in jedem Knoten in Form eines Balkendiagramms darzustellen, erlaubt XLSTAT es Ihnen Kuchendiagramme zu benutzen, die sich als gut lesbar herausstellen, wenn man zahlreiche Knoten hat und die Anzahl der Kategorien der abhängigen Variable 4 oder 5 übersteigen. Der innere Kreis stellt hierbei die Verteilung der verschiedenen Kategorien (oder Intervalle) für den zugehörigen Knoten dar. Der äußere Ring entspricht der Verteilung derselben Kategorien für den Vaterknoten.

tree6d.gif

Die folgende Tabelle stellt die Regeln in Form von Sprachsätzen dar. Für jeden Knoten wird dabei die Regel für die dominante Kategorie des Knotens dargestellt. Der zugehörige Prozentsatz der dominanten Kategoriedes Knotens, der durch die Reinheit gegeben ist. Die Häufigkeit der durch die Regel betroffenen Kategorien wird in der Spalte "Häufigkeit" angezeigt.

tree7d.gif

So kann man lesen: "Wenn Blütenblattlänge in [30, 49.5[ und Blütenblattbreite in [10, 16.5[ dann Spezies = Versicolor für 100% der Fälle" Diese Regel wurde für 47 Blumen erfüllt.

Die Regeln entsprechen den Blättern des Baumes (die Endknoten) und erlauben es, Vorhersagen für jede Beobachtung zu treffen, wobei eine von der Verteilung der Kategorien abhängige Wahrscheinlichkeit für jedes Blass angegeben werden kann. Diese Ergebnisse werden in Form einer Tabelle mit Namen "Erbebnisse pro Objekt" dargestellt.

tree8d.gif

Man kann in der oben stehenden Tabelle sehen, dass 3 Beobachtungen falsch klassifiziert wurden. Dieses Ergebnis is gleichsam identisch mit dem bei der Diskriminanzanalyse erhaltenen Ergebnis, bei dem die Beobachtungen 5, 9 und 12 ebenfalls falsch klassifiziert sind.

Anschließend fasst die Konfusionsmastrix die Klassifizierung der Beobachtungen zusammen und gibt die Einordnungsfehlerrate, die dem Quotienten aus der Anzahl der Beobachtungen, die falsch klassifiziert wurden, und der Gesamtzahl der Beobachtungen an.

tree9d.gif

Die erzeugten Bäume sind teilweise dynamisch. Es ist möglich den Baum an einem Niveau alle unterhalb liegenden Äste zu beschneiden oder einen gegebenen Ast zu beschneiden. Sobald 6 graue Punkte um den Knoten herum erscheinen, so kann man mittels einem Klick auf die rechte Maustaste das folgende Kontextmenu anzeigen lassen:

tree10d.gif

Falls man einen Ast verbergen möchte, so wird anschließend der Baum mit den für den betreffenden Knoten beschnittenen Ästen angezeigt. Die Umrandung des zugehörigen Knotens wird rot angezeigt.

tree11d.gif

Es ist selbstverständlich möglich verborgene Äste oder den gesamten Baum wie vor der Beschneidung wieder anzuzeigen.