Extreme Gradient Boosting (XGBOOST)

XGBOOST, die Abkürzung für "Extreme Gradient Boosting", ist ein maschinelles Lernmodell, das für überwachte Lernprobleme verwendet wird, bei denen wir die Trainingsdaten zur Vorhersage einer Ziel-/Reaktionsvariablen verwenden.

Was ist XGBOOST?

XGBOOST, die Abkürzung für "Extreme Gradient Boosting", ist ein maschinelles Lernmodell, das für überwachte Lernprobleme eingesetzt wird, bei denen wir die Trainingsdaten zur Vorhersage einer Ziel-/Reaktionsvariablen verwenden.

Wählen Sie diese Methode, um ein Klassifizierungs- oder Regressionsmodell auf eine durch qualitative und/oder quantitative Variablen beschriebene Stichprobe anzuwenden. Mit dieser Methode lassen sich große Datensätze mit einer großen Anzahl von Variablen effizient bearbeiten.

Klassifizierung (qualitative Antwortvariable): Das Modell ermöglicht die Vorhersage der Klasse, zu der jede Beobachtung gehört, auf der Grundlage von erklärenden Variablen, die quantitativ und/oder qualitativ sein können.
Regression (kontinuierliche Antwortvariable): Das Modell ermöglicht den Aufbau eines Vorhersagemodells für eine quantitative Antwortvariable auf der Grundlage von erklärenden Variablen, die quantitativ und/oder qualitativ sein können.

Was ist das Prinzip von XGBOOST?

Modelle des maschinellen Lernens können einzeln an Daten angepasst oder mit anderen Modellen kombiniert werden, wodurch ein Ensemble entsteht. Ein Ensemble ist eine Kombination aus einfachen Einzelmodellen, die zusammen ein leistungsfähigeres Modell ergeben.

Das Boosten von maschinellem Lernen ist eine Methode, mit der ein solches Ensemble erstellt wird. Dabei wird zunächst ein erstes Modell (in unserem Fall ein Regressions- oder Klassifikationsbaum) an die Daten angepasst. Dann wird ein zweites Modell erstellt, das sich auf die genaue Vorhersage der Beobachtungen konzentriert, die das erste Modell schlecht vorhersagte. Es wird erwartet, dass die Kombination dieser beiden Modelle besser ist als jedes einzelne Modell. Dieser Boosting-Prozess wird dann mehrmals wiederholt, wobei jedes nachfolgende Modell versucht, die Unzulänglichkeiten des kombinierten Boosted-Ensembles, das alle vorherigen Modelle enthält, zu korrigieren.

Gradienten-Boosting

Gradient Boosting ist eine Form des Boosting beim maschinellen Lernen. Es beruht auf der Intuition, dass das bestmögliche nächste Modell, wenn es mit den vorherigen Modellen kombiniert wird, den gesamten Vorhersagefehler minimiert. Die Schlüsselidee besteht darin, jedes Beobachtungsgewicht für dieses nächste Modell so festzulegen, dass der Fehler minimiert wird. Diese werden auf folgende Weise berechnet:

Bei jedem Boosting-Schritt und für jede Beobachtung wird eine Punktzahl auf der Grundlage des Vorhersagefehlers des Modells berechnet.

Der Name Gradient Boosting ergibt sich aus der Tatsache, dass jedes Gewicht auf der Grundlage des Gradienten des Fehlers in Bezug auf die Vorhersage festgelegt wird. Jedes neue Modell macht einen Schritt in die Richtung, die den Vorhersagefehler im Raum der möglichen Vorhersagen für jede Beobachtung minimiert.

Alle Tutorials anzeigen