Discretizing a continuous variable

Datensatz für Diskretisierung XLS58.0 KB

Videos für dieses Tutorial
Diskretisierung ist enthalten in: Download Demoversion Mehr Details Kommentare ansehen
  • Pro Statistische Kernsoftware

  • Voraussetzungen

    • Windows:
      • Versionen: 9x/Me/NT/2000/XP/Vista/Win 7
      • Excel: 97 oder höher
      • Prozessor: 32 oder 64 bit
      • Festplattenspeicher: 150 MB
    • Mac OS X:
      • OS: OS X
      • Excel: X, 2004 und 2011
      • Festplattenspeicher: 150 MB

Vorteile von XLSTAT

  • Praktisch und einfache Benutzung
    Praktisch und einfache Benutzung XLSTAT ist perfekt in Microsoft Excel integriert, das das am meisten benutzte Tabellenkalkulationsprogramm ist. Dank dieser Integration und der gleichen Philosophie wie Excel, ist die Benutzung von XLSTAT leicht. Die Software ist in einem speziellen Reiter verfügbar, der das Menu der XLSTAT-Module enthält. Die verfügbaren Analysen sind in Gruppen ähnlicher Funktion zusammengefasst. Die Dialogfenster sind einfach und Ihre Einstellungen verständlich.
  • Einfaches Mitteilen der Daten und Ergebnisse
    Einfaches Mitteilen der Daten und Ergebnisse Einer der größten Vorteile von XLSTAT ist die Tatsache, das die Daten und Ergebnisse ohne Einschränkung kommuniziert werden können. Denn die Daten und Ergebnisse werden in Microsoft Excel gespeichert und sind daher allen zugänglich. Eine XLSTAT Lizenz oder ein Programm zur Ansicht ist nicht erforderlich, um die Daten und Ergebnisse zu empfangen und anzusehen. Darüber hinaus sind die Ergebnisse leicht in andere Programme von Microsoft Office, wie PowerPoint kopierbar, was Ihnen das Erstellen von Präsentationen mit ausgezeichneten Diagrammen in wenigen Minuten erlaubt.
  • Modular
    Modular XLSTAT ist ein modulares Produkt um XLSTAT-Pro herum, das die Basissoftware von XLSTAT darstellt. XLSTAT-Pro schließt bereits alle verbreiteten statistischen Funktionen und multivariaten Datenanalysen ein. Die fortgeschrittenen Funktionen sind ebenfalls in zusätzlichen Modulen verfügbar, die speziellen Anforderungen gerecht werden. So können Sie Ihre Software an Ihre eigenen Anforderungen anpassen, was sie attraktiver werden lässt.
  • Didaktisch
    Didaktisch Die XLSTAT Ergebnisse sind nach Analysen aufgebaut und einfach durchzublättern. Darüber hinaus sind den Ergebnissen nützliche Informationen hinzugefügt, um die Interpretation zu erleichtern.
  • Preiswert
    Preiswert XLSTAT ist eine modulare, komplette Statistik- und Datenanalysesoftware, die sich an alle Ihre analytischen Anforderungen Ihrer Organisation anpasst. Der Preis ist sehr gering, was Ihnen eine quasi sofortige Amortisierung erlaubt. Alle XLSTAT Lizenzen schließen ein Support und eine Unterstützung hervorragender Qualität ein.
  • Zugänglich
    Zugänglich Wir setzen uns ein, XLSTAT so vielen Personen wie möglich durch eine Benutzerschnittstelle in vielen Sprachen darunter Deutsch, englisch, französisch, spanisch, italienisch, portugiesisch, polnisch, chinesisch und japanisch zugänglich zu machen.
  • Automatisierbar und personalisierbar
    Automatisierbar und personalisierbar Die Mehrzahl der in XLSTAT verfügbaren Funktionen können direkt aus Visual Basic for Applications von Microsoft Excel heraus aufgerufen werden. Sie können in Ihre Routinen integriert werden, um Ihren Anforderungen einer speziellen Anwendung gerecht zu werden. Das Hinzufügen von Ergebnistabellen, Diagrammen, oder das Verändern bereits existierender ist vereinfacht. Darüber hinaus schließt XLSTAT die Werkzeuge zur Erzeugen des VBA Kodes für die Dialogfenster ein, so dass Sie Ihre Analysen vom VBA Editor heraus einfach reproduzieren können, indem Sie die Einstellungen automatisch laden. Diese Automatisierung der Analysen wird Ihnen viel Zeit einsparen.

Dataset to discretize a continuous variable and goal of this tutorial

A MS Excel spreadsheet with both the data and the results can be downloaded by clicking here. The data used in this tutorial corresponds to a list of patients with information relating to their heights, masses and BMI.

In this particular example, we decided to divide the patients into different groups according to their BMI.

Setting up the discretization of a continuous variable

Once XLSTAT-Pro is activated, select the XLSTAT / Preparing data / Discretization, or click on the corresponding button of the "Preparing Data" toolbar (see below).

barDiscretization.png

Once you have clicked on the relevant button, the dialog box appears.

You should select the data on the Excel sheet corresponding to the BMI (column D). Tick the option Column labels as the selection contains the variable name "BMI".

Tick the option Row labels and select the name of the patients (column A).

There are several options with which to group the samples:

  • Constant range: Choose this method to create classes that have the same range. Then enter the value of the range. You can optionally specify the "minimum" that corresponds to the lower bound of the first interval if needed.
  • Intervals: Use this method to create a given number of intervals with the same range.
  • Equal frequencies: Choose this method so that all the classes contains as many of the same number of observations as possible.
  • Automatic (Fisher): Use this method to create the classes using Fisher’s algorithm.
  • Automatic (k-means): Choose this method to create classes (or intervals) using the k-means algorithm.
  • Intervals (user defined): Choose this option to select a column containing the lower bound of the first interval, and the upper bound of all the intervals in increasing order.
  • 80-20: Use this method to create two classes, the first containing the first 80% of the series, the second containing the remaining 20% with the data sorted in increasing order.
  • 20-80: Use this method to create two classes, the first containing the first 20 % of the series, the second containing the remaining 80% with the data sorted in increasing order.
  • 80-15-5 (ABC): Use this method to create two classes, the first containing the 80 first % of the series, the second containing the next 15%, and the third containing the remaining 5% with the data sorted in increasing order. This method is sometimes referred to as "ABC classification".
  • 5-15-80: Use this method to create two classes, the first containing the first 5 % of the series, the second containing the next 15%, and the third containing the remaining 80% with the data sorted in increasing order.

We will select the Intervals (user defined) option and use the bounds defined for XLSTAT in the Microsoft Excel sheet.

pls software

Go to the tab Outputs to select which results to compute. Select the Centroids, Results by class and Results by object.

pls software

Go to the tab Charts and select histograms as bars with frequency.

pls software

When ready click on the OK button.

Results of the discretization of a continuous variable

The results are displayed on the new sheet named "Discretization".

The first result is the histogram. Notice that the size of the bar correspond to the size of the class.

Next is the table of the descriptive statistics for the intervals. Most of the patients (10) are in the third class which correspond to a normal weight.

pca software

Then you have the class centroids that may not be the same as the centre of each class.

Finally you have the dispersion of the patients into their BMI class.

statistical software

The following video show you how to proceed with this tutorial.