Discrétisation

Qu’est-ce que la discrétisation d’une variable ?

Discrétiser une variable numérique revient à la transformer en une variable ordinale. Ce procédé est très communément utilisé en marketing, où il est souvent appelé « segmentation ».

Discrétisation dans XLSTAT

XLSTAT propose plusieurs méthodes de discrétisation plus ou moins automatiques.

  • Amplitude constante : choisissez cette méthode pour créer des classes de même amplitude.
  • Intervalles : choisissez cette méthode pour créer un nombre donné d'intervalles de même amplitude.
  • Effectifs égaux : choisissez cette méthode pour que les classes créées comprennent toutes le même nombre d'observations (dans la mesure du possible).
  • Automatique (Fisher) : choisissez cette méthode pour créer les classes en utilisant l'algorithme de Fisher.
  • Automatique (k-means) : choisissez cette méthode pour créer les intervalles en utilisant l'algorithme k-means.
  • Intervalles (définis par l'utilisateur) : choisissez cette méthode pour sélectionner une colonne contenant en ordre croissant la borne inférieure du premier intervalle, et la borne supérieure de tous les intervalles.
  • 80-20 : choisissez cette méthode pour créer deux classes, la première comprenant les 80 premiers % de la série, cette dernière étant classée en ordre croissant, la seconde contenant les 20% restant.
  • 20-80 : choisissez cette méthode pour créer deux classes, la première comprenant les 20 premiers % de la série, cette dernière étant classée en ordre croissant, la seconde contenant les 80% restant.
  • 80-15-5 (ABC) : choisissez cette méthode pour créer trois classes, la première comprenant les 80 premiers % de la série, cette dernière étant classée en ordre croissant, la seconde contenant les 15% suivant, et la troisième contenant les 5% restant. Cette classification est parfois appelées ABC.
  • 5-15-80 : choisissez cette méthode pour créer trois classes, la première comprenant les 5 premiers % de la série, cette dernière étant classée en ordre croissant, la seconde contenant les 15% suivant, et la troisième contenant les 80% restant.

Le nombre de classes (ou intervalles, ou segments) générés est fixé soit par l'utilisateur (par exemple avec la méthode des amplitudes égales), soit par la méthode elle-même (par exemple, avec l'option 80-20, où deux classes sont créées).

L'algorithme de classification automatique de Fisher peut être très lent si le nombre de données dépasse le millier. Cette méthode génère un nombre de classes au plus égal au nombre de classes demandées, la méthode permettant de découvrir automatiquement que certaines classes peuvent être fusionnées.