Classifieur bayésien naif

Qu'est-ce qu'un classifieur bayésien naïf (Naive Bayes)?

La méthode de classification naïve bayésienne est un algorithme d'apprentissage supervisé (supervised machine learning) qui permet de classifier un ensemble d'observations selon des règles déterminées par l'algorithme lui-même. Cet outil de classification doit dans un premier temps être entrainé sur un jeu de données d'apprentissage qui montre la classe attendue en fonction des entrées. Pendant la phase d'apprentissage, l'algorithme élabore ses règles de classification sur ce jeu de donnée, pour les appliquer dans un second temps à la classification d'un jeu de données de prédiction. Le classificateur bayésien naïf implique que les classes du jeu de données d'apprentissage soit connu et fournit, d'où le caractère supervisé de l'outil.

Historiquement, la classification naïve bayésienne fut utilisée pour la classification de documents et l'élaboration de filtres anti-spam. Aujourd'hui, c'est un algorithme renommé dont les applications peuvent être rencontrées dans de nombreux domaines. Parmi ces atouts les plus significatifs, on citera son apprentissage rapide qui ne nécessite pas un gros volume de données et son extrême rapidité d'exécution comparé à d'autres méthodes plus complexes. Finalement, malgré la forte hypothèse simplificatrice d'indépendance des variables (voir description ci-dessous), la classification naïve bayésienne obtient des résultats remarquables dans de nombreuses applications de la vie courante ce qui en fait un algorithme de choix parmi les outils du machine learning.

A la base de la classification naïve bayésienne se trouve le théorème de Bayes avec l'hypothèse simplificatrice, dite naïve, d'indépendance entre toutes les paires de variables.

Classifieur naïf de Bayes : options dans XLSTAT

Distribution des variables quantitatives

Identique/Distribution paramétrique : Cette option vous permet de choisir la même distribution paramétrique parmi les distributions possibles pour toutes les variables quantitatives (voir ci-dessous la liste des distributions possibles).
Identique/Distribution empirique : Cette option vous permet de choisir la même distribution empirique pour toutes les variables quantitatives.
Spécifique : cette option permet de choisir une distribution spécifique à chaque variable quantitative.

Les distributions paramétriques peuvent être sélectionnées dans la liste suivante : normale, log-normale, gamma, exponentielle, logistic, Poisson, binomial, Bernoulli, uniforme.

Les variables qualitatives sont implicitement tirées à partir de distributions empiriques.

Les paramètres des distributions paramétriques sont estimés à partir de la méthode des moments.

Prise en charge des égalités

La prédiction de la classification naïve bayésienne peut aboutir à un cas d'égalité où plusieurs classes obtiennent une même probabilité P(y). Deux approches sont proposées pour gérer ces cas :

Choix aléatoire : choisi une classe de manière aléatoire dans l'ensemble des classes présentant la même probabilité P(y).
Plus petit indice : choisi la première classe rencontrée dans l'ensemble des classes présentant la même probabilité P(y).

Paramètre de lissage

Le lissage de Laplace permet d'éviter d'obtenir des probabilités nulles ou égales à un.

Classifieur bayésien naïf : résultats dans XLSTAT

Résultats correspondant aux paramètres impliqués dans le processus de classification

Les distributions de probabilité utilisées sont indiquées.

Les variables qualitatives sont supposées suivre une distribution empirique.

La nature de la distribution a priori des classes (uniforme, non uniforme) est aussi rapportée.

Résultats concernant le classificateur

Afin d'évaluer et de noter le classificateur bayésien naïf, une matrice de confusion calculée avec la méthode du leave one out est indiquée.

Résultats concernant la méthode de validation

Le taux d'erreur de classificateur obtenu avec la validation croisée K-folded est indiquée. La valeur du paramètre K est également donnée.

Résultats concernant la prédiction des classes

Les classes prédites obtenues avec le classificateur bayésien naïf sont affichées. En plus des classes prédites, les probabilités a posteriori utilisées pour la prédiction sont également rapportées.

Voir tous les tutoriels