K plus proches voisins (KNN)

K plus proches voisins: introduction

La méthode des K plus proches voisins (KNN) a pour but de classifier des points cibles (classe méconnue) en fonction de leurs distances par rapport à des points constituant un échantillon d’apprentissage (c’est-à-dire dont la classe est connue a priori).

KNN est une approche de classification supervisée intuitive, souvent utilisée dans le cadre du machine learning. Il s’agit d’une généralisation de la méthode du voisin le plus proche (NN). NN est un cas particulier de KNN, où k = 1.

L’approche de classification KNN se base sur l’hypothèse que chaque cas de l’échantillon d’apprentissage est un vecteur aléatoire issu de Rn. Chaque point est décrit comme x =< a1(x), a2(x), a3(x),.., an(x) > où ar(x) correspond à la valeur I du rème attribut. ar(x) peut être soit une variable quantitative soit une variable qualitative.

Afin de déterminer la classe d’un point cible, chaque chacun des k points les plus proches de xq procèdent à un vote. La classe de xq correspond à la classe majoritaire.

 

K plus proches voisins avec XLSTAT: options

Distances: Différentes métriques peuvent être utilisées avec XLSTAT pour calculer les similarités dans le cadre de l'algorithme des K plus proches voisins. Les options varient en fonction du type de variables caractérisant les observations (quantitatives ou qualitatives).

  • Distances disponibles pour les données quantitatives (métriques): Euclidienne, Minkowski, Manhatan, Tchebychev, Canberra.
  • Distances disponibles pour les données quantitatives (noyaux): linéaire, sigmoïde, logarithmique, puissance, Gaussienne, Laplacienne.
  • Distances disponibles pour les données qualitatives: Distance d'intersection, métrique de différences de valeurs (VDM).

Validation: XLSTAT propose une validation croisée "k-fold" pour mesurer la qualité du classificateur. Les données sont divisées en k blocs de taille égale.  Parmi les k blocs, un seul bloc est retenu en tant qu’échantillon de validation pour tester le modèle, et le reste des données est utilisé en tant qu’échantillon d’apprentissage. 

Parmi les autres options disponibles au sein de l'algorithme des K plus proches voisins avec XLSTAT, citons le suivi des observations et la pondération des voix.

 

K plus proches voisins avec XLSTAT: résultats

La méthode des K plus proches voisins dans XLSTAT inclut la possibilité d'afficher les résultats par classe et par objet (observation).