Machines à Vecteurs de Support 1-classe

Utilisez cette méthode d'apprentissage non supervisé pour réaliser une détection de nouveautés. Disponible dans Excel avec le logiciel XLSTAT.

Les principes des Machines à Vecteur Support à une classe

C'est en 1999 que Schölkopf et al. propose une extension des SVM pour l'apprentissage non supervisé et plus précisément pour la détection de nouveauté.

L'algorithme des Machines à Vecteurs de Support à une classe cherche à envelopper les observations considérées "normales". L'objectif est de séparer les observations en deux classes : la classe positive considérée comme la classe des observations "normales" et la classe négative considérée comme la classe des observations "anormales". De plus, la classe positive doit contenir une grande partie des données tout en gardant une enveloppe minimale.

Comme pour les autres méthodes SVM présentes dans XLSTAT, l'implémentation a été possible grâce au Sequential Minimal Optimization (SMO) utilisant l'information de Second Ordre proposée par Fan et al. (Fan, R., Chen, P. & Lin, C., 2005).

Options de la fonctionnalité Machines à Vecteurs de Support 1-classe dans XLSTAT

Paramètres SMO : cette option vous permet de régler l'algorithme d'optimisation selon vos besoins spécifiques. Il y a 2 paramètres ajustables :

Nu : ce paramètre correspond à la proportion d'observations anormales dans l'échantillon d'apprentissage. Il doit être compris entre 0 et 1.
Tolérance : ce paramètre définit la tolérance appliquée lors de la comparaison de deux valeurs durant la phase d'optimisation. Ce paramètre peut être utilisé pour accélérer la vitesse de calcul.

Prétraitement : cette option vous permet de sélectionner le prétraitement appliqué aux variables explicatives. Il y a 3 options disponibles :

Homothétie : les variables explicatives quantitatives sont ajustées à une échelle allant de 0 à 1 en utilisant le minimum et maximum observé pour chaque variable.
Normalisation : les variables explicatives quantitatives et qualitatives sont normalisées en utilisant la moyenne et la variance observée pour chaque variable.
Aucun : aucun prétraitrement n'est appliqué.

Validation croisée : disponible uniquement dans le cas où la case "Classes connues" est cochée. Cette option vous permet de lancer une validation croisée "$k$-fold" pour mesurer la qualité du classifieur. Les données sont divisées en k blocs de taille égales. Un seul bloc est retenu en tant qu'échantillon de validation pour tester le modèle, et les k-1 blocs restant sont utilisés en tant qu'échantillon d'apprentissage.

Noyau : cette options vous permet de sélectionner le noyau que vous souhaitez appliquer pour augmenter les dimensions de votre espace. Il y a 4 noyaux disponibles :

Noyau linéaire : c'est le produit scalaire.
Noyau puissance : ce noyau est détaillé dans la description. Si vous sélectionnez ce noyau, vous devez saisir la valeur du degré, du coefficient et de Gamma.
Noyau RBF : c'est le noyau RBF présenté dans la description. Si vous sélectionnez ce noyau, vous devez saisir la valeur de Gamma.
Noyau Sigmoïde : ce noyau est détaillé dans la description. Si vous sélectionnez ce noyau vous devez saisir la valeur du coefficient et de Gamma.

Résultats de la fonctionnalité Machines à Vecteurs de Support 1-classe dans XLSTAT

Estimation : un résumé descriptif de l'estimation du classifieur est affiché. La classe anormale est indiquée ainsi que la taille effective de l'échantillon d'apprentissage et les deux paramètres optimisés, le biais qui correspond au rho et le nombre de vecteurs de support sont affichés.

Liste des vecteurs de support : un tableau, contenant la valeur optimisée de $alpha$ et les variables explicatives prétraitrées comme elles sont utilisées durant l'optimisation, est affiché. La taille du tableau dépend du nombre de vecteurs de support identifiés.

Matrices de confusion : les matrices de confusion sont déduites des classifications obtenues et de la classe effective ainsi que les pourcentages d'observations correctement classifiées.

Indicateurs de performance : il y a 10 indicateurs de performance affichés lorsque cette option est activée :

Exactitude, Précision, Sensibilité, F-mesure, Spécificité, Taux de Faux Positifs (TFP), Prévalence, kappa de Cohen, Taux d'erreur nul (TEN) et l'aire sous la courbe ROC (AUC).

En complément des ces indicateurs, la courbe ROC est affiché pour l'échantillon d'apprentissage et de validation (si activé).

Classes prédites : les classes prédites en utilisant la méthode SVM sont affichées pour les échantillons d'apprentissage, de validation et de de prédiction. De plus, la fonction de décision est affichée.

Validation croisée : 3 indicateurs de performances sont affichés lorsque l'option de validation croisée a été cochée. Pour chaque bloc k, le taux d'erreur de classification, la F-mesure et la précision équilibrée (BAC, pour l'anglais Balanced ACcuracy) sont affichés.

Voir tous les tutoriels