Indicateurs de performance de modèles

Utilisez le module Indicateurs de performance afin d'évaluer les performances de votre modèle prédictif. Disponible dans Excel avec le logiciel XLSTAT.

Comment mesurer la performance d'un modèle ?

Lorsque l'on cherche à prédire les valeurs d'une variable Y de nature quantitative, on parle de régression. Lorsque la variable Y à prédire est de nature qualitative, on parle alors de classification. XLSTAT possède plusieurs modèles d'apprentissage en régression et en classification.

Nous avons donc une variable d'intérêt à prédire et plus la prédiction de l’algorithme est proche de la variable cible, plus le modèle sera performant.

Il est important de pouvoir évaluer les performances d'un modèle pour mesurer les risques mais également pour comparer plusieurs algorithmes et/ou modèles.

Le module Indicateurs de performance a été développé principalement pour nous aider à répondre à la question suivante : À quel point je peux faire confiance à un modèle pour prédire des évènements futurs ?

Indicateurs de performance de modèles dans XLSTAT

Il existe de nombreux indicateurs pour évaluer les performances d'un modèle. Actuellement, XLSTAT propose les indicateurs suivants :

Indicateurs de performance de modèles de classification

Notations : VP (Vrais Positifs), VN (Vrais Négatifs), FP (Faux Positifs) et FN (Faux Négatifs).

Exactitude : l'exactitude est le rapport (VP+VN)/(VP+VN+FP+FN).
Plus elle est proche de 1, meilleur est le test.
Précision : la précision est le rapport VP/(VP + FP).
Elle correspond à la proportion de prédictions positives effectivement correcte.
Précision équilibrée (cas binaire uniquement) : la précision équilibrée est un indicateur utilisé pour évaluer la qualité d'un classifieur binaire. Il est particulièrement utile lorsque les classes sont déséquilibrées.
Sensibilité (aussi appelée Fraction de Vrais Positifs ou rappel) : proportion d'individus positifs effectivement bien détectés par le classifieur.
Spécificité (aussi appelée Fraction de Vrais Négatifs) : proportion d'individus négatifs effectivement bien détectés par le test.
Fraction de faux positifs (cas binaire uniquement) : proportion de négatifs détectés comme des positifs par le test (1-Spécificité).

Fraction de faux positifs (cas binaire uniquement) : proportion de négatifs détectés comme des positifs par le test (1-Spécificité).
Bien classés : nombre d'observations bien classées.
Mal classés : nombre d'observations mal classées.
Prévalence de l'événement : fréquence de survenance de l'événement dans l'échantillon total (VP+FN)/N.
F-mesure : la F-mesure aussi appelée F-score ou score-F1 peut être interprétée comme une moyenne pondérée de la précision et du rappel ou sensibilité. Sa valeur est comprise entre 0 et 1.
NER (Taux d'erreur nul) : il correspond au pourcentage d'erreur qui serait observé si le modèle prédisait toujours la classe majoritaire.
Kappa de Cohen : il est utile dans le cas où l'on veut étudier l'association entre la variable réponse et les prédictions. La valeur de Kappa est comprise entre 0 et 1 et vaut 1 lorsqu'il y a un lien total entre les deux variables (classification parfaite).
V de Cramer : le test V de Cramer permet de comparer l’intensité du lien entre les deux variables étudiées. Plus V est proche de zéro, moins les variables étudiées sont dépendantes.
MCC (coefficient de corrélation de Matthews) : le coefficient de corrélation de Matthews (MCC) ou coefficient phi est utilisé dans l'apprentissage automatique comme une mesure de la qualité des classifications binaires (à deux classes).
Courbe Roc : la courbe ROC (Receiver Operating Characteristics) permet de visualiser la performance d’un modèle et de la comparer à celle d’autres modèles. Les termes utilisés viennent de la théorie de détection du signal. La courbe des points (1-spécificité, sensibilité) est la courbe ROC.
AUC : l'aire sous la courbe (ou Area Under the Curve – AUC ) est un indice synthétique calculé pour les courbes ROC. L'AUC correspond à la probabilité pour qu'un événement positif ait une probabilité donnée par le modèle plus élevée qu'un événement négatif. Pour un modèle idéal, on a AUC = 1, pour un modèle aléatoire, on a AUC = 0,5.
Courbe Lift : la courbe Lift est la courbe qui représente la valeur Lift en fonction du pourcentage de la population. Le Lift correspond au rapport entre la proportion de vrais positifs et la proportion de prédictions positives. Un lift de 1 signifie qu'il n'existe pas de gain par rapport à un algorithme qui ferait des prédictions de manière aléatoire. De manière générale, plus le Lift est élevé plus le modèle est performant.
Courbe de gain cumulée : la courbe des gains représente la sensibilité, ou rappel, en fonction du pourcentage de population totale. Elle nous permet de voir quelle part des données concentre le maximum d'événements positifs.

Indicateurs de performance de modèles de classification

Notations : W désigne la somme des poids et p correspond au nombre de variables inclues dans le modèle.

MCE : la moyenne des carrés des erreurs (MCE)
RMCE : la racine de la moyenne des carrés des erreurs (RMCE) est la racine carrée de la MCE
MAE (Mean Absolute Error)
MSLE (Mean Squared Log Error)
RMSLE (Root Mean Squared Log Error) : la RMSLE est la racine carrée de la MSLE.
MAPE (Mean Absolute Percentage Error) : aussi appelée MAPD pour Mean Absolute Percentage Deviation. Si les valeurs observées sont très faibles ou les erreurs trop importantes, il se peut alors que le MAPE soit supérieur à 100%.
R² : il correspond au coefficient de détermination du modèle. La valeur de ce coefficient est généralement comprise entre 0 et 1.
R² ajusté : il correspond au coefficient de détermination ajusté du modèle. Le R² ajusté peut être négatif si le R² est voisin de zéro ou négatif.
Indice de Willmott : utilisé principalement dans les modèles hydrologiques, l'indice d'agrément redéfini (Willmott et al., 2012).
Indice de Mielke and Berry : l'indice est influencé par le MAE et peut être utilisé pour les cas de saisonnalité.
Indice de Legates and McCabe : utilisé principalement dans les modèles hydrologiques, l'indice de Legates and McCabe est recommandé lorsqu'il y a une saisonnalité ou une différence de moyenne par période.
AIC : le critère d'information d'Akaike (Akaike's Information Criterion). Ce critère de sélection de modèle pénalise les modèles pour lesquels l'ajout de nouvelles variables explicatives n'apporte pas suffisamment d'information au modèle (l'information est mesurée au travers de la SCE). On cherche à minimiser le critère AIC.
AICc : le critère d'information d'Akaike corrigé permet de diminuer la probabilité de choisir un modèle avec un trop grand nombre de variables explicatives.
SBC : le critère bayésien de Schwarz (Schwarz's Bayesian Criterion). Ce critère proposé par Schwarz (1978) est proche du critère AIC et, comme ce dernier, on cherche à le minimiser.