Analyse Factorielle Discriminante (AFD)
"Analyse Factorielle Discriminante (AFD)" inclus dans :Qu’est-ce que l’Analyse Factorielle Discriminante ?
L'Analyse Factorielle Discriminante (AFD) est une méthode ancienne (Fisher, 1936) qui dans sa version classique a peu évolué au cours des vingt dernières années. Cette méthode, à la fois explicative et prédictive, peut être utilisée pour :
- vérifier sur un graphique à deux ou trois dimensions si les groupes auxquels appartiennent les observations sont bien distincts,
- identifier quelles sont les caractéristiques des groupes sur la base de variables explicatives,
- prédire le groupe d'appartenance pour une nouvelle observation.
Les applications possibles de l'AFD sont très nombreuses de l'écologie à la prévision de risque en finance (crédit scoring).
Types d’Analyse Factorielle Discriminante
Deux modèles d'Analyse Factorielle Discriminante sont possibles en fonction d'une hypothèse fondamentale :
- L'Analyse Factorielle Discriminante linéaire : si l'on suppose que les matrices de covariance sont identiques.
- Un modèle quadratique : si l'on suppose au contraire que les matrices de covariance sont différentes pour au moins deux groupes. Le test de Box permet de tester cette hypothèse (l'approximation de Bartlett permet d'utiliser une loi du Khi² pour le test). On peut commencer par une analyse linéaire, puis, en fonction des résultats du test de Box éventuellement faire une analyse quadratique.
Note: L'analyse discriminante est étroitement liée à l'analyse multivariée de la variance (MANOVA) .
Analyse Factorielle Discriminante et problèmes de multicolinéarité
Dans le cas du modèle linéaire et encore plus dans le cas du modèle quadratique on peut faire face à des problèmes de variables ayant une variance nulle ou de multicolinéarité entre variables. XLSTAT a été programmé de manière à éviter ces problèmes. Les variables responsables de tels problèmes sont automatiquement ignorées soit pour l'ensemble des calculs, soit, dans le cas du modèle quadratique, pour les groupes pour lesquels les problèmes se posent. Les statistiques de multicolinéarité sont optionnellement affichées afin de vous permettre d'identifier les variables sources de problèmes.
Analyse Factorielle Discriminante et sélection de variables
Comme pour la régression linéaire et logistique, des méthodes pas à pas efficaces ont été proposées. Elles ne sont toutefois utilisables que lorsque seules des variables quantitatives sont sélectionnées car les tests d'entrée et sortie de variables s'appuient sur une hypothèse de normalité des variables. La méthode stepwise (pas à pas progressive) permet d'obtenir un modèle performant évitant les variables qui n'apportent que peu d'information au modèle.
Résultat de l’Analyse Factorielle Discriminante : Tableau de classification, courbe ROC et validation croisée
Parmi les nombreux résultats proposés, XLSTAT donne la possibilité d'afficher le tableau de classification (aussi appelé matrice de confusion) qui permet de calculer un pourcentage d'observations bien classées. Lorsque seules deux classes (ou catégories, ou modalités) sont présentes dans la variable dépendante, la courbe ROC peut aussi être affichée. La courbe ROC (Receiver Operating Characteristics) permet de visualiser la performance d'un modèle, et de la comparer cette performance à celle d'autres modèles. Les termes utilisés viennent de la théorie de détection du signal.
On désigne par sensibilité (sensivity) la proportion d'événements positifs bien classés. La spécificité (specificity) correspond à la proportion d'événements négatifs bien classés. Si l'on fait varier la probabilité seuil à partir de laquelle on considère qu'un événement doit être considéré comme positif, la sensibilité et la spécificité varient. La courbe des points (1-spécificité, sensibilité) est la courbe ROC. Considérons une variable dépendante binaire indiquant par exemple si un client a répondu favorablement à un mailing. Sur la figure ci-dessous, la courbe bleue correspond à un cas idéal où les n% de personnes ayant répondu favorablement correspondent aux n% de probabilités les plus élevées. La courbe verte correspond aux résultats d'un modèle bien discriminant. La courbe rouge (première bissectrice) correspond à ce que l'on obtiendrait avec un modèle aléatoire de Bernoulli avec une probabilité de réponse égale à celle observée sur l'échantillon étudié. Un modèle proche de la courbe rouge est donc inefficace puisqu'il n'est pas meilleur qu'un simple tirage au hasard. Un modèle en dessous de cette courbe serait catastrophique car il ferait moins bien que le hasard.
L'aire sous la courbe (ou Area Under the Curve – AUC) est un indice synthétique calculé pour les courbes ROC. L'AUC correspond à la probabilité pour qu'un événement positif ait une probabilité donnée par le modèle plus élevée qu'un événement négatif. Pour un modèle idéal, on a AUC=1, pour un modèle aléatoire, on a AUC=0.5. On considère habituellement que le modèle est bon dès lors que la valeur de l'AUC est supérieure à 0.7. Un modèle bien discriminant doit avoir une AUC entre 0.87 et 0.9. Un modèle ayant une AUC supérieure à 0.9 est excellent.
Les résultats du modèle en termes de prévision peuvent être trop optimistes : en effet, on cherche à vérifier si une observation est bien classée, alors qu'elle-même est prise en compte pour le calcul du modèle. Pour cette raison a été développée la validation croisée : pour déterminer la probabilité d'appartenance d'une observation aux différents groupes, on la retire de l'échantillon d'apprentissage, puis on calcule le modèle et la prévision. Cette opération est répétée pour chacune des observations de l'échantillon d'apprentissage. Les résultats ainsi obtenus sont plus représentatifs de la qualité du modèle. XLSTAT propose de calculer les différentes statistiques associées à chacune des observations en mode validation croisée, ainsi que le tableau de classification et la courbe ROC s'il n'y que deux classes.
Enfin, il est conseillé de valider le modèle sur un échantillon de validation dans la mesure du possible. XLSTAT offre plusieurs possibilités pour automatiquement générer un échantillon de validation.
Analyse discriminante et régression logistique
Dans le cas où il n'y a que deux classes à prédire pour la variable dépendante, l'analyse discriminante est très proche de la régression logistique. L'analyse discriminante présente l'intérêt d'étudier dans le détail les structures de covariance, et d'aboutir à une représentation graphique. La régression logistique présente quant à elle l'avantage d'offrir plusieurs formes modèles possibles, et de permettre l'utilisation des méthodes de sélection pas à pas y compris pour les variables explicatives qualitatives. L'utilisateur pourra comparer les performances des deux méthodes en s'appuyant sur les courbes ROC.