Analyse Factorielle des Correspondances (AFC) avec XLSTAT

Jeu de données pour Analyse Factorielle des Correspondances (AFC) XLS585 Ko

Vidéo du tutoriel
"Analyse Factorielle des Correspondances (AFC)" inclus dans : Télécharger L'évaluation Plus d'info Commentaires utilisateurs
  • Pro Logiciel de base de la suite XLSTAT

  • Pré-requis système

    • Windows:
      • Versions : 9x/Me/NT/2000/XP/Vista/Win 7/Win 8
      • Excel : 97 et supérieures
      • Processeur : 32 ou 64 bits
      • Disque dur : 150 Mo
    • Mac OS X:
      • OS : OS X
      • Excel : X, 2004 et 2011
      • Disque dur : 150 Mo

Avantages

  • Pratique et simple d'utilisation
    Pratique et simple d'utilisation XLSTAT est parfaitement intégré à Microsoft Excel qui est le tableur le plus populaire au monde. Grâce à cette intégration, et au suivi de la même philosophie qu'Excel, l'utilisation de XLSTAT est aisée. Le logiciel est accessible dans un onglet dédié qui contient le menu de chaque module. Les analyses disponibles sont regroupées en menus fonctionnels. Les boîtes de dialogues sont pratiques et leur paramétrage est simple.
  • Partage aisé des données et résultats
    Partage aisé des données et résultats Un des plus grands avantages de XLSTAT est le fait que les données et résultats peuvent être partagés sans contrainte. En effet, données et résultats sont stockés dans Microsoft Excel et donc accessibles à tous. Il n'est pas nécessaire pour le receveur d'avoir une licence XLSTAT ou tout autre visionneur additionnel. Ceci facilite votre travail d'équipe et le rend plus économique. Enfin, les résultats sont transposables dans les autres logiciels de Microsoft Office dont PowerPoint ce qui vous permet de créer des présentations avec d'excellents graphiques en quelques minutes.
  • Modulaire
    Modulaire XLSTAT est un produit modulaire articulé autour de XLSTAT-Pro qui est le logiciel de base de XLSTAT. XLSTAT-Pro inclut déjà toutes les fonctionnalités les plus courantes en statistiques et analyses de données multivariées. Des fonctions plus avancées sont aussi disponibles dans des modules additionnels qui répondent à des demandes plus spécifiques. Ainsi, vous pouvez adapter le logiciel à vos propres besoins ce qui le rend plus rentable.
  • Didactique
    Didactique Les résultats de XLSTAT sont affichés pour chaque analyse et sont toujours disponibles pour une navigation plus simple. De plus, des informations utiles sont associées aux résultats afin de faciliter votre interprétation.
  • A un juste prix
    A un juste prix XLSTAT est un logiciel de statistique et d'analyse de données complet et modulaire qui s'adapte à tous les besoins analytiques d'une organisation. Son prix est très raisonnable ce qui vous permet de le rentabiliser presque immédiatement. Toutes les licences XLSTAT incluent un support et une assistance de première qualité.
  • Accessible en de nombreuses langues
    Accessible en de nombreuses langues Nous nous sommes assurés que XLSTAT puisse être accessible au plus grand nombre en distribuant le programme dans de nombreuses langues dont le français, l'anglais, l'allemand, l'espagnol, l'italien, le portugais, le polonais, le chinois et le japonais.
  • Automatisable et personnalisable
    Automatisable et personnalisable La plupart des fonctions disponibles dans XLSTAT peuvent être directement appelées depuis l'application Visual Basic de Microsoft Excel. Elles peuvent être intégrées à vos routines pour répondre aux besoins d'une application particulière. Ajouter des tableaux de résultats, des graphiques, ou modifier l'existant est simplifié. De plus, XLSTAT inclut des outils permettant de sauvegarder ou de recharger des paramètres automatiquement, mais aussi de générer du code VBA. Ceci permet de reproduire vos analyses depuis l'éditeur VBA. Cette automatisation des analyses routinières vous fera gagner du temps.

Jeu de données pour réaliser une Analyse Factorielle des Correspondances

Une feuille Excel contenant les données et les résultats peut être téléchargée en cliquant ici.

Les données correspondent à une enquête dans laquelle les personnes interrogées donnent leurs opinions sur un film qu'elles viennent de voir. On leur demande également leur tranche d'âge.

Paramétrer une Analyse Factorielle des Correspondances

Une fois que XLSTAT est ouvert, choisissez XLSTAT/Analyse des données/Analyse Factorielle des Correspondances, ou cliquez sur le bouton correspondant de la barre d'outils "Analyse des données".

 Analyzing data menu

Une fois le bouton cliqué, la boîte de dialogue de l'Analyse Factorielle des Correspondances apparaît.

Sélectionnez les données sur la feuille Excel. Si vos données sont comme ici dans un tableau de contingence, sélectionnez le format Tableau croisé.

Note : Si vos données sont dans un tableau Individus/variables sélectionnez l'option Tableau observations/variables.

Si les noms des catégories en lignes sont inclus dans la sélection, activez l’option Libellés inclus

correspondence analysis general tab

Dans l'onglet Options, sélectionnez Aucune pour l'option Analyse approfondie.

N’activez pas l'option Analyse non symétrique et choisir Khi² pour la Distance. Cette combinaison d'options permet de réaliser une Analyse Factorielle des Correspondances classique (AFC).

Remarque:

Pour réaliser une Analyse Non Symétrique des Correspondances (ANSC), activez l'option Analyse non symétrique (pour laquelle seule la distance du Khi² est proposée).

Pour réaliser une Analyse des Correspondance basée sur la distance de Hellinger (HD), n’activez pas l'option Analyse non symétrique et choisissez Hellinger pour la Distance.

correspondence analysis options tab

Dans l'onglet Graphiques, trois possibilités de représenter les résultats sont proposées. Le graphique symétrique des lignes et colonnes est le plus couramment utilisé. Aux fins de ce tutoriel, toutes les alternatives de cartographie ont été choisies.

XLSTAT correspondence analysis charts tab

Cliquez sur le bouton OK. Une boîte de dialogue apparait, sélectionnez les axes à utiliser pour les graphiques et validez.

 

Interpréter les résultats de l’Analyse Factorielle des Correspondances

Les objectifs de l'Analyse Factorielle des Correspondances sont d'étudier l'association entre deux variables (lignes et colonnes d'un tableau de contingence) et les similitudes entre les catégories de chaque variable respectivement (lignes et colonnes respectivement).

Avant de commencer l'interprétation, il est utile d’introduire le concept de profil. En effet, l'Analyse Factorielle des Correspondances est basée sur l'analyse des profils. Un profil est l’ensemble des fréquences divisées par leur total, c’est à dire les fréquences relatives. En d'autres termes, un profil reflète la façon dont la catégorie d'une variable varie selon les catégories de l'autre variable.

Le premier résultat affiché est le test d'indépendance entre les lignes et les colonnes, basé sur une statistique du khi². Si la valeur du khi² observée est supérieure à la valeur critique, la p-value est inférieure au niveau alpha choisi et l'on peut conclure que les lignes et les colonnes du tableau sont liées de manière significative. Dans notre exemple, il est fortement probable que des différences réelles existent entre les profils d’appréciation du film des différents groupes d'âge.

XLSTAT correspondence analysis test of independence

Les valeurs propres correspondent à la variance extraite par chaque facteur (dimension). La qualité de l'analyse peut être évaluée en consultant le tableau des valeurs propres ou le scree plot correspondant. Si la somme des deux (ou quelques) premières valeurs propres est proche de la variance totale représentée, alors la qualité de l'analyse est très bonne. Dans notre exemple, la somme des deux premières valeurs propres représente 97% de l'inertie totale, l’analyse est donc de bonne qualité. 

xlstat correspondence analysis inertia table 

xlstat correspondence analysis scree plot

Une série de tableaux est ensuite affichée pour les lignes (et les colonnes respectivement).

Un premier tableau contient les poids, distances et distances quadratiques à l'origine, inerties et inerties relatives des lignes (et des colonnes respectivement). Les poids sont des proportions marginales utilisées pour pondérer les profils des points lors du calcul des distances. Plus la distance à l'origine est grande, plus le profil de la catégorie est différent du profil moyen (plus la catégorie participe à la dépendance entre les deux variables). Les groupes d'âge 25-34, 35-44 et 45-54 ont la distance la plus courte à l'origine, ce qui indique que les profils de ces groupes sont proches du profil moyen.

xlstat correspondence analysis weights table

Les profils lignes (respectivement colonnes) sont ensuite affichés ainsi que le profil moyen. Dans notre exemple, les profils des groupes d'âge 25-34, 35-44 et 45-54 sont proches les uns des autres et du profil moyen. Ce dernier résultat confirme l’observation faite en analysant les distances à l’origine. 

xlstat correspondence analysis profiles table

Les distances entre les lignes (respectivement colonnes) fournissent des informations sur la similitude entre les catégories. Encore une fois, les groupes d'âge 35-34, 35-44 et 45-54 semblent être similaires avec des distances inférieures à 0,2.

xlstat correspondence analysis chi-square distances

Les coordonnées principales et coordonnées standard des lignes (colonnes respectivement) sont ensuite affichées. Les coordonnées standard sont le résultat de la division des coordonnées principales par la racine carrée de la valeur propre du facteur correspondant. La somme-des-carrés pondérée des coordonnées standard est égale à 1 pour chaque facteur.

Les contributions des lignes (respectivement colonnes) sont ensuite affichées. Les contributions correspondent à l'importance de chaque catégorie pour chaque facteur (dimension). La somme des contributions est égale à 1 pour chaque facteur. En général, si la contribution est supérieure à 1/I avec I le nombre de lignes (respectivement 1/J avec J le nombre de colonnes), la catégorie est importante pour le facteur donné. Dans notre exemple, le groupe des 16-24 ans est important pour le facteur F1, les groupes des 65-74 ans et 75 ans et plus sont importants pour le facteur F2.

xlstat correspondence analysis contributions

Le tableau suivant contient les cosinus carrés des lignes (colonnes respectivement). Les cosinus carrés représentent l'importance de chaque facteur pour chaque catégorie. La somme des cosinus carrés est égale à 1 pour chaque catégorie. Dans notre exemple, la quasi-totalité de la variance du groupe des 16-24 ans est attribuée au facteur F1.

xlstat correspondence analysis squared cosines

Les différents graphiques sont ensuite affichés.

Le graphique symétrique est le plus couramment utilisé. Les profils des lignes et des colonnes sont superposées dans un même espace (en coordonnées principales). Les points correspondants aux lignes et aux colonnes étant également espacés, ce graphique est très pratique. Les distances entre les points-lignes (respectivement points-colonnes) correspondent aux distances du khi² entre les lignes (respectivement entre les colonnes). Les groupes d'âge 25-34, 35-44 et 45-54 sont presque superposés, indiquant des profils très similaires.

La proximité entre les points-lignes et les points-colonnes ne peut pas être interprétée directement. 

xlstat correspondence analysis symmetric plot

Des cercles de confiance peuvent être ajoutés sur les graphiques symétriques, comme illustré sur le graphique symétrique des lignes. Si l'origine se trouve dans le cercle d'une catégorie donnée, cette catégorie ne contribue pas à la dépendance entre les variables. Dans notre exemple, les cercles confirment que les groupes d'âge 25-34, 34-45 45-54 ne contribuent pas à la dépendance entre les variables. Le groupe des 16-24 ans contribuent à la dépendance entre les variables.

xlstat correspondence analysis confidence circles

Sur le graphique asymétrique des lignes, les colonnes sont représentées dans l'espace des lignes (coordonnées standard pour les colonnes et coordonnées principales pour les lignes). Inversement, le graphique asymétrique des colonnes correspond aux lignes représentées dans l'espace des colonnes. Les distances entre lignes et colonnes peuvent être interprétées en projetant les points-lignes sur les vecteurs-colonnes. Le choix de la représentation dans l’espace des lignes ou l’espace des colonnes dépend de l’interprétation appropriée. Dans notre exemple, nous choisissons d'interpréter les groupes d'âge dans l'espace des niveaux d'appréciation. La première dimension oppose bon à mauvais. Le groupe des 16-24 ans comprend une proportion plus grande de "bon" par rapport aux proportions de "bon" dans les autres tranches d'âge. Cependant, cela ne signifie pas que la qualification "bon" a la plus grande proportion parmi les autres proportions au sein du groupe des 16-24 ans. Les profils lignes ne sont pas très différents du profil moyen (points proches de l'origine).

correspondence analysis asymmetric row plot

Les coordonnées de contribution des lignes et des colonnes sont ensuite affichées. Les coordonnées de contribution sont obtenues en divisant les coordonnées standard par la racine carrée de la masse de la catégorie donnée.

Sur le biplot de contribution des lignes, les lignes sont en coordonnées de contribution et les colonnes sont en coordonnées principales, et inversement pour le biplot de contribution des colonnes. Sur le biplot des contributions des lignes (respectivement des colonnes), les distances des points lignes (respectivement colonnes) à l'origine sont liées à leur contribution au graphique. Dans notre exemple, sur le biplot de contribution des lignes, les positions des points des lignes sont inchangées par rapport au graphique asymétrique. Les points colonnes sont plus proches de l'origine (voir les échelles des deux représentations).

xlstat correspondence analysis contribution biplot

 

L'analyse des correspondances est une technique très efficace pour analyser les tableaux de contingence. Lorsque plus de deux variables sont utilisés dans une enquête, la meilleure technique à utiliser est l'analyse des correspondances multiples (MCA).

Cette vidéo résume les principales étapes de ce tutoriel.