Analyse en Composantes Principales (ACP) avec XLSTAT

Jeu de données pour Analyse en Composantes Principales (ACP) XLS387 Ko

Vidéo du tutoriel
"Analyse en Composantes Principales (ACP)" inclus dans : Télécharger L'évaluation Plus d'info Commentaires utilisateurs
  • Pro Logiciel de base de la suite XLSTAT

  • Pré-requis système

    • Windows:
      • Versions : 9x/Me/NT/2000/XP/Vista/Win 7/Win 8
      • Excel : 97 et supérieures
      • Processeur : 32 ou 64 bits
      • Disque dur : 150 Mo
    • Mac OS X:
      • OS : OS X
      • Excel : X, 2004 et 2011
      • Disque dur : 150 Mo

Avantages

  • Pratique et simple d'utilisation
    Pratique et simple d'utilisation XLSTAT est parfaitement intégré à Microsoft Excel qui est le tableur le plus populaire au monde. Grâce à cette intégration, et au suivi de la même philosophie qu'Excel, l'utilisation de XLSTAT est aisée. Le logiciel est accessible dans un onglet dédié qui contient le menu de chaque module. Les analyses disponibles sont regroupées en menus fonctionnels. Les boîtes de dialogues sont pratiques et leur paramétrage est simple.
  • Partage aisé des données et résultats
    Partage aisé des données et résultats Un des plus grands avantages de XLSTAT est le fait que les données et résultats peuvent être partagés sans contrainte. En effet, données et résultats sont stockés dans Microsoft Excel et donc accessibles à tous. Il n'est pas nécessaire pour le receveur d'avoir une licence XLSTAT ou tout autre visionneur additionnel. Ceci facilite votre travail d'équipe et le rend plus économique. Enfin, les résultats sont transposables dans les autres logiciels de Microsoft Office dont PowerPoint ce qui vous permet de créer des présentations avec d'excellents graphiques en quelques minutes.
  • Modulaire
    Modulaire XLSTAT est un produit modulaire articulé autour de XLSTAT-Pro qui est le logiciel de base de XLSTAT. XLSTAT-Pro inclut déjà toutes les fonctionnalités les plus courantes en statistiques et analyses de données multivariées. Des fonctions plus avancées sont aussi disponibles dans des modules additionnels qui répondent à des demandes plus spécifiques. Ainsi, vous pouvez adapter le logiciel à vos propres besoins ce qui le rend plus rentable.
  • Didactique
    Didactique Les résultats de XLSTAT sont affichés pour chaque analyse et sont toujours disponibles pour une navigation plus simple. De plus, des informations utiles sont associées aux résultats afin de faciliter votre interprétation.
  • A un juste prix
    A un juste prix XLSTAT est un logiciel de statistique et d'analyse de données complet et modulaire qui s'adapte à tous les besoins analytiques d'une organisation. Son prix est très raisonnable ce qui vous permet de le rentabiliser presque immédiatement. Toutes les licences XLSTAT incluent un support et une assistance de première qualité.
  • Accessible en de nombreuses langues
    Accessible en de nombreuses langues Nous nous sommes assurés que XLSTAT puisse être accessible au plus grand nombre en distribuant le programme dans de nombreuses langues dont le français, l'anglais, l'allemand, l'espagnol, l'italien, le portugais, le polonais, le chinois et le japonais.
  • Automatisable et personnalisable
    Automatisable et personnalisable La plupart des fonctions disponibles dans XLSTAT peuvent être directement appelées depuis l'application Visual Basic de Microsoft Excel. Elles peuvent être intégrées à vos routines pour répondre aux besoins d'une application particulière. Ajouter des tableaux de résultats, des graphiques, ou modifier l'existant est simplifié. De plus, XLSTAT inclut des outils permettant de sauvegarder ou de recharger des paramètres automatiquement, mais aussi de générer du code VBA. Ceci permet de reproduire vos analyses depuis l'éditeur VBA. Cette automatisation des analyses routinières vous fera gagner du temps.

Jeu de données pour réaliser une Analyse en Composantes Principales

Une feuille Excel contenant à la fois les données et les résultats peut-être téléchargée en cliquant ici.

Les données proviennent du US Census Bureau (le fichier original peut-être obtenu sur http://eire.census.gov/popest/states_dataset.csv).

Elles correspondent à la mesure de paramètres démographiques dans 51 Etats des Etats-Unis en 2000 et 2001. Dans le cadre de ce tutoriel, seules les données de l'année 2001 ont été conservées, et afin de supprimer les effets d'échelle, les variables initiales ont été converties en taux pour 1000 habitants.

But de ce tutoriel

Le but est ici d'analyser les corrélations entre les variables et d'identifier des états se différenciant fortement des autres. Ces données sont aussi utilisées pour le tutoriel de la Classification Ascendante Hiérarchique (CAH).

Analyse en Composantes Principales

L'Analyse en Composantes Principales (ACP) est une méthode très efficace pour l'analyse de données quantitatives (continues ou discrètes) se présentant sous la forme de tableaux à M observations / N variables. Elle permet de :

  • visualiser et analyser rapidement les corrélations entre les N variables,
  • visualiser et analyser les M observations initialement décrites par N variables sur un graphique à deux ou trois dimensions, construit de manière à ce que la dispersion entre les données soit aussi bien préservée que possible,
  • construire un ensemble de P facteurs non corrélés (P

Les limites de l'Analyse en Composantes Principales viennent du fait que c'est une méthode de projection, et que la perte d'information induite par la projection peut entraîner des interprétations erronées. Des astuces permettent cependant d'éviter ces inconvénients.

Paramétrer une Analyse en Composantes Principales

XLSTAT / Analyse de données / Analyse en Composantes Principales, ou cliquez sur le bouton correspondant de la barre Analyse de données(voir ci-dessous).

barpca1f.gifbarpca2f.gif

Une fois le bouton cliqué, la boîte de dialogue correspondant à l'Analyse en composantes principales apparaît.

Vous pouvez alors sélectionner les données sur la feuille Excel.

Il y a plusieurs façon de sélectionner les données dans la boîtes de dialogue XLSTAT (voir le tutoriel sur le sujet).

Dans l'exemple étudié ici les données commencent dès la première ligne; il est donc plus rapide de choisir le mode de sélection par colonnes. C'est pourquoi dans la boîte de dialogue ci-dessous, les sélections apparaissent sous forme de colonnes.

L'option Libellés des variables est activée, car la première ligne de données contient le nom des variables.

Le Format des données choisi ici est Observations/Variables car c'est bien le format des données de départ.

Le Type d'ACP choisi est Pearson (n), ce qui signifie que les calculs seront basés sur une matrice composée des coefficients de corrélation de Pearson, le coefficient de Pearson étant le coefficient de corrélation classiquement utilisé.

boite general acp

Dans l'onglet Sorties, on a choisi d'activer l'option Tester la significativité pour afficher en gras les corrélations significativement différentes de 0.

boite sorties acp

Dans l'onglet Graphiques, les options d'Etiquettes sont toutes activées afin que les libellés des variables et des observations soient bien affichés.

L'option de filtrage des observations à afficher est aussi désactivée afin d'afficher toutes les observations.

Lorsqu'il y a beaucoup d'observations, il est conseillé de ne pas afficher les étiquettes pour accélérer la génération du graphique, et de ne pas afficher toutes les observations afin de rendre le graphique plus lisible.

boite observations acp

boite observations acp

boite biplots acp

Les calculs commencent lorsque vous cliquez sur le bouton OK.

Si vous avez choisi dans le panneau des options XLSTAT l'option Demander la confirmation des sélections, XLSTAT vous demande de confirmer le nombre de lignes et de colonnes des sélections.

Puis une nouvelle boîte vous permet de choisir les axes pour lesquels les graphiques doivent être affichés. Dans notre cas, le pourcentage de variabilité représenté sur les deux premiers axes n'est pas particulièrement élevé (67.72%) ; pour éviter une mauvaise interprétation des graphiques, un affichage sur les axes 1 et 3 est donc aussi demandé.

Analyse en Composantes Principales’’’’Analyse en Composantes Principales excel

Interpréter les résultats de l'Analyse en Composantes Principales

Le premier résultat intéressant à analyser est la matrice des corrélations. On remarque le résultat évident que les taux de la proportion de gens étant agés de plus et moins de 65 ans sont parfaitement corrélés (r = -1). Les deux variables sont donc redondantes. On remarque l'immigration provenant d'autres états des USA est très peu corrélée avec les autres variables, y compris avec l’immigration provenant de pays étrangers. Cela indique que les raisons d'immigration sont sûrement différentes pour les deux populations concernées.

Analyse en Composantes Principales

Le tableau suivant et le graphique associé sont liées à un objet mathématique, les valeurs propres, qui sont heureusement liées à un concept très simple : la qualité de la projection lorsque l'on passe de N dimensions (N étant le nombre de variables, ici 7) à un nombre plus faible de dimensions. Dans notre cas, on voit que la première valeur propre vaut 3.567 et représente 51% de la variabilité. Cela signifie que si l'on représente les données sur un seul axe, alors on aura toujours 51% de la variabilité totale qui sera préservée.

A chaque valeur propre correspond un facteur. Chaque facteur est en fait une combinaison linéaire des variables de départ. Les facteurs ont la particularité de ne pas être corrélés entre eux. Les valeurs propres et les facteurs sont triés par ordre décroissant de variabilité représentée.

Analyse en Composantes PrincipalesAnalyse en Composantes Principales

Idéalement, les deux premières valeurs propres correspondent à un % élevé de la variabilité, si bien que la représentation sur les deux premiers axes factoriels est de bonne qualité. Dans notre exemple, cela n'est pas tout à fait le cas, d'où la nécessité de valider les hypothèse formulées par l'utilisation des graphiques sur les facteurs F1 et F2 d'une part, et F1 et F3 d'autre part. Nous voyons ici que le nombre de facteurs est 6, alors que nous avions au départ 7 variables. Cela est dû aux deux variables redondantes. On comprend bien que l'information puisse être synthétisée sur 6 dimensions. Le nombre de dimensions "utiles" maximum est automatiquement détecter par la méthode utilisée.

Le premier graphique particulier à la méthode est le cercle des corrélations (voir ci-dessous le cercle sur les axes F1 et F2). Il correspond à une projection des variables initiales sur un plan à deux dimensions constitué par les deux premiers facteurs. Lorsque deux variables sont loin du centre du graphique, alors si elles sont : proches les unes par rapport aux autres, alors elles sont significativement positivement corrélées (r proche de 1), orthogonales les unes par rapport aux autres, alors elles sont significativement non-corrélées (r proche de 0), symétriquement opposées par rapport au centre, alors elles sont significativement négativement corrélées (r proche de -1).

Lorsque les variables sont relativement proches du centre du graphique, alors toute interprétation est hasardeuse, et il est nécessaire de se référer à la matrice de corrélations à d'autres plans factoriels pour interpréter les résultats. Dans notre exemple, nous pourrions déduire du graphique ci-dessous que les variables Immigration domestique, et Immigration Internationale sont corrélées, alors qu'elles ne le sont pas, ce que l'on peut voir sur la matrice des corrélations ou sur le cercle des corrélations sur les axes F1 et F3. En revanche, on voit bien la forte corrélation entre le taux de mortalité et le taux de personnes dont l'âge est supérieur à 65 ans.

Analyse en Composantes Principales

Le cercle des corrélations est aussi utile pour interpréter la signification des axes. Dans notre cas, l'axe F1 est clairement lié à l'âge de la population et à son renouvellement, alors que l'axe F2 est essentiellement lié à l'immigration domestique. Ces tendances sont particulièrement intéressantes à dégager pour l'interprétation du graphique des individus (voir ci-dessous). Pour confirmer le fait qu'une variable est fortement liée à un facteur, il suffit de consulter la table des cosinus : plus le cosinus est élevé (en valeur absolue), plus la variable et liée à l'axe. Plus le cosinus est proche de zéro, moins la variable est liée à l'axe. Dans notre cas, nous voyons que ce qui concerne l'immigration internationale sera mieux interprétée sur les F2/F3.

Le graphique ci-dessous correspond à l'un des objectifs de l'ACP. Il permet de représenter les individus sur une carte à deux dimensions, et ainsi d'identifier des tendances. On voit dans notre exemple que sur la base des variables démographiques dont on dispose, le Nevada et la Floride sont assez particuliers, de même que l'Utah et Alaska qui semblent partager des caractéristiques : en regardant les données, on s'aperçoit que ces deux états ont une population nettement plus jeune que la moyenne, et une natalité très élevée.

Analyse en Composantes Principales

Cliquez pour voir le graphique en trois dimensions généré par XLSTAT-3DPlot sur les trois premiers axes factoriels.

Regardez la vidéo suivante pour voir comment les paramètres de l'analyse ont été réglés dans XLSTAT.

L'Analyse en Composantes Principales est souvent utilisée avant une régression car elle permet d'éviter d'utiliser des variables redondantes, ou avant une classification car elle permet d'identifier la structure de la population et éventuellement de déterminer le nombre de groupes à construire. Les données utilisées dans ce tutoriel sont aussi utilisées dans le tutoriel sur la Classification Ascendante Hiérarchique. En tenant compte des remarques faites ci-dessus, la variable "pop >65" a été supprimée afin de ne pas rendre le poids des variables liées à l'âge trop important pour le regroupement des états.