Analyse en Composantes Principales (ACP)

"Analyse en Composantes Principales (ACP)" inclus dans :
  • Pro Logiciel de base de la suite XLSTAT

  • Pré-requis système

    • Windows:
      • Versions : 9x/Me/NT/2000/XP/Vista/Win 7/Win 8
      • Excel : 97 et supérieures
      • Processeur : 32 ou 64 bits
      • Disque dur : 150 Mo
    • Mac OS X:
      • OS : OS X
      • Excel : X, 2004 et 2011
      • Disque dur : 150 Mo

Avantages

  • Pratique et simple d'utilisation
    Pratique et simple d'utilisation XLSTAT est parfaitement intégré à Microsoft Excel qui est le tableur le plus populaire au monde. Grâce à cette intégration, et au suivi de la même philosophie qu'Excel, l'utilisation de XLSTAT est aisée. Le logiciel est accessible dans un onglet dédié qui contient le menu de chaque module. Les analyses disponibles sont regroupées en menus fonctionnels. Les boîtes de dialogues sont pratiques et leur paramétrage est simple.
  • Partage aisé des données et résultats
    Partage aisé des données et résultats Un des plus grands avantages de XLSTAT est le fait que les données et résultats peuvent être partagés sans contrainte. En effet, données et résultats sont stockés dans Microsoft Excel et donc accessibles à tous. Il n'est pas nécessaire pour le receveur d'avoir une licence XLSTAT ou tout autre visionneur additionnel. Ceci facilite votre travail d'équipe et le rend plus économique. Enfin, les résultats sont transposables dans les autres logiciels de Microsoft Office dont PowerPoint ce qui vous permet de créer des présentations avec d'excellents graphiques en quelques minutes.
  • Modulaire
    Modulaire XLSTAT est un produit modulaire articulé autour de XLSTAT-Pro qui est le logiciel de base de XLSTAT. XLSTAT-Pro inclut déjà toutes les fonctionnalités les plus courantes en statistiques et analyses de données multivariées. Des fonctions plus avancées sont aussi disponibles dans des modules additionnels qui répondent à des demandes plus spécifiques. Ainsi, vous pouvez adapter le logiciel à vos propres besoins ce qui le rend plus rentable.
  • Didactique
    Didactique Les résultats de XLSTAT sont affichés pour chaque analyse et sont toujours disponibles pour une navigation plus simple. De plus, des informations utiles sont associées aux résultats afin de faciliter votre interprétation.
  • A un juste prix
    A un juste prix XLSTAT est un logiciel de statistique et d'analyse de données complet et modulaire qui s'adapte à tous les besoins analytiques d'une organisation. Son prix est très raisonnable ce qui vous permet de le rentabiliser presque immédiatement. Toutes les licences XLSTAT incluent un support et une assistance de première qualité.
  • Accessible en de nombreuses langues
    Accessible en de nombreuses langues Nous nous sommes assurés que XLSTAT puisse être accessible au plus grand nombre en distribuant le programme dans de nombreuses langues dont le français, l'anglais, l'allemand, l'espagnol, l'italien, le portugais, le polonais, le chinois et le japonais.
  • Automatisable et personnalisable
    Automatisable et personnalisable La plupart des fonctions disponibles dans XLSTAT peuvent être directement appelées depuis l'application Visual Basic de Microsoft Excel. Elles peuvent être intégrées à vos routines pour répondre aux besoins d'une application particulière. Ajouter des tableaux de résultats, des graphiques, ou modifier l'existant est simplifié. De plus, XLSTAT inclut des outils permettant de sauvegarder ou de recharger des paramètres automatiquement, mais aussi de générer du code VBA. Ceci permet de reproduire vos analyses depuis l'éditeur VBA. Cette automatisation des analyses routinières vous fera gagner du temps.

L'Analyse en Composantes Principales (ACP) est l'une des méthodes d'analyse de données multivariées les plus utilisées. Dès lors que l'on dispose d'un tableau de données quantitatives (continues ou discrètes) dans lequel n observations (des individus, des produits, …) sont décrites par p variables (des descripteurs, attributs, mesures, …), si p est assez élevé, il est impossible d'appréhender la structure des données et la proximité entre les observations en se contentant d'analyser des statistiques descriptives univariées ou même une matrice de corrélation.

Utilisations de l'Analyse en Composantes Principales

Il existe plusieurs applications pour l'Analyse en Composantes Principales, parmi lesquelles :

Principe de l'Analyse en Composantes Principales

L'Analyse en Composantes Principales peut être considérée comme une méthode de projection qui permet de projeter les observations depuis l'espace à p dimensions des p variables vers un espace à k dimensions (k < p) tel qu'un maximum d'information soit conservée (l'information est ici mesurée au travers de la variance totale du nuage de points) sur les premières dimensions. Si l'information associée aux 2 ou 3 premiers axes représente un pourcentage suffisant de la variabilité totale du nuage de points, on pourra représenter les observations sur un graphique à 2 ou 3 dimensions, facilitant ainsi grandement l'interprétation.

Analyse en Composantes Principales utilisant corrélations ou covariance ?

L'Analyse en Composantes Principales utilise une matrice indiquant le degré de similarité entre les variables pour calculer des matrices permettant la projection des variables dans le nouvel espace. Il est commun d'utiliser comme indice de similarité le coefficient de corrélation de Pearson, ou la covariance. La corrélation de Pearson et la covariance présentent l'avantage de donner des matrices semi-définies positives dont les propriétés sont utilisées en Analyse en Composantes Principales. Néanmoins on peut envisager d'utiliser d'autres indices. XLSTAT propose d'utiliser la corrélation de Spearman et de Kendall ou les corrélations polychoriques pour les données ordinales (les corrélations tétrachoriques sont un cas particulier des corrélations polychoriques qui concerne les données binaires).

Classiquement, on utilise un coefficient de corrélation et non la covariance car l'utilisation du coefficient de corrélation permet de supprimer les effets d'échelle : ainsi une variable variant entre 0 et 1 ne pèse pas plus dans la projection qu'une variable variant entre 0 et 1000. Toutefois, dans certains domaines, lorsque les variables sont supposées être sur des échelles identiques, ou lorsque l'on veut que la variance des variables influe sur la construction des facteurs, on utilise la covariance.

Dans le cas où ne serait disponible qu'une matrice de similarité, et non un tableau observations/variables, ou dans le cas où vous voudriez utiliser un autre indice de similarité, vous pouvez réaliser une Analyse en Composantes Principales en partant de la matrice de similarité. Les résultats obtenus ne concernent alors que les variables, aucune information sur les observations n'étant disponible. Remarque : dans le cas où l' Analyse en Composantes Principales est réalisée sur une matrice de corrélation, on parle d'ACP normée.

Interprétation des résultats d’une Analyse en Composantes Principales

La représentation des variables dans l'espace des k facteurs permet d'interpréter visuellement les corrélations entre les variables d'une part, et entre les variables et les facteurs d'autre part, moyennant certaines précautions.

En effet, qu'il s'agisse de la représentation des observations ou des variables dans l'espace des facteurs, deux points très éloignés dans un espace à k dimensions peuvent apparaître proches dans un espace à 2 dimensions en fonction de la direction utilisée pour la projection.

On peut considérer que la projection d'un point sur un axe, un plan ou un espace à 3 dimensions est fiable si la somme des cosinus carrés sur les axes de représentation n'est pas trop éloignée de 1. Les cosinus carrés sont affichés dans les résultats proposés par XLSTAT afin d'éviter toute mauvaise interprétation.

Si les facteurs doivent être utilisés par la suite avec d'autres méthodes, il est intéressant d'étudier la contribution relative (exprimée en % ou en proportion) des différentes variables à la construction de chacun des axes factoriels, afin de rendre les résultats obtenus ensuite facilement interprétables. Les contributions sont affichées dans les résultats proposés par XLSTAT.

Nombre de facteurs à prendre en compte dans l’Analyse en Composantes Principales

Deux méthodes sont communément utilisées pour déterminer quel nombre de facteurs doit être retenu pour l'interprétation des résultats :

Représentations graphiques des résultats de l’Analyse en Composantes Principales

L'un des avantages de l'Analyse en Composantes Principales est qu'elle fournit à la fois une visualisation optimale des variables et des données, et des biplots mélangeant les deux (voir ci-dessous). Néanmoins, ces représentations ne sont fiables que si la somme des pourcentages de variabilité associés aux axes de l'espace de représentation, est suffisamment élevée. Si ce pourcentage est élevé (par exemple 80%), on peut considérer que la représentation est fiable. Si le pourcentage est faible, il est conseillé de faire des représentations sur plusieurs couples d'axes afin de valider l'interprétation faite sur les deux premiers axes factoriels.

Biplots d’une Analyse en Composantes Principales

Suite à une Analyse en Composantes Principales, il est possible de représenter simultanément dans l'espace des facteurs à la fois les observations et les variables. Les premiers travaux sur ce sujet datent de Gabriel (1971). Gower (1996) et Legendre (1998) ont synthétisé les travaux précédents et étendu cette technique de représentation graphique à d'autres méthodes. Le terme biplot est réservé aux représentations simultanées qui respectent le fait que la projection des observations sur les vecteurs variables doit être représentative des données d'entrée pour ces mêmes variables. Autrement dit, les points projetés sur le vecteur variable, doivent respecter l'ordre et les distances relatives des données de départ correspondant à la même variable.

La représentation simultanée des observations et des variables ne peut être faite directement en prenant les coordonnées des variables et des observations dans l'espace des facteurs. Une transformation est nécessaire afin de rendre l'interprétation exacte. Trois méthodes sont proposées en fonction du type d'interprétation que l'on souhaite pouvoir faire à partir de la représentation graphique :

XLSTAT vous donne la possibilité de jouer sur la longueur des vecteurs variables afin d'améliorer la lisibilité des graphiques. Néanmoins, si vous utilisez cette option dans le cas d'un biplot de corrélation, la projection d'un vecteur variable n'est plus une approximation de l'écart-type de la variable.

Tutoriels

Aperçus