Analyse en Composantes Principales (ACP)

L'Analyse en Composantes Principales (ACP) est l'une des méthodes de data mining les plus populaires. Elle est disponible dans Excel avec le logiciel XLSTAT.

L'Analyse en Composantes Principales (ACP) est l'une des méthodes d'analyse de données multivariées les plus utilisées. Elle permet d’explorer des jeux de données multidimensionnels constitués de variables quantitatives. Elle est largement utilisée en biostatistique, marketing, sciences sociales et bien d’autres domaines.

XLSTAT propose une fonctionnalité ACP complète et flexible permettant d’explorer vos données directement dans Excel. XLSTAT propose plusieurs options standard et avancées qui vous permettront de bien plonger dans vos données. Il est possible d’exécuter l’analyse sur des données brutes ou sur des matrices de dissimilarité et de rajouter des variables ou observations supplémentaires. XLSTAT permet également de filtrer des variables ou des observations selon différents critères pour optimiser la lisibilité des graphiques. Il est possible d’exécuter des rotations telles que VARIMAX. L’édition du cercle des corrélation, du graphique des observations et du biplot peut se faire facilement en utilisant les fonctionnalités d’Excel. Copiez les coordonnées de vos observations depuis le rapport de résultats pour les utiliser dans des analyses ultérieures.

Nous proposons également plusieurs ressources d’apprentissage sur le web, telles qu’un tutoriel sur la mise en place et l’interprétation d’une ACP dans XLSTAT, ainsi qu’un guide pour choisir une méthode de data mining ou d’outil d’analyse de données multivariées.

Qu’est-ce que l’Analyse en composantes Principales ?

L'Analyse en Composantes Principales peut être considérée comme une méthode de projection qui permet de projeter les observations depuis l'espace à p dimensions des p variables vers un espace à k dimensions (k < p) tel qu'un maximum d'information soit conservée (l'information est ici mesurée au travers de la variance totale du nuage de points) sur les premières dimensions. Si l'information associée aux 2 ou 3 premiers axes représente un pourcentage suffisant de la variabilité totale du nuage de points, on pourra représenter les observations sur un graphique à 2 ou 3 dimensions, facilitant ainsi grandement l'interprétation.

L’Analyse en Composantes Principales, un outil de Data Mining

Il existe plusieurs applications pour l'Analyse en Composantes Principales, parmi lesquelles :

  • L'étude et la visualisation des corrélations entre les variables, afin d'éventuellement limiter le nombre de variables à mesurer par la suite ;
  • L'obtention de facteurs non corrélés qui sont des combinaisons linéaires des variables de départ, afin d'utiliser ces facteurs dans des méthodes de modélisation telles que la régression linéaire, la régression logistique ou l'analyse discriminante ;
  • La visualisation des observations dans un espace à deux ou trois dimensions, afin d'identifier des groupes homogènes d'observations, ou au contraire des observations atypiques.

Options de la fonctionnalité Analyse en Composantes Principales avec XLSTAT

Corrélation ou covariance ?

L'Analyse en Composantes Principales utilise une matrice indiquant le degré de similarité entre les variables pour calculer des matrices permettant la projection des variables dans le nouvel espace. Il est commun d'utiliser comme indice de similarité le coefficient de corrélation de Pearson, ou la covariance. La corrélation de Pearson et la covariance présentent l'avantage de donner des matrices semi-définies positives dont les propriétés sont utilisées en Analyse en Composantes Principales. XLSTAT propose d'utiliser les corrélations polychoriques pour les données ordinales (les corrélations tétrachoriques sont un cas particulier des corrélations polychoriques qui concerne les données binaires).

Classiquement, on utilise un coefficient de corrélation (Pearson) et non la covariance car l'utilisation du coefficient de corrélation permet de supprimer les effets d'échelle : ainsi une variable variant entre 0 et 1 ne pèse pas plus dans la projection qu'une variable variant entre 0 et 1000. Toutefois, dans certains domaines, lorsque les variables sont supposées être sur des échelles identiques, ou lorsque l'on veut que la variance des variables influe sur la construction des facteurs, on utilise la covariance.

Dans le cas où ne serait disponible qu'une matrice de similarité, et non un tableau observations/variables, ou dans le cas où vous voudriez utiliser un autre indice de similarité, vous pouvez réaliser une Analyse en Composantes Principales en partant de la matrice de similarité. Les résultats obtenus ne concernent alors que les variables, aucune information sur les observations n'étant disponible. Remarque : dans le cas où l' Analyse en Composantes Principales est réalisée sur une matrice de corrélation, on parle d'ACP normée.

ACP XLSTAT Onglet Général

Variables et données supplémentaires

XLSTAT permet de rajouter des variables quantitatives ou qualitatives à l’ACP une fois que celle-ci a été construite. Ces variables ou observations sont qualifiées de supplémentaires. Ceci peut être utilisé dans différents contextes. Voici deux exemples :

  • L’utilisateur souhaite visualiser grossièrement la manière dont un groupe de variables est lié à un groupe de variables explicatives. Dans ce cas, les variables à expliquer doivent être utilisées en variables supplémentaires et les variables explicatives pour construire l’ACP.
  • L’utilisateur souhaite visualiser le comportement de différentes catégories d’observations dans l’espace de l’ACP (Mâles vs Femelles par exemple). Dans ce cas, il est judicieux d’utiliser le sexe comme variable supplémentaire qualitative. Il sera ainsi possible de colorer les observations en fonction du sexe, et d’afficher des centroïdes des catégories, ainsi que des ellipses de confiance autour des catégories.

Rotations: Varimax et autres

Des rotations peuvent être appliquées aux facteurs. Plusieurs méthodes sont disponibles, dont Varimax, Quartimax, Equamax, Parsimax, Quartimin and Oblimin et Promax.

Interprétation des résultats d’une Analyse en Composantes Principales

La représentation des variables dans l'espace des k facteurs permet d'interpréter visuellement les corrélations entre les variables d'une part, et entre les variables et les facteurs d'autre part, moyennant certaines précautions.

En effet, qu'il s'agisse de la représentation des observations ou des variables dans l'espace des facteurs, deux points très éloignés dans un espace à k dimensions peuvent apparaître proches dans un espace à 2 dimensions en fonction de la direction utilisée pour la projection.

On peut considérer que la projection d'un point sur un axe, un plan ou un espace à 3 dimensions est fiable si la somme des cosinus carrés sur les axes de représentation n'est pas trop éloignée de 1. Les cosinus carrés sont affichés dans les résultats proposés par XLSTAT afin d'éviter toute mauvaise interprétation.

Si les facteurs doivent être utilisés par la suite avec d'autres méthodes, il est intéressant d'étudier la contribution relative (exprimée en % ou en proportion) des différentes variables à la construction de chacun des axes factoriels, afin de rendre les résultats obtenus ensuite facilement interprétables. Les contributions sont affichées dans les résultats proposés par XLSTAT.

Nombre de facteurs à prendre en compte dans l’Analyse en Composantes Principales

Deux méthodes sont communément utilisées pour déterminer quel nombre de facteurs doit être retenu pour l'interprétation des résultats :

  • Le scree test (Cattell, 1966) est fondé sur la courbe décroissante des valeurs propres. Le nombre de facteurs à retenir correspond au premier point d'inflexion détecté sur la courbe.
  • On peut aussi se fonder sur le pourcentage cumulé de variabilité représenté par les axes factoriels et décider de se contenter d'un certain pourcentage.

Test de sphéricité de Bartlett

Le test de sphéricité de Bartlett proposé par XLSTAT permet de rejeter ou non l'hypothèse nulle selon laquelle els variables ne sont pas corrélées.

Le test de Kaiser-Meyer-Olkin (KMO) est également disponible dans XLSTAT.

Représentations graphiques des résultats de l’Analyse en Composantes Principales

L'un des avantages de l'Analyse en Composantes Principales est qu'elle fournit à la fois une visualisation optimale des variables et des données, et des biplots mélangeant les deux (voir ci-dessous). Néanmoins, ces représentations ne sont fiables que si la somme des pourcentages de variabilité associés aux axes de l'espace de représentation, est suffisamment élevée. Si ce pourcentage est élevé (par exemple 80%), on peut considérer que la représentation est fiable. Si le pourcentage est faible, il est conseillé de faire des représentations sur plusieurs couples d'axes afin de valider l'interprétation faite sur les deux premiers axes factoriels.

Biplots d’une Analyse en Composantes Principales

Suite à une Analyse en Composantes Principales, il est possible de représenter simultanément dans l'espace des facteurs à la fois les observations et les variables. Les premiers travaux sur ce sujet datent de Gabriel (1971). Gower (1996) et Legendre (1998) ont synthétisé les travaux précédents et étendu cette technique de représentation graphique à d'autres méthodes. Le terme biplot est réservé aux représentations simultanées qui respectent le fait que la projection des observations sur les vecteurs variables doit être représentative des données d'entrée pour ces mêmes variables. Autrement dit, les points projetés sur le vecteur variable, doivent respecter l'ordre et les distances relatives des données de départ correspondant à la même variable.

Biplot ACP

La représentation simultanée des observations et des variables ne peut être faite directement en prenant les coordonnées des variables et des observations dans l'espace des facteurs. Une transformation est nécessaire afin de rendre l'interprétation exacte. Trois méthodes sont proposées en fonction du type d'interprétation que l'on souhaite pouvoir faire à partir de la représentation graphique :

  • biplot de corrélation (correlation biplot) : ce type de biplot permet d'interpréter les angles entre les variables car ils sont directement liés aux corrélations entre les variables. La position de deux observations projetées sur un vecteur variable permet de conclure quant à leur niveau relatif sur cette même variable. La distance entre deux observations est une approximation de la distance de Mahalanobis dans l'espace des k facteurs. Enfin, la projection d'un vecteur variable dans l'espace de représentation est une approximation de l'écart-type de la variable (la longueur du vecteur dans l'espace des k facteurs est égale à l'écart-type de la variable).
  • biplot de distance (distance biplot) : un biplot de distance permet d'interpréter les distances entre les observations car elles sont une approximation de leur distance euclidienne dans l'espace des p variables. La position de deux observations projetées sur un vecteur variable permet de conclure quant à leur niveau relatif sur cette même variable. Enfin, la longueur d'un vecteur variable dans l'espace de représentation est représentative du niveau de contribution de la variable à la construction de cet espace (la longueur du vecteur est la racine carrée de la somme des contributions).
  • biplot symétrique (symmetric biplot) : ce biplot proposé par Jobson (1992) est intermédiaire entre les deux biplots précédents. Si ni les angles ni les distances ne peuvent être interprétés, on peut choisir cette représentation car elle est un compromis entre les deux.

XLSTAT vous donne la possibilité de jouer sur la longueur des vecteurs variables afin d'améliorer la lisibilité des graphiques. Néanmoins, si vous utilisez cette option dans le cas d'un biplot de corrélation, la projection d'un vecteur variable n'est plus une approximation de l'écart-type de la variable.

Tutoriel ACP dans XLSTAT

Ce tutoriel vous aidera à configurer et à interpréter une Analyse en Composantes Principales dans Excel avec XLSTAT.