Analyse en Composantes Principales (ACP)
"Analyse en Composantes Principales (ACP)" inclus dans :L'Analyse en Composantes Principales (ACP) est l'une des méthodes d'analyse de données multivariées les plus utilisées. Dès lors que l'on dispose d'un tableau de données quantitatives (continues ou discrètes) dans lequel n observations (des individus, des produits, …) sont décrites par p variables (des descripteurs, attributs, mesures, …), si p est assez élevé, il est impossible d'appréhender la structure des données et la proximité entre les observations en se contentant d'analyser des statistiques descriptives univariées ou même une matrice de corrélation.
Utilisations de l'Analyse en Composantes Principales
Il existe plusieurs applications pour l'Analyse en Composantes Principales, parmi lesquelles :
- l'étude et la visualisation des corrélations entre les variables, afin d'éventuellement limiter le nombre de variables à mesurer par la suite ;
- l'obtention de facteurs non corrélés qui sont des combinaisons linéaires des variables de départ, afin d'utiliser ces facteurs dans des méthodes de modélisation telles que la régression linéaire, la régression logistique ou l'analyse discriminante ;
- la visualisation des observations dans un espace à deux ou trois dimensions, afin d'identifier des groupes homogènes d'observations, ou au contraire des observations atypiques.
Principe de l'Analyse en Composantes Principales
L'Analyse en Composantes Principales peut être considérée comme une méthode de projection qui permet de projeter les observations depuis l'espace à p dimensions des p variables vers un espace à k dimensions (k < p) tel qu'un maximum d'information soit conservée (l'information est ici mesurée au travers de la variance totale du nuage de points) sur les premières dimensions. Si l'information associée aux 2 ou 3 premiers axes représente un pourcentage suffisant de la variabilité totale du nuage de points, on pourra représenter les observations sur un graphique à 2 ou 3 dimensions, facilitant ainsi grandement l'interprétation.
Analyse en Composantes Principales utilisant corrélations ou covariance ?
L'Analyse en Composantes Principales utilise une matrice indiquant le degré de similarité entre les variables pour calculer des matrices permettant la projection des variables dans le nouvel espace. Il est commun d'utiliser comme indice de similarité le coefficient de corrélation de Pearson, ou la covariance. La corrélation de Pearson et la covariance présentent l'avantage de donner des matrices semi-définies positives dont les propriétés sont utilisées en Analyse en Composantes Principales. Néanmoins on peut envisager d'utiliser d'autres indices. XLSTAT propose d'utiliser la corrélation de Spearman et de Kendall ou les corrélations polychoriques pour les données ordinales (les corrélations tétrachoriques sont un cas particulier des corrélations polychoriques qui concerne les données binaires).
Classiquement, on utilise un coefficient de corrélation et non la covariance car l'utilisation du coefficient de corrélation permet de supprimer les effets d'échelle : ainsi une variable variant entre 0 et 1 ne pèse pas plus dans la projection qu'une variable variant entre 0 et 1000. Toutefois, dans certains domaines, lorsque les variables sont supposées être sur des échelles identiques, ou lorsque l'on veut que la variance des variables influe sur la construction des facteurs, on utilise la covariance.
Dans le cas où ne serait disponible qu'une matrice de similarité, et non un tableau observations/variables, ou dans le cas où vous voudriez utiliser un autre indice de similarité, vous pouvez réaliser une Analyse en Composantes Principales en partant de la matrice de similarité. Les résultats obtenus ne concernent alors que les variables, aucune information sur les observations n'étant disponible. Remarque : dans le cas où l' Analyse en Composantes Principales est réalisée sur une matrice de corrélation, on parle d'ACP normée.
Interprétation des résultats d’une Analyse en Composantes Principales
La représentation des variables dans l'espace des k facteurs permet d'interpréter visuellement les corrélations entre les variables d'une part, et entre les variables et les facteurs d'autre part, moyennant certaines précautions.
En effet, qu'il s'agisse de la représentation des observations ou des variables dans l'espace des facteurs, deux points très éloignés dans un espace à k dimensions peuvent apparaître proches dans un espace à 2 dimensions en fonction de la direction utilisée pour la projection.
On peut considérer que la projection d'un point sur un axe, un plan ou un espace à 3 dimensions est fiable si la somme des cosinus carrés sur les axes de représentation n'est pas trop éloignée de 1. Les cosinus carrés sont affichés dans les résultats proposés par XLSTAT afin d'éviter toute mauvaise interprétation.
Si les facteurs doivent être utilisés par la suite avec d'autres méthodes, il est intéressant d'étudier la contribution relative (exprimée en % ou en proportion) des différentes variables à la construction de chacun des axes factoriels, afin de rendre les résultats obtenus ensuite facilement interprétables. Les contributions sont affichées dans les résultats proposés par XLSTAT.
Nombre de facteurs à prendre en compte dans l’Analyse en Composantes Principales
Deux méthodes sont communément utilisées pour déterminer quel nombre de facteurs doit être retenu pour l'interprétation des résultats :
- Le scree test (Cattell, 1966) est fondé sur la courbe décroissante des valeurs propres. Le nombre de facteurs à retenir correspond au premier point d'inflexion détecté sur la courbe.
- On peut aussi se fonder sur le pourcentage cumulé de variabilité représenté par les axes factoriels et décider de se contenter d'un certain pourcentage.
Représentations graphiques des résultats de l’Analyse en Composantes Principales
L'un des avantages de l'Analyse en Composantes Principales est qu'elle fournit à la fois une visualisation optimale des variables et des données, et des biplots mélangeant les deux (voir ci-dessous). Néanmoins, ces représentations ne sont fiables que si la somme des pourcentages de variabilité associés aux axes de l'espace de représentation, est suffisamment élevée. Si ce pourcentage est élevé (par exemple 80%), on peut considérer que la représentation est fiable. Si le pourcentage est faible, il est conseillé de faire des représentations sur plusieurs couples d'axes afin de valider l'interprétation faite sur les deux premiers axes factoriels.
Biplots d’une Analyse en Composantes Principales
Suite à une Analyse en Composantes Principales, il est possible de représenter simultanément dans l'espace des facteurs à la fois les observations et les variables. Les premiers travaux sur ce sujet datent de Gabriel (1971). Gower (1996) et Legendre (1998) ont synthétisé les travaux précédents et étendu cette technique de représentation graphique à d'autres méthodes. Le terme biplot est réservé aux représentations simultanées qui respectent le fait que la projection des observations sur les vecteurs variables doit être représentative des données d'entrée pour ces mêmes variables. Autrement dit, les points projetés sur le vecteur variable, doivent respecter l'ordre et les distances relatives des données de départ correspondant à la même variable.
La représentation simultanée des observations et des variables ne peut être faite directement en prenant les coordonnées des variables et des observations dans l'espace des facteurs. Une transformation est nécessaire afin de rendre l'interprétation exacte. Trois méthodes sont proposées en fonction du type d'interprétation que l'on souhaite pouvoir faire à partir de la représentation graphique :
- biplot de corrélation (correlation biplot) : ce type de biplot permet d'interpréter les angles entre les variables car ils sont directement liés aux corrélations entre les variables. La position de deux observations projetées sur un vecteur variable permet de conclure quant à leur niveau relatif sur cette même variable. La distance entre deux observations est une approximation de la distance de Mahalanobis dans l'espace des k facteurs. Enfin, la projection d'un vecteur variable dans l'espace de représentation est une approximation de l'écart-type de la variable (la longueur du vecteur dans l'espace des k facteurs est égale à l'écart-type de la variable).
- biplot de distance (distance biplot) : un biplot de distance permet d'interpréter les distances entre les observations car elles sont une approximation de leur distance euclidienne dans l'espace des p variables. La position de deux observations projetées sur un vecteur variable permet de conclure quant à leur niveau relatif sur cette même variable. Enfin, la longueur d'un vecteur variable dans l'espace de représentation est représentative du niveau de contribution de la variable à la construction de cet espace (la longueur du vecteur est la racine carrée de la somme des contributions).
- biplot symétrique (symmetric biplot) : ce biplot proposé par Jobson (1992) est intermédiaire entre les deux biplots précédents. Si ni les angles ni les distances ne peuvent être interprétés, on peut choisir cette représentation car elle est un compromis entre les deux.
XLSTAT vous donne la possibilité de jouer sur la longueur des vecteurs variables afin d'améliorer la lisibilité des graphiques. Néanmoins, si vous utilisez cette option dans le cas d'un biplot de corrélation, la projection d'un vecteur variable n'est plus une approximation de l'écart-type de la variable.
Tutoriels
- Analyse en Composantes Principales (ACP) avec XLSTAT
- Sauver et réutiliser les paramètres d'une analyse, exemple d'une analyse en composantes principales
- Automatisation d'une analyse, exemple d'une analyse en composantes principales