Analyse en Coordonnées Principales

Principe de l'Analyse en Coordonnées Principales

L'analyse en coordonnees principales (en anglais, Principal Coordinate Analysis ou PCoA) a pour but de representer graphiquement une matrice de ressemblance entre p elements (individus, variables, objets, etc.).

Si la matrice en entree est une matrice de similarite, XLSTAT la transformera en une matrice de dissimilarite avant de faire les calculs proposes par Gower (1966) avec d'eventuelles modifications proposes par divers auteurs dont on trouve la synthese dans le livre Numerical Ecology de Legendre et Legendre (1998).

Principe de l'Analyse en Coordonnées Principales

Soit D la matrice p x p symetrique contenant les distances entre p elements : on calcule alors une matrice A dont les elements a(ij) correspondant a la ieme ligne et a la jeme colonne sont definis par :

a(ij) = d²(ij) / 2

On centre alors la matrice A par ligne et par colonne pour obtenir la matrice ∆1 dont les elements ∂1(ij) sont donnes par :

∂1(ij) =­ a(ij) - ā(i) - ā( j) - ā

ou ā(i) est la moyenne des a(ij) pour la ligne i, ā( j) est la moyenne des a(ij) pour la colonne j et ā est la moyenne de tous les elements.

On calcule alors la decomposition en valeurs propres de la matrice ∆1. 

Les vecteurs propres sont tries par ordre decroissant de valeurs propres, et transformes de telle sorte que, si u(k) est le vecteur propre associe a la valeur propre λ(k), on ait :

u'(k)u(k) =­ λ(k)

Les vecteurs propres ainsi transformes sont les coordonnees principales, qui peuvent alors etre directement utilises pour representer les p objets dans un espace a 1, 2, ... p-1 dimensions.

Comme avec l'ACP (Analyse en Composantes Principales) les valeurs propres peuvent etre interpretees en terme de pourcentage de variabilite represente.

Remarque : parce que la matrice ∆1 est centree, on obtient au plus p-1 valeurs propres non nulles. Dans le cas ou la matrice de depart D est une matrice euclidienne, on comprend aisement que p-1 axes suffiront toujours a decrire p objets (par deux points passe une ligne, trois points sont toujours contenus dans un plan, etc.). Dans le cas ou des points sont confondus dans un sous-espace, on peut obtenir plusieurs valeurs propres nulles (par exemple, trois points peuvent etre alignes sur une meme ligne).

Cas de valeurs propres negatives

Lorsque la matrice D n'est pas une matrice de distances metriques (cas de distances semimetriques ou non metriques par exemple), ou si des valeurs manquantes etaient presentes dans les donnees ayant ete utilisees pour calculer les distances, la decomposition en valeurs propres peut engendrer les valeurs propres negatives. Ce probleme est decrit en detail dans l'article de Gower et Legendre (1986).

XLSTAT propose deux transformations pour remedier au probleme des valeurs propres. La premiere consiste simplement a prendre la racine carree des elements de la matrice D. La seconde, inspiree de Lingoes (1971), consiste a ajouter une constante a la matrice D (sauf la diagonale qui reste nulle), telle qu'il n'y ait plus de valeurs propres negatives. Cette constante est egale a la valeur propre negative la plus elevee en valeur absolue.

Lorsqu'il y des valeurs propres negatives, la representativite des axes est calculee en appliquant la modification proposee par Caillez et Pages (1976).

Analyse en Composantes Principales, Multidimensional scaling et Analyse en Coordonnées Principales

L'ACP et la PCoA sont assez proches en ce sens que l'ACP permet aussi de representer des individus dans un espace de faible dimension avec des axes optimaux en terme de variabilite representee. La PCoA appliquee a la matrice des distances euclidiennes entre les individus

(calculee apres normalisation des colonnes avec l'ecart-type non biaise) aboutit au meme resultat que l'ACP normee appliquee aux donnees brutes. Les valeurs propres issues de la PCoA sont egales a (p-1) fois celles obtenues a partir de l'ACP.

La PCoA est une methode dont le but est identique a celui du MDS (Multidimensional Scaling), a savoir representer des objets pour lesquels on dispose d'une matrice de proximite.

Le MDS presente deux desavantages par rapport a la PCoA :

  • l'algorithme est beaucoup plus complexe et plus lent ;
  • les axes issus du MDS ne sont pas interpretables en terme de variabilite portee.

Le MDS presente deux avantages par rapport a la PCoA :

  • l'algorithme s'accommode de donnees manquantes dans la matrice de proximite.
  • la version non-metrique du MDS permet de traiter, sans que cela ne pose de probleme theorique, des cas de matrices de proximite ou seul l'ordre compte.