Comment faire une Analyse Canonique des Correspondances (ACC) avec XLSTAT-ADA?

L’Analyse Canonique des Correspondances ou ACC (Canonical Correspondence Analysis ou CCA en anglais) a été développée dans le but de permettre aux écologues de relier les abondances d’espèces à des variables environnementales (Ter Braak, 1986). Cependant on peut envisager d’utiliser cette méthode dans d’autres domaines comme le géomarketing.

Pour pouvoir utiliser une ACC il est nécessaire de disposer,
- d’un tableau de contingence X qui contient les effectifs ou les fréquences d’une série d’objets (en écologie, des espèces) mesurés en plusieurs sites,
- un tableau Y de variables descriptives mesurées en ces mêmes sites
- optionnellement un tableau Z qui contient des variables descriptives dont on veut retirer l’effet avant d’expliquer la variabilité de X en utilisant Y. Dans ce cas on parle d’ACC partielle.

A partir de ces tableaux, le but de la méthode est de produire une représentation graphique où sont à la fois affichés, les objets, les sites, et les variables.

Une feuille Excel contenant à la fois les données et les résultats peut-être téléchargée en cliquant ici. Les données correspondent aux comptages en 12 différents sites de 10 espèces d’insectes dans une région tropicale. Un second tableau (affiché en rouge) comprend 3 variables quantitatives décrivant les 12 sites (altitude, humidité, et distance au lac).

Notre but est de déterminer si les trois variables descriptives peuvent aider à expliquer les comptages observes pour les différentes espèces d’insectes.

Pour activer la boîte de dialogue de l’ACC, lancez XLSTAT, puis cliquez sur la commande XLSTAT-ADA/ACC du menu XLSTAT, ou cliquez sur le bouton correspondant de la barre d’outils XLSTAT-ADA (voir ci-dessous).

barccaf.gif

Une fois que vous avez cliqué sur le bouton, la boîte de dialogue apparaît. Sélectionnez les données sites/espèces (ici les objets correspondent aux espèces), puis les données sites/variables (affichées en rouge dans la feuille Excel). Les libellés des sites sont aussi sélectionnés, et l’option « libellés des colonnes est laissée activée car la première ligne comprend les noms des variables ou des espèces.

cca1f.gif

Dans l’onglet “Options”, l’option “Test de permutation” est active afin de nous permettre de tester si l’effet des trois variables sur les effectifs observés est significatif ou non. 1000 permutations seront effectuées.

Sur les deux images suivantes, vous pouvez voir quelles options ont été activées dans les onglets “Sorties” et “Graphiques”.

cca2f.gif

cca3f.gif

Les calculs commencent lorsque vous cliquez sur le bouton "OK", puis les résultats sont affichés dans une nouvelle feuille du classeur. Les premiers résultats affichés correspondent aux statistiques descriptives des différentes variables. Les profils des lignes et des colonnes du tableau de contingence sont ensuite affichés. Les "moyennes pondérées" correspondent aux moyennes des variables du second tableau, pondérées par les sommes marginales des lignes du tableau de contingence.

Sont ensuite affichés les résultats du test de permutation.

cca5f.gif

cca6f.gif

Le test permet de conclure que les données sites/espèces ne sont pas liées linéairement aux données sites/variables avec niveau de signification de 5%. On remarque que la p-value est très proche du niveau de signification choisi (0.089 au lieu de 0.05). La conclusion n’est donc pas aussi tranchée. De plus, il serait intéressant de déterminer si cela est le cas pour toutes les variables, ou si certaines sont plus performantes que d’autres.

Le tableau suivant montre comment l’inertie est répartie entre l’ACC contrainte (la partie de l’analyse impliquant les variables explicatives) et l’ACC non-contrainte (l’ACC non-contrainte est l’analyse factorielle des correspondances des résidus de l’ACC contrainte).

cca7f.gif

Le tableau suivant permet de voir comment est répartie l’inertie entre l’ACC contrainte et l’ACC non contrainte. Nous voyons qu’ici l’ACC contrainte correspond à 40% de l’inertie totale. Cela confirme que les variables explicatives n’expliquent qu’une faible partie de la variabilité à l’intérieur du tableau de contingence. Une analyse de la partie non contrainte aurait donc du sens, mais elle n’est pas exposée ici. Par ailleurs, les résultats de la partie contrainte (dont le titre est « Résultats de l’ACC » pour simplifier) doivent être interprétés avec prudence.

L’analyse des valeurs propres de l’ACC permet de voir que la majeure partie de l’inertie est représentée par le premier axe. Avec le second axe, on obtient 92.5% de l’inertie. Cela signifie que la représentation de l’ACC en deux dimensions est suffisante pour analyser les relations entre les sites, les espèces et les variables.

cca8f.gif

La représentation graphique de l’ACC (voir ci-dessous) permet de visualiser simultanément les objets (dans notre cas les insectes), les sites, et les variables.

cca9f.gif

On peut voir sur ce graphique que pour les espèces Insect4 et Insect5 les effectifs élevés sont associés à un taux d’humidité élevé et une faible altitude. L’espèce Insect7 semble plus sensible à la distance au lac. L’espèce Insect9 semble préférer une altitude élevée, et plus encore une humidité plus faible.

Remarque : si vous souhaitez changer le libellé “Objets” en “Espèces” sur le graphique de l’ACC, il vous suffit de cliquer sur l’un des points de la série correspondante, puis de changer « Objets » en « Espèces » dans la barre de formule d’Excel.

cca10f.gif

Cliquez ici pour accéder à d'autres tutoriels.