Analyse Canonique des Corrélations

canonical-correlation-analysis-correlations-and-redundancy.png

Principe de l’analyse canonique des corrélations

L'analyse canonique des corrélations (CCorA, aussi dénommée analyse des corrélations canoniques) est l'une des méthodes permettant d'étudier les relations entre deux tableaux de données. Elle permet d'étudier la corrélation entre deux tableaux de données et pour extraire de ces tableaux un ensemble de variables canoniques telles que ces dernières soient le plus corrélées possible avec les deux tableaux et orthogonales entre elles.

Découverte par Hotelling (1936) cette méthode a été très utilisée en écologie mais elle est depuis supplantée par la RDA (Analyse de Redondance) et par l'ACC (Analyse Canonique des Correspondances).

Contrainte pour l’analyse canonique des corrélations

Contrairement à la RDA, cette méthode est symétrique et n'a donc pas pour but de créer des facteurs susceptibles de prédire les variables d'un tableau Y à partir des variables d'un tableau X. Etant donnés deux tableaux Y1 et Y2, l’analyse canonique des corrélations a pour but d'obtenir des vecteurs a(i) et b(i) tels que :

ρ(i) = cor[Y1a(i),Y2b(i)] = cov(Y1a(i) Y2b(i)) / [var(Y1a(i)).var(Y2b(i))]

soit maximisé. Des contraintes doivent être introduites afin que la solution pour a(i) et b(i) soit unique. Comme on cherche finalement à maximiser la covariance entre Y1a(i) et Y2b(i)) et à minimiser leur variance respective, il est possible d'obtenir des composantes bien corrélées entre elles, mais finalement peu représentatives des tableaux Y1 et Y2. Une fois la solution obtenue pour i=1, on cherche la solution pour i=2 où a(2) et b(2) doivent être respectivement orthogonaux à a(1) et b(2), et ainsi de suite. Le nombre de vecteurs que l'on peut obtenir est au maximum égal à min(p, q) où p est le nombre de variables de Y1 et q le nombre de variables de Y2.

Note : L'analyse inter-batteries de Tucker (1958) est une alternative où l'on cherche à maximiser uniquement la covariance entre les composantes Y1a(i) et Y2b(i)).

Résultats pour l’analyse canonique des corrélations dans XLSTAT

XLSTAT propose de nombreux résultats pour l’analyse canonique des corrélations, dont les suivant :

  • Matrice de similarité : la matrice utilisée pour les calculs et correspondant au choix fait dans la boîte de dialogue dans l'onglet « Options » est affichée.
  • Valeurs propres et pourcentages d'inertie : dans ce tableau sont affichés les valeurs propres, l'inertie associée, et les pourcentages de variabilité associés à chacune des variables canoniques. Remarque : dans d'autres logiciels, les valeurs propres fournies sont égales à L / (1-L), où L est la valeur propre fournie par XLSTAT.
  • Test du Lambda de Wilks : le test du Lambda de Wilks permet de déterminer si les deux tableaux Y1 et Y2 sont significativement liés à chacune des variables canoniques.
  • Corrélations canoniques : les corrélations canoniques, comprises entre 0 et 1, sont d'autant plus élevées que la corrélation entre Y1 et Y2 est élevée. Elles n'indiquent cependant pas à quel point les variables canoniques sont représentatives ou non de Y1 et Y2. Le carré d'une corrélation canonique est égal aux valeurs propres, et correspond donc au pourcentage de variabilité représenté par la variable canonique en question.

Les résultats ci-dessous sont calculés séparément pour chacun des deux groupes de variables initiales.

  • Coefficients de redondance : ces coefficients permettent pour chacun des deux tableaux de mesurer quel proportion de la variabilité des variables initiales est prédite par chacune des variables canoniques.
  • Coefficients canoniques : ces coefficients (en anglais Canonical weights, ou Canonical function coefficients ou Canonical coefficients) indiquent comment sont construites les variables canoniques, puisqu'ils correspondent aux coefficients de la combinaison linéaire qui permet de construire les variables canoniques à partir des variables initiales. Ils sont standardisés si les variables initiales sont centrées réduites. Dans ce cas, les poids relatifs des variables peuvent être comparés.
  • Les corrélations entre les variables initiales et les variables canoniques (appelées en anglais parfois Structure correlation coefficients, ou Canonical factor loadings). Elles permettent d'interpréter les variables canoniques.
  • Coefficients d'adéquation des variables canoniques : ces coefficients correspondent pour une variable canonique à la somme quadratique des corrélations entre variables initiales et variables canoniques, divisée par le nombre de variables initiales. Ils donnent le pourcentage de variabilité pris en compte par la variable canonique en question.
  • Cosinus carrés : les cosinus carrés des variables initiales dans l'espace des variables canoniques (qui correspondent aux carrés des corrélations entre variables initiales et variables canoniques), permettent de savoir si une variable initiale est bien représentée ou non dans l'espace des variables canoniques. La somme des cosinus carrés pour une variable initiale donnée est égale à 1 pour l'ensemble des variables canoniques. Lorsque l'on calcule cette somme pour un nombre réduit d'axes on parle de communalité (comme en analyse factorielle des variables latentes).
  • Scores : les scores correspondent aux coordonnées des observations dans l'espace des variables canoniques.
ternary diagramneural network diagram

analysez vos données avec xlstat

essayez gratuitement pendant 14 jours