Approche PLS

Qu'est-ce que l'approche PLS ?

L'approche PLS est une méthode statistique permettant de modéliser des relations complexes entre des variables observées et des variables latentes. Ce type de modèles est généralement appelé modèle d'équations structurelles à variables latentes. Depuis quelques années, cette approche est de plus en plus populaire dans des communautés scientifiques très variées (Esposito Vinzi et al., 2008). Les modèles d'équations structurelles (Structural Equation Models) comprennent un grand nombre de méthodologies statistiques (dont l'approche PLS fait partie) qui permettent l'estimation de relation de causalité complexes entre des variables latentes mesurées elles-mêmes par des variables observées dites manifestes.

L'approche PLS dans sa version actuelle a été présentée pour la première fois par Wold en 1979, mais les articles de référence sur cette méthode sont Wold (1982 et 1985).

Dans le cadre des modèles d'équations structurelles, deux méthodes s'opposent : d'une part, la méthode par analyse de la structure de covariance (bien souvent appelée LISREL) développée par Jöreskog (1970) et, d'autre part, l'approche PLS. Herman Wold a toujours opposé la première qui utilisait, selon ses termes, une « modélisation dure » (« hard modeling », hypothèses de distribution fortes, nécessité d'avoir plusieurs centaines d'observations) à la seconde basée sur une « modélisation douce » (« soft modeling », peu d'hypothèses de distribution et un très petit nombre d'observations suffit à son application). Les deux approches ont été comparées dans Jöreskog et Wold (1982).

Du point de vue classique des modèles d'équations structurelles à variables latentes, l'approche PLS est une méthode basée sur des composantes pour laquelle la causalité est formulée en termes d'espérance conditionnelle linéaire. L'approche PLS privilégie la recherche d'une optimalité prédictive des relations plutôt que celle de relation de causalité. Elle est orientée de manière prédictive afin de tester des hypothèses de causalité. Ainsi, plutôt que de valider un modèle en termes de qualité d'ajustement, on utilisera des indices de qualité prédictive que nous présentons par la suite. Pour plus de détails sur ces points, on peut voir deux articles de référence sur le sujet : Chin (1998, plutôt orienté vers les applications) et Tenenhaus et al. (2005, plutôt orienté vers la théorie).

Par ailleurs, l'approche PLS permet d'analyser des tableaux multiples et peut être directement reliée à des méthodes d'analyse de données classiques de ce domaine. En fait, l'approche PLS peut aussi être vue comme une méthode extrêmement flexible dans l'analyse de tableaux multiples grâce à, d'une part, l'approche PLS hiérarchique et, d'autre part, l'approche PLS confirmatoire (Tenenhaus et Hanafi, 2008). Ces approches montrent que les méthodes classiques basées sur les données (« data-driven methods ») peuvent être reliées à des méthodes basées sur la théorie (« theory-driven methods ») telle que les modèles d'équations structurelles). Ceci permet d'intégrer des connaissances sur les relations entre les tableaux dans les analyses.

L'algorithme de l'approche PLS

Un modèle structurel PLS est décrit par deux sous-modèles : (1) le modèle de mesure (ou modèle externe) reliant les variables manifestes (observées) aux variables latentes qui leur sont associées et (2) le modèle structurel (ou modèle interne) reliant des variables latentes dites endogènes à d'autres variables latentes. 

1. Standardisation des variables manifestes

Il existe quatre options afin de standardiser les variables manifestes qui devront être choisies en fonction de certaines conditions sur les données initiales:

  • Condition 1: Les échelles des variables manifestes sont comparables. Par exemple, dans l'exemple du tutoriel basé sur le modèle ECSI, les valeurs prises par les variables manifestes sont toutes entre 0 et 100 et sont donc comparables. D'autre part, on ne pourra pas comparer un poids en tonnes à une vitesse en km/h.
  • Condition 2: Les moyennes des variables manifestes peuvent être interprétées. Par exemple, si la différence entre deux variables manifestes n'est pas analysable, alors les moyennes ne servent à rien.
  • Condition 3: Les variances des variables manifestes traduisent l'importance de celles-ci.

Si la condition 1 n'est pas vérifiée, alors il faut standardiser les variables manifestes (avec moyenne 0 et variance 1).

Si la condition 1 est vérifiée, il peut être intéressant d'utiliser les informations venant des données. Mais l'estimation des paramètres dépend de la vérification des autres conditions :

Les conditions 2 et 3 ne sont pas vérifiées : Les variables manifestes sont standardisées (avec moyenne 0 et variance 1) pour l'estimation des paramètres puis sont remises dans leur échelle originale afin d'obtenir l'estimation finale des poids et des loadings.

La condition 2 est vérifiée mais la condition 3 ne l'est pas : Les variables manifestes ne sont pas centrées mais leurs variances sont standardisées à 1 pour la phase d'estimation des paramètres. Puis les variances des variables manifestes sont remises à leur valeur originale afin d'obtenir l'estimation finale des poids et des loadings.

Les conditions 2 et 3 sont vérifiées : On utilise les variables manifestes originales.

Lohmöller (1989) a introduit un paramètre de standardisation afin de sélectionner l'une de ces quatre options :

Echelle des variables comparableMoyennes interpretablesVariances reliées à l'importance de la variableMoyenneVarianceRemise à l'échelleMETRIC
Non  01Non1
OuiNonNon01Oui2
OuiOuiNonOriginal1Oui3
OuiOuiOuiOriginalOriginal 4

Avec METRIC=1, cas « standardisé, poids sur variables manifestes standardisées », METRIC=2, cas « standardisé, poids sur VM d'origine », METRIC=3, cas « réduit, poids sur VM d'origine », METRIC=4, cas « VM d'origine ».

2. Le modèle de mesure

Une variable latente (VL) ξ est une variable non observable (ou un construit) qui peut être décrit par un ensemble de variables observées xhappelées variables manifestes (VM) ou indicateurs. Il y a trois manières de relier les variables manifestes à leur variable latente appelés respectivement la manière réflective, la manière formative et la manière MIMIC (Multiple effect Indicators for Multiple Causes).

2.1. La manière réflective

2.1.1. Définition

Dans le modèle, chaque variable manifeste est le reflet de la variable latente qui lui est associée. Chaque variable manifeste est reliée à sa variable latente par une simple équation de régression linéaire : 

xh = πh0+ πhξ + εh,

où ξ a pour moyenne m et pour écart-type 1. C'est un schéma réflectif: chaque variable manifeste est le reflet de la variable latente qui lui est associée. La seul hypothèse nécessaire dans le cas de ce modèle est que :

E(xh | ξ) = πh0+ πhξ.

Cette hypothèse implique que le résidu eh a une moyenne de 0 et n'est pas corrélée à la variable latente ξ.

2.1.2. Vérification de l'unidimensionnalité des blocs

Dans le cas d'un modèle réflectif, les blocs de variables manifestes doivent être unidimensionnels au sens de l'analyse factorielle. Sur des données réelles, cette hypothèse doit être vérifiée. Trois outils principaux existent pour la vérifier : l'analyse en composantes principales sur chaque bloc de variables manifestes, l' a de Cronbach et le r de Dillon-Goldstein.

  1. Analyse en composantes principales d'un bloc
    Un bloc est unidimensionnel lorsque la première valeur propre de la matrice de corrélation entre les variables manifestes du bloc est plus grande que 1 et la seconde est plus petite que 1 ou tout du moins beaucoup plus petite que la première. La première composante principale peut être construite de façon à ce qu'elle soit corrélée positivement à l'ensemble des variables manifestes du bloc (du moins à une majorité d'entre elles). On rencontre un problème lorsque les VM sont négativement corrélées à la première composante principale.
  2. L'α  de Cronbach
    L'α  de Cronbach peut être utilise afin de vérifier l'unidimensionnalité d'un bloc de p variables xh lorsqu'elles sont positivement corrélées. Pour des variables standardisées, on l'obtient grâce à :Il se calcule 
    α = p / (p-1) [Ʃh≠h’cor(xh, xh’) / (p + Ʃh≠h’cor(xh, xh’))] 
    L'a de Cronbach peut aussi être défini pour des variables dans leur échelle originale par :
    α = p / (p-1) [Ʃh≠h’cor(xh, xh’) / var(Ʃhxh)] 
    On considère généralement qu'un bloc est unidimensionnel lorsque l'α de Cronbach est plus grand que 0,7.
  3. Le r de Dillon-Goldstein
    Le signe de la corrélation entre chaque VM et leur VL est connu par construction et on suppose qu'il est positif. Dans l'équation (1), cette hypothèse signifie que tous les loadings πh sont positifs. Un bloc est unidimensionnel si tous ces loadings sont grands.
    Le r de Dillon-Goldstein est défini par :
    r = (Ʃh=1..pπh)²Var(ξ) / [(Ʃh=1..pπh)² Var(ξ) + Ʃh=1..pεh]
    Supposons que toutes les VM xh et la VL ξ sont standardisées. Une approximation de la variable latente ξ peut être obtenue en standardisant la première composante principale t1 associée à l'analyse en composantes principales sur le bloc de VM. Alors, ph est estimé par cor(xh, t1) et, en utilisant l'équation (1), Var(εh) est estimé par 1 – cor2(xh, t1). On obtient donc une estimation du r de Dillon-Goldstein : ȓ = (Ʃh=1..pcor(xh,t1))² / [(Ʃh=1..pcor(xh,t1))² / + Ʃh=1..pVar(εh)]

Un bloc est suppose unidimensionnel lorsque le r de Dillon-Goldstein est plus grand que 0,7. Cette statistique constitue un meilleur indicateur que l'a de Cronbach afin de juger de l'unidimensionnalité d'un bloc de VM (Chin, 1998, p.320).

L'approche LPS est un mélange de connaissance a priori et d'analyse de données. Lorsqu'on utilise la manière réflective, la connaissance a priori concerne l'unidimensionnalité des blocs et le signe des loadings. Les données doivent s'ajuster au modèle. Si celles-ci ne s'ajustent pas, il faudra retirer la variable manifeste qui pose problème. Une autre solution réside dans l'utilisation de la manière formative que nous allons décrire par la suite.

2.2. La manière formative

Dans le cas formatif, on suppose que la variable latente ξ est construite à partir de ses propres variables manifestes. La VL est une combinaison linéaire des variables manifestes associées en ajoutant un terme d'erreur :

ξ = Ʃhwhxh + δ

Dans le cas formatif, les blocs de variables peuvent être multidimensionnels. La seule hypothèse imposée est la suivante :

E(ξ|x1...xpi)= Ʃhwhxh

Cette hypothèse implique que le vecteur de résidus δ a une moyenne de 0 et n'est pas corrélé aux VM xh.

2.3. La manière MIMIC

La manière MIMIC est un mélange des manières formatives et réflectives.

La modèle de mesure pour un bloc est le suivant :

xh = πh0+ πhξ + εh, pour h = 1 à p1

et:

ξ = Ʃh=p1+1 whxh + δh

Les p1 premières variables sont réflectives et les (p – p1) dernières sont formatives. L'hypothèse de base utilisée reste la même que plus haut.

3. Le modèle structurel

Cette partie du modèle relie les variables latentes en utilisant des équations linéaires :

ξj = βj0 Ʃi β ji ξi + vj

Une variable latente qui n'est expliquée par aucune autre est appelée exogène. Dans le cas contraire, on l'appelle endogène.

4. L'algorithme d'estimation

4.1. Calcul des scores des variables latentes

Les variables latentes sont estimées en utilisant un algorithme itératif.

4.1.1. Estimation externe yj des variables latentes standardisées (ξj  – mj)

Les variables latentes standardisées (moyenne = 0 et écart-type = 1) sont obtenues par combinaison linéaire des variables manifestes centrées :

yj ∞ ± [Ʃ wjh (xjh - ẋjh)]

où le symbole "∞" indique que le membre de gauche est égal au membre de droite standardisé et le symbole "±" montre qu'il existe une ambigüité sur le signe. On choisit le signe de façon à ce que yj soit positivement corrélé avec le plus de VM xjh possible.

La variable latente standardisée peut s'écrire :

yj = Ʃ ŵjh (xjh - ẋjh)

Les coefficients wjh et ŵjh sont appelés des poids externes.

La moyenne mj est estimé par :

j = Ʃ ŵjh ẋjh

et la variable latente ξj par :

approx(ξj) = Ʃ ŵjh xjh = yh ṁj

Lorsque toutes les variables manifestes ont la même échelle de mesure, il est pratique d'exprimer les scores des variables latentes dans leur échelle d'origine (Fornell (1992)) :

approx(ξj)* = Ʃ ŵjh xjh /  Ʃ ŵjh.

L'équation peut être calculée lorsque tous les poids externes sont positifs. Généralement, on utilise une échelle de 0 à 100 afin de comparer les scores des variables latentes, on écrira :

approx(ξj)0-100 = 100 * (approx(ξj)* - xmin) / (xmax - xmin)

où xmin et xmax sont respectivement le minimum et me maximum de l'échelle de mesure commune à toutes les variables manifestes.

4.1.2. Estimation interne zj des variables latentes standardisées (ξj – mj)

L'estimation interne zj des variables latentes standardisées (ξj – mj) est définie par : 

zj ∞ Ʃj':ξi' is connected with ξi  ejj' yj'

où les poids internes doivent être définis en choisissant un schéma de calcul.

  • Le schéma centroïde :
    Le poids interne ejj' est égal au signe de la corrélation entre l'estimation externe yj de la variable latente et celle yj' à condition que les variables latentes xj et xj' soient reliées.
    Ce schéma est le plus fréquemment utilisé, il a malheureusement un inconvénient : lorsque les corrélations sont très proches de 0, le signe peut changer lors de petites fluctuations. Néanmoins, dans des cas pratiques, ceci pose rarement problème.
    Dans l'algorithme original, l'estimation interne n'est pas standardisée. Nous préférons la standardiser car ceci n'implique pas de changements et permet de simplifier certaines équations.
  • Le schéma factoriel : 
    Le poids interne eji est égal à la corrélation entre yi et yj. Ce schéma a été créé en réponse à l'inconvénient du schéma centroïde.
  • Le schéma structurel :
    Les variables latentes connectées à xj sont divisées en deux groupes : celles qui expliquent xj et celles qui sont expliquées par xj.
    Pour une variable qui explique xj, le poids interne est égal au coefficient de régression de yj dans la régression multiple de yj sur l'ensemble des estimations externes des prédécesseurs de xj. Pour une variable qui est expliquée par xj, le poids interne est égal à la corrélation entre les deux estimations externes associées aux deux variables latentes.

Ces nouveaux schémas n'ont pas une forte influence sur les résultats mais ils constituent des points théoriques importants. En effet, ils permettent de relier l'approche PLS à de nombreuses méthodes d'analyse de tableaux multiples.

4.2. L'algorithme PLS d'estimation des poids

4.2.1. Les modes d'estimation des poids externes wjh

Il y a trios manière classique d'estimer les poids externes : le mode A, le mode B et le mode C.

Mode A :

Dans le mode A, les poids externes wjh sont les coefficients de régression de zj lorsqu'on fait une régression simple de xjh sur l'estimation interne zj de la variable latente ξ:

wjh = cov(xjh, zj),

car zj est standardisée

Mode B :

Dans le mode B, le vecteur wdes poids externes wjh est le vecteur des coefficients de régression associé à la régression multiple de zj sur les variables manifestes centrées (xjh - ẋjh) associées à la même variable latente ξj :

wj = (Xj'Xj)-1Xj'zj,

où Xest une matrice dont les colonnes sont définies par les variables manifestes centres xjh - ẋjh associées à la variable latente ξj.

Le mode A est adapté pour un bloc avec un modèle de mesure réflectif et mode B pour le cas formatif. Le mode A est fréquemment utilisé pour des variables latentes endogènes et le mode B lorsque celles-ci sont exogènes. Ces deux modes peuvent être utilisés simultanément dans le cas MIMIC.

Dans beaucoup de cas pratiques, le mode B est difficile à utiliser. En effet, il peut y a voir de fortes colinéarités à l'intérieur d'un bloc. Dans ce cas, on peut utiliser des régressions PLS à la place des régressions multiples OLS. On peut noter que le mode A revient à prendre la première composante d'une régression PLS et le mode B revient à prendre toutes les composantes de la régression PLS (on arrive ainsi à la régression linéaire multiple OLS). 

Mode centroïde :

wjh = sign(cor(xjh, zj).

Ces poids externes sont ensuite normalisés de façon à ce que la variable latente obtenue ait une variance de 1. Ce mode est associé à un modèle formatif et consiste en un cas particulier du mode B.

D'autres modes sont disponibles dans XLSTAT, le mode PLS avec utilisation de la régression PLS, le mode ACP avec l'utilisation de la première composante principale de l'analyse en composante principale appliquée sur le bloc et le mode MIMIC qui combine les modes A et B.

4.2.2. Estimation des poids

La première étape de l'algorithme PLS consiste en le choix arbitraire d'un vecteur de poids externes initiaux. Ces poids sont standardisés de façon à obtenir une variable latente de variance égale à 1.

Un bon choix pour les poids initiaux est de prendre wjh = sign(cor(xjh, ξh)) ou plus simplement wjh = sign(cor(xjh, ξh)) pour h = 1 et 0 sinon ou encore de prendre les éléments du premier vecteur propre de l'ACP sur chaque bloc.

Ensuite, les étapes d'estimations externes et internes sont répétées avec les modes et schémas prédéfinis jusqu'à convergence (celle-ci est prouvée uniquement pour le cas de deux blocs, au-delà elle n'est que constatée).

Après la dernière étape, le résultat final est atteint pour un poids externe noté ŵjh. On calcule alors la variable latente standardisée yj =  Ʃ ŵjh (xjh- ẋjh) l'estimation de la moyenne ṁj =  Ʃ ŵjh ẋjh de la variable latente ξj, et l'estimation finale du score approx(ξj) =  Ʃ ŵjh xjh = yj + ṁj de ξj. Cette dernière estimation peut être remise à l'échelle d'origine.

L'estimation des variables latentes sont sensibles à l'échelle des variables manifestes dans le cas du mode A, mais pas dans celui du mode B. Dans ce second cas, les estimations externes des variables latentes sont les projections des estimations internes dans l'espace généré par ses variables manifestes. 

4.3. L'estimation des équations structurelles

Les équations structurelles sont estimées en utilisant des régressions linéaires multiples classiques dans lesquelles les variables latentes sont remplacées par leurs scores estimés par l'algorithme PLS. Ce type de régression rencontre des problèmes lorsqu'il existe une certaine colinéarité entre les scores des variables latentes. Dans ce cas, on peut remplacer les régressions classiques par des régressions PLS.