PLS パス・モデリング

plspm-composite-reliability.png

PLS パス・モデリングとは?

偏最小2 乗パス・モデリング (PLS-PM) は,観測変数と潜在変数の間の複雑な多変量の関係性(構造方程式モデル)をモデリングするための統計学的アプローチである.近年,このアプローチは,いくつかの科学分野で,ますます一般化する傾向にある(Esposito Vinzi ら, 2007).構造方程式モデルは,複数の統計的手法から構成されていて,潜在する複雑な概念と観測できる数々の指標で測定されたそれぞれをリンクして,理論的因果ネットワークを推定することを可能にする.

潜在変数を持つパス・モデルへの完成されたPLS アプローチの最初の提案は,1979 年にWoldによって発表され,PLS アルゴリズムの主要な文献はWold (1982 および 1985)である.

Herman Wold は,LISREL (Jöreskog, 1970) の"ハード・モデリング" (きつい分布の仮定で,数100件のデータが必要)に対して,PLSの"ソフト・モデリング" (とてもわずかな分布の仮定で,わずかの件数のデータで十分)を提案した.これらの2つの構造方程式へのアプローチは,Jöreskog と Wold (1982)で比較された.

構造方程式モデリングの立場から言うと,PLS-PM は,概念の因果関係が線形条件つき期待値で定式化されるコンポーネント(成分)ベースのアプローチである.PLS-PM は,因果のメカニズムよりもむしろ最適な線形予測関係性を探すので,因果仮説の統計的検定への予測値-関連度指向の発見プロセスの恩恵を与える.構造方程式モデリングへのPLS アプローチに関する2つの重要なレビュー論文は,Chin (1998, よりアプリケーション指向)およびTenenhaus ら (2005, より理論指向)である.

さらに,PLS パス・モデリングは,multiple tableの分析に使用することができ ,それはこの分野で使用されている伝統的なデータ分析手法に直接関係する.実際,PLS-PM は,階層的PLS パス・モデリングと確証的PLS パス・モデリングの両方を用いるmulti-block (または multiple table)分析のとても柔軟なアプローチとしても見なせる (Tenenhaus とHanafi, 2007).このアプローチは,multiple table分析の“データ駆動“様式が,どのように構造方程式モデリングの“理論駆動” 様式の中にどのように融合されて,テーブル間の概念的関係性についての現在の知識を考慮してmulti-blockデータの分析を実行することができるかをはっきりと示す.

PLS パス・モデリング・アルゴリズム

PLS パス・モデリングは,2つのモデルで記述される: (1) 顕在変数とそれらが持つ潜在変数との関係の計量モデル,(2) いくつかの内生潜在変数と他の潜在変数との関係の構造モデル. この計量モデルは外部モデルとも呼ばれ,構造モデルは内部モデルとも呼ばれる.

1. 顕在変数の標準化

顕在変数の標準化の方法は,データにあてはまる3つの条件によって4つの選択がある:

  • 条件 1: 顕在変数の尺度が同等.たとえば,ECSI の事例では,(0 から100の間の)項目値は同等である.一方,たとえば,トンでの重量,km/hでの速度などは同等ではない.
  • 条件 2: 顕在変数の意味が解釈可能.たとえば,2つの顕在変数の差が解釈可能でない場合, その位置パラメータには意味がない.
  • 条件 3: 顕在変数の分散が,それらの重要性を反映する.

条件1 があてはまらない場合:顕在変数は(平均を0,分散を1として)標準化されなければならない.

条件1 があてはまる場合:生データに基づいて結果を得るのが好都合である.しかし,モデル・パラメータの計算は,他の条件の妥当性に基づく:

条件 2 と 3 にあてはまらない場合:パラメータ推定の段階では,顕在変数は(平均を0,分散を1として)標準化される.そして,重みと負荷量の最終的な表現では,顕在変数は,それらのもともとの平均と分散に再尺度化される.

条件 2 にあてはまり,条件3にはあてはまらない場合:顕在変数は,パラメータ推定の段階では,中心化しないでユニタリ(単位)分散に標準化される.そして,重みと負荷量の最終的な表現では,(あとで定義するように)顕在変数はそれらのもともとの分散に再尺度化される..

条件 2 と3 にあてはまる場合:もともとの変数を使用.

Lohmöller (1989) は,これらの4つのオプションの1つを選択するパラメータ標準化を導入した:

変数の尺度が比較可能平均が解釈可能分散が変数の重要度に関係平均分散再尺度化メトリック
No  01No1
YesNoNo01Yes2
YesYesNoOriginal1Yes3
YesYesYesOriginalOriginal 4

METRIC=1 は“標準化,標準化MVでの重み”,METRIC=2 は “標準化,生MVでの重み”, METRIC=3は“低減,生MVでの重み” ,METRIC=4 は“生MV”.

2. 計量モデル

潜在変数 (LV)ξ は,顕在変数(MV)または指標(indicators)と呼ばれる観測可能変数 xh のブロックによって間接的に記述される非観測変数(または構成概念)である.顕在変数とそれらの潜在変数を関係づけるには3つの方法があり,それぞれ,reflective (反映)法,formative(形成)法,MIMIC (Multiple effect Indicators for Multiple Causes) 法と呼ばれる.

2.1. reflective 法

2.1.1. 定義

このモデルでは,各顕在変数はその潜在変数を反映する.各顕在変数は,単回帰によって,その潜在変数と関係づけられている:

xh = πh0+ πhξ + εh,

ここで   ξ  は平均 m と標準偏差1を持つ.反映スキームは:各顕在変数xh がその潜在変数ξ.を反映する.モデル (1) での仮説のみを,H. Wold は予測仕様条件(predictor specification condition)と呼ぶ:

E(xh | ξ) = πh0+ πhξ.

この仮説は,残差εhがゼロ平均を持ち,潜在変数 ξ.と相関しないことを含意する..

2.1.2. 一次元性の確認

reflective法では,顕在変数のブロックが,因子分析の意味合いで一次元です.実データでは,この条件を確認しなければならない.ブロックの一次元性の確認には,3つの主要なツールがある.顕在変数の各ブロックの主成分分析の利用,Cronbachのa ,Dillon-Goldsteinのρである..

  1. ブロックの主成分分析
    ブロックMVの相関行列の第1固有値が1より大きく第2固有値が1より小さいか,または少なくとも第1固有値よりもずっと離れているなら,ブロックは本質的に一次元である.第1主成分は,すべての(または少なくとも主要な)MVと正に相関しているように構築される.第1主成分と負に相関するMVの問題がある.
  2. Cronbachのα 
    Cronbachの α は,p 個の変数 xh がすべて正に相関する場合,そのブロックの一次元性を確認するために使用する.Cronbachは,変数の標準化のために下記の手順を提案した:
    α = p / (p-1) [Ʃh≠h’cor(xh, xh’) / (p + Ʃh≠h’cor(xh, xh’))]
    Cronbachのアルファは,もとの変数についても次のように定義される:
    α = p / (p-1) [Ʃh≠h’cor(xh, xh’) / var(Ʃhxh)]
    Cronbachのアルファが' 0.7よりも大きければ,ブロックは一次元と見なされる.
  3. Dillon-Goldsteinのρ
    各 MV xh とその LV ξ の間の符号が,その項目の構築によって知られており,正であると仮定する.式 (1) で,この仮説は,すべての負荷量  πh が正であることを意味する.これらのすべての負荷量が大きければ,ブロックは一次元である.
    Goldstein-Dillonのρは次式で定義される:
    r = (Ʃh=1..pπh)²Var(ξ) / [(Ʃh=1..pπh)² Var(ξ) + Ʃh=1..pεh]
    今,すべての顕在変数 xh と潜在変数  ξが標準化されていると仮定しよう.潜在変数  ξの近似がブロックMVの第1主成分t1 の標準化によって得られる.そして, πh がcor(xh, t1) および式 (1)を用いて推定され,Var(εh) が1 – cor2(xh, t1)により推定される.したがって,我々は,Dillon-Goldsteinのρの推定値を得る::
    ȓ = (Ʃh=1..pcor(xh,t1))² / [(Ʃh=1..pcor(xh,t1))² / + Ʃh=1..pVar(εh)]

PLS パス・モデリングは,先験的知識とデータ分析の混合である.Reflective法では,先験的知識は,ブロックの一次元性や負荷量の符号に関係する.データがこのモデルに適合しなければならない.もしそうでなければ,モデルから外れているいくつかの顕在変数を取り除いて修正することができる.他の解決法は,モデルを変更して,次に説明するformative(形成) 法を使用することである.

2.2. formative 法

formative 法では,潜在変数 ξがそれの持つ顕在変数によって生成されることを仮定する.潜在変数 ξ は,その顕在変数の線形関数プラス残差項である:

ξ = Ʃhwhxh + δ

formative モデルでは,顕在変数のブロックは多次元であってもよい.予測仕様条件は,次式にあてはまることを仮定する:

E(ξ|x1...xpi)= Ʃhwhxh

この仮説は,残差ベクトル δ がゼロ平均を持ち,MV  xhと相関しないことを含意する.

2.3. MIMIC 法

MIMIC 法は,reflective法とformative 法の混合である.

ブロックの計量モデルは,次式のとおりである:

xh = πh0+ πhξ + εh, ただし h = 1 から p1

ここで,潜在変数は次式で定義される:

ξ = Ʃh=p1+1 whxh + δh

最初のp1個の顕在変数はreflective 法に従い,最後の (p – p1) 個はformative 法に従う.予測仕様仮説はまだあてはまり,残差では前と同じ結果を導く.

3. 構造モデル

因果モデルは,潜在変数間の1次方程式を導く(構造または内部モデル):

ξj = βj0 Ʃi β ji ξi + vj

予測仕様仮説はまだ適用できる.

従属変数として出現することのない潜在変数は,外生変数と呼ばれる.それ以外は,内生変数と呼ばれる. 

4. 推定アルゴリズム

4.1. 潜在変数の推定

潜在変数 ξj は,下記に手順によって推定される.

4.1.1. 標準化潜在変数(ξj  – mj)の外部推定 yj 

標準化された潜在変数 (平均 = 0 で標準偏差 = 1) が.それらの中心化された顕在変数の一次結合として推定される:

yj ∞ ± [Ʃ wjh (xjh - ẋjh)]

ここで,記号 “∞ ” は,左側の変数が標準化された右側の変数を表し,“±” の符号は,符号のあいまいさを示す.このあいまいさは,yjxjhの大部分に正に相関するように符号を選択することによって解決される.

標準化潜在変数は,最終的に,次式で書かれる:

yj = Ʃ ŵjh (xjh - ẋjh)

係数wjh と ŵjh は,両方とも外部重みと呼ばれる.

平均 mj は次式で推定される:

j = Ʃ ŵjh ẋjh

そして,潜在変数 ξj は

approx(ξj) = Ʃ ŵjh xjh = yh ṁj

すべての顕在変数が,同じ測定尺度で観察される場合,潜在変数の推定値をもとの尺度で表現する(Fornell (1992))のがよい:

approx(ξj)* = Ʃ ŵjh xjh /  Ʃ ŵjh.

この式は,すべての外部重みが正である場合に適している.最終的に,ほとんどの実際の適用では,潜在変数の推定は,個々の得点を比較するための参照尺度を持つために,0-100 尺度であることが要求される.式 (16)から,i番目の観測ケースについて,これは次の変換式によって簡単に得られる:

approx(ξj)0-100 = 100 * (approx(ξj)* - xmin) / (xmax - xmin)

ここで xmin と xmax は,それぞれ,すべての顕在変数に共通する測定尺度の最小値と最大値である.

4.1.2. 標準化潜在変数 (ξj – mj)の内部推定zj

標準化された潜在変数 (ξj – mj) の内部推定値zj は,次式で定義される:

zj ∞ Ʃj':ξi' is connected with ξi  ejj' yj'

ここで,内部重み ejj’ は,yj およびyj と接続された yj’の間の相関と符号が等しい.2つの潜在変数の間にリンクが存在すれば,それらは接続される.アロー・ダイアグラムの中で,1つの変数から出て他の変数に行く矢印が,因果モデルを説明している.この内部重みの選択は,セントロイド(重心)スキームと呼ばれる:

  • セントロイド・スキーム:
    この選択は,相関の符号が非常に小さな揺れで変化して,相関が近似的にゼロである場合,欠点を示す.しかし,これは実際の応用では問題なさそうである.
    オリジナルのアルゴリズムでは,内部推定は,式(18) の右側の項であり,そこには標準化がない.標準化は,潜在変数の最終の内部推定について何も変更せず,方程式の記述を単純化する場合があるので,我々は標準化することを優先する.
    内部重みの選択について,他に2つのスキームがある.要因スキームとパス重みづけ(または構造)スキームである.これらの2つは,以下のように定義される:
  • 要因スキーム:
    内部重みeji は,yiyjの間の相関に等しい.これは上記のセントロイド・スキームの欠点に対する解答である.
  • パス重みづけスキーム(構造):
    xj に接続されている潜在変数が,2つのグループに分割される:xjを説明する潜在変数であるxj の先行者と,xjによって説明される潜在変数である追従者.
    潜在変数xj の先行者 xj’ では,内部重み ejj’ は,xjの先行者に関係するすべてのyj’ でのyj の多重回帰でのyj’ の回帰係数に等しい. xj’xj の後継者であるなら,内部重み ejj’ は,yj’yjの間の相関に等しい.

.これらの新しいスキームは,結果に有意に影響しないが,理論的理由でとても重要である.実際,それらはPLS パス・モデリングを通常のmultiple table (複数表)分析手法に関係づけることを可能にする.

4.2. 重みの推定のためのPLS アルゴリズ

4.2.1. 重みwjhの推定モード

重み wjh を推定する3つの伝統的な方法がある :モード A, モード B, モード C .

モード A:

モード A では,重み wjh は,内部推定 zj上のxjh の単回帰でのzj の回帰係数である:

wjh = cov(xjh, zj),

 zj は標準化されている.

モード B:

モード B では,重み wjh のベクトルwj は,同じ潜在変数 ξj に関係する顕在中心化変数  (xjh - ẋjh) 上のzj の重回帰における回帰係数ベクトルである:

wj = (Xj'Xj)-1Xj'zj,

ここで Xj は, j番目の潜在変数 ξj に関係する中心化顕在変数 xjh - ẋjh によって定義された列を持つ行列である.

モードA はreflective 計量モデルによるブロックに, モード B は formative の方に適している.モード Aはよく内生潜在変数に, モード B は外生潜在変数に使用される.計量モデルがMIMIC 法の場合,モード A と B は同時に使用できる.モード A は,モデルの reflective 部に,モード B はformative 部に使用される.

実用の場面では,しばしば各ブロックの内部に強い多重共線性があるので,モード B はあまり簡単には使えない.このような場合,OLS重回帰の代わりに PLS 回帰を使用できる. 実際のところ,モード A は,本質的にPLS 回帰の第1成分であり,モードB はすべての PLS 回帰成分(したがって,OLS 多重回帰と合致する)をとる.したがって,PLS 回帰を実行して,ある数の有意な成分を保持すると, モデルA とモデル Bの間の新しい中間モードとなる.

モード C (centroid):

モード C では,重みはすべて絶対値が等しく,顕在変数とそれらの潜在変数の間の相関の符号が反映される:

wjh = sign(cor(xjh, zj)).

これらの重みは,結果の潜在変数が単位分散を持つように正規化される.モード C は,実のところ,顕在変数からそれらの潜在変数へのリンクのformative 法に帰するもので,実践者にとても直感的な理解を提供するモード B の特別なケースを意味する.

4.2.2. 重みの推定

PLS アルゴリズムのステップは,重みwjhの任意のベクトルで開始される.これらの重みは,単位分散を持つ潜在変数を得る目的で標準化される.

重みの初期値の良い選択は,wjh = sign(cor(xjh, xh)) ,または,より単純に,wjh = sign(cor(xjh, xh)) をとることであり,ただし h = 1 および 0 ,さもなければ,各ブロックのPCAからの第1固有ベクトルの要素であり得る.

そして,モードの選択によって外部および内部推定のステップが,収束するまで繰り返される(収束は2ブロックの場合にのみ保証されるが,実用上は,2つ以上のブロックに出くわすことがよくある).

最後のステップの後,内部重み ,標準化潜在変数yj =  Ʃ ŵjh (xjh- ẋjh)  ,潜在変数 ξjの推定平均値 ṁj =  Ʃ ŵjh ẋjh  , ξj の最終の推定値 (ξj) =  Ʃ ŵjh xjh = yj + ṁj  についての最終結果が産出される.後者の推定値は, (16) と (17) の変換によって再尺度化することができる.

潜在変数の推定値は,モードA での顕在変数の尺度に敏感であるが,モードB ではそうではない.後者の場合,外部 LV の推定値は,その顕在変数によって生成される空間での内部 LV 推定値の射影である.

4.3. 構造方程式の推定

構造方程式  は,潜在変数  ξj がそれらの推定値( ξj)  に置き換えられる個々の OLS 重回帰によって推定される.通常と同様,OLS 重回帰の使用は,推定された潜在変数間の強い多重共線性の存在によって邪魔されるかもしれない.そのような場合,代わりに PLS 回帰が適用できる.

ternary diagramneural network diagram

Excelで動作する統計解析ソフトウェア。

14日間無償トライアルあり。