正準相関分析(CCorA:Canonical Correlation Analysis )

正準相関分析の起源と目的

正準相関分析(Canonical Correlation Analysis:CCorA,ときどきCCAと略されることがあるが,我々は CCA を 正準コレスポンデンス分析(Canonical Correspondence Analysis)の略として使用する)は,2つの変数の集合の間の関係性を調査できるたくさんの統計手法の中の1つである.これは,変数の2つの集合間の相関を調査し,両方の表にできるだけ相関していて,お互いが直交している正準変数の集合をこれらの表から抽出する.

Hotelling (1936)によって発見されたこの手法は,生態学でよく使用されるが,冗長性分析(RDA :Redundancy Analysis)や正準コレスポンデンス分析(CCA:Canonical Correspondence Analysis)に取って代わられてきた.

正準相関分析の原理

この手法は対称的で,RDAとは異なり予測向きではない.  Y1とY2  をそれぞれp 個とq 個の変数を持つ表とする.正準相関分析は,

ρ(i) = cor[Y1a(i),Y2b(i)] = cov(Y1a(i) Y2b(i)) / [var(Y1a(i)).var(Y2b(i))]

を最大化する2つのベクトルa(i)  とb(i) を得ることを目的とする.a(i) と b(i) の解が一意であるように制約を導入する. 我々は,結局, Y1a(i) と Y2b(i) の間の共分散を最大化しようとし,それらのそれぞれの分散を最小化しょうとしているので,お互いによく相関するが,Y1 と  Y2をあまりよく説明しない成分を得るかもしれない. i=1での解を得ると,我々は i=2 での解を探す.ここで a(2) とb(2) は,それぞれ a(1) とb(2)に直交でなければならない.抽出できるベクトルの数は,最大限でmin(p, q)に等しい.

注意: Tucker (1958)のinter-batteries分析は,Y1a(i)と Y2b(i)成分の間の共分散を最大化したい場合の代替である.

XLSTATでの正準相関分析の結果

  • 類似度行列: ダイアログ・ボックスで選んだ “分析のタイプ”に対応する行列が表示される.
  • 固有値およびイナーシャのパーセンテージ: この表では,固有値,対応するイナーシャ,および対応するパーセンテージが表示される.注意: いくつかのソフトウェアでは,表示される固有値が L / (1-L)に等しい場合がある.ここで L はXLSTATによって与えられる固有値.
  • Wilksのラムダ検定: この検定は,2つの表 Y1 と Y2 が各正準変数に有意に関係しているかどうかを決定することができる.
  • 正準相関: 0 から 1で境界される正準相関は,Y1 と Y2 の間の相関が高いときにより高くなります.ただし,それらは正準変数がどの程度Y1とY2に関係しているかは示していない.正準相関の2乗は固有値に等しく,そして,実際のところ,正準変数が負う変動のパーセンテージに対応する.

以下に一覧される結果は,入力変数の2つのグループで別々に計算される.

  • 冗長度係数: これらの係数は,入力変数の各集合について,入力変数の変動のどれだけの割合が正準変数によって予測されているかを測定できる.

  • 正準係数: これらの係数(正準荷重,または正準関数係数ともいう)は,入力変数から正準変数を生成する線形結合での係数に対応するので,正準変数がどのように構築されたかを示す.入力変数が標準化された場合は,それらは標準化されている.その場合,入力変数の相対重みが比較できる.

  • 入力変数と正準変数の間の相関構造相関係数または正準因子負荷量ともいう)は,正準変数がどのように入力変数に関係しているかを理解することができる.

  • 正準変数適合度係数は,任意の正準変数での,入力変数と正準変数の間の2乗相関の合計を入力変数の数で割ったものに対応する.それらは,問題の正準変数によって考慮に入れられる変動のパーセンテージを与える.

  • cos2: 正準変数の空間での入力変数の平方余弦は,入力変数が正準変数の空間でよく表現されているかどうかを知ることを可能にする.任意の入力変数の平方余弦の和は1になります.削減された数の正準軸での合計は,共通性(communality)を与える.

  • 正準得点: 正準得点は,正準変数の空間でのオブザベーションの座標に対応する.