多重共線性の統計量

多重共線性とは

:変数間に線形の関係性がある場合,それらは多重共線であると言う.これは,2つの変数間の単純な共線性のケースの拡張である.たとえば,3つの変数 X1, X2 および X3 について,次のような式が書ける場合,それらは多重共線であると言う:

X1 = aX2 + bX3

ここで a と b は実数である.

多重共線性を検出する方法

多重共線性を検出して関与する変数を識別するには,各変数が他の変数の関数になるような線形回帰をそれぞれ実行しなければならない.そして,我々は次の計算をする:

  • 各モデルの R2 .R² が1 なら, モデルの従属変数(Y)と説明変数(X)の間に線形の関係がある.
  • 各モデルの許容度.許容度(tolerance)は (1-R²) である.これは,変数のフィルタリングするための基準として複数の手法(線形回帰,ロジスティック回帰,discriminant factorial analysis )で使用される.ある変数が,ある固定のしきい値より小さい許容度(許容度は,すでにモデルに使用されている変数を考慮に入れて計算される)を持つ場合,その寄与度が ごくわずかで,数値問題を引き起こすリスクがあるので,それをモデルに入れることはできない.
  • VIF (Variance Inflation Factor) VIF は,許容度の逆数に等しい

多重共線性の統計量の使用

変数のグループ内の多重共線性の検出は,以下のような場合にとくに有用である:

  1. データ内の構造を識別し,実践的な意思決定を行う(たとえば,生産ラインである変数が,すでにすでに測定されている他の変数に強くリンクしているので,その変数の測定をやめる),
  2. 特定の計算での数値問題を避ける.特定の手法は,行列反転を用いる.

含まれる機能: