最小2乗回帰 (OLS)

最小2乗回帰の式

最小2乗回帰(OLS:Ordinary Least Squares regression)は,より一般的には 線形回帰 (説明変数の数によって単回帰または重回帰)と呼ばれる.

p 個の説明変数によるモデルの場合,OLS 回帰モデルは次式で書かれる:

Y = β0 + Σj=1..p βjXj + ε

ここで Yは従属変数,β0はモデルの切片,X jはモデルのj番目の説明変数 (j= 1 から p), εは期待値0と分散σ²による確率誤差モデルの誤差である.

n 個のオブザベーションがある場合,i番目のオブザベーションでの従属変数の予測値の計算は,次式で与えられる:

yi = β0 + Σj=1..p βjXij

OLS 法は,観察値と予測値の間の2乗距離の合計を最小化することである.この最小化は,以下のモデルのパラメータの推定を導く::

[β = (X’DX)-1 X’ Dy σ² = 1/(W –p*) Σi=1..n wi(yi - yi)]

ここで β はβi パラメータの推定値のベクトル, X は1のベクトルで始まる説明変数の行列, y は従属変数のn個の観察値のベクトル, p* は説明変数の数(で切片が固定されていない場合は1を加える), wi はi 番目のオブザベーションの重みで,W はwi 重みの合計,D は対角線上にwi 重みを持つ行列である.

予測値のベクトルは次式で書かれる:

y = X (X’ DX)-1 X’Dy

最小2乗回帰の限界

OLS 回帰の限界は,X’X 行列の反転の制約に由来する:それは,行列の階が p+1であることが必要で,行列が正しい形式でないと計算上の問題が生じる場合があることである.XLSTATは,これらの2つの問題を回避するDempster (1969) のアルゴリズムを使用する:行列の階がq に等しい場合(ここで q は厳密に p+1より小さい),モデルからいくつかの変数が除去される.それらは,一定であるか,共線変数のブロックに属するからである.

OLS 回帰での変数選択

さらに,ユーザーがオブザベーションの数と比べて多すぎる数の変数を選択した場合,変数の自動選択が実行される.この理論的限界は n-1である.これより値が大きいと X’X 行列が反転不可能になる.

しかしながら,いくつかの変数を除去することは最適ではないだろう:ある変数が他のいくつかの変数とほとんど共線的であるので,我々はそれをモデルに追加しないだろうが,場合によっては,すでにモデル中にある変数を除去して,その新しい変数を追加することのほうがより意味があるかもしれない.

その理由から,そして,たくさんの説明変数がある場合の取り扱いのために,他の手法が開発されてきた.

予測

線形回帰は,しばしば新しい標本の出力値を予測することに使用される.XLSTAT は,予測のためにモデルを使用する前に,予測のためにモデルの品質を評価することができる.