XLSTATはLumiveroグループに参加しています。詳しくはこちら

最小2乗回帰 (OLS)

最小2乗回帰(OLS: Ordinary Least Squares regression)は,しばしば線形回帰と呼ばれ,アドオン型統計解析ソフトウェアXLSTATでExcel内で理容できる.

linear-regression-fitted-curve.PNG

最小2乗回帰は,1つまたは複数の独立の量的変数と従属変数の間の関係性を記述(単回帰または重回帰)する 線形回帰 式の係数を推定するための共通のテクニックである.最小2乗とは,最小の2乗誤差(SSE)を表す.最大尤度およびモーメント推定量の一般化手法は,OLSの代替アプローチである. 

実践的には,たくさんの分野が線形回帰を使用できる:

  • 気象学では,外部要因に基づいて気温や降雨を予測するなど.
  • 生物学では,捕食者や生命資源の数に応じて,種における生存数を予測するなど.
  • ビジネスでは,販売量に基づいて,会社の収益を予測するなど.
  • … およびその他多数.

少しの理論: 最小2乗回帰の方程式

最小2乗の数式: モデルの方程式とは?

p 個の説明変数を持つモデルの場合,OLS回帰モデルは次式で書ける:

Y = β0 + Σj=1..p βjXj + ε

ここでYは従属変数,β0はモデルの切片,X j はモデルのj番目の説明変数 (j= 1 から p),eは期待値0と分散σ²の確率誤差モデルの誤差である.

n 個のオブザベーションがある場合,i番目のオブザベーションでの従属変数の予測値の計算は,次式で与えられる:

yi = β0 + Σj=1..p βjXij

例: 日光に当てた日数に応じた植物の高さを予測したいとする.日光に当てる前,それらは 30 cmだったとする.日光に当てると植物は1日に 1 mm (0.1 cm) 成長するとする.

  • Y は植物の高さ.
  • X は日光に当てた日数.
  • β0 は,Xが0のときのYの値なので30.
  • β1 は,日数に乗じる係数なので 0.1.

したがって,5日間日光に当てた植物の高さは,次式で推定される:Y = 30 + 0.1*5 = 30.5 cm.

もちろん,これは常に正しいわけではないので,確率誤差 ε を考慮に入れなければならない.

さらに,予測する前に,我々の手法は β係数を見つけなければならない: まず,複数の植物の高さと,それらを日光に当てた日数を格納する表を入力することから始める.計算に関する詳細は,次の段落で述べる.

s最小2乗法 (OLS)はどのように動作するか?

OLS法は,観察値と予測値の間の2乗差の合計を最小化しようとする. 

そのようにして,係数のベクトル β が次式による推定できる:

β = (X’DX)-1 X’ Dy 

ただし, X は1のベクトルが先行する説明変数の行列で,D は対角線上にwi の重みを持つ行列で,y は従属変数の n 個の観察値のベクトルである.

予測値のベクトルは,次式のように書ける:

y* = Xβ=X (X’ DX)-1 X’Dy

確率誤差ε の分散 σ² は次式で書ける :

σ² = 1/(W –p*) Σi=1..n wi(yi - y*i) 

ここで p* 切片が固定でない場合に1を加える説明変数の数で,wiは i番目のオブザベーションの重みで,Wは wi 重みの合計で,yは観察値のベクトルで,y* は予測値のベクトルである.

最小2乗法の直感的な説明は?

直感的に言うと,最小2乗法の目的は,予測値と実測値の間の予測誤差を最小化することである. なぜ誤差の合計を直接ではなく,2乗誤差の合計を最小化するのかと疑問に思う場合があるかもしれない.

誤差は負の場合と正の場合とがあって,合計がゼロ付近になる可能性があるので,誤差ではなく,誤差の2乗の合計を考慮する.

たとえば,実測値が 2, 3, 5, 2, 4で,予測値が 3, 2, 5, 1, 5だとすると,合計誤差は (3-2)+(2-3)+(5-5)+(1-2)+(5-4)=1-1+0-1+1=0 となり,平均誤差は 0/5=0となる.これは間違った結論を導く可能性がある.

そこで,平均2乗誤差を計算すると,(3-2)^2+(2-3)^2+(5-5)^2+(1-2)^2+(5-4)^2=4 で,4/5=0.8となる.元のデータの尺度に戻すために,平方根をとって,sqrt(0.8)=0.89を得るので,平均で予測値は実測値から0.89だけ異なると結論づけることができる.

線形回帰モデルを実行する

最小2乗 (OLS)法の仮定とは何か?

1) 個体 (オブザベーション)は独立である.一般的にこれは日常のシチュエーションでは真である(降雨量は前日には依存しないし,収益は前月に依存しないし,ある人の身長はその直前に測定された人に依存しない…).

2) 分散が均一である.XLSTATでは誤差の分散の同等性を検定するために Leveneの検定 が提供されている. 

3) 残差が正規分布に従う.XLSTATは残差の 正規性 を検定するために複数の手法を提供している. 

モデル残差(誤差)は,データ・ポイントと適合されたモデルの間の距離である.モデル残差は,データ内の変動のモデルが計算でけいなかった部分を表す.R² 統計量は,モデルによって説明された変動の部分である.したがって,残差が低いほど,R²統計量が高くなる.

誤差項の分散均一性と独立性が線形回帰で重要な仮説であり,それは誤差項の分散が独立であり,かつ,同一に分布し,正規分布することを仮定する.これらの仮定が保持できない場合,共分散行列が伝統的な式を用いて計算できず,線形モデルのベータ係数に対応するパラメータの分散,およびそれらの信頼区間も間違っているかもしれない.

XLSTATでの線形回帰モデルのセットアップ方法?

XLSTATではデータ選択のみで,コーディングの必要なく,最小2乗回帰を簡単に実行できる!従属変数と説明変数を選択しなければならないだけである.

   データの記述統計量などの複数の結果を選択できるが,相関や分散分析も選択できる.

統計量とモデル式のほか,たとえば回帰チャートなどのチャートの表示も選択できる.すべてのデータポイントおよび信頼区間つきの中心回帰線を見ることができる.

XLSTATによるOLS回帰での予測

線形回帰 はしばしば新しい標本の出力値を予測するために使用される.XLSTATは,先に進んで予測のためにそれを使用する前に,予測用のモデルの品質を評価することができる.

さらに: 最小2乗回帰の限界

OLS 回帰の限界は,X’X 行列の反転の制約に由来する:それは,行列の階が p+1であることが必要で,行列が正しい形式でないと計算上の問題が生じる場合があることである.XLSTATは,これらの2つの問題を回避するDempster (1969) のアルゴリズムを使用する:行列の階がq に等しい場合(ここで q は厳密に p+1より小さい),モデルからいくつかの変数が除去される.それらは,一定であるか,共線変数のブロックに属するからである.

OLSの利点とは何か: 変数選択

ユーザーがオブザベーションの数と比べて多すぎる数の変数を選択した場合,変数の自動選択が実行される.この理論的限界は n-1である.これより値が大きいと X’X 行列が反転不可能になる.

しかしながら,いくつかの変数を除去することは最適ではないだろう:ある変数が他のいくつかの変数とほとんど共線的であるので,我々はそれをモデルに追加しないだろうが,場合によっては,すでにモデル中にある変数を除去して,その新しい変数を追加することのほうがより意味があるかもしれない.

その理由から,そして,たくさんの説明変数がある場合の取り扱いのために,偏最小2乗法 (PLS:  Partial Least Squares regression)などの他の手法が開発されてきた.

最小2乗回帰のチュートリアル

下記は最小2回帰を用いた事例のリストである:

自分のデータで試す


 

ternary diagramneural network diagram

Excelで動作する統計解析ソフトウェア。

14日間無償トライアルあり。