2段階最小2乗回帰
2段階最小2乗法の原理
2段階最小2乗法は,線形回帰の枠組みで内生説明変数(または内因性説明変数)を持つモデルを取り扱うために使用される.内生変数とは,回帰モデル中の誤差項に相関する変数である.内生変数の使用は,線形回帰の仮定と矛盾している.この種の変数は,変数が誤差とともに測定される場合に見られる.
2段階最小2乗アプローチの一般的原理は,モデルのパラメータを推定するために,誤差項と相関しない操作変数(道具的変数)を使用することである. これらの操作変数は,内生変数には相関するが,モデルの誤差項には相関しない.
XLSTATでの2段階最小2乗法の結果
適合度統計: 回帰モデルの適合に関する統計量がこの表に示される:
- オブザベーション: 計算で使用されるオブザベーションの数.下記に示す式では,n がオブザベーションの数.
- 重みの合計: 計算で使用されるオブザベーションの重みの合計.下記に示す式では,W が重みの合計.
- DF: 選択されたモデルの自由度の数(誤差部に対応).
- R²: モデルの決定係数.値がoから1の間のこの係数は,モデルの定数がユーザーによって固定された場合にのみ表示される.R² は,モデルによって説明された従属変数の分散の比率として解釈される.R² が 1 に近いほど良いモデルとなる. R² の問題は,モデルを適合するために使用される変数の数を考慮に入れていないということである.
- 修正済み R²: モデルの修正済み決定係数.修正済み R² は,R² がゼロに近いとき負になる場合がある.この係数は,モデルの定数がユーザーによって固定された場合にのみ計算される.修正済み R² は,モデルに使用された変数の数を考慮に入れるように R² を補正したものである.
- MSE: 平均2乗誤差 (MSE).
- RMSE: 平均2乗平方根誤差(the root mean square of the errors)は,MSEの平方根.
- MAPE: 平均絶対パーセント誤差(the Mean Absolute Percentage Error).
- DW: Durbin-Watson 統計量.この係数は,1次の自己相関係数で,残差の独立性が線形回帰の基本仮説であることを仮定して,モデルの残差が自己相関しないことを確認するために使用される.ユーザーは,残差の独立性仮説が許容できるかどうかを確認するために,Durbin-Watson 統計量の表を参照できる.
- Cp: Mallows Cp 係数.Cp 係数が p* に近いほど,モデルはバイアスしない.
- AIC: 赤池の情報量基準. 赤池 (1973) が提案したこの基準は,情報理論から派生しており,Kullback と Leiblerの測度 (1951)を使用する.これは,新しい悦明変数の追加がモデルに十分な情報量(MSEによって測定される情報量)を提供しない場合に,その(変数を追加した)モデルにペナルティを与えるモデル選択の基準である.目的は, AIC 基準を最小化することである.
- SBC: Schwarzのベイジアン基準. Schwarz (1978)が提案したこの基準は, AICと似ていて,目的はそれを最小化することである.
- PC: 雨宮予測基準.雨宮 (1980) が提案したこの基準は,モデルの節減性を考慮に入れるために,修正済み R² のように使用される.
分散分析表: これは説明変数の説明力を評価するために使用される.モデルの定数が,任意の値に設定されていない場合,最終モデルの適合度(最小2乗に関する)を独立変数の平均に等しい定数のみを含む初歩的モデルの適合度と比較して,説明力が評価される. モデルの定数が設定された場合,従属変数が設定された定数に等しいモデルに関して比較がなされる.
モデルのパラメータの表: これは,パラメータの推定,対応する標準誤差,Studentのt,対応する確率,および信頼区間を表示する.
モデル式: そして,モデルの解読や再利用を簡単にするために,モデルの式が表示される.
標準化係数の表: 標準化係数の表は,変数の相対重みを比較するために使用される.係数の絶対値が高いほど,対応する変数の重みがより重要となる.標準化係数の信頼区間が値0を含む場合(これは正規化係数のグラフで簡単に見られる),モデルにおけるその変数の重みは有意でない.
予測値と残差の表: 予測値と残差の表は,各オブザベーションについて,その重み,質的説明変数の値を示し,従属変数の値が1つだけ観察されている場合は,モデルの予測値,残差および適合された予測値とともに信頼区間を示す.2種類の信頼区間が表示される:平均の信頼区間(説明変数の任意の値の集合を持つ無限個のオブザベーションで予測がなされる場合に対応)および単独の予測値の信頼区間(所与の説明変数の値についての単独の予測値信頼区間.2番目の区間は,常にランダムな値がより大きい1番目よりも広い.検証用データが選択されている場合,それらが最後の表に表示される.
XLSTATでの2段階最小2乗法のグラフィカルな結果:
下記のチャートは,上記の結果を示す.
モデル中に説明変数が1個だけある場合,表示される最初のチャートは,観察された値,回帰線,予測値の2種類の信頼区間を示す..
2番目のチャートは,説明変数の関数として標準化残差を示す.原則的に,残差はX軸のまわりをランダムに分布しているべきである.なんらかの傾向や形状がある場合は,モデルに問題があることを示す.
次に表示される3つのチャートは,それぞれ従属変数の関数として標準化残差の進展,予測値とオブザベーションの距離(理想モデルでは,すべてポイントが2分線の上にある),および棒グラフ上の標準化残差を示す.最後のチャートは,標本が正規分布していることを仮定して,データの95%を含むべき区間 ]-2, 2[ の外側に異常な数の値があるかどうかを素早く示す.
Excelで動作する統計解析ソフトウェア。
関連する機能