線形回帰

線形回帰の原理

線形回帰は,疑いなく最もよく使われる統計手法である.通常,単回帰(1つの説明変数のみによる)と重回帰(複数の説明変数)は区別されますが,全体的なコンセプトと計算方法は同一である.

線形回帰の原理は,p 個の量的説明変数 X1, X2, …, Xpの線形結合によって,量的従属変数Y をモデルすることである.オブザベーションi について,決定論的モデル(ランダム性を考慮に入れない)が次式で書ける:

yi = a1x1i + a2x2i + ... + apxpi + ei

ここで yi はオブザベーション i について観察された従属変数の値,xij はオブザベーションi について変数j が取る値, ei はモデルの誤差である.

モデルは,最小2乗法(2乗誤差ei² の合計を最小化する)を用いて見つけられる.

線形回帰の仮説は,誤差 ei が同じ正規分布N(0,s) に従い独立であるということである.

線形回帰での変数選択

 XLSTATで利用可能な4つの手法のうちの1つを用いて,モデルを構成する変数を選択することができる

  • ベストモデル: この手法は,すべてのモデルの中から最良のモデルを選ぶことができ,
    "最小変数" から"最大変数"までの変数の数を取り扱うことができます.さらに,最良モデルを決定するための複数の"基準"を選ぶことができる.さらにユーザーは,ベストモデルを決定するために複数の "基準"を選択できる: 修正済み R²,平均2乗誤差(MSE), Mallows Cp,赤池のAIC,SchwarzのSBC,雨宮のPC.
  • ステップワイズ: 選択プロセスは,モデルへの最大寄与度を持つ変数を追加して開始します(使用される基準はスチューデントのt統計量).第2の変数が,そのtに関連する確率が"投入の確率"より低い場合,それはモデルに追加されます.第3の変数が追加されると,モデル中の各変数の除去の影響が評価されます(ここでもt 統計量を使用).確率が"除去の確率"より大きい場合,その変数は除去されます.この手順は,それ以上追加したり除去する変数がなくなるまで続けられます.
  • フォワード: この手順は,変数が追加されるのみで除去されないことを除いては,ステップワイズ選択と同じです.
  • バックワード: この手順は,すべての変数を一度に追加して開始します.そして,ステップワイズ選択で使用される手順に従って,変数が除去されます.

線形回帰の仮説の検証

前提となる仮説が正しく検証されているころをレトロスペクティブに確認するには、線形回帰の結果で提案されている様々な検定を使用する.

残差の正規性は,ある特定のグラフを分析するか,正規性検定を用いて確認できる. 残差の独立性は,ある特定のグラフを分析するか,Durbin-Watson 検定を用いて確認できる.

XLSTATでの線形回帰の結果

  • 変数選択の要約: 選択手法を選ばれた場合,XLSTATは選択の要約を表示します.ステップワイズ選択については,個々のステップに対応する統計量が表示されます. p から q の値をとる変数の数についてのベスト・モデルが選択された場合,各数または変数についてのベスト・モデルが,対応する統計量とともに表示され,選ばれた基準についてのベスト・モデルが太字で表示されます.
  • 適合度統計: 回帰モデルの適合に関する統計量が,この表に示される:
    • オブザベーション: 計算で使用されたオブザベーションの数.下記の式で,n はオブザベーションの数.
    • 重みの合計:  計算で使用されたオブザベーションの重みの合計.下記の式で,W は重みの合計.
    • DF: 選択したモデルの自由度の数(誤差部に対応).
    • R²: モデルの決定係数.値が 0 から1の間のこの係数は,モデルの定数がユーザーによって固定されていない場合のみ表示される.R² は,モデルによって説明される従属変数の変動の比率として解釈される. R² が 1に近いほど,良いモデルである.R² の問題は,モデルを適合するために使用している変数の数を考慮に入れていないことである.
    • 修正済み R²: モデルの修正済み決定係数.修正済み R² は,R² がゼロに近い場合,負数になることがある.この係数は,モデルの定数がユーザーによって固定されていない場合のみ計算される.修正済み R² は,モデルに使用した変数の数を考慮に入れて,R² を修正したものである.
    • MSE: 平均2乗誤差(MSE) .
    • RMSE: 平均2乗誤差平方根 (RMSE) は MSEの平方根.
    • MAPE: 平均絶対誤差率(Mean Absolute Percentage Error ).
    • DW: Durbin-Watson 統計量.この係数は次数(order) 1の自己相関係数で,モデルの残差が自己相関していないことを確認するために使用する.残差の独立性が線形回帰の基本仮説の1つであることを仮定している.ユーザーは,残差の独立性仮説が採択できることを確認するために, Durbin-Watson 統計量の表を参照できる.
    • Cp: MallowsのCp 係数.Cp 係数が p*に近いほど,モデルは偏りが少ない.
    • AIC: 赤池情報量基準.赤池 (1973) によって提案されたこの基準は,情報理論から導かれたもので, Kullback とLeiblerの測度 (1951)を使用している.これは,新しい説明変数の追加がモデルに十分な情報量を提供しない場合,モデルを罰するモデル選択の基準である.情報量はMSEを用いて測定している.目的は AIC 基準を最小化することである.
    • SBC: Schwarzのベイジアン基準.Schwarz (1978) によって提案されたこの基準は,AIC に似ていて,やはり,目的はそれを最小化することである.
    • PC: 雨宮の予測基準.雨宮 (1980) によって提案されたこの基準は,モデルの節減を考慮に入れることが,修正済みR² に似ている.
    • Press RMSE: Pressの統計量は,対応するオプションがダイアログ・ボックスで有効にされた場合のみ表示される.Press RMSE がRMSEと比較できる.この2つの差が大きいと,そのモデルが,モデル中の特定のオブザベーションの有無に敏感であることを示す.
  • Type I SS 表: 誤差平方和 (SSE), 平均2乗誤差(MSE),Fisherの F,またはFisherのFに関係する確率について,徐々に説明変数を追加してモデルの適合に持つ影響を可視化するのに使用する.ある変数の確率が低いほど,モデルに対して,モデル中にすでに存在している他のすべての変数に対して,その変数の寄与度がより高い. Type I 表での平方和は,常にmodel SSとつじつまが合う.注意:モデル中での変数が選択される順序が,得られる値に影響する.
  • Type III SS 表: .誤差平方和 (SSE), 平均2乗誤差(MSE),Fisherの F,またはFisherのFに関係する確率について,説明変数を除去することが,まだ残っている他のすべての変数のモデルの適合に持つ影響を可視化するのに使用する.確率が低いほど,モデルに対して,モデル中にすでに存在している他のすべての変数に対して,その変数の寄与度がより高い.注意:Type I SSとは異なり,モデル中で変数が選択される順序が,得られる値に影響しない.
  • 分散分析表: .説明変数の説明力を評価するのに使用する.モデルの定数が任意の値に設定されていない場合,最終モデルの適合(最小2乗について)と従属変数の平均に等しい定数のみを含む初歩的なモデルを比較して,説明力が評価される.モデルの定数が設定された場合,従属変数が設定された定数に等しい場合のモデルに対して比較がなされる.
  • モデルのパラメータ表: パラメータの推定,対応する標準誤差,Studentのt,対応する確率,および信頼区間を表示する.
  • モデル式: モデルを読んだり再利用するのを簡単にするために,モデルの式が表示される
  • 標準化係数表: 標準化係数の表は,変数の相対重みを比較するのに使用する.係数の絶対値が大きいほど,対応する変数の重みがより重要である.標準化係数の信頼区間が値0(これは標準化係数のグラフで簡単に見られる)の場合,モデル中の変数の重みは有意でない.
  • 予測値と残差表: 予測値と残差の表は,各オブザベーションについて,その重み,質的説明変数の値を示す.従属変数の観察された値が1個だけの場合,モデルの予測値,残差,信頼区間(適合された予測値および,ダイアログ・ボックスでCookのDが起動された場合,CookのDとともに)が示される.2種類の信頼区間が表示される:平均の信頼区間(説明変数の特定の値の集合を持つ無限数のオブザベーションで予測がなされた場合に対応する)と単独の予測値(説明変数の任意の値についての単独の予測値の場合に対応する).2番目の区間は常に1番目よりも大きく,ランダムな値がより大きい.検証データが選択された場合,それらが表の最後に表示される.