XLSTATはLumiveroグループに参加しています。詳しくはこちら

RIDGE 回帰

オブザベーションよりも多い変数がある場合,または,より普遍的には,変数の数が多いときに回帰を実行するには,この手法を使用する.XLSTATソフトウェアを用いてExce内で利用可能.

Ridge回帰の解説

Tikhonov正則化から派生した手法であるRidge(リッジ)回帰は,1970年に Hoerl and Kennardによって提案された.これは高次元での線形回帰とは異なり,係数が爆発しないように,制約を与える推定手法である.高次元の文脈は,個体の数と比べてとても多くの変数があるすべての状況を対象としている.

Ridge回帰は,高次元の文脈での線形回帰の欠点(推定の不安定性と予測の信頼性の欠如)を克服する手法の1つである.Ridge回帰は,高い多重共線性のあるデータセットが関与する場合に,より大きなロバスト性を示すことで,LASSO回帰と異なる.

XLSTATでのRidge回帰のセットアップ

Y / 従属変数:

量的: モデルしたい応答変数を選択する.複数の変数が選択された場合,XLSTATは変数のそれぞれで別々に計算を実行する.列ヘッダが選択されたなら,"変数ラベル"オプションが有効であることを確認する.

応答タイプ: 応答のタイプを選択する:

  • 量的: 応答タイプが実数を含む場合,このタイプを回帰モデルに適合させるように選ぶ.

X / 説明変数:

量的: 1個または複数の説明変数をモデルに含めたい場合は,このオプションを有効にする.そして,Excelワークシートで対応する変数を選択する.選択されるデータは数値タイプが可能である.変数ヘッダが選択されたなら,"変数ラベル" オプションが有効になっていることを確認する.

質的: 1個または複数の質的説明変数をモデルに含めたい場合は,このオプションを有効にする.そして,Excelワークシートで対応する変数を選択する.選択されるデータは,どのタイプでも可能だが,数値データは自動的に名義値とみなされる.変数ヘッダが選択されたなら,"変数ラベル" オプションが有効になっていることを確認する.

XLSTATでのRidge回帰のオプション

モデル・パラメータ: このオプションは,正則化パラメータ λを定義するためにに試用する手法を選ぶことを可能にする.

  • クロス・バリデーション: クロスバリデーションによって λパラメータを計算したい場合は,このオプションを有効にする.このオプションは,最適な λ正則化パラメータを得るために, k-フォルド・クロスバリデーションを実行することができる.このオプションは,選ばれたパラメータによって,分類または回帰の品質を定量化する k-フォルド・クロスバリデーションを実行することができる.データが同じサイズのk個の副標本に分割される.1つの副標本がモデルをテストする検証データとして保持され,残りのk-1個の副標本はトレーニング・データとして使用される.
  • 手動で入力: パラメータ λを指定したい場合は,このオプションを有効にする..

Lambda: クロス・バリデーションによりパラメータ λを計算したい場合は,このオプションを有効にする.それ以外は,パラメータλに割り当てたい値を入力する.

クロス・バリデーション・パラメータ:

  • フォルドの数: Enter the number of folds to be constituted for the cross validation. Default valueクロスバリデーションを構成するフォルドの数を入力する.デフォルト値: 5.
  • テストされる値の数: クロスバリデーションの際にテストされる λ値の数を入力する.デフォルト値: 100.

停止条件:

  • 収束: ある反復から別の反復への尤度の対数の進展の最大値を入力する.この値に達すると,アルゴリズムは収束したとみなされる.デフォルト値: 0.000001.
  • 最大時間 (秒):座標降下に許容される最大時間を入力する.その時間を過ぎても収束に達しない場合,アルゴリズムは停止し,最後の繰り返しで得られた結果を返す.デフォルト値: 180 秒.

繰り返し / 水準: モデルに交互作用を含めるには,このオプションを有効にする.そして,最大交互作用水準(1から5の値)を入力する.

検証タブ:

検証: モデルを検証するためにデータの副標本を使用するには,このオプションを有効にする.

検証集合: 検証に使用するオブザベーションをどのように得るかを定義するには,以下のオプションの1つを選ぶ:

  • ランダム: オブザベーションが無作為に選択されます. "オブザベーションの数" N を指定する.
  • 最後のN行: 最後のN個のオブザベーションが検証のために選択される.“オブザベーションの数” N を指定する.
  • 最初のN行: 最初のN個のオブザベーションが検証のために選択される.“オブザベーションの数” N を指定する.
  • グループ変数: このオプションを選択すると,0 と1 のみのバイナリ変数を選択する必要がある.1 は検証に使用するオブザベーションを識別する.

予測タブ:

予測: 予測モードで使用するデータを選択したい場合は,このオプションを有効にする.このオプションを有効にすると,予測データ集合が推定データ集合と同様に構造化されていることを確かめる必要がある:選択での順番で同じ変数.一方,変数ラベルは選択しない:以下にあげられた選択の最初の行は,データに対応しなければならない.

量的変数: 量的説明変数を選択するには,このオプションを有効にする.このページで変数ラベルが有効になっているなら,最初の行が変数ラベルを含む必要がある.

質的変数: 質的説明変数を選択するには,このオプションを有効にする.このページで変数ラベルが有効になっているなら,最初の行が変数ラベルを含む必要がある.

XLSTATでのRidge回帰の結果

記述統計: 記述統計の表は,選択されたすべての変数の簡単な統計量を示す.量的変数について,欠損値の数,非欠損値の数,平均および標準偏差(不偏)が表示される.

相関行列: この表は,選択されたさまざまな変数の間の相関の概観を与えるために表示される.

適合度統計: 回帰モデルの適合に関する統計量がこの表に示される:

  • オブザベーション: 計算で使用されるオブザベーションの数.下に示される式では,nがオブザベーションの数である.
  • 重みの合計: 計算で使用されるオブザベーションの重みの合計.下に示される式では,Wが重みの合計である.
  • DF: 選ばれたモデルの自由度の数(誤差部に対応).
  • R²: モデルの決定係数.

R²はモデルによって説明される従属変数の変動の割合として解釈される.R² が 1い近いほど,良いモデルとなる..

  • MSE: 平均2乗誤差 (MSE).
  • RMSE: 平均平方根誤差 (RMSE)は,MSEの平方根である.

モデル・パラメータ: この表は,モデルに適合した後の各パラメータの値を提供する.

標準化係数: 説明変数を格納する行列が中心化されていない場合,変数の相対重みを比較するために,標準化係数(ベータ係数ともいう)が使用される.ある係数の絶対値が高いほど,対応する変数の重みが大きくなる.

予測値と残差: この表は,各オブザベーションごとに,従属変数の観察値,モデルの予測値と残差を示す.

MSEの推移(クロス・バリデーション): この表は,λ正則化パラメータによるMSEの推移および有効な変数の数を提供する.

変数重要度のチャート: 与えられた変数の重要度測度は,回帰におけるその係数の絶対値である.

MSE推移のチャート (クロス・バリデーション): このチャートは,λパラメータによるMSE推移を示す.

予測値と残差のチャート: これらのチャートは,上記の結果を可視化することを可能にする.

XLSTATでのRidge回帰の事例

Ridge 回帰の使用法に関するチュートリアルが.

ternary diagramneural network diagram

Excelで動作する統計解析ソフトウェア。

14日間無償トライアルあり。