LASSO 回帰

変数の数がオブザベーションより多いとき,または,より一般的には,変数の数が大規模なときに回帰を実行するには,この手法を使用する.

XLSTATでのLASSO回帰の解説

LASSO は Least Absolute Shrinkage and Selection Operatorの略である.LASSO回帰は,1996年にRobert Tibshiraniによって提案された.これは,高次元領域での標準の線形回帰とは異なり,係数が爆発しないように制約する推定方法である. 高次元の文脈は,個体の数に比較して変数の数がとても多いすべての状況をカバーする.

LASSO回帰は,高次元の文脈での欠点(推定の不安定性と予測の低信頼性)を克服する手法の1つである.LASSO回帰の主な利点は,変数選択を実行する能力で,それは大規模な数の変数があるときに価値がある可能性がある.

XLSTATでのLASSO 回帰のオプション

交差検証: クロスバリデーションでλ パラメータを計算したい場合は,このオプションを有効にする.このオプションは,λ 正則化パラメータを獲得して,選ばれたパラメータでのクラス分類または回帰の品質を定量化するために,k-fold クロスバリデーションを実行することができる.データは同じサイズの k 個の副標本に分割される.単一の副標本がモデルをテストするための検証データとして保持され,残りの k-1 個の副標本がトレーニング・データとして使用される.

  • フォールドの数: クロスバリデーションで構成されるべき,フォールドの数を入力する.デフォルト値: 5.
  • テストされる値の数: クロスバリデーションでテストされるλ 値の数を入力する.デフォルト値: 100.

ラムダ: λ 正則化パラメータを指定したい場合は,このオプションを有効にする.

停止条件:

  • 収束: 1つの繰り返しからもう1つの繰り返しへの尤度の対数の推移の最大値を入力する.その値に達するとアルゴリズムが収束したとみなされる.デフォルト値: 0.000001.
  • 最大時間 (秒): 座標降下に許される最大時間を入力する.その時間を過ぎて,収束に達していない場合,アルゴリズムは停止して,最後の繰り返しで得た結果を返す.デフォルト値: 180 秒.

交互作用 / 水準: モデルに交互作用を含めるには,このオプションを有効にして,最大の交互作用の水準を入力する( 1から 5の値).

XLSTATでのLASSO 回帰の結果

記述統計: 記述統計の表は,選択されたすべての変数の簡単な統計量を表示する.量的変数では,欠損値の数,非欠損値の数,平均,分散,標準偏差(不偏)が 表示される.

相関行列: この表は,選択されたさまざまな変数の間の相関の概観を提供するために表示される.

適合度統計: この表には,回帰モデルの適合に関する統計量が表示される:

  • オブザベーション: 計算で使用されるオブザベーションの数.下記の式で,n はオブザベーションの数.
  • 重みの合計: 計算で使用されるオブザベーションの重みの合計.下記の式でW は重みの合計.
  • DF: 選ばれたモデルの自由度の数 (誤差項に対応).
  • : モデルの決定係数.この係数は0 から 1の間でなければならない.

R² は,モデルによって説明される従属変数の変動の比率として解釈される. R² が 1に近いほど,良好なモデルである.

  • MSE: 平均2乗誤差 (MSE).
  • RMSE: 2乗平均平方根誤差(RMSE: root mean square of the error) はMSEの平方根である.
  • モデル・パラメータ: この表は,モデルへの適合後の各パラメータの値を提供する.

標準化係数: 標準化係数(ベータ係数とも呼ぶ)は,説明変数を格納する行列が中心化されていない場合に,変数の相対重みを比較するために使用される.係数の絶対値が高いほど,対応する変数の重みがより重要である.

変数重要度のグラフ: ある変数の重要度測度は,その変数の回帰での係数の絶対値である.

MSE 推移のグラフ (交差検証): このチャートは, λ パラメータによるMSE推移を示す.

予測値と残差: この表は,各オブザベーションについて,従属変数の観察値,モデルの予測値,および残差を示す.

予測値と残差のグラフ: これらのチャートは,上記の結果を可視化することができる.

ternary diagramneural network diagram

Excelで動作する統計解析ソフトウェア。

14日間無償トライアルあり。