ロジスティック回帰 (バイナリ,順序,多項, …)

量的説明変数や質的説明変数を用いて,バイナリ変数,多項変数または順序変数をモデルするには,ロジスティック回帰を使用する.

logistic-regression-comparison-categories-of-qualitative-variables.png

XLSTATでのロジスティック回帰の定義

ロジスティック回帰の原理 

ロジスティック回帰は,2項(通常,バイナリ)変数,多項変数(複数のカテゴリを持つ質的変数)や順序変数(カテゴリに順序がある質的変数)をモデルできるので,よく使用される.これは医療分野,社会学,疫学,定量的マーケティング(アクション後の製品またはサービスの購入有無),および金融でのリスク・モデリング(スコアリング)で広く使用されている.

ロジスティック回帰モデルの原理は,説明変数(Xと表記)の水準でイベント(Yと表記される従属変数)の発生の有無を説明することである.たとえば,医療分野では,薬のどれだけの投与量から患者が治癒するかを評価しようとする.

ロジスティック回帰のモデル

2項ロジスティック回帰

ロジスティック回帰と線形回帰は,一般化線形モデル(GLMGeneralized Linear Model)と呼ばれる同じモデルのファミリに属している: 両方とも,イベントが説明変数の線形結合に連結される.

線形回帰では,従属変数は,正規分布 N(μ,σに従う.ここでμ は説明変数の線形関数である.ロジスティック回帰では,従属変数(応答変数とも呼ばれる)は,実験が回の場合,パラメータppはイベントが発生する平均確率)のベルヌーイ分布に従い,実験がnn回繰り返される場合(たとえば,nn人の患者に同じ投与がなされる),2項分布(n,p)に従う.ここで,確率パラメータ p は,説明変数の線形結合の関数である.

確率pを説明変数に連結されるために使用される最も一般的な関数は,ロジスティック関数(Logitモデルと呼ぶ)と標準正規分布関数(Probit モデルと呼ぶ)である.これら両関数は,いずれも完全な対称性を持ちシグモイドである: XLSTATは,この他2つの関数を提供する: 上側漸近線に近いcomplementary Log-log 関数,および,対称的に,横軸に近いGompertz 関数.

ほとんどのソフトウェアで,モデル・パラメータの信頼区間の計算は,パラメータが正規分布すると仮定した線形回帰の場合と同じである.XLSTATは代替の"尤度比" (Venzon and Moolgavkar, 1988)も提供する.この手法は,パラメータが正規分布するという仮定を必要としないので,より信頼性が高い.ただし,繰り返し計算で時間がかかる.

多項ロジスティック回帰

多項ロジスティック回帰の原理は,J個の代替値をとり得る変数(J個のカテゴリを持つ変数)を説明変数の関数として説明または予測することである.したがって,前述の2項のケースは,J=2である特殊例である.

多項モデルの枠組みでは,コントロール(または対照)カテゴリが選択されなければならない.理想的には,"基本"または"伝統" または"通常"の状態に対応するカテゴリを選ぶ.推定される係数は,このコントロール・カテゴリによって解釈されることになる.書き易くするために,下記の式は,最初のカテゴリを参照カテゴリとみなして書かれている.

イベントの発生確率を説明変数に関連づけるためにXLSTATで提案されるモデルは,2項場合に提案された4つのモデルのうちの1つであるロジット・モデルである.

線形回帰とは異なり,正確な解析解は存在しない.XLSTATは解を繰り返しで発見するNewton-Raphsonアルゴリズムを使用する.

順序ロジスティック回帰

順序ロジスティック回帰の原理は,J個の順序代替値をとり得る変数(差ではなく,順序のみが重要)を説明変数の線形結合の関数として,説明または予測することである.2項ロジスティック回帰は,J=2の場合に対応する順序ロジスティック回帰の特殊例である.

XLSTATは説明変数を与えて,カテゴリへの割り当ての確率を計算するために2つの代替モデルを使用する: logit(ロジット)モデルおよびprobit(プロビット)モデル. 

線形回帰とは異なり,正確な解析解は存在しない.したがって,繰り返しアルゴリズムの使用が必要である.XLSTATNewton-Raphsonアルゴリズムを使用する.

XLSTATでのロジスティック回帰の結果

XLSTATは結果を分析して解釈することを助けるために,たくさんの表やグラフを表示する.

要約統計: この表は,選択されたすべての変数の記述統計を表示する.量的変数では,欠損値の数,非欠損値の数,平均および標準偏差(不偏)が表示される.従属変数を含む質的変数では,カテゴリとそれぞれの度数およびパーセンテージが表示される.

相関行列: この表は,説明変数間の相関を表示する.従属変数がバイナリの場合,量的説明変数と従属変数の間の相関を計算するために,双列相関係数が使用されることに注意.

変数選択の要約: 選択手法が選ばれた場合,XLSTATは選択の要約を表示する.ステップワイズ選択では,さまざまなステップに対応する統計量が表示される.変数の数が p から qの場合,変数の数のそれぞれで最良モデルが対応する統計量とともに表示され,選ばれた基準での最良モデルが太字で表示される.

適合度係数: この表は,独立モデル(線形変数の線形結合が定数に縮約されるケースに対応)および調整済みモデルの一連の統計量を表示する.

  • オブザベーション: 考慮に入れるオブザベーションの合計数(オブザベーションの重みの合計);
  • 重みの合計: 考慮に入れるオブザベーションの合計数(回帰で重みが乗算されるオブザベーションの重みの合計);
  • DF: 自由度;
  • -2 Log(Like.): モデルに関連づけられや尤度関数の対数;
  • R² (McFadden): R²のような01 の係数で, モデルがどれだけよく調整されているかを定量化する. この係数は,1 - (独立モデルの尤度に対する調整済みモデルの尤度の比)に等しい;
  • R²(Cox and Snell): R²のような01 の係数で,モデルがどれだけよく調整されているかを定量化する.この係数は,1- (独立モデルの尤度の2/Sw乗に対する調整済みモデルの尤度の比)に等しい.ここでSw は重みの合計である;
  • R²(Nagelkerke): R²のような01 の係数で,モデルがどれだけよく調整されているかを定量化する.この係数は, Cox and Snell1 – (独立モデルの尤度の2/Sw乗)で割った比等しい;
  • AIC: 赤池情報量基準;
  • SBC: Schwarzのベイジアン基準.
  • 繰り返し: 収束までの繰り返しの回数..

帰無仮説 H0: Y=p0の検定: H0仮説は,説明変数の値が何であれ,確率p0を与える独立モデルに対応する.調整済みモデルがこのモデルよりも有意に強力であるかどうかを確認しようとする.3つの検定が利用可能である: 尤度比検定 (-2 Log(Like.)),スコア検定およびWald検定.3つの統計量は,自由度が示されるカイ2乗分布に従う.

Type II 分析: この表は,複数の説明変数がある場合にのみ有用である.ここで,調整済みモデルは,問題の表の行中の変数が除去されたテスト・モデルに対して検定される.確率 Pr>LR が設定された (通常 0.05)有意しきい値よりも小さければ,,モデルの調整へのその変数の寄与度が有意である.それ以外は,モデルから除去される.

モデル・パラメータ:

  • バイナリの場合: モデルの定数と各変数について,パラメータ推定,対応する標準偏差,Waldのカイ2乗,対応するp値,および信頼区間が表示される.対応するオプションが有効にされた場合,"プロファイル尤度"区間も表示される.
  • 多項の場合: 多項の場合,(J-1)*(q+1) 個のパラメータが得られる.ここで J はカテゴリの数で,はモデル中の変数の数である.そして,各説明変数について,および,応答変数の各カテゴリについて(参照カテゴリを除く),パラメータ推定,対応する標準偏差,Waldのカイ2乗,対応するp値および信頼区間が表示される.オッズ比も対応する信頼区間とともに表示される.
  • 順序の場合: 順序の場合, (J-1)+q 個のパラメータが得られる.ここで J はカテゴリの数で,pはモデル中の変数の数である.そして,各説明変数について,および,応答変数の各カテゴリについて,パラメータ推定,対応する標準偏差,Waldのカイ2乗,対応するp値および信頼区間が表示される.

そして,モデルを読んだり再利用したりするのを簡単にするために,モデルの式が表示される.

標準化係数(ベータ係数ともいう)の表は,変数の相対重みを比較するのに使用される.係数の絶対値が高いほど,対応する変数の重みがより重要である.標準化係数のまわりの信頼区間が値0を含むとき(これは標準化係数のグラフで簡単に見ることができる),モデルの変数の重みは有意でない.

そして,リクエストされた場合,パラメータの共分散行列が表示される.

そして,説明変数の平均に対応するポイントでの限界効果が表示される.限界効果は,互いに比較するのが主な関心である.それらを比較することにより,与えられたポイントでの各変数の相対影響度を定量化できる.影響度は,従属変数での各説明変数の小さな変動の影響として解釈できる.デルタ法を用いて計算された信頼区間が表示される.XLSTATは,量的変数と質的変数の両方の結果を提供する.単純な要因または交互作用.質的については,限界効果はカテゴリの変化(最初のカテゴリから関心のカテゴリへの)の影響度を示す.

予測値と残差の表は,各オブザベーションについて,その重み,量的説明変数の値(1個だけある場合),従属変数の観察値,モデルの予測値,重みで割った値(合計(バイナリ)ケース),従属変数の各カテゴリの確率,および信頼区間(多項の場合)を示す.

影響度診断の表は,モデルの品質での,またはモデルの係数の値での各オブザベーションの影響度を評価することを可能にする.これは2項または多項の場合にのみ表示される.

この分類表は,両カテゴリについて,正しく分類されたオブザベーションの数と間違って分類されたオブザベーションの数を示す表を表示する.感度,特異度および正しく分類されたオブザベーションの全体パーセンテージも表示される.検証標本が抽出された場合,この表は,検証データについても表示される.

ROC 曲線: ROC曲線は,曲線の下側の領域(AUC)で,モデルの性能を評価し,複数のモデルを比較するために使用される.

質的変数のカテゴリの比較: 1個または複数の質的説明変数が選択された場合,さまざまな質的変数のカテゴリの対でとられたパラメータについて,同等性検定の結果が表示される.

量的変数が1個だけ選択された場合,確率分析表で,説明変数のどの値が,どの成功の確率に対応するかを見ることができる.

のような01 の係数で,モデルがどれだけよく調整されているかを定量化する.この係数は,1 - (独立モデルの尤度に対する調整済みモデルの尤度の比)に等しい

ternary diagramneural network diagram

Excelで動作する統計解析ソフトウェア。

14日間無償トライアルあり。