バイナリ応答データおよび多値変数のロジスティック回帰 (Logit, Probit)

ロジスティック回帰の原理

ロジスティック回帰は,バイナリ変数,バイナリ変数の合計,または多値変数(2つ以上のカテゴリを持つ変数)をモデルすることができるのでよく使用される.医療分野(患者がよくなるか否か),社会学(調査分析),疫学および薬学,定量的マーケティング(商品がある行動に従って購入されるか否か),金融におけるリスクのモデル(スコアリング)などにおいてよく使用される.

.ロジスティック回帰モデルの原理は,イベントの生起または非生起を説明変数にリンクさせることである.

ロジスティック回帰のモデル

ロジスティックおよび 線形回帰は,いわゆる一般化線形モデル(GLM :Generalized Linear Models)という同じモデルのファミリーに属する:両方とも,イベントが説明変数の線形結合にリンクされる.

線形回帰では,従属変数は正規分布N (µ, s) に従う.ここで, µ は説明変数の線形関数である.ロジスティック回帰では,従属変数(応答変数ともいう)は,実験が1回の場合のパラメータ p (p はイベントが生起するであろう平均確率)でのベルヌーイ分布,または実験がn 回繰り返された(たとえばn 匹の虫に同じ投与を試みる)場合の2項(n, p)分布に従う.ここで確率パラメータpは,説明変数の線形結合となる.

説明変数に確率p をリンクするために使用される必須で共通の関数は,ロジスティック関数(ロジット・モデルという)および標準正規分布関数(プロビット・モデル)である.これらの関数の両方とも,完全に対称でかつシグモイドである:XLSTAT はさらに他の2つの関数を提供する:complementary Log-log 関数は上側の漸近線により近い.一方,ゴンベルツ(Gompertz)関数は横軸により近い.

モデルの解析式を以下に示す:

  • Logit: p = exp(βX) / (1 + exp(βX))
  • Probit: p = 1/√2π ∫-∞...βX exp(-x²/2)∂x
  • Complementary Log-log: p = 1 – exp[-exp(βX)]
  • Gompertz: p = exp[-exp(βX)]

ここで  βX は,変数の線形結合(定数を含む)を表す

調査しているイベントの分布の知識は,標本の尤度を与える.モデルの βパラメータ(線形関数の係数)を推定するために,我々は尤度関数を最大化しようとする.

線形回帰と異なり正確な解析解は存在しない.したがって,繰り返しアルゴリズムが使用される.XLSTAT はNewton-Raphson アルゴリズムを使用する.ユーザーは,必要に応じて,繰り返しの最大数と収束しきい値を変更できる.

分離問題

上記の事例では, 陽性と陰性のケースの間で明確な区別をするために処理変数(treatment variable)が使用される,

 処理 1処理 2
応答 +1210
応答 -085

このような場合,1つまたはそれ以上のパラメータで, どれが分散をできるだけ高くし,どれが収束しきい値を低くし,どれがパラメータの信頼区間を抑えるか,不確定性がある.この問題を解決して,安定した解を得るために,Firth (1993) は,ペナルティ付き尤度(penalized likelihood )関数を提案した.XLSTAT は,オプションとしてこのソリューションを提供しHeinze (2002)が提案した結果を使用する.パラメータの1つの標準偏差が,そのパラメータの推定と比較してとても高い場合,"Firth" オプションを有効にして,計算を再開することを推奨する.

多項ロジットモデル

従属変数が3つ以上のカテゴリを持つ場合に対応する多項ロジットモデルは,応答変数が3つ以上のカテゴリが持つので,ロジットモデルとは異なるパラメータ化を用いる.これは,いくつかの説明変数がわかっていてJ 個のカテゴリの1つを選ぶ確率に焦点をあてる.

モデルの解析を次に示す: Log[p(y =j | xi) / p(y =1 | xi)] = αj + βjXi

ここでカテゴリ 1 は,参照またはコントロール・カテゴリと呼ばれる.得られるすべてのパラメータは,この参照カテゴリと相対的に解釈されなければならない.カテゴリ j を選ぶ確率は:: p(y =j | xi) = exp(αj + βjXi) / [1 + Σk=2..J exp(αk + βkXi)]

参照カテゴリでは,次式を用いる: p(y =1 | xi) = 1 / [1 + Σk=2..J exp(αk + βkXi)]

モデルは,最尤法を用いて推定される;対数尤度は次式である: l(α,β) = Σi=1..nΣj=1..J yij log(p(y=j|xi))

モデルの βパラメータ(線形関数の係数)を推定するために,尤度関数を最大化しようとする.線形回帰とは異なり,正確な解析解は存在しない.XLSTAT は,繰り返し手順で解を発見するためにNewton-Raphson アルゴリズムを使用する.

ロジスティック回帰について表示されたいくつかの結果は,多項ケースの場合には適用できない.

ロジスティック回帰の信頼区間

パラメータの信頼区間の計算は,パラメータが正規分布しているとい線形回帰の仮定と同様である.XLSTATは,パラメータが正規分布するという仮定を必要としない,より信頼性の高い代替"プロファイル尤度"法も提供する.

ロジスティック回帰の結果

XLSTAT は,任意のカットオフ・ポイントで正しく分類されたオブザベーションのパーセンテージを計算するために用いる分類表(混同行列ともいう)を表示できる.通常,0.5のカットオフ・ポイントで,確率が0.5よりも低ければ,オブザベーションは,クラス0に割り当てられ,それ以外はクラス1に割り当てられるとみなされる.

ROC曲線も表示できる.ROC 曲線(Receiver Operating Characteristics)は,モデルの性能を表示し,他のモデルとの比較もできる.用語は信号検出理論に由来する.

正しく分類された陽性イベントの比率は,感度と呼ばれる.特異度は,正しく分類された陰性イベントの比率である.

XLSTATでのロジスティック回帰の結果

  • 応答変数のカテゴリと確率の間の対応: この表は,従属変数のそのカテゴリが確率0 および 1に割り当てられたかを示す.
  • 変数選択の要約: 選択手法が選ばれた場合,XLSTAT は選択の要約を表示する.ステップワイズ選択では,各ステップに対応する統計量が表示される.p 個から q 個の変数の数でベストモデルが選択された場合,対応する統計量とともに変数の各数についてベストモデルが表示され,基準として選ばれたベストモデルが太字で表示される.
  • 適合度係数: この表は,独立モデル(説明変数の線形結合を定数に低減した場合に対応)および修正されたモデルに関する一連の統計量を表示する.
    • オブザベーション:考慮に入れられたオブザベーションの合計数(オブザベーションの重みの合計);
    • 重みの合計:考慮に入れられたオブザベーションの合計数(回帰において重みがかけられたオブザベーションの重みの合計);
    • DF: 自由度;
    • -2 Log(Like.): モデルに関係する尤度関数の対数;
    • R² (McFadden): モデルがどれだけ正しく修正されたかを測定する0 から 1 の間のR2のような係数.この係数は, 1 から独立モデルの尤度に対する修正モデルの尤度の比率を引いたものに等しい;
    • R²(Cox and Snell): モデルがどれだけ正しく修正されたかを測定する0 から 1 の間のR2のような係数.この係数は,1 から独立モデルの尤度の2/Sw乗に対する修正モデルの尤度の比を引いたものに等しい.ここでSw は重みの合計である.
    • R²(Nagelkerke): モデルがどれだけ正しく修正されたかを測定する0 から 1 の間のR2のような係数.この係数は,Cox and SnellのR²を1から独立モデルの尤度の2/Sw乗を引いたもので割った比率に等しい;
    • SBC: のベイジアン基準.
  • 帰無仮説 H0:Y=p0の検定: H0 仮説は,説明変数の値が何であれ,確率p0を仮定する独立モデルに対応する.我々は,修正モデルがこのモデルよりも有意に強力であることを確認しようとする.3つの検定がある:尤度比検定 (-2 Log(Like.)),スコア検定,Wald 検定.3つの統計量は,自由度が示されているカイ2乗分布に従う.
  • Type III分析: この表は,複数の説明変数がある場合に有用である.ここでは,修正モデルが表の行中の問題の変数が除去された場合のテスト・モデルに対して検定される.確率 Pr > LR が,設定された有意度しきい値(通常0.05)より小さいなら,モデルの修正に対するその変数の寄与が有意である.それ以外の場合,それはモデルから除去される.
  • モデル・パラメータ:
    • バイナリ・ケース: パラメータ推定,対応する標準偏差,Waldのカイ2乗,対応するp-値,および信頼区間が,モデルの定数および各変数ごとに表示される.対応するオプションが有効になっている場合,"profile likelihood" 区間も表示される.
    • 多項ケース: .多値の場合では,(J-1)*(p+1) パラメータが得られる.ここで J はカテゴリの数で, p はモデル中の変数の数である.したがって,各説明変数ごと,および応答変数の各カテゴリごと(参照カテゴリを除く)に,パラメータ推定,対応する標準偏差,Waldのカイ2乗,対応するp-値,および信頼区間が表示される.オッズ比と対応する信頼区間も表示される.

    注意: PCR ロジスティック回帰では,モデル・パラメータの最初の表は,選択された主成分を使用したモデルのパラメータに対応する.この理由から,初期変数に対応するモデル・パラメータを得るために,変換が実行される.

  • モデル式: モデルの方程式 が,モデルを読んだり,再利用したりしやすくするために表示される.
  • 標準化係数の表: 標準化係数の表は,変数の相対重みを比較するために用いられる.係数の絶対値が高いほど,対応する変数の重みより重要である.標準化係数の信頼区間が値0を持つ場合(これは標準化係数のグラフ上で簡単に見られる),モデル中の変数の重みは有意でない.
  • 予測値と残差の表: 予測値と残差の表は,各オブザベーションについて,その重み,質的説明変数の値,従属変数の値が1つだけ観察された場合,モデルの予測値,重みで割った値,標準化残差,信頼区間が示される.
  • 分類表: 両方のカテゴリで正しく分類されたオブザベーションのパーセンテージを示す表を表示するには,このオプションを有効にする.検証標本が抽出された場合は,この表は検証データも表示する.
  • ROC 曲線:  ROC 曲線は,曲線の下の領域(AUC) によってモデルの性能を評価し,複数のモデルを比較するために使用される(詳細は解説の節を参照).
  • 質的変数のカテゴリの比較: 1つまたはそれ以上の説明変数が選択された場合,さまざまな質的変数のカテゴリから対で取り出されたパラメータごとに等質性検定の結果が表示される.
  • 確率分析表: 量的変数が1つだけ選択された場合, 確率分析表で,説明変数のどの値が,任意成功確率に対応するかを見ることができる.