潜在クラス・回帰モデル

潜在クラス分析とは?

潜在クラス分析(LCA)は、ケースの観察されていない(潜在の)サブ・グループまたはセグメントである潜在クラスの構築に関与する。潜在クラスは、インジケータ変数の集合でのケースの観察された(顕在の)応答に基づいて構築される。同じ潜在クラス内のケースは、これらのインジケータでの応答に関して均質であるが、一方、異なる潜在クラスに属するケースは、応答のパターンにおいて異なっている。 正式には、潜在クラスは、名義潜在変数XのK個のカテゴリによって表現される。潜在変数がカテゴリカルであるので、潜在クラス・モデリングは、連続潜在変数に基づく因子分析や構造方程式モデル、変量効果回帰のような従来の潜在変数アプローチてとは異なっている。 

XLSTAT-LG は、Statistical Innovationsinc.のLatent Gold®ソフトウェアに基づいています。

潜在クラス回帰モデルとは?

潜在クラス回帰モデル:

  • 従属変数を予測変数の関数として予測するのに使用される(回帰モデル)。
  • ケースをクラスタするK個のカテゴリを持つ潜在変数 X を含む (LC model)。
  • 各カテゴリは、同一の回帰係数(LC 回帰モデル)を持つ均質なサブグループ(セグメント)を表す 。
  • 各ケースは、複数のレコードを含むことができる(反復測定による回帰)。
  • 従属変数の尺度タイプによって、適切なモデルが推定される:
    1. 連続: 線形回帰モデル(正規分布する残差を持つ)。
    2. 名義(2水準より多くを持つ):  多項ロジスティック回帰。
    3. 順序(2順序水準より多くを持つ): 隣接カテゴリ順序ロジステイック回帰モデル。
    4. 計数(カウント): 対数線形ポアソン回帰。
    5. 二項カウント: 二項ロジスティック回帰モデル。

XLSTAT-LG は、さまざまな数のクラスによるさまざまなモデル上で、自動的に計算が起動できる。また、これはモデルの計算に使用されるEM(Expectation-Maximization )アルゴリズムやNewton-Raphson アルゴリズムでのベイズ定数、ランダムな初期値の設定、繰り返しパラメータなどを最適化することも可能である。

 

結果

XLSTAT-LG は、モデルごとに1つのセクションを提供する(各モデルは、特定の数のクラスを表現している):

モデルの要約統計: モデルの計算に使用されたケースの数、計算されたパラメータの数、 開始の設定数 =0 を用いて、より素早く現在のモデルを再現できるシードおよびベスト・シード。

計算の要約:  Expectation-Maximization および Newton-Raphson アルゴリズムのそれぞれについて、XLSTAT は、使用された繰り返し数、対数事後確率、尤度比適合度値、最終の収束値をレポートする。

カイ2乗統計:

  • 現在のモデルの尤度比適合度値 (L²) と関連するブートストラップp値。
  • X2 および Cressie-Read。これらはL2 の代替で、指定されたモデルが有効でデータがスパース(疎)でないなら、大規模サンプル理論によって、より簡単なp値が得られる。
  • BIC, AIC, AIC3 および CAIC および SABIC (L²に基づく)。これらの統計量(情報量基準)は、モデル中のパラメータの数を考慮する ために、LLを修正することによって、適合および節減を重みづけする。値が低いほど、より良いモデルである。
  • 非類似指標: 観察されたセルおよび推定されたセルの度数が他よりもどれだけ異なっているかを示す記述測度。これは、完全な適合を得るために、他のセルに移動する必要のあるサンプルの割合を示す。

対数尤度統計: 

  • 対数尤度、対数事前確率(ベイズ定数に関連)、対数事後確率。
  • BIC, AIC, AIC3, CAIC および SABIC (LLに基づく)。これらの統計量(情報量基準)は、モデル中のパラメータの数を考慮するために、LLを修正することによって、適合と節減を重みづけする。値が低いほど、より良いモデルである。

クラス分類統計: 

  • 分類誤差(モーダル割り当てに基づく)。
  • 誤差の低減(ラムダ)、エントロピー R²、標準 R²。 これらの疑似 R2乗統計は、観察された変数(インジケータおよび共分散)に基づいて、クラス・メンバーシップがどれだけ良く予測できるかを示す。値が1に近いほど、より良い予測である。
  • 真のクラス・メンバーシップがわかっているという仮定のもとでのクラス分類対数尤度。
  • AWE (BICに似ているが、クラス分類性能も考慮する)。
  • エントロピー。
  • CLC。

分類表:

  • モーダル表: モーダル・クラス割り当てのクロス表。
  • 比率表: 確率クラス割り当てのクロス表。

予測統計表:

この表の列は、下記の内容である:

  • ベースライン・モデル(ヌル・モデルともいう)の予測誤差。
  • モデル: 推定モデルの予測誤差。
  • R2: ベースライン。モデルに対する推定モデルの誤差低減比率

この表の行は、下記の内容である:

  • 2乗誤差: 2乗誤差に基づく平均予測誤差。
  • マイナス対数尤度: マイナス対数尤度に基づく平均予測誤差。
  • 絶対誤差: 絶対誤差に基づく平均予測誤差。
  • 予測誤差: 予測誤差の比率に基づく平均予測誤差(カテゴリカル変数のみ)

予測表: 名義および順序従属変数では、観察値とそれに対する推定値をクロス分類する予測表が提供される。

パラメータ表:

  • R2: 特定クラスおよび全体の R2 値。全体 R2 は、従属変数がモデルによってどれだけ良く全体的に予測されているかを示す(予測統計に現れるのと同じ速度)。順序、連続、(二項)カウントでは、標準R測度がある。名義従属変数では、これらは別々の二分応答変数として扱われる各カテゴリでの別々のR2 測度の加重平均として重み付き平均として現れる。
  • 切片: 線形回帰式の切片。
  • s.e.: パラメータの標準誤差。
  • z値: パラメータ検定に対応するz検定統計量。
  • Wald: 任意の変数に関するパラメータ推定の集合の統計的有意度を評価するため、Wald統計量が出力に提供される。とlくに、各変数について、 Wald統計量は、その集合中のパラメータ推定のそれぞれがゼロに等しいという制約を検定する(名義として指定された変数では、集合は、その変数の各カテゴリのパラメータを含む)。回帰モデルでは、複数のクラスが推定された場合、デフォルトで、2つのWald 統計量 (WaldWald(=)) が提供される。パラメータ推定の各集合について、Wald(=) 統計量は各クラスに関する部分集合を考慮し、部分集合中の各パラメータが、他の各クラスに関する部分集合中の対応するパラメータに等しいという制約を検定する。つまり、Wald(=) 統計量は、クラス間の回帰効果の各衆愚の同質性を検定する。
  • p値: 推定に関する有意度の測度。
  • 平均: 回帰係数の平均。
  • Std.Dev: 回帰係数の標準偏差。

クラス分類: 各オブザベーションごとに、現在のモデルに基づく事後クラス・メンバーシップとモーダル割り当てを出力。 

 

参考文献

Vermunt, J.K. (2010). Latent class modeling with covariates: Two improved three-step approaches. Political Analysis, 18, 450-469. Link: http://members.home.nl/jeroenvermunt/lca_three_step.pdf

Vermunt, J.K., and Magidson, J. (2005). Latent GOLD 4.0 User's Guide. Belmont, MA: Statistical Innovations Inc.  http://www.statisticalinnovations.com/technicalsupport/LGusersguide.pdf

Vermunt, J.K., and Magidson, J. (2013). Technical Guide for Latent GOLD 5.0: Basic, Advanced, and Syntax. Belmont, MA: Statistical Innovations Inc.  http://www.statisticalinnovations.com/technicalsupport/LGtechnical.pdf

Vermunt, J.K., and Magidson, J. (2013). Latent GOLD 5.0 Upgrade Manual. Belmont, MA: Statistical Innovations Inc.  
http://statisticalinnovations.com/technicalsupport/LG5manual.pdf


含まれる機能: