潜在クラス・クラスタ・モデル

潜在クラス分析とは?

潜在クラス分析は、ケースの観察されていない(潜在の)サブ・グループまたはセグメントである潜在クラスの構築に関与する。潜在クラスは、インジケータ変数の集合でのケースの観察された(顕在の)応答に基づいて構築される。同じ潜在クラス内のケースは、これらのインジケータでの応答に関して均質であるが、一方、異なる潜在クラスに属するケースは、応答のパターンにおいて異なっている。 正式には、潜在クラスは、名義潜在変数XのK個のカテゴリによって表現される。潜在変数がカテゴリカルであるので、潜在クラス・モデリングは、連続潜在変数に基づく因子分析や構造方程式モデル、変量効果回帰のような従来の潜在変数アプローチとは異なっている。 

XLSTAT-LG は、Statistical Innovations inc.の Latent Gold® ソフトウェアに基づいています。

 

潜在クラス・クラス・モデルとは?

潜在クラス・クラスタ・モデル:

  • 各カテゴリがクラスタを表しているK個のカテゴリを持つ名義潜在変数 X に関係する。
  • 各クラスタは、共通の興味、価値、特徴および行動を共有する(すなわち、共通のモデル・パラメータを共有する)人(ケース)の均質なグループである。
  • これらの興味、価値、特徴および行動は、潜在クラスを派生させる観察変数(インジケータ)Yを構成する。

XLSTAT-LG は、さまざまな数のクラスによるさまざまなモデル上で、自動的に計算が起動できる。また、これはモデルの計算に使用されるEM(Expectation-Maximization )アルゴリズムやNewton-Raphson アルゴリズムでのベイズ定数、ランダムな初期値の設定、繰り返しパラメータなどを最適化することも可能である。

 

従来のクラスタリング手法に対する潜在クラス・クラスタ・モデルの利点

従来のアドホック(暫定)タイプのクラスタ分析手法に対する潜在クラス・クラスタ・モデルの利点は、モデル選択基準や確率ベースのクラス分類である。 事後メンバーシップ確率が、モデル・パラメータから直接計算され、 ケースをモーダルなクラス(事後確率が最も高いクラス)に振り分けるために使用できる。

さらに、これは同じモデル内にさまざまな尺度(連続、順序、名義)の変数を含めることができる。これらの変数は、インジケータと呼ばれる。

潜在クラス・クラスタ・モデルの特別な特性は、観察される変数(インジケータ)から直接、これらの事後メンバーシップ確率を計算するための式が得られる能力である。この式は、スコアリング方程式と呼ばれる。これは、すでに計算されたLCクラスタ・モデルに基づいて、新しいケースをスコアするのに使用できる。つまり、この式は、新しいケースを観察された変数の関数として、最もふさわしい潜在クラスに分類するために使用できる。この機能は、LC モデルに特有のものであり、他のどのクラスタリング手法にもない。

 

結果

XLSTAT-LG は、モデルごとに1つのセクションを提供する(各モデルは、特定の数のクラスを表現している):

モデルの要約統計: モデルの計算に使用されたケースの数、計算されたパラメータの数、 開始の設定数 =0 を用いて、より素早く現在のモデルを再現できるシードおよびベスト・シード。

計算の要約:  Expectation-Maximization および Newton-Raphson アルゴリズムのそれぞれについて、XLSTAT は、使用された繰り返し数、対数事後確率、尤度比適合度値、最終の収束値をレポートする。.

カイ2乗統計:

  • 現在のモデルの尤度比適合度値 (L²) と関連するブートストラップp値。
  • X2 および Cressie-Read。これらはL2 の代替で、指定されたモデルが有効でデータがスパース(疎)でないなら、大規模サンプル理論によって、より簡単なp値が得られる。
  • BIC, AIC, AIC3 および CAIC および SABIC (L²に基づく)。これらの統計量(情報量基準)は、モデル中のパラメータの数を考慮する ために、LLを修正することによって、適合および節減を重みづけする。値が低いほど、より良いモデルである。
  • 非類似指標: 観察されたセルおよび推定されたセルの度数が他よりもどれだけ異なっているかを示す記述測度。これは、完全な適合を得るために、他のセルに移動する必要のあるサンプルの割合を示す。

対数尤度統計: 

  • 対数尤度、対数事前(ベイズ定数に関連)、対数事後。
  • BIC, AIC, AIC3, CAIC および SABIC (LLに基づく)。これらの統計量(情報量基準)は、モデル中のパラメータの数を考慮するために、LLを修正することによって、適合と節減を重みづけする。値が低いほど、より良いモデルである。

クラス分類統計: 

  • 分類誤差(モーダル割り当てに基づく)。
  • 誤差の低減(ラムダ)、エントロピー R²、標準 R²。 これらの疑似 R2乗統計は、観察された変数(インジケータおよび共分散)に基づいて、クラス・メンバーシップがどれだけ良く予測できるかを示す。値が1に近いほど、より良い予測である。
  • 真のクラス・メンバーシップがわかっているという仮定のもとでのクラス分類対数尤度。
  • AWE (BICに似ているが、クラス分類性能も考慮する)。
  • エントロピー。
  • CLC。

分類表:

  • モーダル表: モーダル・クラス割り当てのクロス表。
  • 比例表: 確率クラス割り当てのクロス表。

プロファイル表:

  • クラスタの数
  • インジケータ: クラスタが名義または順序インジケータ変数にどのように関係しているかを示す(周辺)条件付き確率を格納する表の中身。これらの確率は、合計して 1 になる。連続として指定されたインジケータについては、確率の代わりに平均を格納する表の中身。順序として指定されたインジケータについては、各クラスタ(列)内の条件付き確率に加えて、平均が表示される。
  • (周辺)条件付き確率の標準誤差。

プロファイル出力に現れる確率と平均は、プロファイル・プロットにグラフィカルに表示される。

度数 / 残差:

観察された度数(および残差) vs. 推定された期待度数(および残差)の表。注意: 2より大きい度数を持つ残差は、統計的に有意である。この出力は、1個またはそれ以上の連続インジケータの場合、レポートされない。

2変量残差: モデルの2変量残差 (BVRs) を格納している表。 大きな BVRは、ローカルな独立仮定に「違反していることを示唆する。

スコアリング方程式: 多項ロジット・モデルに関する回帰係数。

クラス分類: 現在のモデルに基づいて、各オブザベーションについて、事後クラス・メンバーシップおよびモーダル割り当てを出力。. 

 

参考文献

Vermunt, J.K. (2010). Latent class modeling with covariates: Two improved three-step approaches. Political Analysis, 18, 450-469. Link: http://members.home.nl/jeroenvermunt/lca_three_step.pdf

Vermunt, J.K., and Magidson, J. (2005). Latent GOLD 4.0 User's Guide. Belmont, MA: Statistical Innovations Inc.  http://www.statisticalinnovations.com/technicalsupport/LGusersguide.pdf

Vermunt, J.K., and Magidson, J. (2013). Technical Guide for Latent GOLD 5.0: Basic, Advanced, and Syntax. Belmont, MA: Statistical Innovations Inc.  http://www.statisticalinnovations.com/technicalsupport/LGtechnical.pdf

Vermunt, J.K., and Magidson, J. (2013). Latent GOLD 5.0 Upgrade Manual. Belmont, MA: Statistical Innovations Inc. 
http://statisticalinnovations.com/technicalsupport/LG5manual.pdf

 


含まれる機能: