ガウス混合モデル

ガウス混合モデルとは何か?

混合モデルの最初の参考文献は、1894年のPearson に始まるが、それらの開発は1978年のDempsterらのEM アルゴリズム(Expectation Maximization:期待値最大化)に大部分拠っている。

これらの手法は、共通してクラスタリングの目的で使用される。それらは、各成分がクラスタを表現するとみなすことによるデータの分割を評価するための枠組みを提供できる。これらのモデルには2つの主な利点がある:

  • オブザベーションのファジィなクラス分類を得るための確率的手法である。各クラスタに属する確率が計算されて、クラス分類は通常、各オブザベーションが最も属しそうなクラスタを評価することによって達成される。 これらの確率は、疑わしいクラス分類を解釈するためにも使用できる。
  • 混合モデリングは、とても柔軟である。

混合モデルの目的は、データセットを複数のクラスタに構造化することである。XLSTAT は、ガウス分布の混合を使用することを提案する。

XLSTATでの混合モデル

Celeux らの固有値分解(eigenvalue decomposition )による共分散行列をコントロールすることにより、XLSTAT はoffers 14 種類のガウス混合モデルを提供する。混合比率を等しくするように強制することも可能である。

XLSTAT で混合モデルに使用される推論アルゴリズム

 XLSTAT は、14種のモデルのガウス・パラメータを推定するために、3種類の推論アルゴリズムを使用することができる:

  • EM: これは、混合モデルで推論に使用される標準のアルゴリズムである。
  • SEM: これは EM アルゴリズムの確率バージョンである。オブザベーションをクラスタに割り当てる確率ステップを追加する。このアルゴリズムは、空のクラスタを導き、パラメータ推定を邪魔することがある。
  • CEM: これは EM アルゴリズムのクラス分類バージョンである。MAP ルール (Maximum A Posteriori)によってオブザベーションをクラスタに割り当てるために、クラス分類ステップが追加される。このアルゴリズムは、空のクラスタを導き、パラメータ推定を邪魔することがある。

XLSTATにおける成分数の選択

 実践では、しばしば成分の数は未知であり、 XLSTAT は、成分の数を推定する4種類の基準を提供する:

  • BIC: ベイジアン情報量基準は、ペナルティ付き尤度ベース基準である。これが混合モデルでは一般的に使用される。
  • AIC: 赤池情報量基準は、ペナルティ付き尤度ベース基準である。この基準は成分の数を多く見積すぎる傾向がある。
  • ICL: 統合完備化尤度(Integrated Complete Likelihood)は、 ペナルティ付き尤度ベース基準で、エントロピーによってペナルティを課すBIC である。この基準は、十分に分離したクラスタを提供することに焦点を当てている。一般的に、選択される成分の数は BIC のそれよりも少ない。
  • NEC: 規格化エントロピー基準(Normalized Entropy Criterion)。この基準は、十分に分離したクラスタを提供するモデルを探す。 NEC は、1つの成分を持つモデルについては定義されていない。この基準は、共分散行ではなく、成分の数を選択するために使用される。

 XLSTATでの混合モデルの結果

 XLSTAT は、混合モデルについて下記の結果を提供する:

  • 選択されたモデルの集合とユーザーによって定義された範囲の成分数での選択基準の値。
  • モデル・パラメータの推定:  選択されたモデルのクラスタごとに混合比率、平均、分散。
  • 選択されたモデルのいくつかの特徴: BIC, AIC, ICL, 対数尤度, NEC, エントロピー, DF。
  • 各クラスタに属する確率と MAP クラス分類。

1次元の場合では、XLSTAT は2つの診断プロットを提供する:

  • 推定された累積分布関数に対する経験累積分布関数のプロット。
  • 経験分布の四分位と推定された混合分布の間のQ-Q プロット。