ファジィk-meansクラスタリング

量的変数の集合で説明される均質なグループを作成するためにファジィk-means クラスタリングを使用する。

ファジィ・クラスタリングは、クラスタ同士が近接しているか重なり合っているかの理由で、あいまいな境界を持つクラスタを作成するのに用いられる。この手法は、1973年に Dunnにより、そして1981年に Bezdek[4]によって提唱された。 これはサブ・クラスタをハイライトすることができ、高いクラスタ数でデータを処理することにより、正しいクラスタ数の推定値を予測することさえできる。ファジィk-meansは、伝統的なk-meansの一般化である。 

XLSTATでのファジィk-means クラスタリングのオプション

非類似度指標とクラスタリング基準

解に達するために複数の非類似度指数を使用できる。XLSTATは、 Chuanren Liu, Tianming Huy, Yong Gez および Hui Xiongx [5]が詳細化した3つの距離を提供する:

  • コサイン非類似度: コサイン非類似度は、球形 k-means を特徴づける距離であり、2つのオブザベーションの間の角度のコサインに基づく。角度が広いほど、コサイン非類似度がより1に近づく。1 は 90°の角度にあり、 オブザベーション間で共有される変数がないことを意味する。 スケーリング効果が小さくなければならないテキスト分析の場合、コサイン非類似度が推奨される。
  • Jaccard 非類似度: この距離は、拡張Jaccard 指数に基づく。基本のJaccard 指標は、これらのオブザベーション間のバイナリ結合の上で、2個のバイナリベクトルのバイナリ交差領域を計算する。拡張Jaccard 指数は、同じことをするが、ベクトルの値を重みとみなす。計算を最適化するために、コサイン類似度で拡張Jaccard 指数を基底とする。
  • ユークリッド距離: ユークリッド距離は統計解析で一般的に使用されており、ほとんどの場合、妥当な結果を生み出す。ただし、それは最適化プロセスに起因することであり、スパースなデータでは、他の2つの距離が推奨されることに注意されたい。

クラスタリング基準QQ (または目的関数)

クラスタリング基準 QQ (または目的関数)は、クラスタリング距離に応じて計算される: ユークリッド距離では3つの選択がある (Trace(W), Determinant(W), Wilks' Lambda)、一方、Jaccard指数では、我々は Trace(W)を用い、コサイン非類似では各オブザベーションと、μ と mによる重みづけ中心との間の距離の合計を用いる。

クラスタリングの種類

ハード: ハードなk-means アルゴリズムを計算するには、このオプションを選択してください。

ファジィ: ファジィなk-means アルゴリズムを計算するには、このオプションを選択してください。デフォルトのファジィ度係数は1,05です。

XLSTATでのファジィk-meansクラスタリングの結果

全体の結果

要約表: 各クラスタリングの要約を表示するには、このオプションを有効にしてください。これはクラスタ数、繰り返し数、クラスタ基準、クラス内およびクラス間の平方和、シルエットの平均幅を含みます。

記述統計量: 選択された変数の記述統計量を表示するには、このオプションを有効にしてください。

クラスタ・サイズ: 各クラスタのオブザベーション数を表示するには、このオプションを有効にしてください。

クラスごとの結果

中心: クラスタ座標を表示するには、このオプションを有効にしてください。

中心オブジェクト: 各クラスのセントロイドに最も近いオブザベーションの座標を表示するには、このオプションを有効にしてください。

クラスタ要約: この分割での各クラスタの特徴(クラス内分散、平均、クラスタ中心からの最大および最小距離)と、クラスタ内のすべてのオブザベーションを表示するには、このオプションを有効にしてください。

最も多く存在する変数: 各クラスタの最も多く存在する変数を表示するには、このオプションを有効にしてください。表示されるワードのデフォルト数は10。

メンバーシップ: 各オブザベーションに関連するクラスタと、これらの2つの間の距離を表示するには、このオプションを有効にしてください。

メンバーシップ確率: 各オブザベーションのメンバーシップ確率 \mu_{i,j}μi,j を表示するには、このオプションを有効にしてください(ファジィ・クラスタリングでのみ利用可能)。

チャート:

基準の推移: 2つの数のクラスタの間でクラスタリングを行うことを選択した場合、XLSTATは、各分割の基準を表示します。クラスタ数が多いほど、この基準は低くなります。データセットに顕著な構造がないなら、基準は安定的に減少しますが、データセットの内部に何らかの構造があるなら、 自然なクラスタ数のところで、チャートに曲がりが現れるでしょう。

プロファイル・プロット: このチャートは、作成されたさまざまなクラスタの平均を計算することができます。

クラスタ・サイズ: このチャートは、各クラスタのオブザベーション数を表します。

シルエット: 分割のシルエットをプロットするには、このオプションを有効にしてください。各オブザベーションについて、 -1 から 1 の間の適合度係数が計算され、 1 は完全な適合であり、負値は悪い分割です。これらのすべての適合度係数は、分割のシルエットを形成します。適合度係数は、次式のように計算されます: