凝集型階層クラスタリング(AHC)

Agglomerative Hierarchical Clustering(AHC)は、最も一般的なクラスタリング手法の1つです。 XLSTAT統計ソフトウェアを使用してExcelで利用できます。

agglomerative-hierarchical-clustering-dendrogram.png

凝集型階層クラスタリングの利点

凝集型階層クラスタリング(AHC :Agglomerative Hierarchical Clustering)は,以下の利点を持つ分類手法である:

  • グループ分けしようとするオブジェクト間の非類似度から作業を行う.非類似度のタイプは,調査される課題とデータの性質に適したものが選ばれる.
  • 結果の1つは,データの漸進的なグルーピングを示すデンドログラムである.そして,データがグループ分けされるクラスの適切な数についての知見を得ることができる.

凝集型階層クラスタリングの原理

凝集型階層クラスタリングは,原理が単純な反復の分類手法である.

  1. プロセスは,N 個のオブジェクト間の非類似度の計算から始まる.
  2. そして,2つのオブジェクトが任意の凝集基準を最小化するとき,それらは同じクラスタに集められ,したがって2つのオブジェクトが1つのクラスタを構成する.
  3. そして,このクラスタとN-2個の他のオブジェクトとの間の非類似度を凝集基準を用いて計算する.そして,クラスタリングにより凝集基準を最小化する2つのオブジェクトまたはオブジェクトのクラスタが,同じクラスタに集められる.

すべてのオブジェクトがクラスタされるまで,このプロセスを継続する.

これらの連続的なクラスタリング操作は,ルートがすべてのオブザベーションを含むクラスタであるバイナリのクラスタリング・ツリー(デンドログラム)を生み出す.このデンドログラムは,パーティションの階層を表現する.そして,任意の水準でツリーを打ち切ることにより,パーティションを選ぶことができる.その水準は,ユーザー定義の制約(ユーザーがいくつのクラスタが得られるべきかを知っている)か,またはより客観的な基準による.

凝集型階層クラスタリングの凝集法

XLSTAT は複数の凝集法を提供する:

  • Ward法(イナーシャ)
  • Ward法(分散)
  • 完全連結(最長距離)
  • 単連結(最短距離)
  • 強連結
  • 柔連結
  • 重みなし群間平均連結
  • 重みつき群間平均連結

凝集型階層クラスタリングで使用される近接度

2つのオブジェクト間の近接度が,どのポイントでそれらが類似しているか(類似度),または類似していないか(非類似度)を測定することによって測定される.AHCアルゴリズムは非類似度を用いるので,ユーザーが類似度を選んだ場合,XLSTATはそれを非類似度に変換する.各オブジェクトの対についての変換は,すべての対での最大類似度から問題の対の類似度を引き算して行う.

XLSTAT は、データの種類ごとに適した複数の類似度/非類似度を提供する::

 類似度非類徐度
量的データPearsonの相関係数 Spearmanの順位相関係数 Kendallの順位相関係 イナーシャ 共分散(n) 共分散(n-1) Percent agreementユークリッド距離 カイ2乗距離 マンハッタン距離 Pearsonの非類似度  Spearmanの非類似度 Kendallの非類似度 Percent disagreement
バイナリ・データ(0/1)Jaccard係数 Dice係数 Sokal & Sneath係数(2) Rogers & Tanimoto係数 Simple matching係数 Indice de Sokal & Sneath 係数 (1) Phi係数 Ochiai係数 ficient Kulczinskis係数 Percent agreementJaccard係数 Dice係数 Sokal & Sneath係数(2) Rogers & Tanimoto係数 Simple matching係数 Indice de Sokal & Sneath係数coefficient (1) Phi係数 Ochiais係数 Kulczinskis係数 Percent agreement

注意: 非バイナリのカテゴリカル・データでは、最初に多重コレスポンデンス分析 (MCA) を実行して、因子軸でのオブザベーションの座標を新しい変数としてみなすことが望ましい。

XLSTATで提供される 凝集型階層クラスタリングの結果

  • ノードの統計量: この表は,デンドログラム内の連続するノードに関するデータを示します.最初のノードは,1ずつ増えるオブジェクトの数であるインデックスを持ちます.ゆえに,デンドログラム中の新しいノードの水準で,オブジェクトまたはオブジェクトのグループが,もう1つのオブジェクトまたはオブジェクトのグループと融合される場合,それをいつでも簡単に見ることができます.
  • 水準棒グラフ: この表は,デンドログラムのノードに関する統計量を表示します.
  • デンドログラム: 完全なデンドログラムは,オブジェクトの漸進的なクラスタリングを表示します.打ち切りがリクエストされた場合,打ち切りが実行された水準を破線がマークします.打ち切られたデンドログラムは,打ち切り後のクラスタを表示します.
  • クラス・セントロイド: この表は,さまざまな記述子についてのクラス・セントロイドを示します.
  • クラス・セントロイド間の距離: この表は,さまざまな記述子のクラス・セントロイド間のユークリッド距離を示します.
  • 中心オブジェクト: この表は,各クラスタのセントロイドに最も近いオブジェクトの座標を示します.
  • 中心オブジェクト間の距離: この表は,さまざまな記述子のクラス中心オブジェクト間のユークリッド距離を示します..
  • クラスごとの結果: クラスタの記述統計(オブジェクトの数,重みの合計,クラス内分散,セントロイドへの最小距離,セントロイドへの最大距離,セントロイドへの平均距離)が,表の最初の部分に表示されます.2番目の部分は,オブジェクトを示します.
  • オブジェクトごとの結果: この表は,初期のオブジェクトの順序で各オブジェクトが割りあてられるクラスタを示します.
ternary diagramneural network diagram

Excelで動作する統計解析ソフトウェア。

14日間無償トライアルあり。