K-MEANS クラスタリング

k-means クラスタリングは,一般的な集約(またはクラスタリング)手法である. XLSTATアドオン統計解析ソフトウェアを用いて,Excel内のデータでK-meansを実行できる.

k-means-clustering-distance-between-class-centroids.png

XLSTATでのk-means クラスタ分析の解説

全般的解説

k-means クラスタリングは,1967年にMcQueenによって提案された.その他の同様なアルゴリズムが Forgey (1965) (moving centers) および Friedman (1967)によっても開発されてきた.

k-means クラスタリングには下記の利点がある:

  • オブジェクトが1つの繰り返しで、あるクラスに割り当てられ,続く繰り返しで変更され得る.これは,割り当てを戻せない凝集型階層クラスタリングでは不可能である.
  • 開始点と繰り返しの掛け合わせで,複数の解が探索できる.

この手法の欠点は,一貫性のあるクラス数が提供されないこと,またクラスまたはオブジェクトの間の近接度を判別できないことである.

したがって,k-means AHC 法は補完的である.

注意: クラスタリングにおいて質的変数を考慮に入れたい場合,まず多重コレスポンデンス分析(MCA: Multiple Correspondence Analysis )を実行して,因子軸上のオブザベーションの座標を新しい変数とみなす必要がある.

k-means 法の原理

k-meansクラスタリングは,繰り返しの手法で,どこから開始しても解に収束する.得られる解は,すべての開始点で同じとは限らない.この理由により,選択された基準で最適な解を選ぶために,計算は一般的に複数回繰り返される.

最初の繰り返しでは,k個のクラスの中心をk個のオブジェクトに関連づけることで構成される開始点が選ばれる(ランダムまたは非ランダム).その後,オブジェクトとk個の中心の間の距離が計算されて,最も近い中心にオブジェクトがそれぞれ割り当てられる.そして,さまざまなクラスに割り当てられたオブジェクトから,新しい中心が再定義される.そして,新しい中心からの距離に応じて,オブジェクトが再割り当てされる.収束に達するまで,これが繰り返される.

k-meansクラスタリングのための分類基準

解に達するための複数の分類基準が使用できる.XLSTATは、 k-means 最小化アルゴリズムのための4つの基準を提供する:

Trace(W): W trace,プールされたSSCP 行列は,最も伝統的な基準である.与えられたクラス数に対してW traceを最小化することは,合計クラス内分散を最小化する,言い換えると,グループの不均一性を最小化することに相当する.この基準は,尺度効果に敏感である.特定の変数により大きい重みをかけて,他にかけないということを避けるために,データは事前に正規化されなければならない.さらに,この基準は等サイズのクラスを生成する傾向がある.

Determinant(W): Wの行列式(共分散行列内でプール) W traceよりもかなり尺度効果に敏感でない基準である.また,trace基準と比べて,グループ・サイズが不均一になる可能性がある.

Wilks ラムダ: この基準を最小化することによる結果は,Wの行列式によって与えられる結果と同じである. Wilksのラムダ基準は,determinant(W) determinant(T)で割ったものである.ここでTは合計イナーシャ行列である.Tの行列式で割ることにより,0から1の間の基準が提供される.

Trace(W) / Median: この基準を選ぶと,クラスのセントロイドは,クラスの平均ポイントではなく,中央値ポイントになる.これは,クラスのあるオブジェクトに対応する.この基準を使用すると,計算時間が長くなる.

XLSTATでのk-meansクラスタリングの結果

要約統計: この表は,オブジェクトの説明,オブザベーションの数,欠損値の数,非欠損値の数,平均および標準偏差を表示する.

相関行列: この表は,選択されたさまざまな変数の間の相関の概観を提供する.

クラス内イナーシャの推移: 2つの境界の間でクラス数を選択した場合,XLSTATはまずクラス内イナーシャの推移を表示する.これは,クラスの数の増大とともに減少する.データが一様に分布している場合,線形的に減少する.実際にグループ構造が存在する場合,そのクラス数で屈折点(エルボー)が観察される.

シルエット得点の推移: 2つの境界の間でクラス数を選択した場合,表と関連するグラフが,各kでのシルエット・スコアの推移を示す.最適なクラス数は,シルエット・スコアが1に最も近いkである.

最適化要約: この表は,クラス内分散の推移を示す.複数の繰り返しがリクエストされた場合,各繰り返しでの結果が表示される.最良の分類を提供する繰り返しが,太字で表示される.

各繰り返しでの統計: この表は,選択した基準の最適な結果が得られた場合に,繰り返しの反復が進むにつれての計算されるその他の統計量の推移を示す.対応するオプションが,チャート・タブで有効にされた場合,繰り返しが進むにつれての選択された基準の推移を示すグラフが表示される.

注意: 値が標準化されている場合(オプション・タブのオプション),最適化要約の結果と各繰り返しの統計は,標準化された空間で計算される.一方,"元空間での結果"オプションが有効なら,以下の結果がオリジナル空間で表示される.

最適分類のためのイナーシャ分解: この表は,クラス内イナーシャ,クラス間イナーシャ,合計イナーシャを示す.

初期クラス・セントロイド: この表は,初期ランダム分割,またはK|| and K++ アルゴリズムにより計算された初期クラス・セントロイドを示す.中心をユーザーが定義した場合,この表は,選択されたクラス・セントロイドを示す.

クラス・セントロイド: この表は,さまざまなディスクリプタでのクラス・セントロイドを示す.

クラス・セントロイド間の距離: この表は,さまざまなディスクリプタでのクラス・セントロイド間のユークリッド距離を示す.

中心オブジェクト: この表は,各クラスのセントロイドに最も近いオブジェクトの座標を示す.

中心オブジェクト間の距離: この表は,さまざまなディスクリプタでのクラス中心オブジェクト間のユークリッド距離を示す.

クラスごとの結果: クラスの記述統計(オブジェクト数,重みの合計,クラス内分散,セントロイドへの最小距離,セントロイドへの最大距離,セントロイドへの平均距離)が表の最初の部分に表示される.2番目の部分は,オブジェクトを示す.

オブジェクトごとの結果: この表は,初期のオブジェクト順序で各オブジェクトのクラス割り当てを示す.

  • セントロイドへの距離: この列は,オブジェクトとそのセントロイドの間の距離を示す.
  • セントロイドとの相関: この列は,オブジェクトとそのセントロイドの間のPearson 相関を示す.
  • シルエット得点: この列は,各オブジェクトのシルエット・スコアを示す.

シルエット得点 (クラスごとの平均): この表とそのグラフは,各クラスの平均シルエット・スコアと最適分類のシルエット・スコア(クラスごとの平均の平均)を表示して示す.

寄与度 (分散分析) : この表は,ANOVAを実行して,クラスの分割に最も寄与する変数を示す.

プロファイル・プロット: このグラフは,作成されたさまざまなクラスの平均を比較することを可能にする.

ternary diagramneural network diagram

Excelで動作する統計解析ソフトウェア。

14日間無償トライアルあり。