k-means クラスタリング

k-means クラスタリングの原理

k-means クラスタリングは、どこから開始しても解で収束する繰り返しの凝集法です。得られる解は、すべての開始点について同じであるとは限りません。この理由により、通常、選択された基準で最適な解を選ぶために、計算が複数回繰り返されます。

最初の繰り返しでは、(無作為または作為的に)k個のクラスの中心がk個のオブジェクトに関連づけられて開始点に選ばれます。

その後、各オブジェクトとk個の中心の間の距離を計算し、それぞれのオブジェクは最も近い中心に割り当てられます。そして、さまざまなクラスに割り当てられたオブジェクトから、中心が再定義されます。そして、新しい中心からの距離で、オブジェクトが再割り当てされます。同じことを収束に達するまで繰り返します。(訳者註:正確には参照ベクトルという暫定の中心を用い、それが収束します。)

k-means クラスタリングの使用

k-means 法は、量的変数の集合による記述に基づいて、オブザベーションを均質なクラスタに分割するために使用されます。k-means クラスタリングは、とくに下記の利点があります:

  1. あるオブジェクトが、1つの繰り返しでは、あるクラスに割り当てられ、続く繰り返しではクラスを変更する。これは,割り当てが不可逆な凝集型階層クラスタリングでは不可能である.
  2. 開始ポイントと繰り返しの掛け算で,複数の解が探索され得る.

k-means クラスタリングでの分類基準

解に達するための複数の基準が使用できます。XLSTATは、最小化されるべき4つの基準を提供します:

  • Trace(W)
  • Determinant(W)
  • Wilks lambda
  • Trace(W) / Median

XLSTATでの結果

  • 最適化要約: この表は,クラス内分散の進展を示します. 複数の繰り返しがリクエストされた場合は,各繰り返しの結果が表示されます.
  • 各繰り返しの統計: 選ばれた基準についての最適な結果から,繰り返しの進行のために繰り返しの中で計算された種々の統計量の進展を見るには,このオプションを有効にしてください. 対応するオプションがチャート・タブで有効にされている場合,繰り返しの進行のために選ばれた基準の進展を示すグラフが表示されます.注意: 値が標準化されている(オプション・タブのオプション)場合,最適化要約の結果と各繰り返しの統計量が標準化空間で計算されます.一方,以下の結果は"オリジナル空間での結果" オプションが有効な場合,オリジナル空間で表示されます.
  • 最適クラス分類のための分散分解: この表は,クラス内分散,クラス間分散,合計分散を示します.
  • クラス・セントロイド: この表は,さまざまな記述子についてのクラス・セントロイドを示します.
  • クラス・セントロイド間の距離: この表は,さまざま記述子についてのクラス・セントロイド間のユークリッド距離を示します
  • 中心オブジェクト: この表は,各クラスのセントロイドへの最近傍オブジェクトの座標を示します.
  • 中心オブジェクト間の距離: この表は,さまざま記述子についてのクラス中心オブジェクト間のユークリッド距離を示します.
  • クラスごとの結果: クラスの記述統計量(オブジェクトの数,重みの合計,クラス内分散,セントロイドへの最小距離,セントロイドへの最大距離,セントロイドへの平均距離)が,表の最初の部分に表示されます.2番目の部分はオブジェクトを示します.
  • オブジェクトごとの結果: この表は,初期のオブジェクトの順序で各オブジェクトの割り当てクラスを示します.