K 最近傍法 (KNN)
K 最近傍法: 概要
K 最近傍法(KNN: Nearest Neighbors method)は、学習集合での(すなわちクラスが既知である)ポイントへの距離によって、クラスが未知であるクエリ・ポイント(問い合わせポイント)をカテゴライズ(分類)することを目的とする。これは、最も一般的な機械学習ツールの1つです。
KNN の単純バージョンは、最近傍法 (NN 法は、KNNの特殊ケース, k = 1)の拡張とみなすことができる。.
KNN クラス分類アプローチは、学習集合内の各事例は、Rn 内の確率ベクトルであると仮定する。各ポイントは x =< a1(x), a2(x), a3(x),.., an(x) > として記述され、ここで ar(x) は r番目の属性の値 I を表す。 ar(x) は量的変数でも質的変数でもかまわない。
クエリ・ポイント xq のクラスを判断するために、 k 個の最も近いポイント x1,…,xk のそれぞれから xq への投票を進める。 xq のクラスは、多数意見のクラスと一致する。
XLSTATでのK 最近傍法: オプション
距離: XLSTATでは K 最近傍 アルゴリズムで類似度を計算するために複数の距離メトリックスを使用できる。オプションは、オブザベーションを特徴づける変数のタイプ(質的なまたは量的)によって変化する。
- 量的データで利用可能な距離 (メトリクス): Euclidian, Minkowski, Manhatan, Tchebychev, Canberra
- 量的データで利用可能な距離 (カーネル): linear, sigmoid, logarithmic, power, Gaussian, Laplacian
- 質的データで利用可能な距離: Overlap Metric (OM), Value Difference Metric (VDM)
検証: XLSTATは分類器の品質を評価するために K-fold cross validation (K分割交差検証)法を行う。データは、等しいサイズのk個の副標本に分割される。 k 個の副標本の間で1つの副標本が、モデルをテストするための検証データとして保持され、残りの k − 1 個の副標本は訓練データとして用いられる。
XLSTATの K 最近傍 機能でのその他のオプションには、オブザベーション追跡や投票(意見)重みづけが含まれる。
XLSTATでのK 最近傍法: 結果
XLSTATでの K 最近傍法 機能には、クラスごとまたはオブジェクト(オブザベーション)ごとの結果の表示が含まれる。