サポート・ベクター・マシン

サポート・ベクター・マシンは、非線形の状況でもよく働く教師あり機械学習アルゴリズムです。XLSTATを使用するとExcelで利用可能です。

サポート・ベクター・マシンとは何か?

サポート・ベクター・マシン(SVM: Support Vector Machine)は、統計的学習理論の文脈でVapnik とChervonenkis によって発明された教師あり機械学習法です(Vapnik and Chervonenkis, 1964)。カーネル・トリックの導入によるSVMの実装(Boser, B., Guyon, I., & Vapnik, V., 1992)と分離不可能なケースへの一般化(Cortes, C. & Vapnik V. 1995)が、90年代半ばまでありませんでした。その後、SVMは、機械学習、最適化、ニューラルネットワーク、関数解析などのさまざまな分野で、おびただしい開発が知られるようになり、人気を得てきました。それは、最も成功的な学習アルゴリズムの1つです。単純な1つの原理で複雑なモデルを計算するその能力により、文字や画像の認識などのアプリケーションで有名になった機械学習の領域のキー・コンポーネントになりました。

SVMは、より大きな分離、より信頼性の高いクラス分類という考え方で、オブジェクトの2つのクラス間の分離を見つけようとします。その最も単純な形式である線形かつ分離可能なケースでは、アルゴリズムは、超平面とトレーニング集合の最も近いオブザベーションの間の距離を最大化するように、オブザベーションの集合を2つの別々のクラスに分離する超平面を選択します。

XLSTATでのサポート・ベクター・マシンのオプション

サポート・ベクター・マシンは、XLSTATの機械学習メニューの下にあります。

SMOパラメータ

このオプションは、アルゴリズムの最適化を特定のニーズへ調整することができます。3つの調整可能なパラメータがあります:

◾C: これは正則化パラメータです(詳細は解説を参照);

◾イプシロン: これはマシンに依存する正確度パラメータで、デフォルト値は 1x10^-12;

◾トレランス(許容度): この値は、最適化の際に2つの値を比較するときの許容度を定義します。このパラメータは、計算をスピードアップするのに使用できます。

前処理

このオプションは、説明データが再尺度化される方法を選択します。3つのオプションがあります:

◾再尺度化: 各変数で観察された最小と最大を用いて、0と1の間で量的説明変数が再尺度化されます;

◾標準化: 各変数の標本平均と分散を用いて、質的および量的変数が両方とも標準化されます;

◾なし: 変換は適用されません。

カーネル

このオプションは、特徴空間を拡張するためにデータセットに適用したいカーネルを選択できます。4つのカーネルがあります:

◾線形カーネル: これは基本の線形ドット積;

◾累乗カーネル: このカーネルを選択すると、係数とガンマ・パラメータを入れなければなりません;

◾RBFカーネル: これは動径基底関数です。このカーネルを選択するとガンマ・パラメータを入れなければなりません;

◾シグモイド・カーネル: このカーネルを選択すると、係数とガンマ・パラメータを入れなければなりません;

検証集合のオプション

◾ランダム: オブザベーションがランダムに選択されます。そして、“オブザベーションの数” N を指定してください。

◾最後のN 行: 最後のN 個のオブザベーションが検証用に選択されます。そして、“オブザベーションの数” を指定してください。

◾最初のN 行: 最初のN 個のオブザベーションが検証用に選択されます。そして、“オブザベーションの数”を指定してください。.

◾グループ変数: このオプションを選ぶと、0と1のみのバイナリ変数を選択する必要があります。1が検証用に使用するオブザベーションを識別します。

XLSTATでのサポート・ベクター・マシンの結果

クラス分類に関する結果

最適化されたクラス分類器の要約が表示されます。陽性および陰性のクラスが示され、トレーニング標本のサイズ、2つの最適化パラメータ-バイアス b とサポート・ベクターの数が示されます。

サポート・ベクターのリストに関する結果

識別された各サポート・ベクターごとに、クラスの値、アルファの最適化値と最適化の際に使用された再尺度化説明変数が表示されます。

混同行列に関する結果

混同行列は、事前および事後のクラス分類と正しく分類されたオブザベーションの全体パーセンテージから導かれます。

性能基準に関する結果

オプションが有効であれば表示される9個のクラス分類基準があります:

正確度、精密度、リコール、F得点、特異度、FPR, 有病率、Cohenのカッパ、NER。

最初の列の指標はトレーニング標本で、2番目の列は検証標本(もし有効であれば)です。

予測クラスに対応する結果

SVM分類器を用いて得られた予測クラスが、トレーニング・データセットと検証データセット、予測データセット(もし有効であれば)について表示されます。

参考文献

Vapnik, V. & Chervonenkis, A., (1964). A note on one class of perceptrons. Automation and Remote Control, 25.

Boser, B., Guyon, I., & Vapnik, V. (1992). A training algorithm for optimal margin classifiers. In Proceedings of the Fifth Annual Workshop of Computational Learning Theory, 5, 144-152, Pittsburgh, ACM.

Cortes, C. & Vapnik V. (1995). Support-Vector Networks. Machine Learning, 20, 273-297.