判別分析 (DA)

判別分析は、質的変数を出力として使用する一般的な説明的・予測的データ分析手法です。エクセルで行います。

discriminant-analysis-classification-functions.png

判別分析とは?

判別分析(DA: Discriminant Analysis )は、この20年でその伝統的な形式が少し変更された古い手法 (Fisher, 1936) です。説明と予測の両方であるこの手法は、以下のことに使用できます:

  • オブザベーションが属するグループが判別されるかどうかを2または3次元のグラフで確認する。
  • 説明変数を用いてグループの特性を示す。
  • 任意のオブザベーションがどのグループに属するかを予測する。

判別分析は、たとえば、エコロジーや財務リスクの予測(信用スコアリング)など、たくさんのアプリケーションで使用できます。

判別分析のモデル: 線形モデルまたは2次方程式モデル

基本の仮定に基づいてDA の2つのモデルが使用されます:共分散行列が同一であると仮定されるならば線形の判別分析が使用されます。一方、尐なくとも2つのグループで共分散行列が異なると仮定されるならば2次モデルが使用されます。この仮説を検定するために Box 検定が使用されます(Bartlett近似が,検定で用いるカイ2乗分布を可能にする)。線形分析から開始して、Box 検定の結果に基づいて、もし必要であれば2次方程式分析を実行します。

判別分析と多重共線性の問題

線形、さらには2次方程式モデルで、ヌル分散や変数間の多重共線性の問題に直面するかもしれません。XLSTATは、これらの問題を避けるようにプログラムされています。すべての計算について、または2次方程式モデルの場合は問題が起こるグループについて、これらの問題に関与する変数が自動的に無視されます。問題が起きている変数を識別できるようにするために、多重共線性の統計量をオプションで表示できます。

判別分析と変数選択

線形およびロジスティック回帰に関しては、有効なステップワイズ法が提案されています。しかしながら、変数での入力および出力検定はそれらが正規分布であると仮定しているので、量的変数が選択されている場合のみ使用されます。ステップワイズ法は、モデルへの寄与度がわずかしかない変数を避けるパワフルなモデルを提供します。

判別分析の結果: 分類表、ROC曲線およびクロスバリデーション

提供されたさまざまな結果の中で、XLSTATは正しく分類されたオブザベーションのパーセンテージを計算するために使用する分類表(混同行列ともいう)を表示できます。たった2つのクラス(カテゴリまたはモーダリティ)のみが従属変数に提示されている場合、ROC 曲線も表示できます。ROC 曲線 (Receiver Operating Characteristics) は,モデルの性能を表示し、他のモデルの性能と比較することができます。使用される用語は、信号検出理論に由来します。

.陽性のイベントを正しく分類した比率を感度(sensitivity)と呼びます。特異度(specificity)は陰性のイベントが正しく分類された比率です。イベントが陽性であるとみなされるところからしきい値確率を変化させると、感度や特異度も変化します。ポイント (1-特異度, 感度) の曲線が ROC 曲線です。たとえば、顧客がダイレクトメールによるキャンペーンに好意的に反応するかどうかを示すバイナリの従属変数を考えよましょう。下図で青色の曲線は、好意的に反応しているn%の人々が最も高いn% の確率に一致する理想的なケースです。緑色の曲線は、正しく判別しているモデルに対応する.赤色の曲線(第1二等分線)は、反応確率が調査された標本中のオブザベーションと等しいランダム・ベルヌーイ・モデルで得られるものに対応します。したがって、赤色の曲線に近いモデルは、ランダムな生成よりもあまりよくないので非効率です。これより下のモデルは、ランダムよりも下回るのであるから有害です。

.曲線の下の領域(またはAUC)は、ROC曲線で計算された合成指標です。AUC は、モデルによって陽性のイベントが陰性のイベントよりも高い確率を持つ確率に一致します。理想モデルではAUC=1 で、ランダム・モデルではAUC = 0.5 です。通常、AUCの値が0.7 より大きければ、そのモデルは良好と判断されます。0.87 から 0.9 の間のAUCを持たなければ、正しく判別するモデルとは言えません。0.9 より高いAUCを持つモデルは優秀です。

予測に関するモデルの結果は、楽観的すぎるかもしれません:我々は、あるオブザベーションが正しく分類されているかどうかを、そのオブザベーション自体をモデルの計算に使用しながら効率的にチェックしようと試みます。この理由から、クロスバリデーションは、オブザベーションがさまざまなグループに属す確率を決定するために開発されました。あるオブザベーションを学習標本からはずし、そして、モデルを予測を計算します。この操作を学習標本内のすべてのオブザベーションについて繰り返します。したがって、モデルの品質のより忠実な表現が得られます。XLSTATは、交差検証(クロスバリデーション)モードで各オブザベーションに関連するさまざまな統計量を計算するオプションと、分類表および2種類のクラスのみの場合はROC 曲線を提供します。

最後に、検証標本でモデルを検証するために可能な限りのアドバイスがあります。XLSTATには,検証標本を自動で生成するための複数のオプションがあります。

判別分析とロジスティック回帰

従属変数でのクラスがたった2つだけの場合、判別分析はロジスティク回帰にとてもよく似ています。判別分析は、共分散構造を詳しく調査し、グラフィック表現を提供するのにとても便利です。ロジスティック回帰は、複数通りのモデル・テンプレートを持ち、質的説明変数に対してもステップワイズ選択を可能にする利点があります。ROC 曲線を用いて、両方の手法の性能を比較することができます。

ternary diagramneural network diagram

Excelで動作する統計解析ソフトウェア。

14日間無償トライアルあり。