クラス分類木と回帰木

クラス分類木と回帰木
クラス分類木と回帰木は,説明と予測の両方の目的に合ったモデルを供給する手法である. この手法の2つの強みは,樹形図による簡単なグラフィカル表現と,自然言語ルールのコンパクトな形式である.
我々は,これらのモデリング・テクニックが使用されるべき下記の2つのケースを区別する:
- 量的および質的説明変数の基盤上で,あるクラスに属するオブジェクト(オブザベーション,個体)を説明および予測するためにクラス分類木を使用.
- 量的および質的説明変数の基盤上で,ある従属変数についての説明と予測モデルを構築するために回帰木を使用.
XLSTATでのクラス分類木と回帰木のアルゴリズム
XLSTATは,CHAID, exhaustive CHAID, QUEST および C&RT (Classification and Regression Trees) アルゴリズムを使用する.
クラス分類木と回帰木は,量的および質的従属変数に適用する.判別分析 または ロジスティック回帰の場合,質的従属変数のみが使用できる.2つのカテゴリのみの質的従属変数の場合,ユーザーは,ROC曲線を用いて両手法の性能を比較することができる.
XLSTATでのクラス分類木と回帰
提供されるさまざまな結果の中で,XLSTATは正しく分類されたオブザベーションのパーセンテージを計算するために使用する分類表(混同行列ともいう)を表示できる.正しく分類された陽性イベントの比率は感度と呼ばれる.特異度は正しく分類された陰性イベントの比率である.どのイベントが陽性であると要請であるとみなせるかのしきい値確率を変化させると,感度と特異度も変化する.
従属変数に2つだけのクラスがある場合,ROC (Receiver Operating Characteristics) 曲線も表示される.これはポイント (1-特異度, 感度)の曲線である.これはモデルの性能を表示するので,他のモデルとを比較するのに使用できる.曲線の下の領域(AUC)は,ROC 曲線で計算される合成インデックスである.AUCは,モデルによって与えられる陽性イベントが,陰性イベントよりも高い確率を持つ確率である.理想モデルでは AUC=1 となり,ランダム・モデルでは AUC = 0.5となる.通常, AUC 値が 0.7より大きいとモデルは良好であるとみなされる.正しく判別するモデルは,0.87 から 0.9 のAUCを持つはずである. 0.9より大きいAUC を持つモデルは優秀である.
クラス分類木と回帰木の検証
可能な限り,検証標本でモデルを検証することが推奨される.XLSTAT は,検証標本を自動的に生成するための複数のオプションを提供する.