クラス分類およいび回帰のランダム・フォレスト

この強力な機械学習アルゴリズムは、複数の決定木に基づいて予測を行うことができる。XLSTATによりExcel内でランダム・フォレストをセットアップして訓練できる。

ランダム・フォレストとは何か?

ランダム・フォレストは、クラス分類と回帰の予測モデルを提供する。この手法は、バイナリの決定木、とくにBreiman ら (1984)が提案したCARTツリーを実装する。 

  • クラス分類では(質的応答変数): このモデルは、量的説明変数や質的説明変数に基づいて、クラスに属するオブザベーションを予測することができる。
  • 回帰では (連続応答変数): このモデルは、量的説明変数と質的説明変数に基づいて、量的応答変数の予測モデルを構築することができる。

この手法の原理は、より有効な最終予測値を得るために、多数の予測器(ここではCARTツリー)を統合することである。

XLSTATでのランダム・フォレスト・オプション

XLSTATは、ランダム・フォレストのセットアアップの指定のために下記のオプションを提供する。 

サンプリング法: オブザベーションがランダムに選ばれて、標本中で1回または複数回発生することができる。

標本サイズ: ツリーの構築のために生成する標本のサイズkを入れる。

ツリーの数: フォレスト内に必要なツリーの数qを入れる。

ツリー・パラメータ

  • 最小親サイズ: 分割されるノードが含まなければならない最小のオブザベーション数を入れる。
  • 最小子サイズ: 分割を可能にするために、可能な分割の後、新しく作成されたそれぞれのノードが含まなければならない最小のオブザベーション数を入れる。
  • 最大深度: ツリーの最大深さを入れる。

停止条件:

  • 複雑度パラメータ(クラス分類のみ): 複雑度パラメータ(CP)の値を入れる。少なくとも係数CPの分だけ、全体の不純物が削減されない限り、ツリーの構築は継続しない。その値は1よりも小さくなければならない。
  • 構築時間(秒): フォレスト内の全ツリーの構築のために許される最大時間を入れる。その時間が過ぎて、フォレスト内に必要な数のツリーが構築できていない場合は、アルゴリズムが停止して、それまでに構築されたツリーを用いて得られる結果を返す。

XLSTATでのランダム・フォレストの結果

OOB 誤差: フォレストのOut-Of-Bag 誤差を表示するには、このオプションを有効にする。

OOB予測: Out-Of-Bag予測値のベクトルを表示するには、このオプションを有効にする。

OOB予測詳細: Activate this option to display OOB predictions details

OOB 回数: トレーニング標本の各オブザベーションについて、それがOOBであった回数を表示するには、このオプションを有効にする。

混同行列(クラス分類のみ): カテゴリのそれぞれについて、正しくまたは間違って分類されたオブザベーションの数を示す表を表示するには、このオプションを有効にする。

OOB誤差推移: ツリーの数に伴うOOB誤差の推移を示す表を表示するには、このオプションを有効にする。