単純ベイズ分類器

単純ベイズ分類器とは?

単純ベイズ分類器(Naive Bayes classifier)とは、そのアルゴリズムによって決定されたルールの集合によってオブザベーションを分類できる教師あり機械学習です。この分類器は、まず入力の集合に期待されるクラスを示すトレーニング・データセットで学習されます。学習段階ではアルゴリズムが、このトレーニング・データセットで分類ルールを綿密に作成し、それが予測段階で予測データセットのオブザベーションを分類するために使用されます。単純ベイズは、トレーニング・データセットのクラスが既知であって提供されなければならないことを含意しており、したがって教師ありの手法となります。

歴史的には、単純ベイズ分類器は、文書の分類やスパムメールのフィルタリングに使用されてきました。 現在は、さまざまな分野でのアプリケーションを見ることのできる有名な分類器です。必要不可欠なパラメータを推定するのに要求されるトレーニングが限られた量であるという利点があって、他のいくつかの手法と比較してすこぶる高速であることが期待できます。変数間の従属性の仮定を強く単純化している(下記の解説を参照)にもかかわらず、 最終的に単純ベイズ分類器は、教師あり機械学習アルゴリのなかでアルゴリズムの選択がなされるようなたくさんの現実的な(リアルワールドの)状況で、とてもよく働きます。

単純ベイズ分類器の根源は、変数/特性のすべての対の間で単純な従属性を仮定した場合のベイズの定理にあります。 

XLSTATでの単純ベイズ分類器オプション

量的変数の分布

  • すべての量的変数で同じパラメトリック分布/経験分布: このオプションは、すべての量的変数で同じパラメトリック/経験分布を選ぶことができます。
  • 各量的変数で特定の分布を選択: このオプションは、各量的変数に特定のパラメトリック分布を選択または、それを経験分布と見なすことができます。パラメトリック分布は次の分布から選択できます:正規分布、対数正規分布、ガンマ分布、 指数分布、ロジスティック分布、ポアソン分布、二項分布、ベルヌーイ分布、一様分布。

質的変数は、独立の経験分布から暗黙的に取り出されます。選択されたパラメトリック分布のパラメータが、モーメント法を用いて推定されます。

同値のブレーキング

単純ベイズ・アプローチを用いた予測は、いくつかのクラスが同じ確率 P(y) を持つ状態に行きつく場合があります。任意の予測での同値を壊すには、複数の方法があります。下記のオプションが利用可能です:

  • ランダム・ブレーカー:  同じ確率 P(y) を持つクラスの集合でランダムなクラスを選ぶ。

  • 最小インデックス: 同じ確率 P(y) を持つクラスの集合で、最初に遭遇するクラスを選ぶ。

ラプラス平滑化パラメータ

ラプラス平滑化は、0または1に等しい確率を得ることを防ぎます。

XLSTATでの単純ベイズ分類器の結果

クラス分類プロセスに関与するパラメータに対応する結果

確率分布の種類がレポートされます。

質的変数は、暗黙的に経験分布に従うと見なされます。

クラスの事前分布の性質(一様または非一様)もレポートされます。

分類器に関する結果

単純ベイズ分類器を評価してスコアリングするために、leave one out (一個抜き)法を用いて計算された単純な混同行列と正確な指標が表示されます。

検証法に関する結果

K分割交差検証法(K folded-cross validation) を用いて得られた単純ベイズ・モデルの誤差率がレポートされます。分割の数もユーザーにレポートされます。

交差検証の結果は、適切なモデル・パラメータの選択を可能にします。

予測されたクラスに対応する結果

単純ベイズ分類器を用いて得られた予測クラスが表示されます。予測クラスに加えて、各オブザベーションを予測するのに使用された事後確率もレポートされます。