多項適合度検定

多項適合度検定の原理

多項適合度検定は,質的変数(または離散化された量的変数)に対応する標本の分布が,期待どおりであるかどうかを検証することを可能にする.この検定は,2とおりより多い結果の可能性がある場合,2項分布 の拡張である多項分布に基づく.

多項適合度検定の定義

k を変数X の可能な値(カテゴリ)の数とする. p1, p2, …, pk を各値に対応する確率(または密度)とする.

n1, n2, n3, …, nk を標本での各値の度数とする.

  • .検定の帰無仮説は:H0: 標本中の値の分布が期待と一致し,それは標本の分布が Xの分布と異ならないことを意味する.
  • Ha検定の対立仮説は:Ha: 標本中の値の分布が期待と一致せず,それは標本の分布がXの分布と異なることを意味する.

多項適合度検定の手法と統計量

:この検定については,複数の手法と統計量が提案されてきた.XLSTAT は以下の選択を提供する.

カイ2乗検定

我々は下記の統計量を計算する:

χ² = ∑(i=1…k) [(ni - Npi)2 / Npi]

 この統計量は,漸近的にk-1 の自由度を持つカイ2乗分布に従う.

モンテ・カルロ検定

この検定のバージョンは,多項分布に基づく正確な手法の重たい計算となり,小さい標本にで品質が劣るかもしれないカイ2乗分布による近似を避ける.この検定は, 期待される特性を持つ分布でのN個のオブザベーションの無作為再標本化からなる.各再標本化で,我々は, c² 統計量を計算して,そして,再標本化のプロセスが完了すると,標本で観察さえる値が,何回,我々が推定するp-値を超えるかを評価する.