外れ値に関するMandelの h および k 統計量

検定の原理

Mandelの h および k 統計量 (1985, 1991) は,施設間調査において,外れ値を識別するのを助けるために開発された.これらの統計量のアイデアは,異なる研究所で得られた標本の間の差を検出することである.h 統計量は平均間の差を検出し,k 統計量は分散間の差を検出する.

外れ値の検出

統計学では, 外れ値とは任意の変数について記録された値で,他の値よりも並はずれて疑わしく低いか高いと見られる値である.2種類の外れ値を区別することができる:

  • 外れ値は,単純に(計測器での)読み取り誤差,(キーボード)記録誤差,または観察された現象を他と比較にならないようにかく乱した特別なイベントによるものであリ得る.このような場合,もし可能であれば,外れ値を訂正するか,さもなくば,それが計画された分析(記述分析,モデリング,予測)をかく乱するのを避けるために除去しなければならない.
  • また,外れ値は,特殊なイベントに起因する場合があるが,しかし,それでも既知であるか,調査することが興味深い場合がある.たとえば,川の水で特定のバクテリアの存在を調査している場合,バクテリアのない標本やたくさんのバクテリアを持つ標本があるかもしれない.もちろん,これらのデータは,保持することが重要である.使用するモデルは,潜在的なバラツキを反映するべきである.

データ中に外れ値がある場合,調査のステージによって, 我々は,できる限り検定を用いて,レポート中でそれらを(表またはグラフィカルな表現で)フラグづけし,削除するか,それらを取り扱える手法を用いるなどして識別しなければならない.

外れ値を識別するには,さまざまなアプローチがある.たとえば,伝統的な線形回帰では,Cookの d 値を使用するか,あるいは,1つまたは2つの値が異常であるかどうかを見るために,Grubbs 検定で標準化残差を検証することができる.伝統的な Grubbs 検定は,1個の外れ値の識別をサポートするが,ダブル Grubbs 検定は,2個識別することができる.同じ標本でこれらを繰り返し使用することは推奨されていない.しかしながら,2個を超える外れ値があると本当に疑わしいなら適切な場合もある.

標本が副標本に分割できる場合,我々はある標本からもう1つの標本への変化に注目できる.CochranのC 検定と Mandelの h および k 統計量は,このような調査に適した手法の一部である.

参考文献

Barnett V. and Lewis T. (1980). Outliers in Statistical Data. John Wiley and Sons, Chichester, New York, Brisbane, Toronto.

Hawkins D.M. (1980). Identification of Outliers. Chapman and Hall, London.

International Organization for Standardization (1994). ISO 5725-2: Accuracy (trueness and precision) of measurement methods and results—Part 2: Basic method for the determination of repeatability and reproducibility of a standard measurement method, Geneva.

Mandel J. (1991). The validation of measurement through interlaboratory studies. Chemometrics and Intelligent Laboratory Systems; 11, 109-119.

Mandel J. (1985). A new analysis of interlaboratory test results. In: ASQC Quality Congress Transaction, Baltimore, 360-366.

Wilrich P.-T. (2013). Critical values of Mandel’s h and k, the Grubbs and the Cochran test statistic. Advances in Statistical Analysis, 97(1), 1-10.