外れ値に関するGrubbs 検定(シングルおよびダブル)

検定の原理

Grubbs (1950, 1969, 1972) は,最も高い値または最も低い値が外れ値であるか否か(Grubbs検定),またはダブルGrubbs検定では,最も高い2つの値または最も低い2つの値が外れ値であるか否かを判定するために,複数の検定を開発した.この検定は,データが正規分布に従う集団から抽出された標本に対応すると仮定する.

外れ値の検出

統計学では,外れ値とは任意の変数について記録された値で,他の値よりも並はずれて疑わしく低いか高いと見られる値である.2種類の外れ値を区別することができる:

  • 外れ値は,単純に(計測器での)読み取り誤差,(キーボード)記録誤差,または観察された現象を他と比較にならないようにかく乱した特別なイベントによるものであリ得る.このような場合,もし可能であれば,外れ値を訂正するか,さもなくば,それが計画された分析(記述分析,モデリング,予測)をかく乱するのを避けるために除去しなければならない.
  • また,外れ値は,特殊なイベントに起因する場合があるが,しかし,それでも既知であるか,調査することが興味深い場合がある.たとえば,川の水で特定のバクテリアの存在を調査している場合,バクテリアのない標本やたくさんのバクテリアを持つ標本があるかもしれない.もちろん,これらのデータは,保持することが重要である.使用するモデルは,潜在的なバラツキを反映するべきである.

データ中に外れ値がある場合,調査のステージによって, 我々は,できる限り検定を用いて,レポート中でそれらを(表またはグラフィカルな表現で)フラグづけし,削除するか,それらを取り扱える手法を用いるなどして識別しなければならない.

外れ値を識別するには,さまざまなアプローチがある.たとえば,伝統的な線形回帰では,Cookの d 値を使用するか,あるいは,1つまたは2つの値が異常であるかどうかを見るために,Grubbs 検定で標準化残差を検証することができる.伝統的な Grubbs 検定は,1個の外れ値の識別をサポートするが,ダブル Grubbs 検定は,2個識別することができる.同じ標本でこれらを繰り返し使用することは推奨されていない.しかしながら,2個を超える外れ値があると本当に疑わしいなら適切な場合もある.

XLSTATによる結果

Grubbs 検定に対応する結果が表示される.検定の単一の繰り返しがリクエストされた場合,または外れ値として判定されたオブザベーションがない場合は,検定の解釈が提供される.
複数の繰り返しがリクエストされた場合は,各オブザベーションについて, それが標本から除去された繰り返しを示す表も表示される..

リクエストされた場合は,z-スコアが表示される.

参考文献

Barnett V. and Lewis T. (1980). Outliers in Statistical Data. John Wiley and Sons, Chichester, New York, Brisbane, Toronto.

Grubbs F.E. (1950). Sample criteria for testing outlying observations. Ann. Math. Stat. 21, 27-58.

Grubbs F.E. (1969). Procedures for detecting outlying observations in samples. Technometrics,  11(1), 1-21.

Grubbs, F.E. and Beck G. (1972). Extension of sample sizes and percentage points for significance tests of outlying observations. Technometrics, 14, 847-854.

Hawkins D.M. (1980). Identification of Outliers. Chapman and Hall, London.

International Organization for Standardization (1994). ISO 5725-2: Accuracy (trueness and precision) of measurement methods and results—Part 2: Basic method for the determination of repeatability and reproducibility of a standard measurement method, Geneva.