Test de Grubbs pour les valeurs extrêmes

Principe du test

Les tests de Grubbs (1950, 1969, 1972) ont été mis au point pour permettre de déterminer si la valeur la plus grande, la valeur la plus petite, la valeur la plus grande ou la plus petite, ou dans le cas du test de Grubbs double, si les deux valeurs les plus grandes, ou si les deux plus petites peuvent être considérées comme extrêmes (ou aberrantes). Ce test suppose que les données correspondent à un échantillon provenant d'une population qui suit une loi normale.

Valeurs extrêmes

On appelle valeur extrême (ou aberrante) une donnée observée pour une variable qui semble anormale au regard des valeurs dont on dispose pour les autres observations de l'échantillon. On distingue deux types de situation dans lesquelles on rencontre des valeurs extrêmes :

  • Une valeur extrême peut indiquer une erreur de lecture, une erreur de saisie ou un événement particulier qui a perturbé le phénomène observé au point de le rendre incomparable aux autres. Dans de tels cas, il faut soit corriger la valeur extrême si c'est possible, ou sinon supprimer l'observation.
  • Une valeur extrême peut également être liée à un événement atypique, mais néanmoins connu ou intéressant à étudier. Par exemple, si l'on étudie la présence de certaines bactéries dans de l'eau de rivière, on peut avoir des prélèvements sans aucune bactérie, et d'autres avec des agrégats importants ou très importants. Ces données sont bien entendu importantes à conserver. Les modèles utilisés doivent alors tenir compte de cette dispersion possible.

Lorsque l'on rencontre des valeurs extrêmes, en fonction du stade de l'étude on doit, identifier les valeurs extrêmes, éventuellement à l'aide de tests, les marquer dans les rapports (tableaux ou graphiques), les supprimer ou utiliser des méthodes capables de les traiter comme tels.

Pour identifier les valeurs extrêmes, il existe différentes approches. Par exemple, en régression linéaire classique, on peut utiliser la valeur des D de Cook, ou soumettre les résidus standardisés au test de Grubbs afin de voir si une ou deux valeurs sont anormales. Le test de Grubbs simple permet d'identifier une valeur aberrante, le test de Grubbs double permet d'en identifier deux. Il est déconseillé d'utiliser itérativement ces méthodes sur un même échantillon, néanmoins cela peut être pertinent si l'on soupçonne réellement qu'il y a plus de deux valeurs extrêmes.

Résultats avec XLSTAT

Les résultats qui correspondent au test de Grubbs sont affichés. Une interprétation du test est fournie si une seule itération du test a été demandée, ou si aucune observation n'a été identifiée comme extrême dès la première itération.
Dans le cas où plusieurs itérations ont été demandées, est également affiché un tableau donnant, pour chaque observation, l'itération au cours de laquelle elle a été retirée de l'échantillon.

Les z-scores sont affichés s'ils ont été demandés.

Références

Barnett V. and Lewis T. (1980). Outliers in Statistical Data. John Wiley and Sons, Chichester, New York, Brisbane, Toronto.

Grubbs F.E. (1950). Sample criteria for testing outlying observations. Ann. Math. Stat. 21, 27-58.

Grubbs F.E. (1969). Procedures for detecting outlying observations in samples. Technometrics,  11(1), 1-21.

Grubbs, F.E. and Beck G. (1972). Extension of sample sizes and percentage points for significance tests of outlying observations. Technometrics, 14, 847-854.

Hawkins D.M. (1980). Identification of Outliers. Chapman and Hall, London.

International Organization for Standardization (1994). ISO 5725-2: Accuracy (trueness and precision) of measurement methods and results—Part 2: Basic method for the determination of repeatability and reproducibility of a standard measurement method, Geneva.

ternary diagramneural network diagram

analysez vos données avec xlstat

essayez gratuitement pendant 14 jours