Test de Dixon pour les valeurs extrêmes

Principe du test

Le test de Dixon (1950, 1951, 1953), qui est en réalité subdivisé en 6 tests en fonction de la statistique choisie et du nombre de valeurs extrêmes à identifier, a été mis au point pour permettre de déterminer si la valeur la plus grande ou la valeur la plus petite d'un échantillon, ou les deux valeurs les plus grandes, ou les deux plus petites peuvent être considérées comme extrêmes (ou aberrantes). Ce test suppose que les données correspondent à un échantillon provenant d'une population qui suit une loi normale.

Valeurs extrêmes

On appelle valeur extrême (ou aberrante) une donnée observée pour une variable qui semble anormale au regard des valeurs dont on dispose pour les autres observations de l'échantillon. On distingue deux types de situation dans lesquelles on rencontre des valeurs extrêmes :

  • Une valeur extrême peut indiquer une erreur de lecture, une erreur de saisie ou un événement particulier qui a perturbé le phénomène observé au point de le rendre incomparable aux autres. Dans de tels cas, il faut soit corriger la valeur extrême si c'est possible, ou sinon supprimer l'observation.
  • Une valeur extrême peut également être liée à un événement atypique, mais néanmoins connu ou intéressant à étudier. Par exemple, si l'on étudie la présence de certaines bactéries dans de l'eau de rivière, on peut avoir des prélèvements sans aucune bactérie, et d'autres avec des agrégats importants ou très importants. Ces données sont bien entendu importantes à conserver. Les modèles utilisés doivent alors tenir compte de cette dispersion possible.

Lorsque l'on rencontre des valeurs extrêmes, en fonction du stade de l'étude on doit, identifier les valeurs extrêmes, éventuellement à l'aide de tests, les marquer dans les rapports (tableaux ou graphiques), les supprimer ou utiliser des méthodes capables de les traiter comme tels.

Pour identifier les valeurs extrêmes, il existe différentes approches. Par exemple, en régression linéaire classique, on peut utiliser la valeur des D de Cook, ou soumettre les résidus standardisés au test de Grubbs afin de voir si une ou deux valeurs sont anormales. Le test de Grubbs simple permet d'identifier une valeur aberrante, le test de Grubbs double permet d'en identifier deux. Il est déconseillé d'utiliser itérativement ces méthodes sur un même échantillon, néanmoins cela peut être pertinent si l'on soupçonne réellement qu'il y a plus de deux valeurs extrêmes.

Calcul de la p-value pour le test de Dixon

La littérature fournit des approximations plus ou moins précises de la valeur critique au-delà de laquelle, pour un niveau de signification donné, on ne peut pas conserver l'hypothèse nulle. Néanmoins, XLSTAT fournit une approximation des valeurs critiques sur la base de simulations Monte Carlo. Le nombre de ces approximations est par défaut fixé à 1000000, ce qui permet d'obtenir des valeurs plus fiables que celles fournies dans les articles historiques de Dixon. XLSTAT fournit également sur la base de ces mêmes simulations une p-value, ainsi que la conclusion du test en fonction du niveau de signification choisi par l'utilisateur.

Résultats avec XLSTAT

Les résultats qui correspondent au test de Dixon sont affichés. Une interprétation du test est fournie si une seule itération du test a été demandée, ou si aucune observation n'a été identifiée comme extrême dès la première itération.
Dans le cas où plusieurs itérations ont été demandées, est également affiché un tableau donnant, pour chaque observation, l'itération au cours de laquelle elle a été retirée de l'échantillon.

Les z-scores sont affichés s'ils ont été demandés.

Références

Dixon W.J. (1950). Analysis of extreme values. Annals of Math. Stat., 21, 488-506.

Dixon W.J. (1951). Ratios involving of extreme values. Annals of Math. Stat., 22, 68-78.

Dixon W.J. (1953). Processing data for outliers. J. Biometrics, 9, 74-89.

Hawkins D.M. (1980). Identification of Outliers. Chapman and Hall, London.