Test de Cochran pour les valeurs extrêmes

Principe du test

Le test de Cochran (Cochran 1941) fait partie des tests développés pour permettre d'identifier d'étudier l'homogénéité d'une série de variances (test de Bartlett, de Brown-Forsythe, de Levene ou de Hartley notamment). Le test de Cochran a été développé pour répondre à une question bien précise : les variances sont-elles homogènes ou la variance la plus élevée est-elle différente des autres. XLSTAT propose également deux alternatives et utilise les résultats de t' Lam (2010) pour une extension du cas équilibré au cas déséquilibré.

Valeurs extrêmes

On appelle valeur extrême (ou aberrante) une donnée observée pour une variable qui semble anormale au regard des valeurs dont on dispose pour les autres observations de l'échantillon. On distingue deux types de situation dans lesquelles on rencontre des valeurs extrêmes :

  • Une valeur extrême peut indiquer une erreur de lecture, une erreur de saisie ou un événement particulier qui a perturbé le phénomène observé au point de le rendre incomparable aux autres. Dans de tels cas, il faut soit corriger la valeur extrême si c'est possible, ou sinon supprimer l'observation.
  • Une valeur extrême peut également être liée à un événement atypique, mais néanmoins connu ou intéressant à étudier. Par exemple, si l'on étudie la présence de certaines bactéries dans de l'eau de rivière, on peut avoir des prélèvements sans aucune bactérie, et d'autres avec des agrégats importants ou très importants. Ces données sont bien entendu importantes à conserver. Les modèles utilisés doivent alors tenir compte de cette dispersion possible.

Lorsque l'on rencontre des valeurs extrêmes, en fonction du stade de l'étude on doit, identifier les valeurs extrêmes, éventuellement à l'aide de tests, les marquer dans les rapports (tableaux ou graphiques), les supprimer ou utiliser des méthodes capables de les traiter comme tels.

Pour identifier les valeurs extrêmes, il existe différentes approches. Par exemple, en régression linéaire classique, on peut utiliser la valeur des D de Cook, ou soumettre les résidus standardisés au test de Grubbs afin de voir si une ou deux valeurs sont anormales. Le test de Grubbs simple permet d'identifier une valeur aberrante, le test de Grubbs double permet d'en identifier deux. Il est déconseillé d'utiliser itérativement ces méthodes sur un même échantillon, néanmoins cela peut être pertinent si l'on soupçonne réellement qu'il y a plus de deux valeurs extrêmes.

Si l'échantillon peut être subdivisé en sous-échantillons, on peut s'intéresser aux variations d'un sous-échantillon à l'autre. Le test du C de Cochran et les statistiques h et k de Mandel font partie des méthodes adaptées à ce type d'études.

Résultats avec XLSTAT

Les résultats qui correspondent au test de Cochran sont affichés. Une interprétation du test est fournie si une seule itération du test a été demandée, ou si aucune observation n'a été identifiée comme extrême dès la première itération.
Dans le cas où plusieurs itérations ont été demandées, est également affiché un tableau donnant, pour chaque observation, l'itération au cours de laquelle elle a été retirée de l'échantillon.

Les z-scores sont affichés s'ils ont été demandés.

Références

Barnett V. and Lewis T. (1980). Outliers in Statistical Data. John Wiley and Sons, Chichester, New York, Brisbane, Toronto.

Cochran W.G. (1941). The distribution of the largest of a set of estimated variances as a fraction of their total. Ann. Eugen. 11, 47-52.

Hawkins D.M. (1980). Identification of Outliers. Chapman and Hall, London.

International Organization for Standardization (1994). ISO 5725-2: Accuracy (trueness and precision) of measurement methods and results—Part 2: Basic method for the determination of repeatability and reproducibility of a standard measurement method, Geneva.