Tests non-paramétriques pour la comparaison de deux échantillons indépendants

Principe des tests non-paramétriques pour la comparaison de deux échantillons indépendants

Ces tests permettent de comparer la distribution de deux échantillons indépendants.

Afin de s'affranchir de l'hypothèse de normalité des échantillons nécessaire pour l'utilisation des tests paramétriques (test z, test t de Student, test F de Fisher, test de Levene, test de Bartlett), des tests non paramétriques ont été proposés.

Si l'on désigne par D la différence de position supposée des échantillons (en général on teste l'égalité, et D vaut donc 0), et par P1-P2 la différence de position des échantillons, trois types de tests sont possibles en fonction de l'hypothèse alternative choisie :

  • Pour le test bilatéral, les hypothèses nulle H0 et alternative Ha sont les suivantes : H0 : P1 - P2 = D et Ha : P1 - P2 ≠ D
  • Pour le test unilatéral, à gauche, les hypothèses sont les suivantes : H0 : P1 - P2 = D et Ha : P1 - P2 < D
  • Pour le test unilatéral, à droite les hypothèses sont les suivantes : H0 : P1 - P2 = D et Ha : P1 - P2 > D

Tests non-paramétriques pour la comparaison de deux échantillons indépendants dans XLSTAT

Trois chercheurs, Mann, Whitney, et Wilcoxon, ont mis au point séparément un test non paramétrique très similaire qui permet de déterminer si, sur la base des rangs des échantillons, on peut considérer que les échantillons sont identiques ou non en terme de position. Ce test est souvent appelé test de Mann-Whitney, parfois test de Wilcoxon-Mann-Whitney, ou encore Wilcoxon Rank-Sum test (Lehmann, 1975).

On lit parfois que ce test permet de déterminer si les échantillons proviennent de populations ou de distributions identiques. Cela est totalement faux. Ce test permet uniquement d'étudier la position relative des échantillons. Par exemple, si on génère un échantillon de 500 observations tiré dans une loi N(0,1) et un échantillon de 500 observations tiré dans une loi N(0,4), le test de Mann-Whitney ne trouve aucune différence entre les échantillons.

Soit un échantillon E1, comprenant n1 observations (x1, x2, …, xn1) et soit E2 un second échantillon, comprenant n2 observations (y1, y2, …, yn2) et indépendant de E1. Soit N la somme de n1 et n2.

Statistique de Wilcoxon

Pour calculer la statistique de Wilcoxon Ws mesurant la différence de position entre le premier échantillon E1, et l'échantillon E2 auquel on soustrait D, on regroupe les valeurs obtenues pour les deux échantillons, puis on les ordonne. La statistique Ws est la somme des rangs de l'un des échantillons. Dans le cas de XLSTAT, la somme est calculée sur le premier échantillon.

On a alors pour l'espérance et la variance de Ws :

E(Ws) = 1/2 n1(N + 1) et V(Ws) = 1/12 n1n2(N + 1)

Statistique de Mann-Whitney

La statistique U de Mann-Whitney est quant à elle la somme du nombre de couples (xi, yi) où xi>yi, parmi tous les couples possibles. On montre que :

E(U) = n1n2/2 et V(U) = 1/12 n1n2(N + 1)

On peut noter que les variances de Ws et U sont identiques. En fait, on a la relation suivante entre U et Ws :

Ws = U + n1(n1 + 1) / 2

Les résultats proposés par XLSTAT sont ceux relatifs à la statistique U de Mann-Whitney.

Remarque : l'utilisation du test de Mann-Whitney constitue une alternative non paramétrique au test t de Student (équivalent à l'analyse de variance à 1 facteur dans le cas de deux échantillons). Comme pour le test t de Student, les échantillons peuvent être de tailles différentes.