Puissance statistique pour les tests de comparaison des proportions

Puissance statistique d’un test de comparaison de proportions

XLSTAT propose plusieurs tests afin de comparer des proportions. Aussi bien des tests paramétriques que des tests non paramétriques. Ainsi on peut utiliser le test z (pour une ou deux proportions), le test du khi², ou encore le test du signe ou celui de McNemar. XLSTAT permet de calculer la puissance ou le nombre d'observations nécessaire pour ces tests en utilisant soit des méthodes exactes, soit des approximations.

Lorsqu'on teste une hypothèse à l'aide d'un test statistique, on a plusieurs éléments à choisir :

  • L'hypothèse nulle H0 et l'hypothèse alternative Ha.
  • Le test statistique à utiliser
  • L'erreur de première espèce (erreur de type I) que l'on appelle aussi alpha. Elle se produit lorsqu'on rejette l'hypothèse nulle alors qu'elle est vraie. Elle est fixée a priori pour chaque test et vaut 5%.

L'erreur de seconde espèce ou beta est moins étudiée mais elle revêt une grande importance. En effet, elle représente la probabilité que l'on ne rejette pas l'hypothèse nulle alors qu'elle est fausse. On ne peut pas la fixer a priori mais, on peut essayer de la minimiser, en jouant sur les autres paramètres du modèle. La puissance d'un test est calculée comme 1-beta et représente la probabilité que l'on rejette l'hypothèse nulle alors qu'elle est bien fausse. On voudra donc maximiser la puissance du test. XLSTAT permet de calculer cette puissance (ainsi que beta) lorsque les autres paramètres du test sont connus. D'autre part, il permet pour une puissance donnée d'évaluer la taille de l'échantillon nécessaire à l'obtention de cette puissance.

Les calculs de puissance en statistique se font généralement avant que l'expérience ne soit menée. On s'en sert principalement pour estimer le nombre d'observations nécessaire pour que l'expérience ait la qualité statistique requise.

XLSTAT permet de comparer :

  • Une proportion à une constante (avec le test z et différentes approximations)
  • Deux proportions (avec le test z et différentes approximations)
  • Des proportions dans un tableau de contingence (avec le test du Khi²)
  • Des proportions dans un cadre non paramétrique (avec les tests du signe et de McNemar)

Calcul de la puissance d’un test de comparaison des proportions

La puissance d'un test est généralement obtenue à l'aide de la distribution non centrale associée. Dans notre cas, nous utiliserons des approximations qui utilisent des transformations.

Puissance pour un test de comparaison d’une proportion à une constante

L'hypothèse alternative est dans ce cas : Ha : p1 – p0 ≠ 0

Différentes approximations sont alors possibles :

  • Approximation en utilisant la distribution normale : Dans ce cas, on va utiliser la distribution normale avec comme moyennes les proportions p0 et p1 et comme écarts-types √ p0 (1- p0) / N and √p1 (1- p1) / N
  • Calcul exact en utilisant la loi binomiale de paramètres √ p0 (1- p0) / N et √p1 (1- p1) / N
  • Approximation en utilisant la loi béta de paramètres ((N-1)p0 ; (N-1)(1-p0)) et ((N-1)p1 ; (N-1)(1-p1))
  • Approximation en utilisant la méthode de l'arc sinus : Cette approximation est basée sur la transformation de l'arcsin des proportions : H(p0) et H(p1).La puissance est obtenue en utilisant la distribution normale de : : Zp = √N( H(p0) - H(p1)) – Zreq, avec Zreq le quantile de la distribution normale pour un alpha fixé.

Puissance pour un test de comparaison de deux proportions

L'hypothèse alternative est dans ce cas : Ha: p1 – p2 ≠ 0

Différentes approximations sont alors possibles :

  • Approximation en utilisant la méthode de l'arc sinus : Cette approximation est basée sur la transformation de l'arcsin des proportions : H(p1) et H(p2). On a donc la puissance est obtenue en utilisant la distribution normale de : Zp = √N( H(p1) - H(p2)) – Zreq, avec Zreq le quantile de la distribution normale pour un alpha fixé.
  • Approximation en utilisant la distribution normale : Dans ce cas, on va utiliser la distribution normale avec comme moyennes les proportions p1 et p2 et comme écarts-types : √ p1 (1- p1) / N et √ p2 (1- p2) / N

Puissance pour le test du khi²

Afin de calculer la puissance du test du khi² dans le cas d'un tableau de contingence 2*2 (avec des proportions), on utilise la distribution non centrale du khi² avec comme paramètre de non centralité la valeur du khi² pour le tableau en question. On cherche donc à voir si deux groupes d'observations ont les mêmes comportements par rapport à une variable binaire. On aura :

 Groupe 1Groupe 2
Positifp1p2
Négatif1-p11-p2

On renseignera donc p1, N1 et N2 dans la boîte de dialogue (p2 peut être retrouvé à partir des autres paramètres car on a un seul degré de liberté).

Puissance pour le test du signe

Le test du signe sert à voir si la proportion de cas dans chaque groupe est égale à 50%. Il revient dans le cas de la puissance au même qu'un test sur une proportion en comparant à la valeur 0,5. On aura donc une méthode d'approximation par la loi normale ou une méthode exacte avec la loi binomiale.

On devra donc renseigner la taille de l'échantillon et la proportion dans l'un des groupes p1 (l'autre proportion est telle que p2=1-p1).

Puissance pour le test de McNemar

Le test de McNemar sur des proportions appariées est un cas spécifique du test sur une proportion. En effet, on peut représenter le problème avec le tableau suivant :

Positif Négatif

 Group 1Group 2
PositivePPPN
NegativePNN

On a que PP+NN+PN+NP=1. On veut essayer de voir l'effet d'un traitement, on s'intéresse donc à NP et PN, les autres valeurs n'ayant pas d'importance. On utilisera donc en entrée du test Proportion 1= NP et Proportion 2 = PN. Avec forcément P1+P2 < 1. L'effet est donc calculé uniquement sur une proportion de NP+PN de l'échantillon. La proportion d'individus passant de positif à négatif est calculée comme NP/(NP+PN). On va donc essayer de comparer cette proportion à une valeur de 50% afin de savoir si on a plus d'individus qui vont de positif vers négatif que d'individus qui vont de négatif vers positif.

Calcul de la taille de l'échantillon à partir de la puissance statistique

Afin de calculer le nombre d'observations nécessaires, XLSTAT utilise un algorithme de recherche de racine d'une fonction appelé algorithme Van Wijngaarden-Dekker-Brent (Brent, 1973). Cet algorithme est adapté au cas où les dérivées de la fonction ne sont pas connues. On cherche ainsi N tel que

puissance_test(N)-puissance_recherchée=0

On obtient donc la taille N telle que la puissance soit la plus proche possible de la puissance recherchée.