Puissance statistique pour la régression logistique

Puissance statistique pour le modèle de Cox

XLSTAT-Base propose un outil permettant d'appliquer un modèle de régression logistique entre une variable réponse binaire et des variables explicatives quantitatives ou qualitatives. XLSTAT-Power permet d'estimer la puissance ou de calculer le nombre d'observations nécessaires dans le cadre de cette méthode.

Lorsqu'on teste une hypothèse à l'aide d'un test statistique, on a plusieurs éléments à choisir :

  • L'hypothèse nulle H0 et l'hypothèse alternative Ha.
  • Le test statistique à utiliser
  • L'erreur de première espèce (erreur de type I) que l'on appelle aussi alpha. Elle se produit lorsqu'on rejette l'hypothèse nulle alors qu'elle est vraie. Elle est fixée a priori pour chaque test et vaut 5%.

L'erreur de seconde espèce ou beta est moins étudiée mais elle revêt une grande importance. En effet, elle représente la probabilité que l'on ne rejette pas l'hypothèse nulle alors qu'elle est fausse. On ne peut pas la fixer a priori mais, on peut essayer de la minimiser, en jouant sur les autres paramètres du modèle. La puissance d'un test est calculée comme 1-beta et représente la probabilité que l'on rejette l'hypothèse nulle alors qu'elle est bien fausse. On voudra donc maximiser la puissance du test. Le module XLSTAT-Power permet de calculer cette puissance (ainsi que beta) lorsque les autres paramètres du test sont connus. D'autre part, il permet pour une puissance donnée d'évaluer la taille de l'échantillon nécessaire à l'obtention de cette puissance.

Les calculs de puissance en statistique se font généralement avant que l'expérience ne soit menée. On s'en sert principalement pour estimer le nombre d'observations nécessaire pour que l'expérience ait la qualité statistique requise.

Dans le cadre du modèle de régression logistique, la probabilité P de survenue de l'évènement (en général Y=1) est donnée par : P = exp(ß0 + ß1X1 + … + ßkXk) / [1 + exp(ß0 + ß1X1 + … + ßkXk) ] On a donc : log(P/(1-P)) = ß0 + ß1X1 + … + ßkXk

XLSTAT-Power permet donc de tester si le coefficient ß1 du modèle de régression logistique est égal à 0. Nous allons donc tester l'hypothèse :

  • H0 : ß1 = 0
  • Ha : ß1 ? 0

Calcul de la puissance statistique pour la régression logistique

La puissance du test est calculée à l'aide d'une approximation et dépend du type de variable. Si X1 est supposé quantitative et suit une distribution normale, les paramètres utilisés seront :

  • P0 (probabilité de référence) : La probabilité que Y=1 lorsque toutes les variables explicatives sont à leur moyenne.
  • P1 (probabilité alternative) : La probabilité que X1 soit égale à une fois son écart-type au-dessus de sa moyenne, sachant que les autres variables explicatives sont à leur moyenne.
  • Odds ratio: Le rapport entre la probabilité Y=1, d'une part, lorsque X1 vaut une fois son écart-type au-dessus de sa moyenne et, d'autre part, lorsque X1 est à sa moyenne.
  • Le R² obtenu en faisant une régression entre X1 et les autres variables explicatives du modèle.

Si X1 est binaire et suit une loi binomiale. Les paramètres utilisés seront :

  • P(probabilité de référence) : La probabilité que Y=1 sachant que X1=0.
  • P1(probabilité alternative) : La probabilité que Y=1 sachant que X1=1.
  • Odds ratio: Le rapport entre la probabilité Y=1 lorsque X1=1 et lorsque X1=0.
  • Le R² obtenu en faisant une régression entre X1 et les autres variables explicatives du modèle.
  • Le pourcentage d'observations telles que X1=1.

Ces approximations dépendent de la loi normale et de ces paramètres et permettent de calculer la puissance de ce test.

Calcul de la taille de l'échantillon

Afin de calculer le nombre d'observations nécessaires, XLSTAT utilise un algorithme de recherche de racine d'une fonction appelé algorithme Van Wijngaarden-Dekker-Brent (Brent, 1973). Cet algorithme est adapté au cas où les dérivées de la fonction ne sont pas connues. On cherche ainsi N tel que

puissance_test(N)-puissance_recherchée=0

On obtient donc la taille N telle que la puissance soit la plus proche possible de la puissance recherchée.