Puissance statistique pour la régression linéaire

Puissance statistique pour tester la variation du R² en régression linéaire

XLSTAT-Pro propose un outil permettant d'appliquer un modèle de régression linéaire. XLSTAT-Power permet d'estimer la puissance ou de calculer le nombre d'observations nécessaires associée aux variations du R² dans le cadre d'une régression linéaire.

Lorsqu'on teste une hypothèse à l'aide d'un test statistique, on a plusieurs éléments à choisir :

  • L'hypothèse nulle H0 et l'hypothèse alternative Ha.
  • Le test statistique à utiliser
  • L'erreur de première espèce (erreur de type I) que l'on appelle aussi alpha. Elle se produit lorsqu'on rejette l'hypothèse nulle alors qu'elle est vraie. Elle est fixée a priori pour chaque test et vaut 5%.

L'erreur de seconde espèce ou beta est moins étudiée mais elle revêt une grande importance. En effet, elle représente la probabilité que l'on ne rejette pas l'hypothèse nulle alors qu'elle est fausse. On ne peut pas la fixer a priori mais, on peut essayer de la minimiser, en jouant sur les autres paramètres du modèle. La puissance d'un test est calculée comme 1-beta et représente la probabilité que l'on rejette l'hypothèse nulle alors qu'elle est bien fausse. On voudra donc maximiser la puissance du test. Le module XLSTAT-Power permet de calculer cette puissance (ainsi que beta) lorsque les autres paramètres du test sont connus. D'autre part, il permet pour une puissance donnée d'évaluer la taille de l'échantillon nécessaire à l'obtention de cette puissance.

Les calculs de puissance en statistique se font généralement avant que l'expérience ne soit menée. On s'en sert principalement pour estimer le nombre d'observations nécessaire pour que l'expérience ait la qualité statistique requise.

XLSTAT permet donc de comparer :

  • La valeur du R² à 0
  • L'augmentation du R² lorsqu'on ajoute de nouvelles variables explicatives au modèle.

Ceci revient à tester les hypothèses suivantes :

  • H0 : Le R² est égal à 0 / Ha : Le R² est différent de 0
  • H0 : L'augmentation du R² est égale à 0 / Ha : L'augmentation du R² est différente de 0.

Taille de l'effet (effect size) pour la variation du R² lors de la régression linéaire

Ce concept est très important dans les calculs de puissance. En effet, Cohen (1988) a développé ce concept qui va permettre de s'affranchir d'entrer tous les paramètres du modèle (qui sont d'ailleurs souvent inconnus). La taille de l'effet est une grandeur qui permet de calculer la puissance d'un test sans entrer tous les paramètres mais qui permet de dire si l'effet des paramètres à tester est faible ou fort. Dans le cadre de la régression linéaire, les conventions de grandeurs de la taille de l'effet f² sont :

  • f²=0,02, l'effet est faible.
  • f²=0,15, l'effet est modéré.
  • f²=0,35, l'effet est fort.

XLSTAT-Power permet d'entrer directement la taille de l'effet, mais permet aussi d'entrer des paramètres du modèle qui permettront de calculer la taille de l'effet. Nous en détaillons les calculs ci-dessous :

  • En utilisant les variances : On peut utiliser les variances du modèle afin de définir la taille de l'effet. En prenant VarExpl pour la variance expliquée par les variables explicatives que l'on désire tester et VarErr pour la variance de l'erreur ou variance résiduelle du modèle, on aura : f² = varExplained/ varError.
  • En utilisant le R² (dans le cas de l'hypothèse nulle R² égal à 0) : On entre alors la valeur estimée du carré de la corrélation multiple théorique (rho²) pour le modèle analysé. On aura : f² = ρ² / (1 - ρ)
  • En utilisant le R² partiel (dans le cas du test sur l'augmentation du R²) : On entre alors la valeur du R² partiel qui représente l'augmentation du R² lorsqu'on ajoute un groupe de variables. On aura : f² = Rpart² / (1 - Rpart²)
  • En utilisant les corrélations entre les variables du modèle (dans le cas du test R² différent de 0) : On doit alors sélectionner un vecteur contenant les corrélations entre les variables explicatives et la variable dépendante CorrY et une matrice carrée contenant les corrélations entre les variables explicatives du modèle CorrX. On aura : f² = CorrYT * CorrX-1 * CorrY / (1 - = CorrYT * CorrX-1 * CorrY)

Une fois la taille de l'effet définie, on peut calculer la taille de l'échantillon nécessaire ou la puissance obtenue.

Calcul de la puissance d’un test de variation du R² en régression linéaire

La puissance d'un test est généralement obtenue à l'aide de la distribution non centrale associée. Ainsi, pour le cas de la régression linéaire, la distribution non centrale de Fisher est utilisée. La puissance de ce test est obtenue en utilisant la distribution non centrale de Fisher avec comme degrés de libertés : DL1 est le nombre de variables explicatives testées, DL2 est la taille de l'échantillon à laquelle on soustrait le nombre total de variables explicatives inclus dans le modèle plus un et comme paramètre de non centralité : NCP = f²N.

Calcul de la taille de l'échantillon

Afin de calculer le nombre d'observations nécessaires, XLSTAT utilise un algorithme de recherche de racine d'une fonction appelé algorithme Van Wijngaarden-Dekker-Brent (Brent, 1973). Cet algorithme est adapté au cas où les dérivées de la fonction ne sont pas connues. On cherche ainsi N tel que

puissance_test(N)-puissance_recherchée=0

On obtient donc la taille N telle que la puissance soit la plus proche possible de la puissance recherchée.