Analyse de la variance ou ANOVA

Utilisez ce module pour faire de l'ANOVA (Analyse de variance) à un ou plusieurs facteurs, équilibrée ou déséquilibrée. Disponible dans Excel avec le logiciel XLSTAT.

Principes de l’analyse de la variance ou ANOVA

L'analyse de variance utilise le même cadre conceptuel que la régression linéaire. La différence principale vient de la nature des variables explicatives : au lieu d'être quantitatives, elles sont ici qualitatives. Dans le cadre de l'ANOVA, les variables explicatives sont souvent appelées facteurs.

Modèle de l’analyse de la variance ou ANOVA

Si p est le nombre de facteurs, le modèle de l'ANOVA s'écrit de la manière suivante :

yi = β0 + ∑j=1...q βk(i,j),j + εi

où yi est la valeur observée pour la variable dépendante pour l'observation i, k(i,j) est l'indice correspondant à la modalité du facteur j pour l'observation i, et εi est l'erreur du modèle.

Les hypothèses utilisées en ANOVA sont identiques à celles de la régression linéaire : les erreurs εi suivent une même loi normale N(0,s) et sont indépendantes.

Options pour l’analyse de la variance ou ANOVA dans XLSTAT

XLSTAT permet de traiter les cas :

  • d'ANOVA équilibrée : lorsque les effectifs des modalités sont égaux pour l'ensemble des facteurs,
  • d'ANOVA déséquilibrée : lorsque les effectifs de toutes les modalités de l'un des facteurs ne sont pas égaux.
  • d'ANOVA à un ou plusieurs facteurs. 
  • d'ANOVA avec des interactions
  • d'ANOVA avec un effet imbriqué. 

Sélection du modèle

Il est possible de sélectionner les variables à prendre en compte dans l’analyse grâce à quatre options : Meilleur modèle, Stepwise, Ascendante, Descendante

Tests de comparaisons multiples

Dans le cas de variables ayant plusieurs niveaux, plusieurs tests et procédures de comparaisons multiples sont disponibles : Bonferroni, Dunn-Sidak, Dunnett, Fisher, Tukey, Duncan, REGWQ, Newman-Keuls et Games-Howell.

Tests des hypothèses

  • Test de normalité : activez cette option pour qu'un test deShapiro Wilk soit effectué sur les résidus.
  • Test de Levene : activez cette option pour qu'un test de Levene soit effectué afin de comparer les variances des différentes modalités pour chaque facteur.

Résultats pour l’analyse de la variance ou ANOVA

Ci-dessous est une liste non exhaustive des résultats obtenus pour l'analyse de la variance (ANOVA) avec XLSTAT.

  • Coefficients d'ajustement : dans ce tableau sont affichées les statistiques relatives à l'ajustement du modèle de régression :​ DLL, R², R² ajusté, MCE, RMCE, MAPE , DW , Cp​, AIC, SBC, le critère de prédiction d'Amemiya et Press RMCE​.
  • Le tableau des Type I SS permet de visualiser l'influence de l'ajout progressif des variables explicatives sur l'ajustement du modèle, au sens de la somme des carrés des erreurs (SCE), de la moyenne des carrés des erreurs (MCE), du F de Fisher, ou de la probabilité associée au F de Fisher. Plus la probabilité est faible, plus la contribution de la variable au modèle est importante, toutes les autres variables étant déjà dans le modèle. Remarque : l'ordre de sélection des variables dans le modèle influe sur les valeurs obtenues.
  • Le tableau des Type II SS permet de visualiser l'influence du retrait d'une variable explicative sur l'ajustement du modèle, toutes les autres variables étant conservées, au sens de la somme des carrés des erreurs (SCE), de la moyenne des carrés des erreurs (MCE), du F de Fisher, ou de la probabilité associée au F de Fisher. Plus la probabilité est faible, plus la contribution de la variable au modèle est importante. Remarque : dans le cas des ANOVAs déséquilibrées, l'utilisation des Type III est recommandée mais XLSTAT affiche les Type II pour les utilisateurs avancés qui voudraient disposer des Type II.
  • Le tableau des Type III SS permet de visualiser l'influence du retrait d'une variable explicative sur l'ajustement du modèle, toutes les autres variables étant conservées, au sens de la somme des carrés des erreurs (SCE), de la moyenne des carrés des erreurs (MCE), du F de Fisher, ou de la probabilité associée au F de Fisher. Plus la probabilité est faible, plus la contribution de la variable au modèle est importante, toutes les autres variables étant déjà dans le modèle. Remarque : contrairement au cas des Type I SS, l'ordre de sélection des variables dans le modèle n'influe pas sur les valeurs obtenues, et contrairement aux Type II SS, les valeurs ne dépendent pas des effectifs des cellules (par cellule on entend une combinaison de modalités des différents facteurs), ce qui fait des Type III le test recommandé pour évaluer la contribution d'une variable.
  • Le tableau d'analyse de la variance permet d'évaluer le pouvoir explicatif des variables explicatives. Dans le cas où la constante du modèle n'est pas fixée à une valeur donnée, le pouvoir explicatif est évalué en comparant l'ajustement (au sens des moindres carrés) du modèle final avec l'ajustement du modèle rudimentaire composé d'une constante égale à la moyenne de la variable dépendante. Dans le cas où la constante du modèle est fixée, la comparaison est faite par rapport au modèle pour lequel la variable dépendante serait égale à la constante fixée.
  • L'équation du modèle est ensuite affichée pour faciliter la lecture ou la réutilisation du modèle.
  • Le tableau des coefficientsnormalisés (aussi appelés coefficients bêta) permet de comparer le poids relatif des variables. Plus la valeur absolue d'un coefficient est élevée, plus le poids de la variable correspondante est important. Lorsque l'intervalle de confiance autour des coefficients normalisés comprend la valeur 0 (cela est facilement visible sur le graphique des coefficients normalisés), le poids d'une variable dans le modèle n'est pas significatif.
  • Dans le tableau des prédictions et résidus sont donnés pour chaque observation, son poids, la valeur de la variable explicative qualitative s'il n'y en a qu'une, la valeur observée de la variable dépendante, la prédiction du modèle, les résidus, les intervalles de confiance, ainsi que la prédiction ajustée. Deux types d'intervalles de confiance sont affichés : un intervalle de confiance autour de la moyenne (correspondant au cas où l'on ferait la prédiction pour un nombre infini d'observations avec un ensemble de valeurs données des variables explicatives) et un intervalle autour de la prédiction ponctuelle (correspondant au cas d'une prédiction isolée pour des valeurs données des variables explicatives). 
  • Dans le tableau des diagnostics d'influence sont affichés pour chaque observation, son poids, le résidu, le résidu normalisé (division par la RMCE), le résidu studentisé, le résidu supprimé (Deleted), le résidu supprimé studentisé, le leverage, la distance de Mahalanobis, le D de Cook, le CovRatio, le DFFits, le DFFits standardisé, les DFBeta (un par coefficient du modèle) et les DFBeta standardisés.

Résultats graphique pour l’analyse de la variance ou ANOVA

Les graphiques suivant permettent de visualiser les résultats mentionnés ci-dessus.

S'il n'y a qu'une seule variable explicative dans le modèle, le premier graphique affiché permet de visualiser les valeurs observées, la droite de régression et les deux types d'intervalles de confiance autour des prévisions.

Le second graphique permet quant à lui de visualiser les résidus normalisés en fonction de la variable explicative. En principe, les résidus doivent être distribués de manière aléatoire autour de l'axe des abscisses. L'observation d'une tendance ou d'une forme révèlerait un problème au niveau du modèle.

Les trois graphiques affichés ensuite permettent de visualiser respectivement l'évolution des résidus normalisés en fonction de la variable dépendante, la distance entre les prédictions et les observations (pour un modèle idéal, les points seraient tous sur la bissectrice), et les résidus normalisés sur la forme d'un diagramme en bâtons. Ce dernier graphique permet de rapidement voir si un nombre anormal de données sort de l'intervalle ]-2, 2[ sachant que ce dernier, sous hypothèse de normalité, doit contenir environ 95% des données.

Quatre graphiques sont ensuite affichés pour mettre en évidence les observations dont l'influence nécessite une attention particulière.