Régression linéaire simple avec XLSTAT

Jeu de données pour Régression linéaire XLS112 Ko

Vidéo du tutoriel
  • Pro Logiciel de base de la suite XLSTAT

  • Pré-requis système

    • Windows:
      • Versions : 9x/Me/NT/2000/XP/Vista/Win 7
      • Excel : 97 et supérieures
      • Processeur : 32 ou 64 bits
      • Disque dur : 150 Mo
    • Mac OS X:
      • OS : OS X
      • Excel : X, 2004 et 2011
      • Disque dur : 150 Mo

Avantages

  • Pratique et simple d'utilisation
    Pratique et simple d'utilisation XLSTAT est parfaitement intégré à Microsoft Excel qui est le tableur le plus populaire au monde. Grâce à cette intégration, et au suivi de la même philosophie qu'Excel, l'utilisation de XLSTAT est aisée. Le logiciel est accessible dans un onglet dédié qui contient le menu de chaque module. Les analyses disponibles sont regroupées en menus fonctionnels. Les boîtes de dialogues sont pratiques et leur paramétrage est simple.
  • Partage aisé des données et résultats
    Partage aisé des données et résultats Un des plus grands avantages de XLSTAT est le fait que les données et résultats peuvent être partagés sans contrainte. En effet, données et résultats sont stockés dans Microsoft Excel et donc accessibles à tous. Il n'est pas nécessaire pour le receveur d'avoir une licence XLSTAT ou tout autre visionneur additionnel. Ceci facilite votre travail d'équipe et le rend plus économique. Enfin, les résultats sont transposables dans les autres logiciels de Microsoft Office dont PowerPoint ce qui vous permet de créer des présentations avec d'excellents graphiques en quelques minutes.
  • Modulaire
    Modulaire XLSTAT est un produit modulaire articulé autour de XLSTAT-Pro qui est le logiciel de base de XLSTAT. XLSTAT-Pro inclut déjà toutes les fonctionnalités les plus courantes en statistiques et analyses de données multivariées. Des fonctions plus avancées sont aussi disponibles dans des modules additionnels qui répondent à des demandes plus spécifiques. Ainsi, vous pouvez adapter le logiciel à vos propres besoins ce qui le rend plus rentable.
  • Didactique
    Didactique Les résultats de XLSTAT sont affichés pour chaque analyse et sont toujours disponibles pour une navigation plus simple. De plus, des informations utiles sont associées aux résultats afin de faciliter votre interprétation.
  • A un juste prix
    A un juste prix XLSTAT est un logiciel de statistique et d'analyse de données complet et modulaire qui s'adapte à tous les besoins analytiques d'une organisation. Son prix est très raisonnable ce qui vous permet de le rentabiliser presque immédiatement. Toutes les licences XLSTAT incluent un support et une assistance de première qualité.
  • Accessible en de nombreuses langues
    Accessible en de nombreuses langues Nous nous sommes assurés que XLSTAT puisse être accessible au plus grand nombre en distribuant le programme dans de nombreuses langues dont le français, l'anglais, l'allemand, l'espagnol, l'italien, le portugais, le polonais, le chinois et le japonais.
  • Automatisable et personnalisable
    Automatisable et personnalisable La plupart des fonctions disponibles dans XLSTAT peuvent être directement appelées depuis l'application Visual Basic de Microsoft Excel. Elles peuvent être intégrées à vos routines pour répondre aux besoins d'une application particulière. Ajouter des tableaux de résultats, des graphiques, ou modifier l'existant est simplifié. De plus, XLSTAT inclut des outils permettant de sauvegarder ou de recharger des paramètres automatiquement, mais aussi de générer du code VBA. Ceci permet de reproduire vos analyses depuis l'éditeur VBA. Cette automatisation des analyses routinières vous fera gagner du temps.

Jeu de données pour réaliser une régression linéaire simple

Une feuille Excel contenant les données et les résultats de cet exemple peut être téléchargée en cliquant ici.

Les données proviennent de Lewis T. and Taylor L.R. (1967). Introduction to Experimental Ecology, New York: Academic Press, Inc.. Elles concernent 237 enfants, décrits par leur sexe, leur âge en mois, leur taille en inch (1 inch = 2.54 cm), et leur poids en livres (1 livre = 0.45 kg).

But de ce tutoriel sur la régression linéaire simple

En utilisant la régression linéaire simple, notre but est d'étudier comment le poids varie en fonction de la taille, et si une relation linéaire a un sens.

Nous nous limitons ici au cas des filles. Il s'agit ici d'une régression linéaire simple, car une seule variable explicative est utilisée (la taille).

Dans un tutoriel sur la Régression multiple cet exemple est repris afin d'étudier l'influence de l'âge sur cette relation.

Un tutoriel sur l'ANCOVA reprend cet exemple afin d'ajouter le sexe (variable qualitative) comme variable explicative, et les données concernant les garçons sont alors prises en compte.

Paramétrer une régression linéaire simple

Une fois XLSTAT lancé, choisissez la commande XLSTAT / Modélisation / Régression linéaire ou cliquez sur le bouton Régression linéaire de la barre d'outils Modélisation.

barregf.gif

Une fois le bouton cliqué, la boîte de dialogue correspondant à la régression apparaît. Vous pouvez alors sélectionner les données sur la feuille Excel. La Variable dépendante correspond à la variable expliquée (ou variable à modéliser), qui est dans ce cas précis le "poids".

La variable quantitative explicative est ici la "taille". On veut ici expliquer la variabilité du poids par celle de la taille.

L'option Libellés des colonnes est activée car la première ligne des colonnes comprend le nom des variables.

Nous laissons l'option Résidus sélectionnée car nous analyserons les prédictions et les résidus pour valider l'hypothèse de normalité de la régression, et pour identifier des valeurs extrêmes.

reg1f.gif

Une fois que vous avez cliqué sur le bouton OK, les calculs commencent puis les résultats sont affichés.

Interpréter les résultats de la régression linéaire simple

Le premier tableau de résultats fournit les coefficients d'ajustement du modèle. Le R² (coefficient de détermination) donne une idée du % de variabilité de la variable à modéliser, expliqué par l a variable explicative. Plus ce coefficient est proche de 1, meilleur est le modèle.

reg2f.gif

Dans notre cas, 56% de la variabilité du poids est expliquée par la taille. Le reste de la variabilité est dû à des effets (autres variables explicatives) qui ne sont pas pris en compte dans cet exemple.

Le tableau d'analyse de la variance est un résultat qui doit être analysé attentivement (voir ci-dessous). C'est à ce niveau que l'on teste si l'on peut considérer que la variable explicative sélectionnée (la taille) apporte une quantité d'information significative au modèle (hypothèse nulle H0) ou non. En d'autres termes, c'est un moyen de tester si la moyenne de la variable à modéliser (le poids) suffirait à décrire les résultats obtenus ou non.

reg3f.gif

Le test du F de Fisher est utilisé. Etant donnée que la probabilité associée au F est dans ce cas inférieure à 0.0001, cela signifie que l'on prend un risque de se tromper de moins de 0.01% en concluant que la variable explicative apporte une quantité d'information significative au modèle.

Le tableau suivant fournit les détails sur le modèle et est essentiel dès lors que le modèle doit être utilisé pour faire des prévisions, des simulations ou s'il doit être comparé à d'autres résultats, par exemple les coefficients que l'on obtiendrait pour les garçons. Nous voyons que si le paramètre de la taille a un intervalle de confiance assez étroit, celui de la constante du modèle est assez large. L'équation du modèle est donnée sous le tableau. Le modèle indique que dans les limites de l'intervalle de variation de la variable taille données par les observations, à chaque fois que la taille augmente d'un inch, le poids augmente de 4 livres.

reg4f.gif

Le tabeau suivant présente l'analyse des résidus. Une attention particulière doit être portée aux résidus centrés réduits, qui, étant données les hypothèses liées à la régression linéaire, doivent être distribués suivant une loi normale N(0,1). Cela signifie, entre autres, que 95% des résidus doivent se trouver dans l'intervalle [-1.96, 1.96]. Etant donné le faible nombre de données dont on dispose ici, toute valeur en dehors de cet intervalle est révélatrice d'une donnée suspecte. Afin de mettre en évidence rapidement les valeurs se trouvant hors de l'intervalle [-1.96, 1.96], nous avons utilisé l'outil DataFlagger de XLSTAT.

Sur les 111 observations, cinq (26, 38, 64, 69, 77) sont hors de l'intervalle [-1.96, 1.96]. Cette analyse des résidus n'invalide donc pas l'hypothèse de normalité.

Le premier graphique permet de visualiser les données, la droite de régression, et les deux intervalles de confiance (le plus proche de la courbe est l'intervalle autour de la moyenne de l'estimateur, le second est l'intervalle autour de l'estimation ponctuelle aussi appelé intervalle de prédiction). On voit ainsi clairement une tendance linéaire, mais avec une forte variabilité autour de la droite. Les 5 valeurs suspectes sont en dehors du second intervalle de confiance.

reg5f.gif

Le troisième graphique semble indiquer que les résidus croissent en fonction du poids.

reg6f.gif

L'histogramme des résidus centrés réduits permet quant à lui de repérer rapidement et visuellement la présence de valeurs hors de l'intervalle [-2, 2].

reg7f.gif

En conclusion, la taille permet d'expliquer 56% de la variabilité du poids. Pour expliquer la variabilité restante, d'autres sources de variabitité doivent donc être prises en compte dans le modèle. Dans le tutoriel sur la régression linéaire multiple, l'âge est ajouté comme seconde variable explicative.