Régression non paramétrique (kernel regression) avec XLSTAT

Jeu de données pour Régression non paramétrique (Kernel, LOWESS) XLS124 Ko

Vidéo du tutoriel
"Régression non paramétrique (Kernel, LOWESS)" inclus dans : Télécharger L'évaluation Plus d'info Commentaires utilisateurs
  • Pro Logiciel de base de la suite XLSTAT

  • Pré-requis système

    • Windows:
      • Versions : 9x/Me/NT/2000/XP/Vista/Win 7
      • Excel : 97 et supérieures
      • Processeur : 32 ou 64 bits
      • Disque dur : 150 Mo
    • Mac OS X:
      • OS : OS X
      • Excel : X, 2004 et 2011
      • Disque dur : 150 Mo

Avantages

  • Pratique et simple d'utilisation
    Pratique et simple d'utilisation XLSTAT est parfaitement intégré à Microsoft Excel qui est le tableur le plus populaire au monde. Grâce à cette intégration, et au suivi de la même philosophie qu'Excel, l'utilisation de XLSTAT est aisée. Le logiciel est accessible dans un onglet dédié qui contient le menu de chaque module. Les analyses disponibles sont regroupées en menus fonctionnels. Les boîtes de dialogues sont pratiques et leur paramétrage est simple.
  • Partage aisé des données et résultats
    Partage aisé des données et résultats Un des plus grands avantages de XLSTAT est le fait que les données et résultats peuvent être partagés sans contrainte. En effet, données et résultats sont stockés dans Microsoft Excel et donc accessibles à tous. Il n'est pas nécessaire pour le receveur d'avoir une licence XLSTAT ou tout autre visionneur additionnel. Ceci facilite votre travail d'équipe et le rend plus économique. Enfin, les résultats sont transposables dans les autres logiciels de Microsoft Office dont PowerPoint ce qui vous permet de créer des présentations avec d'excellents graphiques en quelques minutes.
  • Modulaire
    Modulaire XLSTAT est un produit modulaire articulé autour de XLSTAT-Pro qui est le logiciel de base de XLSTAT. XLSTAT-Pro inclut déjà toutes les fonctionnalités les plus courantes en statistiques et analyses de données multivariées. Des fonctions plus avancées sont aussi disponibles dans des modules additionnels qui répondent à des demandes plus spécifiques. Ainsi, vous pouvez adapter le logiciel à vos propres besoins ce qui le rend plus rentable.
  • Didactique
    Didactique Les résultats de XLSTAT sont affichés pour chaque analyse et sont toujours disponibles pour une navigation plus simple. De plus, des informations utiles sont associées aux résultats afin de faciliter votre interprétation.
  • A un juste prix
    A un juste prix XLSTAT est un logiciel de statistique et d'analyse de données complet et modulaire qui s'adapte à tous les besoins analytiques d'une organisation. Son prix est très raisonnable ce qui vous permet de le rentabiliser presque immédiatement. Toutes les licences XLSTAT incluent un support et une assistance de première qualité.
  • Accessible en de nombreuses langues
    Accessible en de nombreuses langues Nous nous sommes assurés que XLSTAT puisse être accessible au plus grand nombre en distribuant le programme dans de nombreuses langues dont le français, l'anglais, l'allemand, l'espagnol, l'italien, le portugais, le polonais, le chinois et le japonais.
  • Automatisable et personnalisable
    Automatisable et personnalisable La plupart des fonctions disponibles dans XLSTAT peuvent être directement appelées depuis l'application Visual Basic de Microsoft Excel. Elles peuvent être intégrées à vos routines pour répondre aux besoins d'une application particulière. Ajouter des tableaux de résultats, des graphiques, ou modifier l'existant est simplifié. De plus, XLSTAT inclut des outils permettant de sauvegarder ou de recharger des paramètres automatiquement, mais aussi de générer du code VBA. Ceci permet de reproduire vos analyses depuis l'éditeur VBA. Cette automatisation des analyses routinières vous fera gagner du temps.

Régression non paramétrique : kernel regression

La Kernel Regression qui fait partie des méthodes de régression non-paramétrique est aussi parfois associée aux méthodes de lissage. En principe, l'utilisation de la régression Kernel se fait suivant trois phases :

  1. une phase d’ajustement pendant laquelle on va essayer de trouver la meilleure combinaisons des caractéristiques de la méthode (modèle, noyau, bande passante, ...) sur un échantillon test;
  2. une phase de validation qui permet de valider le modèle sur de nouvelles observations;
  3. une phase d'application une fois que la validation est satisfaisante.

Remarque : la méthode de régression non paramétrique inclut par nature une validation, puisque l'observation pour laquelle on fait une prévision n'est pas incluse dans le jeu de données servant à sa prévision. Néanmoins, on pourra vouloir valider la méthode en l'appliquant à un nouveau jeu de données correspondant par exemple à une période de temps différente. Les prévisions pour l'échantillon de validation pourront alors être obtenues sur la base de l'échantillon de départ. Un bon ajustement pourra permettre de conclure que les deux périodes de temps sont homogènes et que la méthode est donc validée.

Contrairement à la régression linéaire classique, le but n'est pas ici de trouver un modèle unique décrivant/expliquant/prédisant un phénomène, mais d'obtenir une méthode prévisionnelle efficace, sans qu'une compréhension physique du phénomène soit nécessaire.

La régression non-paramétrique fonctionne un peu comme une boîte noire.

C'est une méthode intensive, puisque pour chaque observation, un nouveau modèle est calculé (en Robust Lowess regression, on calcule jusqu'à 3 modèles par observation).

Jeu de données pour la régression non paramétrique de type kernel

L'exemple traité ici correspond à un phénomène simple et n'a qu'un but illustratif. La régression non paramétrique peut s'avérer très utile pour modéliser des phénomènes complexes comme des séries chronologiques en finance ou la pollution de l'air en milieu urbain. Elle est aussi parfois utilisée comme méthode de lissage.

L'exemple développé ci-dessous porte sur les données utilisées dans le tutoriel sur la régression linéaire classique.

Une feuille Excel contenant les données et les résultats de cet exemple peut être téléchargée en cliquant ici.

Les données proviennent de [Lewis T. and Taylor L.R. (1967). Introduction to Experimental Ecology, New York: Academic Press, Inc.]. Les données concernent 237 enfants, décrits par leur sexe, leur âge en mois, leur taille en inch (1 inch = 2.54 cm), et leur poids en livres (1 livre = 0.45 kg). L'étude comporte deux phases : une phase d'ajustement sur 217 individus, et une phase de validation de 20 individus (10 femmes et 10 hommes).

Paramétrer une régression non paramétrique de type kernel

Une fois XLSTAT lancé, choisissez la commande XLSTAT / Modélisation / Régression non paramétrique ou cliquez sur le bouton correspondant de la barre d'outils Modélisation.

barkernf.gif

Une fois le bouton cliqué, la boîte de dialogue correspondant à la régression non paramétrique apparaît.

Vous pouvez alors sélectionner les données sur la feuille Excel. La "Variable dépendante" correspond à la variable expliquée (ou variable à modéliser), qui est dans ce cas précis le poids.

Les variables explicatives sont ici la "taille", l'"âge" (données quantitatives) et le "sexe" (données qualitatives).

La sélection par colonnes est utilisée ici pour gagner du temps. L'option Libellés des variables est activée car la première ligne des colonnes comprend le nom des variables.

La méthode choisie est celle du modèle polynomial de degré 1, en utilisant tous les individus, sauf celui concerné pour calculer la prédiction, avec une pondération utilisant le noyau gaussien.

La bande-passante choisie est celle de l'écart-type. Cela permet d'éviter qu'un effet d'échelle perturbe les calculs.

Remarque : dans ce cas, on est très proche du modèle d'ANCOVA, la seule particularité étant que l'individu n'intervient pas dans le modèle utilisé pour établir la prédiction qui le concerne, et que le poids des individus dans le modèle dépend de leur distance à l'individu concerné.

kern1f.gifkern2f.gifkern3f.gif

Une fois que vous avez cliqué sur le bouton OK, les calculs commencent puis les résultats sont affichés.

Interpréter les résultats d'une régression non paramétrique de type kernel

Les coefficients d'ajustement du modèle permettent d'évaluer la performance du modèle, et éventuellement de la comparer à celles d'autres modèles.

Le R’² (coefficient de détermination) donne une idée du % de variabilité de la variable à modéliser, expliqué par les variables explicatives. Plus ce coefficient est proche de 1, meilleur est le modèle.

kern4f.gif

La tableau des prédictions et des résidus permet de visualiser pour chacun des individus, les données d'entrée, la prévision du modèle et le résidu. Les résidus varient en valeur absolue entre 0.01 (individu 45) et 40 (individu 195).

Pour les données de validation, on note que les résidus calculés sont fortement variables. Pour les individus 229 et 235 la prévision est très bonne. Elle l'est nettement moins pour l'individu 224.

kern5f.gif