Régression logistique avec XLSTAT

Jeu de données pour Régression logistique pour réponse binaires et multinomiales (Logit, Probit, ...) XLS64.0 Ko

Vidéo du tutoriel
"Régression logistique pour réponse binaires et multinomiales (Logit, Probit, ...)" inclus dans : Télécharger L'évaluation Plus d'info Commentaires utilisateurs
  • Pro Logiciel de base de la suite XLSTAT

  • Pré-requis système

    • Windows:
      • Versions : 9x/Me/NT/2000/XP/Vista/Win 7
      • Excel : 97 et supérieures
      • Processeur : 32 ou 64 bits
      • Disque dur : 150 Mo
    • Mac OS X:
      • OS : OS X
      • Excel : X, 2004 et 2011
      • Disque dur : 150 Mo

Avantages

  • Pratique et simple d'utilisation
    Pratique et simple d'utilisation XLSTAT est parfaitement intégré à Microsoft Excel qui est le tableur le plus populaire au monde. Grâce à cette intégration, et au suivi de la même philosophie qu'Excel, l'utilisation de XLSTAT est aisée. Le logiciel est accessible dans un onglet dédié qui contient le menu de chaque module. Les analyses disponibles sont regroupées en menus fonctionnels. Les boîtes de dialogues sont pratiques et leur paramétrage est simple.
  • Partage aisé des données et résultats
    Partage aisé des données et résultats Un des plus grands avantages de XLSTAT est le fait que les données et résultats peuvent être partagés sans contrainte. En effet, données et résultats sont stockés dans Microsoft Excel et donc accessibles à tous. Il n'est pas nécessaire pour le receveur d'avoir une licence XLSTAT ou tout autre visionneur additionnel. Ceci facilite votre travail d'équipe et le rend plus économique. Enfin, les résultats sont transposables dans les autres logiciels de Microsoft Office dont PowerPoint ce qui vous permet de créer des présentations avec d'excellents graphiques en quelques minutes.
  • Modulaire
    Modulaire XLSTAT est un produit modulaire articulé autour de XLSTAT-Pro qui est le logiciel de base de XLSTAT. XLSTAT-Pro inclut déjà toutes les fonctionnalités les plus courantes en statistiques et analyses de données multivariées. Des fonctions plus avancées sont aussi disponibles dans des modules additionnels qui répondent à des demandes plus spécifiques. Ainsi, vous pouvez adapter le logiciel à vos propres besoins ce qui le rend plus rentable.
  • Didactique
    Didactique Les résultats de XLSTAT sont affichés pour chaque analyse et sont toujours disponibles pour une navigation plus simple. De plus, des informations utiles sont associées aux résultats afin de faciliter votre interprétation.
  • A un juste prix
    A un juste prix XLSTAT est un logiciel de statistique et d'analyse de données complet et modulaire qui s'adapte à tous les besoins analytiques d'une organisation. Son prix est très raisonnable ce qui vous permet de le rentabiliser presque immédiatement. Toutes les licences XLSTAT incluent un support et une assistance de première qualité.
  • Accessible en de nombreuses langues
    Accessible en de nombreuses langues Nous nous sommes assurés que XLSTAT puisse être accessible au plus grand nombre en distribuant le programme dans de nombreuses langues dont le français, l'anglais, l'allemand, l'espagnol, l'italien, le portugais, le polonais, le chinois et le japonais.
  • Automatisable et personnalisable
    Automatisable et personnalisable La plupart des fonctions disponibles dans XLSTAT peuvent être directement appelées depuis l'application Visual Basic de Microsoft Excel. Elles peuvent être intégrées à vos routines pour répondre aux besoins d'une application particulière. Ajouter des tableaux de résultats, des graphiques, ou modifier l'existant est simplifié. De plus, XLSTAT inclut des outils permettant de sauvegarder ou de recharger des paramètres automatiquement, mais aussi de générer du code VBA. Ceci permet de reproduire vos analyses depuis l'éditeur VBA. Cette automatisation des analyses routinières vous fera gagner du temps.

Régression logistique

La régression logistique, et les méthodes associées comme l'analyse Probit, sont très utiles lorsque l'on veut comprendre ou prédire l'effet d'une ou plusieurs variables sur une variable à réponse binaire, c'est à dire qui ne peut prendre que deux valeurs 0/1 ou Oui/Non par exemple.

Une régression logistique sera très utile pour modéliser l'effet de doses de médicament en médecine, de doses de composants chimiques en agriculture, ou pour évaluer la propension de clients à répondre à un mailing, ou pour mesurer le risque pour qu'un client ne rembourse pas son prêt dans une banque.

Avec XLSTAT il est possible de faire de la régression logistique soit directement sur les données brutes (la réponse est 0 ou 1) soit sur des données agrégées (la réponse est une somme de succès - de 1 par exemple - et dans ce cas le nombre de répétitions doit aussi être disponible).

log1f.gif

Exemple de données brutes - (effet de la température sur la résistance d'une puce électronique)

log2f.gif

Exemple de données agrégées - (effet d'un insecticide sur une espèce d'insecte)

Addinsoft a développé un module spécifique pour l'analyse des effets de dose. XLSTAT-Dose qui peut être commandé séparément.

La régression logistique permet de modéliser la probabilité qu'un événement survienne étant donné les valeurs d'un ensemble de variables descriptives quantitatives et/ou qualitatives.

Jeu de données pour la régression logistique

L'exemple que nous traitons ci-dessous correspond à un cas marketing dans lequel on cherche à prédire la probabilité pour qu'un client renouvèle son abonnement à un service d'information en ligne.

Un fichier Excel comprenant à la fois les données et les résultats peut être téléchargé en cliquant ici.

Les données correspondent à un échantillon de 60 "lecteurs", avec la catégorie d'âge, le nombre moyen de pages vues par semaine sur les 10 dernières semaines, et le nombre de pages vues au cours de la dernière semaine. Il a été proposé à ces lecteurs de renouveler leur abonnement qui doit expirer dans deux semaines. Le but est de comprendre pourquoi certains ont re-souscrit d'autres non.

But de ce tutoriel sur la régression logistique

Le but est d'utiliser la régression logistique pour expliquer les résultats obtenus et ensuite pour appliquer le modèle sur l'ensemble de la population afin d'identifier les personnes qui pourraient ne pas renouveler leur abonnement.

Avec cette information on pourra leur proposer une promotion ou des services complémentaires afin de stimuler leur intérêt pour l'offre.

Paramétrer une régression logistique

Pour activer la boîte de dialogue de la régression logistique, lancez XLSTAT, puis choisissez XLSTAT / Modélisation des données / Régression logistique, ou cliquez sur le bouton correspondant de la barre d'outils Modélisation des données (voir ci-dessous).

barlog1f.gif

Une fois que vous avez cliqué sur le bouton, la boîte de dialogue apparaît.

Sélectionnez les données sur la feuille Excel.

Les données Réponse correspondent à la colonne dans laquelle se trouve la variable binaire ou quantitative (résultant alors d'une somme de binaires - dans ce cas la colonne des "Poids" doit ensuite être sélectionnée).

Dans notre cas il y a trois variables explicatives, une qualitative - la classe d'âge - et deux quantitatives correspondant aux comptages des pages vues.

Comme nous avons sélectionné les libellés des variables, nous devons sélectionner l'option Libellés des variables.

log3f.gif

Une fois que vous avez cliqué sur le bouton OK, les calculs sont effectués puis les résultats affichés.

Interpréter les résultats d'une régression logistique

Le tableau suivant donne les premiers détails sur le modèle et est utile pour évaluer la contribution des variables à la qualité du modèle.

log4f.gif

En utilisant ce tableau, on voit d'après la probabilité associée aux tests du Khi2 que la variable qui influence le plus le renouvellement est le nombre de pages vues la semaine précédente. La constante a aussi un rôle significatif, de même que l'appartenance à la classe d'âge 40-49 dont le rôle est fortement négatif. Ce dernier point devra être approfondi par les responsables marketing et éditoriaux, afin d'étudier le pourquoi de cette situation.

Le tableau suivant donne plusieurs indicateurs de la qualité du modèle (ou qualité de l'ajustement). Ces résultats sont équivalents au R2 et au tableau d'analyse de la variance de la régression linéaire et de l'Anova. La valeur la plus importante est le Chi2 associé au Log ratio (L.R.). C'est l'équivalent du test F de Fisher du modèle linéaire : on essaie d'évaluer si les variables apportent une quantité d'information significative pour expliquer la variabilité de la variable binaire. Dans notre cas, comme la probabilité est inférieure à 0.0001, on peut conclure que les variables apportent une quantité significative d'information.

log5f.gif

La dernière étape consiste en l'application du modèle sur l'ensemble de la population. Dans notre cas le modèle s'écrit : Y = Exp( L(x) ) / [ 1 + Exp( L(x) ], avecL(x) = -2.3567 + 0.0235.PagesMoy/Semaine + 0.0893.Pages/Semaine + Facteur où Facteur prend la valeur du paramètre correspondant à la classe d'âge à laquelle le client appartient.

Lorsque le modèle a été appliqué aux 600 clients qui devaient renouveler leur abonnement, on a trouvé que seulement 40% était susceptibles de resouscrire. Grâce à une série d'actions marketing, le pourcentage finalement obtenu a été de 85% ce qui constitue un excellent résultat.