Comment appliquer un modèle logit multinomial avec XLSTAT ?

Le modèle logit multinomial consiste en une généralisation du modèle logit classique pour des variables à expliquer ayant plus de deux modalités (cette méthode peut aussi être appelée régression logistique polytomique).
Le principe de ce modèle est le suivant : on veut comprendre ou prédire l'effet d'une ou plusieurs variables sur une variable qualitative à réponses multiples. Cette variable doit être une variable catégorielle non ordonnée. L’ensemble des calculs se font relativement à une modalité de référence que l’utilisateur devra sélectionner. On pourra ainsi comprendre l’impact du choix d’une modalité en fonction des variables explicatives relativement à une modalité fixée.
Ce type de modèle s’applique par exemple dans le cas marketing au choix d’un produit plutôt que d’un autre. Le produit de référence étant modélisé par la modalité de référence et les offres alternatives par les autres modalités.

XLSTAT permet d’appliquer le modèle logit multinomial sur des données brutes.
La fenêtre associée au modèle logit multinomial est la même que celle associée à la régression logistique.

Le modèle logit multinomial permet de modéliser la probabilité qu'un événement survienne étant donné les valeurs d'un ensemble de variables descriptives quantitatives et/ou qualitatives. L'exemple que nous traitons ci-dessous correspond à un cas classique de la littérature marketing. On cherche à prédire la probabilité pour qu'un client choisisse une marque plutôt qu’une autre en fonction de deux variables explicatives : l’âge et le fait d’être une femme. La variable à expliquer a trois modalités, le fichier Excel comprenant à la fois les données et les résultats peut être téléchargé en cliquant ici. Le jeu de données comporte 735 observations.

Pour activer la boîte de dialogue du modèle logit multinomial, lancez XLSTAT, puis choisissez XLSTAT/Modélisation des données/Modèles pour réponses binaires, ou cliquez sur le bouton correspondant de la barre d'outils "Modélisation des données" (voir ci-dessous). Puis sélectionnez la régression logistique.

barlog1f.gif

Une fois que vous avez cliqué sur le bouton, la boîte de dialogue apparaît. Le modèle logit multinomial est activé en sélectionnant l’option multinomiale comme type de réponse :

logmult1f.gif

Sélectionnez les données sur la feuille Excel. Les données "Réponse" correspondent à la colonne dans laquelle se trouve la variable à expliquer. Dans notre cas il y a deux variables explicatives correspondant au sexe et à l’âge. Comme nous avons sélectionné les libellés des variables, nous devons sélectionner l'option "Libellés présents". On peut sélectionner la modalité témoin, soit la première modalité (a1=0), soit la dernière (an=0).

logmultf2f.gif

De nombreuses autres options sont disponibles dans les autres onglets de la boîte de dialogue (pour de plus amples détails, voir l’aide de XLSTAT).

Une fois que vous avez cliqué sur le bouton "OK", les calculs son effectués puis les résultats affichés.

Le tableau suivant donne plusieurs indicateurs de la qualité du modèle (ou qualité de l'ajustement). Ces résultats sont équivalents au R2 et au tableau d'analyse de la variance de la régression linéaire et de l'Anova. La valeur la plus importante est le Chi2 associé au Log ratio (L.R.). C'est l'équivalent du test F de Fisher du modèle linéaire : on essaie d'évaluer si les variables apportent une quantité d'information significative pour expliquer la variabilité de la variable cible. Dans notre cas, comme la probabilité est inférieure à 0.0001, on peut conclure que les variables apportent une quantité significative d'information.

logmultf3f.gif

Le tableau suivant donne les premiers détails sur le modèle et est utile pour évaluer la contribution des variables à la qualité du modèle. Il est légèrement différent du cas de la régression logistique. En effet, on a des coefficients pour chaque variable mais aussi pour chaque modalité (mise à part la modalité de référence). D’autre part, les odds ratios permettent une interprétation plus aisée des résultats (ils sont calculés comme l’exponentiel du coefficient).

logmultf4f.gif

L’interprétation des coefficients n’est pas immédiate. En reprenant l’équation du modèle nous avons :
Log(P(Réponse=2)/P(Réponse=1))=-11.775+0.524*FEMALE+0.368*AGE

Nous pouvons donc dire que pour une augmentation d’une unité de la variable AGE, le logarithme du rapport entre les probabilités associées aux produits 1 et 2 augmentera de 0.368. Ainsi, plus une personne sera âgée, plus elle préférera la marque 2 à la première.

On voit d'après la probabilité associée aux tests du Chi2 que la variable qui influence le plus le choix de la marque 2 est l’âge. La même remarque peut être faite pour la marque 3. La constante a aussi un rôle significatif dans les deux cas.

Les odds ratios permettent de voir que si la variable AGE augmente d’une unité alors on aura 1.445 fois plus de chance de choisir la marque 2 plutôt que la marque 1.

Ainsi, les deux variables sont à prendre en compte par les experts, si, par exemple, ils désirent augmenter les parts de marché de la marque 1, ils devront tenter de conquérir les personnes plus âgées.

D’autres résultats sont disponibles et pourront compléter les analyses effectuées jusqu’à présent.

Cliquez ici pour accéder à d'autres tutoriels.