Régression logistique pour réponse binaires et multinomiales (Logit, Probit, ...)

Quand utiliser la régression logistique ?

La régression logistique est une méthode très utilisée car elle permet de modéliser des variables binaires ou des sommes de variables binaires. Elle est très utilisée dans le domaine médical (guérison ou non d'un patient), en sociologie, en épidémiologie, en marketing quantitatif (achat ou non de produits ou services suite à une action) et en finance pour modélisation de risques (scoring).

Principes de la régression logistique

Le principe du modèle de la régression logistique est de relier la survenance ou la non survenance d'un événement au niveau de variables explicatives. Par exemple, dans le domaine phytosanitaire, on cherche à évaluer à partir de quelle dose d'un agent chimique, un insecte sera neutralisé.

XLSTAT permet aussi de traiter le modèle logit multinomial qui est une extension de la régression logistique au cas de variables polytomiques (plus de deux modalités).

Modèles de la régression logistique

La régression logistique et la régression linéaire appartiennent à la même famille des modèles GLM (Generalized Linear Models) : dans les deux cas on relie un événement à une combinaison linéaire de variables explicatives. Pour la régression linéaire, la variable dépendante suit pas une loi normale N(µ, s) où µ est une fonction linéaire des variables explicatives. Pour la régression logistique, la variable dépendante, aussi appelée variable réponse, suit une loi de Bernoulli de paramètre p (p la probabilité moyenne pour que l'événement se produise), lorsque l'expérience est répétée une fois, ou une loi Binomiale(n, p) si l'expérience est répétée n fois (par exemple la même dose est essayée sur n insectes). Le paramètre de probabilité p est ici une fonction d'une combinaison linéaire des variables explicatives.

Les fonctions les plus couramment utilisées pour relier la probabilité p aux variables explicatives sont la fonction logistique (on parle alors de modèle Logit) et la fonction de répartition de la loi normale standard (on parle alors de modèle Probit). Ces deux fonctions sont parfaitement symétriques et sigmoïdes. XLSTAT propose deux autres fonctions : la fonction Log-log complémentaire qui n'est plus symétrique car concentrée sur l'asymptote supérieure, et la fonction de Gompertz qui est au contraire plus concentrée sur l'axe des abscisses.

L'expression analytique des modèles est donnée ci-dessous :

  • Logit : p = exp(βX) / (1 + exp(βX))
  • Probit : p = 1/√2π ∫-∞...βXexp(-x²/2)∂x
  • Log-log complémentaire : p = 1 – exp[-exp(βX)]
  • Gompertz : p = exp[-exp(βX)]

Où βX représente la combinaison linéaire des variables (constante comprise). La connaissance de la loi de distribution de l'événement étudié, permet d'écrire la vraisemblance de l'échantillon. Pour estimer les paramètres β du modèle (les coefficients de la fonction linéaire), on cherche à maximiser la fonction de vraisemblance. Contrairement à la régression linéaire, une solution analytique exacte n'existe pas. Il est donc nécessaire d'utiliser un algorithme itératif. XLSTAT utilise un algorithme de Newton-Raphson. L'utilisateur peut modifier s'il le souhaite le nombre maximum d'itérations et le seuil de convergence.

Problème de séparation avec la régression logistique

Dans l'exemple ci-dessous, la variable traitement permet de parfaitement distinguer les cas positifs des cas négatifs.

 Traitement 1Traitement 2
Réponse +1210
Réponse +085

Dans de tels cas, il existe une indétermination sur un ou plusieurs paramètres dont la variance est d'autant plus grande que le seuil de convergence est faible, ce qui empêche de fournir un intervalle de confiance autour du paramètre. Afin de résoudre ce problème et d'obtenir une solution stable, Firth (1993) a proposé d'utiliser une fonction de vraisemblance pénalisée (penalized likelihood). XLSTAT propose cette solution en option en s'appuyant sur les résultats fournis par Heinze (2002). Si l'écart type de l'un des paramètres est très élevé par rapport à l'estimation du paramètre, il est conseillé de recommence les calculs en activant l'option « Firth ».

Intervalles de confiance

Dans la plupart des logiciels, le calcul des intervalles de confiance sur les paramètres est comme pour la régression linéaire basé une hypothèse de normalité des paramètres. XLSTAT propose aussi la méthode alternative de la « profile likelihood » (Venzon et Moolgavkar, 1988). Cette méthode est plus fiable car elle ne nécessite pas de supposer la normalité des paramètres ; elle peut néanmoins ralentir les calculs car elle est itérative.

Cas du modèle logit multinomial

Le principe de cette méthode est de relier la probabilité de répondre l'une des modalités de la variable à expliquer en fonction de variables explicatives. L'expression analytique des modèles est donnée ci-dessous : Log[p(y=j | xi) / p(y=1 | xi)] = αj + βjXi

Dans le cadre du modèle multinomial, une modalité de référence doit être sélectionnée, les coefficients estimés seront interprétés en fonction de cette modalité de référence. La probabilité de choisir la modalité j en considérant que la modalité de référence est la modalité 1 est donc : p(y=j | xi) = exp(αj + βjXi) / [1 + Σk=2..J exp(αk + βkXi)] Pour la modalité 1, on a : p(y=1 | xi) = 1 / [1 + Σk=2..J exp(αk + βkXi)]

On peut ainsi obtenir la log-vraisemblance de l'échantillon : l(α,β) = Σi=1..nΣj=1..J yij log(p(y=j|xi)) Pour estimer les paramètres b du modèle (les coefficients de la fonction linéaire), on cherche à maximiser la fonction de vraisemblance. Contrairement à la régression linéaire, une solution analytique exacte n'existe pas. Il est donc nécessaire d'utiliser un algorithme itératif. XLSTAT utilise un algorithme de Newton-Raphson. Certains résultats ne peuvent pas être obtenus dans le cas multinomial.

Résultats de la régression logistique : Pourcentage d'observations bien classées et courbe ROC

XLSTAT donne la possibilité d'afficher le tableau de classification (aussi appelé matrice de confusion) qui permet de calculer un pourcentage d'observations bien classées, pour un point de séparation (cutoff) donné. Typiquement, pour une valeur de 0.5 du point de séparation, si la probabilité est inférieure à 0.5, l'observation est considérée comme étant affectée à la classe 0, sinon, elle est affectée à la classe 1. La courbe ROC peut aussi être affichée. La courbe ROC (Receiver Operating Characteristics) permet de visualiser la performance d'un modèle, et de la comparer cette performance à celle d'autres modèles. Les termes utilisés viennent de la théorie de détection du signal.

On désigne par sensibilité (sensivity) la proportion d'événements positifs bien classés. La spécificité (specificity) correspond à la proportion d'événements négatifs bien classés. Si l'on fait varier la probabilité seuil à partir de laquelle on considère qu'un événement doit être considéré comme positif, la sensibilité et la spécificité varient. La courbe des points (1-spécificité, sensibilité) est la courbe ROC. Considérons une variable dépendante binaire indiquant par exemple si un client a répondu favorablement à un mailing. Sur la figure ci-dessous, la courbe bleue correspond à un cas idéal où les n% de personnes ayant répondu favorablement correspondent aux n% de probabilités les plus élevées. La courbe verte correspond aux résultats d'un modèle bien discriminant. La courbe rouge (première bissectrice) correspond à ce que l'on obtiendrait avec un modèle aléatoire de Bernoulli avec une probabilité de réponse égale à celle observée sur l'échantillon étudié. Un modèle proche de la courbe rouge est donc inefficace puisqu'il n'est pas meilleur qu'un simple tirage au hasard. Un modèle en dessous de cette courbe serait catastrophique car il ferait moins bien que le hasard.

L'aire sous la courbe (ou Area Under the Curve – AUC) est un indice synthétique calculé pour les courbes ROC. L'AUC correspond à la probabilité pour qu'un événement positif ait une probabilité donnée par le modèle plus élevée qu'un événement négatif. Pour un modèle idéal, on a AUC=1, pour un modèle aléatoire, on a AUC=0.5. On considère habituellement que le modèle est bon dès lors que la valeur de l'AUC est supérieure à 0.7. Un modèle bien discriminant doit avoir une AUC entre 0.87 et 0.9. Un modèle ayant une AUC supérieure à 0.9 est excellent.

Contraintes pour les variables qualitatives pour la régression logistique

Au cours des calculs, chaque facteur est décomposé en une sous-matrice contenant autant de colonnes qu'il y a de modalités dans le facteur. Typiquement, il s'agit d'un tableau disjonctif complet. Cette décomposition pose néanmoins un problème : s'il y a g modalités, le rang de cette sous-matrice n'est pas g mais g-1. Cela entraîne la nécessité de supprimer l'une des colonnes de la sous-matrice, et éventuellement de transformer les autres colonnes. Plusieurs stratégies sont possibles en fonction de l'interprétation que l'on veut ensuite faire :

  1. a1=0 : le paramètre correspondant à la première modalité est nul. Ce choix permet d'imposer que l'effet de la première modalité correspond à un standard. Dans ce cas, la constante du modèle est égale à la moyenne de la variable dépendante pour le groupe 1.
  2. an=0 : le paramètre correspondant à la dernière modalité est nul. Ce choix permet d'imposer que l'effet de la dernière modalité correspond à un standard. Dans ce cas, la constante du modèle est égale à la moyenne de la variable dépendante pour le groupe g.
  3. Somme(ai)=0 : la somme des paramètres est nulle. Ce choix permet d'imposer que la constante du modèle est égale à la moyenne de la variable dépendante lorsque l'ANOVA est équilibrée.
  4. Somme(ai)=0 (PH) : la somme des paramètres est nulle. La différence avec l'option précédente vient du traitement des interactions. Ici, les sous-matrices ne sont pas calculées pour les interactions en appliquant la même règle que pour les facteurs, mais en utilisant le produit horizontal (PH) des sous-matrices des facteurs intervenant dans l'interaction.
  5. Somme(ni.ai)=0 : la somme des paramètres est nulle.