Modèle logit ordinal pour variables qualitatives ordinales

Quand utiliser le modèle logit ordinale (ou régression logistique ordinale) ?

La régression logistique ordinale est une méthode très utilisée car elle permet de modéliser des variables ordinales. Elle est très utilisée dans le domaine des enquêtes (échelle de satisfaction).

Principes du modèle logit ordinal

Le principe du modèle de la régression logistique ordinal est de relier la probabilité cumulée d'être à un niveau égal ou inférieur au niveau testé à des variables explicatives. Par exemple, dans le domaine des enquêtes, on va modéliser la probabilité d'avoir répondu à un niveau inférieur ou égal à la modalité "satisfait". La probabilité de répondre cette modalité est ensuite automatiquement calculée par XLSTAT.

XLSTAT permet aussi de traiter le modèle logit binaire et multinomial.

Modèles de la régression logistique ordinale

La régression logistique et la régression linéaire appartiennent à la même famille des modèles GLM (Generalized Linear Models) : dans les deux cas on relie un événement à une combinaison linéaire de variables explicatives.

Les fonctions les plus couramment utilisées pour relier les probabilités p aux variables explicatives sont la fonction logistique (on parle alors de modèle Logit ordinal) et la fonction de répartition de la loi normale standard (on parle alors de modèle Probit ordinal). Ces deux fonctions sont parfaitement symétriques et sigmoïdes.

L'expression analytique des modèles est donnée ci-dessous :

  • Logit : p = exp(βX) / (1 + exp(βX))
  • Probit : p = 1/√2π ∫-∞...βXexp(-x²/2)∂x

Où βX représente la combinaison linéaire des variables (constantes comprises). La connaissance de la loi de distribution de l'événement étudié, permet d'écrire la vraisemblance de l'échantillon. Pour estimer les paramètres β du modèle (les coefficients de la fonction linéaire), on cherche à maximiser la fonction de vraisemblance. Contrairement à la régression linéaire, une solution analytique exacte n'existe pas. Il est donc nécessaire d'utiliser un algorithme itératif. XLSTAT utilise un algorithme de Newton-Raphson. L'utilisateur peut modifier s'il le souhaite le nombre maximum d'itérations et le seuil de convergence.

Dans le cas ordinal, on aura une constante pour chaque niveau de la variable dépendante ordinale, mais une seule série de coefficients.

 

Contraintes pour les variables qualitatives pour la régression logistique

Au cours des calculs, chaque facteur est décomposé en une sous-matrice contenant autant de colonnes qu'il y a de modalités dans le facteur. Typiquement, il s'agit d'un tableau disjonctif complet. Cette décomposition pose néanmoins un problème : s'il y a g modalités, le rang de cette sous-matrice n'est pas g mais g-1. Cela entraîne la nécessité de supprimer l'une des colonnes de la sous-matrice, et éventuellement de transformer les autres colonnes. Plusieurs stratégies sont possibles en fonction de l'interprétation que l'on veut ensuite faire :

  1. a1=0 : le paramètre correspondant à la première modalité est nul. Ce choix permet d'imposer que l'effet de la première modalité correspond à un standard. Dans ce cas, la constante du modèle est égale à la moyenne de la variable dépendante pour le groupe 1.
  2. an=0 : le paramètre correspondant à la dernière modalité est nul. Ce choix permet d'imposer que l'effet de la dernière modalité correspond à un standard. Dans ce cas, la constante du modèle est égale à la moyenne de la variable dépendante pour le groupe g.