Régression log-linéaire (régression de Poisson)

Principe de la régression log-linéaire

La régression log-linéaire fait partie de la famille des modèles linéaires généralisés. Elle est utilisée pour modéliser la relation entre une variable de réponse et une ou plusieurs variables explicatives, en supposant que la variable de réponse s’écrit comme le logarithme d'une fonction affine des variables explicatives.

La régression log-linéaire dans XLSTAT

La méthode de régression log-linéaire la plus utilisée est la régression de Poisson, elle permet de modéliser des données de comptage. XLSTAT propose également deux autres distributions: Gamma et exponentielle. On remarque que la distribution exponentielle est un cas particulier de la  distribution gamma où le paramètre d'échelle a été fixé à 1.

Contrairement à la régression linéaire, une solution analytique exacte n'existe pas. Ainsi, un algorithme itératif doit être utilisé. XLSTAT utilise un algorithme de Newton-Raphson. S’il le souhaite,  l'utilisateur peut modifier le nombre maximal d'itérations et le seuil de convergence.

Résultats pour la régression log-linéaire dans XLSTAT

  • Résumé de la sélection des variables: Si une méthode de sélection a été choisie, XLSTAT affiche le résumé de la sélection. Pour une sélection « stepwise », les statistiques correspondantes pour les différentes étapes sont affichées.
  • Coefficients d’ajustement:Ce tableau affiche une série de statistiques pour le modèle indépendant et le modèle ajusté.
    • Observations : Le nombre total d'observations prises en compte (somme des poids des observations);
    • Somme des poids : Le nombre total d'observations prises en compte (somme des poids des observations) ;
    • DDL : Nombres de degrés de liberté;
    • -2 Log (Vraisemblance) : Le logarithme de la fonction de vraisemblance associé au modèle;
    • R² (McFadden) : Similaire au R², entre 0 et 1,  il indique dans quelle mesure le modèle est bien ajusté.
    • R² (Cox et Snell) : Similaire au R², entre 0 et 1,  il indique dans quelle mesure le modèle est bien ajusté.
    • R² (Nagelkerke) : Similaire au R², entre 0 et 1,  il indique dans quelle mesure le modèle est bien ajusté.
    • Déviance : le critère de déviance ;
    • Chi² de Pearson : Critère du Chi² de Pearson ;
    • AIC : Critère d'information d'Akaïke ;
    • SBC : Critère Bayésien de Schwarz ;
    • Test de l'hypothèse nulle H0: Y = constante : L'hypothèse H0 correspond au modèle indépendant qui donne les mêmes résultats quels que soient les valeurs des variables explicatives. Ce test permet de vérifier si le modèle ajusté est significativement meilleur que le modèle indépendant. Trois tests sont proposés : le test du rapport de vraisemblance (-2 Log (Vraisemblance)), le test du score et le test de Wald. Les trois statistiques suivent une distribution du Chi² dont les degrés de liberté sont affichés.
    • Analyse de Type III : Ce tableau n'est utile que s'il y a plus d'une variable explicative. Cette analyse consiste à retirer une variable du modèle et à tester le nouveau modèle contre le modèle ajusté.
    • Les paramètres du modèle : L'estimation des paramètres, l’écart type, le Chi² de Wald, la p-value correspondante et l'intervalle de confiance sont affichés pour la constante et chaque variable du modèle.
    • Equation du modèle : Pour faciliter la lecture et pouvoir réutiliser le modèle, l’équation du modèle est affichée.
    • Les prédictions et résidus : Pour chaque observation sont affichés : le poids, la valeur observée de la variable dépendante, les prédictions, les mêmes valeurs divisées par les coefficients de pondération, les résidus standardisés et un intervalle de confiance.
    • Test de sur-dispersion : Pour la régression de Poisson un test de sur-dispersion est affiché.