Modèles de régression sur Classes Latentes

Qu'est-ce que l'analyse en Classes Latentes?

Les analyses en classes latentes impliquent la construction de classes latentes, qui sont des sous-groupes ou segments non-observés (latents) de cas (observations, individus). Les classes latentes sont construites en se basant sur les réponses observées (manifestes) des cas sur un ensemble de variables indicatrices. Les cas se trouvant dans la même classe latente sont similaires sur le plan de leurs réponses tandis que les cas se trouvant dans des classes différentes le sont moins. Formellement, les classes sont représentées par K catégories distinctes d’une variable nominale latente X. Comme X est catégorielle, la modélisation LC se distingue d’approches plus traditionnelles telles que l’analyse factorielle, les modèles d’équations structurelles,  ainsi que les modèles de régression impliquant des effets aléatoires. Ces approches sont plutôt basées sur des variables latentes continues. 

XLSTAT-LG est basé sur le logiciel Latent Gold® développé par Statistical Innovations inc.

 

Qu'est-ce qu'un modèle de régression sur Classes Latentes?

Un modèle de régression sur classes latentes:

  • Est utilisé pour prédire une variable dépendante (à expliquer) en fonction de variables prédictives (explicatives).
  • Met en jeu une variable latente X à K catégories (modèle CL)
  • Chaque catégorie représente une sous-population (segment) homogène associée à des coefficients de régression identiques.
  • Chaque cas (individu) peut être associé à plusieurs mesures (régression CL avec mesures répétées).
  • Le type de modèle est estimé en fonction du type de variable dépendante :
    1. Variable continue : régression linéaire (avec résidus distribués normalement).
    2. Variable nominale avec plus de deux modalités : régression logistique multinomiale.
    3. Variable ordinale avec plus de deux niveaux ordonnés : régression logistique ordinale basée sur des catégories adjacentes.
    4. Variable type comptages : régression log-linéaire de Poisson.
    5. Variable binomiale : régression logistique binomiale.

XLSTAT-LG permet de lancer des calculs automatiquement sur différents modèles, chaque modèle étant représenté par un nombre de classes distinct. Il est également possible d'optimiser des constantes de Bayes, des jeux aléatoires de valeurs initiales, ainsi que des paramètres d'itération pour les algorithmes Expectation-Maximisation et Newton-Raphson, utilisés pour l'estimation des modèles.

 

Résultats

XLSTAT-LG affiche une section par modèle (chaque modèle étant représenté par un nombre spécifique de classes):

Statistiques descriptives : Nombre d’observations utilisées dans l’estimation du modèle, nombre de paramètres distincts estimés, graine et graine unique permettant de reproduire ce modèle plus rapidement en utilisant un nombre de jeux aléatoires de valeurs initiales = 0.

Résumé de l'estimation : pour chacun des deux algorithmes d'estimation (Expectation-Maximisation et Newton-Raphson), XLSTAT renvoie le nombre d'itérations enclenchées, la valeur du log-posterior, la valeur d'ajustement du rapport de vraisemblance, ainsi que la valeur finale de convergence.

Statistiques pour le Khi² :

  • Valeur d’ajustement du rapport de vraisemblance (V²) et la p-value bootstrap associée.
  • X2 et Cressie-Read : Alternatives au V², qui devraient fournir une p-value similaire d’après la théorie des grands échantillons, si le modèle spécifié est valide et que les données ne sont pas rares.
  • BIC, AIC, AIC3 et SABIC (basés sur le V²). En plus de l’ajustement du modèle, ces statistiques prennent en compte sa parcimonie (DDL ou nombre de paramètres). Dans le cadre de la comparaison de modèles, le meilleur modèle est associé à aux BIC, AIC ou AIC3 les plus faibles.
  • Indice de dissimilarité : Mesure reflétant la distance entre les fréquences de cellules observées et estimées. Elle indique la proportion d’échantillon à déplacer d’une cellule à une autre afin d’obtenir un ajustement parfait.
Statistiques de Log-Vraisemblance :
  • Log-vraisemeblance (LV), log-prior (associé aux constantes de Bayes) et log-posterior.
  • BIC, AIC, AIC3 et SABIC (basés sur le LV). En plus de l’ajustement du modèle, ces statistiques prennent en compte sa parcimonie (DDL ou nombre de paramètres). Dans le cadre de la comparaison de modèles, le meilleur modèle est associé à aux BIC, AIC ou AIC3 les plus faibles.

Statistiques de classification :

  • Erreurs de classification basées sur le mode. 
  • Réduction des erreurs (Lambda), Rd’entropie, R2 standard : Ces pseudo-R² reflètent la qualité de prédiction des appartenances à des classes selon les variables observées. Plus ces statistiques se rapprochent de 1, meilleure est la qualité prédictive du modèle.
  • Log-vraisemblance de la classification : valeur de log-vraisemblance sous l’hypothèse que l’appartenance réelle aux classes est connue.
  • AWE : Similaire au BIC, mais prend aussi en compte la performance de classification.
  • Entropie et CLC.

Tableau de classification :

  • Modale : Tableau croisé des affectations à des classes selon le mode.
  • Proportionnelle : Tableau croisé des affectations à des classes selon la probabilité d’appartenance.

 

Statistiques de Prédiction (tableau) : 

Les colonnes de ce tableau correspondent à :

  • Base : Erreur de prédiction du modèle de base (aussi appelé modèle nul).
  • Modèle : Erreur de prédiction du modèle estimé.
  • R2 : Réduction proportionnelle des erreurs dans le modèle estimé en comparaison au modèle de base.

Les lignes de ce tableau correspondent à :

  • Erreur quadratique : Erreur de prédiction moyenne basée selon le carré de l’erreur.
  • (Moins) Log-vraisemblance :Erreur de prédiction moyenne selon –log(vraisemblance).
  • Erreur absolue :Erreur de prédiction moyenne selon l’erreur absolue.
  • Erreur de prédiction : Erreur de prédiction selon la proportion d’erreurs de prédiction (uniquement pour les variables catégorielles).

 

Tableau de prédiction : Pour les variables dépendantes nominales ou ordinales, tableau croisant les valeurs observées et les valeurs estimées.

Tableau des paramètres :

  • R2 : R² spécifiques aux classes et R² global. Le R² global reflète la qualité de prédiction globale de la variable dépendante par le modèle (même chiffre que dans les statistiques de prédiction). Pour les variables dépendantes ordinales, continues, binomiales et type comptages, il s’agit de R² standards. Pour les variables dépendantes nominales, ces R² peuvent être assimilés à des moyennes pondérées de R² distincts pour chaque catégorie traitée comme une variable-réponse dichotomique distincte.
  • Constante : Constante de l’équation de régression linéaire.
  • e.s. : Erreurs standard des paramètres.
  • z-value : Statistique de test z correspondant aux tests des paramètres.
  • Wald : Les statistiques de Wald servent à mesurer la significativité statistique d’un ensemble d’estimations de paramètres associées à une variable donnée. Spécifiquement, pour chaque variable, la statistique de Wald teste les hypothèses que chaque estimation de paramètre dans cet ensemble est égale à zéro (pour les variables nominales, l’ensemble inclut un paramètre par catégorie). Pour les modèles de régression, deux statistiques de Wald (Wald, Wald(=)) sont fournies dans le tableau lorsqu’au moins une classe a été estimée. Pour chaque ensemble d’estimations de paramètres, la statistique Wald(=) prend en compte un sous-ensemble associé à chaque classe et teste les hypothèses que chaque paramètre dans ce sous-ensemble est égal aux paramètres correspondants dans les sous-ensembles associés à chacune des autres classes. En d’autres termes, la statistique Wald(=) teste l’égalité de chaque sous-ensemble d’effets de régression à travers les classes.
  • p-value : Mesure la significativité des estimations.
  • Moyenne : Moyennes des coefficients de régression.
  • Ecart Type : Ecarts types des coefficients de régression.

Classification : Affiche pour chaque observation l’appartenance a posteriori aux classes ainsi que les affectations modales, selon le modèle. 

 

Bibliographie

Vermunt, J.K. (2010). Latent class modeling with covariates: Two improved three-step approaches. Political Analysis, 18, 450-469. Link: http://members.home.nl/jeroenvermunt/lca_three_step.pdf

Vermunt, J.K., and Magidson, J. (2005). Latent GOLD 4.0 User's Guide. Belmont, MA: Statistical Innovations Inc.  http://www.statisticalinnovations.com/technicalsupport/LGusersguide.pdf

Vermunt, J.K., and Magidson, J. (2013). Technical Guide for Latent GOLD 5.0: Basic, Advanced, and Syntax. Belmont, MA: Statistical Innovations Inc.  http://www.statisticalinnovations.com/technicalsupport/LGtechnical.pdf

Vermunt, J.K., and Magidson, J. (2013). Latent GOLD 5.0 Upgrade Manual. Belmont, MA: Statistical Innovations Inc.  
http://statisticalinnovations.com/technicalsupport/LG5manual.pdf


Inclus dans