Modèles de classification par les classes latentes

Qu'est-ce que l'analyse en Classes Latentes?

Les analyses en classes latentes impliquent la construction de classes latentes, qui sont des sous-groupes ou segments non-observés (latents) de cas (observations, individus). Les classes latentes sont construites en se basant sur les réponses observées (manifestes) des cas sur un ensemble de variables indicatrices. Les cas se trouvant dans la même classe latente sont similaires sur le plan de leurs réponses tandis que les cas se trouvant dans des classes différentes le sont moins. Formellement, les classes sont représentées par K catégories distinctes d’une variable nominale latente X. Comme X est catégorielle, la modélisation LC se distingue d’approches plus traditionnelles telles que l’analyse factorielle, les modèles d’équations structurelles,  ainsi que les modèles de régression impliquant des effets aléatoires. Ces approches sont plutôt basées sur des variables latentes continues. 

XLSTAT-LG est basé sur le logiciel Latent Gold® développé par Statistical Innovations inc.

 

Qu'est-ce qu'un modèle de classification par les classes latentes?

Un modèle de classification par les classes latentes:

  • Comprend une variable latente X à K catégories, chaque catégorie représentant une classe.
  • Chaque classe comprend un groupe homogène d’individus (cas) partageant les mêmes intérêts, valeurs, caractéristiques et/ou comportements (en d’autres termes, qui partagent des paramètres de modèle communs).
  • Ces intérêts, valeurs, caractéristiques et/ou comportements sont les variables observées (indicateurs) Y à partir desquelles les CL sont construites.

XLSTAT-LG permet de lancer des calculs automatiquement sur différents modèles, chaque modèle étant représenté par un nombre de classes distinct. Il est également possible d'optimiser des constantes de Bayes, des jeux aléatoires de valeurs initiales, ainsi que des paramètres d'itération pour les algorithmes Expectation-Maximisation et Newton-Raphson, utilisés pour l'estimation des modèles.

 

Avantages des modèles de classification par les classes latentes par rapport à des méthodes traditionnelles de classification

Parmi les avantages de la méthode par rapport à des approches traditionnelles de classification, citons la présence de critères de sélection de modèles et des classifications probabilistes. Les probabilités d’appartenance a posteriori sont estimées directement à partir des paramètres du modèle et sont utilisées pour assigner chaque cas à la classe modale correspondante, à savoir la classe associée à la probabilité d’appartenance a posteriori la plus élevée.

Par ailleurs, il est possible d'inclure des variables d'échelles différentes (continues, ordinales ou nominales) au sein du même modèle. Ces variables sont appelées indicateurs.

Equation de scoring : ces modèles fournissent une équation de scoring permettant de calculer les probabilités d’appartenance a posteriori directement à partir de variables observées (indicateurs). Cette équation peut être utilisée pour affilier de nouveaux cas à la classe la plus vraisemblable.  Cette fonctionnalité est exclusive des modèles de classification CL.

 

Résultats

XLSTAT-LG affiche une section par modèle (chaque modèle étant représenté par un nombre spécifique de classes):

Statistiques descriptives : Nombre d’observations utilisées dans l’estimation du modèle, nombre de paramètres distincts estimés, graine et graine unique permettant de reproduire ce modèle plus rapidement en utilisant un nombre de jeux aléatoires de valeurs initiales = 0.

Résumé de l'estimation : pour chacun des deux algorithmes d'estimation (Expectation-Maximisation et Newton-Raphson), XLSTAT renvoie le nombre d'itérations enclenchées, la valeur du log-posterior, la valeur d'ajustement du rapport de vraisemblance, ainsi que la valeur finale de convergence.

Statistiques pour le Khi² :

  • Valeur d’ajustement du rapport de vraisemblance (V²) et la p-value bootstrap associée.
  • X2 et Cressie-Read : Alternatives au V², qui devraient fournir une p-value similaire d’après la théorie des grands échantillons, si le modèle spécifié est valide et que les données ne sont pas rares.
  • BIC, AIC, AIC3 et SABIC (basés sur le V²). En plus de l’ajustement du modèle, ces statistiques prennent en compte sa parcimonie (DDL ou nombre de paramètres). Dans le cadre de la comparaison de modèles, le meilleur modèle est associé à aux BIC, AIC ou AIC3 les plus faibles.
  • Indice de dissimilarité : Mesure reflétant la distance entre les fréquences de cellules observées et estimées. Elle indique la proportion d’échantillon à déplacer d’une cellule à une autre afin d’obtenir un ajustement parfait.
Statistiques de Log-Vraisemblance :
  • Log-vraisemeblance (LV), log-prior (associé aux constantes de Bayes) et log-posterior.
  • BIC, AIC, AIC3 et SABIC (basés sur le LV). En plus de l’ajustement du modèle, ces statistiques prennent en compte sa parcimonie (DDL ou nombre de paramètres). Dans le cadre de la comparaison de modèles, le meilleur modèle est associé à aux BIC, AIC ou AIC3 les plus faibles.

Statistiques de classification :

  • Erreurs de classification basées sur le mode. 
  • Réduction des erreurs (Lambda), R2 d’entropie, R2 standard : Ces pseudo-R² reflètent la qualité de prédiction des appartenances à des classes selon les variables observées. Plus ces statistiques se rapprochent de 1, meilleure est la qualité prédictive du modèle.
  • Log-vraisemblance de la classification : valeur de log-vraisemblance sous l’hypothèse que l’appartenance réelle aux classes est connue.
  • AWE : Similaire au BIC, mais prend aussi en compte la performance de classification.
  • Entropie et CLC

Tableau de classification :

  • Modale : Tableau croisé des affectations à des classes selon le mode.
  • Proportionnelle : Tableau croisé des affectations à des classes selon la probabilité d’appartenance.

Tableau de profil:

  • Effectif de classe : taille de chaque classe.

  • Modalités : Le corps du tableau contient les probabilités conditionnelles (marginales) indiquant la manière dont les classes sont liées aux variables indicatrices nominales ou ordinales. La somme de ces probabilités est 1. Pour les variables indicatrices continues, le corps du tableau contient les moyennes, mais pas les probabilités. Pour les variables ordinales, les moyennes sont indiquées en plus des probabilités.

  • Erreurs standard : Erreurs standard associées aux probabilités conditionnelles (marginales).

  • Profil des classes (graphique) : Représentation graphique des probabilités et moyennes inclus dans le tableau de profil.

 

Effectifs\Résidus :

Tableau de fréquences (et résidus) observés / estimés. Les résidus dont l’amplitude dépasse 2 sont statistiquement significatifs. Cette sortie n’apparait pas au cas où le modèle inclut au moins un indicateur continu.

Résidus bivariés : Tableau contenant les résidus bivariés. Des valeurs élevées de résidus bivariés suggèrent une violation de l’hypothèse d’indépendance locale. 

Equation de scoring : Coefficients de régression associés au modèle logit multinomial. 

Classification : Affiche pour chaque observation l’appartenance a posteriori aux classes ainsi que les affectations modales, selon le modèle. 

 

Bibliographie

Vermunt, J.K. (2010). Latent class modeling with covariates: Two improved three-step approaches. Political Analysis, 18, 450-469. Link: http://members.home.nl/jeroenvermunt/lca_three_step.pdf

Vermunt, J.K., and Magidson, J. (2005). Latent GOLD 4.0 User's Guide. Belmont, MA: Statistical Innovations Inc.  http://www.statisticalinnovations.com/technicalsupport/LGusersguide.pdf

Vermunt, J.K., and Magidson, J. (2013). Technical Guide for Latent GOLD 5.0: Basic, Advanced, and Syntax. Belmont, MA: Statistical Innovations Inc.  http://www.statisticalinnovations.com/technicalsupport/LGtechnical.pdf

Vermunt, J.K., and Magidson, J. (2013). Latent GOLD 5.0 Upgrade Manual. Belmont, MA: Statistical Innovations Inc. 
http://statisticalinnovations.com/technicalsupport/LG5manual.pdf


Inclus dans