Modèles de mélange gaussiens

Qu’est-ce que les modèles de mélange ?

Les modèles de mélange sont apparus au cours du XIXème siècle dans les travaux de Pearson (1894) mais leur développement est dû à la présentation de l’algorithme EM (Expectation-Maximisation) par Dempster et al. en 1978.

Ces modèles sont utilisés pour estimer les paramètres d’une distribution de variables aléatoires en les modélisant par une densité mélange. Usuellement, ils sont employés en classification (supervisée ou non) et on considère que chaque composant du mélange caractérise une classe. Ces modèles présentent deux avantages principaux :

  • Il s’agit d’une méthode probabiliste permettant d’obtenir une classification des observations. Une probabilité d’appartenance à chacune des classes est calculée et une classification est généralement obtenue en affectant chacune des observations à la classe la plus probable. Ces probabilités permettent également d’interpréter certaines classifications suspectes. 
  • Ils offrent une grande flexibilité de modélisation et permettent donc de modéliser un grand nombre de phénomènes.

Le but des modèles de mélange est de structurer un jeu de donnée en plusieurs classes en s’appuyant sur une modélisation par un mélange de distributions. XLSTAT propose l’utilisation des distributions gaussiennes.

Liste des modèles présents dans XLSTAT

XLSTAT propose de modéliser des données par des modèles de mélange gaussiens. En contrôlant la matrice de covariance par rapport à la décomposition en valeur propres proposée par Celeux et al., 14 modèles différents sont disponibles. Il est également possible de forcer les proportions des classes à être égales.

Algorithmes d’inférence utilisés dans XLSTAT pour les modèles de mélange

 XLSTAT offre la possibilité d’utiliser trois algorithmes différents pour estimer les paramètres des 14 modèles gaussiens :

  • EM :il s’agit del’algorithme usuel utilisé pour l’inférence des modèles de mélange.
  • SEM : il s’agit d’une version stochastique de l’algorithme EM. On ajoute une étape stochastique qui permet d’affecter les individus aux différents groupes. Cet algorithme peut mener à des classes vides et perturber l’estimation des paramètres.
  • CEM : il s’agit d’une version classifiante de l’algorithme EM. Une étape de classification est ajoutée pour affecter les individus aux groupes par la règle du MAP (Maximum A Posteriori). Cet algorithme peut mener à des classes vides et perturber l’estimation des paramètres.

Sélection du nombre de composants dans XLSTAT

 Dans la pratique, le nombre de composants est souvent inconnu, XLSTAT propose quatre critères différents pour estimer ce nombre de composants :

  • BIC : le Bayesian Information Criterion est un critère de vraisemblance pénalisée. Il s’agit du critère couramment utilisé dans les modèles de mélange.
  • AIC :le Akaike Information Criterion est un critère de vraisemblance pénalisée. Ce critère a tendance à surestimer le nombre de composants.
  • ICL : le Integrated Complete Likelihood est un critère de vraisemblance pénalisée, il s’agit du BIC pénalisé par l’entropie du mélange. Ce critère recherche le modèle qui fournit les groupes les mieux séparés. Généralement, le nombre de composants sélectionné est inférieur à celui obtenu par BIC.
  • NEC : le Normalized Entropy Criterion. Ce critère recherche la meilleure séparation entre les groupes. Le NEC n’est pas défini pour un modèle avec un composant. Ce critère permet de choisir le nombre de composants et non la forme de la matrice de covariance.

Résultats  pour les modèles de mélange dans XLSTAT

 XLSTAT propose entre autres les résultats suivant pour les modèles de mélange :

  • Les valeurs du critère de sélection pour l’ensemble de modèles sélectionnés et pour un nombre de composants variant dans un ensemble défini par l’utilisateur.
  • L’estimation des paramètres du modèle de mélange : proportions, moyennes et variances par classes pour le modèle sélectionné.
  • Différentes caractéristiques du modèle sélectionné : BIC, AIC, ICL, Log-vraisemblance, NEC, Entropie et DDL.
  • Les probabilités d’appartenance à chacune des classes avec la classification MAP associée.

Dans le cas unidimensionnel, XLSTAT propose deux graphiques permettant de juger la qualité d’ajustement du modèle :

  • Représentation de la fonction de répartition empirique par rapport à l’estimée.
  • Q-Q plot entre les quantiles de la distribution empirique à celle estimée.