Données manquantes

Utilisez cet outil pour traiter un jeu de données avec des données manquantes préalablement à d'autres analyses avec XLSTAT.

La plupart des outils d'XLSTAT comporte un onglet pour le traitement des données manquantes. Néanmoins, les méthodes disponibles sont peu nombreuses. Cet outil vous permet de prétraiter vos données en complétant les données manquantes avec des méthodes avancées.

Quels sont les types de données manquantes ?

Il existe trois types de données manquantes (Allison, 2001) : les données manquantes complètement aléatoirement (MCAR), les données manquantes aléatoirement (MAR) et les données manquantes non aléatoirement (NMAR).

Si ce qui a amené à ce qu'une donnée soit manquante ne dépend d'aucune variable observable et d'aucun paramètre non observable, alors les données manquent complètement aléatoirement (MCAR). Le fait qu'une donnée manque est alors considéré comme dû au hasard. Dans ce cas, les analyses effectuées sont non biaisées.
Si ce qui a amené à ce qu'une donnée soit manquante est lié à la valeur d'une variable externe mais pas aux valeurs de la variable ayant des données manquantes, alors les données manquent aléatoirement (MAR). C'est le cas le plus classique.
Si les données manquent pour une raison particulière, alors les données manquent non aléatoirement (NMAR). Un exemple classique est le cas des questions filtrées (certaines questions ne concernent que certaines personnes dans un questionnaire, les autres personnes sont manquantes).

Options de la fonctionnalité Données manquantes dans XLSTAT

Méthodes d'imputation des données manquantes

Les méthodes disponibles dans cet outil permettent de traiter les cas MCAR et MAR.

Différentes méthodes sont disponibles en fonction du type de données et de vos besoins :

Pour des données quantitatives, XLSTAT vous permet de :
- Supprimer les observations ayant des données manquantes.
- Utiliser une imputation par la moyenne de chaque variable.
- Utiliser une approche de plus proche voisin.
- Remplacer les valeurs manquantes par une valeur numérique donnée.
- Utiliser l'algorithme NIPALS
- Utiliser une méthode d'imputation multiple utilisant les MCMC (Markov Chain Monte Carlo).
- Utiliser l'algorithme EM (Expectation Maximisation) pour des données suivant une loi normale multivariée.
Pour des données qualitatives, XLSTAT vous permet de :
- Supprimer les observations ayant des données manquantes.
- Utiliser une imputation par le mode de chaque variable.
- Utiliser une méthode de plus proche voisin.
- Remplacer les valeurs manquantes par une valeur textuelle donnée.
- Utiliser l'algorithme NIPALS.

Analyse des correspondances multiples (ACM) sur les données manquantes

L'option Résultats de l'ACM dans la boîte de dialogue de cet outil vous aidera à mieux comprendre les différents patterns d'absence de données. Une analyse des correspondances multiples (ACM) est réalisée pour cet objectif.

Dans la feuille des sorties, une carte graphique de ce résultat s'affiche pour illustrer les liens entre les variables avec des données manquantes et sans données manquantes. Pour chaque variable, la modalité '0' représente la donnée présente alors que la modalité '1' modélise les données manquantes.

Voir tous les tutoriels