Données manquantes

La plupart des outils d'XLSTAT comporte un onglet pour le traitement des données manquantes. Néanmoins, les méthodes disponibles sont peu nombreuses. Cet outil vous permet de prétraiter vos données en complétant les données manquantes avec des méthodes avancées.

Il existe trois types de données manquantes (Allison, 2001) : les données manquantes complètement aléatoirement (MCAR), les données manquantes aléatoirement (MAR) et les données manquantes non aléatoirement (NMAR).

Si ce qui a amené à ce qu'une donnée soit manquante ne dépend d'aucune variable observable et d'aucun paramètre non observable, alors les données manquent complètement aléatoirement (MCAR). Le fait qu'une donnée manque est alors considéré comme dû au hasard. Dans ce cas, les analyses effectuées sont non biaisées.

Si ce qui a amené à ce qu'une donnée soit manquante est lié à la valeur d'une variable externe mais pas aux valeurs de la variable ayant des données manquantes, alors les données manquent aléatoirement (MAR). C'est le cas le plus classique.

Si les données manquent pour une raison particulière, alors les données manquent non aléatoirement (NMAR). Un exemple classique est le cas des questions filtrées (certaines questions ne concernent que certaines personnes dans un questionnaire, les autres personnes sont manquantes).

Les méthodes disponibles dans cet outil permettent de traiter les cas MCAR et MAR.

Différentes méthodes sont disponibles en fonction du type de données et de vos besoins :

  • Pour des données quantitatives, XLSTAT vous permet de :

    • Supprimer les observations ayant des données manquantes.

    • Utiliser une imputation par la moyenne de chaque variable.

    • Utiliser une approche de plus proche voisin.

    • Utiliser l'algorithme NIPALS

    • Utiliser une méthode d'imputation multiple utilisant les MCMC (Markov Chain Monte Carlo).

  • Pour des données qualitatives, XLSTAT vous permet de :

    • Supprimer les observations ayant des données manquantes.

    • Utiliser une imputation par le mode de chaque variable.

    • Utiliser une méthode de plus proche voisin.