Organisation des données

Pourquoi organiser les données ?

Lorsque l'information provient de sources différentes, il peut être nécessaire d'organiser les données avant de commencer une analyse.

Organiser les données dans XLSTAT

XLSTAT propose plusieurs options:

  • Dédoublonner : Il est parfois nécessaire de dédoublonner un tableau de données : certaines observations peuvent être présentes plusieurs fois (on parle alors de doublons) suite à la fusion de plusieurs sources de données, ou suite à des erreurs de saisie.
  • Grouper : Le groupement est utile lorsque vous voulez agréger des données. Imaginez par exemple le cas d'un tableau contenant des enregistrements de ventes (une colonne pour l'identifiant client, et une colonne avec le montant de la vente) que vous voudriez agréger pour avoir une ligne par client, avec l'identifiant du client et le montant total des ventes pour ce client. XLSTAT vous permet d'obtenir ce tableau en quelques secondes. La somme n'est que l'une des six possibilités proposées.
  • Joindre : La jointure est une opération courante en gestion de base de données. Elle permet de fusionner « horizontalement » deux tables sur la base d'une information commune dénommée la clef. Par exemple, imaginez que vous avez mesuré quelques indicateurs chimiques sur 150 sites. Ensuite, vous voulez ajouter l'information géographique sur ces mêmes sites où les données ont été recueillies. Votre table d'informations géographiques contient l'information sur 1000 sites, y compris les 150 sites étudiés. Afin d'éviter le travail fastidieux de fusionner manuellement les deux tables, une jointure permet d'obtenir en quelques secondes la table fusionnée qui comprend à la fois les données recueillies et l'information géographique. On distingue deux types de jointure :
    1. Jointure interne : la table fusionnée comprend uniquement les clefs communes aux deux tables de départ.
    2. Jointure externe : la table fusionnée comprend une ligne par clef, qu'elle soit présente dans une seule des tables de départ ou dans les deux.
  • Filtrer : Le filtrage est utile lorsque vous voulez appliquer une méthode statistique sur seulement une partie des données. XLSTAT propose de filtrer les données en utilisant plusieurs valeurs de filtres en même temps. De plus, cette option propose soit de garder les données filtrées, soit de les supprimer.