Echantillonnage de données

Utilisez cet outil pour générer un sous-échantillon d'observations à partir d'un jeu de données univariées ou multivariées. Disponible dans Excel avec le logiciel XLSTAT.

A quoi sert l'échantillonnage des données ?

L'échantillonnage est l'une des techniques fondamentales. La génération d'échantillons permet notamment :

  1. de tester une hypothèse sur un échantillon, puis de la valider sur un autre ;
  2. d'obtenir des tableaux d'une taille plus petite tout en gardant des propriétés du tableau d'origine.

Méthode d'échantillonage dans XLSTAT

Afin de répondre à différentes situations, plusieurs méthodes d'échantillonage ont été proposées. XLSTAT propose les méthodes suivantes pour générer un échantillon de N observations à partir d'un tableau de M lignes :

  • N premières lignes : l'échantillon obtenu est constitué des N premières lignes du tableau initial. 
  • N dernières lignes : l'échantillon obtenu est constitué des N dernières lignes du tableau initial. 
  • N tous les s, début à k : l'échantillon est obtenu en prenant N lignes toutes les s lignes, en commençant à la ligne k.
  • Aléatoire sans remise : des observations sont choisies au hasard et ne peuvent figurer qu'une seule fois dans l'échantillon.
  • Aléatoire avec remise : des observations sont choisies au hasard et peuvent figurer plusieurs fois dans l'échantillon.
  • Systématique à départ aléatoire : à partir de la j-ième observation du tableau initial, une observation est extraite pour l'échantillon toutes les k observations. j est choisi au hasard parmi un nombre de possibilités dépendant de la taille du tableau initial et de la taille de l'échantillon final. k est déterminé de telle sorte que les observations extraites soient le plus possible espacées.
  • Systématique centre : les observations sont choisies de façon régulière aux centres de N séquences d'observations de même longueur k.
  • Aléatoire stratifié (1) à un élément par strate : des lignes sont choisies de façon aléatoire à l'intérieur de N séquences d'observations de même longueur, où N est déterminé en divisant le nombre d'observations par la taille d'échantillon souhaitée.
  • Aléatoire stratifié (2) : des lignes sont choisies de façon aléatoire à l'intérieur de N strates définies par l'utilisateur. Dans chaque strate, le nombre d'observations échantillonnées est proportionnel à la fréquence de la 
  • Aléatoire stratifié (3 ) : des lignes sont choisies de façon aléatoire à l'intérieur de N strates définies par l'utilisateur. Dans chaque strate, le nombre d'observations échantillonnées est proportionnel à une fréquence définie par l'utilisateur.
  • Défini par l'utilisateur : une variable indique la fréquence des observations dans l'échantillon à générer.
  • Echantillons d'apprentissage et de test : les données sont divisées en deux – un échantillon d'apprentissage et un échantillon de test. Les lignes de chaque échantillon sont tirées aléatoirement du jeu de données initial. La taille de l'échantillon d'apprentissage est définie en nombre de lignes.
  • Echantillons d'apprentissage et de test (%) : les données sont divisées en deux – un échantillon d'apprentissage et un échantillon de test. Les lignes de chaque échantillon sont tirée aléatoirement du jeu de données initial. La taille de l'échantillon d'apprentissage est définie en pourcentage du nombre de lignes du tableau initial