Générer des statistiques Bootstrap à partir d’un échantillon avec XLSTAT

Jeu de données pour Rééchantillonnage XLS846 Ko

Vidéo du tutoriel
  • Pro Logiciel de base de la suite XLSTAT

  • Pré-requis système

    • Windows:
      • Versions : 9x/Me/NT/2000/XP/Vista/Win 7
      • Excel : 97 et supérieures
      • Processeur : 32 ou 64 bits
      • Disque dur : 150 Mo
    • Mac OS X:
      • OS : OS X
      • Excel : X, 2004 et 2011
      • Disque dur : 150 Mo

Avantages

  • Pratique et simple d'utilisation
    Pratique et simple d'utilisation XLSTAT est parfaitement intégré à Microsoft Excel qui est le tableur le plus populaire au monde. Grâce à cette intégration, et au suivi de la même philosophie qu'Excel, l'utilisation de XLSTAT est aisée. Le logiciel est accessible dans un onglet dédié qui contient le menu de chaque module. Les analyses disponibles sont regroupées en menus fonctionnels. Les boîtes de dialogues sont pratiques et leur paramétrage est simple.
  • Partage aisé des données et résultats
    Partage aisé des données et résultats Un des plus grands avantages de XLSTAT est le fait que les données et résultats peuvent être partagés sans contrainte. En effet, données et résultats sont stockés dans Microsoft Excel et donc accessibles à tous. Il n'est pas nécessaire pour le receveur d'avoir une licence XLSTAT ou tout autre visionneur additionnel. Ceci facilite votre travail d'équipe et le rend plus économique. Enfin, les résultats sont transposables dans les autres logiciels de Microsoft Office dont PowerPoint ce qui vous permet de créer des présentations avec d'excellents graphiques en quelques minutes.
  • Modulaire
    Modulaire XLSTAT est un produit modulaire articulé autour de XLSTAT-Pro qui est le logiciel de base de XLSTAT. XLSTAT-Pro inclut déjà toutes les fonctionnalités les plus courantes en statistiques et analyses de données multivariées. Des fonctions plus avancées sont aussi disponibles dans des modules additionnels qui répondent à des demandes plus spécifiques. Ainsi, vous pouvez adapter le logiciel à vos propres besoins ce qui le rend plus rentable.
  • Didactique
    Didactique Les résultats de XLSTAT sont affichés pour chaque analyse et sont toujours disponibles pour une navigation plus simple. De plus, des informations utiles sont associées aux résultats afin de faciliter votre interprétation.
  • A un juste prix
    A un juste prix XLSTAT est un logiciel de statistique et d'analyse de données complet et modulaire qui s'adapte à tous les besoins analytiques d'une organisation. Son prix est très raisonnable ce qui vous permet de le rentabiliser presque immédiatement. Toutes les licences XLSTAT incluent un support et une assistance de première qualité.
  • Accessible en de nombreuses langues
    Accessible en de nombreuses langues Nous nous sommes assurés que XLSTAT puisse être accessible au plus grand nombre en distribuant le programme dans de nombreuses langues dont le français, l'anglais, l'allemand, l'espagnol, l'italien, le portugais, le polonais, le chinois et le japonais.
  • Automatisable et personnalisable
    Automatisable et personnalisable La plupart des fonctions disponibles dans XLSTAT peuvent être directement appelées depuis l'application Visual Basic de Microsoft Excel. Elles peuvent être intégrées à vos routines pour répondre aux besoins d'une application particulière. Ajouter des tableaux de résultats, des graphiques, ou modifier l'existant est simplifié. De plus, XLSTAT inclut des outils permettant de sauvegarder ou de recharger des paramètres automatiquement, mais aussi de générer du code VBA. Ceci permet de reproduire vos analyses depuis l'éditeur VBA. Cette automatisation des analyses routinières vous fera gagner du temps.

XLSTAT propose un outil de rééchantillonnage permettant d’obtenir des écarts-types, des intervalles de confiance, ainsi que des graphiques en utilisant la méthode du bootstrap.

Une feuille Excel contenant un exemple de données et de résultats peut être téléchargée en cliquant ici.

Les données correspondent à un échantillon de 150 fleurs (Iris) décrites par cinq variables (quatre numériques et une qualitative). Les fleurs appartiennent à 3 espèces différentes. Ce jeu de données bien connu, a été utilisé par Fisher pour illustrer l'analyse discriminante. Nous avons choisi d'analyser la variable "Long. Sépales"

En utilisant l’outil de rééchantillonnage de XLSTAT, nous voulons obtenir des statistiques bootstrap pour un certain nombre de grandeurs statistiques associées à nos données. Nous voulons donc étudier le comportement de la moyenne et de l’écart-type de la variable longueur des sépales.

Paramétrer un rééchantillonnage et l'obtention de statistiques Bootstrap

Une fois XLSTAT lancé, choisissez la commande XLSTAT / Description des données / Statistiques rééchantillonnées ou cliquez sur le bouton Statistiques rééchantillonnées de la barre d'outils Description des données .

boot0f.gifboot1f.gif

Une fois le bouton cliqué, la boîte de dialogue apparaît. Les données correspondant à la variable "Long. Sépales" sont sélectionnées avec la souris dans la feuille Excel.

Pour le rééchantillonnage, les données doivent être des données quantitatives.

L'option Libellés des échantillons" est laissée activée car la première ligne de la colonne de données comprend le nom de la variable. La méthode de rééchantillonnage sélectionnée est le bootstrap avec 200 échantillons. L'option Feuille est choisie pour que l'affichage des résultats soit effectué sur une nouvelle feuille du même classeur.

boot2f.gif

Dans l’onglet Sorties, sélectionnez les statistiques que vous désirez échantillonner. Nous sélectionnons donc la moyenne et les écarts-types. L’intervalle bootstrap est sélectionné comme statistique rééchantillonnée. Vous pouvez si vous le désirez faire apparaître les 200 échantillons et les 200 estimations des statistiques d’intérêt.

boot3f.gif

Dans l’onglet Graphiques, sélectionnez les histogrammes.

boot4f.gif

Les résultats et les graphiques sont affichés dans une nouvelle feuille nommée "Rééchantillonnages".

Interpréter les résultats d'un rééchantillonnage et des statistiques Bootstrap

Le tableau suivant correspond aux estimations obtenues grâce au bootstrap pour la moyenne et l’écart-type. Nous voyons que les estimations bootstrap sont très proches de la valeur calculée du paramètre. L’écart-type bootstrap sur la moyenne est très faible et l’intervalle de confiance à 95 % très resserré. Pour les écarts-types, on voit que ceux basés sur la population ou sur l’échantillon sont très proches, les intervalles de confiance sont aussi assez petits par rapport au paramètre et ceci même avec 200 échantillons.

boot5f.gif

Les histogrammes permettent de visualiser la distribution bootstrap. Pour la moyenne, nous voyons que sur les 200 valeurs, 46 se trouvent dans l’intervalle [58,31 ; 58,73], qui comprend aussi la moyenne calculée sur l’échantillon original. Le tableau des intervalles est aussi donné de façon à mieux comprendre la distribution. L’outil de rééchantillonnage décide automatiquement du nombre d’intervalles. Si vous désirez adapter ce nombre à votre analyse, il vous suffit d’utiliser l’outil « Histogrammes » d’XLSTAT sur les statistiques rééchantillonées données en sortie de l’analyse bootstrap.

boot6f.gif

Cet outil permet par ailleurs de calculer différents types d’intervalles de confiance et ceci sur un grand nombre de statistiques descriptives. L’ajout de poids et le traitement de plusieurs variables simultanément sont aussi possibles.