Créer un histogramme et tester l'ajustement à une loi de probabilité avec XLSTAT

Jeu de données pour Histogrammes XLS1010 Ko

Vidéo du tutoriel
  • Pro Logiciel de base de la suite XLSTAT

  • Pré-requis système

    • Windows:
      • Versions : 9x/Me/NT/2000/XP/Vista/Win 7
      • Excel : 97 et supérieures
      • Processeur : 32 ou 64 bits
      • Disque dur : 150 Mo
    • Mac OS X:
      • OS : OS X
      • Excel : X, 2004 et 2011
      • Disque dur : 150 Mo

Avantages

  • Pratique et simple d'utilisation
    Pratique et simple d'utilisation XLSTAT est parfaitement intégré à Microsoft Excel qui est le tableur le plus populaire au monde. Grâce à cette intégration, et au suivi de la même philosophie qu'Excel, l'utilisation de XLSTAT est aisée. Le logiciel est accessible dans un onglet dédié qui contient le menu de chaque module. Les analyses disponibles sont regroupées en menus fonctionnels. Les boîtes de dialogues sont pratiques et leur paramétrage est simple.
  • Partage aisé des données et résultats
    Partage aisé des données et résultats Un des plus grands avantages de XLSTAT est le fait que les données et résultats peuvent être partagés sans contrainte. En effet, données et résultats sont stockés dans Microsoft Excel et donc accessibles à tous. Il n'est pas nécessaire pour le receveur d'avoir une licence XLSTAT ou tout autre visionneur additionnel. Ceci facilite votre travail d'équipe et le rend plus économique. Enfin, les résultats sont transposables dans les autres logiciels de Microsoft Office dont PowerPoint ce qui vous permet de créer des présentations avec d'excellents graphiques en quelques minutes.
  • Modulaire
    Modulaire XLSTAT est un produit modulaire articulé autour de XLSTAT-Pro qui est le logiciel de base de XLSTAT. XLSTAT-Pro inclut déjà toutes les fonctionnalités les plus courantes en statistiques et analyses de données multivariées. Des fonctions plus avancées sont aussi disponibles dans des modules additionnels qui répondent à des demandes plus spécifiques. Ainsi, vous pouvez adapter le logiciel à vos propres besoins ce qui le rend plus rentable.
  • Didactique
    Didactique Les résultats de XLSTAT sont affichés pour chaque analyse et sont toujours disponibles pour une navigation plus simple. De plus, des informations utiles sont associées aux résultats afin de faciliter votre interprétation.
  • A un juste prix
    A un juste prix XLSTAT est un logiciel de statistique et d'analyse de données complet et modulaire qui s'adapte à tous les besoins analytiques d'une organisation. Son prix est très raisonnable ce qui vous permet de le rentabiliser presque immédiatement. Toutes les licences XLSTAT incluent un support et une assistance de première qualité.
  • Accessible en de nombreuses langues
    Accessible en de nombreuses langues Nous nous sommes assurés que XLSTAT puisse être accessible au plus grand nombre en distribuant le programme dans de nombreuses langues dont le français, l'anglais, l'allemand, l'espagnol, l'italien, le portugais, le polonais, le chinois et le japonais.
  • Automatisable et personnalisable
    Automatisable et personnalisable La plupart des fonctions disponibles dans XLSTAT peuvent être directement appelées depuis l'application Visual Basic de Microsoft Excel. Elles peuvent être intégrées à vos routines pour répondre aux besoins d'une application particulière. Ajouter des tableaux de résultats, des graphiques, ou modifier l'existant est simplifié. De plus, XLSTAT inclut des outils permettant de sauvegarder ou de recharger des paramètres automatiquement, mais aussi de générer du code VBA. Ceci permet de reproduire vos analyses depuis l'éditeur VBA. Cette automatisation des analyses routinières vous fera gagner du temps.

Jeu de données pour créer des histogrammes et faire un test d'ajustement à une loi de probabilité

Une feuille Excel contenant les données et les résultats de cet exemple peut être téléchargée en cliquant ici.

Les données correspondent à une expérience où 200 échantillons d'eau prélevés dans une rivière ont été mis en culture sur un milieu nutritif, afin de déterminer la présence ou non de bactéries de type Escherichia coli. Le nombre de colonnies a été compté après trois jours d'incubation. Dans la colonne "Bact-Data" se trouve le résultat des comptages pour chacun des 200 échantillons.

But de ce tutoriel

En utilisant d'abord l'outil de XLSTAT permettant de créer des histogrammes, puis en utilisant l'outil d'ajustement d'une loi de distribution, nous voulons vérifier si l'échantillon (au sens statistique) des 200 valeurs suit une loi binomiale négative ou non. La loi binomiale négative représente souvent bien le phénomène d'agrégation/dispersion des bactéries dans les milieux aquatiques.

Créer un histogramme

Une fois XLSTAT lancé, choisissez la commande XLSTAT / Description des données / Histogrammes ou cliquez sur le bouton "Histogrammes" de la barre d'outils Description des données.

bardesc1f.gif

Une fois le bouton cliqué, la boîte de dialogue apparaît.

Vous pouvez alors sélectionner les données sur la feuille Excel.

L'option discrètes est activée car les données de comptage sont bien des données discrètes.

L'option Libellé des échantillons est laissée activée car la première ligne de la colonne de données comprend le nom de la variable.

histo1f.gifhisto2f.gifhisto3f.gif

Interprétation des résultats de l'histogramme

Une fois que vous avez cliqué sur le bouton OK, les calculs sont effectués, puis l'histogramme est affiché, suivi du tableau servant à la construction de l'histogramme (voir feuille "Histogramme").

histo4f.gif

Nous voyons que la classe la plus nombreuse est la classe 0, et qu'elle représente plus de 20% des données. Autrement dit dans plus d'un échantillon d'eau sur cinq, aucune bactérie n'a pu être mise en évidence. Ensuite, on observe une décroissance rapide et assez régulière des fréquences relatives. Dans un échantllon, on a trouvé jusqu'à 36 colonnies.

La vidéo suivante montre comment régler les paramètres pour générer le même histogramme.

Créer un histogramme avec des intervalles spécifiés

Comme nous voulons faire ensuite un test d'ajustement à la loi binomiale négative (le test du Khi’² nécessite qu'il y ait au moins 5 données par classe), et étant donnée l'imprécision des comptages de bactéries, il semble nécessaire de regrouper les comptages dans des classes plus importantes. Pour cela on crée une liste de bornes (0,1,2,3,4,5,10,15,20,40) qui semble cohérente avec la problématique.

Afin de vérifier que les nouvelles classes qui en résultent répondent bien aux exigences du test d'ajustment du Khi’², nous faisons un nouvel histogramme en spécifiant cette fois les bornes des intervalles des classes.

histo5f.gif

Résultats de l'histogramme avec les bornes spécifiées

Une fois le bouton OK cliqué, une nouvelle feuille est créée ("Histogramme1") contenant l'histogramme correspondant aux classes définies ci-dessus.

histo6f.gif

On constate que toutes les classes contiennent au moins 6 éléments, ce qui est en accord avec le test d'ajustement du Khi’² que nous allons utiliser ci-dessous, pour vérifier si l'échantillon suit bien une loi binomiale négative.

La video suivante vous montre comment l'on peut spécifier les bornes des intervalles des classes.

Test d'ajustement à la loi Binomiale négative

Pour ajuster une loi de probabilité à un échantillon, et tester la qualité de l'ajustement, choisissez la commande XLSTAT / Modélisation / Ajustement d'une loi de probabilité ou cliquez sur le bouton Ajustement d'une loi de probabilité de la barre d'outils Modélisation.

bardfitf1.gif

Une fois le bouton cliqué, la boîte de dialogue apparaît. Vous pouvez alors sélectionner les données sur la feuille Excel. Nous laissons XLSTAT libre d'estimer les paramètres de la loi binomiale négative. XLSTAT propose deux formulations de la loi binomiale négative. Celle qui est adaptée à ce type de données est la deuxième.

histo7f.gif

Nous activons l'option de test du Khi’², nécessaire pour tester notre hypothèse. Pour le test du Khi’², nous décidons qu'il sera effectué sur les classes que nous avons précédemment créées.

histo8f.gif

Pour les graphiques, les options suivantes sont activées.

histo9f.gif

Résultat du test d'ajustement à la loi Binomiale négative

Le premier résultat qui nous intéresse est la valeur des paramètres k et p de la loi binomiale négative (ajustée par la méthode du maximum de vraisemblance).

histo10f.gif

Dans le tableau suivant, on peut comparer 4 statistiques élémentaires (moyenne, variance, asymétrie, et aplatissement), calculées à partir des données, et à partir des paramètres en utilisant les propriétés de la loi choisie.

histo11f.gif

On note ici que les espérances et les variances ne diffèrent pas trop, ce qui se justifie par la taille de l'échantillon et la bonne adéquation à la loi. (NB: l'espérance théorique vaut kp, et la variance théorique vaut kp(p+1)).

Le test du Khi’² permet de tester si la distance du Khi’² entre la distribution empirique et la distribution théorique, calculée sur les classes, n'est pas au-delà d'une valeur critique. La comparison visuelle des histogrammes théoriques et observés est possible sur la figure suivante.

histo12f.gif

Pour les classes 1,6 et 7, il semble y avoir une légère inadéquation. Malgré ces légers écarts, la p-value associée au test (0.765) est nettement supérieure au seuil de signification que l'on s'est fixé (0.05). Le test du Khi’² permet donc de confirmer l'hypothèse selon laquelle l'échantillon est distribué suivant une loi binomiale négative.

histo13f.gif

Cette video montre comment faire les étapes précédentes.

En conclusion, la présence de la bactérie étudiée dans la rivière dans laquelle ont eu lieu les prélèvements, suit une loi binomiale négative de paramètres (k=0.839, p=5.763), avec une espérance de 4.8 et une variance de 32.7.