Comment créer un histogramme avec XLSTAT ?
Une feuille Excel contenant les données et les résultats de cet exemple peut être téléchargée en cliquant ici. Les données correspondent à une expérience où 200 échantillons d'eau prélevés dans une rivière ont été mis en culture sur un milieu nutritif, afin de déterminer la présence ou non de bactéries de type Escherichia coli. Le nombre de colonnies a été compté après trois jours d'incubation. Dans la colonne "Bact-Data" se trouve le résultat des comptages pour chacun des 200 échantillons.
En utilisant d'abord l'outil de XLSTAT permettant de créer des histogrammes, puis en utilisant l'outil d'ajustement d'une loi de distribution, nous voulons vérifier si l'échantillon (au sens statistique) des 200 comptages suit une loi binomiale négative ou non. La loi binomiale négative représente souvent bien le phénomène d'agrégation/dispersion des bactéries dans les milieux aquatiques.
Une fois XLSTAT lancé, choisissez la commande XLSTAT/Description des données/Histogrammes ou cliquez sur le bouton "Histogrammes" de la barre d'outils "Description des données".

Une fois le bouton cliqué, la boîte de dialogue apparaît. Vous pouvez alors sélectionner les données sur la feuille Excel. L'option "discrètes" est activée car les données de comptage sont bien des données discrètes. L'option "Libellé des échantillons" est laissée activée car la première ligne de la colonne de données comprend le nom de la variable.



Une fois que vous avez cliqué sur le bouton "OK", les calculs sont effectués, puis l'histogramme est affiché, suivi du tableau servant à la construction de l'histogramme (voir feuille "Histogramme").

Nous voyons que la classe la plus nombreuse est la classe 0, et qu'elle représente plus de 20% des données. Autrement dit dans plus d'un échantillon d'eau sur cinq, aucune bactérie n'a pu être mise en évidence. Ensuite, on observe une décroissance rapide et assez régulière des fréquences relatives. Dans un échantllon, on a trouvé jusqu'à 36 colonnies.
Comme nous voulons faire ensuite un test d'ajustement à la loi binomiale négative (le test du Khi² nécessite qu'il y ait au moins 5 données par classe), et étant donnée l'imprécision des comptages de bactéries, il semble nécessaire de regrouper les comptages dans des classes plus importantes. Pour cela on crée une liste de bornes (0,1,2,3,4,5,10,15,20,40) qui semble cohérente avec la problématique.
Afin de vérifier que les nouvelles classes qui en résultent répondent bien aux exigences du test d'ajustment du Khi², nous faisons un nouvel histogramme en spécifiant cette fois les bornes des intervalles des classes.

Une fois le bouton "OK" cliqué, une nouvelle feuille est créée ("Histogramme1") contenant l'histogramme correspondant aux classes définies ci-dessus.

On constate que toutes les classes contiennent au moins 6 éléments, ce qui est en accord avec le test d'ajustement du Khi² que nous allons utiliser ci-dessous, pour vérifier si l'échantillon suit bien une loi binomiale négative.
Pour ajuster une loi de probabilité à un échantillon, et tester la qualité de l'ajustement, choisissez la commande XLSTAT/Modélisation/Ajustement d'une loi de probabilité ou cliquez sur le bouton "Ajustement d'une loi de probabilité" de la barre d'outils "Modélisation".

Une fois le bouton cliqué, la boîte de dialogue apparaît. Vous pouvez alors sélectionner les données sur la feuille Excel. Nous laissons XLSTAT libre d'"estimer" les paramètres de la loi binomiale négative. XLSTAT propose deux formulations de la loi binomiale négative. Celle qui est adaptée à ce type de données est la deuxième.

Nous activons l'option de test de conformité du Khi², nécessaire pour tester notre hypothèse. Pour le test du Khi², nous décidons qu'il sera effectué sur les classes que nous avons précédemment créées.

Pour les graphiques, les options suivantes sont activées.

Le premier résultat qui nous intéresse est la valeur des paramètres k et p de la loi binomiale négative (ajustée par la méthode du maximum de vraisemblance).

Dans le tableau suivant, on peut comparer 4 statistiques élémentaires (moyenne, variance, asymétrie, et aplatissement), calculées à partir des données, et à partir des paramètres en utilisant les propriétés de la loi choisie.

On note ici que les espérances et les variances ne diffèrent pas trop, ce qui se justifie par la taille de l'échantillon et la bonne adéquation à la loi. (NB: l'espérance théorique vaut kp, et la variance théorique vaut kp(p+1)).
Le test de conformité du Khi² permet de tester si la distance du Khi² entre la distribution empirique et la distribution théorique, calculée sur les classes, n'est pas au-delà d'une valeur critique. La comparison visuelle des histogrammes théoriques et observés est possible sur la figure suivante.

Pour les classes 1,6 et 7, il semble y avoir une légère inadéquation. Malgré ces légers écarts, la p-value associée au test (0.765) est nettement supérieure au seuil de signification que l'on s'est fixé (0.05). Le test du Khi² permet donc de confirmer l'hypothèse selon laquelle l'échantillon est distribué suivant une loi binomiale négative.

En conclusion, la présence de la bactérie étudiée dans la rivière dans laquelle ont eu lieu les prélèvements, suit une loi binomiale négative de paramètres (k=0.839, p=5.763), avec une espérance de 4.8 et une variance de 32.7.
Cliquez ici pour accéder à d'autres tutoriels.