Créer un histogramme et tester l'ajustement à une loi de probabilité avec XLSTAT
Jeu de données pour Histogrammes XLS1010 Ko
Jeu de données pour créer des histogrammes et faire un test d'ajustement à une loi de probabilité
Une feuille Excel contenant les données et les résultats de cet exemple peut être téléchargée en cliquant ici.
Les données correspondent à une expérience où 200 échantillons d'eau prélevés dans une rivière ont été mis en culture sur un milieu nutritif, afin de déterminer la présence ou non de bactéries de type Escherichia coli. Le nombre de colonnies a été compté après trois jours d'incubation. Dans la colonne "Bact-Data" se trouve le résultat des comptages pour chacun des 200 échantillons.
But de ce tutoriel
En utilisant d'abord l'outil de XLSTAT permettant de créer des histogrammes, puis en utilisant l'outil d'ajustement d'une loi de distribution, nous voulons vérifier si l'échantillon (au sens statistique) des 200 valeurs suit une loi binomiale négative ou non. La loi binomiale négative représente souvent bien le phénomène d'agrégation/dispersion des bactéries dans les milieux aquatiques.
Créer un histogramme
Une fois XLSTAT lancé, choisissez la commande XLSTAT / Description des données / Histogrammes ou cliquez sur le bouton "Histogrammes" de la barre d'outils Description des données.

Une fois le bouton cliqué, la boîte de dialogue apparaît.
Vous pouvez alors sélectionner les données sur la feuille Excel.
L'option discrètes est activée car les données de comptage sont bien des données discrètes.
L'option Libellé des échantillons est laissée activée car la première ligne de la colonne de données comprend le nom de la variable.



Interprétation des résultats de l'histogramme
Une fois que vous avez cliqué sur le bouton OK, les calculs sont effectués, puis l'histogramme est affiché, suivi du tableau servant à la construction de l'histogramme (voir feuille "Histogramme").

Nous voyons que la classe la plus nombreuse est la classe 0, et qu'elle représente plus de 20% des données. Autrement dit dans plus d'un échantillon d'eau sur cinq, aucune bactérie n'a pu être mise en évidence. Ensuite, on observe une décroissance rapide et assez régulière des fréquences relatives. Dans un échantllon, on a trouvé jusqu'à 36 colonnies.
La vidéo suivante montre comment régler les paramètres pour générer le même histogramme.
Créer un histogramme avec des intervalles spécifiés
Comme nous voulons faire ensuite un test d'ajustement à la loi binomiale négative (le test du Khi’² nécessite qu'il y ait au moins 5 données par classe), et étant donnée l'imprécision des comptages de bactéries, il semble nécessaire de regrouper les comptages dans des classes plus importantes. Pour cela on crée une liste de bornes (0,1,2,3,4,5,10,15,20,40) qui semble cohérente avec la problématique.
Afin de vérifier que les nouvelles classes qui en résultent répondent bien aux exigences du test d'ajustment du Khi’², nous faisons un nouvel histogramme en spécifiant cette fois les bornes des intervalles des classes.

Résultats de l'histogramme avec les bornes spécifiées
Une fois le bouton OK cliqué, une nouvelle feuille est créée ("Histogramme1") contenant l'histogramme correspondant aux classes définies ci-dessus.

On constate que toutes les classes contiennent au moins 6 éléments, ce qui est en accord avec le test d'ajustement du Khi’² que nous allons utiliser ci-dessous, pour vérifier si l'échantillon suit bien une loi binomiale négative.
La video suivante vous montre comment l'on peut spécifier les bornes des intervalles des classes.
Test d'ajustement à la loi Binomiale négative
Pour ajuster une loi de probabilité à un échantillon, et tester la qualité de l'ajustement, choisissez la commande XLSTAT / Modélisation / Ajustement d'une loi de probabilité ou cliquez sur le bouton Ajustement d'une loi de probabilité de la barre d'outils Modélisation.

Une fois le bouton cliqué, la boîte de dialogue apparaît. Vous pouvez alors sélectionner les données sur la feuille Excel. Nous laissons XLSTAT libre d'estimer les paramètres de la loi binomiale négative. XLSTAT propose deux formulations de la loi binomiale négative. Celle qui est adaptée à ce type de données est la deuxième.

Nous activons l'option de test du Khi’², nécessaire pour tester notre hypothèse. Pour le test du Khi’², nous décidons qu'il sera effectué sur les classes que nous avons précédemment créées.

Pour les graphiques, les options suivantes sont activées.

Résultat du test d'ajustement à la loi Binomiale négative
Le premier résultat qui nous intéresse est la valeur des paramètres k et p de la loi binomiale négative (ajustée par la méthode du maximum de vraisemblance).

Dans le tableau suivant, on peut comparer 4 statistiques élémentaires (moyenne, variance, asymétrie, et aplatissement), calculées à partir des données, et à partir des paramètres en utilisant les propriétés de la loi choisie.

On note ici que les espérances et les variances ne diffèrent pas trop, ce qui se justifie par la taille de l'échantillon et la bonne adéquation à la loi. (NB: l'espérance théorique vaut kp, et la variance théorique vaut kp(p+1)).
Le test du Khi’² permet de tester si la distance du Khi’² entre la distribution empirique et la distribution théorique, calculée sur les classes, n'est pas au-delà d'une valeur critique. La comparison visuelle des histogrammes théoriques et observés est possible sur la figure suivante.

Pour les classes 1,6 et 7, il semble y avoir une légère inadéquation. Malgré ces légers écarts, la p-value associée au test (0.765) est nettement supérieure au seuil de signification que l'on s'est fixé (0.05). Le test du Khi’² permet donc de confirmer l'hypothèse selon laquelle l'échantillon est distribué suivant une loi binomiale négative.

Cette video montre comment faire les étapes précédentes.
En conclusion, la présence de la bactérie étudiée dans la rivière dans laquelle ont eu lieu les prélèvements, suit une loi binomiale négative de paramètres (k=0.839, p=5.763), avec une espérance de 4.8 et une variance de 32.7.