Comment comparer k proportions avec XLSTAT ?

Une proportion permet de mesurer sur une échelle [0, 1], combien d'observations appartiennent à une modalité (ou catégorie) donnée, en comparaison avec la taille totale de l'échantillon étudié. Pour la calculer, on divise le nombre d'observations appartenant à la modalité à laquelle on s'intéresse par l'effectif total de l'échantillon.

Pour comparer k proportions, les méthodes statistiques requièrent que les tailles d'échantillon soient connues pour toutes les proportions. Les données en entrée doivent donc être d'une part, soit des proportions soit des nombres d'observations appartenant à la modalité d'intérêt, et d'autre part des tailles d'échantillon.

Une feuille Excel contenant les données et les résultats de cet exemple peut être téléchargée en cliquant ici. Les données correspondent à 6 différentes sériess de vis utilisées sur des voitures de rallye. Le nombre de vis ayant passé les tests de qualité pour chaque série est enregistré dans la colonne "Succès". Le nombre de vis ne passant pas les tests est enregistré dans la colonne "Echec". Notre but est de déterminer si la qualité des 6 séries de vis peut être considérée comme homogène ou non, puis, s'il y a une différence, d'identifier les séries qui sont significativement différentes des autres.

Une fois XLSTAT lancé, choisissez la commande XLSTAT/Tests paramétriques/Comparaison de k proportions ou cliquez sur le bouton "Comparaison de k proportions" de la barre d'outils "Tests paramétriques".

barkpropf.gif

Une fois le bouton cliqué, la boîte de dialogue apparaît. Vous pouvez alors sélectionner les données sur la feuille Excel. Sélectionnez d'abord les données "Effectifs" qui correspondent ici aux "Succès", puis les "Tailles des échantillons" qui correspondent ici à la colonne "Total". Les "Libellés des échantillons" sont aussi sélectionnés. Tous les tests sont activés. L'option "Libellés des colonnes" est activée car la première ligne des colonnes sélectionnées comprend un libellé.

kprop1f.gif

Les calculs commencent une fois que vous avez cliqué sur "OK". Les premiers résultats affichés correspondent au test du Khi². Le test du Khi² est communément utilisé sur des tableaux de contingence (tabelaux croisés) pour tester si les lignes et les colonnes sont indépendantes. Dans ce cas particulier où nous étudions un événement binaire (succès/échec), l'indépendance des lignes et les colonnes est équalivalente à ce qu'il n'y ait aucune différence entre les proportions de succès entre les 6 séries. Le tableau de contingence est automatiquement reconstruit par XLSTAT à partir des données d'entrée.

Le test du Khi² permet de conclure qu'il y a au moins une série qui diffère des autres. Cependant, nous notons que la p-value est très proche du niveau de signification choisi (0.05).

kprop2f.gif

Nous savons que le test du Khi² est un test asymptotique dont la fiabilité est peu sûre lorsque trop de cellules du tableau de contingence ont des valeurs faibles. Comme c'est ici le cas, il est recommandé d'utilisé le test de Monte Carlo utilisant des simulations. Le principe des simulations est de générer de manière aléatoire des tableaux de contingence ayant les mêmes sommes marginales, puis de calculer les distances du Khi² sur ces tableaux. Enfin, nous déterminons quelle proportion de tableaux donnent une distance plus faible que celle mesurée sur le tableau des données, ce qui indique alors si le tableau correspond à un cas "extrême" ou non.

kprop3f.gif

Nous voyons que le test de Monte Carlo avec 5000 simulations donne presque le même résultat que le test du Khi², ce qui confirme le fait qu'au moins une série est différente des autres.

Afin d'identifier quelles séries diffèrent, nous utilisons la procédure de Marascuilo. Les résultats sont affichés ci-dessous.

kprop4f.gif

Nous voyons que les séries qui diffèrent le plus sont S2 et S3. Comme S2 n'est pas significativement différente des autres séries, nous concluons que la série qui est responsable du rejet de l'hypothèse H0 du test de comparaison des k proportions est S3. Il est appartient alors aux ingénieurs de déterminer pour quelles raisons la qualité de production de la série S3 est meilleure.

Cliquez ici pour accéder à d'autres tutoriels.