Déterminer si 2 échantillons ou plus décrits par plusieurs variables sont identiques ou non

Jeu de données pour Tests multidimensionnels XLS104 Ko

Vidéo du tutoriel
  • Pro Logiciel de base de la suite XLSTAT

  • Pré-requis système

    • Windows:
      • Versions : 9x/Me/NT/2000/XP/Vista/Win 7
      • Excel : 97 et supérieures
      • Processeur : 32 ou 64 bits
      • Disque dur : 150 Mo
    • Mac OS X:
      • OS : OS X
      • Excel : X, 2004 et 2011
      • Disque dur : 150 Mo

Avantages

  • Pratique et simple d'utilisation
    Pratique et simple d'utilisation XLSTAT est parfaitement intégré à Microsoft Excel qui est le tableur le plus populaire au monde. Grâce à cette intégration, et au suivi de la même philosophie qu'Excel, l'utilisation de XLSTAT est aisée. Le logiciel est accessible dans un onglet dédié qui contient le menu de chaque module. Les analyses disponibles sont regroupées en menus fonctionnels. Les boîtes de dialogues sont pratiques et leur paramétrage est simple.
  • Partage aisé des données et résultats
    Partage aisé des données et résultats Un des plus grands avantages de XLSTAT est le fait que les données et résultats peuvent être partagés sans contrainte. En effet, données et résultats sont stockés dans Microsoft Excel et donc accessibles à tous. Il n'est pas nécessaire pour le receveur d'avoir une licence XLSTAT ou tout autre visionneur additionnel. Ceci facilite votre travail d'équipe et le rend plus économique. Enfin, les résultats sont transposables dans les autres logiciels de Microsoft Office dont PowerPoint ce qui vous permet de créer des présentations avec d'excellents graphiques en quelques minutes.
  • Modulaire
    Modulaire XLSTAT est un produit modulaire articulé autour de XLSTAT-Pro qui est le logiciel de base de XLSTAT. XLSTAT-Pro inclut déjà toutes les fonctionnalités les plus courantes en statistiques et analyses de données multivariées. Des fonctions plus avancées sont aussi disponibles dans des modules additionnels qui répondent à des demandes plus spécifiques. Ainsi, vous pouvez adapter le logiciel à vos propres besoins ce qui le rend plus rentable.
  • Didactique
    Didactique Les résultats de XLSTAT sont affichés pour chaque analyse et sont toujours disponibles pour une navigation plus simple. De plus, des informations utiles sont associées aux résultats afin de faciliter votre interprétation.
  • A un juste prix
    A un juste prix XLSTAT est un logiciel de statistique et d'analyse de données complet et modulaire qui s'adapte à tous les besoins analytiques d'une organisation. Son prix est très raisonnable ce qui vous permet de le rentabiliser presque immédiatement. Toutes les licences XLSTAT incluent un support et une assistance de première qualité.
  • Accessible en de nombreuses langues
    Accessible en de nombreuses langues Nous nous sommes assurés que XLSTAT puisse être accessible au plus grand nombre en distribuant le programme dans de nombreuses langues dont le français, l'anglais, l'allemand, l'espagnol, l'italien, le portugais, le polonais, le chinois et le japonais.
  • Automatisable et personnalisable
    Automatisable et personnalisable La plupart des fonctions disponibles dans XLSTAT peuvent être directement appelées depuis l'application Visual Basic de Microsoft Excel. Elles peuvent être intégrées à vos routines pour répondre aux besoins d'une application particulière. Ajouter des tableaux de résultats, des graphiques, ou modifier l'existant est simplifié. De plus, XLSTAT inclut des outils permettant de sauvegarder ou de recharger des paramètres automatiquement, mais aussi de générer du code VBA. Ceci permet de reproduire vos analyses depuis l'éditeur VBA. Cette automatisation des analyses routinières vous fera gagner du temps.

Jeu de données pour la comparaison multidimensionnelle de k échantillons

Une feuille Excel contenant les données et les résultats de cet exemple peut être téléchargée en cliquant ici.

Les données sont artificielles et ont été générées avec l'outil d'échantillonnage dans une distribution de XLSTAT. Les trois premières colonnes sont tirées pour les 3 groupes G1, G2, et G3 dans une loi normale standard N(0;1). Les trois suivantes sont tirées pour le premier groupe dans une Normal(2; 5) pour G1, dans une N(2.2;5.2) pour G2 et dans une N(8;7) pour G3.

Comparaison multidimensionnelle de k échantillons

Afin de montrer le fonctionnement de l'outil et la pertinence des tests, nous allons d'abord faire un test multidimensionnel sur les 3 premières colonnes, puis sur les 3 suivantes, puis sur les 6 colonnes.

1. Tests sur les trois premières colonnes

Paramétrer la comparaison de k échantillons sur les trois premières colonnes

Une fois XLSTAT lancé, choisissez la commande XLSTAT / Tests paramétriques / Tests multidimensionnels ou cliquez sur le bouton correspondant de la barre d'outils Tests paramétriques.

barmahaf.gif

Une fois le bouton cliqué, la boîte de dialogue apparaît. Vous pouvez alors sélectionner les données correspondant aux trois premières colonnes sur la feuille Excel, puis la colonne B contenant les identifiants des groupes.

maha1f.gif

Interpréter les résultats de la comparaison de k échantillons sur les trois premières colonnes

Les résultats indiquent que tant pour les moyennes (test de Wilks) que pour les variances (tests de Box et de Kullback), les trois groupes peuvent être considérés comme identiques et provenant de la même population. On note avec les distances de Fisher que la distance entre G1, d'une part, et G2 ou G3 d'autre part, est plus importante que la distance entre G2 et G3, mais sans que cela soit significatif pour autant.

maha2f.gifmaha3f.gif

2. Tests sur les trois dernières colonnes

Paramétrer la comparaison de k échantillons sur les trois dernières colonnes

Les trois dernières colonnes sont sélectionnées, le reste étant inchangé.

maha4f.gif

Interpréter les résultats de la comparaison de k échantillons sur les trois premières colonnes

Dans ce cas là, les tests sur les moyennes identifient bien la différence : le test du Lambda de Wilks conclut à une différence de moyenne entre les groupes. On note que les distances de Mahalanobis ne sont significatives que lorsque le groupe 3 est concerné. Il n'est pas surprenant que la faible différence entre les 2 premiers groupes ne soient pas détectée comme significative, les échantillons étant de taille modeste.

maha5f.gif

En ce qui concerne les matrices de covariance, les tests de Box sont à la limite de conclure à une différence, la p-value étant de 0.06. En revanche le test de Kullback ne parvient pas à identifier la différence. Cela s'explique par la taille de l'échantillon qui es trop faible pour bien distinguer des échantillons dont la loi a une variance de 5’² d'une loi dont la variance est 7’².

maha6f.gif

3. Tests sur les six colonnes

Paramétrer la comparaison de k échantillons sur toutes les colonnes

Cette fois ci, toutes les colonnes sont sélectionnées, et dans l'onglet "Sorties, les matrices de corrélation et covariance sont demandées.

maha7f.gif

Interpréter les résultats de la comparaison de k échantillons sur toutes les colonnes

Les tests sur les moyennes donnent des résultats très proches du cas 2. La différence entre G1 et G2 au niveau des distances de Mahalanobis est légèrement plus faible.

maha8f.gif

En revanche, les tests sur les matrices de covariance sont étonnament différents. Les petites différences observées sur les 3 premières colonnes, et celles plus importantes observées sur les 3 dernières colonnes se cumulent, avec par ailleurs des covariances non négligeables entre RV1 et RV4, entre RV2 et RV5 et entre RV3 et RV6, pour finalement donner des différences très significatives lorsque l'ont réalise les tests sur les 6 colonnes.

maha9f.gif