Comment créer un tableau croisé intelligent avec XLSTAT-Pivot ?

Un fichie Excel (zippé) avec les données et les résultats correspondant à cet exemple est téléchargeable en cliquant ici. Ces données ont été recueillies pour le recensement de 1994 par le American Census Bureau (http://www.census.gov). Chaque observation est décrite par 15 variables, tel que l'age, la profession, le niveau d'éducation, le sexe, etc. Le nombre de données a été réduit à 16000 afin de limiter la taille du fichier à télécharger. La variable poids (qui permet de redresser l'enquête) n'est pas utilisée dans cet exemple. La prochaine version d'XLSTAT Pivot permettra de prendre en compte les poids.

Le but est ici de contruire un tableau croisé dynamique afin de comprendre quels facteurs, et croisements de facteurs, ont le plus d'influence sur le fait qu'un individu gagne plus de 50k$ ou non (la variable correspondante se trouve dans la colonne O). XLSTAT-Pivot permet de répondre rapidement et simplement à cette question.

Une fois XLSTAT ouvert, sélectionnez la commande XLSTAT/Modules KXEN/XLSTAT-Pivot, ou cliquez sur le bouton équivalent de la barre d'outils "KXEN" (voir ci-dessous).

barkx1.gif

Une fois que vous avez cliqué sur le bouton, la boîte de dialogue XLSTAT-Pivot apparaît. Sélectionnez alors les données sur la feuille Excel. Comme la première ligne est une ligne de libellés de variables que les lignes suivantes, il est possible d'utiliser le mode de sélection accélérée d'XLSTAT : sélectionnez directement les colonnes en cliquant sur les lettres correspondantes. Selectionnez ensuite l'option "Libellés présents" puisque la première ligne contient le nom des variables. Afin de ménager la mémoire et l'espace disque, sélectionnez l'option "Supprimer les feuilles intermédiaires". XLSTAT-Pivot détermine automatiquement le type des variables, ce qui permet de mélanger des variables qualitatives et quantitatives. Remarquez que nous avons fait une sélection multiple afin de ne pas prendre en compte la variable "Poids" (pour faire une sélection multiple, maintenez la touche Ctrl enfoncée et utilisez la souris).

Comme la variable à expliquer est de type binaire, l'option binaire est activée. Notez que les variables binaires sont transformées en 0/1, et que la valeur 1 est affectée à la catégorie la moins fréquente ; dans cet exemple, il s'agit du cas ">50k$".

kx1f.gif

Ensuite cliquez sur "Formater" afin que XLSTAT-Pivot puisse reformater les données. XLSTAT-Pivot commence par rechercher l'éventuelle présence d'observations contenant des données manquantes et vous donne la possibilité de les supprimer ou de les conserver. Dans le cas où vous les garderiez, l'agorithme choisera soit de remplacer les données manquantes par la moyenne (variable quantitative) ou par le mode (donnée qualitative), soit de créer une catégorie spécifique si cela améliore la qualité du modèle. Ici, nous avons choisi de les supprimer. Les données reformatées sont affichées sur une nouvelle feuille.

Ensuite, sélectionnez "Préparer une description" puis cliquez sur "Préparer" si vous voulez vérifier qu'XLSTAT-Pivot a bien reconnu le type des données. Ensuite, cliquez sur le bouton "Editer" pour visualiser le type des variables.

kx2f.gif

Nous avons choisi de changer la variable "Nombre d'années d'étude" d'Ordinale en Continue. Pour que la modification soit prise en compte, cliquez sur le bouton "Valider". Sélectionnez ensuite l'option "Modéliser les données", puis cliquez sur "Modéliser" afin de démarrer la phase de calculs. XLSTAT-Pivot affiche ensuite l'état d'avancement des calculs, jusqu'à ce qu'une solution optimale soit trouvée.

kx3f.gif

La boîte de dialogue finale donne la possibilité de créer un tableau croisé dynamique sur mesure tout en donnant une idée de la qualité globale du modèle au travers de deux indicateurs :
Ki : indicateur exprimé en % mesurant l'information apportée par les variables explicatives pour expliquer la variable cible. C'est un concept proche du R² de la régression linéaire. Plus Ki est proche de 100%, plus les variables explicatives expliquent la variabilité de la variable cible.
Kr : mesure de la robustesse du modèle sous-jacent. La robustesse d'un modèle correspond à sa capacité à s'adapter convenablement à de nouveaux échantillons. XLSTAT-Pivot utilise 75% des données pour ajuster le modèle et 25% pour valider le modèle. Un modèle est dit robuste si cet indicateur est au dessus de 95%.

Sélectionnez les variables que vous voulez utiliser dans le tableau croisé. La contribution des variables au modèle est affichée à côté du nom de la variable (plus la contribtion est élevée, plus elle apporte de l'information au modèle). Une fois que vous avez choisi les variables (dans l'exemple nous avons gardé les options par défaut), cliquez sur "Créer". Une nouvelle feuille de calcul est créée. Y sont affichés l'histogramme des contributions et le tableau croisé dynamique.

kx4f.gif

Le graphique permet de confirmer que les variables qui ont l'impact le plus important sur le revenu sont le situation de famille et la niveau d'éducation.

Dans les cases du tableau croisé dynamique sont affichées 4 valeurs :
Moyenne Cible : pourcentage de cas où la variable cible vaut 1 dans le cas d'une variable binaire, moyenne de la variable cible sur la sous-population correspondant à la combinaison dans le cas d'une variable continue ;
Taille Cible : comptage des occurrences de 1 de la variable cible dans le dans le cas d'une variable binaire, somme de la variable cible sur la sous-population correspondant à la combinaison dans le cas d'une variable continue ;
Taille Population % : pourcentage de la population totale qui correspondant à la combinaison ;
Taille Population : effectif de la population correspondant à la combinaison.

Cliquez ici pour visualiser le tableau croisé obtenu.

En analysant le tableau croisé, il est possible de déterminer quelles sont les combinaisons de facteurs qui font qu'un individu gagne plus de 50k$. La combinaison la plus favorable est [Doctorate ; Prof-School] avec [Married-civ-spouse].

Remarque : à partir du tableau croisé obtenu, il peut être intéressant de pousser plus loin l'analyse avec une analyse des correspondances simples ou multiples, afin de déterminer les inter-relations entre les catégories des différentes variables.

Cliquez ici pour accéder à d'autres tutoriels.