¿Cómo crear una tabla cruzada inteligente con XLSTAT-Pivot?
Un archivo Excel (comprimido) con los datos y resultados correspondiente a este ejemplo, puede ser descargado haciendo clic aquí. Estos datos fueron reunidos para el censo de 1994 por el American Census Bureau (http://www.census.gov). Cada observación está definida por 15 variables, tal como la edad, la profesión, el nivel de educación, el sexo, etc. El número de datos fue restringido a 16000 con el fin de limitar el tamaño del archivo a descargar. La variable peso (que permite enderezar la encuesta) no aparece en este ejemplo. La próxima versión de XLSTAT-Pivot permitirá tener en cuenta los pesos.
Aquí, el objetivo es de construir una tabla cruzada dinámica con el fin de comprender cuales factores, y cruzamientos de éstos, tienen más influencia sobre el caso de que un individuo gana más de 50k$ o no (la variable correspondiente se encuentra en la columna O). XLSTAT-Pivot permite responder rápidamente y simplemente a esta pregunta.
Una vez XLSTAT abierto, elija el comando XLSTAT/Módulos KXEN/XLSTAT-Pivot, o haga clic en el botón equivalente de la barra de herramientas "KXEN" (ver a continuación).

Una vez que haya pulsado sobre el botón, el cuadro de diálogo XLSTAT-Pivot aparece. Elija entonces los datos en la hoja Excel. Como la primera línea es una línea de etiquetas y las siguientes son de variables, es posible usar el modo de selección acelerado de XLSTAT : elija directamente las columnas haciendo clic en la letra correspondiente. Después elija la opción "Referencias presentes" puesto que la primera línea contiene el nombre de las variables. Con el fin de ahorrar memoria y espacio disco, elija la opción "Suprimir las hojas intermediarias". XLSTAT-Pivot determina automáticamente el formato de las variables, lo que permite mezclar variables cualitativas y cuantitativas. Observe aquí que hemos efectuado una selección múltiple con el fin de no tener en cuenta la variable "Peso" (para hacer una selección múltiple, mantenga la tecla Ctrl pulsada y use el ratón).
Como la variable a definir es de tipo binaria, la opción binaria está activada. Tome nota que las variables binarias son convertidas en 0/1, y que el valor 1 está asignado a la categoría menos usual ; en este ejemplo, se trata del caso ">50k$".

Luego haga clic en "Formatear" con el fin de que XLSTAT-Pivot pudiera formatear de nuevo los datos. XLSTAT-Pivot empiece con buscar la presencia eventual de observaciones que carecen de datos y le da la posibilidad de suprimirlos o de guardarlos. En el caso que los guardara, el algoritmo elegirá sustituir los datos ausentes por la media (variable cuantitativa) o por el modo (dato cualitativo), o crear una categoría específica si eso mejora la calidad del modelo. En este caso, hemos elegido suprimirlos. Los datos formateados de nuevo son visualizados en una nueva hoja.
Luego, si quiere que XLSTAT-Pivot esté bien reconocido el formato de datos, elija "Preparar una descripción" y haga clic en "Preparar". Luego, haga clic en el botón "Editar" para visualizar el formato de las variables.

Hemos elegido de cambiar la variable "Número de años de estudio" de Ordinal en Continuo. Para que la modificación sea tenida en cuenta, haga clic en el botón "Aceptar". Luego elija la opción "Modelizar los datos", y haga clic en "Modelizar" con el fin de iniciar la fase de cálculos. XLSTAT-Pivot visualiza luego el estado de progreso de los cálculos, hasta que una solución óptima sea encontrada.

La cuadro de diálogo final proporciona la posibilidad de crear una tabla cruzada dinámica a medida originando una idea de la calidad global del modelo a través de dos indicadores:
Ki: indicador expresado en % que mide la información traída por las variables explicativas para explicar la variable de destino. Es un concepto cerca del R² de la regresión lineal. Mientras más cerca esté Ki de 100%, más variables explicativas explican la variabilidad de la variable de destino.
Kr: medida de la robustez del modelo subyacente. La robustez de un modelo corresponde a su capacidad de adaptarse convenientemente a nuevas muestras. XLSTAT-Pivot utiliza 75% de los datos para ajustar el modelo y 25% para aprobar el modelo. Un modelo es llamado robusto si este indicador está por encima del 95%.
Elija las variables que quiera usar en la tabla cruzada. La contribución de las variables al modelo aparece a lado del nombre de la variable (mientras más elevada es la contribución, más información produce al modelo). Una vez que haya elegido las variables (en el ejemplo hemos guardado las opciones predeterminadas), haga clic en "Crear". Una nueva hoja de cálculo está creada donde aparecen el histograma de las contribuciones y la tabla cruzada dinámica.

El gráfico permite confirmar que las variables que tienen el impacto más importante sobre la renta son el Marital status y el Education level.
En las celdas de la tabla cruzada dinámica son visualizados 4 valores:
Media Destino: porcentaje de caso donde la variable de destino vale 1 en el caso de una variable binaria, media de la variable de destino en la subpoblación que corresponde a la combinación en el caso de una variable continua;
Tamaño Destino: cuenta las ocurrencias de 1 de la variable de destino en el caso de una variable binaria, suma de la variable de destino en la subpoblación que corresponde a la combinación en el caso de una variable continua;
Tamaño Población % : porcentaje de la población total que corresponde a la combinación;
Tamaño Población: efectivo de la población que corresponde a la combinación.
Haga clic aquí para visualizar la tabla cruzada obtenida.
Analizando la tabla cruzada, es posible determinar cuales son las combinaciones de factores que hacen que un individuo gana más de 50k$. La combinación la más favorable es [Doctorate ; Prof-School] con [Married-civ-spouse].
Comentario: a partir de la tabla cruzada obtenida, puede ser interesante impulsar más lejos el análisis con un análisis de correspondencias simples o múltiples, con el fin de determinar las interrelaciones entre las categorías de las diferentes variables.
Haga clic aquí para acceder a otros tutoriales.