¿Cómo realizar un Multidimensional Scaling con XLSTAT?

El Multidimensional Scaling (MDS) es un método de análisis de datos ampliamente utilizado en los campos del marketing y de la psicometría, especialmente en los países anglosajones. El principio del método consiste en reconstruir un mapa de individuos a partir de una matriz de proximidades (similaridades o disimilaridades) entre los individuos. En el caso ideal en la que se dispone de una matriz que proporciona las distancias entre puntos en el plano (por ejemplo, las distancias entre las ciudades de una región), el MDS reconstruye el mapa de puntos, con poco más o menos una rotación / simetría. Para proporcionar una configuración óptima, el método MDS minimiza un criterio llamado "STRESS". Mientras más se acerca a 0 mejor es la representación.

Una hoja Excel que incluye a la vez los datos y resultados puede ser descargada haciendo clic aquí. Los datos proceden de una encuesta llevada ante 10 consumidores, a quienes les han pedido de valorar (evaluaciones incluidas entre 1 y 5) cinco productos, del cual uno solo existe en el mercado (producto P1). Estos productos son productos alimenticios de tipo barras de chocolates.

mdsdata.gif

Se trata de mostrar como los productos se ordenan en un mapa, según las evaluaciones proporcionadas por los 10 consumidores.

Hemos visto que para usar el MDS necesitamos una matriz de proximidad, pero aquí disponemos de una matriz individuos x productos. Para crear una matriz de disimilaridades entre los productos, debemos usar en primer lugar la herramienta "Matriz de similaridad / disimilaridad" de XLSTAT.

Una vez que XLSTAT-Pro esté activado, haga clic en el menú XLSTAT/Descripción de datos/Matriz de similaridad / disimilaridad, o haga clic en el botón correspondiente de la barra "Descripción de datos" (ver a continuación).

mdsbar1.gif

mdsbar2.gif

Una vez el botón pulsado, el cuadro de diálogo aparece. Puede entonces seleccionar los datos en la hoja Excel, y luego elegir las opciones adecuadas como presentado a continuación. Para activar la parte inferior del cuadro de diálogo, es necesario hacer clic en el botón "Más" que se convierte después en "Menos".

mds1.gif

Se consigue entonces la matriz de las distancias euclídeas entre los productos, a partir de la cual el Multidimensional Scaling puede ser realizado.

mds2.gif

Haga clic entonces en el menú XLSTAT /Análisis de datos/Multidimensional Scaling, o haga clic en el botón correspondiente de la barra "Análisis de datos" (ver a continuación).

mdsbar3.gif

mdsbar4.gif

Una vez el botón pulsado, el cuadro de diálogo aparece. Puede entonces seleccionar los datos en la hoja Excel, y luego elegir las opciones adecuadas como presentado a continuación. Se eligió la opción Modelo. Este modelo procura que las distancias obtenidas en la configuración final sean lo más cercanas posible de las distancias euclídeas, calculadas a partir de las evaluaciones de los consumidores. Otras opciones pueden proporcionar los mismos resultados pero con un efecto de escala. Por otra parte, hemos solicitado que los espacios de representación incluyen 2 a 4 dimensiones, con el fin de evaluar la distorsión asociada a la representación en un espacio de mínima dimensionalidad. Para poder analizar los resultados relacionados con las diferentes dimensiones, hemos desactivado la opción "Mejor dimensión". Finalmente, la opción "Disparidades" no es activada: en efecto, en el caso del modelo absoluto, las disparidades son idénticas a las disimilaridades y su representación en el diagrama de Shepard seria entonces redundante.

mds3.gif

Comentario: al menos que no se proporciona una configuración inicial al algoritmo (ver opciones "Más" del cuadro de diálogo MDS), los puntos de inicio son elegidos de modo aleatorio. Es posible conseguir así un resultado levemente diferente del que es visualizado aquí. Para asegurarse de obtener una solución cercana del óptimo absoluto, puede aumentar el número de repeticiones, el número de iteraciones máximas y la precisión (ver opciones "Más" del cuadro de diálogo MDS).

Los cálculos empiezan en el momento que haga clic en el botón "OK". Después de haber optado representar los gráficos sobre las dos primeras dimensiones, los resultados se visualizan en la hoja "MDS" del libro Excel. El primer cuadro muestra la evolución del stress en función del número de dimensiones del espacio de representación. Se observa una ruptura muy clara entre las dimensiones 2 y 3, y una estabilidad entre las dimensiones 3 y 4 (es normal que la representación de 5 objetos sea perfecta en un espacio de 4 dimensiones).

mds4.gif

Un mapa establecido sobre el plano Dim1 x Dim2 es producido para el espacio de 4 dimensiones porque es en este espacio que la representación de los datos es la mejor.

mds8.gif

Es posible también cruzar otros ejes de coordenadas y obtener así otros mapas. En cualquier caso, es peligroso utilizar estos mapas. En efecto, se trata de proyecciones de una nube de puntos situada en un espacio de 4 dimensiones en planos, y no sabemos a priori si una de esas proyecciones permite representar escrupulosamente las relaciones de proximidad entre los puntos de la nube. Solo un ACP calculado a partir del resultado del MDS permitirá construir un mapa que dará cuenta de la nube de puntos lo más escrupulosamente posible.

Hemos creado el mapa para la representación en dos dimensiones que es demasiado diferente de aquella obtenida para la configuración en 4 dimensiones, y forzosamente más justo.

mds5.gif

Con el fin de tener una representación con una calidad aún superior, y de evitar una incorrecta interpretación de los datos, hemos utilizado XLSTAT-3DPlot para representar la configuración en tres dimensiones. Para eso, se debe seleccionar los datos a continuación, y luego hacer clic en el icono de XLSTAT-3DPlot M.gif de la barra de herramientas "Visualización de datos".

mds7.gif

Se consigue entonces el siguiente resultado:

mds6.gif

Así, resulta que los consumidores han diferenciado bien colectivamente el conjunto de los productos los unos de los otros puesto que los productos son esparcidos. Sabemos que el producto P2 incluye más chocolate que el producto P4 que es el que tiene menos: en el gráfico en 3 dimensiones aparecen diametralmente opuestos. Observamos que los consumidores han favorecido sensiblemente el producto P2 en su evaluación. También observamos, según las imágenes aquí arriba, que los productos P3 y P5, aunque tienen evaluaciones medias muy cercanas, no son próximas en el espacio de representación. En efecto, las opiniones entre los consumidores son a veces opuestas en los productos P3 y P5. Eso se explica por la presencia de cacahuetes en el producto, sabor apreciado por algunos consumidores y no por otros.

El método MDS permite así cartografiar productos juzgados por consumidores. La interpretación que se deduce puede ser mucho más rica que un análisis a partir de estadísticas simples.

Comentario: no existe método estadístico riguroso para evaluar la calidad y fiabilidad de una representación procedente de un MDS. Sin embargo, la observación del diagrama de Shepard permite tener una idea general de la calidad de la representación. El diagrama de Shepard corresponde a una nube de puntos, cuyo abscisas son las disimilaridades observadas, y las ordenadas, las distancias en la configuración procedente del MDS. Mientras más esparcidos son los puntos, menos fiable es el gráfico. Si el rango de las abscisas es respectada al de las ordenadas, el gráfico es muy fiable. Si los puntos son alineados en una recta, la representación es perfecta. El gráfico de izquierda corresponde, para los datos de este ejemplo, a la representación en un espacio de 4 dimensiones, y el de derecha corresponde a la representación en un espacio de 2 dimensiones. Se observa una diferencia sensible en la dispersión de los puntos entre los dos gráficos

mds9.gif

Haga clic aquí para acceder a otros tutoriales.