Customizing a PCA chart with XLSTAT to make it easier to interpret

Conjunto de datos para Plot management XLS209 KB

Vídeo de tutorial

Ventajas

  • Sencillo y dirigido a los usuarios
    Sencillo y dirigido a los usuarios XLSTAT es un software que se integra de forma transparente con Microsoft Excel, que es la hoja de cálculo más difundida del mundo. Esta integración hace que sea una de las herramientas más sencillas para trabajar ya que utiliza la misma filosofía que Microsoft Excel. El programa está disponible en una ficha de XLSTAT. Los análisis se agrupan en menús funcionales. Los cuadros de diálogo están dirigidos a los usuarios, por lo que la preparación de los análisis es tarea sencilla.
  • Resultados y datos compartidos sin dificultad
    Resultados y datos compartidos sin dificultad Una de las mayores ventajas de XLSTAT es la forma transparente con la que se pueden compartir los datos y los resultados. Los resultados se almacenan en Microsoft Excel de modo que cualquier usuario puede acceder a ellos. No es necesario que el destinatario tenga una licencia de XLSTAT o cualquier visor adicional, lo que facilita y rentabiliza el trabajo en equipo. Del mismo modo, es fácil integrar los resultados en otras aplicaciones de Microsoft Office, como PowerPoint, por lo que se pueden crear estupendas presentaciones en cuestión de minutos.
  • Modular
    Modular XLSTAT es un producto modular. XLSTAT-Pro es un módulo principal de estadística de XLSTAT, que incluye todas las funcionalidades dominantes en el análisis estadístico y multivariado. Es posible añadir funciones más avanzadas por medio de módulos complementarios para aplicaciones específicas. De este modo es posible adaptar el software a sus necesidades, aumentando la rentabilidad.
  • Didáctico
    Didáctico Los resultados de XLSTAT están organizados por análisis y es fácil desplazarse por ellos. La información útil se proporciona junto con los resultados para ayudarle en su interpretación.
  • Asequible
    Asequible XLSTAT es una solución completa y modular que se puede ajustar a cualquier necesidad de análisis comercial. Tiene un precio muy razonable, por lo que el retorno de su inversión es casi inmediato. Todas las licencias de XLSTAT incluyen también un servicio de asistencia de la mayor calidad.
  • Accesible: disponible en muchos idiomas
    Accesible: disponible en muchos idiomas Nos hemos asegurado de que XLSTAT sea accesible para todos traduciendo el programa a muchos idiomas, incluyendo chino, inglés, alemán, italiano, japonés, polaco, portugués y español.
  • Automatizable y personalizable
    Automatizable y personalizable La mayoría de las funciones estadísticas disponibles en XLSTAT pueden llamarse directamente desde la ventana Visual Basic de Microsoft Excel. Pueden modificarse e integrarse en código fuente adicional para ajustarse a sus necesidades. Añadir tablas y trazados, así como modificar los resultados existentes se convierte en tarea sencilla. Además, XLSTAT incluye algunas herramientas especiales en los cuadros de diálogo para generar automáticamente el código fuente VBA para reproducir su análisis empleando el editor de VBA o simplemente cargar ajustes predeterminados. Esta automatización de análisis rutinarios sin esfuerzo le ahorrará gran cantidad de tiempo.

Dataset for customizing the plot

An Excel sheet with both the data and results used in this tutorial can be downloaded by clicking here. This tutorial is based on results obtained in the tutorial on PCA (Principal Components Analysis). Our goal is to improve the readability of the graphical representation on axes F1 and F2.

Customizing a plot

We first make a copy of the representation, and then enlarge it. It can be observed that during the expansion of the chart, some labels are moved away from the point to which they correspond. To remedy this, we select the graph and then we use the tool Reposition labels of the Visualizing data toolbar, and choose the following options :

easy1.gif

We then create, to the right of the table of the factor scores, a column that contains the sum of the squared cosines on the first two axes for each observation.

As a reminder, for a given axis and a given observation, the cosine is the cosine of the angle between the axis and the vector going from the origin to the point. Thus, the greater the cosine, the closer the point is to the axis in the multidimensional space resulting from the PCA. The sum of the cosines on the first two factorial axes F1 and F2 for any given observation, gives an idea of the accuracy of the plane defined by F1 and F2, for this observation. For a given observation, the sum of the squared cosines over all axes is 1. So, for a given point, the closer the sum to 1, the greater the interpretability of the representation.

In order to indicate the level of interpretability of the two-dimensional representation for the various points, we want to increase the point sizes according to the value of the sum of the squared cosines. This will allow us to know which points can be interpreted without error.

Furthermore, to differentiate the five groups of States determined by the Census Bureau (North East, South, Midwest, West and Pacific), we will use different shapes.

To modify the shapes, we need to use the codes as defined by XLSTAT, the later respecting the order of shapes proposed by Excel (see the dialog box below): 1 corresponds to a square, 2 to a diamond, 3 to a triangle, 4 to an x, 5 to a star, 6 to a point, 7 to a -, 8 to a + and 9 to a circle. As only four shapes are effectively usable, the States of Hawaï and Alaska that belong to the Pacific zone will be represented with a circle as the western States, but with a black contour.

easy3.gif

We then create a column that contains the codes corresponding to each State.

To increase the readability of the chart, we are going to color in red the points for which the sum of squared cosines is greater than 0.8. To change the color of the points, we must apply the colors to the cells where the shapes are defined. We first color the entire column of cosines in blue. Then we use the DataFlagger tool available in the "Tools" toolbar to color in red the cells with a sum greater than or equal to 0.8.

To surround with black the points corresponding to Hawaii and Alaska, a black bottom border has been added to the cells. The format of the cell is then copied and pasted into the column with the shapes, and we clear the formats in the column with the squared cosines (Excel / Edit / Clear formats).

easy2.gif

We then select the graphic, and then launch the EasyPoints tool that is available in the "Visualizing data" toolbar. The following options were chosen:

easy4.gif

As a result, we obtain the following chart:

easy5.gif

Easier to interpret, this chart allows us to identify the states which can be interpreted in terms of proximity. For example, one can conclude that West Virginia and Pennsylvania are close, while Pennsylvania and Alaska are very different. Furthermore, we note that in the top right and bottom right of the representation, we mostly find Western States.