¿Cómo realizar un Análisis de Componentes Principales (ACP) con XLSTAT?

Conjunto de datos para Análisis de Componentes Principales (ACP) XLS185 KB

Vídeo de tutorial
Análisis de Componentes Principales (ACP) es parte de : Descargar evaluación Más detalles Ver los comentarios del usuario

Ventajas

  • Sencillo y dirigido a los usuarios
    Sencillo y dirigido a los usuarios XLSTAT es un software que se integra de forma transparente con Microsoft Excel, que es la hoja de cálculo más difundida del mundo. Esta integración hace que sea una de las herramientas más sencillas para trabajar ya que utiliza la misma filosofía que Microsoft Excel. El programa está disponible en una ficha de XLSTAT. Los análisis se agrupan en menús funcionales. Los cuadros de diálogo están dirigidos a los usuarios, por lo que la preparación de los análisis es tarea sencilla.
  • Resultados y datos compartidos sin dificultad
    Resultados y datos compartidos sin dificultad Una de las mayores ventajas de XLSTAT es la forma transparente con la que se pueden compartir los datos y los resultados. Los resultados se almacenan en Microsoft Excel de modo que cualquier usuario puede acceder a ellos. No es necesario que el destinatario tenga una licencia de XLSTAT o cualquier visor adicional, lo que facilita y rentabiliza el trabajo en equipo. Del mismo modo, es fácil integrar los resultados en otras aplicaciones de Microsoft Office, como PowerPoint, por lo que se pueden crear estupendas presentaciones en cuestión de minutos.
  • Modular
    Modular XLSTAT es un producto modular. XLSTAT-Pro es un módulo principal de estadística de XLSTAT, que incluye todas las funcionalidades dominantes en el análisis estadístico y multivariado. Es posible añadir funciones más avanzadas por medio de módulos complementarios para aplicaciones específicas. De este modo es posible adaptar el software a sus necesidades, aumentando la rentabilidad.
  • Didáctico
    Didáctico Los resultados de XLSTAT están organizados por análisis y es fácil desplazarse por ellos. La información útil se proporciona junto con los resultados para ayudarle en su interpretación.
  • Asequible
    Asequible XLSTAT es una solución completa y modular que se puede ajustar a cualquier necesidad de análisis comercial. Tiene un precio muy razonable, por lo que el retorno de su inversión es casi inmediato. Todas las licencias de XLSTAT incluyen también un servicio de asistencia de la mayor calidad.
  • Accesible: disponible en muchos idiomas
    Accesible: disponible en muchos idiomas Nos hemos asegurado de que XLSTAT sea accesible para todos traduciendo el programa a muchos idiomas, incluyendo chino, inglés, alemán, italiano, japonés, polaco, portugués y español.
  • Automatizable y personalizable
    Automatizable y personalizable La mayoría de las funciones estadísticas disponibles en XLSTAT pueden llamarse directamente desde la ventana Visual Basic de Microsoft Excel. Pueden modificarse e integrarse en código fuente adicional para ajustarse a sus necesidades. Añadir tablas y trazados, así como modificar los resultados existentes se convierte en tarea sencilla. Además, XLSTAT incluye algunas herramientas especiales en los cuadros de diálogo para generar automáticamente el código fuente VBA para reproducir su análisis empleando el editor de VBA o simplemente cargar ajustes predeterminados. Esta automatización de análisis rutinarios sin esfuerzo le ahorrará gran cantidad de tiempo.

Una hoja Excel que incluye a la vez los datos y los resultados puede ser descargada haciendo clic aquà­. Los datos proceden del US Census Bureau (el archivo original puede ser obtenido en la página http://eire.census.gov/popest/states_dataset.csv). Corresponden a la medición de parámetros demográficos en 51 Estados de los Estados-Unidos en 2000 y 2001. En el marco de este tutorial, solo los datos del año 2001 fueron conservados, y con el fin de suprimir los efectos de escala, las variables iniciales fueron convertidas en à­ndices por 1000 habitantes. El objetivo aquà­ es de analizar las correlaciones entre las variables e identificar Estados que se distinguen fuertemente de los demás. Estos datos son también utilizados por el tutorial de la Clasificación Ascendente Jerárquica (CAH).

El ACP es un método muy eficaz para el Análisis de datos cuantitativos (continuos o discretos) que se presentan bajo la forma de cuadros de M observaciones / N variables. Permite: visualizar y analizar rápidamente las correlaciones entre las N variables, visualizar y analizar las M observaciones inicialmente descritas por N variables en un gráfico de dos o tres dimensiones, construido de tal forma que la dispersión entre los datos sea tanto preservada como posible, construir un conjunto de P factores no correlacionadas (P

Los là­mites del ACP vienen del hecho que es un método de proyección, y que la pérdida de información inducida por la proyección puede provocar interpretaciones erróneas. Unas astucias permiten, sin embargo, evitar estos inconvenientes.

Una vez que XLSTAT-Pro éste activado, haga clic en el menú XLSTAT/ Análisis de datos/ Análisis de Componentes Principales, o haga clic en el botón correspondiente de la barra "Análisis de datos" (ver a continuación).

barpca1.gifbarpca2.gif

Una vez el botón pulsado, la cuadro de diálogo correspondiente al análisis de componentes principales aparece. Puede entonces seleccionar los datos en la hoja Excel. Hay varias manera de seleccionar los datos en los cuadros de diálogo XLSTAT (ver el tutorial del asunto). En el ejemplo estudiado aquà­, los datos empiezan desde la primera là­nea; Es entonces más rápido elegir el modo de selección por columnas. Por esta razón, en el cuadro de diálogo a continuación las selecciones aparecen en forma de columnas. Todas las opciones, por defecto, del cuadro de diálogo son dejadas asà­. La opción Referencias presentes es activada, ya que la primera là­nea de datos incluye el nombre de las variables.

pca1.gif

Los cálculos empiezan cuando haga clic en el botón "OK". Si habéis elegido en el panel de las opciones de XLSTAT la opción "entrada asistida", XLSTAT le pide confirmar el número de là­neas y de columnas. Después un cuadro de diálogo le presenta las opciones para la visualización de los gráficos. En nuestro caso, el % de variabilidad representado por los dos primeros factores no es particularmnte elevado (67.72%); Para evitar una mala interpretación de los gráficos, es pedido entonces una visualización en los ejes 1 y 3.

pca2.gif    pca3.gif

El primer resultado interesante a analizar es la matriz de las correlaciones. Observamos el resultado evidente que los à­ndices de gente de más y menos de 65 años de edad son perfectamente correlacionados (r = -1). Las dos variables son entonces redundantes. Observamos que la inmigración procedente de otros estados de EE UU es muy poco correlacionada con las otras variables, e incluido con la inmigración procedente de paà­ses extranjeros. Eso indica que las razones de inmigración son seguramente diferentes para las dos poblaciones concernidas.

pca4.gif

El siguiente cuadro y el gráfico asociado son vinculados a un objeto matemático, los valores propios, que son afortunadamente vinculados a un concepto muy simple : la calidad de la proyección cuando pasamos de N dimensiones (N siendo el número de variables, aquà­ 7) a un número más debil de dimensiones. En nuestro caso, observamos que el primer valor propio vale 3.567 y representa 51% de la variabilidad. Eso significa que si representamos los datos en un sólo eje, tendremos entonces siempre 51% de la variabilidad total que será preservada.

A cada valor propio corresponde un factor. Cada factor es en realidad una combinación lineal de las variables de inicio. Los factores tienen la particularidad de no ser correlacionados entre ellos. Los valores propios y los factores son ordenados en orden descendente de variabilidad representada.

pca5.gifpca6.gif

Idealmente, los dos primeros valores propios corresponden a un % elevado de la variabilidad, de manera que la representación sobre los dos primeros ejes factoriales es de buena calidad. En nuestro ejemplo, eso no es exactamente el caso, de donde la necesidad de aprobar las hipótesis formuladas por el uso de los gráficos en los factores F1 y F2, por los gráficos en F1 y F3. Vemos aquà­ que el número de factores es 6, cuando tenà­amos al principio 7 variables. Eso es debido a las dos variables redundantes. Comprendemos bien que la información pudiera ser sintetizada en 6 dimensiones. El número de dimensiones "útiles" máximo es automáticamente detectado por el método utilizado.

El primer gráfico especà­fico al método es el circulo de las correlaciones (ver a continuación el circulo en los ejes F1 y F2). Corresponde a una proyección de las variables iniciales sobre un plano de dos dimensiones constituido por los dos primeros factores. Cuando dos variables están lejos del centro del gráfico, entonces si están: cercas unas de las otras, entonces están significativamente positivamente correlacionadas (r cerca de 1), ortogonales unas de las otras, entonces están significativamente no- correlacionadas (r cerca de 0), simétricamente opuestas con respecto al centro, entonces están significativamente negativamente correlacionadas (r cerca de -1).

Cuando las variables están relativamente cercas del centro del gráfico, entonces cualquiera interpretación es arriesgada, y es necesario referirse a la matriz de correlaciones o a otros planos factoriales para interpretar los resultados. En nuestro ejemplo, podrà­amos deducir del gráfico a continuación que las variables inmigración domestica, e inmigración Internacional son correlacionadas, cuando no lo son, lo que podemos ver en la matriz de las correlaciones o en el circulo de las correlaciones en los ejes F1 y F3. En cambio, vemos bien la fuerte correlación entre el à­ndice de mortalidad y el à­ndice de personas cuya edad es superior a 65 años.

pca7.gif

El circulo de las correlaciones es también útil para interpretar la significación de los ejes. En nuestro caso, el eje F1 es claramente vinculado a la edad de la población y a su reemplazo, cuando el eje F2 es esencialmente vinculado a la inmigración doméstica. Estas tendencias son particularmente interesantes a sacar para la interpretación del gráfico de los individuos (ver a continuación). Para confirmar el hecho que una variable es fuertemente vinculada a un factor, debe consultar la tabla de los coseno : mientras más elevado es el coseno (en valor absoluto), más vinculada está la variable al eje. Mientras más cerca está el coseno de cero, menos vinculada está la variable al eje. En nuestro caso, vemos que en lo que se refiere a la inmigración internacional será mejor interpretada en los ejes F2/F3.

pca9.gif

El gráfico a continuación corresponde a uno de los objetivos del ACP. Permite representar los individuos en una carta de dos dimensiones, y asà­ identificar tendencias. Vemos en nuestro ejemplo que sobre la base de variables demográficas que disponemos, el Nevada y la Florida son bastante particulares, asà­ como el Utah y Alaska que parecen compartir caracterà­sticas : mirando los datos, percibimos que estos dos Etats tienen una población claramente más joven que la media, y una natalidad muy elevada.

pca8.gif

Hage clic para ver una visualización en 3 dimensiones creada con XLSTAT-Miner3D sobre lors tres primeros ejes.

Vea este vídeo para ver cómo se realizaron los ajustes.

El Análisis de Componentes Principales es a menudo utilizado ante una regresión ya que permite evitar el uso de variables redundantes, o ante una clasificación ya que permite identificar la estructura de la población y eventualmente determinar el número de grupos a construir. Los datos utilizados en este tutorial son también utilizados en el tutorial de la Clasificación Ascendente Jerárquica. Teniendo en cuenta los comentarios hecho más arriba, la variable "pop >65" fue suprimida con el fin de no incluir el peso de las variables vinculadas a la edad lo que seria demasiado importante para el reagrupamiento de los Estados.