¿Cómo realizar un Análisis de Componentes Principales (ACP) con XLSTAT?
Una hoja Excel que incluye a la vez los datos y los resultados puede ser descargada haciendo clic aquí. Los datos proceden del US Census Bureau (el archivo original puede ser obtenido en la página http://eire.census.gov/popest/states_dataset.csv). Corresponden a la medición de parámetros demográficos en 51 Estados de los Estados-Unidos en 2000 y 2001. En el marco de este tutorial, solo los datos del año 2001 fueron conservados, y con el fin de suprimir los efectos de escala, las variables iniciales fueron convertidas en índices por 1000 habitantes. El objetivo aquí es de analizar las correlaciones entre las variables e identificar Estados que se distinguen fuertemente de los demás. Estos datos son también utilizados por el tutorial de la Clasificación Ascendente Jerárquica (CAH).
El ACP es un método muy eficaz para el Análisis de datos cuantitativos (continuos o discretos) que se presentan bajo la forma de cuadros de M observaciones / N variables. Permite:
visualizar y analizar rápidamente las correlaciones entre las N variables,
visualizar y analizar las M observaciones inicialmente descritas por N variables en un gráfico de dos o tres dimensiones, construido de tal forma que la dispersión entre los datos sea tanto preservada como posible,
construir un conjunto de P factores no correlacionadas (P<=N) que pueden luego ser reutilizados por otros métodos (la regresión por ejemplo).
Los límites del ACP vienen del hecho que es un método de proyección, y que la pérdida de información inducida por la proyección puede provocar interpretaciones erróneas. Unas astucias permiten, sin embargo, evitar estos inconvenientes.
Una vez que XLSTAT-Pro éste activado, haga clic en el menú XLSTAT/ Análisis de datos/ Análisis de Componentes Principales, o haga clic en el botón correspondiente de la barra "Análisis de datos" (ver a continuación).


Una vez el botón pulsado, la cuadro de diálogo correspondiente al análisis de componentes principales aparece. Puede entonces seleccionar los datos en la hoja Excel. Hay varias manera de seleccionar los datos en los cuadros de diálogo XLSTAT (ver el tutorial del asunto). En el ejemplo estudiado aquí, los datos empiezan desde la primera línea; Es entonces más rápido elegir el modo de selección por columnas. Por esta razón, en el cuadro de diálogo a continuación las selecciones aparecen en forma de columnas. Todas las opciones, por defecto, del cuadro de diálogo son dejadas así. La opción Referencias presentes es activada, ya que la primera línea de datos incluye el nombre de las variables.

Los cálculos empiezan cuando haga clic en el botón "OK". Si habéis elegido en el panel de las opciones de XLSTAT la opción "entrada asistida", XLSTAT le pide confirmar el número de líneas y de columnas. Después un cuadro de diálogo le presenta las opciones para la visualización de los gráficos. En nuestro caso, el % de variabilidad representado por los dos primeros factores no es particularmnte elevado (67.72%); Para evitar una mala interpretación de los gráficos, es pedido entonces una visualización en los ejes 1 y 3.

El primer resultado interesante a analizar es la matriz de las correlaciones. Observamos el resultado evidente que los índices de gente de más y menos de 65 años de edad son perfectamente correlacionados (r = -1). Las dos variables son entonces redundantes. Observamos que la inmigración procedente de otros estados de EE UU es muy poco correlacionada con las otras variables, e incluido con la inmigración procedente de países extranjeros. Eso indica que las razones de inmigración son seguramente diferentes para las dos poblaciones concernidas.

El siguiente cuadro y el gráfico asociado son vinculados a un objeto matemático, los valores propios, que son afortunadamente vinculados a un concepto muy simple : la calidad de la proyección cuando pasamos de N dimensiones (N siendo el número de variables, aquí 7) a un número más debil de dimensiones. En nuestro caso, observamos que el primer valor propio vale 3.567 y representa 51% de la variabilidad. Eso significa que si representamos los datos en un sólo eje, tendremos entonces siempre 51% de la variabilidad total que será preservada.
A cada valor propio corresponde un factor. Cada factor es en realidad una combinación lineal de las variables de inicio. Los factores tienen la particularidad de no ser correlacionados entre ellos. Los valores propios y los factores son ordenados en orden descendente de variabilidad representada.


Idealmente, los dos primeros valores propios corresponden a un % elevado de la variabilidad, de manera que la representación sobre los dos primeros ejes factoriales es de buena calidad. En nuestro ejemplo, eso no es exactamente el caso, de donde la necesidad de aprobar las hipótesis formuladas por el uso de los gráficos en los factores F1 y F2, por los gráficos en F1 y F3. Vemos aquí que el número de factores es 6, cuando teníamos al principio 7 variables. Eso es debido a las dos variables redundantes. Comprendemos bien que la información pudiera ser sintetizada en 6 dimensiones. El número de dimensiones "útiles" máximo es automáticamente detectado por el método utilizado.
El primer gráfico específico al método es el circulo de las correlaciones (ver a continuación el circulo en los ejes F1 y F2). Corresponde a una proyección de las variables iniciales sobre un plano de dos dimensiones constituido por los dos primeros factores. Cuando dos variables están lejos del centro del gráfico, entonces si están:
cercas unas de las otras, entonces están significativamente positivamente correlacionadas (r cerca de 1),
ortogonales unas de las otras, entonces están significativamente no- correlacionadas (r cerca de 0),
simétricamente opuestas con respecto al centro, entonces están significativamente negativamente correlacionadas (r cerca de -1).
Cuando las variables están relativamente cercas del centro del gráfico, entonces cualquiera interpretación es arriesgada, y es necesario referirse a la matriz de correlaciones o a otros planos factoriales para interpretar los resultados. En nuestro ejemplo, podríamos deducir del gráfico a continuación que las variables inmigración domestica, e inmigración Internacional son correlacionadas, cuando no lo son, lo que podemos ver en la matriz de las correlaciones o en el circulo de las correlaciones en los ejes F1 y F3. En cambio, vemos bien la fuerte correlación entre el índice de mortalidad y el índice de personas cuya edad es superior a 65 años.

El circulo de las correlaciones es también útil para interpretar la significación de los ejes. En nuestro caso, el eje F1 es claramente vinculado a la edad de la población y a su reemplazo, cuando el eje F2 es esencialmente vinculado a la inmigración doméstica. Estas tendencias son particularmente interesantes a sacar para la interpretación del gráfico de los individuos (ver a continuación). Para confirmar el hecho que una variable es fuertemente vinculada a un factor, debe consultar la tabla de los coseno : mientras más elevado es el coseno (en valor absoluto), más vinculada está la variable al eje. Mientras más cerca está el coseno de cero, menos vinculada está la variable al eje. En nuestro caso, vemos que en lo que se refiere a la inmigración internacional será mejor interpretada en los ejes F2/F3.

El gráfico a continuación corresponde a uno de los objetivos del ACP. Permite representar los individuos en una carta de dos dimensiones, y así identificar tendencias. Vemos en nuestro ejemplo que sobre la base de variables demográficas que disponemos, el Nevada y la Florida son bastante particulares, así como el Utah y Alaska que parecen compartir características : mirando los datos, percibimos que estos dos Etats tienen una población claramente más joven que la media, y una natalidad muy elevada.

Hage clic
para ver una visualización en 3 dimensiones creada con XLSTAT-Miner3D sobre lors tres primeros ejes.
El Análisis de Componentes Principales es a menudo utilizado ante una regresión ya que permite evitar el uso de variables redundantes, o ante una clasificación ya que permite identificar la estructura de la población y eventualmente determinar el número de grupos a construir. Los datos utilizados en este tutorial son también utilizados en el tutorial de la Clasificación Ascendente Jerárquica. Teniendo en cuenta los comentarios hecho más arriba, la variable "pop >65" fue suprimida con el fin de no incluir el peso de las variables vinculadas a la edad lo que seria demasiado importante para el reagrupamiento de los Estados.
Haga clic aquí para acceder a otros tutoriales.