¿Cómo hacer una clasificación con el método k-means?
Una hoja Excel que contiene a la vez los datos y los resultados puede ser descargado haciendo clic aquà. Los datos proceden del US Census Bureau (se puede obtener el archivo de origen en la página web http://eire.census.gov/popest/states_dataset.csv). Corresponden a la medición de parámetros demográficos en 51 Estados de los Estados Unidos en 2000 y 2001. En el marco de este tutorial, solos los datos del año 2001 fueron conservados, y con el fin de suprimir los efectos de escala, las variables iniciales fueron convertidas en àndices por 1000 habitantes. El objetivo aquà es crear grupos homogéneos de Estados. Estos datos también son utilizados para el tutorial del Análisis de Componentes Principales (ACP) y en el tutorial sobre la Clasificación Ascendente Jerárquica (CAJ).
Nota : si pretende hacer el análisis presentado a continuación con los mismos datos, es seguramente posible que Ud. no obtendrá los mismos resultados. En efecto, el método de las nubes dinámicas implica un sorteo aleatorio.
Una vez que XLSTAT-Pro es activado, haga clic en el menú XLSTAT/Análisis de datos/Nubes dinámicas, o haga clic en el botón correspondiente de la barra "análisis de datos" (ver a continuación).

Una vez el botón presionado, aparece el cuadro de diálogo que corresponde a las nubes dinámicas. Puede entonces seleccionar los datos en la hoja Excel. Existen varias maneras de seleccionar los datos en el cuadro de diálogo XLSTAT (ver el tutorial sobre este tema). En el ejemplo estudiado aquà, los datos empiezan desde la primera fila; entonces es más rápido elegir el modo de selección por columnas. Por esta razón, en el cuadro de diálogo a continuación las selecciones aparecen en forma de columnas.
La variable "Población total" no fue seleccionada ya que solos los aspectos dinámicos de la población nos interesa aquà. La última columna no fue seleccionada tampoco, ya que hemos visto con el Análisis de Componentes Principales que las dos últimas columnas están perfectamente correladas. La opción "Etiquetas de las columnas" se deja activada, ya que la primera fila de datos incluye el nombre de las variables, y las etiquetas de las observaciones están seleccionadas. El número de grupos a crear está fijado a 4.
La opción "Estandarizar" está activada de manera a evitar que la escala de las variables no influye sobre los resultados. Las opciones avanzadas (activadas haciendo clic en el botón "Más" que se convierte luego "Menos") son solicitadas. El número de repeticiones y el número máximo de iteraciones están fijados a 100 con el fin de aumentar la calidad y la estabilidad de los resultados.

Los cálculos empiezan cuando haga clic en el botón "OK". Si Usted ha elegido en el panel de las opciones de XLSTAT la opción " Introducción asistida ", XLSTAT le pide confirmar el número de filas y columnas.
El primer resultado visualizado es el cuadro de las inercias para la mayor solución entre las repeticiones. La mayor solución es la que maximiza la inercia inter-grupos (o que minimiza la inercia intra-grupos: en efecto, tenemos [ Inercia Total = Inercia Inter-grupos + Inercia Intra-grupos). La inercia es proporcional a la varianza de la población (basta con dividir la inercia por el tamaño de la población para obtener la varianza da la población).

Un cuadro presenta luego para cada Estado, el indicador del grupo al cual ha sido asignado. Una parte del cuadro está presentada a continuación. Este cuadro presenta también los grupos estables que muestran asà los Estados que están asignados a menudo a los mismos grupos en el conjunto de las repeticiones. Podrán después fusionar las informaciones sobre los grupos con el cuadro inicial para eventuales análisis complementarios (un análisis discriminante por ejemplo).

El cuadro visualiza para cada grupo las observaciones que le fueron asignadas.

Si se compara estos resultados con los del tutorial sobre la Clasificación Ascendente Jerárquica, se nota que los dos métodos dan resultados diferentes, aunque para la mayoràa de los Estados, el grupo de asignación es el mismo (para comparar se utiliza el tamaño de los grupos). Por ejemplo, en el grupo que incluye 31 estados en los dos casos, 25 estados son idénticos entre los dos métodos.
El cuadro a continuación corresponde a los centroides de los grupos. Para cada grupo las observaciones más cerca del centroide son identificadas.

Por último, aparece una sàntesis para las 10 mejores repeticiones. Se puede ver que el algoritmo converge muy rápidamente para cada repetición. Notaremos la evolución de la inercia intra-grupos de la primera a la última iteración.
Haga clic aquí para acceder a otros tutoriales.