¿Cómo realizar una regresión logística con XLSTAT?
La regresión logística, y los métodos asociados como el análisis Probit, son muy útiles cuando queremos comprender o prever el efecto de una o varias variables sobre una variable con respuesta binaria, es decir, que puede admitir únicamente dos valores, por ejemplo 0/1 o Sí/No. Una regresión logística será muy útil para modelizar el efecto de dosis de medicamento en la medicina, de dosis de componentes químicos en la agricultura, o para calcular la propensión de clientes a responder a un mailing, o para medir el riesgo para que un cliente no reembolsar su préstamo en un banco.
Con XLSTAT es posible efectuar una regresión logística directamente con los datos brutos (la respuesta es 0 o 1) o con datos agregados (la respuesta es una suma de éxito - de 1 por ejemplo - y en este caso el número de repeticiones también debe ser disponible).

Ejemplo de datos brutos - (efecto de la temperatura sobre la resistencia de un chip electrónico)

Ejemplo de datos agregados - (efecto de un insecticida sobre una especie de insecto)
Addinsoft a desarrollado un módulo específico para el análisis de los efectos de dosis. XLSTAT-Dose and puede ser pedido por separado.
La regresión logística permite modelizar la probabilidad para que un evento suceda, dado los valores de un conjunto de variables descriptivas cuantitativas y/o cualitativas. El ejemplo que aplicaremos a continuación corresponde a un caso de marketing en el cual buscamos a prever la probabilidad para que un cliente renove su suscripción a un servicio de información en línea. Un archivo Excel que incluye a la vez los datos y los resultados puede ser descargado haciendo clic aquí.
Los datos corresponden a una muestra de 60 "lectores", con la categoría de edad, la media de páginas vistas por semana en las 10 últimas semanas, y el número de páginas vistas durante la última semana. Fue propuesto a estos lectores de renovar su suscripción que debe expirar dentro de dos semanas. El objetivo es de comprender porque algunos han suscrito de nuevo y otros no.
El objetivo es usar la regresión logística para explicar los resultados obtenidos y luego para aplicar el modelo en el conjunto de la populación con el fin de identificar las personas que no renovarían su suscripción. Con esta información, podremos proponerles una promoción o servicios suplementarios con el fin de estimular su interés por la oferta.
Para activar el cuadro de diálogo de la regresión logística, inicie XLSTAT, luego elija XLSTAT/Modelización de los datos/modelos para respuestas binarias, o haga clic en el botón correspondiente de la barra de herramientas "Modelización de los datos" (ver a continuación).

Una vez que haya pulsado el botón, el cuadro de diálogo aparece. Elija los datos en la hoja Excel. La "Respuesta" corresponde a la columna en la cual se encuentra la variable binaria o cuantitativa (resultando entonces e una suma de binarios - en este caso la columna de los "Pesos" debe, luego, ser seleccionada). En nuestro caso, hay tres variables explicativas, una cualitativa - la clase de edad - y dos cuantitativas que corresponden al conteo de las páginas vistas. Como hemos seleccionado las referencias de las variables, debemos seleccionar la opción "Referencias presentes".

Una vez que haya pulsado el botón "OK", los cálculos son efectuados, y luego los resultados visualizados. El cuadro siguiente presenta los primeros detalles sobre el modelo y es útil para evaluar la contribución de las variables a la calidad del modelo.

Con utilizar este cuadro, observamos según la probabilidad asociada a las Pruebas del Chi2, que la variable que influye más la renovación es el número de páginas vistas en la semana anterior. La constante tiene también un papel significativo, así como la pertenencia a la clase de edad 40-49 cuyo papel es fuertemente negativo. Este último punto deberá ser ampliado por los responsables marketing y editoriales, con el fin de estudiar el porqué de esta situación.
El siguiente cuadro proporciona varios indicadores de la calidad del modelo (o calidad del ajuste). Estos resultados son semejantes al R2 y al cuadro de análisis de la varianza de la regresión lineal y del Anova. El valor más importante es el Chi2 asociado al Log ratio (L.R.). Es el equivalente de la prueba F de Fisher del modelo lineal: intentamos de evaluar si las variables proporcionan una cantidad de información significativa para explicar la variabilidad de la variable binaria. En nuestro caso, como la probabilidad es inferior a 0.0001, se puede deducir que las variables proporcionan una cantidad significativa de información.

La última etapa reside en la aplicación del modelo sobre el conjunto de la populación. En nuestro caso el modelo se escribe:
Y = Exp( L(x) ) / [ 1 + Exp( L(x) ], whereL(x) = -2.3567 + 0.0235.AvPage/Week + 0.0893.Page/Week + Factor donde Factor adquiere el valor del parámetro correspondiente a la clase de edad a la cual pertenece el cliente.
Cuando el modelo fue aplicado a los 600 clientes que debían renovar su suscripción, fue apreciado que solamente 40% eran capaz de suscribirse de nuevo. Gracias a una serie de acciones de marketing, el porcentaje finalmente obtenido fue de 85%, lo que constituye un excelente resultado.
Haga clic aquí para acceder a otros tutoriales.