Calculating the required sample size or statistical power in a multiple regression with XLSTAT-Power

Conjunto de datos para Regresión lineal XLS23.0 KB

Vídeo de tutorial
  • Power Software para el cálculo de la potencia estadística

  • Configuración del sistema

    • Windows:
      • Versiones: 9x/Me/NT/2000/XP/Vista/Win 7
      • Excel: 97 o superior
      • Procesador: 32 o 64 bits
      • Disco duro: 150 Mb
    • Mac OS X:
      • OS: OS X
      • Excel: X, 2004 y 2011
      • Disco duro: 150 Mb

Ventajas

  • Sencillo y dirigido a los usuarios
    Sencillo y dirigido a los usuarios XLSTAT es un software que se integra de forma transparente con Microsoft Excel, que es la hoja de cálculo más difundida del mundo. Esta integración hace que sea una de las herramientas más sencillas para trabajar ya que utiliza la misma filosofía que Microsoft Excel. El programa está disponible en una ficha de XLSTAT. Los análisis se agrupan en menús funcionales. Los cuadros de diálogo están dirigidos a los usuarios, por lo que la preparación de los análisis es tarea sencilla.
  • Resultados y datos compartidos sin dificultad
    Resultados y datos compartidos sin dificultad Una de las mayores ventajas de XLSTAT es la forma transparente con la que se pueden compartir los datos y los resultados. Los resultados se almacenan en Microsoft Excel de modo que cualquier usuario puede acceder a ellos. No es necesario que el destinatario tenga una licencia de XLSTAT o cualquier visor adicional, lo que facilita y rentabiliza el trabajo en equipo. Del mismo modo, es fácil integrar los resultados en otras aplicaciones de Microsoft Office, como PowerPoint, por lo que se pueden crear estupendas presentaciones en cuestión de minutos.
  • Modular
    Modular XLSTAT es un producto modular. XLSTAT-Pro es un módulo principal de estadística de XLSTAT, que incluye todas las funcionalidades dominantes en el análisis estadístico y multivariado. Es posible añadir funciones más avanzadas por medio de módulos complementarios para aplicaciones específicas. De este modo es posible adaptar el software a sus necesidades, aumentando la rentabilidad.
  • Didáctico
    Didáctico Los resultados de XLSTAT están organizados por análisis y es fácil desplazarse por ellos. La información útil se proporciona junto con los resultados para ayudarle en su interpretación.
  • Asequible
    Asequible XLSTAT es una solución completa y modular que se puede ajustar a cualquier necesidad de análisis comercial. Tiene un precio muy razonable, por lo que el retorno de su inversión es casi inmediato. Todas las licencias de XLSTAT incluyen también un servicio de asistencia de la mayor calidad.
  • Accesible: disponible en muchos idiomas
    Accesible: disponible en muchos idiomas Nos hemos asegurado de que XLSTAT sea accesible para todos traduciendo el programa a muchos idiomas, incluyendo chino, inglés, alemán, italiano, japonés, polaco, portugués y español.
  • Automatizable y personalizable
    Automatizable y personalizable La mayoría de las funciones estadísticas disponibles en XLSTAT pueden llamarse directamente desde la ventana Visual Basic de Microsoft Excel. Pueden modificarse e integrarse en código fuente adicional para ajustarse a sus necesidades. Añadir tablas y trazados, así como modificar los resultados existentes se convierte en tarea sencilla. Además, XLSTAT incluye algunas herramientas especiales en los cuadros de diálogo para generar automáticamente el código fuente VBA para reproducir su análisis empleando el editor de VBA o simplemente cargar ajustes predeterminados. Esta automatización de análisis rutinarios sin esfuerzo le ahorrará gran cantidad de tiempo.

XLSTAT-Pro offers a tool to apply a linear regression model. XLSTAT-Power estimates the power or calculates the necessary number of observations associated with variations of R ² in the framework of a linear regression.

When testing a hypothesis using a statistical test, there are several decisions to take:

  • The null hypothesis H0 and the alternative hypothesis Ha.
  • The statistical test to use.
  • The type I error also known as alpha. It occurs when one rejects the null hypothesis when it is true. It is set a priori for each test and is 5%.

The type II error or beta is less studied but is of great importance. In fact, it represents the probability that one does not reject the null hypothesis when it is false. We can not fix it upfront, but based on other parameters of the model we can try to minimize it. The power of a test is calculated as 1-beta and represents the probability that we reject the null hypothesis when it is false. We therefore wish to maximize the power of the test. The XLSTAT-Power module calculates the power (and beta) when other parameters are known. For a given power, it also allows to calculate the sample size that is necessary to reach that power.

The statistical power calculations are usually done before the experiment is conducted. The main application of power calculations is to estimate the number of observations necessary to properly conduct an experiment.

In a future study, we wish to study the weights of children according to size and age of children (as in the following tutorial on Multiple Linear Regression).

We want to know if the R² of this model is significantly different from 0. There will be two independent variables or predictors and we would like to know how many children should be interviewed to obtain a power of 0.9. Since we do not yet know the parameters of our samples, we will use the concept of effect size. Cohen (1988) introduced this concept which provides an order of magnitude for the effect size. So we will test three effect sizes: 0.02 for a small effect, 0.15 for a moderate effect and 0.35 for a strong effect. It is expected that the larger the effect size is, the smaller the sample size required will be.

Dataset for calculating the required sample size or statistical power in a multiple regression

An Excel spreadsheet containing the results of this example can be downloaded by clicking here.

Setting up of the calculation of the required sample size or statistical power in a multiple regression

After opening XLSTAT, click the Power icon and choose linear regression.

pwrreg1.gif

Once the button is clicked, the dialog box appears. You must then choose the objective Find the sample size.

Then select the test R² different from 0. The alpha is 0.05.

The desired power is 0.9.

The number of predictors or explanatory variables is 2. Rather than detailed input parameters, we select the effect size option and enter the value 0.02 for a weak effect.

pwrreg2.gif

In the Charts tab, the option simulation plot is activated and the "size of sample 1" will be displayed on the vertical axis and the "power" on the horizontal axis.

Power varies between 0.8 and 0.95 by increments of 0.01.

pwrreg3.gif

Once you have clicked the OK button, the calculations are made, and then the results are displayed.

Resulst of the calculations of the required sample size or statistical power in a multiple regression

The first table shows the parameters used as input. In our case, only the number of predictors is displayed.

pwrreg4.gif

The second table shows the calculation results and an interpretation of the results.

pwrreg5.gif

We see it takes 636 observations to obtain a power as close as possible to 0.9.

The following table summarizes the calculations obtained for each value of power between 0.8 and 0.95.

pwrreg6.gif

The simulation plot shows the evolution of the sample size depending on the power. We see that for a power of 0.8, just a little more than 485 observations and that a power for a power of 0.95, 775 observations are needed.

pwrreg7.gif

For effect sizes of 0.15 and 0.35, we obtain the following results:

pwrreg8.gifpwrreg9.gif

The sample size will therefore fall as the R² moves away from 0 and we see that for a large difference, 39 observations will be sufficient.

So if we assume that the quality of explanation of the variables age and weight is strong (R ² close to 1) on the size of a child, 39 observations will be sufficient to obtain a power of 0.9.

XLSTAT-Power is a powerful tool both to investigate the sample size required for an analysis and to calculate the power of a test. Obviously, if the user has more information about the samples or populations, he may give details of the input parameters, rather than using the effect size.