Test des séquences pour un échantillon

Principe du test des séquences pour un échantillon

Le test des séquences pour un échantillon permet de tester si une série d'événements binaires peut être considérée comme distribuée aléatoirement ou non.

Définition du test des séquences pour un échantillon

On définit par séquence une série d'événements identiques, précédés ou suivis par aucun événement ou des événements différents. Le test proposé par XLSTAT ne s'applique qu'à des événements binaires. Par exemple, pour ABBABBB, nous avons 4 séquences (A, BB, A, BBB).

XLSTAT accepte comme données d'entrée des données continues (binaires ou non) et des données catégorielles binaires. Pour les données continues, un point de séparation doit être choisi, afin que les données puissant être transformées en données binaires.

Un échantillon sera considéré comme aléatoirement distribué si aucune structure particulière ne peut être identifiée. Les cas extrêmes sont la répulsion (les deux événements sont à l'opposée dans la série), et l'intrication (les événements sont aussi alternés que possible). Avec l'exemple cité précédemment pour le cas de répulsion il y a "AABBBBB" ou "BBBBBAA", et pour l'intrication "BABABBB" ou "BABBABB" ou "BBABABB" ou "BBABBAB" ou encore "BBBABAB".

Dans le cas d'un test bilatéral, les hypothèses nulle (H0) et alternative (Ha) sont les suivantes :

  • H0 : Les données sont distribuées au hasard.
  • Ha : Les données ne sont pas distribuées au hasard.

Dans le cas unilatéral, il faut distinguer le test unilatéral à gauche et le test unilatéral à droite. Dans le test unilatéral à gauche, les hypothèses sont les suivantes :

  • H0 : Les données sont distribuées au hasard.
  • Ha : Il y a répulsion entre les deux types d'événements

Dans le test unilatéral à droite, les hypothèses sont les suivantes :

  • H0 : Les données sont distribuées au hasard.
  • Ha : Il y a intrication entre les deux types d'événements.

L'espérance du nombre de séquences R est:

E(R) = 2mn / N

où m correspond au nombre d'événements du premier type, n au nombre d'événements du second type, and N est la somme de m et n. La variance du nombre de séquences R est définie par :

V(R) = 2mn(2mn – N) / [N²(N-1)]

La valeur minimale possible de R est toujours 2. La valeur maximale est donnée par 2Min(m, n) - t, où t est 1 si n=m, et 0 sinon.

Si r est le nombre de séquences observe sur l'échantillon, il a été montré par Wald et Wolfowitz qu'asymptotiquement, lorsque m ou n tendent vers l'infinie, on a

(r - E(R)) / √V(R) --> N(0,1)

où N(0,1) est la loi normale centrée réduite.

Options pour le calcul de la p-value du test des séquences pour un échantillo

XLSTAT offre trois possibilités pour le calcul des p-value. Vous pouvez calculer la p-value à partir :

  • de la distribution exacte de R,
  • de la distribution asymptotique de R,
  • d'une distribution approchée, calculée à partir de P permutations Monte Carlo. Comme le nombre de permutations possibles est égal à N!, P doit être fixé à une valeur élevée pour que l'approximation soit correcte.