Régression paramétrique sur données de survie - Modèle de Weibull

Principe du modèle de Weibull (régression paramétrique sur données de survie)

Le modèle de Weibull est une méthode très utilisée dans le cadre de l'analyse des données de survie. Celui-ci permet de modéliser des temps de survie avec des données censurées lorsqu'on suppose qu'il existe une distribution de probabilité sous-jacente (en général la distribution de Weibull). Il est très utilisé dans le domaine médical (temps de survie ou de guérison d'un patient).

Le principe du modèle de Weibull est de relier la date d'arrivée d'un évènement à des variables explicatives et à une distribution de probabilité. Par exemple, dans le domaine médical, on cherche à évaluer l'impact d'un prétraitement sur le temps de guérison d'un patient.

Modèles de Weibull

Le modèle de survie paramétrique se rapproche des modèles de régression classique dans le sens où l'on tente de relier un événement (modélisé par une date) à un certain nombre de variables explicatives.

Le modèle de survie paramétrique est un modèle paramétrique, il est basé sur l'hypothèse que les temps de survie suivent une distribution fixée a priori. On suppose donc une structure pour la fonction de risque qui est associée à la distribution choisie.

Le modèle de survie paramétrique s'applique à toute situation où l'on étudie le délai de survenance d'un événement. Cet événement peut être la récidive d'une maladie, la réponse à un traitement, le décès, etc. Pour chaque sujet, on connaît la date des dernières nouvelles et l'état par rapport à l'événement étudié.

La variable considérée T est le temps écoulé jusqu'à la survenance de l'événement étudié. Le modèle de survie paramétrique permet d'exprimer le risque de survenance de l'événement en fonction de l'instant t et des variables explicatives Xj. Ces variables peuvent représenter des facteurs de risque, des facteurs pronostiques, des traitements, des caractéristiques intrinsèques au sujet, etc.

La fonction de survie, notée S(t), est définie en fonction de la distribution choisie. XLSTAT-Life propose différentes distributions, parmi lesquelles, la distribution exponentielle (son taux de survie est constant, h(t)=l), la distribution de Weibull (qui est souvent appelée modèle de Weibull), les distributions des valeurs extrêmes…

L'estimation de ce type de modèles se fait par la méthode du maximum de vraisemblance. On utilise généralement comme variable à expliquer Y=log(T) (c'est le cas des modèles exponentiels et de Weibull).

Contrairement à la régression linéaire, une solution analytique exacte n'existe pas. Il est donc nécessaire d'utiliser un algorithme itératif. XLSTAT utilise un algorithme de Newton-Raphson. L'utilisateur peut modifier s'il le souhaite le nombre maximum d'itérations et le seuil de convergence.

L'interprétation des résultats se fait à la fois en étudiant les graphiques associés aux fonctions de survie cumulée et en étudiant les tableaux des coefficients et des indices de qualité d'ajustement.

Résultats pour le modèle de Weibull dans XLSTAT

XLSTAT propose en autre les résultats suivant pour le modèle de Weibull :

  • Coefficients d'ajustement : dans ce tableau est affichée une série de statistiques pour le modèle indépendant (correspondant au cas où il n'y aurait aucune variables dans le modèle) et pour le modèle ajusté.
    • Observations : le nombre total d'observations prises en compte ;
    • DDL : degrés de liberté ;
    • -2 Log(Vrais.) : le logarithme de la fonction de vraisemblance associée au modèle ;
    • AIC : le critère d'information d'Akaike (Akaike's Information Criterion) ;
    • SBC : le critère bayésien de Schwarz (Schwarz's Bayesian Criterion) ;
    • Itérations : nombre d'itérations nécessaires à la convergence de l'algorithme.
  • Test de l'hypothèse nulle H0 : beta=0 : l'hypothèse H0 correspond au modèle indépendant (sans variables explicatives) ; on cherche à vérifier si le modèle ajusté est significativement plus performant que ce modèle. Trois tests sont proposés : le test du rapport des vraisemblance (-2 Log(Vrais.)), le test du Score, et le test de Wald. Les trois statistiques suivent une loi du Khi² dont les degrés de liberté sont indiqués.
  • Paramètres du modèle : pour chaque variable sont affichés l'estimation du paramètre, l'écart-type correspondant, le Khi² de Wald, la p-value correspondante. Par ailleurs, le rapport de risque (exponentielle du coefficient) est donné ainsi qu'un intervalle de confiance associé.
  • Les résidus sont donnés pour chaque observation.
  • Des courbes de survie sont aussi obtenues. Les distributions empiriques et théoriques y sont affichées.
  • Finalement, des quantiles associés à chaque observation sont aussi obtenus.