Modèle de type ARIMA

Les modèles ARIMA décrivent des phénomènes qui évoluent dans le temps, prédisent des valeurs futures et signifient AutoRegressive Integrated Moving Average (en français Moyenne Mobile AutoRégressive Intégrée). Vous pouvez les lancer dans Excel via le logiciel XLSTAT.

Les modèles de la famille ARIMA permettent de représenter sous une forme succincte certains phénomènes variant avec le temps, et de faire des prévisions pour les valeurs futures du phénomène, avec un intervalle de confiance autour des prévisions. L'acronyme signifie AutoRegressive Integrated Moving Average, ou en français Moyenne Mobile AutoRégressive Intégrée.

XLSTAT propose une sélection importante de modèles ARIMA tels que l'ARMA (Moyenne Mobile AutoRégressive), ARIMA (Moyenne Mobile AutoRégressive Intégrée) or SARIMA (Moyenne Mobile AutoRégressive Intégrée Saisonnière). Ainsi, vous pouvez facilement lancer un modèle ARIMA pour réaliser des prédictions sans python ou R. Ces modèles peuvent être utilisés en machine learning dans le domaine de la finance afin de prédire l'évolution du cours des actions, mais aussi en météorologie afin de prédire les températures.

Comment marche le modèle ARIMA?

Les modèles de type ARIMA permettent de représenter de façon synthétique des phénomènes variant avec le temps, et de prédire des valeurs futures avec un intervalle de confiance autour des prédictions. Ils sont adaptés spécifiquement pour des données de séries temporelles plus qu'un modèle de régression linéaire classique.

L'écriture mathématique des modèles ARIMA varie d'un auteur à l'autre, ceci impliquant notamment des différences pour les signes des coefficients. La notation utilisée dans XLSTAT correspond à celle de la plupart des logiciels.

Soit Xt une série chronologique de moyenne µ. Si la série suit un modèle ARIMA(p,d,q)(P,D,Q)s, alors on peut écrire :

[ Yt = (1 – B)d (1 – Bs)D Xt - µ ; Φ(B)Ø(Bs))Yt = θ(B) Θ(Bs) Zt, Zt∞N(0,σ2) ]

avec

[ φ(z) = 1 – Σpi=1 φi zi, Ø(z)= 1 – Σpi=1 Øi zi ; θ(z) = 1 + Σqi=1 θi zi, Θ(z) = 1 + Σqi=1 Θi zi ]

p est l'ordre de la partie autorégressive du modèle.
q est l'ordre de la partie moyenne mobile du modèle.
d est l'ordre de différenciation du modèle.
D est l'ordre de différenciation du modèle pour la partie saisonnière.
s est la période du modèle (par exemple 12 si les données sont mensuelles et que l'on a repéré une cyclicité à l'échelle de l'année.
P est l'ordre de la partie autorégressive saisonnière du modèle.
Q est l'ordre de la partie moyenne mobile saisonnière du modèle.

Remarque 1 : le processus Yt est causal si et seulement si pour tout z tel que |z|≤1, φ(z)≠0 et θ(z)≠0. Remarque 2 : si D=0, on se trouve dans le cas d'un modèle ARIMA(p,d,q). Dans ce cas, P, Q et s sont considérés comme étant nuls. Remarque 3 : si d=0 et D=0, on se trouve dans le cas d'un modèle ARMA(p,q). Dans ce cas, nous pouvons conclure que le modèle est stationnaire. Remarque 4 : si d=0, D=0 et q=0, on se trouve dans le cas d'un modèle AR(p). Remarque 5 : si d=0, D=0 et p=0, on se trouve dans le cas d'un modèle MA(q).

Si les coefficients des polynômes φ, Ø, θ, Θ sont inconnus, une fois les paramètres (p,d,q), (P,D,Q) et s saisis, XLSTAT-Time permet d'estimer les coefficients des polynômes, puis de calculer différentes statistiques d'ajustement, et si l'utilisateur le souhaite, de calculer des prévisions de valeurs futures.

Si les coefficients des polynômes φ, Ø, θ, Θ sont connus, l'utilisateur peut les saisir. XLSTAT calcule ensuite différentes statistiques d'ajustement, et si l'utilisateur le demande, des prévisions de valeurs futures.

Dans le cas où D = 0, il est possible d'effectuer une estimation préliminaire des coefficients des polynômes φ et θ en utilisant la méthode proposée :

Si q = 0, deux méthodes d'estimation préliminaire sont proposées. La première utilise l'algorithme de Yule-Walker, le seconde celui de Burg.
Si p = 0, la méthode utilisée est l'algorithme des innovations.
Si p ≠ 0 et q ≠ 0, la méthode utilisée est l'algorithme de Hannan-Rissanen.

Dans le cas où D ≠ 0, XLSTAT-Time effectue lui-même la recherche d'un point de départ raisonnable.

Variables explicatives dans le modèle ARIMA

XLSTAT permet d'inclure des variables explicatives dans le modèle ARIMA. Trois approches sont possibles:

OLS : un modèle de régression linéaire classique est ajusté aux données puis les résidus sont modélisés au travers d'un modèle (S)ARIMA.
CO-LS : si d ou D et s ne sont pas nuls, les données (y compris les variables explicatives) sont différenciées, puis un modèle ARMA est ajusté en même temps que les coefficients du modèle linéaire sont ajustés suivant la procédure de Cochrane et Orcutt (1949).
GLS : Un modèle de régression linéaire classique est ajusté, puis les résidus sont modélisés au travers d'un modèle (S)ARIMA, puis on revient à l'étape de régression en modifiant les coefficients du modèle linéaire avec un algorithme de Newton Raphson dans le but d'améliorer la vraisemblance.

Remarque : si aucune différenciation n'intervient dans le modèle (d=0 et D=0), et s'il n'y a pas de variable explicative dans le modèle, la constante du modèle est estimée avec l'approche CO-LS.

Résultats pour les modèles ARIMA dans XLSTAT

Voyons comment interpréter les résultats d'un modèle ARIMA dans XLSTAT.

Statistiques descriptives :
- Ce tableau représente, pour les valeurs sélectionnées, le nombre d'observations, le nombre de valeurs manquantes, le nombre de valeurs non-manquantes, la moyenne et l'écart-type (non corrigé).
- Si une estimation préliminaire et une optimisation ont été réalisées, les résultats pour l'estimation préliminaire sont d'abord affichés, suivis de ceux de l'optimisation. Si les coefficients initiaux ont été précisés, les résultats correspondant à ces coefficients sont représentés en premier lieu.
Coefficients d'ajustement :
- Observations : le nombre de données utilisées pour l'ajustement.
- SCE : la somme des carrés des résidus.
- Variance du bruit blanc : cette statistique est égale à SCE divisé par N. Dans certains logiciels cette statistique est désignée par sigma2.
- Variance du bruit blanc (estimée) : cette statistique est en principe égale à la précédente. Dans le cas des algorithmes de Yule-Walker et de Burg, une estimation légèrement différente est fournie.
- -2Log(Vrais.) : ce critère est minimisé dans le cas d'une optimisation basée sur le maximum de vraisemblance. Elle vaut l'opposé de deux fois le logarithme népérien de la vraisemblance.
- FPE : ce critère est dû à Akaike (Final Prediction Error). Ce critère est adapté pour les modèles autorégressifs.
- AIC : ce critère est dû à Akaike (Akaike Information Criterion).
- AICC : ce critère est dû à Brockwell (Akaike Information Criterion Corrected).
- SBC : ce critère est dû à Schwarz (Schwarz's Bayesian Criterion).
Paramètres du modèle : Le premier tableau de paramètres correspond aux coefficients du modèle linéaire. Si aucune variable explicative n'a été introduite du modèle, seules les informations concernant la constante sont affichées. Le second tableau donne l'estimateur de chaque coefficient de chaque polynôme, ainsi que l'écart-type obtenu soit directement par la méthode d'estimation (estimation préliminaire) soit à partir de la matrice d'information de Fisher à l'issue de l'optimisation (désignée par Hess., pour Hessienne). Les écarts-types asymptotiques sont aussi calculés. Pour chaque coefficient et chaque écart-type est fourni un intervalle de confiance. Les coefficients sont identifiés de la manière suivante :
- AR(i) : coefficient correspondant au coefficient d'ordre i du polynôme f(z).
- SAR(i) : coefficient correspondant au coefficient d'ordre i du polynôme F(z).
- MA(i) : coefficient correspondant au coefficient d'ordre i du polynôme q(z).
- SMA(i) : coefficient correspondant au coefficient d'ordre i du polynôme Q(z).
Prédictions et résidus : dans ce tableau sont affichés la série de départ, les prédictions calculées à partir du modèle ARIMA, et les résidus correspondants. Si l'utilisateur l'a demandé, des prédictions pour les données de validation et pour les valeurs futures sont calculées, ainsi que les écarts-types et les intervalles de confiance correspondants.
Graphiques : deux graphiques sont affichés. Le premier graphique permet de visualiser les données, les valeurs calculées à partir du modèle, les prévisions de validation et des valeurs futures, de même que les intervalles de confiance. Le second graphique permet de visualiser les résidus du modèle.