ARIMA

ARIMAモデルは,時間の経過とともに推移する現象を記述し,未来の値を予測す 自己回帰和分移動平均(AutoRegressive Integrated Moving Average)の略である.XLSTATアドオン・ソフトウェアを用いてExcelないで実行する.

arima-log-plot.png

XLSTAT は,ARMA (Autoregressive Moving Average:自己回帰移動平均),ARIMA (Autoregressive Integrated Moving Average:自己回帰和分移動平均),SARIMA (Seasonal Autoregressive Integrated Moving Average:季節性自己回帰和分移動平均)モデルなどの幅広いARIMAモデルを提供する.このように,PythonやRを使用せずに時系列予測用のARIMAを簡単に実行できる.これらのモデルは,金融などのさまざまな分野の応用機械学習で株価の変化を予測するために使用でき,気象学でも温度を予測するために使用できる.

ARIMAはどのように動作するか?

ARIMA ファミリのモデルは,時間で変化する現象を合成的方法で表現し,予測値の信頼区間とともに未来の値を予測することを可能にする.これらは,古典的な線形回帰モデルよりも時系列データにとくに適合する.

ARIMA モデルの数学的記述は,著者によって異なっている.ほとんどの場合,その違いは,係数の符号に関係している.XLSTAT は,多くのソフトウェアで使用されている最もよくある記述を用いる.Xt を平均 µを持つ系列と定義し,系列がARIMA(p,d,q)(P,D,Q)sモデルに従うと仮定するなら,次式が書ける:

[ Yt = (1 – B)d (1 – Bs)D Xt - µ ; Φ(B)Ø(Bs))Yt = θ(B) Θ(Bs) Zt, Zt∞N(0,σ2) ]

ただし

[ Φ(z) = 1 – Σpi=1 Φi zi, Ø(z)= 1 – Σpi=1 Øi zi ; θ(z) = 1 + Σqi=1 θi zi, Θ(z) = 1 + Σqi=1 Θi zi ]

p は,モデルの自己回帰部の次数である.q は,モデルの移動平均部の次数である.d は,モデルの差分次数である.D は,モデルの季節性部の差分次数である.s は,モデルの周期である(たとえば,データが月次データで,データ中に年間の周期性が見つかる場合は12 となる).P は,モデルの自己回帰季節性分の次数である.Q は,モデルの移動平均季節性部の次数である.

  • 注記 1: Yt プロセスは,|z|≤1,f(z) ≠ 0 および q(z) ≠  0であるzの場合に限り因果である.
  • 注記2: D=0の場合,モデルはARIMA(p,d,q) モデルである.その場合,P,Q および s は空値とみなされる.
  • 注記3: d=0 で D=0の場合,モデルはARMA(p,q) モデルに単純化される.
  • 注記4: d=0,D=0 で q=0の場合,モデルはAR(p) モデルに単純化される.
  • 注記5: d=0,D=0 で p=0の場合,モデルはMA(q) モデルに単純化される.

説明変数

XLSTAT は,線形モデルによって説明変数を考慮に入れることができる.3種類のアプローチが可能である:

  1. OLS: 線形回帰モデルが,旧式の線形回帰アプローチを用いて適合され,残差が(S)ARIMA モデルを用いてモデルされる.
  2. CO-LS: d または D と s がゼロでないならば,データ(説明変数を含む)が差分され,線形モデル係数と同時に,Cochrane およびOrcutt (1949) のアプローチを用いて,対応するARMA モデルが適合される.
  3. GLS: 線形回帰モデルが適合され, (S)ARIMA モデルを用いて残差がモデルされ, Newton-Raphson アプローチを用いて回帰係数を変更することにより,モデルの尤度を改善するために,回帰のステップにループして戻る.

注意: 無差分(d=0 および D=0),がリクエストされ,モデル中に説明変数がない場合,モデルの定数は,CO-LSを用いて推定される.

XLSTATでのARIMA分析の結果

以下がARIMAモデルの結果を解釈する方法である.

要約統計: この表は,選択された変数について,オブザベーションの数,欠損値の数,非欠損値の数,平均および標準偏差(不偏)を表示する.

予備推定と最適化がリクエストされた場合は,予備推定の結果が先に表示されて,最適化後の結果がそれに続きます.初期係数が入力された場合,これらの係数に対応する結果がまず表示される.

適合度係数:

  • オブザベーション: モデルの適合に使用されたデータの数.
  • SSE: 誤差2乗和(Sum of Squares of Errors).この統計量は,最適化に"最小2乗" オプションが選択されると最小化される.
  • MAPE: 平均絶対パーセンテージ誤差(Mean Absolute Percentage Error)は,尺度効果を除去し,より大きな誤差に相対的にあまり罰則を課さずに,適合の品質を定量化する.
  • WN 分散: 白色ノイズ分散は,SSE をNで割ったものに等しい.一部のソフトウェアでは,この統計量をシグマ2 (シグマ2乗)と呼んでいる.
  • WN 分散推定: この統計量は,通常,上記に等しい.Yule-Walker または Burgのアルゴリズムを用いた予備推定の場合,わずかに異なる推定値が表示される.
  • -2Log(Like.): この統計量は,最適化で"尤度" オプションが選択されると最小化される.これは,尤度の自然対数の2倍に等しい.
  • FPE: 赤池の最終予測誤差.この基準は,自己回帰モデルに適応される.
  • AIC: 赤池情報量基準.
  • AICC: この基準はBrockwellによって提案された(赤池情報量基準の修正).
  • SBC: Schwarzのベイジアン基準.

モデル・パラメータ:

最初のパラメータの表は,データに適合された線形モデルの係数を示す(説明変数が選択されたなかった場合は定数).

次の表は,各多項式の各係数での推定,および推定手法(予備推定)またはFisher の情報行列(Hessian)のいずれかから直接得られる標準偏差を与える. 漸近的標準偏差も計算される.各係数および各標準偏差ごとに信頼区間が表示される.係数は,下記のように識別される:

  • AR(i): 多項式f(z)の次数i の係数に対応.
  • SAR(i): 多項式F(z)の次数iの係数に対応する係数.
  • MA(i): 多項式q(z) の次数i の係数に対応する係数.
  • SMA(i): 多項式Q(z) の次数i の係数に対応する係数.

データ,予測値,残差: この表は,データ,モデルを用いて計算された対応する予測値,および残差を表示す.ユーザーがこれをリクエストすれば,検証データで予測値が計算されて,将来の値で予測値が計算される.標準偏差と信頼区間が検証予測値と予測値で計算される. 

チャート: 2つのグラフが表示される.最初のグラフは,データ,モデルで予測された対応する値,および検証や予測タイム・ステップでの値に対応する予測値を表示す.2番目のグラフは,残差の棒グラフである.

事例

ARIMAモデルの適合の仕方,予測を行うためのモデルの使用法を説明するチュートリアルが,Addinsoftのウェブサイトにある: 

ternary diagramneural network diagram

Excelで動作する統計解析ソフトウェア。

14日間無償トライアルあり。