ANOVA (分散分析)

一要因または複数要因の釣り合い型または非釣り合い型のANOVA (分散分析)を実行するには,このモデルを使用する.XLSTATソフトウェアによりExcel内で利用可能.

Means chart.PNG

分散分析の原理

分散分析(ANOVA)は,特定の変数で観測された分散を複数の変動源に起因する成分に分解するために使用されるツールである.

分散分析(ANOVA)は,線形回帰と同じ概念的枠組みを使用する.主な違いは,説明変数の性質による: 量的ではなく,ここでは,質的である.ANOVAでは,説明変数はしばしば因子と呼ばれる.

ANOVAがデータに適しているかどうかわからない場合は,シチュエーションに合わせて正しいモデリング・ツールを選ぶために,こちらのガイドをチェックするとよい.

ANOVA モデル

pが因子の数であるとすると,ANOVA モデルは次式のように書ける:

yi = β0 + ∑j=1...q βk(i,j),j + εi

ここでyi は,オブザベーションiでの従属変数の観察された値,k(i,j) は,オブザベーションでの因子のカテゴリのインデックス,そしてεiは,モデルの誤差である.

下図は,1要因 ANOVAを用いて分析できるデータを示す.因子は3つのカテゴリを持つ.データはオレンジ色のポイントである.緑色の点線は総平均で,短い緑色の線はカテゴリ平均である.なお, sum(ai)=0 という制約を任意に用いているが,これはβが総平均に一致することを意味する. 

ANOVA で使用される仮説は,線形回帰で使用されるそれと同じである:誤差  εi が,同じ正規分布N(0,s)に従い,かつ独立である.提案されているさまざまな検定を線形回帰の結果で使用するために,基礎となる仮説が正しく検証されていることを,レトロスペクティブに(過去に遡って)確認することを推奨する. 残差の正規性は,いくつかのグラフを分析するか,正規性の検定を用いて確認できる.残差の独立性は,いくつかのグラフを分析するかDurbin-Watson 検定を用いて確認することができる.

XLSTATでのデータ選択

XLSTATで分析を実行するには,通常,単一の列に各変数を入力する必要がある.

ただし,XLSTATANOVAツールは,因子(説明変数)が3個までなら,2とおりの方法でデータを選択できる:

  • 各変数(従属および因子)に値の単一列 を選択する.
  • 行が1個の因子によりデータをカテゴライズし,列がその他の因子によりそれらをカテゴライズするグループ化されたデータ表 を選択する. 

XLSTATでのANOVAのオプション

  • XLSTAT は,1元配置および多元配置ANOVA (MANOVA)を実行できる.4次までの交互作用や入れ子効果,変量効果をモデルに含めることができる.
  • XLSTAT は,釣り合い型およびXLSTAT 非釣り合い型 ANOVAの両方を取り扱うことができる.
  • XLSTATには,入れ子因子を見つける自動機構があり,1個の入れ子因子をモデルに含めることができる.
  • 変量効果(Random 因子をANOVAに含めることができる.いくつかの因子が変量効果であると想定される場合,XLSTATEMS(期待平均2乗)の表を表示する.
  • 4つのモデル選択手法が提案されている: 最良モデル,ステップワイズ,フォワード,バックワード.
  • 検定の仮定Shapiro-Wilk 検定が残差に対して実行される. Levene's が等分散性の検定を実行するために利用可能である.検定は,因子ごとにさまざまなカテゴリの分散を比較するために実行される.

分散不均一性と自己相関の修正

XLSTATは,Newey and West (1987)で提案されている推定量などの複数の手法を用いて,発生し得る分散不均一性と自己相関を修正することができる.

誤差項の分散均一性 および独立性は,線形回帰およびANOVAでの重要な仮説であり,誤差項の分散が独立同一分布であり,かつ,正規分布することが仮定されている.これらの仮定が保持できない場合(時系列メニューにある Durbin Watson または White 検定がこれらの仮説に挑むことができる)結果として,古典的な式で共分散行列を推定できなくなり,線形モデルの係数に対応するパラメータの分散およびそれらの信頼区間を誤る可能性がある.予測変数が,事実に反して,有意である(または有意でない)とされるかもしれない.XLSTATは,とくに時系列において,発生し得る分散不均一性および自己相関を補正することができる.

分散不均一性に関するものについては,White (1980) に続いて複数の著者が,線形回帰の計算から得られる残差と中心化てこ比を用いて,共分散の古典的推定値を補正する方法を検討している(レビューとして MacKinnon (1985) and Zeileis (2006) を参照)

ANOVA後の多重比較検定

ANOVAの主要な応用の1つは多重比較検定で,その目的はある因子のさまざまなカテゴリのパラメータが有意に異なるか否かを確認することである.たとえば,植物に4つの処置が適用されるケースでは,処置が有意な効果を持つかどうかだけではなく,処置が異なる効果を持つかどうかを知りたい.

グループの平均を比較するために,多数の検定が提案されてきた.これらの検定の多くは,標本が正規分布していることを仮定している.  

    XLSTATでの分散分析の結果

    提供される結果は,残差分析,モデルのパラメータモデル式標準化係数Type I SS, Type III SS,で,予測値が表示される.

    さらに事後検定(post-hoc tests)とも呼ばれる複数の多重比較 法がオプションで実行できる Bonferroniおよび Dunn-Sidak修正 t 検定, TukeyHSD検定, FisherLSD 検定, Duncanの検定, Newman-Keuls' (SNK) 法および REGWQ法.Dunnettの検定もコントロールとの多重比較 (MCC) およびベストとの多重比較 (MCB)を実行するために利用可能である. Games-Howell (GH) 検定は,均一性を欠いた分散の場合の一元配置ANOVAで使用することができる.これは不等標本サイズでも使用できるが,最小の標本が5要素以上持つ場合に使用することが推奨され,そうでなければ,リベラル(奔放)すぎる.

    さらに,オブザベーションごとに影響度診断が表示され,残差,標準化残差,削除残差,標準化削除残差,3つのてこ比,マハラノビス距離,CookDCovRatio DFFit,標準化DFFitDFBetas (モデル係数ごとに1個)および標準化DFBetasが含まれる

    XLSTATでの分散分析で提供されるチャート類

    • 標準化係数チャート: 棒グラフが標準化係数の値と信頼区間を表示する.

    • 回帰チャートチャートが観察値,回帰線,予測値に関する2種類の信頼区間を示す.
    • モデル予測値の関数としての標準化残差: 原理的には,残差はX軸まわりでランダムに分布するはずである.もしそこに傾向や形状があるなら,それはモデルに問題があることを示している.

    • 予測値とオブザベーションの間の距離理想モデルでは,ポイントがすべて二等分線上にある.

    棒グラフでの標準化残差最後のチャートは,標本が正規分布していることを仮定すると,データの約95%を含むはずの区間]-2, 2[ の外に異常な数の値があるかどうかを素早く示す.

    • 要約チャート: 複数の従属変数が選択されて,多重比較オプションが有効であれば,多重比較グルーピング文字により,推定平均を可視化することができる.

    実世界アプリケーションの事例がウェブサイトにある:

    ternary diagramneural network diagram

    Excelで動作する統計解析ソフトウェア。

    14日間無償トライアルあり。