主成分分析 (PCA)

主成分分析 (PCA: Principal Component Analysis)は,最も一般的なデータマイニング手法である. XLSTAT統計ソフトウェアを使用してExcel内でPCAを実行できる.

principal-component-analysis-correlation-loadings-factors.png

主成分分析とは何か?

主成分分析の定義

主成分分析は最もよく使用される多変量解析手法 の1つで,量的変数を持つ多次元データセットを調査することを可能にする.これは生物統計,マーケティング,社会学などの多数の分野で広く使用されている

これは,初期の次元から情報の最大量(ここで情報量とは,データセットの合計分散によって測定される)を保持するように,p 個の変数によるp次元の空間から k次元の空間(ここで k < p)にオブザベーションを写像する写像手法とみなすことができる.最初の 2 また 3軸に関連づけられた情報が,散布図の合計変動の十分なパーセンテージを表現するなら,オブザベーションは2- 3-次元のグラフで表現することが可能になり,解釈がより簡単になる.

PCAは大規模なデータセットから簡単に情報を抽出できるので,データマイニング手法とみなすことができる.以下を含む複数の使用法がある:

  • あとで測定する変数の数を制限することを可能にするため,変数間の相関を調査し可視化する
  • 初期変数の線形結合で非相関因子を得て,それを線形回帰やロジスティック回帰,判別分析などのモデリング手法で使用するため
  • オブザベーションの均一な,または特殊なグループを識別するために,オブザベーションを2- または 3-次元空間に可視化する.

XLSTATはExcel内で直接データを探索するための完全かつ柔軟な PCA機能を提供する.XLSTATはデータへの深い洞察を得ることを可能にする標準および高度な複数のオプションを提供する

XLSTATでの主成分分析の設定方法?

Pearson相関 または共分散でのPCA

PCAは,変数間の類似度を示す新しい行列を用いて,新しい空間に変数を写像する行列を計算するために使用される.類似度の指標として Pearson相関係数または共分散を一般的に使用する.Pearson相関と共分散には,PCAでプロパティが使用される半正定値行列を与えるという利点がある.ただし,他の指標も使用できる

XLSTATは,主成分分析の計算に先立って,入力データで使用する複数のデータ処理を提供する:

  • Pearson,古典的PCA,高い分散を持つ変数の結果に対する影響が膨張するのを避けるために,計算に先立ってデータを自動的に標準化または正規化する.
  • 共分散, 標準化されていない分散と共分散で動作する(分散が大きい変数が,出力においてより強い役割を果たす).
  • Spearman,古典的PCA (Pearson相関に基づく) に完全に相当しながら,順位の行列で実行される.

https://cdn.xlstat.com/media/default/0001/01/ee8db42ffa0888ebbf600bb28378f452dfbcb50d.png

相関行列の使用は尺度効果を取り除くので,伝統的に,共分散よりも相関係数が使用される:したがって,値が0から1の間の変数は,0から1000の間の変数よりも,写像においてより重みがかからない. しかしながら,変数が同じ尺度であることが想定される場合や,変数の分散が因子の構築に影響することを望む場合など,特定の領域では共分散が使用される

オブザベーション/変数の表ではなく類似度行列のにが利用可能な場合,または別の類似度指標を使用したい場合,類似度行列(相関または共分散)から開始するPCAを実行することができる

追加変数および追加オブザベーションのあるPCA

XLSTATはPCAが計算された後に,変数(質的変数および量的変数)またはオブザベーションを追加することができる.それらの変数やオブザベーションは補足(supplementary)と呼ばれる.これはいくつかの文脈で使用できる.こちらが2つの例である:

  • 従属変数の集合が他の変数にどのように関係するかを大雑把に調査したい場合.その従属変数の集合を追加(補足)変数の集合として使用し,その他の変数(すなわち独立変数)をPCAを構築するために使用する.
  • オブザベーションのさまざまなカテゴリ(たとえば,男性vs女性)がPCA空間でどのように振る舞うかを単に見たい場合.この場合,質的追加変数(性別)が,それらの属する性別に応じて色分けするために用いられる.カテゴリ・セントロイド(重心)およびカテゴリ周りの信頼楕円を表示することも可能.

回転のあるPCA: バリマックスその他

因子に関して回転を適用することができる.Varimax,Quartimax,Equamax,Parsimax,Quartimin,Oblimin,Promaxなどの複数の手法が利用可能.

XLSTATでの主成分分析の結果は?

XLSTATのPCA機能は,変数およびオブザベーションに関係する結果を提供する. 

記述統計: 記述統計量の表は,選択されたすべての変数の簡単な統計量を示す. これは,オブザベーションの数,欠損値の数,非欠損値の数,平均,標準偏差(不偏)を含む.

相関/共分散行列: この表は,後の計算で使用するデータを示す.相関のタイプは,ダイアログ・ボックスの "一般" タブで選ばれたオプションによる. 相関では,有意な相関が太字で表示される.
 

Bartlettの球形検定: Bartlett の球形検定の結果が表示される.どの変数が有意な相関を持っていないかによって,仮説を確認したり棄却したりすることに用います.
 

Kaiser-Meyer-Olkinの標本妥当性の測度: この表は,各個別の変数のKMO測度および全体のKMO測度の値を提供する.KMO測度は0から1の範囲の値をとる.低い値は合成因子(または潜在変数)の抽出が出来ないケースに対応する.言い換えると,オブザベーションは人間が想像できるようなモデルを産出しない(標本が”不十分”).Kaiser (1974)は,KMOが0.5より低いなら,その因子モデルを採用しないことを推奨している.KMOが0.5から0.7の間なら標本の品質は中程度であり,KMOが0.7から0.8の間は良好であり,0.8から0.9はとても良好で,それを超えると優良である.
 

固有値: 固有値と対応するグラフ(スクリー・プロット)が表示される. 固有値の数は,非ヌル固有値の数に等しくなる.
 

対応するオプションが有効になっているなら, XLSTATは,後で新しい空間に因子負荷量を表示し,そして初期変数と新しい空間の成分との間の相関を表示する. 相関は,(相関行列上の)正規化されたPCAの因子負荷量に等しくなる
 

追加変数が選択された場合,対応する座標と相関が表の最後に表示される.
 

そして,新しい空間での因子得点が表示される.追加データが選択されると,表の最後にそれらが表示される.
 

寄与度: この表は,主成分の構築でのオブザベーションの寄与度を示す.
 

平方余弦: この表は,オブザベーション・ベクトルと因子軸との間の2乗余弦を表示する.
 

回転がリクエストされると,まず因子負荷量に適用された回転行列で回転の結果が表示される.続いて,回転に関与した各軸に関連づけられた修正変動パーセンテージがある.回転後の変数とオブザベーションの座標,寄与度,余弦が,続く表に表示される.
 

XLSTATでの主成分分析で表示されるチャートは?

主成分分析の利点の1つは,変数とデータの最適な可視化と2つを混合するバイプロット(下図参照)の両方を提供することである.ただし,これらの表現は,表現空間の軸に関係する変動のパーセンテージの合計が十分に高い場合のみ信頼できる.もしこのパーセンテージが高い(たとえば 80%)なら,その表現は信頼できるとみなせる.もしこのパーセンテージが低ければ,最初の2個の因子軸でなされた解釈を検証するために,複数の軸のペアで表現を作成することが推奨される.

PCAの相関サークルまたは変数チャート

相関サークル(または変数チャート)は,成分と初期変数の間の相関を示す.追加変数もベクトルの形で表示できる.

https://cdn.xlstat.com/media/default/0001/02/54eb4285ad4d5d0710bbe61835a1693c0beaf014.png

PCAのオブザベーション・チャート

オブザベーション・チャートは,PCA空間でのオブザベーションを表現する.
 

https://cdn.xlstat.com/media/default/0001/02/9dfae2be60e17a39f83c57429ca740bcf2d2aaa1.png

PCAのバイプロット

バイプロットは,新しい空間でオブザベーションと変数を同時に表現する.ここで追加変数もベクトルの形式でプロットできる.さまざまな種類のバイプロットがある:

  • 相関バイプロット: このタイプのバイプロットは,変数間の相関に直接リンクしているので,変数間の角度を解釈する.変数ベクトル上に写像された2つのオブザベーションの位置は, この変数についてのそれらの相対的水準を決定するのに使用できる.2つのオブザベーションの間の距離は, k次元の因子空間でのマハラノビス距離の近似である.最後に,表現空間での変数ベクトルの写像は,変数の標準偏差の近似である(k-次元因子空間でのベクトルの長さが,変数の標準偏差に等しい).
  • 距離バイプロット: 距離バイプロットは,p-次元変数空間でのユークリッド距離の近似であるので,オブザベーション間の距離を解釈する.変数ベクトル上に写像された2つのオブザベーションの位置は,この変数についてのそれらの相対的水準を決定するのに使用できる.最後に,表現空間での変数ベクトルの長さは,この空間を構築する変数の寄与度の水準を表現している(ベクトルの長さが,寄与度の合計の平方根である).
     
  • 対称バイプロット: このバイプロットは,Jobson (1992) によって提案され,前の2つのバイプロットの中間である.これは2つの間の妥協策であるので,角度も距離も解釈できない場合は,この表現を選ぶことができる.
     

https://cdn.xlstat.com/media/default/0001/02/0ee9450a09d2ca6c99c20509a19fc40abb87d590.png

XLSTATは,グラフの信頼性を改善するように,変数ベクトルの長さを調整することができる.ただし,相関バイプロットでこのオプションを使用する場合,変数ベクトルの写像は,もはや変数の標準偏差の近似ではない

XLSTATを用いてExcelないでPCAを実行する方法に関するチュートリアル

ternary diagramneural network diagram

Excelで動作する統計解析ソフトウェア。

14日間無償トライアルあり。