差次的発現(Differential expression)
差次的発現とは?
差次的発現は、説明変数によって有意に影響される特性(遺伝子、タンパク質、代謝産物...)を識別することを可能にする。たとえば、健康な個体と病気に個体の間で異なって発現するタンパク質を識別したいということがあるだろう。このような種類の研究では、いぱしばデータのサイズがとても大きくなる(= ハイスループット・データ)。ここでは、我々は、ゲノム(genomics)、トランスクリプトーム (transcriptomics)、プロテオーム (proteomics)、またはメタボローム (metabolomics)などで実行される分析に関連する omics データ解析について述べる。
特性が異なって発現するかどうかを検定するために、我々はしばしば従来の統計的検定を使用する。しかしながら、データのサイズが計算時間や可読性そして結果の統計的な信頼性の観点で問題を引き起こすかもしれない。 したがって、これらの問題を克服するために、それらのツールが若干だがより適合するはずである。
統計的検定
XLSTAT での差次的発現で提案されている統計的検定は、従来のパラメトリック検定とノン・パラメトリック検定である:スチューデントの t検定、ANOVA、 Mann-Whitney検定、Kruskal-Wallis検定。
事後(Post-hoc)補正
p値は、効果が統計的に有意である状態のとき、我々が誤るリスクを表す。決定を複数回実行すると計算されるp値の数が増え、結果として、実際には有意でない効果を有意であると検出するリスクが増大する。有意水準アルファを5%とすると、100個の計算されたp値で5個の有意なp値を発見するであろう。 ハイスループット・データで作業している場合、我々はしばしば、数千個の遺伝子の発現に関する説明変数の効果を検定する。 結果として、p値はそれらの数の増大に伴って、補正(=増大=ペナルティ化)されなければならない。XLSTATは、3つの一般的なp値補正法を提案する:
Benjamini-Hochberg: この手順は、p値がp値の数と有意でないp値の割合とともに上昇することを確実にする。これは FDR (False Discovery Rate) 補正手順ファミリの1つである。Benjamini-Hochberg 補正は、それほど保守的でない( = あまり厳しくない)。したがって、これは、説明変数によって影響されそうな多数の遺伝子を探しているようなシチュエーションに適している。これは、差次的発現の研究で広く使用されている。
Benjamini-Hochberg 手順によって計算されるp値は、次式で定義される:
pBenjaminiHochberg = min( p* nbp / j , 1)
ここで p は元の(補正されていない) p値で、nbpは計算されるp値の合計数で、j はp値が昇順に並べられたときの元のp値の順位である。
Benjamini-Yekutieli: この手順は、p値がp値の数と有意でないp値の割合とともに上昇することを確実にする。これは FDR (False Discovery Rate) 補正手順ファミリの1つである。Benjamini-Hochbergのアプローチに加えて、これは検定される特性間にあり得る相関を考慮に入れ、より保守的になっている。しかしながら、下記のBonferroni アプローチよりはるかに厳しくない。
Benjamini-Yekutieli 手順によって補正されるp値は、次式で定義される:
pBenjaminiYekutieli = min[( p * nbp * ∑i=1…nbp1/i ) / j , 1]
ここで p は元の p値で、nbpは計算されるp値の合計数で、j はp値が昇順に並べられたときの元のp値の順位である。
Bonferroni: p値は、p値の数のみとともに上昇する。この手順はとても保守的である。これは FWER (Familywise error rate) 補正手順ファミリの1つである。 これは差次的発現解析ではめったに使用されない。これは、研究の目的が、異なって発現する特性をとてもわずかな数だけ選択することであるときに役立つ。
Bonferroni 手順によって補正されるp値は、次式で定義される:
pBonferroni = min( p * nbp, 1 )
ここで p は元の p値で、nbpは計算されるp値の合計数である。
多重対比較
一元配置ANOVAs または Kruskal-Wallis 検定の後、別々に取られた各特性について、多重対比較を実行することができる。
非特異性フィルタリング
分析を始める前に、個体間での変動が少ない特性を除去することが好ましい。ヒートマップ分析での非特異性フィルタリングには、主に2つの利点がある:
- あまり発現に差のない特性に焦点を当てない計算をすることで、計算時間を短縮できる。
- 事後ペナルティ化をより少ないp値が計算されるように制限する。
XLSTATでは2つの手法が利用できる:
- ユーザーが変動しきい値(四分位範囲または標準偏差)を指定して、低い変動の特性を分析に先立って除去する。
- ユーザーがパーセンテージを指定して、低い変動(四分位範囲または標準偏差)を持つ特性を分析に先立って除去する。
生物学的効果と統計的効果: volcano プロット
統計的に有意な効果が、生物学的な尺度で興味深いとは限らない。 多数の反復によるとても正確な測定が関与する実験は、生物学的にとても弱い差い関連づけられる低いp値を提供するかもしれない。したがって、p値のみならず、生物学的効果に目を離さないことを推奨する。volcano プロット は、すべての個体/特性マトリックスで、統計的効果をy軸に、生物学的効果をx軸に配した散布図である。唯一の制約は、2水準の質的説明変数の水準間の差を検討することだけが実行できることである。
y軸の座標は、図を読みやすくするために -log10( p値 ) で尺度化されている。高い値は最も有意な効果を反映しており、一方、低い値はほとんど有意でない効果に対応する。
XLSTAT は、x軸の座標を構築する2つの方法を提供する:
- 各特性についての第1水準の平均と第2水準の平均の間の差。通常、我々は、log や平方根のような変換された尺度でデータを取り扱うとき、このフォーマットを使用する。
- 2つの平均間のfold change(比)のLog2: log2( mean1 / mean2 )。このフォーマットは、変換されていないデータに使用するのが好ましい。
結果
各説明変数について、XLSTATは以下の結果を提供する:
最も低い p値のX個の特性の表: これは、最も低いp値を持つx個の特性に関する情報を格納している。特性は昇順のp値で並べ替えられている。p値の列には、選択された事後補正法によって修正されたp値が入っている。有意の列は、選択された有意水準でp値が有意であるかどうかを示している。 多重対比較オプションが有効にされた場合、追加の列が現れる。選択された検定のタイプによって、それらには、平均(パラメトリック検定)または説明変数の水準の中央値(ノン。パラメトリック検定) が入っている。各特性内で、水準は多重対比較を要約する記号に関連づけられる。同じ企業を共有する2つの水準は、有意に差がない。
チャート: 補正されたp値の分布を表すヒストグラムの後に、最も高い統計的効果と生物学的効果を持つ特性をピンポイントできるvolcano プロットが表示される。
参考文献
Benjamini Y. and Hochberg Y. (1995). Controlling the false discovery rate: a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society, Series B, 57, 289–300.
Benjamini Y. and Yekutieli D. (2001). The control of the false discovery rate in multiple hypothesis testing under dependency. Annals of Statistics, 29, 1165–88.
Hahne F., Huber W., Gentleman R. and Falcon S. (2008). Bioconductor Case Studies. Springer.
Excelで動作する統計解析ソフトウェア。
含まれる機能:
関連する機能