Expression différentielle

Expression différentielle : principe

L’expression différentielle permet d’identifier les caractères (gènes, protéines, métabolites) les plus significativement affectés par des variables explicatives contrôlées (exemple : comparaison d’individus sains à des individus malades). Les données utilisées ont souvent une taille spectaculaire ( = obtenues à haut débit). On parle aussi de données OMICS, en référence à des données recueillies à l’échelle du génome (genomics), du transcriptome (transcriptomics), du protéome (proteomics), du métabolome (metabolomics), etc.  

La détection de caractères différentiellement exprimés met souvent en jeu des tests statistiques classiques. Cependant, le volume des données peut poser problème en termes de temps de calcul, de fiabilité statistique des résultats ainsi que de leur lisibilité. Des adaptations de ces outils sont par conséquent mises en œuvre afin de pallier à ces problèmes. 

Tests statistiques

Les tests statistiques proposés au sein de l’outil expression différentielle de XLSTAT sont des tests classiques, paramétriques ou non-paramétriques, documentés dans d’autres sections de l’aide : test t de Student, ANOVA, Mann-Whitney, Kruskal-Wallis).

Corrections post-hoc

La p-value représente le risque que l’on prend de se tromper en affirmant qu’un effet est statistiquement significatif. Effectuer un test en boucle un grand nombre de fois augmente le nombre de p-values calculées et par conséquent le risque de détecter des effets significatifs à tort. Avec un seuil de risque alpha de 5%, il est probable de détecter 5 p-values significatives par hasard sur 100 p-values calculées. En travaillant sur les données à haut-débit, on est souvent amené à tester par exemple l’effet d’une variable explicative sur l’expression de plusieurs milliers de gènes, impliquant ainsi le calcul de plusieurs milliers de p-values. Par conséquent, les p-values doivent être corrigées ( = augmentées = pénalisées) à mesure que leur nombre augmente. XLSTAT propose 3 méthodes courantes de corrections :

Benjamini-Hochberg : cette procédure fait en sorte que les p-values augmentent en fonction de leur nombre et du taux de p-values non-significatives. Elle fait partie de la famille de correction type FDR (False Discovery Rate). Etant peu conservatrice ( = peu sévère), elle est bien adaptée aux situations où l’on cherche à sélectionner un grand nombre de caractères potentiellement intéressants. Elle est très souvent utilisée dans les problématiques d’expression différentielle.

La p-value corrigée selon la procédure de Benjamini-Hochberg est définie de la sorte : 

pBenjaminiHochberg = min( p* nbp / j , 1)

p étant la p-value d’origine, nbp le nombre de p-values calculées au total et j le rang de la p-value lorsque les p-values sont rangées par ordre croissant.

Benjamini-Yekutieli : cette procédure fait en sorte que les p-values augmentent en fonction de leur nombre et du taux de p-values non-significatives. Elle fait partie de la famille de correction type FDR (False Discovery Rate). En plus de la procédure de Benjamini-Hochberg, elle prend en compte une possible dépendance entre les éléments testés. Elle est par conséquent un peu plus conservatrice que la procédure précédente mais beaucoup moins que celle de Bonferroni.

La p-value corrigée selon la procédure de Benjamini-Yekutieli est définie de la sorte : 

pBenjaminiYekutieli = min[( p * nbp * ∑i=1…nbp1/i ) / j, 1]

p étant la p-value d’origine, nbp le nombre de p-values calculées au total et j le rang de la p-value lorsque les p-values sont rangées par ordre croissant.

Bonferroni : les p-values n’augmentent qu’en fonction de leur nombre. Cette procédure est très conservatrice. Elle fait partie de la famille de correction type FWER (Familywise Error Rate). Elle est peu souvent utilisée dans les études d’expression différentielle. Elle s’avère utile lorsque l’utilisateur cherche à ne détecter qu’un nombre réduit de caractères différentiellement exprimés.

La p-value corrigée selon la procédure de Bonferroni est définie de la sorte :

pBonferroni = min( p * nbp, 1 )

p étant la p-value d’origine et nbp le nombre de p-values calculées.

Comparaisons multiples par paires 

Suite à des ANOVA à un facteur et des tests de Kruskal-Wallis, il est possible de procéder à des tests de comparaisons multiples par caractère. 

Filtrage non spécifique

Avant de lancer les analyses, il est intéressant d’éliminer les caractères dont l’expression est peu variable à travers les individus. Le filtrage non-spécifique a deux avantages principaux :

-        Il fait en sorte que le calcul se focalise moins sur les caractères probablement non exprimés différentiellement.

-        Il limite les pénalisations post-hoc, puisque le nombre de p-values calculées est plus faible.

Deux méthodes sont disponibles dans XLSTAT :

-        L’utilisateur indique un seuil de variabilité (écart interquartile ou écart type). Les caractères dont la variabilité est plus faible que ce seuil sont éliminés en amont des analyses.

-        L’utilisateur spécifie un pourcentage de caractères avec une faible variabilité (écart interquartile ou écart type) à éliminer en amont des analyses.

Effets biologiques et effets statistiques : le volcano plot

Qui dit effet statistiquement significatif ne dit pas nécessairement effet biologique important. Un dispositif expérimental impliquant des mesures très précises, avec un très grand nombre de répétitions, peut être à l’origine de p-values faibles pour des différences biologiques pourtant infimes. Pour cette raison, il est toujours recommandé de « garder un œil » sur le biologique et de ne pas se fier exclusivement à ce que nous racontent les p-values. Le volcano plot est un nuage de points combinant effet statistique sur l’axe des ordonnées et effet biologique sur l’axe des abscisses pour une matrice individus/caractères. La seule contrainte est qu’il ne peut être appliqué que pour examiner les différences entre les modalités de variables qualitatives explicatives à deux modalités.

L’axe des ordonnées représente -log10(p-value). Cela facilite la lecture du graphique : les valeurs élevées représentent des effets significatifs et les valeurs faibles des effets non-significatifs.

XLSTAT propose deux manières de construire l’axe des abscisses, notamment :

-              Différence entre la moyenne de la première modalité et la moyenne de la deuxième, pour chaque caractère. En général, on utilise ce format pour des données ayant subi une transformation d’échelle, type logarithmique ou racine.

-              Le log à base 2 du ratio des moyennes des deux modalités : log2( moyenne1 / moyenne2 ). Plutôt utilisé pour les données non-transformées.

Résultats

XLSTAT fournit les résultats suivants pour chaque variable explicative :

Tableau des x caractères associés à des p-values faibles : il contient de l’information sur les caractères les plus significatifs. Ceux-ci sont rangés par ordre croissant de p-value. La colonne p-values contient les p-values modifiées selon la méthode de correction post hoc sélectionnée. La colonne significative indique si la p-value concernée est significative par rapport au seuil alpha. Si l’option comparaisons multiples par paires a été activée, des colonnes supplémentaires s’affichent. Selon le type de test sélectionné, elles contiennent les moyennes (test paramétrique) ou médianes (test non-paramétrique) des modalités de la variable explicative. Au sein de chaque caractère, les modalités sont associées à des lettres résumant les résultats issus des comparaisons multiples. Deux modalités ne comprenant pas de lettre en commun sont significativement différentes. Deux modalités partageant une même lettre ne sont pas significativement différentes.

Graphiques : un histogramme représentant la distribution des p-values corrigées est suivi par un volcano plot permettant de repérer les caractères les plus intéressants en termes d’effets biologique et statistique.

Bibliographie

Benjamini Y. and Hochberg Y. (1995). Controlling the false discovery rate: a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society, Series B, 57, 289–300.

Benjamini Y. and Yekutieli D. (2001). The control of the false discovery rate in multiple hypothesis testing under dependency. Annals of Statistics, 29, 1165–88.

Hahne F., Huber W., Gentleman R. and Falcon S. (2008). Bioconductor Case Studies. Springer.



Fonctionnalités corollaires