Analyse de données CATA

Les enquêtes CATA (check-all-that-apply) sont de plus en plus populaires dans le cadre de la caractérisation sensorielle des produits depuis 2007, lorsqu’ils ont été présentés par Adams et al.. Les enquêtes CATA s’adressent aux consommateurs, plus représentatifs du marché, plutôt qu’à des juges entraînés. Elles sont faciles à construire et il est facile d’y répondre. Principe : chaque participant (juge) reçoit un questionnaire contenant des attributs ou descripteurs appliqués à un ou plusieurs produits. Pour chaque produit, le juge coche les attributs ou ne les coche pas, en fonction de son ressenti. D’autres questions à des échelles différentes peuvent être ajoutées pour relier les attributs à des scores de préférence. Si les participants doivent donner une note globale à chaque produit impliqué dans l’étude, des analyses plus poussées telles que la modélisation de préférence sont envisageables. Afin d’améliorer la reproductibilité, Ares et al. (2014) recommandent de randomiser l’ordre des questions CATA pour chaque participant.

L’outil d’analyse de données CATA d’XLSTAT a été développé dans le but d’automatiser cette analyse. Considérons une enquête menée sur N juges pour P produits (un des produits pouvant être virtuel, souvent idéal) décrits par K attributs. Les données CATA pour les K attributs sont enregistrées sous forme binaire (1 pour coché, 0 pour non coché). Deux formats de données sont acceptés par XLSTAT :

- Premier format : XLSTAT s’attend à un tableau Excel avec P lignes et N groupes de K colonnes, les groupes étant placés côte à côte. L’utilisateur spécifie la valeur de N et XLSTAT déduit automatiquement la valeur de K. Si l’enquête implique une question sur la préférence, la colonne correspondante peut être introduite au sein de chaque groupe de K colonnes à une position qui peut être indiquée à XLSTAT. Dans ce cas, chaque groupe sera associé à K+1 colonnes. Si un des produits correspond à un produit idéal, il est possible d’indiquer sa position.

- Second format : XLSTAT s’attend à un tableau Excel avec P x N lignes et K colonnes. Les identifiants des produits et ceux des juges doivent être saisis dans deux champs supplémentaires. Si l’enquête implique une question sur la préférence, la colonne correspondante doit être sélectionnée. Si un des produits correspond à un produit idéal, vous pouvez indiquer son identifiant afin qu’XLSTAT le considère comme tel.

Les analyses effectuées par XLSTAT sur des données CATA sont basées sur l’article de Meyners et al. (2013), qui explore en profondeur les possibilités offertes par les données CATA.

 

La première série de résultats correspond aux tests Q de Cochran effectués sur le tableau Juges x Produits, pour chaque attribut indépendant. Le test Q de Cochran permet de comparer des d’échantillons binaires appariés, ce qui caractérise les données CATA brutes. Ce test permet de comparer les différents produits. Il est suivi de comparaisons multiples basées sur l’approche de Marascuilo. Ces comparaisons multiples peuvent être utilisées pour identifier les produits responsables du rejet de l’hypothèse nulle d’égalité des produits. Le test Q de Cochran est l’équivalent d’un test de McNemar dans le cas où il n’y aurait que deux produits. 

La seconde étape de l’analyse CATA est une analyse factorielle des correspondances sur  la somme des N tables CATA individuelles (la valeur maximale de chaque cellule est N). L’objectif de cette analyse est de projeter sur un plan les produits, y compris le produit idéal si présent. Ceci permet d’étudier le positionnement relatif des produits les uns par rapport aux autres. L'analyse peut être basée sur la distance du chi-2 ou la distance de Hellinger (aussi connue sous le nom de distance de Bhattacharya, nommée ainsi dans l’outil matrices de similarité/dissimilarité d’XLSTAT).L’analyse basée sur la distance de Hellinger est adaptée dans le cas où certains attributs sont peu sélectionnés (Meyners et al. 2013). Les attributs associés à une somme marginale nulle sont éliminés de l’analyse factorielle des correspondances.

L’analyse qui suit utilise le format « vertical » de données, contenant une ligne par combinaison de produit et de juge, une colonne par attribut, et où les produits idéaux, si présents, ont été éliminés. Si disponible, une colonne de préférence peut être incluse dans l’analyse. XLSTAT calcule les corrélations entre les attributs, par le biais de corrélations tétrachoriques (outil adapté aux données binaires). Si une colonne de préférence est incluse, un coefficient de corrélation bisérielle entre chaque attribut et les données de préférence est calculé. Le coefficient de corrélation bisérielle mesure la corrélation entre une donnée binaire et une variable quantitative (pour plus d’information, voir l’outil Description des données /  Corrélation bisérielle). Afin d’obtenir une visualisation optimale des différentes dimensions, XLSTAT effectue une analyse en Coordonnées Principales basée sur la correction de Lingoes lorsque c’est nécessaire. Cette méthode est préférée à la méthode MDS car les coordonnées sont pivotées automatiquement afin de faire porter au premier axe la plus grande part d’information.

Ensuite, si des données de préférence sont disponibles, des analyses « Penalty » sont effectuées. Ces analyses visent à identifier les attributs cochés entraînant une mauvaise préférence, une absence d’effet ou une meilleure préférence.

Les premiers résultats correspondent à une série de K tableaux 2x2 (un tableau par attribut). En lignes, les valeurs enregistrées pour le produit idéal ; en colonnes, les valeurs obtenues pour les produits testés. Les cellules du tableau contiennent les préférences moyennes (moyennées sur les juges et les produits) et le % de tous les cas associés à la combinaison correspondante de 0s et/ou de 1s.

 

Produit idéal\Produits

0

1

0

6.2 (12%)

7.4 (8%)

1

5.1 (39%)

7.2 (41%)

 

Ces tableaux permettent d’ores et déjà d’apprécier la considération de chaque attribut par les juges. Pour un attribut donné, si l’attribut est coché pour le produit idéal (seconde ligne), et si la préférence pour les produits cochés (cellule [1,1]) est significativement supérieure à la préférence pour les produits non cochés (cellule [1,0]), alors l’attribut est nécessaire. 
Symétriquement, si l’attribut n’est pas coché pour le produit idéal (première ligne) et si la préférence pour les produits non cochés (cellule [0,0]) est significativement supérieure à la préférence pour les produits cochés (cellule [0,1]), alors l’attribut est négatif.
Si (cellule [0,1]) > (cellule [0,0]) significativement, alors l'attribut est intéressant. Si l’attribut n’est pas coché pour le produit idéal (première ligne), qu’il n’est ni négatif ni intéressant, et si la préférence pour les produits cochés (cellule [0,1]) est comparable à celle pour les produits non cochés (cellule [0,0]) alors l’attribut est indifférent.
 XLSTAT considère deux produits comparables si la valeur absolue de leur différence est inférieure à un. Enfin, si l’attribut n’est pas nécessaire et que la préférence pour les produits cochés (cellule [1,1]) est comparable à celle pour les produits non cochés (cellule [1,0]), l’attribut est sans influence.
Certains tableaux peuvent correspondre à 3 situations.
XLSTAT tentera d’associer chaque tableau 2x2 à une situation en le reliant à une des règles définie plus haut, dans le même ordre. 
Il est à noter que pour prendre une décision concernant un attribut, XLSTAT vérifiera que la taille seuil pour la population que vous avez indiqué dans la boite de dialogue (Options 2) est bien respectée.