Etude statistique avec XLSTAT : Du raisin pour tout le monde ?

Article Grapes for everyone.jpg

 

Qui n'aime pas boire un verre de vin lors d'un dîner ou en flânant sur une terrasse au soleil ? Ou pour ceux qui l’apprécient autrement, n’aimez-vous pas manger un bon raisin italien avec votre morceau de fromage ? … Le raisin est le troisième fruit le plus consommé au monde1. Il est apprécié sous différentes formes (en jus, en tarte ou encore séché) et pour ses qualités nutritionnelles.

Mais savez-vous que les insectes l’apprécient aussi ? En effet, plusieurs espèces vivent au dépend de la vigne (heureusement pas comme nous) c’est-à-dire qu’elles s’y alimentent mais aussi y pondent leurs œufs qui ensuite grandissent dessus2. Le problème est que l’épanouissement de ces populations induit d’importants dégâts comme de la moisissure sur les grappes ou le développement de diverses maladies3. Si le nombre d’individus est suffisant et si la météo est favorable, le développement des maladies peut être rapide et créer des dégâts très importants pour un vignoble.

Qui dit insecte, dit animal à sang froid et donc une biologie très dépendante de la chaleur. Avec un changement climatique s’orientant vers une augmentation des températures au cours des prochaines décennies4, ces populations devraient se développer et augmenter la pression parasitaire. Alors vous vous inquiétez, tout comme moi, de l'avenir de notre vigne ? Va-t-elle survivre à la menace de ces populations de consommateurs grandissantes (la nôtre et celle des insectes) ? … Et si on faisait une petite analyse statistique pour se rassurer ?

Dans cet article, je vous propose de jouer au data scientist et d’évaluer en quelques clics s’il existe un lien entre le nombre de papillons présents dans un vignoble et la température. En termes plus mathématiques, nous allons essayer d’établir la relation Y=f(température) où Y représente le nombre de papillons.

Les données

En cherchant sur le net, j’ai trouvé sur le site Agrobio Périgord5 un jeu de données correspondant à des captures d’un papillon ravageur de la vigne de 2014 à 2017. Ces données reflètent la présence de l’insecte pendant toute la période végétative de la vigne, soit d’avril à septembre, sur 4 années consécutives. Les pièges ont été disposés à plusieurs endroits du département de la Dordogne pour mesurer l’infestation sur une large zone. Plus le nombre d’individus capturés est important plus la pression parasitaire sur la vigne est grande.

La figure ci-dessus représente ces données. On voit qu’en 2015 la nombre de papillons capturés est plus important qu’en 2014, 2016 et 2017, alors qu’en 2017 les captures ont été bien plus faibles. Est-ce lié à la température ?

A partir de données météo historiques disponibles sur un autre site6, nous pouvons reconstituer sur la même échelle temporelle que celle utilisée pour représenter le nombre de captures, les dynamiques de température moyenne de Bergerac (figure ci-dessous).

  

A l’œil, on ne voit pas une grande différence entre ces 4 courbes car la température augmente progressivement du printemps vers l’été et diminue légèrement en fin d’été. Par contre on remarque un pic en 2015 au début de l’été. Est ce qu’il n’expliquerait pas l’augmentation des captures observée sur la première figure après cette période ? Nous allons essayer d’y répondre.

L’analyse des données : choix de la méthode et interprétation

Mais quelle analyse devons-nous faire ? Comment structurer les données ? ... se poser les bonnes questions, avoir la bonne démarche méthodologique n’est jamais une étape facile en analyse de données.

Ici, nous disposons d’une variable quantitative, le nombre de captures, que nous souhaitons expliquer à partir d’une autre variable quantitative, la température. Notre premier choix d’analyse s’oriente logiquement vers une régression linéaire ayant à l’esprit de décrire notre variable quantitative le plus simplement possible. On la réalise avec la méthode du même nom « régression linéaire » d’XLSTAT car très facile à utiliser sous Excel. Le modèle ainsi obtenu décrit seulement 23% (valeur du R2, expliquée dans ce tutoriel7) des données de captures. Ce résultat est décevant car un bon modèle doit avoir une valeur de R2 plus proche de la valeur 1.

Deux options s’offrent alors à nous :

  • Soit le modèle linéaire n’est pas adapté à notre problème ;
  • Soit la température n’est pas une variable suffisante pour décrire le nombre de captures.

Pour vérifier la première option nous testons cette fois la « régression non linéaire » d’XLSTAT en choisissant des modèles adaptés à notre problème, parmi la multitude de fonctions proposées dans l’outil. Au vu de nos données et pour des raisons d’interprétation des paramètres, nous nous limitons aux équations polynomiales des deuxièmes et troisièmes degrés et aux équations exponentielles à une et deux phases. Le meilleur R² obtenu parmi ces modèles n’est que de 25.7% avec une équation polynomiale d’ordre 3. Ceci n’étant pas satisfaisant, nous optons pour la 2ième option.

Nous souhaitons donc ajouter une seconde covariable (ou variable explicative) pour enrichir notre modèle mathématique. Par exemple, introduisons la variable générationnelle fournit par les données qui décrit la génération du papillon capturé au cours de la saison (G1 = 1ère génération, G2 = 2ième génération, G3 = 3ième génération). Cette variable est qualitative et se caractérise par 3 modalités. Une analyse statistique possible en présence de variables explicatives qualitatives et quantitatives est une analyse de covariance ou ANCOVA. Le résultat fourni est un modèle linéaire qui dans notre cas capte à présent 51% de la variabilité des données. En structurant nos données de façon à segmenter chaque génération en 3 périodes (Gi_début = début de la génération i, Gi_pic = pic de la génération, Gi_fin = fin de la génération avec i allant de 1 à 3), une nouvelle ANCOVA permet d’obtenir un R2 de 66%.

On remarque ici que l’ajout d’une nouvelle covariable a bien contribué à améliorer notre modèle, d’autant plus si celle-ci est bien structurée.

Conclusion

Finalement, nous avons répondu à notre problématique de départ puisque nous avons obtenu une relation mathématique entre le nombre de captures et la température grâce à l’ANCOVA. Cependant ce modèle pourrait être encore amélioré grâce à l’ajout d’autres variables explicatives (l’état physiologique de la plante par exemple) pour essayer de modéliser plus précisément l’impact des populations de consommateurs de raisin sur le devenir de la vigne.

Au travers de ce tutoriel nous avons surtout vu comment initier une analyse statistique sur des données temporelles, et adopter une démarche d’étude d’un data scientist. Vous avez pu remarquer qu’en transformant les données on pouvait obtenir de meilleurs résultats. Nous aurions pu effectuer d’autres analyses statistiques sur ces données comme des tests t pour des échantillons indépendants, ou une analyse de séries temporelles. A vous de jouer !

 

Références

  1. https://dico-du-vin.com/chiffres-cles-2016-2017-de-la-vigne-et-du-vin-dans-le-monde/
  2. Les ennemis de la vigne et les moyens de les combattre, Dussuc E (1984).  J.-B. Bailllière et fils.
  3. http://ephytia.inra.fr/fr/C/6045/Vigne-Index-des-maladies-ravageurs-et-vecteurs.
  4. http://www.meteofrance.fr/climat-passe-et-futur/le-giec-groupe-dexperts-intergouvernemental-sur-levolution-du-climat/les-scenarios-du-giec.
  5. http://www.agrobioperigord.fr/upload/synthese-reseau-de-surveillance-2017.pdf, tableau 3 page 5.
  6. https://www.historique-meteo.net.
  7. https://help.xlstat.com/customer/fr/portal/articles/2062230-r%C3%A9gression-lin%C3%A9aire-simple-dans-excel?b_id=9283.

Derniers événements

Familiarisez-vous avec les concepts de base de statistiques descriptives, d’analyse de données multivariées, de tests statistiques et de modélisation avec XLSTAT-Basic+

Familiarisez-vous avec les concepts de base de statistiques descriptives, d’analyse de données multivariées, de tests statistiques et de modélisation avec XLSTAT-Base

This course forms a hands-on introduction to those statistical methods needed by a sensory scientist.

Derniers tweets

🔴Our presentation on #Conjoint#analysis in the Innovation Area with Thalia Anagnostou! Live from the Research & R… https://t.co/1FU0d7WiZK

🗓 Day 1 at @ResearchResults trade show in #Munich: ⏩ Visit us at booth 229 for a quick demo! ✅ Join our presentatio… https://t.co/RfFWGGbPh1

🗓 Two weeks to go until the Market Research trade show, October 23-24, in #Munich ➡️ Visit us at booth 229 ➡️ Join… https://t.co/CsoaUeGH0r