Real-life application with XLSTAT: みんなのぶどう?

 

夕食や日当たりの良いテラスに座っている間に、素敵なワインの一杯でも楽しみたいものですよね? それとも、あなたはお気に入りのチーズと一緒に、おいしいイタリアのぶどうを召し上がりますか?

ぶどうは世界で3番目に最も多く消費される果物です。 それらはたくさんの楽しみ方(ジュース、タルト、乾燥など)があります。それは健康的です。しかし、昆虫たちもそれを好きなことをご存知ですか?

いくつかの昆虫の種は、(幸いにも我々は違いますが)餌としだけでなく、卵を産むためにもブドウを必要としています。問題は、これらの害虫が成長するにつれて、ぶどうのカビやその他の病気などの被害をもたらす可能性があることです。 昆虫の数と気象条件によっては、病気の発生は急速になり、大きなぶどう園に被害を引き起こす可能性があります。

昆虫は冷血動物ですので、暖かさが必要です。 今後 数10年にわたって気温の上昇をもたらすような気候変動が起きると、昆虫の個体群はおそらく成長し、寄生虫の圧力を増加させるでしょう。

もしあなたが私のような人間であれば、おそらく我々のぶどう園の将来について心配していることでしょう。彼らは、これらの増え続ける「消費者」の集団(我々人間と昆虫の両方)の脅威に耐えることができますか? いくらかの安心を得るために迅速な統計分析をしませんか?

この記事では、ぶどう園の蛾の数と気温の間に関連性があるかどうかを評価するために、データ・サイエンティストであることを目指していきます。 数学的には、Y = f(温度)というリンクを確立しようとします。ここでY は蛾の数に等しいです。

データ

ウェブ検索が私をサイト Agrobio Périgordに導きました。2014年から2017年の間に捕獲されたブドウ蛾の数に関するデータセットです。これらのデータは、4年連続してぶどうの生長期間全体(4月から9月)に害虫がいることを示しています。フランスのドルドーニュ地方周辺のいくつかの場所に罠を設置し、広範囲にわたる寄生を測定しました。

捕獲される蛾の数が多いほど、ぶどう園への寄生虫の圧力が大きくなります。

Aucun texte alternatif pour cette image

上の図はこれらのデータを示しています。 2015年に捕獲された蛾の数は、2014年、2016年、および2017年よりも多く、2017年には捕獲された蛾の数ははるかに少なかったことがわかります。 これは気温と関連があるでしょうか?

別のウェブサイトから入手可能な過去の天気データを使用して、捕獲された蛾の数に使用されたものと同じ時間尺度で罠が設置された同じ地理的ゾーンの平均気温ダイナミクスを再作成できます(下図)。

Aucun texte alternatif pour cette image

目で見た限りでは、気温は春から夏にかけて徐々に上昇し、夏の終わりには再び下がるため、これら4つの曲線の間に大きな違いを見出すのは困難です。 ただし、2015年には初夏にピークがあります。

これはこの期間の後の最初の数字で見られる罠にかかった蛾の増加に関する可能な説明でしょうか?

やってみて、その質問に答えましょう。

データの分析: 手法の選択と解釈

どんな分析を行うべきでしょうか?

データをどのように構築しますか?

適切な質問をし、適切な方法論的アプローチを選択することは、データ分析において決して容易ではありません。

ここでは、別の量的変数(温度)を使って説明したい量的変数(罠にかかった蛾の数)があります。 私たちの最初の分析選択は、論理的にはできるだけ簡単に私たちの量的変数を記述する線形回帰を選ぶことです。

XLSTATの“線形回帰”法を使用してこれを行うことができます。Excelでこれが非常に使いやすいからです。結果のモデルは、罠にかかった蛾のデータの23% (このチュートリアルで説明されているR2値)だけを説明します。良いモデルは1に近いR2を持つべきなので、これは満足な結果ではありません。

これは次の2つのいずれかを意味します:

  • 線形モデルが我々の問題に適さないか、
  • 温度が罠にかかった蛾の数を説明するのに有効な変数ではない。

最初の選択肢を検証するために、今回はツールで利用可能な多くの関数の中から、我々の問題に適したモデルを選択して、XLSTATの“非線形回帰”をテストします。我々のデータを前提として、そしてパラメータ解釈の理由のために、我々は3次の多項方程式と1または2ステップの指数方程式に限定します。

これらのモデルから得られた最良の R² は、3次多項方程式での25.7%だけです。 これも十分ではありませんので、2番目の選択肢を検討しましょう。

我々の数学的モデルを拡張するために、2番目の共変量(または独立変数)を追加したいです。たとえば、データによって提供される生成変数を導入しましょう。それは、その季節に捕獲された蛾の世代を記述します(G1 = 第1世代、G2 = 第2世代、G3 = 第3世代)。この変数は、質的変数で、3つの条件で特徴づけられています。

質的および量的従属変数で可能な統計解析は、共分散分析 (ANCOVA)です。 結果は線形モデルで、我々の事例では、それはデータ変動の51% を取り込みます。3つの期間で各世代をセグメントして (Gi_start = 世代 iの始め、Gi_peak = 世代のピーク、peak Gi_end = 世代の終わり。ここで i は1 から3)データを構造化すると、新しいANCOVAは、66%の R2を達成します。

ここで、新しい共変量を追加することでモデルが改善され、さらに構造化された場合はさらに改善することがわかります。

結論

気温によるぶどう園の蛾の数の変化を説明したので、最初の問題に答えたことになります。 ただし、我々のモデルは、植物の生理学的状態や図2と図3のように捕獲された蛾の動態に関するデータなど、のような他の独立変数を情報源から追加することによってさらに改善することができます。

この事例を通して、我々は、一時的なデータの統計分析を始める方法、およびデータ・サイエンティストの研究アプローチを採用する方法を見ることができました。 また、データを変換することで、より良い結果が得られる方法もわかりました。 独立標本のt検定や時系列の分析など、これらのデータに対して他の統計分析を実行できた可能性もあります。

次はあなたの番です!

さらに進んでください

トライアルをダウンロードして、14日間無償のXLSTATの200超の全機能をお楽しみください:

Aucun texte alternatif pour cette image