《Scientific Reports》:Comparative evaluation of hybrid and individual models for predicting soybean yellow mosaic virus incidence
編輯推薦:
在農業生產中,大豆黃花葉病毒(SYMV)嚴重影響大豆產量。研究人員開展了混合與個體模型預測 SYMV 發病率的對比研究。結果顯示,PCA - SMLR - ANN 模型預測效果最佳。這為大豆病害管理提供了重要依據。
在全球農業領域,大豆作為重要的油籽作物,其產量和質量關乎糧食安全與經濟發展。然而,大豆黃花葉病毒(Soybean Yellow Mosaic Virus,SYMV)卻如同潛伏在田間的 “殺手”,嚴重威脅著大豆的生長。SYMV 主要由粉虱傳播,其傳播和發病與溫度、濕度、降雨、日照時長等天氣條件密切相關 。例如,7 月的高降雨量、8 月的干燥環境,以及特定的溫濕度范圍,都為病毒的滋生和傳播創造了有利條件。隨著全球氣候變暖,預計每升溫 1℃,與害蟲相關的農業損失將增加 10 - 25%,這使得 SYMV 的防控形勢更加嚴峻。
在以往的研究中,雖然已經知曉天氣因素對 SYMV 的影響,但在預測該病毒發病率方面,仍面臨諸多挑戰。傳統的統計模型,如多元線性回歸(Multivariate Linear Regression,MLR),難以捕捉天氣變量與疾病發生之間復雜的相互作用;而先進的機器學習(Machine Learning,ML)技術,包括支持向量機(Support Vector Machines,SVMs)、人工神經網絡(Artificial Neural Networks,ANNs)等,盡管在預測精度上有所提升,但不同模型的效果參差不齊。此外,在眾多影響疾病傳播的因素中,選擇最合適的預測模型成為一大難題。
為了攻克這些難題,來自 G.B. Pant 農業技術大學的研究人員開展了一項極具意義的研究。他們旨在通過開發和評估多種混合與個體模型,找出預測 SYMV 發病率的最佳模型,從而為大豆種植中的病害管理和作物保護策略提供有力支持。該研究成果發表在《Scientific Reports》上,為農業領域的病害預測開辟了新的思路。
研究人員在研究過程中,運用了多種關鍵技術方法。首先,收集了 2001 - 2020 年大豆病害嚴重程度的時間序列數據以及對應的天氣數據。然后,通過計算加權和未加權天氣指數,將原始天氣數據進行處理。接著,采用主成分分析(Principal Component Analysis,PCA)對數據進行降維,以解決天氣指數之間的多重共線性問題。最后,運用逐步多元線性回歸(Stepwise Multiple Linear Regression,SMLR)、ANN、最小絕對收縮和選擇算子(Least Absolute Shrinkage and Selection Operator,LASSO)、嶺回歸(Ridge Regression,RR)、彈性網絡(Elastic Net,ELNET)等多種多元分析方法構建預測模型。
模型性能分析
- SMLR 和 PCA - SMLR 模型:SMLR 模型基于天氣指數進行預測,其決定系數(R2)為 0.81,校準階段的均方根誤差(RMSE)為 27.65,驗證階段為 119.88,標準化均方根誤差(nRMSE)在驗證階段高達 47.72% ,該模型在校準和驗證階段表現不穩定。而 PCA - SMLR 模型的R2為 0.85,雖然在驗證階段也存在R2下降和誤差增加的情況,但整體擬合效果優于 SMLR 模型。
- ANN 和 PCA - ANN 模型:ANN 模型表現出色,校準階段R2達到 1.00,RMSE 為 5.71,驗證階段R2為 0.99,RMSE 為 17.12,nRMSE 在驗證階段為 6.82% 。PCA - ANN 模型進一步優化,校準階段R2為 0.99,RMSE 為 2.77,驗證階段R2為 1.00,RMSE 為 9.21,nRMSE 在驗證階段為 3.67% ,明顯優于 ANN 模型。
- LASSO 和 PCA - LASSO 模型:LASSO 模型的R2為 0.97,校準階段 RMSE 為 12.99,但驗證階段 RMSE 升至 118.53,nRMSE 在驗證階段為 47.19% 。PCA - LASSO 模型R2為 0.84,在驗證階段同樣出現R2下降和誤差增加的情況,且 LASSO 模型對該數據的擬合效果更好。
- RR 和 PCA - RR 模型:RR 模型校準階段R2為 0.90,RMSE 為 26.68,驗證階段R2為 0.84,RMSE 為 108.47,nRMSE 在驗證階段為 43.18% ,在驗證階段表現較差。PCA - RR 模型校準階段R2為 0.93,RMSE 為 26.88,但驗證階段R2僅為 0.01,RMSE 為 115.36,在不同階段表現差異較大。
- ELNET 和 PCA - ELNET 模型:ELNET 模型校準階段R2為 0.90,RMSE 為 26.68,驗證階段R2為 0.84,RMSE 為 108.47,nRMSE 在驗證階段為 43.18% 。PCA - ELNET 模型校準階段表現優秀,R2為 0.95,RMSE 為 15.22,但驗證階段R2為 0.15,RMSE 為 118.23,整體表現不如 ELNET 模型。
- SMLR - ANN 和 PCA - SMLR - ANN 模型:SMLR - ANN 模型校準階段R2為 0.97,RMSE 為 11.74,驗證階段R2為 0.96,RMSE 為 5.11,nRMSE 在驗證階段為 2.22% ,表現出色。PCA - SMLR - ANN 模型更是表現卓越,校準階段R2為 1.00,RMSE 為 5.27,驗證階段R2為 0.99,RMSE 為 1.59,nRMSE 在驗證階段為 0.76% ,是所有模型中預測效果最佳的。
研究結論與討論
綜合各項指標,研究人員得出結論:PCA - SMLR - ANN 模型在預測大豆病害嚴重程度方面表現最為出色,其排名領先于其他模型,具體排名為:PCA - SMLR - ANN ≈ PCA - ANN ≈ SMLR - ANN ≈ ANN > PCA - ELNET > PCA - Ridge > ELNET ≈ RR > PCA - LASSO > LASSO > PCA - SMLR ≈ SMLR。這一結論表明,混合模型在預測大豆病害嚴重程度方面具有顯著優勢,尤其是結合了 PCA、SMLR 和 ANN 的模型,能夠更好地捕捉天氣指數與病害之間的復雜關系,提高預測的準確性。
該研究成果對于農業生產具有重要意義。準確的病害預測模型可以幫助農民及時采取防控措施,減少因 SYMV 造成的經濟損失;同時,也為政策制定者制定科學的農業政策提供了依據,有助于推動農業病害預測方法的發展,提升農業生產的可持續性。然而,研究也存在一定的局限性,如數據集主要來自特定地區,可能無法完全適用于其他地區;模型依賴歷史天氣數據,難以應對環境的突然變化等。未來的研究可以進一步拓展數據集,納入實時天氣監測、遙感數據和大豆抗病基因信息,以提高模型的普適性和準確性,更好地服務于農業生產。