隨機圖上流行病過程參數估計的經典方法、XGBoost 與神經網絡方法比較研究 - 生物通

今日動態返回首頁

登錄會員注冊生物通快訊免費訂閱

生物通首頁 > 今日動態 > 正文

隨機圖上流行病過程參數估計的經典方法、XGBoost 與神經網絡方法比較研究

《Franklin Open》：Comparison of classical, xgboost and neural network methods for parameter estimation in epidemic processes on random graphs

【字體：大中小】 時間：2025年05月16日 來源：Franklin Open

編輯推薦：

　　為解決隨機圖上 SIR 流行病傳播的感染率參數估計問題，研究人員比較了經典最大似然法、XGBoost 和卷積神經網絡（CNN）的性能。發現經典方法在長時數據且信息完整時表現最佳，機器學習方法在圖結構信息缺失時更優，XGBoost 總體表現最佳，CNN 泛化能力更強。

　　在傳染病防控的關鍵戰場上，精準捕捉病毒傳播的 “數字密碼”—— 感染率，成為了與時間賽跑的核心任務。當前，全球面臨新發傳染病如 SARS-CoV-2、HPAI A（H5N1）禽流感等的威脅，快速準確地估計感染率不僅是疫情監測的 “眼睛”，更是制定防控策略的 “指南針”。然而，傳統方法在復雜社會網絡結構中的參數估計面臨挑戰：當數據有限或網絡結構異質性顯著時，如何提升估計的精度與魯棒性？不同算法在不同場景下的表現差異究竟幾何？這些問題如同迷霧，籠罩著流行病建模與防控的實踐。

為驅散這層迷霧，來自相關研究機構的研究人員聚焦于隨機圖上的 SIR（Susceptible-Infected-Recovered，易感 - 感染 - 康復）流行病傳播模型，開展了一項具有突破性的對比研究。這項發表在《Franklin Open》的工作，旨在定量比較經典最大似然法、XGBoost 算法和卷積神經網絡（CNN）在參數估計中的性能，并深入探討圖結構差異、數據類型對估計誤差的影響。研究通過構建靈活的兩層隨機圖模型（包括 household 層和 scale-free 或 clique 的第二層），模擬不同傳播場景，結合模擬數據與 COVID-19 真實數據，揭示了不同方法的優勢與局限。

研究采用了三大關鍵技術路線：其一，基于最大似然原理的經典方法，通過構建感染率估計公式，結合已知或估計的 SI（易感 - 感染）邊權重與數量進行計算；其二，XGBoost 算法，利用梯度提升樹模型，基于等時間間隔的 S/I/R 計數等數據進行訓練；其三，卷積神經網絡（CNN），采用多層卷積核結合全連接層的架構，通過 Adam 優化算法學習時間序列特征。研究中使用 Gillespie 算法模擬流行病軌跡，并引入根均方誤差（RMSE）評估方法性能，同時在真實數據應用中對 COVID-19 數據進行縮放處理以適配模型。

5.1 模擬實驗下的方法性能全景

通過模擬實驗的 “數字顯微鏡”，研究人員揭示了不同方法在流行病不同階段的 “能力圖譜”。在疫情早期（t=1），XGBoost 與 CNN 憑借對動態數據的快速學習能力，RMSE 分別低至 0.0314 和 0.0365，顯著優于依賴 SI 邊精確信息的經典方法（RMSE=0.0440）。隨著時間推移至 t=4，當 SI 邊信息已知時，經典方法展現出 “數據積累優勢”，RMSE 降至 0.0085，成為精度之王；而僅使用 SIR 計數的機器學習方法雖稍遜（XGBoost RMSE=0.0117），卻遠勝依賴估計 SI 邊的經典變體（RMSE=0.0142）。有趣的是，當圖結構從 scale-free（C-Sf 模型）切換至 clique（C-C 模型），各方法 RMSE 模式保持相似，暗示算法性能對圖類型不敏感。

5.2 訓練數據完整性的 “蝴蝶效應”

在訓練數據的 “拼圖游戲” 中，研究發現 XGBoost 的 “適應性短板” 與 CNN 的 “穩健基因”。當測試數據的 workplace clique 大�。∟_wp）與訓練集差異顯著時（如訓練集為 N_wp=8-11，測試集為 7），XGBoost 的 RMSE 激增，而 CNN 的波動較小。進一步，當訓練與測試集均為 N_wp=9 時，XGBoost 誤差降至 0.012，顯示其對同構數據的高效擬合能力，而 CNN 通過參數調優始終保持誤差在 0.015 左右，彰顯泛化優勢。

5.3 真實世界的 “實戰檢驗”

在 COVID-19 數據的 “戰場試煉” 中，研究團隊以 Isle of Man 的疫情為樣本，將數據縮放至 5000 人口規模，采用指數分布模擬 10 天平均康復期。結果顯示，XGBoost 與 CNN 在疫情初期（t=10）已能給出接近真實值的估計（約 0.3），對應基本再生數 R₀=2.4。經典方法雖在后期收斂，但機器學習方法的 “早期預警” 能力在公共衛生應急響應中具有關鍵價值。

6. 結論：算法選擇的 “導航地圖”

這項研究為流行病參數估計繪制了一幅清晰的 “算法導航地圖”：當擁有完整圖結構與 SI 邊信息時，經典最大似然法是 “精度先鋒”；若數據受限或面臨結構異質性，XGBoost 憑借高效性成為 “多面手”，而 CNN 則以泛化能力擔當 “魯棒衛士”。研究同時揭示，額外信息如感染頂點平均度可顯著降低誤差，為數據采集策略提供了理論依據。在 COVID-19 等新發傳染病的防控中，這些發現如同精準的 “算法武器庫”，助力公共衛生部門根據數據可及性與場景需求，快速選擇最優估計方案，為疫情預測與干預贏得寶貴時間。未來，結合更復雜的圖神經網絡與實時數據流，該框架有望進一步提升流行病建模的準確性與時效性，為全球健康安全構筑更堅固的 “數字防線”。

相關新聞

生物通微信公眾號

微信

新浪微博

搜索
國際
國內
人物
產業
熱點
科普

熱搜：流行病參數估計|隨機圖模型|SIR 模型|感染率|XGBoost|卷積神經網絡|最大似然法|圖結構|COVID-19|機器學習

急聘職位
高薪職位

知名企業招聘

熱點排行

新聞專題

今日動態 | 人才市場 | 新技術專欄 | 中國科學人 | 云展臺 | BioHot | 云講堂直播 | 會展中心 | 特價專欄 | 技術快訊 | 免費試用

版權所有生物通

Copyright© eBiotrade.com, All Rights Reserved

聯系信箱：

粵ICP備09063491號

亚洲欧美自拍偷拍,亚洲人成77777,亚洲男女自偷自拍,亚洲成年在线