隨機圖上流行病過程參數估計的經典方法、XGBoost 與神經網絡方法比較研究

《Franklin Open》:Comparison of classical, xgboost and neural network methods for parameter estimation in epidemic processes on random graphs

【字體: 時間:2025年05月16日 來源:Franklin Open

編輯推薦:

  為解決隨機圖上 SIR 流行病傳播的感染率參數估計問題,研究人員比較了經典最大似然法、XGBoost 和卷積神經網絡(CNN)的性能。發現經典方法在長時數據且信息完整時表現最佳,機器學習方法在圖結構信息缺失時更優,XGBoost 總體表現最佳,CNN 泛化能力更強。

  在傳染病防控的關鍵戰場上,精準捕捉病毒傳播的 “數字密碼”—— 感染率,成為了與時間賽跑的核心任務。當前,全球面臨新發傳染病如 SARS-CoV-2、HPAI A(H5N1)禽流感等的威脅,快速準確地估計感染率不僅是疫情監測的 “眼睛”,更是制定防控策略的 “指南針”。然而,傳統方法在復雜社會網絡結構中的參數估計面臨挑戰:當數據有限或網絡結構異質性顯著時,如何提升估計的精度與魯棒性?不同算法在不同場景下的表現差異究竟幾何?這些問題如同迷霧,籠罩著流行病建模與防控的實踐。
為驅散這層迷霧,來自相關研究機構的研究人員聚焦于隨機圖上的 SIR(Susceptible-Infected-Recovered,易感 - 感染 - 康復)流行病傳播模型,開展了一項具有突破性的對比研究。這項發表在《Franklin Open》的工作,旨在定量比較經典最大似然法、XGBoost 算法和卷積神經網絡(CNN)在參數估計中的性能,并深入探討圖結構差異、數據類型對估計誤差的影響。研究通過構建靈活的兩層隨機圖模型(包括 household 層和 scale-free 或 clique 的第二層),模擬不同傳播場景,結合模擬數據與 COVID-19 真實數據,揭示了不同方法的優勢與局限。

研究采用了三大關鍵技術路線:其一,基于最大似然原理的經典方法,通過構建感染率估計公式,結合已知或估計的 SI(易感 - 感染)邊權重與數量進行計算;其二,XGBoost 算法,利用梯度提升樹模型,基于等時間間隔的 S/I/R 計數等數據進行訓練;其三,卷積神經網絡(CNN),采用多層卷積核結合全連接層的架構,通過 Adam 優化算法學習時間序列特征。研究中使用 Gillespie 算法模擬流行病軌跡,并引入根均方誤差(RMSE)評估方法性能,同時在真實數據應用中對 COVID-19 數據進行縮放處理以適配模型。

5.1 模擬實驗下的方法性能全景


通過模擬實驗的 “數字顯微鏡”,研究人員揭示了不同方法在流行病不同階段的 “能力圖譜”。在疫情早期(t=1),XGBoost 與 CNN 憑借對動態數據的快速學習能力,RMSE 分別低至 0.0314 和 0.0365,顯著優于依賴 SI 邊精確信息的經典方法(RMSE=0.0440)。隨著時間推移至 t=4,當 SI 邊信息已知時,經典方法展現出 “數據積累優勢”,RMSE 降至 0.0085,成為精度之王;而僅使用 SIR 計數的機器學習方法雖稍遜(XGBoost RMSE=0.0117),卻遠勝依賴估計 SI 邊的經典變體(RMSE=0.0142)。有趣的是,當圖結構從 scale-free(C-Sf 模型)切換至 clique(C-C 模型),各方法 RMSE 模式保持相似,暗示算法性能對圖類型不敏感。

5.2 訓練數據完整性的 “蝴蝶效應”


在訓練數據的 “拼圖游戲” 中,研究發現 XGBoost 的 “適應性短板” 與 CNN 的 “穩健基因”。當測試數據的 workplace clique 大。∟wp)與訓練集差異顯著時(如訓練集為 Nwp=8-11,測試集為 7),XGBoost 的 RMSE 激增,而 CNN 的波動較小。進一步,當訓練與測試集均為 Nwp=9 時,XGBoost 誤差降至 0.012,顯示其對同構數據的高效擬合能力,而 CNN 通過參數調優始終保持誤差在 0.015 左右,彰顯泛化優勢。

5.3 真實世界的 “實戰檢驗”


在 COVID-19 數據的 “戰場試煉” 中,研究團隊以 Isle of Man 的疫情為樣本,將數據縮放至 5000 人口規模,采用指數分布模擬 10 天平均康復期。結果顯示,XGBoost 與 CNN 在疫情初期(t=10)已能給出接近真實值的估計(約 0.3),對應基本再生數 R0=2.4。經典方法雖在后期收斂,但機器學習方法的 “早期預警” 能力在公共衛生應急響應中具有關鍵價值。

6. 結論:算法選擇的 “導航地圖”


這項研究為流行病參數估計繪制了一幅清晰的 “算法導航地圖”:當擁有完整圖結構與 SI 邊信息時,經典最大似然法是 “精度先鋒”;若數據受限或面臨結構異質性,XGBoost 憑借高效性成為 “多面手”,而 CNN 則以泛化能力擔當 “魯棒衛士”。研究同時揭示,額外信息如感染頂點平均度可顯著降低誤差,為數據采集策略提供了理論依據。在 COVID-19 等新發傳染病的防控中,這些發現如同精準的 “算法武器庫”,助力公共衛生部門根據數據可及性與場景需求,快速選擇最優估計方案,為疫情預測與干預贏得寶貴時間。未來,結合更復雜的圖神經網絡與實時數據流,該框架有望進一步提升流行病建模的準確性與時效性,為全球健康安全構筑更堅固的 “數字防線”。

相關新聞
生物通微信公眾號
微信
新浪微博
  • 急聘職位
  • 高薪職位

知名企業招聘

熱點排行

    今日動態 | 人才市場 | 新技術專欄 | 中國科學人 | 云展臺 | BioHot | 云講堂直播 | 會展中心 | 特價專欄 | 技術快訊 | 免費試用

    版權所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    聯系信箱:

    粵ICP備09063491號

    亚洲欧美自拍偷拍,亚洲人成77777,亚洲男女自偷自拍,亚洲成年在线