-
生物通官微
陪你抓住生命科技
跳動的脈搏
基于混合集成學習與可解釋AI的心血管風險預測模型:提升早期診斷與臨床決策的新策略
《Scientific Reports》:Predicting cardiovascular risk with hybrid ensemble learning and explainable AI
【字體: 大 中 小 】 時間:2025年05月24日 來源:Scientific Reports 3.8
編輯推薦:
為解決心血管疾病(CVD)高死亡率難題,Pooja Shah等研究者開發了結合梯度提升(GB)、CatBoost和神經網絡的混合集成學習框架,集成SHAP值、t-SNE等可解釋AI(XAI)技術,在公開數據集上實現AUC-ROC 0.82、F1分數82%的預測性能,為臨床提供透明化風險評估工具。
心血管疾病(CVD)是全球頭號健康殺手,每年導致1790萬人死亡,占全球總死亡數的32%。盡管醫學技術不斷進步,但早期預測仍是巨大挑戰——傳統模型依賴線性假設,難以捕捉血壓、BMI等風險因素間的復雜交互,而高性能機器學習模型又因"黑箱"特性難以被臨床信任。這一矛盾促使印度理工學院、馬拉瓦迪大學等機構的研究團隊在《Scientific Reports》發表突破性成果,通過融合混合集成學習與可解釋人工智能(XAI),構建出兼具高精度與透明度的CVD預測系統。
研究團隊采用三階段技術路線:首先整合IEEE Dataport等公開數據集,通過SMOTE過采樣與隨機欠采樣解決數據不平衡問題,并創新性構建膽固醇-葡萄糖比值(Chol/Gluc)等衍生特征;其次設計包含梯度提升(GB)、CatBoost、LightGBM等6種基模型的混合架構,以XGBoost作為元模型進行堆疊集成;最后運用SHAP值量化特征貢獻度,結合t-SNE降維可視化決策邊界。
數據預處理與特征工程
通過IQR方法清除血壓>250 mmHg、BMI>60等異常值,采用Min-Max標準化將連續變量縮放到[0,1]區間。特征工程階段創造性地引入血壓交互項(aphi*aplo)和Chol/Gluc比值等非線性特征,使模型AUC-ROC從0.75提升至0.82。
混合集成架構性能
在5折交叉驗證中,LightGBM以79.5%準確率成為最佳基模型,而集成框架進一步將綜合性能提升至82%準確率、83%召回率。關鍵對比實驗顯示,該模型在識別高風險患者(真陽性)方面顯著優于隨機森林(73% vs 82%召回率)。
可解釋性分析
SHAP分析揭示收縮壓(aphi)是最強預測因子,BMI與Chol/Gluc比值呈現非線性風險閾值。t-SNE投影清晰分離高低風險人群簇,而PCA顯示前兩個主成分可解釋72%的預測方差。
這項研究開創性地解決了醫療AI領域的"精度-可解釋性"悖論。臨床意義在于:首次實現XGBoost元模型對CatBoost(側重膽固醇指標)與LightGBM(專注血壓特征)預測結果的動態加權,使醫生能直觀理解不同風險因素的協同效應。局限性在于模型訓練僅基于7萬例數據,未來需通過穿戴設備實時數據融合進一步提升泛化能力。該成果為AI輔助心血管診療樹立了新標準——不僅告訴醫生"誰可能患病",更清晰地揭示"為什么患病"。
知名企業招聘