《Scientific Reports》:Explainable machine learning for predicting lung metastasis of colorectal cancer
編輯推薦:
結直腸癌(CRC)患者發生肺轉移預后較差,為構建有效預測模型,研究人員利用機器學習(ML)和 Shapley Additive exPlanations(SHAP)開展研究。結果顯示隨機森林(RF)算法預測能力最佳,還構建了網絡計算器,有助于制定個性化治療方案。
在醫學領域,癌癥一直是威脅人類健康的重大難題。結直腸癌(Colorectal cancer,CRC)作為一種常見的惡性腫瘤,其發病率和死亡率都不容小覷。大約 50% 的 CRC 患者術后死亡與遠處轉移(Distant metastasis,DM)有關,而肺是 CRC 常見的轉移部位之一,約 10% - 15% 的 CRC 患者會出現肺轉移。對于這些患者來說,早期發現肺轉移至關重要,因為與其他轉移相比,肺轉移的預后相對較好,早期診斷并給予適當治療,部分患者的 5 年生存率可達 50% 以上。然而,目前現有的肺轉移檢測方法,如 PET - CT 和活檢,存在諸多局限性,PET - CT 成本高昂且有輻射風險,活檢則可能導致腫瘤播散和假陰性結果。同時,以往的預測模型缺乏外部驗證數據,性能也有待提高。
為了解決這些問題,來自首都醫科大學北京電力醫院普外科以及中國通用技術集團中國臨床醫療研究中心肝膽疾病普外科的研究人員開展了一項極具意義的研究。他們旨在構建并驗證一個利用機器學習(Machine learning,ML)評估新診斷 CRC 患者肺轉移風險的預測模型,并使用 Shapley Additive exPlanations(SHAP)對模型進行解釋。
研究人員用到的主要關鍵技術方法如下:
- 數據來源:從美國監測、流行病學和最終結果(SEER)數據庫中篩選 2010 - 2015 年的 CRC 患者數據,同時選取首都醫科大學北京電力醫院患者數據用于外部驗證。
- 構建模型:運用 Python 3.9.12 軟件構建 7 種標準 ML 算法模型,包括隨機森林(Random Forest,RF)、決策樹(Decision Tree,DT)等。
- 模型評估:采用 AUC 和 AUPR 等指標評估模型預測性能,利用 SHAP 對最優模型變量的重要性進行可視化和解釋。
研究結果如下:
- 患者數據情況:研究共納入 39,674 例 CRC 患者,其中 1,369 例(3.5%)發生肺轉移,并收集 207 例中國醫院患者數據進行外部驗證。
- 模型性能對比:7 種 ML 算法中,經過采樣技術訓練的模型表現優于未經過采樣的。RF 算法在內部測試集和外部驗證集中均展現出卓越的預測性能,AUC 分別達到 0.980 和 0.927,遠超傳統邏輯回歸(Logistic regression,LR)模型(AUC = 0.854)12。
- 關鍵預測因素:通過 SHAP 分析,確定腫瘤沉積物、癌胚抗原(CEA)水平和 T 分期是 CRC 患者肺轉移的重要預測因素。腫瘤沉積物是最顯著的預測因素,CEA 水平和 T 分期次之。同時,研究還發現不同特征對肺轉移風險的影響,如 CEA 陽性、腫瘤大小≥5 cm 等是肺轉移的風險因素,而 CEA 陰性、I 級腫瘤等是保護因素34。
- 網絡計算器構建:研究團隊利用 RF 算法構建了在線網絡計算器(http://121.43.117.60:8003/),方便臨床使用。
研究結論和討論部分表明,該研究構建的基于 RF 算法的預測模型在預測 CRC 肺轉移方面具有良好性能,優于傳統 LR 模型,為臨床醫生提供了更有效的預測工具,有助于制定個性化治療方案。然而,研究也存在一些局限性,如驗證隊列是單中心且患者數量有限,模型準確性可通過納入更多轉移風險因素進一步提高,SEER 數據庫未提供具體治療方案等。但總體而言,該研究為 CRC 肺轉移的預測和臨床管理開辟了新方向,隨著數據庫的不斷擴大和算法的優化,機器學習算法在醫學領域將發揮更大的作用,有望為患者帶來更好的預后。