《Franklin Open》:Evaluating the efficacy and site-specific performance of machine learning approaches: A comprehensive review of autism detection models
編輯推薦:
本綜述聚焦自閉癥(ASD)早期檢測,分析 22 項研究中 18 個機器學習(ML)模型及 4 種先進方法(如 CNN、DASD 等)。對比其準確率、處理時間等,發現 LR 高效,CNN 適合神經影像檢測,為優化 ASD 預測模型提供方向。
1. 引言
自閉癥譜系障礙(ASD)是一種復雜的神經發育障礙,以社交互動、溝通和重復行為困難為特征。早期準確診斷對及時干預至關重要,傳統行為評估耗時、主觀且在許多醫療環境中不可及。機器學習(ML)可分析大量數據并識別模式,在 ASD 診斷中顯示出潛力,但其效果因數據集特征、特征選擇和模型復雜性而異。
現有研究存在參數調優繁瑣(如 XGB)、過擬合風險(如 DT)、假設條件獨立性(如 GNB)等不足。盡管有綜述探討了多種 ML 模型,但缺乏對邏輯回歸(LR)和集成方法的深入評估,且未充分關注特征重要性和模型可解釋性。本綜述全面評估 ASD 檢測中的 ML 方法,包括傳統分類器、集成學習和深度學習(DL)架構,旨在為研究人員提供結構化理解,并探索未來研究方向。
2. 文獻綜述
ASD 的早期識別和干預對改善長期預后至關重要,傳統診斷方法依賴主觀評估,導致識別延遲,推動了 ML 算法在 ASD 診斷中的研究。
2.1 研究方法與數據集
研究分析了 22 項研究,涉及 RF、GB、LR、KNN、SVM、DT、GNB、MLP、AB、XGB、LGB、CB、Bagging、ET 等 14 個 ML 模型,以及 CNN、DASD、EKNN、SOM 等先進方法。數據集包括行為、神經影像(如 ABIDE I 存儲庫的 fMRI 數據)、遺傳和電子健康記錄(EHR)數據,涵蓋不同年齡組(幼兒、兒童、青少年、成人)。
2.2 主要模型性能
- 傳統 ML 模型:LR 在高準確率下處理時間較少,適合效率驅動的應用;RF、XGB、GB、LGB 等集成學習模型表現出色,最高準確率達 100%。
- 深度學習模型:CNN 在神經影像數據中表現優異,準確率達 99.39%,但存在可解釋性和多模態集成挑戰。
- 其他方法:SOM 用于數據聚類,DASD 策略結合優化算法和集成診斷方法,在血液檢測數據中準確率達 93%。
2.3 挑戰與進展
當前挑戰包括類分布不平衡、模型可解釋性差、數據集不標準化等。進展體現在探索集成方法、特征工程和多模態數據融合,以提高預測的全面性。
3. 方法論
3.1 研究選擇標準
從多個學術來源系統收集 2018-2023 年發表的英文研究,聚焦 ASD 檢測的 ML 和 DL 算法,最終納入 22 項研究。
3.2 數據描述
使用 “Autism Diagnosis” 數據集評估模型性能,其他數據集包括 ABIDE、幼兒和成人數據集、PDDBI 等,涵蓋行為、生物標志物(如血液中的 K?、GST、LDH 等)和神經影像特征。
3.3 所選 ML 模型概述
- 分類算法:LR、RF、SVM 等在不同數據集和年齡組中表現各異,RF 在成人 ASD 檢測中準確率達 99%,LR 在幼兒行為數據中準確率 100%。
- 集成與優化方法:AB、XGB 等集成模型通過組合多個分類器提高準確率,如 AB 在幼兒數據中準確率 99.25%;優化算法(如 BGWO、BGA)用于特征選擇和數據精煉。
- 深度學習:CNN 用于 fMRI 數據,通過卷積、池化等層提取特征,實現 99.39% 的準確率;Auto-ASD-Network 結合 MLP 和 SVM,利用 SMOTE 進行數據增強。
4. 結果與發現
4.1 模型性能比較
- 準確率:RF、GB、XGB、LGB、AB 等集成模型在多個研究中達到 100% 準確率;CNN 在神經影像中準確率 99.39%;LR 在行為數據中效率高且準確。
- 計算成本:LR 訓練時間僅 0.0054 秒,KNN 預測速度快但精度較低;CB 訓練時間最長(1.746 秒)。
4.2 關鍵發現
- 模型選擇應權衡準確率和處理時間,如 LR 適合快速篩查,CNN 適合神經影像分析。
- 多模態數據融合(行為、影像、生物標志物)和可解釋 AI(XAI)是未來研究方向,以提高模型的臨床適用性和可信度。
5. 討論
模型有效性受年齡組、數據集特征和研究目標影響。LR、RF 等傳統模型在行為數據中表現良好,CNN 在神經影像中優勢顯著,但均面臨可解釋性和數據集偏差問題。未來需整合多模態數據,優化計算效率,加強外部驗證和倫理考量(如數據隱私、公平性)。
6. 結論
本綜述全面評估了 ASD 檢測中的 ML 方法,發現集成學習和 DL 模型在準確率上表現突出,但需根據具體需求選擇模型。未來研究應注重算法魯棒性、倫理問題和多學科協作,以開發更準確、可解釋和可及的 ASD 檢測工具。