《Scientific Reports》:Artificial intelligence for severity triage based on conversations in an emergency department in Korea
編輯推薦:
急診室面臨患者涌入多樣、醫護資源緊張及傳統分診系統易出現過度 / 不足分診等問題。研究人員利用 AI 驅動的 NLP 算法分析醫患對話,對患者嚴重程度自動分類。結果顯示 SVM 性能最佳(AUROC=0.764),該研究為緩解急診擁擠等提供新方向。
在急診醫學領域,快速精準的患者嚴重程度分診是挽救生命的關鍵。然而,韓國急診部門正面臨著患者流量激增與醫護資源不足的雙重挑戰,傳統的韓國分診 acuity 量表(KTAS)雖已應用,但依賴人工評估易出現過度分診(高估病情)或不足分診(低估危急情況),導致資源錯配和救治延誤。此外,急診對話中常包含患者混亂表述、多人間斷交流等非結構化數據,傳統方法難以有效利用這些信息。在此背景下,開展基于真實急診對話的自動化分診研究,對提升急救效率、優化資源分配具有重要現實意義。
韓國嘉泉大學(Gachon University)與高麗大學(Korea University)的研究團隊合作,針對急診室中醫護人員與患者的床邊對話展開研究,旨在通過人工智能(AI)和自然語言處理(NLP)技術,開發一種基于對話內容的患者嚴重程度自動分類系統。該研究成果發表在《Scientific Reports》上,為急診分診的智能化提供了新的技術路徑。
研究人員收集了韓國高麗大學三家附屬醫院急診室 2022 年 6 月至 12 月期間的 1048 份分診階段醫患及家屬對話轉錄文本,數據覆蓋 KTAS 3(嚴重)、4 和 5(輕微)等級別。研究采用兩類 AI 算法:一類是基于詞頻 - 逆文檔頻率(TF-IDF)的傳統機器學習模型,包括支持向量機(SVM)、邏輯回歸(LR)、隨機森林(RF)和極端梯度提升(XGB);另一類是神經網絡模型,如多層感知機(MLP)、雙向長短期記憶網絡(BiLSTM)和卷積神經網絡(CNN)。通過十折交叉驗證評估模型性能,以受試者工作特征曲線下面積(AUROC)為核心指標。
模型性能比較
在傳統機器學習模型中,支持向量機(SVM)表現最佳,AUROC 為 0.764(95% CI 0.019),邏輯回歸(LR)緊隨其后(AUROC=0.763)。神經網絡模型中,多層感知機(MLP)的 AUROC 為 0.759,略高于雙向長短期記憶網絡(BiLSTM,AUROC=0.741)和卷積神經網絡(CNN,AUROC=0.735)。盡管傳統模型在 AUROC 上略占優勢,但神經網絡模型在召回率和精確率的平衡上表現更優,如 MLP 的精確率達 0.826,顯示出對復雜對話語境的更強捕捉能力。
真實數據的挑戰與創新
與既往基于模擬對話或結構化數據的研究不同,本研究首次利用真實急診場景中的多人間斷對話數據,包含患者因情緒緊張導致的混亂表述、家屬補充信息的打斷等 “噪音”。研究發現,TF-IDF 能有效提取與病情相關的關鍵詞(如疼痛程度、癥狀持續時間),而神經網絡模型通過捕捉對話序列中的上下文依賴(如 BiLSTM 的雙向處理),可更好理解復雜語義關系。盡管模型性能受限于樣本量(1048 例)和數據不平衡(KTAS 3 占 753 例),但證實了真實對話數據用于分診的可行性。
與現有研究的差異化
對比韓國 Choi 等人基于分診記錄的 NLP 研究和 Lee 等人的模擬對話實驗,本研究的獨特價值在于:①數據來源于真實急診現場,涵蓋醫患及家屬的多方互動;②首次在韓國急診環境中驗證對話文本的獨立分診價值,為后續融合生命體征等多模態數據奠定基礎;③發現傳統機器學習與神經網絡模型在不同維度的優勢,為算法選擇提供實證依據。
研究結論表明,基于急診對話的 AI 分診系統可輔助醫護人員快速識別嚴重患者,緩解急診擁擠并縮短等待時間。盡管當前模型性能(AUROC 0.711-0.764)受限于數據復雜性,但為引入大型語言模型(LLMs)和多模態融合提供了前期驗證。未來研究方向包括:①擴大樣本量并納入 KTAS 1-2 級患者;②結合 SHAP 值等可解釋 AI(XAI)技術,解析關鍵對話特征;③開發韓語醫學專用 LLM,提升對復雜句式和方言的處理能力。
該研究突破了傳統依賴結構化數據的分診模式,證明非結構化對話蘊含豐富臨床信息,為急診醫學與 AI 的交叉應用開辟了新路徑。其成果不僅有助于優化韓國急診資源分配,也為全球急診 AI 分診研究提供了真實世界數據范式,尤其對語言結構復雜的語種(如漢語、日語)具有方法學借鑒意義。通過持續優化算法和擴展數據維度,AI 驅動的對話分析有望成為未來急診智能分診的核心工具之一。