TIPS：一種基于文本交互比例評分的深度學習模型解釋性評估新指標 - 生物通

今日動態返回首頁

登錄會員注冊生物通快訊免費訂閱

生物通首頁 > 今日動態 > 正文

TIPS：一種基于文本交互比例評分的深度學習模型解釋性評估新指標

《Expert Systems with Applications》：TIPS: A Text Interaction Evaluation Metric for Learning Model Interpretation

【字體：大中小】 時間：2025年05月19日 來源：Expert Systems with Applications 7.5

編輯推薦：

　　【編輯推薦】針對現有DNN解釋方法存在交互貢獻評估偏差和額外交互干擾的問題，研究者提出TIPS（Text Interaction Proportional Score）評估指標。通過"pick方案"精準捕獲文本片段內部交互，采用相對交互貢獻比衡量重要性，在LSTM/CNN/BERT模型和6個基準數據集上驗證顯示，該指標能準確區分重要/非重要文本片段，為NLP模型可解釋性研究提供新范式。

　　

在人工智能技術快速發展的今天，深度神經網絡(DNN)已成為自然語言處理(NLP)任務的核心工具。然而這些"黑箱"模型內部復雜的運算機制，使得人們難以理解其決策邏輯——當BERT或LSTM模型判定一段影評具有負面情緒時，究竟是哪些關鍵詞組合觸發了這個判斷？現有解釋方法主要通過分析詞語交互(interaction)來揭示模型行為，但評估環節卻存在兩大痛點：一是絕對化的交互貢獻評估會因文本自身交互強度差異導致誤判，二是傳統shuffling方法會破壞非目標區域的交互關系。這些問題嚴重制約著可解釋性研究的可靠性。

針對這一研究瓶頸，國內研究團隊在《Expert Systems with Applications》發表了創新性成果。研究者設計出TIPS（文本交互比例評分）這一全新評估指標，其核心技術包括：1）采用pick方案精準隔離目標文本片段的交互效應；2）通過相對貢獻比（目標片段交互貢獻與全文交互貢獻之比）實現無偏評估；3）在IMDB等6個基準數據集上，結合HEDGE和IIT兩種解釋方法對LSTM、CNN和BERT三類模型進行系統驗證。

研究結果展現出三大突破性發現：
【Accurate】通過設計極端場景測試（零交互/全交互文本），證實TIPS能精準捕獲目標片段內的真實交互，排除外部干擾。在CoLA語法數據集上，其評估準確率較傳統cohesion-score提升達37.2%。

【Unbiased】針對人工構建的強弱交互對比數據集，相對貢獻比機制有效避免了傳統方法±28.6%的評估偏差。特別在AG News數據中，重要片段的識別準確率提升至89.3%。

【Discriminative】在SST-2情感分析任務中，TIPS對重要/非重要片段的區分度達到0.82（基準確度0.68），且在不同模型架構間保持穩定性能。案例研究顯示，其對BERT模型注意力機制的解析結果與人工標注吻合度達91%。

這項研究為可解釋AI領域提供了方法論層面的重要創新。首先，pick-shuffle機制解決了交互評估的"污染"問題，為解釋方法建立了干凈的實驗環境；其次，相對貢獻比思想突破了傳統絕對值評估的局限性，使不同強度文本的解釋結果具有可比性；更重要的是，該指標與模型架構無關的特性，使其可廣泛應用于NLP各領域的模型解釋工作。研究者特別指出，未來可將TIPS框架拓展至多模態交互評估，并探索其在醫療文本分析等高風險決策場景的應用價值。這項工作不僅提升了DNN模型的可信度，也為構建透明、可靠的人工智能系統提供了新的技術路徑。

相關新聞

生物通微信公眾號

微信

新浪微博

搜索
國際
國內
人物
產業
熱點
科普

熱搜：深度學習|自然語言處理(NLP)|神經網絡可解釋性|文本交互|Shapley指數|評估指標|LSTM|CNN|BERT|語義分析|模型可信度

急聘職位
高薪職位

知名企業招聘

熱點排行

新聞專題

今日動態 | 人才市場 | 新技術專欄 | 中國科學人 | 云展臺 | BioHot | 云講堂直播 | 會展中心 | 特價專欄 | 技術快訊 | 免費試用

版權所有生物通

Copyright© eBiotrade.com, All Rights Reserved

聯系信箱：

粵ICP備09063491號

亚洲欧美自拍偷拍,亚洲人成77777,亚洲男女自偷自拍,亚洲成年在线