基于偽排練的表格數據分類方法:克服災難性遺忘的增量終身學習框架TRIL3

《Engineering Applications of Artificial Intelligence》:Overcoming catastrophic forgetting in tabular data classification: A pseudorehearsal-based approach

【字體: 時間:2025年05月19日 來源:Engineering Applications of Artificial Intelligence 7.5

編輯推薦:

  針對表格數據分類中災難性遺忘(Catastrophic Forgetting)的挑戰,研究人員提出了一種基于偽排練(Pseudorehearsal)的增量終身學習框架TRIL3。該框架結合增量學習向量量化(XuILVQ)和深度神經決策森林(DNDF),通過生成50%合成數據實現知識保留,在非穩態數據流中表現優于現有方法,為醫療診斷和工業控制等領域的在線學習提供了新思路。

  

在人工智能領域,持續學習(Continual Learning, CL)系統面臨著一個根本性挑戰:當模型不斷學習新知識時,往往會迅速遺忘先前掌握的信息,這種現象被稱為"災難性遺忘"(Catastrophic Forgetting)。這一問題在醫療診斷、工業制造等動態數據場景中尤為突出,因為這些領域的模型需要持續適應新出現的疾病變體或設備配置,同時保持對已有知識的準確判斷。盡管現有研究提出了動態架構、正則化等技術,但多數方案僅適用于圖像數據,且依賴任務邊界定義,難以應對現實世界中無明確任務劃分的表格數據流。

針對這一空白,研究人員開發了TRIL3框架——首個專門針對表格數據的偽排練增量終身學習方法。該框架創新性地將增量學習向量量化算法(XuILVQ)作為原型生成器,與改進的深度神經決策森林(DNDF)分類器結合,通過動態生成合成數據來平衡新舊知識。實驗證明,僅需50%的合成數據即可在CICIDS-2017網絡入侵檢測、糖尿病再入院預測等數據集上超越傳統批訓練方法,相關成果發表在《Engineering Applications of Artificial Intelligence》。

關鍵技術包括:(1)XuILVQ算法實時更新原型集,通過距離閾值機制自動識別新數據分布;(2)改進的DNDF支持增量訓練,利用隨機梯度下降進行參數更新;(3)標準化數據流處理模塊確保特征一致性。研究采用CICIDS-2017、糖尿病電子病歷等真實數據集驗證性能,通過刻意"遺忘階段"測試模型魯棒性。

研究結果顯示:在CICIDS-2017數據集上,TRIL3在遺忘階段仍保持0.99的F1分數,與離線訓練相當;對于不平衡的糖尿病數據集,其分類性能(F1=0.52)顯著優于傳統回放策略(0.44)。通過UMAP可視化證實,XuILVQ生成的原型能精確捕捉原始數據分布特征,如網絡攻擊檢測中僅用80個原型即可表征復雜模式。

與現有方法對比發現:在信用卡違約預測任務中,TRIL3(50%合成數據)的F1達0.55,而基于緩沖區的回放方法僅0.45。值得注意的是,當合成數據比例降至37.5%時,模型在葡萄酒分類中仍保持0.98召回率,證明其樣本效率優勢。但研究也發現,對于小樣本數據集(如葡萄酒質量),傳統MLP網絡表現更優。

結論部分強調,TRIL3首次實現了表格數據流的任務無關(task-free)持續學習,其核心突破在于:(1)XuILVQ的在線原型生成機制避免了數據存儲的隱私風險;(2)動態調整的合成數據比例(50%為最優)平衡了記憶與計算成本;(3)在概念漂移(Concept Drift)場景下,性能較靜態模型提升達32%。該框架為醫療監測、金融風控等需要實時適應數據變化的領域提供了可擴展解決方案,未來研究將擴展至多分類和時間序列場景。

相關新聞
生物通微信公眾號
微信
新浪微博
  • 急聘職位
  • 高薪職位

知名企業招聘

熱點排行

    今日動態 | 人才市場 | 新技術專欄 | 中國科學人 | 云展臺 | BioHot | 云講堂直播 | 會展中心 | 特價專欄 | 技術快訊 | 免費試用

    版權所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    聯系信箱:

    粵ICP備09063491號

    亚洲欧美自拍偷拍,亚洲人成77777,亚洲男女自偷自拍,亚洲成年在线