-
生物通官微
陪你抓住生命科技
跳動的脈搏
基于結構化狀態空間序列模型與卷積神經網絡的混合架構在實時目標檢測中的應用
《Engineering Applications of Artificial Intelligence》:A hybrid architecture based on structured state space sequence model and convolutional neural network for real-time object detection
【字體: 大 中 小 】 時間:2025年05月22日 來源:Engineering Applications of Artificial Intelligence 7.5
編輯推薦:
本文針對邊緣設備實時目標檢測中高處理速度與低延遲的需求,提出了一種結合結構化狀態空間序列模型(Mamba)與輕量化空間注意力機制的混合架構。研究通過嵌入Mamba模塊捕獲長程依賴關系,并設計高效Ghost模塊降低計算開銷,在MS COCO數據集上實現41.1 AP(+1.6 AP提升),水下場景DUO數據集達69.5 AP(超越YOLO11 0.3 AP),為資源受限場景提供高性能解決方案。
在智能安防、自動駕駛和海洋工程等領域,實時目標檢測技術正面臨嚴峻挑戰:邊緣設備的算力限制與復雜場景的檢測需求形成尖銳矛盾。盡管YOLO系列通過Cross Stage Partial Network(CSPNet)等創新持續優化,但傳統自注意力機制(self-attention)的二次方復雜度(quadratic complexity)使其難以部署于網絡淺層,而輕量化設計往往伴隨性能驟降。更棘手的是,水下等復雜場景中背景干擾會進一步降低現有模型的平均精度(Average Precision, AP)。
大連海事大學的研究團隊在《Engineering Applications of Artificial Intelligence》發表的研究中,創造性地將結構化狀態空間序列模型(Mamba)與卷積神經網絡(CNN)融合。通過分析YOLOv1到YOLO11的演進脈絡,團隊發現兩個關鍵突破點:長程依賴捕獲與參數效率提升。研究采用三項核心技術:1)在骨干網絡早期嵌入Mamba模塊(線性復雜度),通過輕量化空間注意力補償其方向感知缺陷;2)改進Ghost模塊,利用通道混洗(channel shuffle)提升參數利用率;3)構建混合架構Hybrid-YOLO,在MS COCO和DUO數據集分別采用公開樣本驗證。
實驗驗證
在MS COCO測試中,模型以納米級(nano scale)復雜度實現41.1 AP,較基線提升1.6 AP;水下檢測場景下,DUO數據集69.5 AP的成績超越YOLO11 0.3 AP。消融實驗(ablation studies)證實:空間注意力使Mamba在Pascal VOC上的AP提升2.1%,改進版Ghost模塊減少15%參數量卻保持同等性能。
結論與意義
該研究首次實現Mamba在視覺任務中的高效適配,其混合架構突破傳統注意力機制(如Partial Self-Attention Module)的計算瓶頸。實際價值體現在:1)為邊緣設備提供AP提升1.6-0.3的解決方案;2)Ghost模塊改進推動輕量化設計理論發展;3)水下檢測驗證拓展應用邊界。團隊公開的代碼庫(Hybrid-YOLO)已獲Fundamental Research Funds for the Central Universities(3132019344)等資助支持。
知名企業招聘