-
生物通官微
陪你抓住生命科技
跳動的脈搏
基于Mamba的高性能點-體素特征集抽象方法在自動駕駛3D目標檢測中的突破性應用
《Expert Systems with Applications》:High Performance Point-Voxel Feature Set Abstraction With Mamba for 3D Object Detection
【字體: 大 中 小 】 時間:2025年05月15日 來源:Expert Systems with Applications 7.5
編輯推薦:
為解決自動駕駛中3D目標檢測的精度與效率瓶頸,吉林教育省屬團隊提出HP-PV-RCNN算法,創新性融合線性角注意力、Mamba2加速的體素特征提取、KAN網絡關鍵點捕捉及Fuzzy-NMS后處理技術,在Kitti數據集上實現車輛(83.73%)、自行車(76.32%)檢測精度的顯著提升,為自動駕駛安全提供關鍵技術支撐。
在自動駕駛技術飛速發展的今天,環境感知的精準度直接關系到行車安全。激光雷達(LiDAR)生成的點云數據雖能提供高精度的三維空間信息,但如何快速、準確地從中識別車輛、行人等目標仍是巨大挑戰,F有方法如PV-RCNN++雖取得進展,卻受限于感受野狹窄、體素特征提取效率低、點云非線性特征建模不足等問題,導致復雜場景下檢測精度難以突破。
針對這一技術困局,吉林教育省屬研究團隊在《Expert Systems with Applications》發表重磅研究,提出名為HP-PV-RCNN的創新算法。該研究通過四大核心技術突破:1)采用線性角注意力(Linear Angular Attention)擴大非空體素感受野;2)基于狀態空間模型(State Space Model, SSM)的Mamba2加速全局體素特征提;3)利用科爾莫戈羅夫-阿諾德網絡(Kolmogorov-Arnold Network, KAN)實現關鍵點特征的分段最遠點采樣(S-FPS);4)創新模糊非極大值抑制(Fuzzy-NMS)動態調整后處理閾值。這些技術形成高性能點-體素區域卷積神經網絡(HP-PV-RCNN),在Kitti、NuScenes等公開數據集驗證中表現卓越。
關鍵技術方法包括:基于動態體素化(DV)的預處理、Mamba2架構的3D特征提取主干網絡、KAN多層網絡擬合點集特征,以及融合先驗知識的Fuzzy-NMS后處理。實驗采用Kitti中等難度數據集評估,樣本涵蓋車輛、自行車和行人三類目標。
HP-PV-RCNN框架
研究構建三階段處理流程:預處理階段通過動態體素化轉換原始點云;特征提取階段同步運行3D主干網絡(捕獲空間關系)、鳥瞰圖(BEV)主干網絡和關鍵點網絡;檢測階段采用兩階段檢測頭。該設計首次實現點-體素特征的深度非線性融合。
實驗結果
在Kitti數據集上,HP-PV-RCNN車輛檢測平均精度達83.73%,較現有方法提升顯著。Waymo和NuScenes數據集測試同樣驗證其泛化能力,特別是在密集場景中,Fuzzy-NMS有效減少冗余框干擾。
結論與意義
該研究突破傳統稀疏卷積(Sparse Convolution)的計算局限,通過線性角注意力與Mamba2的結合,實現長序列全局特征的快速捕獲;KAN網絡對點云非線性關系的建模能力超越傳統全連接層;Fuzzy-NMS首次將目標空間分布先驗引入NMS過程。這些創新使HP-PV-RCNN成為自動駕駛3D檢測領域的新標桿,代碼已開源(GitHub: jlauwcj/HP-PV-RCNN),為行業安全升級提供重要技術工具。研究獲吉林省教育廳(項目號JJKH20240441HT)等多項基金支持,團隊聲明無利益沖突。
知名企業招聘