-
生物通官微
陪你抓住生命科技
跳動的脈搏
HyperSegmenter:基于大核卷積的高效語義分割架構創新與性能突破
《Expert Systems with Applications》:HyperSegmenter: Reappraising the Potential of Large Kernel CNN Architecture in Efficient Semantic Segmentation
【字體: 大 中 小 】 時間:2025年05月19日 來源:Expert Systems with Applications 7.5
編輯推薦:
針對Vision Transformer(ViT)在語義分割中存在的局部歸納偏置和計算復雜度高的問題,本研究提出基于大核卷積的HyperSegmenter架構。通過設計HyperConv算子、SCU模塊和"三明治"結構解碼器(LKD+AGConv模塊),在ADE20K(52.23%)、Cityscapes(82.54%)和COCO-Stuff(48.91%)數據集上實現性能突破,為高效像素級分割提供新范式。
語義分割作為計算機視覺的核心任務,其目標是為圖像中的每個像素賦予語義標簽,在自動駕駛、醫療影像等領域具有重要應用。盡管Vision Transformer(ViT)通過自注意力機制實現了長程建模,但其將二維圖像展平為一維序列的處理方式破壞了空間層次結構,且二次計算復雜度限制了在高分辨率圖像中的應用。同時,現有大核卷積方法(如31×31感受野)存在參數爆炸和空間不敏感等問題,導致邊緣語義關聯性下降。這些挑戰促使研究人員重新審視CNN架構的潛力。
為解決上述問題,研究人員開展了一項創新性研究,提出HyperSegmenter架構。該研究通過三個關鍵創新:在編碼器采用多分支正交分解卷積(如21×5+5×21),保持各向異性結構先驗;設計動態特征門控機制替代注意力;構建"三明治"解碼器整合LKD和AGConv模塊。最終形成Tiny/Small/Base/Large四個變體,在Expert Systems with Applications發表。
關鍵技術包括:1) 基于ADE20K/Cityscapes/COCO-Stuff數據集的基準測試;2) 空間卷積單元(SCU)模塊構建;3) 大核分解(LKD)與自適應門控卷積(AGConv)的協同設計;4) 深度可分離卷積(DWConv)與HyperConv的融合優化。
設計思路驗證
通過系統消融實驗證實,SCU模塊能有效保持空間層次結構,而多分支HyperConv(7×7/11×11/21×21)的組合顯著優于單一核尺寸設計。在Cityscapes數據集上,這種組合使mIoU提升2.3%。
方法學創新
提出的HyperConv算子通過并行核分解實現深度可分離卷積的高效性(FLOPs降低37%)與方向感知能力的結合。實驗顯示,其各向異性特征提取能力使ADE20K上的邊界F1-score提高1.8倍。
數據集表現
在三個基準測試中:ADE20K(150類)達52.23% mIoU,較ConvNeXt提升4.1%;Cityscapes(19類)取得82.54%的領先成績;COCO-Stuff(171類)達48.91%,證明其在復雜場景的適應性。
模塊拆解分析
消融研究表明,移除SCU模塊導致ADE20K性能下降5.7%,證實其保持空間先驗的關鍵作用。而LKD模塊通過軸向核分離,將大核參數減少63%的同時保持等效感受野。
結論與展望
該研究通過卷積架構創新,成功解決了ViT在語義分割中的結構破壞和計算瓶頸問題。HyperSegmenter的四大變體為不同資源場景提供靈活選擇,其核心創新——正交分解卷積和門控金字塔融合——為后續研究開辟新方向。未來工作將探索動態核調整機制與三維醫學圖像分割的適配性。
討論
相比SLaK和RepLKNet等大核方法,HyperSegmenter通過空間分離約束實現更低秩表示,在保持ViT全局建模優勢的同時,其FLOPs僅相當于Swin-T的78%。這種"卷積優先"的設計哲學為邊緣設備部署提供可能,特別是在需要實時處理的自動駕駛場景中。研究還揭示了各向異性卷積核在保持毛發級細節方面的獨特優勢,這為顯微圖像分析等精細分割任務提供了新思路。
知名企業招聘