《Engineering Applications of Artificial Intelligence》:Multi-class Agent Trajectory Prediction with Selective State Spaces for autonomous driving
編輯推薦:
在自動駕駛等場景中,多類智能體軌跡預測面臨場景復雜、交互多變等挑戰。研究人員提出 MTPSS 模型,從時空維度建模交互,結合 Mamba 塊與 Neural ODE。實驗表明其在 SDD 和 inD 數據集上性能優于 SOTA,為多類軌跡預測提供新方案。
自動駕駛的核心挑戰之一是精準預測周圍多類智能體(如行人、汽車、自行車等)的運動軌跡。在復雜交通場景中,不同類別智能體的行為模式差異顯著:行人軌跡隨機性強,車輛軌跡則更受交通規則約束,且各類智能體間存在動態交互,F有研究多聚焦單類智能體,忽略多類智能體間的隱含關聯,導致預測模型在混合交通場景中精度不足。例如,傳統圖神經網絡(GNNs)和圖 Transformer(Graph Transformers)雖能處理圖結構數據,但存在計算復雜度高或長程依賴捕捉能力有限的問題,難以應對多類智能體的速度差異、尺寸影響等復雜因素。因此,如何高效建模多類智能體的時空交互關系,提升軌跡預測的準確性與魯棒性,成為自動駕駛領域亟待突破的關鍵問題。
為解決上述難題,國內研究團隊開展了多類智能體軌跡預測的創新性研究。研究團隊提出了一種基于選擇性狀態空間的多類智能體軌跡預測模型(Multi-class Agent Trajectory Prediction with Selective State Spaces, MTPSS),旨在通過時空維度的聯合建模,精準捕捉不同類別智能體的運動規律與交互關系。該研究成果發表在《Engineering Applications of Artificial Intelligence》。
研究團隊采用的關鍵技術方法包括:
- 時空聯合建?蚣:將智能體交互建模為空間圖(G=(V,E)),通過基于類別的節點排序策略(將大尺寸類別節點后置以增強上下文訪問)和 Mamba 塊的雙向掃描,提取全局結構信息;同時利用 Mamba 塊沿時間軸掃描歷史軌跡序列,捕捉長程時間依賴。
- 局部與全局信息融合:結合圖注意力網絡(GAT)提取節點鄰域的局部結構信息,與 Mamba 塊提取的全局信息互補。
- 物理可行軌跡生成:融合數據驅動的 GRU 模塊與神經常微分方程(Neural ODE),通過求解微分方程平滑預測軌跡,確保軌跡符合物理動態特性。
實驗結果
數據集與評估指標
研究在斯坦福無人機數據集(SDD)和路口無人機數據集(inD)上展開,采用平均位移誤差(ADE)、最終位移誤差(FDE)等指標評估預測精度。
對比實驗
與現有先進方法(SOTA)相比,MTPSS 在兩類數據集上均展現出更低的 ADE 和 FDE。例如,在行人、汽車、自行車等多類智能體的預測中,MTPSS 的誤差指標顯著優于傳統 GNNs 和 Graph Transformers 模型,驗證了其在多類交互場景中的有效性。
消融實驗
通過移除模型關鍵組件(如類別排序策略、Mamba 塊、Neural ODE 等)進行消融實驗,結果表明每個組件均對預測性能有顯著貢獻。其中,基于類別的節點排序策略可提升模型對尺寸差異的敏感性,Mamba 塊的雙向掃描有效增強了全局結構信息的提取能力,而 Neural ODE 的引入則顯著提升了軌跡的物理合理性。
定性分析
可視化結果顯示,MTPSS 生成的軌跡具有良好的多樣性,能合理反映不同類別智能體的行為模式(如行人的隨機路徑、車輛的規則行駛軌跡),且在智能體交互場景中(如大型車輛通過時周邊智能體的避讓行為)表現出更符合真實交通規則的預測結果。
結論與意義
MTPSS 通過時空維度的選擇性狀態空間建模,有效解決了多類智能體軌跡預測中交互關系復雜、長程依賴難以捕捉的問題。其創新點包括:
- 提出基于類別的節點排序策略,增強模型對智能體尺寸和速度差異的感知能力;
- 結合 Mamba 塊的線性時間序列建模優勢,實現高效的時空特征提;
- 引入 Neural ODE 確保軌跡的物理可行性,提升預測結果的實際應用價值。
該研究為自動駕駛場景中的多智能體交互建模提供了新范式,其提出的方法在復雜交通環境中具有顯著的實用潛力,有助于提升自動駕駛系統的安全性與可靠性。未來研究可進一步拓展至更復雜的交通場景(如多路口、夜間環境等),并探索與實時決策模塊的深度融合,推動自動駕駛技術的商業化進程。