《Digital Signal Processing》:A Survey of Multi-View Stereo 3D Reconstruction Algorithms Based on Deep Learning
編輯推薦:
本文聚焦多視圖立體(MVS)三維重建,系統回顧相關關鍵技術,著重介紹深度學習方法的進展,分析其流程、常用數據集與評估指標,對比不同網絡架構方法,探討新興技術應用,為該領域研究提供全面參考。
MVS 3D 重建的概述
多視圖立體(MVS)3D 重建旨在從二維圖像或傳感器數據生成三維模型,在計算機視覺和圖形學等眾多領域應用廣泛。比如在醫學領域,可助力醫生通過重建器官 3D 模型快速診斷病情;在文化遺產保護方面,能精確還原古跡原貌 。
數據獲取方式主要有接觸式和非接觸式。接觸式精度高但應用受限,非接觸式中的主動方法(如激光掃描、結構化光、TOF)操作復雜、成本高,被動方法雖操作簡便,卻難以捕捉精細表面細節,導致重建精度較低。
傳統 MVS 算法依場景表示形式,分為基于點云、體素和深度圖的方法;邳c云的方法專注提升生成模型的精度和密度;基于體素的方法利用光度一致性和可見性約束優化重建,但高分辨率圖像重建易受體素內存占用大的限制;基于深度圖的方法以 2.5D 格式表示 3D 幾何,對特征匹配精度要求高,低紋理區域匹配困難,易出現重建結果缺失或有偽影的問題 。
深度學習助力 MVS 3D 重建
深度學習的發展為 MVS 3D 重建帶來新契機;谏疃葘W習的 MVS 方法借助大規模 3D 場景數據集和真實深度數據的監督,能充分挖掘圖像豐富信息,有效應對傳統方法在遮擋和弱紋理區域匹配的難題,實現高質量 3D 重建。盡管訓練依賴真實深度數據,但在復雜場景下,其魯棒性、泛化能力和可擴展性優勢顯著,且通過合成數據集或自監督學習框架可降低對真實標注數據的依賴 。
深度學習基于 MVS 3D 重建流程主要包括特征提取、成本體構建、成本體正則化和損失函數幾部分。在特征提取階段,神經網絡學習特征提取函數fθ從圖像中提取相關特征;成本體構建基于提取的特征,結合多視圖信息構建;成本體正則化用于優化成本體,提高深度估計準確性;損失函數則衡量重建結果與真實值的差異,指導網絡訓練 。
常用數據集與評估指標
目前有多個用于 MVS 重建的基準數據集。例如 EPFL 數據集,涵蓋戶外建筑、室內環境和雕塑藝術品等多種場景。這些數據集為研究人員提供了豐富的實驗數據,在訓練和評估 MVS 算法性能時發揮著關鍵作用 。
評估 MVS 3D 重建方法性能的指標眾多,主要從幾何重建精度、新視圖合成質量、計算效率和內存使用等方面考量。不同指標從不同維度反映算法的優劣,有助于研究人員全面評估算法性能 。
不同網絡架構的 MVS 方法分析
基于網絡架構的演進,主要有基于卷積神經網絡(CNN)、循環神經網絡(RNN)和 Transformer 的結構這三種代表性范式。CNN 憑借局部特征提取能力,在 MVS 特征提取中廣泛應用;RNN 能處理序列數據,在捕捉視圖間時間或空間依賴關系上有獨特優勢;Transformer 基于自注意力機制,可全局感知特征關系,在一些任務中展現出強大性能 。通過對比這些不同架構方法在特征提取和處理階段的差異,研究人員能更深入了解它們的特點,為選擇合適的方法提供依據 。
新興技術在 MVS 中的應用
神經輻射場(NeRF)和 3D 高斯濺射(3DGS)等新興技術在 MVS 領域得到探索應用。NeRF 通過將場景表示為連續的輻射場,在合成高質量新視圖方面表現出色;3DGS 則利用高斯分布來表示場景,在重建精度和效率上有獨特優勢。對這兩種技術在 MVS 中實施過程的對比分析,揭示了它們在重建質量和適用性方面的優缺點 。
實驗評估與結論
通過在 DTU 數據集和 Tanks and Temples 數據集等主流數據集上對多種先進方法進行定量對比,從多個維度評估不同模型的重建性能。結果顯示不同方法在不同指標上各有優劣,為研究人員根據具體應用需求選擇合適方法提供了參考 。
從理論意義上講,對 MVS 重建的回顧梳理了該領域發展脈絡,揭示了各種方法的技術原理、實現細節和內在聯系。在實踐方面,為相關應用提供了更有效的技術支持 。本綜述系統涵蓋深度學習 3D 重建方法,分析新興技術,評估模型性能,但也存在一定局限性,如對某些小眾方法探討不足。未來 MVS 3D 重建研究可朝著提高重建精度、降低計算資源消耗、拓展應用場景等方向開展,以推動該領域進一步發展 。