《Computer Vision and Image Understanding》:Equipping sketch patches with context-aware positional encoding for graphic sketch representation
編輯推薦:
當前利用草圖繪制順序進行草圖學習時,構建的圖邊不可靠。研究人員提出 DC - gra2seq,為草圖補丁配備上下文感知位置編碼(PE)。實驗表明該方法顯著提升草圖修復和可控草圖合成效果,有助于更好地進行草圖學習。
在人類歷史長河中,徒手草圖作為一種獨特的交流方式,承載著豐富的情感與信息。草圖的繪制順序詳細記錄了每一筆的繪制過程,為模型理解草圖組件的排列順序提供了特殊視角。然而,日常生活中常見的草圖圖像卻無法存儲這一信息。近年來,不少研究嘗試利用草圖繪制順序中的順序信息,結合草圖圖像的視覺模式進行草圖學習。其中一種常見的做法是采用雙分支編碼器,同時從草圖圖像及其對應的繪制序列中學習草圖表征;另一種有效方法則是將繪制順序融入圖形草圖表征,比如依據繪制順序構建圖邊。
但問題也隨之而來,由于草圖繪制方式的多樣性,不同繪制順序會給圖邊構建帶來不確定性。這種不確定性會干擾通過圖卷積網絡(GCN)進行的信息聚合,導致草圖學習不準確。畢竟,草圖中的順序關系和自然語言處理中標記之間的上下文關系有著本質區別,在自然語言里交換兩個標記化短語的位置會使句子語義受損,可草圖的繪制順序卻不會決定其在畫布上最終呈現的樣子,這就使得繪制順序中的順序位置難以準確揭示草圖組件間的實際上下文關系。
為了解決這些問題,來自未知研究機構的研究人員開展了一項極具價值的研究。他們提出了 Drawing - order - enhanced Context - aware graph to sequence(DC - gra2seq)模型,旨在通過引入上下文感知位置編碼(PE)更好地利用草圖繪制順序,學習圖形草圖表征。研究結果顯示,DC - gra2seq 在草圖修復和可控草圖合成任務上取得了顯著的改進,這一成果意義非凡,為草圖學習領域開辟了新的方向,提供了更有效的研究思路和方法,相關研究成果發表在《Computer Vision and Image Understanding》上。
在研究過程中,研究人員運用了多個關鍵技術方法。首先,使用卷積神經網絡(CNN)編碼器來獲取裁剪后的草圖補丁嵌入,將其作為圖節點。其次,通過計算補丁嵌入之間的掩碼系數構建圖邊。在信息聚合階段,借助 GCN 層,為圖節點配備絕對和相對位置編碼(PE),充分利用繪制順序中的順序和上下文關系,生成最終的草圖代碼。最后,利用循環神經網絡(RNN)解碼器進行草圖生成。
下面來詳細介紹研究結果:
- 學習草圖表征:草圖通常由光柵圖像或坐標序列構成。對于草圖圖像,基于 CNN 的方法可用于捕捉繪制筆觸間的空間依賴關系;對于草圖序列,則需提取時間關系。研究人員通過獨特的方式將二者結合,為后續研究奠定基礎。
- 方法學:DC - gra2seq 模型的核心在于,利用 CNN 編碼器捕獲草圖補丁嵌入作為圖節點,通過補丁嵌入計算掩碼系數構建圖邊。在 GCN 層進行信息聚合時,為圖節點配備絕對和相對 PE,利用繪制順序中的關系,最終生成草圖代碼。這一過程充分融合了多種技術,實現了對草圖繪制順序的有效利用。
- 實驗與分析:研究人員在可控草圖合成和草圖修復這兩個任務上對 DC - gra2seq 模型進行測試。通過大量實驗驗證了 DC - gra2seq 能夠學習到準確且魯棒的草圖表征,在這兩個任務上都取得了顯著的提升效果,證明了該模型的有效性。
研究結論和討論部分進一步強調了 DC - gra2seq 模型的重要意義。該模型通過為每個草圖補丁配備正弦絕對 PE,明確了補丁在繪制順序中的繪制時間;同時引入可學習的相對 PE,對草圖補丁間的上下文關系進行編碼。這兩種 PE 都被注入到圖節點而非圖邊,有效避免了草圖繪制變體對學習的干擾,使模型能夠學習到更魯棒的草圖表征。這不僅為草圖學習提供了新的方法和思路,還為相關領域的發展帶來了積極的推動作用,有望在未來的研究和應用中發揮更大的價值。