《Scientific Data》:OSMlanduse a dataset of European Union land use at 10?m resolution derived from OpenStreetMap and Sentinel-2
編輯推薦:
目前,獲取充足帶主題標簽的數據以提升人工智能分類訓練性能受限。研究人員開展 “OSMlanduse:歐盟 10 米分辨率土地利用數據集” 研究,融合 OpenStreetMap 和 Sentinel-2 數據,制成歐盟土地利用圖,精度達 89% ,為相關研究提供重要數據支持。
在地球的演化進程中,人類活動對陸地表面產生了深遠影響。準確掌握土地利用(LU)和土地覆蓋(LC)的時空信息,對于洞悉環境變化和人類活動意義非凡。借助遙感技術、開放數據政策以及人工智能的力量,生成連貫的大面積土地利用 / 土地覆蓋(LULC)產品成為可能。然而,當下進一步加速利用這些技術的主要障礙,在于缺乏足夠的帶主題標簽的數據,以提高人工智能在分類任務中的訓練性能。
許多非商業性的 LULC 地圖,或是源于官方權威發布,或是出自學術研究成果,但這些地圖往往在訓練數據的獲取上有所限制,并非對所有人開放。隨著 21 世紀初基于網絡的開放數字化時代的到來,公民科學(CS)催生了具有成本效益的 LULC 數據,其中 OpenStreetMap(OSM)脫穎而出。OSM 是一個基于網絡的、機會性收集空間明確矢量幾何數據并豐富其主題屬性的平臺,數據主要通過遠程測繪或實地采集獲得。不過,OSM 數據存在諸多問題,如數據質量參差不齊、內容不完整等。盡管如此,它仍是目前最大且最成功的開放、免費使用的非商業地圖項目,被眾多商業、政府和非政府機構廣泛應用。
在此背景下,來自德國海德堡大學地理信息學系等機構的研究人員,開展了一項極具創新性的研究。他們致力于融合 OSM 和哥白尼數據,打造分辨率達 10 米的土地利用地圖。研究最終成功創建了截至 2020 年 3 月的歐盟連續土地利用地圖,整體地圖精度達到 89%,各類別的精度在 77% - 99% 之間。這一成果發表在《Scientific Data》上,為土地利用研究領域帶來了新的突破。
在研究過程中,研究人員運用了多種關鍵技術方法。首先,從 OSM 中提取已知標簽,并將其注入經過預處理的 Sentinel - 2 最佳像素特征空間。其中,特征空間是由 Sentinel - 2 過去三年(截至 2020 年 4 月)的紅、綠、藍(RGB)和近紅外(NIR)波段 10 米分辨率的最佳像素中心點合成。利用深度學習技術,在缺少標簽的區域預測 CORINE 土地利用標簽,進而生成連續地圖。為適應不同國家 OSM 數據質量和遙感特征空間屬性的差異,研究人員為每個國家單獨設置訓練數據和特征空間,并采用非參數監督殘差卷積神經網絡(ResNet)進行遙感數據特征空間的分類。
研究結果豐富且具有重要價值。在數據記錄方面,數據集以 10 米空間分辨率的單個 GeoTIFF 文件形式提供(每個歐盟國家和英國各一個文件),遵循 CORINE 土地覆蓋(CLC)命名法對土地利用類別進行編碼。在技術驗證環節,通過使用包含 4616 個參考點的獨立參考數據集對產品進行評估,結果顯示整體精度為 89%。不過,不同類別之間存在一定的混淆情況,例如 “人工表面” 和 “森林及半自然區域” 這兩類,主要是由于 “人工非農業植被區域” 和 “灌木和 / 或草本植被組合” 在光譜上極為相似,導致分類錯誤。從地圖示例來看,不同地區展示出產品的不同特性。像荷蘭的烏得勒支省,因 OSM 數據覆蓋廣泛,深度學習預測需求少,地圖能呈現出精細的空間細節;而在一些地區,如意大利的波河谷和匈牙利的巴拉頓湖地區,產品能夠有效區分半自然區域和耕地。但在部分區域,由于深度學習分類,也出現了像素化元素,導致空間細節有所損失。
綜合來看,這項研究成功實現了 OSM 和哥白尼數據在 10 米分辨率下的大面積融合,為全球土地利用研究提供了可借鑒的方法和重要的數據支持。其意義不僅在于提升了土地利用地圖的精度和覆蓋范圍,更在于為后續相關研究奠定了堅實基礎,有助于推動土地利用和土地覆蓋領域的深入發展,為更好地理解環境變化和人類活動之間的關系提供了有力工具。