《Future Generation Computer Systems》:Adaptive container auto-scaling for fluctuating workloads in cloud
編輯推薦:
在 DBaaS 中,為解決傳統 RL - 基于的容器自動縮放方法無法適應波動負載的問題,研究人員開展 Asner 自適應容器自動縮放方法的研究。結果顯示,該方法性能顯著提升,對 DBaaS 資源優化意義重大。
在當今數字化時代,云服務的應用越來越廣泛,其中數據庫即服務(Database - as - a - Service,DBaaS)備受企業青睞。它具有彈性、按需付費以及高可用性等諸多優點,使得眾多企業紛紛將數據庫部署在 DBaaS 平臺上,像微軟的 Azure SQL Database 和阿里巴巴的 PolarDB 等。然而,DBaaS 在為企業帶來便利的同時,也面臨著嚴峻的挑戰。
DBaaS 通過資源容器為多個租戶提供服務,由于租戶的使用情況不斷變化,容器的資源規模也需要隨之調整,以此來滿足服務水平協議(Service - Level Agreements,SLA)。但不同容器規模的成本差異巨大,例如在處理寫入任務時,Azure SQL DB 中最小和最大容器的成本相差可達三個數量級。這就要求 DBaaS 平臺必須在保證用戶高可用性和穩定服務的前提下,盡可能降低資源成本。一方面要優化資源利用,避免浪費;另一方面又要防止因資源不足影響服務的穩定性和可靠性。在這兩者之間找到平衡,直接關系到平臺的經濟效益和用戶體驗。
強化學習(Reinforcement Learning,RL)因其在動態環境中的穩健性,在云資源縮放領域展現出巨大潛力,不少研究都嘗試運用 RL 實現資源自動縮放。但現有的基于 RL 的方法存在明顯缺陷,它們大多針對特定應用場景設計了固定的動作空間,難以適應 DBaaS 中波動頻繁且資源需求變化突發的負載情況。例如,多數 Azure SQL DB 用戶的資源需求在幾分鐘到幾小時內就會發生顯著變化,且這些變化頻繁出現,每天甚至每小時都會產生數千次變化。固定動作設計使得這些方法在面對資源需求大幅波動的場景時,無法靈活應對,導致資源縮放不穩定且效率低下,無法為不同的資源需求變化提供合適的動作集,嚴重影響了 RL 算法的學習效率、收斂速度和穩健性。
為了解決這些問題,來自東北大學軟件學院的研究人員開展了關于自適應容器自動縮放方法的研究。他們提出了一種名為 Asner 的自適應容器自動縮放方法,該方法取得了令人矚目的成果。與其他方法相比,Asner 的性能提升高達 45%,在優化 DBaaS 資源利用和降低成本方面具有重要意義,相關研究成果發表在《Future Generation Computer Systems》上。
研究人員在開展這項研究時,主要運用了以下關鍵技術方法:一是設計了基于圖的資源估計模型(Estimator),通過構建 SQL 語句查詢執行計劃(Query Execution Plans,QEPs)的圖表示,并利用圖神經網絡學習圖特征和資源需求,以此來估計數據庫工作負載的資源需求;二是開發了基于 RL 的縮放算法(Scaler),通過設計動態動作模型,結合啟發式規則修剪動作以及采用獎勵塑造等方式,讓 RL 算法能夠進行更細粒度的縮放動作,加快收斂過程,從而生成容器縮放策略。
Asner 設計
Asner 是一種兩步法,先利用 Estimator 估計 SQL 工作負載的資源需求,再通過 Scaler 借助強化學習自適應地學習生成容器縮放策略,以實現兩個優化目標:最小化資源成本和滿足 SLA。Estimator 采用基于圖的方法,將 SQL 查詢執行計劃轉化為圖結構,利用圖神經網絡學習其中的特征,進而估計資源需求,為容器縮放提供先驗知識。Scaler 則通過改進的 RL 算法,基于動態動作模型生成靈活的縮放策略,同時運用啟發式規則和獎勵塑造技術,提升算法處理波動負載的能力和收斂速度。
評估
研究人員通過由工作負載數據驅動的實驗模擬來評估 Asner 方法的性能,這些數據能夠模擬真實用戶的使用情況。實驗結果顯示,Estimator 在 TPC - DS 數據集下的準確率達到約 93%。Scaler 的性能比當前最先進的 RL 方法高出約 30%。Asner 相較于靜態(Static)、貪心(Greedy)和基于閾值調整(Threshold - based adjustment,TA)的方法,性能分別提高了約 45%、43% 和 41%。這充分證明了 Asner 在處理波動負載時的高效性和優越性。
研究結論和討論
Asner 方法成功解決了傳統 RL - 基于的容器自動縮放方法在應對波動負載時的不足。它通過創新的資源估計模型和改進的 RL 縮放算法,有效提升了資源縮放的靈活性和適應性,在保證服務質量的同時降低了資源成本。這不僅為 DBaaS 平臺提供了更高效的資源管理方案,也為云資源自動縮放領域的研究開辟了新的方向。未來,隨著云服務應用場景的不斷拓展和負載變化的日益復雜,Asner 方法有望在更多領域得到應用和進一步優化,持續為云資源管理提供有力支持,推動相關行業的發展。