《Future Generation Computer Systems》:Perturbation-Based Error Detection and Correction (PBEDC) in Dependable Large-Scale Machine Learning Systems
編輯推薦:
傳統神經網絡容錯方案需冗余或改變正常操作,開銷大,不適合大規模 ML 系統。本文研究 PBEDC 方案,利用推理過程實現錯誤檢測與校正。以 CLIP 網絡為例,其檢測率超 95%,可處理單比特翻轉錯誤,復雜度不隨網絡規模增加,具重要意義。
在人工智能快速發展的今天,大規模機器學習(ML)系統如神經網絡(NN)憑借數十億參數在計算機視覺、自然語言處理等領域大顯身手。然而,復雜的網絡結構和海量數據下,硬件錯誤導致模型參數損壞的問題日益凸顯,傳統容錯方案要么依賴冗余設計,要么改變正常推理流程,不僅增加計算開銷,還難以適配包含多個復雜網絡的大規模系統。如何在不引入額外冗余的前提下,高效檢測并校正這類錯誤,成為保障系統可靠運行的關鍵挑戰。
為解決這一難題,研究人員開展了基于擾動的錯誤檢測與校正(Perturbation-Based Error Detection and Correction, PBEDC)方案研究。論文發表在《Future Generation Computer Systems》。
研究人員采用的關鍵技術方法包括:利用對比語言 - 圖像預訓練(Contrastive Language-Image Pre-Training, CLIP)網絡作為案例研究對象,選取 CIFAR10(含 10 類 32×32 RGB 圖像)和 Mini-imagenet(含 100 類多尺寸 RGB 圖像)數據集進行零 - shot 分類推理,通過預計算并存儲一組輸入樣本(PBEDC 樣本)推理過程中節點的值,將模型運行時的節點值與之對比來檢測擾動(即錯誤),同時結合奇偶校驗碼實現錯誤校正。
擾動基錯誤檢測與校正(PBEDC)
PBEDC 基于推理過程中一組輸入樣本的節點值預計算與存儲,通過對比模型運行時的節點值檢測擾動(錯誤)。該方案依賴錯誤向校驗節點的傳播實現檢測,先探討了神經網絡中的錯誤傳播,再闡述校驗節點(如 softmax 向量)的選擇,利用少量有代表性的 PBEDC 樣本監控校驗節點的中間信號。
實現細節
在推理階段使用 CIFAR10 和 Mini-imagenet 數據集,對 CLIP 網絡進行零 - shot 分類并記錄 “黃金結果”,相關代碼和復現實驗腳本公開可用。
結論與未來工作
PBEDC 方案利用中間信號(如 softmax 向量)作為校驗節點,借助少量代表性 PBEDC 樣本檢測錯誤引發的擾動,無需實現冗余。復雜度分析表明,該方案開銷低,復雜度不隨網絡規模擴大而增加,在大規模 ML 系統中優勢顯著。未來可進一步拓展其在更多復雜網絡和場景中的應用,提升大規模機器學習系統的可靠性。
論文提出的 PBEDC 方案為大規模 ML 系統的可靠性提升提供了新路徑,其高檢測率、低復雜度及對單比特翻轉錯誤的處理能力,為自動駕駛、醫療診斷等對可靠性要求極高的領域奠定了關鍵技術基礎,有望推動可靠人工智能的發展。