作者 | Ben Dickson
編譯 | 琰琰
機器學習在應用程序中的廣泛使用,引起了人們對潛在安全威脅的關注。對抗性攻擊( adversarial attacks)是一種常見且難以察覺的威脅手段,它通過操縱目標機器學習模型,可能會“悄悄”破壞許多數據樣本。基于此,對抗性機器學習(Adversarial machine learning)成為了人工智能領域的熱點研究之一,越來越多的AI講座和研討會開始探討這一主題,防止機器學習模型對抗攻擊的新方法也在不斷推陳出新。近日,來自卡內基梅隆大學和KAIST網絡安全研究中心的研究團隊提出了一種新的技術方法,他們試圖引入無監督學習來解決當前對抗性攻擊檢測所面臨的一些挑戰。實驗表明,利用模型的可解釋性和對抗攻擊之間的內在聯系,可以發現哪些數據樣本可能會受到了對抗干擾。目前,這項研究方法已受邀在2021 KDD (Knowledge Discovery and Data Mining)對抗性機器學習研討會(AdvML)上進行了展示。假設對抗性攻擊的目標是圖像分類器——使圖像標簽從“狗”更改為“貓”。攻擊者會從未經修改的“狗”圖像開始。當目標模型在處理該圖像時,它會返回所訓練的每個類別的置信度分數列表。其中,置信度最高的類代表圖像所屬的類別。為了使這一過程反復運行,攻擊者會向圖像中添加少量隨機噪聲。由于修改會對模型的輸出產生微小的變化,攻擊者通過多次重復該過程可達到一個目的,即使主置信度得分降低,目標置信度得分升高。如此一來,機器學習模型便可能將其輸出從一個類更改為另一個類。一般來講,對抗攻擊算法會有一個epsilon參數,這個參數可以限制模型對原始圖像的更改量。但epsilon參數的對抗干擾的程度,對人眼來說仍然難以察覺。此外,保護機器學習模型免受對抗性攻擊的方法已經有很多,但大多數方法在計算、準確性或可推廣性方面會帶來相當大的成本。例如,有些方法依賴于有監督的對抗訓練。在這種情況下,防御者必須生成大量的對抗性樣本,并對目標網絡進行微調,才能正確分類修改后的示例。這種方法所生成的樣本和訓練成本是相當高的,而且在一定程度上會降低目標模型在原始任務上的性能。更重要的,它也不一定能夠對抗未經訓練的攻擊技術。另外,其他的防御方法需要訓練單獨的機器學習模型來檢測特定類型的對抗性攻擊。這樣雖然有助于保持目標模型的準確性,但不能保證對未知攻擊技術是有效的。在這項研究中,CMU和KAIST的研究人員發現了對抗性攻擊和可解釋性之間的內在聯系。在許多機器學習模型中,特別是深度神經網絡,由于涉及大量參數,其推理和決策過程很難被追蹤。因此,我們常稱機器學習模型內部就像是黑匣子,具有難以解釋性。這也導致其在應用范圍在受到了一定的限制。為了克服這一挑戰,科學家們開發了不同的方法來理解機器學習模型的決策過程。其中,一種主流的可解釋性技術是生成顯著圖(saliency maps),它通過根據最終輸出的貢獻對輸入數據的每個特征進行評分。例如,在圖像分類器中,顯著性映射將根據每個像素對機器學習模型輸出的貢獻進行評級。
圖注:Examples of 生成的顯著性圖借助該方法,CMU和KAIST研究人員提出的新技術的背后邏輯是:當圖像受到對抗性擾動時,通過可解釋性算法運行圖像可產生異常結果。卡內基梅隆大學博士Gihyuk Ko表示,“我們的研究是從簡單觀察開始的,即在輸入中加入小噪聲會導致它們的解釋產生巨大的差異”。根據解釋圖(explanation maps)檢測對抗性示例分為以下幾個步驟。首先,利用“檢查器網絡(inspector network)”和可解釋性技術為用于訓練原始機器學習模型的數據示例生成顯著性圖。然后,使用顯著性映射來訓練“重建網絡”,重建目標模型將對每個決策給出解釋。目標模型有多少輸出類,就有多少個重構器網絡。例如,如果該模型是手寫數字的分類器,它將需要十個重建網絡,每個數字一個。每個重構器都是一個自動編碼器網絡,每個輸入的圖像都會生成一張對應的解釋圖。例如,如果目標網絡將輸入圖像分類為“4”,則圖像將通過類“4”的重建器網絡運行,并生成該類“4”對應輸入的顯著性映射。以上是構造器網絡訓練一個良性示例的過程。如果攻擊者向構造器提供對抗性示例,可能會引起輸出的異常,而這會幫助研究人員發現受到攻擊干擾的圖像。如下圖所示,實驗表明異常解釋圖在所有對抗性攻擊技術中都非常顯著。
CMU團隊認為,該方法的主要優點是不受攻擊的影響,而且不需要訓練特定的對抗技術。“在我們的方法之前,有人建議使用SHAP簽名來檢測對抗性示例,”Gihyuk Ko表示,然而,所有現有的方法在計算上都是昂貴的,因為它們依賴預生成的對抗性示例來分離正常示例和對抗性示例的SHAP簽名。相比之下,無監督方法不需要預訓練生成對抗性示例,因而在計算成本上更有優勢。此外,它還可以推廣到一些未知攻擊(即以前未訓練過的攻擊)。例如,研究人員已經在MNIST數據集上測試了該方法。MNIST是一個手寫數字數據集,經常用于測試不同的機器學習技術。他們的發現,無監督的檢測方法能夠檢測各種對抗攻擊,并且性能表現遠超其他已知方法。“雖然MNIST數據集相對簡單,但該方法也適用于其他復雜的數據集,”Gihyuk Ko說,不過他也承認,從復雜數據集中訓練深度學習模型并獲得顯著性圖要困難得多。未來,他們將在CIFAR10/100、ImageNet等更多復雜的數據集和復雜的對抗性攻擊上測試該方法。總之,Gihyuk Ko認為,模型的解釋性可以在修復脆弱的深度神經網絡方面發揮重要作用。原文鏈接:https://bdtechtalks.com/2021/08/30/unsupervised-learning-adversarial-attacks-detection/雷鋒網雷鋒網雷鋒網
雷峰網特約稿件,未經授權禁止轉載。詳情見轉載須知。