麻省理工研究:深度圖像分類器,居然還會過度解讀
作者 | 青蘋果
來源 | 數據實戰派
某些情況下,深度學習方法能識別出一些在人類看來毫無意義的圖像,而這些圖像恰恰也是醫療和自動駕駛決策的潛在隱患所在。換句話說,深度圖像分類器可以使用圖像的邊界,而非對象本身,以超過 90% 的置信度確定圖像類別。
不過,麻省理工學院的科學家最近發現了一種新穎的、更微妙的圖像識別失敗類:“過度解讀”,即算法基于一些人類無法理解的細節,如隨機模式或圖像邊界,而做出自信的預測。對于高風險的環境來說,這可能尤其令人擔憂,比如自動駕駛汽車的瞬間決策,以及需要立即關注的疾病醫療診斷等,這都與生命安全息息相關。
研究團隊發現,在 CIFAR-10 和 ImageNet 等流行數據集上訓練的神經網絡,就存在著過度解讀的問題。
例如,在 CIFAR-10 上訓練的模型,即使輸入圖像存在 95% 缺失的情況下,也能做出自信的預測。也就是說,在未包含語義顯著特征的圖像區域中,分類器發現強有力的類證據時,就會發生模型過度解釋。
過度解釋與過擬合有關,但過擬合可以通過降低測試精度來診斷。過度解釋可能源于底層數據集分布中的真實統計信號,而這些統計信號恰好來自數據源的特定屬性(如皮膚科醫生的臨床評分表)。
因此,過度解釋可能更難診斷,因為它承認決策是由統計上有效的標準做出的,而使用這些標準的模型可以在基準測試中表現的較為出色。
過度解釋發生在原始圖像的未修改子集上。與使用額外信息修改圖像的對抗性示例相反,過度解釋基于訓練數據中已經存在的真實模式,這些模式也可以泛化到測試分布。要想揭示過度解釋,則需要一種系統的方法來識別哪些特征被模型用來做出決策。
這篇研究論文被 NIPS 收錄,標題為“Overinterpretation reveals image classificationmodel pathologies”,文中引入了一種新的方法——批處理梯度 SIS(Sufficient Input Subsets),用于發現復雜數據集的充足的輸入子集,并利用該方法在ImageNet中顯示邊界像素的充分性,用于訓練和測試。
該文章的第一作者、MIT 計算機科學與人工智能實驗室博士生Brandon Carter說,“過度解讀實質上是一種數據集問題,由數據集中的無意義信號而引起的。這些高置信度圖像不僅無法識別,而且在邊界等不重要的區域,它們只包含不到 10% 的原始圖像。我們發現這些圖像對人類來說毫無意義,但模型仍然可以高度自信地對其進行分類?!?/p>
比如,在用于癌癥檢測的醫學圖像分類器的示例中,可以通過找到描述標尺的像素來識別病理行為,這足以讓模型自信地輸出相同的分類。
早先研究者便提出了 SIS 的概念,用于幫助人類解釋黑盒模型的決策。SIS 子集是特征(如像素)的最小子集,它足以在所有其他特征被掩蓋的情況下,產生高于某個閾值的類概率。
基準數據集的隱藏統計信號可能導致模型過度解釋或不適用于來自不同分布的新數據。
CIFAR-10 和 ImageNet 已成為最流行的兩種圖像分類基準。大多數圖像分類器由 CV 社區根據其在這些基準之一中的準確性進行評估。
除此之外,團隊還使用 CIFAR-10-C 數據集來評估 CIFAR-10 模型可以泛化到分布外(OOD,Out-Of-Distribution)數據的程度。在這里,團隊成員分析了在這些基準上流行的 CNN 架構的過度解釋,以表征病理。通過一系列的實驗證明,在 CIFAR-10 和 ImageNet 上訓練的分類器,可以基于 SIS 子集進行決策,哪怕只包含少量像素和缺乏人類可理解的語義內容。
圖1 顯示了來自 CIFAR-10 測試圖像的示例 SIS 子集(閾值為 0.99)。對于這些 SIS 子集圖像,每個模型對預測類的置信度均≥99%,能夠自信且正確地進行分類。
團隊觀察到,這些 SIS 子集具有高度稀疏的特征,在此閾值下,SIS 的平均尺寸小于每幅圖像的 5%(如圖2 所示),這表明這些 CNNs 可以自信地對那些對人類來說似乎毫無意義的圖像進行分類,隨之也就掀起了對魯棒性和泛化性的關注熱潮。此外,團隊發現, SIS 的尺寸大小也是影響類預測準確性的重點因素。
到目前為止,深度圖像分類器應用領域愈加廣泛,除了醫療診斷和增強自動駕駛汽車技術外,在安全、游戲,甚至在一款可以告訴你某物是不是熱狗的小程序上也有所應用。
考慮到機器學習模型能夠捕捉到這些無意義的微妙信號,圖像分類的難度之大也就不言而喻。比如,在 ImageNet 數據集上訓練圖像分類器時,它們便可以基于這些信號做出看似可靠的預測。
盡管這些無意義的信號會削弱模型在真實世界中的魯棒性,但實際上,這些信號在數據集中是有效的,這也就意味著,基于該準確性的典型評估方法無法診斷過度解釋。
為了找到模型對特定輸入的預測的基本原理,本研究中的方法從整幅圖像入手,反復研究,每一步究竟可以從圖像上刪除的內容。
團隊采用局部后向選擇(local backward selection),在每幅圖像中保留 5% 的像素且用零掩碼其余的 95%。從本質上說,這個過程會一直掩蓋圖像,直到殘留的最小的部分仍然可以做出有把握的決定,讓這些像素子集的分類精度堪比完整圖像的分類精度。
如表1 所示,相比于從每幅圖像中均勻隨機選擇的像素子集,通過后向選擇所篩選的同樣大小的子集具有更強的預測性。
圖3a 顯示了所有 CIFAR-10 的測試圖像中,這些 5% 像素子集的像素位置和置信度。
研究發現,ResNet20 的底部邊界上像素的集中是SIS向后選擇過程中“決勝”的結果。此外,團隊成員還在 CIFAR-10 上運行了分批梯度 SIS,并為 CIFAR-10 找到了充足的邊緣輸入子集。
而圖3b 顯示了來自 1000 張 ImageNet 驗證圖像的隨機樣本的 SIS 像素位置。關注度沿圖像邊界分布,表明該模型嚴重依賴于圖像背景,存在嚴重的過度解釋問題。
圖4 顯示了,在經過預訓練的 Inception v3,通過批處理梯度 SIS 自信分類的圖像上發現的例子 SIS 子集(閾值 0.9)。這些 SIS 子集看起來毫無意義,但網絡將其分類的置信度≥90%。
CNNs 對圖像分類的過度自信可能會引發懷疑,在語義無意義的 SIS 子集上觀察到的過度自信是否是校準的偽像,而非數據集中的真實統計信號呢?
實驗結果如表1 所示,隨機 5% 的圖像子集仍然能夠捕捉到足夠的信號,預測效果大約是盲猜的 5 倍,然而這并不足以捕捉到充足的信息,讓模型做出準確的預測。
更多地,團隊發現,無論是 CIFAR-10 測試圖像(圖5)還是 CIFAR-10- C OOD 圖像,在所有 SIS 置信閾值上,正確分類圖像的 SIS 子集都顯著大于錯誤分類圖像的 SIS 子集。
有研究表示,模型集成可以提高分類性能。由于團隊發現,像素子集的大小與人類像素子集分類的準確性密切相關,于是,用來衡量集成程度可以緩解過度解釋的指標是 SIS 子集大小的增加。
結果顯示,集成測試一致地增加了預期的測試準確性,與此同時也增加了 SIS 的大小,因此削弱了過度解釋的損害。
當然,文中的方法也可以作為一種驗證標準。
例如,如果你有一輛自動駕駛汽車,它使用訓練有素的機器學習方法來識別停車標志,你可以通過識別構成停車標志的最小輸入子集來測試這種方法。
雖然看起來模型可能是罪魁禍首,但數據集的嫌疑更大。這可能意味著在更受控制的環境中創建數據集。
“存在一個問題,我們如何修改數據集,使模型能夠更接近地模仿人類對圖像分類的想法,從而有望在自動駕駛和醫療診斷等現實場景中更好地推廣和應用,這樣一來,模型就不會再產生荒謬的行為,” Carter 表示。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。
回流焊相關文章:回流焊原理