告別評(píng)估亂象!首個(gè)視覺(jué)解釋綜合性基準(zhǔn)發(fā)布,附人類真值 | KDD'25
深度學(xué)習(xí)模型的「黑盒」問(wèn)題一直是AI發(fā)展的瓶頸,而基于顯著性圖的視覺(jué)解釋是打開(kāi)這個(gè)黑盒的關(guān)鍵鑰匙。
然而,由于缺乏帶注釋的數(shù)據(jù)集和標(biāo)準(zhǔn)化的評(píng)估方案,整個(gè)領(lǐng)域的發(fā)展受到了限制,「如何科學(xué)、統(tǒng)一地評(píng)估這些解釋的質(zhì)量?」成了一個(gè)亟待解決的問(wèn)題。
為此,埃默里大學(xué)的研究團(tuán)隊(duì)推出了一個(gè)旨在全面評(píng)估視覺(jué)解釋的開(kāi)創(chuàng)性基準(zhǔn)Saliency-Bench,該基準(zhǔn)不僅構(gòu)建和標(biāo)注了涵蓋場(chǎng)景分類、癌癥診斷、行為識(shí)別等8個(gè)不同任務(wù)的多樣化數(shù)據(jù)集,還提供了一套標(biāo)準(zhǔn)化的評(píng)估流程和開(kāi)源工具包,讓研究人員可以輕松復(fù)現(xiàn)、比較和迭代。

論文鏈接: https://arxiv.org/abs/2310.08537
項(xiàng)目主頁(yè): https://github.com/yifeizhangcs/XAIdataset.github.io
在多家主流模型和方法上的大量實(shí)驗(yàn)證明,Saliency-Bench為衡量XAI方法的忠實(shí)性和對(duì)齊性提供了堅(jiān)實(shí)的基石,推動(dòng)了可解釋AI向著更可靠、更透明的方向發(fā)展。
該研究獲得KDD 2025 Datasets and Benchmarks Track接收,提出首個(gè)全面評(píng)估視覺(jué)解釋的開(kāi)創(chuàng)性基準(zhǔn)Saliency-Bench。
為視覺(jué)解釋建立評(píng)估標(biāo)準(zhǔn)
深度神經(jīng)網(wǎng)絡(luò)(DNNs)在圖像分類等任務(wù)中取得了巨大成功,但其「黑盒」特性使其決策過(guò)程難以捉摸,這在醫(yī)療、金融等高風(fēng)險(xiǎn)領(lǐng)域是不可接受的。
可解釋AI(XAI)技術(shù),特別是通過(guò)生成「顯著性圖」(saliency map)來(lái)高亮模型決策關(guān)鍵區(qū)域的方法,已成為提升模型透明度的重要途徑。
然而,長(zhǎng)期以來(lái),對(duì)這些XAI方法的評(píng)估存在三大挑戰(zhàn):
- 缺乏標(biāo)準(zhǔn)化的評(píng)估框架:不同的研究使用不同的指標(biāo)和流程,導(dǎo)致結(jié)果難以橫向比較和復(fù)現(xiàn)。
- 缺少全面且多樣化的數(shù)據(jù)集:現(xiàn)有的基準(zhǔn)測(cè)試數(shù)據(jù)集要么局限于特定領(lǐng)域(如醫(yī)療或物體檢測(cè)),要么規(guī)模太小,無(wú)法全面評(píng)估XAI方法的泛化能力。
- 基準(zhǔn)和分析不夠深入:很少有工作能夠在多個(gè)數(shù)據(jù)集上對(duì)多種主流方法進(jìn)行系統(tǒng)性的橫向評(píng)測(cè)。
為了解決這些問(wèn)題,Saliency-Bench應(yīng)運(yùn)而生,不僅僅是一個(gè)數(shù)據(jù)集集合,更是一個(gè)完整的視覺(jué)解釋評(píng)估生態(tài)系統(tǒng)。

Saliency-Bench框架概覽圖,展示了Saliency-Bench的整體框架。從多樣化的應(yīng)用場(chǎng)景出發(fā),涵蓋了數(shù)據(jù)集構(gòu)建、多類型顯著性方法、標(biāo)準(zhǔn)化評(píng)估(包含忠實(shí)性和對(duì)齊性指標(biāo))到最終基準(zhǔn)測(cè)試結(jié)果的完整流程。
Saliency-Bench的核心貢獻(xiàn)可以總結(jié)為四點(diǎn):
- 全面的數(shù)據(jù)集集合:精心構(gòu)建并標(biāo)注了8個(gè)數(shù)據(jù)集,覆蓋了從性別分類、環(huán)境識(shí)別到癌癥診斷和行為分類等多種任務(wù),并且包含了二分類和多分類問(wèn)題。
- 標(biāo)準(zhǔn)化的評(píng)估流程:開(kāi)發(fā)了一套統(tǒng)一的評(píng)估流水線,能夠?qū)Σ煌@著性方法生成的視覺(jué)解釋進(jìn)行標(biāo)準(zhǔn)化處理,并使用統(tǒng)一的指標(biāo)進(jìn)行衡量,確保了實(shí)驗(yàn)的可復(fù)現(xiàn)性。
- 廣泛的基準(zhǔn)測(cè)試和分析:對(duì)6種主流的顯著性方法(如GradCAM, RISE等)在不同模型架構(gòu)(ResNet-18, VGG-19, ViT)上進(jìn)行了大規(guī)模的基準(zhǔn)測(cè)試,并提供了深入的性能分析。
- 用戶友好的評(píng)估工具包:提供了一個(gè)易于使用的Python工具包,封裝了數(shù)據(jù)加載、模型評(píng)估等功能,極大地簡(jiǎn)化了研究人員的評(píng)估過(guò)程。
八大真實(shí)世界數(shù)據(jù)集,一次性補(bǔ)齊XAI評(píng)測(cè)短板
Saliency-Bench最大的亮點(diǎn)之一就是其前所未有的數(shù)據(jù)集廣度和深度。研究人員通過(guò)人工標(biāo)注、利用先驗(yàn)知識(shí)(如前景提取)等多種方式,為8個(gè)來(lái)自不同領(lǐng)域的公開(kāi)數(shù)據(jù)集制作了高質(zhì)量的像素級(jí)解釋真值(ground-truth)。
八大數(shù)據(jù)集示例圖

來(lái)自Gender-XAI, Environment-XAI, Disease-XAI, Cancer-XAI, Security-XAI, Pet-XAI, Action-XAI, 和 Object-XAI 這8個(gè)數(shù)據(jù)集的示例圖片及其對(duì)應(yīng)的像素級(jí)真值解釋

8個(gè)數(shù)據(jù)集的類別(二分類/多分類)、類別數(shù)量、樣本總數(shù)、標(biāo)注類型(人工標(biāo)注/前景提取)和數(shù)據(jù)格式等關(guān)鍵信息
誰(shuí)是最好的視覺(jué)解釋方法?用數(shù)據(jù)說(shuō)話!
研究人員選取了6種主流的顯著性方法,在ResNet-18, VGG-19和ViT-B/16等不同架構(gòu)上進(jìn)行了全面的性能評(píng)測(cè)。評(píng)估指標(biāo)兼顧了兩個(gè)核心維度:
對(duì)齊性 (Alignment):生成的解釋與人類認(rèn)知的真值有多接近?(使用 mIoU 和 Pointing Game (PG) 指標(biāo))
忠實(shí)性 (Faithfulness):生成的解釋是否真實(shí)反映了模型的決策依據(jù)?(使用 iAUC 指標(biāo))
實(shí)驗(yàn)結(jié)果亮點(diǎn)
沒(méi)有「萬(wàn)金油」方法:不同方法在不同任務(wù)和模型上表現(xiàn)各異。總體而言,RISE 和 GradCAM/GradCAM++ 在多個(gè)數(shù)據(jù)集中表現(xiàn)相對(duì)穩(wěn)健和可靠。
模型架構(gòu)影響顯著:通常,在 ResNet-18 上的解釋質(zhì)量要優(yōu)于 VGG-19,這可能得益于其更先進(jìn)的架構(gòu)設(shè)計(jì)。
ViT注意力機(jī)制潛力巨大:Vision Transformer的自注意力圖作為一種內(nèi)生的解釋方法,表現(xiàn)出了強(qiáng)大的競(jìng)爭(zhēng)力,尤其在捕捉全局和長(zhǎng)距離依賴關(guān)系方面,其生成的顯著性圖比傳統(tǒng)CNN方法更精細(xì)。

主流方法在ResNet-18和VGG-19上的詳細(xì)評(píng)測(cè)結(jié)果,展示了6種顯著性方法在8個(gè)數(shù)據(jù)集上,基于ResNet-18和VGG-19模型的mIoU, PG, iAUC三項(xiàng)指標(biāo)的詳細(xì)得分。
總結(jié)與展望
研究人員推出了Saliency-Bench,一個(gè)為視覺(jué)解釋評(píng)估提供全面數(shù)據(jù)集、標(biāo)準(zhǔn)化流程和開(kāi)源工具的綜合性基準(zhǔn)測(cè)試套件。 通過(guò)對(duì)多種主流方法和模型的廣泛測(cè)試,為社區(qū)提供了一個(gè)可靠的平臺(tái)來(lái)衡量和比較XAI技術(shù)和視覺(jué)解釋的性能。
Saliency-Bench的發(fā)布將有效遏制當(dāng)前XAI評(píng)估中的「各自為政」現(xiàn)象,為開(kāi)發(fā)更忠實(shí)、更可靠的視覺(jué)解釋方法提供堅(jiān)實(shí)的基石,最終推動(dòng)可解釋AI在更多關(guān)鍵領(lǐng)域的應(yīng)用落地。
































