告別評(píng)估亂象！首個(gè)視覺(jué)解釋綜合性基準(zhǔn)發(fā)布，附人類真值 | KDD'25

2025-07-22 09:03:00

埃默里大學(xué)團(tuán)隊(duì)推出首個(gè)覆蓋8個(gè)真實(shí)任務(wù)、帶有人類解釋真值的視覺(jué)解釋基準(zhǔn)Saliency-Bench，統(tǒng)一評(píng)估流程與開(kāi)源工具讓顯著性方法可公平比較，獲KDD’25接收，為可解釋AI奠定透明、可靠的基石。

深度學(xué)習(xí)模型的「黑盒」問(wèn)題一直是AI發(fā)展的瓶頸，而基于顯著性圖的視覺(jué)解釋是打開(kāi)這個(gè)黑盒的關(guān)鍵鑰匙。

然而，由于缺乏帶注釋的數(shù)據(jù)集和標(biāo)準(zhǔn)化的評(píng)估方案，整個(gè)領(lǐng)域的發(fā)展受到了限制，「如何科學(xué)、統(tǒng)一地評(píng)估這些解釋的質(zhì)量？」成了一個(gè)亟待解決的問(wèn)題。

為此，埃默里大學(xué)的研究團(tuán)隊(duì)推出了一個(gè)旨在全面評(píng)估視覺(jué)解釋的開(kāi)創(chuàng)性基準(zhǔn)Saliency-Bench，該基準(zhǔn)不僅構(gòu)建和標(biāo)注了涵蓋場(chǎng)景分類、癌癥診斷、行為識(shí)別等8個(gè)不同任務(wù)的多樣化數(shù)據(jù)集，還提供了一套標(biāo)準(zhǔn)化的評(píng)估流程和開(kāi)源工具包，讓研究人員可以輕松復(fù)現(xiàn)、比較和迭代。

論文鏈接: https://arxiv.org/abs/2310.08537

項(xiàng)目主頁(yè): https://github.com/yifeizhangcs/XAIdataset.github.io

在多家主流模型和方法上的大量實(shí)驗(yàn)證明，Saliency-Bench為衡量XAI方法的忠實(shí)性和對(duì)齊性提供了堅(jiān)實(shí)的基石，推動(dòng)了可解釋AI向著更可靠、更透明的方向發(fā)展。

該研究獲得KDD 2025 Datasets and Benchmarks Track接收，提出首個(gè)全面評(píng)估視覺(jué)解釋的開(kāi)創(chuàng)性基準(zhǔn)Saliency-Bench。

為視覺(jué)解釋建立評(píng)估標(biāo)準(zhǔn)

深度神經(jīng)網(wǎng)絡(luò)（DNNs）在圖像分類等任務(wù)中取得了巨大成功，但其「黑盒」特性使其決策過(guò)程難以捉摸，這在醫(yī)療、金融等高風(fēng)險(xiǎn)領(lǐng)域是不可接受的。

可解釋AI（XAI）技術(shù)，特別是通過(guò)生成「顯著性圖」（saliency map）來(lái)高亮模型決策關(guān)鍵區(qū)域的方法，已成為提升模型透明度的重要途徑。

然而，長(zhǎng)期以來(lái)，對(duì)這些XAI方法的評(píng)估存在三大挑戰(zhàn)：

缺乏標(biāo)準(zhǔn)化的評(píng)估框架：不同的研究使用不同的指標(biāo)和流程，導(dǎo)致結(jié)果難以橫向比較和復(fù)現(xiàn)。
缺少全面且多樣化的數(shù)據(jù)集：現(xiàn)有的基準(zhǔn)測(cè)試數(shù)據(jù)集要么局限于特定領(lǐng)域（如醫(yī)療或物體檢測(cè)），要么規(guī)模太小，無(wú)法全面評(píng)估XAI方法的泛化能力。
基準(zhǔn)和分析不夠深入：很少有工作能夠在多個(gè)數(shù)據(jù)集上對(duì)多種主流方法進(jìn)行系統(tǒng)性的橫向評(píng)測(cè)。

為了解決這些問(wèn)題，Saliency-Bench應(yīng)運(yùn)而生，不僅僅是一個(gè)數(shù)據(jù)集集合，更是一個(gè)完整的視覺(jué)解釋評(píng)估生態(tài)系統(tǒng)。

Saliency-Bench框架概覽圖，展示了Saliency-Bench的整體框架。從多樣化的應(yīng)用場(chǎng)景出發(fā)，涵蓋了數(shù)據(jù)集構(gòu)建、多類型顯著性方法、標(biāo)準(zhǔn)化評(píng)估（包含忠實(shí)性和對(duì)齊性指標(biāo)）到最終基準(zhǔn)測(cè)試結(jié)果的完整流程。

Saliency-Bench的核心貢獻(xiàn)可以總結(jié)為四點(diǎn)：

全面的數(shù)據(jù)集集合：精心構(gòu)建并標(biāo)注了8個(gè)數(shù)據(jù)集，覆蓋了從性別分類、環(huán)境識(shí)別到癌癥診斷和行為分類等多種任務(wù)，并且包含了二分類和多分類問(wèn)題。
標(biāo)準(zhǔn)化的評(píng)估流程：開(kāi)發(fā)了一套統(tǒng)一的評(píng)估流水線，能夠?qū)Σ煌@著性方法生成的視覺(jué)解釋進(jìn)行標(biāo)準(zhǔn)化處理，并使用統(tǒng)一的指標(biāo)進(jìn)行衡量，確保了實(shí)驗(yàn)的可復(fù)現(xiàn)性。
廣泛的基準(zhǔn)測(cè)試和分析：對(duì)6種主流的顯著性方法（如GradCAM, RISE等）在不同模型架構(gòu)（ResNet-18, VGG-19, ViT）上進(jìn)行了大規(guī)模的基準(zhǔn)測(cè)試，并提供了深入的性能分析。
用戶友好的評(píng)估工具包：提供了一個(gè)易于使用的Python工具包，封裝了數(shù)據(jù)加載、模型評(píng)估等功能，極大地簡(jiǎn)化了研究人員的評(píng)估過(guò)程。

八大真實(shí)世界數(shù)據(jù)集，一次性補(bǔ)齊XAI評(píng)測(cè)短板

Saliency-Bench最大的亮點(diǎn)之一就是其前所未有的數(shù)據(jù)集廣度和深度。研究人員通過(guò)人工標(biāo)注、利用先驗(yàn)知識(shí)（如前景提取）等多種方式，為8個(gè)來(lái)自不同領(lǐng)域的公開(kāi)數(shù)據(jù)集制作了高質(zhì)量的像素級(jí)解釋真值（ground-truth）。

八大數(shù)據(jù)集示例圖

來(lái)自Gender-XAI, Environment-XAI, Disease-XAI, Cancer-XAI, Security-XAI, Pet-XAI, Action-XAI, 和 Object-XAI 這8個(gè)數(shù)據(jù)集的示例圖片及其對(duì)應(yīng)的像素級(jí)真值解釋

8個(gè)數(shù)據(jù)集的類別（二分類/多分類）、類別數(shù)量、樣本總數(shù)、標(biāo)注類型（人工標(biāo)注/前景提取）和數(shù)據(jù)格式等關(guān)鍵信息

誰(shuí)是最好的視覺(jué)解釋方法？用數(shù)據(jù)說(shuō)話！

研究人員選取了6種主流的顯著性方法，在ResNet-18, VGG-19和ViT-B/16等不同架構(gòu)上進(jìn)行了全面的性能評(píng)測(cè)。評(píng)估指標(biāo)兼顧了兩個(gè)核心維度：

對(duì)齊性 (Alignment)：生成的解釋與人類認(rèn)知的真值有多接近？（使用 mIoU 和 Pointing Game (PG) 指標(biāo)）

忠實(shí)性 (Faithfulness)：生成的解釋是否真實(shí)反映了模型的決策依據(jù)？（使用 iAUC 指標(biāo)）

實(shí)驗(yàn)結(jié)果亮點(diǎn)

沒(méi)有「萬(wàn)金油」方法：不同方法在不同任務(wù)和模型上表現(xiàn)各異。總體而言，RISE 和 GradCAM/GradCAM++ 在多個(gè)數(shù)據(jù)集中表現(xiàn)相對(duì)穩(wěn)健和可靠。

模型架構(gòu)影響顯著：通常，在 ResNet-18 上的解釋質(zhì)量要優(yōu)于 VGG-19，這可能得益于其更先進(jìn)的架構(gòu)設(shè)計(jì)。

ViT注意力機(jī)制潛力巨大：Vision Transformer的自注意力圖作為一種內(nèi)生的解釋方法，表現(xiàn)出了強(qiáng)大的競(jìng)爭(zhēng)力，尤其在捕捉全局和長(zhǎng)距離依賴關(guān)系方面，其生成的顯著性圖比傳統(tǒng)CNN方法更精細(xì)。

主流方法在ResNet-18和VGG-19上的詳細(xì)評(píng)測(cè)結(jié)果，展示了6種顯著性方法在8個(gè)數(shù)據(jù)集上，基于ResNet-18和VGG-19模型的mIoU, PG, iAUC三項(xiàng)指標(biāo)的詳細(xì)得分。

總結(jié)與展望

研究人員推出了Saliency-Bench，一個(gè)為視覺(jué)解釋評(píng)估提供全面數(shù)據(jù)集、標(biāo)準(zhǔn)化流程和開(kāi)源工具的綜合性基準(zhǔn)測(cè)試套件。通過(guò)對(duì)多種主流方法和模型的廣泛測(cè)試，為社區(qū)提供了一個(gè)可靠的平臺(tái)來(lái)衡量和比較XAI技術(shù)和視覺(jué)解釋的性能。

Saliency-Bench的發(fā)布將有效遏制當(dāng)前XAI評(píng)估中的「各自為政」現(xiàn)象，為開(kāi)發(fā)更忠實(shí)、更可靠的視覺(jué)解釋方法提供堅(jiān)實(shí)的基石，最終推動(dòng)可解釋AI在更多關(guān)鍵領(lǐng)域的應(yīng)用落地。

責(zé)任編輯：張燕妮來(lái)源：新智元

AI 視覺(jué)模型