解密AI思維鏈:Meta最新研究如何通過計(jì)算圖驗(yàn)證大模型推理過程?

大家好!今天我要和大家分享一篇來自Meta FAIR團(tuán)隊(duì)和愛丁堡大學(xué)的最新研究論文,這篇論文題為《通過計(jì)算圖驗(yàn)證思維鏈推理》(Verifying Chain-of-Thought Reasoning via Its Computational Graph)。
論文背景與作者介紹
這篇論文由Meta FAIR的Zheng Zhao(第一作者,愛丁堡大學(xué)博士生)、Yeskendir Koishekenov、Xianjun Yang、Naila Murray、Nicola Cancedda共同完成。Zheng Zhao在Meta實(shí)習(xí)期間完成了這項(xiàng)研究工作,并于2025年10月13日發(fā)布在arXiv上。
在開始詳細(xì)介紹之前,讓我們先思考一個(gè)問題:我們?nèi)绾沃繟I模型的推理過程是否正確?
技術(shù)背景:思維鏈推理的挑戰(zhàn)
近年來,思維鏈(Chain-of-Thought, CoT)推理已成為提升大語(yǔ)言模型(LLM)性能的重要技術(shù)。從DeepSeek-R1到OpenAI的o1模型,都采用了這種逐步推理的方式。然而,一個(gè)根本性問題始終存在:這些推理過程本身有時(shí)是錯(cuò)誤的。
當(dāng)前驗(yàn)證思維鏈推理的方法主要分為兩類:
- 黑盒方法:分析生成的文本或最終的logit分布
- 灰盒方法:查看模型的內(nèi)部狀態(tài),如原始激活值或隱藏狀態(tài)軌跡
這些方法雖然有一定效果,但存在一個(gè)根本局限:它們只能檢測(cè)模型內(nèi)部狀態(tài)與錯(cuò)誤的相關(guān)性,而無法解釋為什么底層計(jì)算會(huì)導(dǎo)致錯(cuò)誤。
這就像醫(yī)生只能告訴你"你發(fā)燒了",卻無法解釋"你為什么會(huì)發(fā)燒"。而這篇論文提出的方法,就像給AI做了一次"CT掃描",能夠深入到計(jì)算的"細(xì)胞層面"來診斷問題。
論文核心方法:基于電路的推理驗(yàn)證(CRV)
研究者們提出了一種全新的白盒方法——基于電路的推理驗(yàn)證(Circuit-based Reasoning Verification, CRV)。這個(gè)方法的核心假設(shè)是:正確的思維鏈步驟與錯(cuò)誤步驟的歸因圖,作為模型潛在推理電路的執(zhí)行軌跡,具有不同的結(jié)構(gòu)特征。
這個(gè)假設(shè)聽起來很抽象,讓我用一個(gè)比喻來解釋:想象AI的推理過程就像一條河流,正確的推理就像河道暢通的河流,而錯(cuò)誤的推理則像是河道中出現(xiàn)了障礙或改道。CRV方法就像是通過分析河流的"水流軌跡圖"來判斷河道是否通暢。
CRV方法的四個(gè)步驟
CRV方法包含四個(gè)關(guān)鍵步驟,我將逐一為大家解析:
步驟1:用可解釋的轉(zhuǎn)碼器替換MLP模塊

首先,研究者們對(duì)目標(biāo)LLM進(jìn)行了架構(gòu)修改,使其變得可解釋。具體來說,他們?yōu)槟P椭械拿總€(gè)MLP模塊訓(xùn)練了一個(gè)對(duì)應(yīng)的轉(zhuǎn)碼器(transcoder)。
轉(zhuǎn)碼器是一種特殊的稀疏自編碼器(SAE),它不是簡(jiǎn)單地重構(gòu)輸入,而是模擬目標(biāo)組件的輸入-輸出函數(shù)。通過將模型的標(biāo)準(zhǔn)MLP模塊替換為訓(xùn)練好的轉(zhuǎn)碼器,模型的中間計(jì)算不再由密集向量表示,而是由這些有意義特征的稀疏組合表示。
這就像把一本用密語(yǔ)寫的書翻譯成了我們能理解的語(yǔ)言,讓我們能夠"讀懂"AI的思考過程。
步驟2:構(gòu)建步驟級(jí)歸因圖

步驟3:提取可解釋的圖特征

- 全局圖統(tǒng)計(jì):捕獲計(jì)算子圖的高級(jí)摘要,包括修剪后的活躍特征節(jié)點(diǎn)數(shù)量以及最終的logit概率和熵。
- 節(jié)點(diǎn)影響和激活統(tǒng)計(jì):量化可解釋特征節(jié)點(diǎn)的屬性。計(jì)算它們的激活值和影響分?jǐn)?shù)的統(tǒng)計(jì)量(均值、最大值、標(biāo)準(zhǔn)差)。還包括按層劃分的活躍特征直方圖,表征推理步驟的計(jì)算深度。
- 拓?fù)浜吐窂教卣鳎悍治鲂畔⒘鞯慕Y(jié)構(gòu),計(jì)算修剪后子圖上的一組豐富的拓?fù)涮卣鳌0▓D密度、中心性度量(度數(shù)、介數(shù))以識(shí)別計(jì)算中心,以及連通性度量。
步驟4:診斷分類器

實(shí)驗(yàn)結(jié)果與發(fā)現(xiàn)
研究者們?cè)贚lama 3.1 8B Instruct模型上進(jìn)行了一系列實(shí)驗(yàn),驗(yàn)證了他們的核心假設(shè):推理步驟的歸因圖包含其正確性的豐富結(jié)構(gòu)信號(hào)。
驗(yàn)證性能與魯棒性

表1展示了CRV與各種基線方法在三個(gè)數(shù)據(jù)集上的性能比較。CRV在所有數(shù)據(jù)集和指標(biāo)上一致地優(yōu)于所有黑盒和灰盒基線。這種結(jié)構(gòu)信號(hào)的強(qiáng)度在合成數(shù)據(jù)集上尤為明顯。例如,在算術(shù)任務(wù)上,CRV實(shí)現(xiàn)了92.47的AUROC,比最強(qiáng)基線分?jǐn)?shù)76.45有顯著提升。
跨領(lǐng)域泛化分析
圖片
表2顯示CRV學(xué)習(xí)的錯(cuò)誤指紋高度領(lǐng)域特定。在跨領(lǐng)域遷移中,CRV的性能相比領(lǐng)域內(nèi)訓(xùn)練大幅下降,甚至常常低于最強(qiáng)的免訓(xùn)練基線。例如,在算術(shù)任務(wù)上訓(xùn)練的CRV在GSM8K上的AUROC僅為57.04,低于Energy基線的62.55。
這種領(lǐng)域特異性揭示了不同推理任務(wù)(如形式邏輯、算術(shù)計(jì)算、自然語(yǔ)言算術(shù))中的錯(cuò)誤在模型的計(jì)算圖中產(chǎn)生不同的結(jié)構(gòu)模式。雖然這限制了當(dāng)前的監(jiān)督驗(yàn)證,但它突顯了CRV捕獲的豐富信號(hào)。
難度增加下的性能
圖片

錯(cuò)誤計(jì)算的結(jié)構(gòu)分析
圖片
圖片
圖3和圖4展示了錯(cuò)誤計(jì)算的結(jié)構(gòu)特征。圖3通過主成分分析(PCA)將完整的高維特征向量投影到二維空間,顯示錯(cuò)誤步驟形成正確步驟分布內(nèi)的密集子集。圖4展示了五個(gè)高度預(yù)測(cè)特征的分布,從圖拓?fù)?如圖密度)到節(jié)點(diǎn)統(tǒng)計(jì)(如總活躍特征),正確與錯(cuò)誤的分布明顯不同。
從診斷到因果干預(yù)
圖片

通過追蹤信號(hào)回到圖,他們發(fā)現(xiàn)一個(gè)高度活躍的最后一層轉(zhuǎn)碼器特征(ID 91814)與乘法強(qiáng)烈相關(guān)。研究者們假設(shè)這種過早激活導(dǎo)致了錯(cuò)誤,并進(jìn)行了直接干預(yù):他們重新運(yùn)行生成直到失敗點(diǎn),并使用前向鉤子手動(dòng)將這個(gè)特定乘法特征的激活鉗制為零。

讀完這篇論文,我深感震撼。CRV方法不僅是一種驗(yàn)證技術(shù),更是一種理解AI推理過程的新范式。它讓我們能夠從簡(jiǎn)單的錯(cuò)誤檢測(cè)轉(zhuǎn)向?qū)LM推理的更深層、因果性的理解。
這項(xiàng)研究的幾個(gè)亮點(diǎn)特別值得關(guān)注:
- 創(chuàng)新性:首次提出通過計(jì)算圖的結(jié)構(gòu)特征來驗(yàn)證思維鏈推理,開創(chuàng)了白盒驗(yàn)證的新方向。
- 實(shí)用性:雖然CRV計(jì)算密集,不適合作為實(shí)用的即插即用驗(yàn)證器,但它提供了其他方法無法獲得的科學(xué)見解。
- 可解釋性:通過分析錯(cuò)誤的結(jié)構(gòu)特征,研究者們能夠理解為什么模型會(huì)犯錯(cuò),甚至能夠通過干預(yù)特定特征來糾正錯(cuò)誤。
- 領(lǐng)域特異性:發(fā)現(xiàn)不同推理任務(wù)的錯(cuò)誤在計(jì)算圖中表現(xiàn)為不同的結(jié)構(gòu)模式,這為未來針對(duì)特定領(lǐng)域的驗(yàn)證方法提供了方向。
當(dāng)然,這項(xiàng)研究也有一些局限性:
- 計(jì)算成本高:構(gòu)建和分析歸因圖需要大量計(jì)算資源,限制了其實(shí)際應(yīng)用。
- 領(lǐng)域泛化性差:CRV學(xué)習(xí)的錯(cuò)誤指紋高度領(lǐng)域特定,跨領(lǐng)域性能下降明顯。
- 依賴轉(zhuǎn)碼器:方法的有效性依賴于轉(zhuǎn)碼器的質(zhì)量,而訓(xùn)練高質(zhì)量的轉(zhuǎn)碼器本身就是一個(gè)挑戰(zhàn)。
未來展望
這項(xiàng)研究為AI可解釋性和可靠性研究開辟了新方向。未來,我期待看到:
- 更高效的計(jì)算圖分析方法:降低計(jì)算成本,使CRV方法更實(shí)用。
- 跨領(lǐng)域泛化技術(shù):開發(fā)能夠捕獲通用錯(cuò)誤模式的方法,提高跨領(lǐng)域性能。
- 自動(dòng)干預(yù)機(jī)制:基于CRV的診斷結(jié)果,自動(dòng)糾正模型推理過程中的錯(cuò)誤。
- 與其他驗(yàn)證方法的結(jié)合:將CRV與黑盒和灰盒方法結(jié)合,構(gòu)建更全面的驗(yàn)證系統(tǒng)。
結(jié)語(yǔ)
這篇論文向我們展示了一種全新的AI推理驗(yàn)證方法,它不僅能夠檢測(cè)錯(cuò)誤,還能解釋錯(cuò)誤的原因,甚至能夠糾正錯(cuò)誤。這就像我們不僅能夠知道AI"發(fā)燒了",還能知道"為什么發(fā)燒",甚至能夠"對(duì)癥下藥"。
隨著AI系統(tǒng)在關(guān)鍵領(lǐng)域的應(yīng)用越來越廣泛,確保其推理過程的可靠性變得至關(guān)重要。CRV方法為我們提供了一個(gè)強(qiáng)大的工具,幫助我們理解和改進(jìn)AI的推理過程。
我相信,這項(xiàng)研究只是開始,未來會(huì)有更多基于計(jì)算圖分析的AI可解釋性和可靠性研究出現(xiàn)。讓我們拭目以待!





































