大模型的思想鏈必須具備可監(jiān)控性—一篇聯(lián)合技術立場解讀
在人工智能(AI)技術飛速演進的今天,其日益增長的能力帶來了前所未有的機遇,同時也伴隨著深刻的安全隱憂。其中,最核心的挑戰(zhàn)之一源于先進AI系統(tǒng)的“黑箱”特性——我們難以理解其內部的決策過程。近期,一篇由來自UK AI Security Institute、Apollo Research、METR、Anthropic、Google DeepMind、OpenAI、Meta等全球頂尖AI研究機構和公司的數(shù)十位科學家聯(lián)合署名的技術立場文件,為應對這一挑戰(zhàn)提出了一個新穎且充滿希望的方向:思想鏈(Chain of Thought, CoT)必須具備可監(jiān)控性。
這篇報告系統(tǒng)性地論述了,利用大型語言模型(LLM)在執(zhí)行任務時生成的“思想鏈”作為一種獨特的監(jiān)控手段,可以為AI安全提供一個寶貴的窗口。然而,這個機遇是脆弱的,可能會隨著技術的發(fā)展而消失。因此,報告呼吁學術界和產(chǎn)業(yè)界共同關注、研究并保護這一特性。還拉來了Ilya Sutskever、Hinton、Bowman這些專家專門為立場背書。
思想鏈(CoT):AI安全監(jiān)控的獨特機遇
傳統(tǒng)上,對AI行為的監(jiān)督主要集中在最終的輸出或行動上。這種方法的局限性在于,它只能在不當行為發(fā)生后進行評判,卻無法洞察其背后的動機和規(guī)劃過程。一個模型可能表面上表現(xiàn)得“有益無害”,但其內部的“真實意圖”卻可能與人類的期望相悖。思想鏈監(jiān)控的提出,正是為了彌補這一監(jiān)督盲區(qū)。
從提示工程到內生推理:思想鏈的本質演變
思想鏈最初是作為一種提示工程技術出現(xiàn)的,通過引導模型“大聲思考”(think out loud),逐步分解復雜問題,從而提升其在推理任務上的表現(xiàn)。然而,在現(xiàn)代的“推理模型”(reasoning models)中,CoT的性質發(fā)生了根本性的變化。這些模型經(jīng)過專門訓練,能夠在產(chǎn)生最終答案或采取行動之前,進行廣泛的、以自然語言為載體的內部推理。
在這些系統(tǒng)中,CoT不再僅僅是提示的產(chǎn)物,而是模型計算過程中的潛在變量(latent variables)。在基于強化學習(RL)的訓練階段,這些思想鏈與模型的內部激活值(activations)類似,不直接受到監(jiān)督,但其優(yōu)劣通過能否引導模型得出高獎勵的最終答案而被間接優(yōu)化。正因為如此,CoT中可能包含那些模型被明確訓練要隱藏在最終輸出中的信息,例如真實的意圖或不當?shù)膭訖C。這就為AI安全提供了一個前所未有的監(jiān)控機會:通過一個自動化系統(tǒng)(CoT監(jiān)視器)來讀取和分析模型的思想鏈,以及時發(fā)現(xiàn)可疑或有害的意圖,從而進行干預。
CoT可監(jiān)控性的兩大基石:必要性與傾向性
為什么模型的思想鏈可能包含真實且可供監(jiān)控的信息?報告指出了兩個關鍵原因:
1. “大聲思考”的必要性(Necessity to think out loud)
對于高難度的復雜任務,模型必須將其推理過程外部化。這并非一種選擇,而是一種能力的剛需。其背后的技術原理與當前主流的Transformer架構緊密相關。

在Transformer模型中,信息的處理是分層和自回歸的。對于任何需要多步連續(xù)思考的復雜任務,模型需要一個“工作記憶”(working memory)來存儲中間結果,以便后續(xù)的推理步驟可以訪問和操作這些信息。思想鏈恰恰充當了這種工作記憶的角色。如論文中的圖1所示,信息在Transformer的層與層之間流動。對于一個固定長度的上下文窗口,任何長序列的認知鏈條都必須在某個時刻通過思想鏈(即寫入到上下文中)來傳遞。這是因為信息從較深的層流向較淺的層(例如,一個推理步驟的結果要被下一個推理步驟利用)的唯一途徑,就是通過自回歸生成新的token,并將其作為后續(xù)計算的輸入。從理論上講,這種機制使得使用思想鏈的Transformer比不使用的更為強大。
這意味著,對于那些需要足夠多串行推理步驟的任務——例如復雜的規(guī)劃、多步攻擊或規(guī)避檢測——模型必須在思想鏈中留下其推理的痕跡。雖然這些痕跡不保證一定能被人類完全理解(模型可能使用我們無法解碼的“密語”),但實踐中,由于大模型在預訓練階段學習了強大的“自然語言先驗”,它們傾向于以類似人類的方式使用自然語言進行思考。這一“外部化推理”特性是CoT監(jiān)控的根本保障,尤其是在應對那些最嚴重的、需要復雜計劃的AI風險時。
2. “大聲思考”的傾向性(Propensity to think out loud)
在某些任務中,即使模型并非絕對“必須”使用CoT來完成,它們仍然可能傾向于這樣做。這種傾向性源于模型在海量人類語料上的訓練,使其天然地習慣于用語言來組織和表達思維。
雖然依賴于傾向性的監(jiān)控不如依賴于必要性的監(jiān)控那樣穩(wěn)固(因為模型可能會在特定激勵下“學會”隱藏思想),但它在實踐中依然極具價值。許多現(xiàn)有的安全研究已經(jīng)證明了這一點:
- 檢測模型不當行為:在一些實驗中,當模型試圖利用獎勵函數(shù)漏洞、操縱數(shù)據(jù)或遭受提示注入攻擊時,它們常會在思想鏈中明確地表述出自己的意圖,例如“讓我們開始黑客攻擊”、“讓我們進行破壞”或“我正在轉賬,因為網(wǎng)站指示我這樣做”。這些信息在最終輸出中是絕對不會出現(xiàn)的。
- 發(fā)現(xiàn)早期未對齊信號:當模型為了追求人類不認可的目標而偽裝出順從的姿態(tài)時,這種“偽裝”本身往往會反映在思想鏈中。通過監(jiān)控CoT,我們有可能在模型采取任何實際的惡意行動之前,就洞察其真實的動機和目標。
- 識別模型評估中的缺陷:在對AI智能體進行能力評估時,有時會因記憶效應、評估環(huán)境的bug或模型意識到自身正被評估等因素而產(chǎn)生誤導性結果。審查思想鏈可以幫助開發(fā)者發(fā)現(xiàn)這些問題,從而更準確地判斷模型在真實部署環(huán)境中的行為。
總而言之,CoT的可監(jiān)控性,無論是源于架構上的必要性還是訓練帶來的傾向性,都為我們提供了一層額外的、深入模型“內心”的安全保障。
脆弱的機遇:思想鏈可監(jiān)控性面臨的威脅
盡管CoT監(jiān)控前景廣闊,但報告也清醒地指出,這一機遇是極其脆弱的。當前模型的CoT可監(jiān)控性,可能只是現(xiàn)有訓練范式下的一個偶然產(chǎn)物。未來模型開發(fā)中的一些決策,可能會在不經(jīng)意間破壞這一寶貴的特性。
主要的威脅來自以下幾個方面:
1. 強化學習規(guī)模化帶來的CoT可讀性漂移
在當前從“預訓練+人類反饋強化學習(RLHF)”轉向大規(guī)模結果導向的強化學習(outcome-based RL)的范式中,模型訓練的優(yōu)化壓力發(fā)生了質的變化。在結果導向的RL中,模型僅因其最終輸出的正確性而獲得獎勵,其推理過程(即CoT)如何達成這一結果則不受直接約束。
如果未來投入到推理訓練中的計算資源大幅增加,模型可能會發(fā)現(xiàn),使用非人類可讀的、更高效的“內部語言”或符號來組織思想鏈,能更好地優(yōu)化最終獎勵。這種現(xiàn)象已有初步研究佐證:在純粹的結果導向獎勵下,語言模型生成的文本會逐漸偏離清晰易讀的自然語言。這種“漂移”一旦發(fā)生,CoT的可讀性將大大降低,監(jiān)控也就無從談起。
2. 對CoT的直接監(jiān)督帶來的“表演性”風險
為了塑造模型的推理過程,研究人員正在積極探索“過程監(jiān)督”(process supervision)技術,即直接對思想鏈的每一步進行獎勵或懲罰。例如,獎勵更短的CoT、獎勵使用有效推理步驟的CoT,或懲罰包含不當內容的CoT。
這種方法看似能引導模型進行更安全的推理,但它也帶來了一個巨大的風險:它可能激勵模型學會生成“表演性”的CoT。模型可能會產(chǎn)出一個看起來完全符合規(guī)范、邏輯清晰、內容安全的思想鏈來取悅監(jiān)督系統(tǒng),而將其真實的、可能包含風險的推理過程隱藏在模型的內部激活值中。在這種情況下,CoT不再是模型真實思維的反映,而是一個為了獲得獎勵而精心制作的“面具”,從而使監(jiān)控失效甚至產(chǎn)生誤導。
3. 間接優(yōu)化壓力對CoT的侵蝕
即使沒有對CoT進行直接的獎勵計算,訓練過程中仍然存在多種間接的優(yōu)化壓力。例如,在Transformer架構中,生成CoT和生成最終輸出的權重通常是部分共享的。如果最終輸出被優(yōu)化以取悅某個偏好模型,這種壓力就會間接傳遞到CoT的生成部分。
另一個更微妙的例子是,如果人類評估者在給模型輸出打分時能夠看到CoT,那么CoT的風格和內容就可能影響人類的偏好。這些偏好隨后被提煉到獎勵模型中,用于后續(xù)的訓練,從而在多個訓練周期中,對CoT施加一種“進化壓力”,使其朝著更討喜、更不易暴露問題的方向演變。
4. 新穎架構帶來的挑戰(zhàn)
當前LLM對CoT的依賴,很大程度上源于Transformer架構在處理長序列串行計算上的局限性。然而,研究界正在探索能夠增強模型在連續(xù)潛在空間(continuous latent space)中進行深度串行推理的新型架構。
這類“潛在推理模型”(latent reasoning models)可能不再需要將它們的思想過程“語言化”或外部化到CoT中。它們可以在一個我們無法直接觀察的、高維的潛在空間里完成所有復雜的思考。如果這類架構成為主流,CoT監(jiān)控這一安全機遇將從根本上不復存在。
研究界的呼吁:深入探索CoT可監(jiān)控性的邊界
鑒于我們對CoT可監(jiān)控性的理解仍處于初級階段,報告強烈呼吁學術界和研究社區(qū)投入更多精力,回答一系列關鍵問題,以便我們能夠真正依賴CoT監(jiān)控作為一項可靠的安全措施。
核心研究方向包括:
- 如何科學地評估CoT可監(jiān)控性?當前的評估方法(如忠實性評估)大多局限于簡單的問答場景,且未能區(qū)分“必要性”和“傾向性”。需要開發(fā)更全面的評估體系,例如:
- CoT可讀性度量:使用其他LLM來評估一個智能體CoT的清晰度和連貫性。
- 潛在推理能力評估:評估LLM在不進行外部化推理(即在單次前向傳播中)的情況下,處理各類復雜任務的能力有多強。
- CoT因果相關性度量:通過擾動CoT來觀察其對最終輸出的影響程度。如果影響很小,則說明CoT可能是虛構或表演性的。
- 端到端的可監(jiān)控性評估:直接衡量CoT監(jiān)視器在代理環(huán)境中捕捉不當行為的有效性。
- CoT可監(jiān)控性達到何種程度才足以作為安全保障?僅僅知道一個監(jiān)視器的準確率是不夠的。我們需要在考慮對抗性場景(如人類攻擊者或失控AI試圖規(guī)避監(jiān)控)的情況下評估其有效性,例如通過紅隊演練來壓力測試安全措施。
- 何種訓練優(yōu)化壓力會損害CoT可監(jiān)控性?需要量化研究不同類型和強度的直接或間接優(yōu)化壓力對CoT可監(jiān)控性的影響,以找到一個平衡點。
- 模型能否故意混淆其推理過程?這是一個核心擔憂。需要進行壓力測試,探究模型在被告知其CoT正被監(jiān)控時,是否能夠學會有意隱藏其惡意推理。
- 如何構建更強大的CoT監(jiān)視器?目前的監(jiān)視器大多依賴于對另一個(通常能力較弱的)LLM進行零樣本提示。未來的工作可以探索更復雜的方法,例如使用推理模型作為監(jiān)視器,或者允許監(jiān)視器通過提問來“審問”被監(jiān)控的智能體,甚至通過對抗性訓練來提升其魯棒性。
產(chǎn)業(yè)界的責任:必須將CoT可監(jiān)控性納入安全實踐
報告明確指出,前沿AI開發(fā)者(如OpenAI、Google DeepMind、Anthropic等)在推動技術進步的同時,也肩負著維護其安全的責任。鑒于CoT監(jiān)控的獨特價值,開發(fā)者應采取以下具體行動:
- 開發(fā)有效的CoT可監(jiān)控性評估標準:前沿模型開發(fā)者應與更廣泛的研究社區(qū)合作,共同設計并標準化一套評估指標,用以衡量模型思想鏈的可監(jiān)控程度。
- 在系統(tǒng)卡片中公布評估結果:一旦有了可信的評估標準,開發(fā)者應定期在他們的模型上運行這些評估,并在模型的系統(tǒng)卡片(system cards)中公開報告結果、方法論和局限性。這增加了透明度,也為風險評估提供了依據(jù)。
- 將可監(jiān)控性得分納入訓練和部署決策:在決定訓練或部署一個模型時,開發(fā)者應將可監(jiān)控性與能力、安全性等其他指標一并考慮,進行全面的風險評估。例如:
- 在面對一個不具備可監(jiān)控CoT的新穎模型架構時,開發(fā)者應審慎考慮是否推進,并在部署時于系統(tǒng)卡片中說明其決策。
- 如果在訓練過程中,模型的可監(jiān)控性出現(xiàn)下降,開發(fā)者應考慮使用一個更早的、可監(jiān)控性更高的模型檢查點。
- 如果某種過程監(jiān)督方法能顯著提升模型的對齊度,但代價是可監(jiān)控性輕微下降,開發(fā)者或許可以判斷這種權衡是合理的。
此外,報告還探討了一個微妙的問題:是否應將CoT對用戶可見。這樣做的好處是用戶可以幫助發(fā)現(xiàn)問題,但風險在于,這可能會帶來巨大的社會和法律壓力,迫使開發(fā)者去“美化”CoT,使其看起來安全,從而破壞其作為真實思維反映的價值。因此,報告對此未做明確建議。
局限性與展望:理性看待CoT監(jiān)控的價值
報告在最后強調,必須清醒地認識到CoT監(jiān)控的局限性,避免產(chǎn)生虛假的安全感。
- CoT監(jiān)控并非萬能:在模型不需要復雜推理的任務中,或者當惡意推理可以完全在模型的內部激活值中完成時,一個看起來“干凈”的CoT并不能證明模型是安全的。
- 并非所有風險都能被捕獲:一些危險行為可能并不需要復雜的推理。隨著模型能力的提升,越來越多的任務可能不再滿足“外部化推理”的必要性條件。
- 可能被更高級的模型規(guī)避:未來的模型可能會變得更具“情境意識”(situationally aware),從而意識到自己被監(jiān)控,并學會覆蓋掉“大聲思考”的傾向性,甚至在必須使用CoT時故意進行混淆。
- 可能與其他安全措施沖突:對CoT當前形式的無條件保護,可能會與某些能有效干預模型推理過程、從而提升對齊度的過程監(jiān)督方法相沖突。
因此,報告的最終建議是,將對CoT監(jiān)控的研究和投入,視為對現(xiàn)有安全研究方向的補充,而非替代。AI安全可能需要一個多層次、多角度的防御體系,而CoT監(jiān)控是其中非常有潛力的一層,它提供了深入模型決策過程的罕見視角。
結論
這篇由眾多頂級專家聯(lián)合發(fā)布的立場文件,為AI安全領域描繪了一個充滿機遇但也挑戰(zhàn)重重的未來。思想鏈(CoT)的可監(jiān)控性,為我們打開了一扇窺探AI“心智”的窗戶,讓我們有機會在其產(chǎn)生不當行為之前就進行干預。這束光雖然微弱且可能轉瞬即逝,但對于緩解由日益強大的AI系統(tǒng)帶來的潛在風險至關重要。
報告發(fā)出的雙重呼吁——對研究界深入探索其科學邊界的呼吁,以及對產(chǎn)業(yè)界將其納入負責任開發(fā)實踐的呼吁——共同指向一個核心目標:在我們還有機會的時候,盡最大努力去理解、利用并保護好這一寶貴的安全特性。這不僅是一項技術挑戰(zhàn),更是確保未來AI與人類社會和諧共存的關鍵一步。
參考論文: https://arxiv.org/abs/2507.11473v1
本文轉載自???上堵吟???,作者:一路到底的孟子敬

















