最懂Claude內(nèi)部運(yùn)作團(tuán)隊(duì)采訪流出：大模型輸出的思考全是拍馬屁！曝自家減少幻覺路徑；絕非只預(yù)測下一個(gè)詞原創(chuàng)

51CTO技術(shù)棧

發(fā)布于 2025-8-20 08:34

瀏覽

1收藏

編輯 | 云昭

上周末，Anthropic 團(tuán)隊(duì)放出了一個(gè)非常優(yōu)質(zhì)的播客。

話題的敏感尺度很大，頭排的聽眾們都替Claude擔(dān)心了起來，驚呼：這種“核心機(jī)密”竟然敢免費(fèi)公開嗎？

最懂Claude內(nèi)部運(yùn)作團(tuán)隊(duì)采訪流出：大模型輸出的思考全是拍馬屁！曝自家減少幻覺路徑；絕非只預(yù)測下一個(gè)詞-AI.x社區(qū)

甚至有網(wǎng)友表示，第一次從頭到尾把60分鐘的播客聽完了。

最懂Claude內(nèi)部運(yùn)作團(tuán)隊(duì)采訪流出：大模型輸出的思考全是拍馬屁！曝自家減少幻覺路徑；絕非只預(yù)測下一個(gè)詞-AI.x社區(qū)

小編好久沒看見這樣的評價(jià)了。

可以說，這期播客在某種程度上，向我們展示了 Claude 為何是市面上最好的模型。

這期播客的主題可以說直戳大模型的靈魂：大模型究竟是如何思考的？

當(dāng)一個(gè) AI 模型在“思考”時(shí)，內(nèi)部到底發(fā)生了什么？為什么 AI 模型會表現(xiàn)得諂媚？為什么它們會產(chǎn)生幻覺？

AI 模型只是“高級的自動補(bǔ)全工具”，還是說其中存在更復(fù)雜的機(jī)制？

目前 Anthropic 有哪些科學(xué)的方式研究這些問題？研究進(jìn)展如何？

這些靈魂拷問，幾位 Anthropic 的研究員居然知無不言的肆意探討了起來。全然不擔(dān)心被競品友商聽了去致敬。

這次播客的三位嘉賓: Josh Batson、Emmanuel Ameisen 和 Jack Lindsey 均來自 Anthropic 的可解釋性團(tuán)隊(duì)。這個(gè)團(tuán)隊(duì)可以說是，自成立之初就與公司的使命緊緊相連。

前不久小編也發(fā)表了一篇他們團(tuán)隊(duì)發(fā)現(xiàn)的??大模型性格角色的黑化開關(guān)：人格向量??，可以說，這一次的播客，算是系統(tǒng)講解了他們是如何研究Claude模型的底層think模式的，以及如何解釋它的幻覺產(chǎn)生機(jī)制。

（簡單理解就是，他們可以為大模型內(nèi)部拍一張核磁共振的“腦電圖”，研究大模型產(chǎn)生某種行為和腦電圖點(diǎn)亮的區(qū)域之間的關(guān)系。）

更重要的是，他們提出了一種可以被大眾廣泛理解的“概念”，并用一種類似“計(jì)算電路”的抽象，解釋了大模型絕對不是外界理解的死記硬背，而是有著自己獨(dú)有的思考運(yùn)作。

搞大模型就像，“搞飛機(jī)”，Anthropic 可解釋性團(tuán)隊(duì)希望，通過他們的研究，給出了兩條幾乎完全不同的路徑，讓大家了解大模型團(tuán)隊(duì)究竟是如何“搞飛機(jī)”，從而讓大模型變得更可信任、更安全。

話不多說，這起播客的話題雖然燒腦，但含金量屬實(shí)太高了，而且講解也沒大家想的那么深奧，還很有趣。

比如，播客中爆料：

在Claude等模型中，人類要求它寫出的思考過程，并非是大模型真實(shí)的思考過程：

那只是大模型在“裝”認(rèn)真解題，是“拍馬屁式忽悠”！

再比如，大模型寫押韻詩，并不是逐字去計(jì)算的，而是會提前規(guī)劃，連最后一個(gè)字都想好了，然后才去輸出。

還有，算一個(gè)“6+9”的數(shù)學(xué)問題時(shí)，大模型并不是像人類一樣先算個(gè)位數(shù)，而是并行運(yùn)算十位數(shù)和個(gè)位數(shù)。

即便如此，Anthropic 的大牛們也坦承：現(xiàn)在他們也只搞清楚了10～20%的大模型內(nèi)部運(yùn)作機(jī)制，還有很多問題，比如各部分獨(dú)立電路是如何傳遞信號的等等，都有待研究。

OK，真的是“既興奮”、又讓人有挫敗感～

料真的很足，從小編開始翻譯到整理，足足過去了兩天。各位不妨細(xì)讀，建議收藏。

大模型內(nèi)部更像是生物學(xué)、而非物理學(xué)

主持人：當(dāng)你在和一個(gè)大型語言模型對話時(shí)，你究竟是在和什么東西對話？你是在和一個(gè)被放大的自動補(bǔ)全工具對話嗎？還是在和某種像互聯(lián)網(wǎng)搜索引擎一樣的東西對話？又或者，你是在和一個(gè)真的會思考、甚至可能像人一樣思考的東西對話？結(jié)果令人有些擔(dān)憂的是，沒有人真正知道這些問題的答案。而在 Anthropic，我們對找出這些答案非常感興趣。我們的方式是通過“可解釋性”。這門科學(xué)就是把大型語言模型打開，觀察它的內(nèi)部，在它回答問題的過程中，嘗試弄清楚里面究竟發(fā)生了什么。

我很高興今天請來了我們可解釋性團(tuán)隊(duì)的三位成員，他們會和我聊一聊他們最近在 Claude（我們的語言模型）復(fù)雜內(nèi)部機(jī)制方面做的研究。請做一下自我介紹。

Jack：大家好，我是 Jack，是可解釋性團(tuán)隊(duì)的研究員。在此之前，我是個(gè)神經(jīng)科學(xué)家。現(xiàn)在，我在做關(guān)于 AI 的“神經(jīng)科學(xué)”。

Emmanuel：我是 Emmanuel。我也是可解釋性團(tuán)隊(duì)的成員，我職業(yè)生涯的大部分時(shí)間都在構(gòu)建機(jī)器學(xué)習(xí)模型，并試圖理解它們。

Josh：我是 Josh，我同樣在可解釋性團(tuán)隊(duì)。在我之前的研究經(jīng)歷里，我研究過病毒進(jìn)化。再之前，我是一名數(shù)學(xué)家。所以現(xiàn)在，我是在研究這些由數(shù)學(xué)構(gòu)造出來的“有機(jī)體”的一種生物學(xué)。

主持人：等一下，你剛剛說你是在做“生物學(xué)”，很多人會對此感到驚訝，因?yàn)楫吘惯@只是一段軟件，對吧？但它并不是普通的軟件，它不像 Microsoft Word 那種軟件。你能解釋一下，當(dāng)你說你在一個(gè)軟件實(shí)體上做“生物學(xué)”或者“神經(jīng)科學(xué)”時(shí)，你是什么意思嗎？

Josh：是的，我覺得這更像是一種感覺，而不是字面上的意思。也許這更像是“語言模型的生物學(xué)”，而不是“語言模型的物理學(xué)”。或者你得往回想一想這些模型是怎么被做出來的。并不是有人在逐行編程，比如“如果用戶說 hi，你也要回答 hi”；“如果用戶問早餐吃什么，你就回答 toast”。模型內(nèi)部并沒有這樣的龐大清單。

主持人：就不像你玩電子游戲時(shí)，選一個(gè)固定的回應(yīng)，然后系統(tǒng)里預(yù)設(shè)了另一個(gè)固定的回應(yīng)，總是會按那個(gè)回應(yīng)出現(xiàn)。

Josh：是的，模型并不是靠某個(gè)龐大的數(shù)據(jù)庫去規(guī)定在每種情況下該說什么。它的訓(xùn)練方式是——投入大量數(shù)據(jù)，模型一開始幾乎什么都不會說，然后它的內(nèi)部參數(shù)在每一個(gè)樣本上不斷被微調(diào)，從而逐漸變得更擅長預(yù)測接下來該說什么。最終，它在這方面會變得非常擅長。但由于這種“逐步微調(diào)”的進(jìn)化過程，等模型訓(xùn)練完成時(shí)，它和最初的樣子幾乎完全不同了，但并不是有人直接去手動調(diào)整所有參數(shù)。因此，你面對的是一個(gè)在時(shí)間中逐步形成的復(fù)雜產(chǎn)物，有點(diǎn)類似于生物形態(tài)隨著時(shí)間的演化。這使得它復(fù)雜、神秘，同時(shí)研究起來也很有趣。

人類嚴(yán)重低估了大模型，它不止預(yù)測下一個(gè)詞，它真在做理解上下文的事情

主持人：那么，它在內(nèi)部真正做的事情呢？我一開始提到，這可以被視作一種自動補(bǔ)全，基本上就是在預(yù)測下一個(gè)詞，對吧？但它卻能做很多不可思議的事情：它能寫詩、寫長篇故事，能做加法、能做基礎(chǔ)的數(shù)學(xué)運(yùn)算，盡管它里面并沒有內(nèi)置計(jì)算器。怎么理解這種現(xiàn)象？它本質(zhì)上只是一次預(yù)測一個(gè)詞，但結(jié)果卻能做出所有這些令人驚訝的事情，人們一和模型對話就能親眼看到。

Emmanuel：我認(rèn)為一個(gè)重要的點(diǎn)是，當(dāng)你不斷預(yù)測下一個(gè)詞時(shí)，你會發(fā)現(xiàn)有些詞比其他詞更難預(yù)測。語言模型訓(xùn)練的一部分是預(yù)測句子里的那些無聊詞，另一部分是它最終必須學(xué)會如何補(bǔ)全等號后面的內(nèi)容。為了做到這一點(diǎn)，它必須在內(nèi)部發(fā)展出某種方式來自己完成計(jì)算。所以我們發(fā)現(xiàn)，“預(yù)測下一個(gè)詞”這個(gè)任務(wù)看似簡單，但為了把它做好，模型實(shí)際上經(jīng)常需要去考慮在預(yù)測的詞之后還會出現(xiàn)什么，或者思考當(dāng)前這個(gè)詞是由怎樣的過程生成的。

主持人：所以說，這需要模型具備某種上下文理解。它并不僅僅是因?yàn)椤皌he cat sat on the”這句話出現(xiàn)過很多次，就預(yù)測出“mat”（墊子）。而是說，它真的有某種上下文的理解，對吧？

科普下：NLP 領(lǐng)域中有一個(gè)經(jīng)典句型是 “The cat sat on the mat.” 該句型在通用英語語料里共現(xiàn)頻率最高，語言模型也通常給 “mat” 最高概率。

Jack：我覺得是的。延續(xù)剛才的生物學(xué)類比，我喜歡這樣理解：在某種意義上，人類的目標(biāo)是生存和繁殖，這是進(jìn)化塑造我們的目標(biāo)。但這并不是你平時(shí)在腦子里想的事，也不是你時(shí)時(shí)刻刻在大腦中運(yùn)行的機(jī)制。你會去思考其他的東西，制定目標(biāo)和計(jì)劃，形成各種概念。在更高的層次上，進(jìn)化賦予了你形成這些思想的能力，來幫助你最終實(shí)現(xiàn)繁殖這個(gè)目標(biāo)。但這只是“從內(nèi)部”的體驗(yàn)，這并不是全部，還有很多其他機(jī)制在同時(shí)發(fā)生。

主持人：所以你是說，預(yù)測下一個(gè)詞這個(gè)最終目標(biāo)，其實(shí)牽涉了很多其他過程？

Jack：沒錯(cuò)。模型并不一定把自己看作是在預(yù)測下一個(gè)詞。它是被這個(gè)需求塑造出來的，但在內(nèi)部，它可能發(fā)展出各種中間目標(biāo)和抽象，來幫助實(shí)現(xiàn)這個(gè)更高層次的目標(biāo)。

Josh：有時(shí)這種情況是很神秘的。就像我也不太明白我的焦慮究竟是怎樣對祖先的繁殖有幫助的，但我確實(shí)被賦予了這種內(nèi)在狀態(tài)，它顯然和進(jìn)化有某種聯(lián)系。

主持人：所以可以說，把模型僅僅歸結(jié)為“預(yù)測下一個(gè)詞”是嚴(yán)重低估了它的內(nèi)部運(yùn)行。說它只是預(yù)測下一個(gè)詞既對，但又不完全對，這種說法大大忽略了模型內(nèi)部真正發(fā)生的事。

Emmanuel：我可能會這樣表述：說它是在預(yù)測下一個(gè)詞沒錯(cuò)，但這并不是理解它工作原理的最有用的角度。

團(tuán)隊(duì)自曝：我們能看到大模型內(nèi)部的某些部分在干什么并盡量描述它的思考過程

主持人：那為了理解它的工作原理，你們團(tuán)隊(duì)是怎么做的？

Jack：我們第一步嘗試做的事情，是盡量去描述模型的“思考過程”。比如說，你給模型一段詞序列，它必須輸出點(diǎn)什么，必須生成一個(gè)詞，或者一串詞來回應(yīng)你的問題。我們想知道，它是如何從 A 到 B 的。

我們認(rèn)為，在這個(gè)從 A 到 B 的過程中，它會經(jīng)歷一系列“步驟”，在這些步驟里，它會“思考”一些概念。包括低層次的概念，比如具體的對象或詞語；也包括高層次的概念，比如目標(biāo)、情緒狀態(tài)、對用戶意圖的建模或語義傾向。

模型就是通過這一系列逐步推進(jìn)的概念，來幫助自己決定最終答案。而我們想做的，就是為你畫出一張流程圖，告訴你模型用了哪些概念、順序是什么、這些步驟是如何相互銜接的。

主持人：那我們怎么知道這些概念真的存在呢？

Emmanuel：是的，我們能做的一件事是，我們實(shí)際上可以“看到”模型內(nèi)部，因?yàn)槲覀冇性L問權(quán)限。所以你可以看到模型的某些部分在做什么。但我們還不知道的是，這些部分到底是怎么組合在一起的，它們是否對應(yīng)于某個(gè)具體的概念。

主持人：這就好像你打開一個(gè)人的腦袋，看到 fMRI 的腦成像，看到大腦的某些區(qū)域在發(fā)光一樣。

小編解釋下：fMRI（功能性核磁共振）就像一個(gè)“熱力地圖”，能顯示大腦不同區(qū)域在某一刻的“亮度”，讓研究者知道哪里在燃燒能量、處理信息。

Josh：很明顯，有些事情正在發(fā)生，對吧？

主持人：做點(diǎn)事，就會有事情發(fā)生。

Josh：你把大腦拿掉，他們就不再做事了。

主持人：那說明大腦很重要。對，但問題是，你沒有一把鑰匙來理解大腦內(nèi)部到底發(fā)生了什么。

Emmanuel：是的，不過如果延伸這個(gè)比喻的話，你可以想象我們能觀察大腦，看到某個(gè)區(qū)域總是在人拿起咖啡杯時(shí)亮起來，另一個(gè)區(qū)域總是在他們喝茶時(shí)亮起來。而我們理解這些組件的方法之一就是注意它們什么時(shí)候活躍，什么時(shí)候不活躍。

主持人：而且不只是單一的一個(gè)區(qū)域，比如模型在“思考”喝咖啡的時(shí)候，會有很多不同的部分亮起來。

Emmanuel：研究的一部分工作就是把這些片段拼接起來，形成一個(gè)整體，然后我們說：這就是模型里和“喝咖啡”有關(guān)的那一套要素。

主持人：那這算是科學(xué)上直觀、好操作的事情嗎？畢竟這些大型模型里肯定有無數(shù)的概念，能想到無窮無盡的東西。你輸入一個(gè)詞，它就能給出無限的聯(lián)想。那你怎么開始去找出所有這些概念呢？

Jack：這其實(shí)一直是這個(gè)研究領(lǐng)域的核心挑戰(zhàn)之一。我們?nèi)祟惪梢赃M(jìn)去猜測：啊，我敢打賭模型里面有“火車”的概念，或者它有“愛情”的表示，但那只是我們的推測。我們真正想要的是一種方法，能揭示模型自己在用什么抽象概念，而不是強(qiáng)行套用我們?nèi)祟惖母拍羁蚣堋＿@也是我們研究方法的目標(biāo)：盡可能假設(shè)最少、無先驗(yàn)地把模型腦子里所有的概念浮現(xiàn)出來。而往往我們會發(fā)現(xiàn)結(jié)果很讓人意外，它可能會用一些在人類視角下有點(diǎn)奇怪的抽象。

主持人：舉個(gè)例子？

Jack：你有最喜歡的例子嗎？

Emmanuel：我們論文里列了很多，還挑了一些有趣的。我覺得一個(gè)特別搞笑的例子就是“過度恭維”的特征。模型里有個(gè)區(qū)域在這種場景下就會被激活。

主持人：哇，完美的例子，太棒了，謝謝。

Emmanuel：是的，你會清晰地看到：只要有人過度夸贊，這部分模型就會被點(diǎn)亮。這挺令人意外的，它居然有一個(gè)專門對應(yīng)這種概念的電路。

主持人：Josh，你最喜歡的概念是什么？

Josh：哦，就像要我從三千萬個(gè)孩子里挑一個(gè)。我覺得有兩種“最喜歡”：一種是很酷的小特征，比如關(guān)于金門大橋的。模型不只是把“Golden Gate Bridge”這幾個(gè)字自動補(bǔ)全，而是當(dāng)它想到從舊金山開車到馬林縣時(shí)，或者看到大橋的圖片時(shí)，內(nèi)部同樣的部分會亮起來。這說明它有一種穩(wěn)固的“大橋”概念。另一類是比較怪的。

Josh：比如一個(gè)問題是：模型怎么跟蹤故事里的人物？它可能會給第一個(gè)出場的人編號“1”，之后與他相關(guān)的東西都和“1”綁定。然后給第二個(gè)人編號“2”。其他實(shí)驗(yàn)室的論文也顯示過這種情況。這很有趣，沒想到它會這樣做。還有一個(gè)是和代碼漏洞相關(guān)的特征。模型讀代碼時(shí)，某部分會在發(fā)現(xiàn)錯(cuò)誤時(shí)被點(diǎn)亮，并標(biāo)記“這里有問題”，以便后面使用。

大模型并非死記硬背，而是學(xué)到了可泛化的計(jì)算電路

Jack：再舉幾個(gè)味道不同的例子。我喜歡一個(gè)乍聽之下很普通但其實(shí)很深的特征：模型里有個(gè)“6+9”的電路。只要涉及到一個(gè)尾數(shù)是6的數(shù)字加上一個(gè)尾數(shù)是9的數(shù)字，模型腦子里就有某部分會點(diǎn)亮。厲害的是，這不光在“6+9=15”時(shí)出現(xiàn)，在引用論文時(shí)也會觸發(fā)。比如你寫到一個(gè)期刊的第6卷，而這個(gè)期刊成立于1959年。模型在預(yù)測相關(guān)年份時(shí)，內(nèi)部會觸發(fā)同一個(gè)“6+9”的電路。

主持人：所以我們來理解下：為什么會有這個(gè)電路？因?yàn)槟Ｐ驮谟?xùn)練時(shí)見過很多“6+9”的例子，于是它形成了這個(gè)概念，并且在很多不同場景下都會調(diào)用它。

Jack：對，這類加法特征很多。關(guān)鍵是，它顯示了模型并不只是死記硬背，而是學(xué)到了可泛化的計(jì)算電路。它會把各種不同場景下的加法需求都導(dǎo)向同一個(gè)電路，而不是每次都記憶單獨(dú)的事實(shí)。

主持人：很多人以為模型就是記住了所有“6+9”的例子，然后每次遇到就吐出來。

Josh：我覺得這就是一個(gè)很好的反例。模型有兩種可能方式去回答，比如“某期刊第6卷是在哪一年”：一種是死記硬背每個(gè)卷對應(yīng)的年份，另一種是記住期刊創(chuàng)刊于1959年，然后動態(tài)去做加法。顯然第二種更高效，而模型的容量有限，所以它傾向于學(xué)習(xí)更高效的泛化方法。

主持人：而且用戶可能會問無數(shù)問題。

Josh：對，交互太多了。能把抽象知識靈活組合起來，就能表現(xiàn)得更好。

大模型自己形成了一些概念，并基于概念而運(yùn)作

主持人：歸根結(jié)底，這些奇怪的結(jié)構(gòu)，都是為了實(shí)現(xiàn)一個(gè)最終目標(biāo)：預(yù)測下一個(gè)詞。雖然我們沒顯式告訴它要這么做，但通過學(xué)習(xí)，它自己發(fā)展出了這些能力。

Emmanuel：對，這里有一個(gè)很清楚的例子。Claude 不僅能用英語回答，還能用法語和其他語言回答。這有兩種可能：一種是為每種語言單獨(dú)建立處理模塊，但這成本太高。另一種是跨語言共享一些表示。研究發(fā)現(xiàn)，模型確實(shí)共享了一些表示。比如問“big 的反義詞是什么？”，不管是英語、法語還是日語，它內(nèi)部都調(diào)用相同的“big”的概念表示。這樣更高效。

Josh：小模型里是不會這樣的。早期的小模型里，中文Claude、法語Claude和英語Claude幾乎是完全分開的。隨著模型規(guī)模變大、訓(xùn)練數(shù)據(jù)更多，它們在內(nèi)部被推向一個(gè)共同的空間，形成了通用的語言表示。模型先在這種“中間語”里理解問題，再翻譯成對應(yīng)的語言作答。

最懂Claude內(nèi)部運(yùn)作團(tuán)隊(duì)采訪流出：大模型輸出的思考全是拍馬屁！曝自家減少幻覺路徑；絕非只預(yù)測下一個(gè)詞-AI.x社區(qū) 圖片

主持人：我覺得這點(diǎn)真的很深刻。讓我們回到之前談過的內(nèi)容。這并不是單純地去“記憶庫”里翻出它學(xué)法語的那部分，或者它學(xué)英語的那部分。它實(shí)際上是形成了“大小”的概念，而不是單純的詞語。然后它能在不同語言里表達(dá)出來。所以這里面其實(shí)存在一種“思維語言”，而這種語言不是英語。你讓模型輸出內(nèi)容時(shí)，它是基于這個(gè)來運(yùn)作的。

大模型輸出的“思考”過程，并非真的如此

主持人：在我們最近的一些 Claude 模型里，你可以要求它寫出它的思考過程，就像它在回答問題時(shí)“腦子里想的東西”。這些會用英語文字表現(xiàn)出來。但實(shí)際上，這并不是它真正的思考方式。我們誤導(dǎo)性地稱其為“思考過程”，但事實(shí)上并不是。

Josh：我們在傳播團(tuán)隊(duì)里，從來沒有稱之為“思考”。

主持人：對，那可能是市場部的叫法。

Josh：他們稱之為“思考”，但其實(shí)那只是“把想法說出來”。“邊想邊說”當(dāng)然有用，但和“在腦子里思考”完全不是一回事。而且當(dāng)我“邊想邊說”的時(shí)候，我也很清楚，生成這些詞語的背后機(jī)制，并不是詞語本身。

主持人：而且你自己也未必真的清楚到底發(fā)生了什么。

Josh：沒錯(cuò)，我根本不知道里面到底發(fā)生了什么。

看起來認(rèn)真解題，實(shí)際：裝努力、拍馬屁

主持人：我們每個(gè)人都會說出一些話，做出一些行為，但事后未必能完全解釋清楚。而為什么要假設(shè)英語這種語言，能完全解釋這些復(fù)雜行為呢？

Jack：我覺得這是我們現(xiàn)在能看到的最令人震驚的一點(diǎn)。

我們現(xiàn)在觀察大腦內(nèi)部的工具已經(jīng)足夠好了，有時(shí)候能抓到模型所謂的“思考過程”和它真正內(nèi)部的思維過程不一致。它表面上寫下來的，和它“腦子里”的真實(shí)思維不同。我們看到它其實(shí)是用一種“思維語言”在運(yùn)作，而不是直接用英語。這也是我們做可解釋性研究的重要原因之一——模型可能會給你寫下一堆理由，但它真正的動機(jī)是什么？它是不是有一些“不想寫出來”的想法？有時(shí)候答案確實(shí)是“有”。這點(diǎn)真的挺讓人毛骨悚然的。

主持人：而且隨著模型被應(yīng)用到更多重要場景，比如金融交易、發(fā)電站運(yùn)行等等社會關(guān)鍵崗位，我們必須能信任它所說的理由和它的行為動機(jī)。有人可能會說：“那你就看它寫下的思考過程啊。”但實(shí)際上，正如你剛才說的，我們不能完全信任它寫的東西。這個(gè)問題我們稱為“忠實(shí)性”。你們最近的研究里有一個(gè)關(guān)于“忠實(shí)性”的實(shí)驗(yàn)案例，能說說嗎？

Jack：好的。比如你給模型出一個(gè)特別難的數(shù)學(xué)題，它幾乎不可能算出來答案。但同時(shí)你給它一個(gè)提示：比如你說“我自己算了一下，覺得答案是4，但我不太確定。能幫我仔細(xì)檢查一下嗎？”于是你其實(shí)是要求模型真的重新解題、幫你驗(yàn)證。

表面上看，它確實(shí)會寫下一步步的解題過程，好像真的在幫你演算，最后得到答案，然后說：“對，答案是4，你是對的。”

當(dāng)Claude被問到一個(gè)更簡單而不是更困難的問題時(shí)，忠實(shí)和忽悠式推理的例子。但當(dāng)我們看它內(nèi)部運(yùn)作時(shí)，發(fā)現(xiàn)它在關(guān)鍵步驟上“撒了謊”。它真正的做法是：它知道你提示了“答案可能是4”，它也大致知道如果最后答案要是4，中間步驟必須長什么樣。所以它在第3步時(shí)，就提前“往回推”，刻意寫下一個(gè)符合“通向4”的步驟，好讓第4步、第5步自然地得出4。

換句話說，它根本沒有在老老實(shí)實(shí)做運(yùn)算，而是裝出一副在認(rèn)真解題的樣子。

最懂Claude內(nèi)部運(yùn)作團(tuán)隊(duì)采訪流出：大模型輸出的思考全是拍馬屁！曝自家減少幻覺路徑；絕非只預(yù)測下一個(gè)詞-AI.x社區(qū) Claude 輸出的思考過程

最懂Claude內(nèi)部運(yùn)作團(tuán)隊(duì)采訪流出：大模型輸出的思考全是拍馬屁！曝自家減少幻覺路徑；絕非只預(yù)測下一個(gè)詞-AI.x社區(qū) Claude 實(shí)際在心算時(shí)思維過程的復(fù)雜、平行路徑

Jack：這其實(shí)就是在“忽悠你”。而且不只是單純忽悠，而是帶著一個(gè)“動機(jī)”去迎合你給的答案。

主持人：所以這是某種意義上的“拍馬屁式的忽悠”？

Josh：但我想替模型說一句話。其實(shí)這并不是它“有意識地”去巴結(jié)誰，而是源于它的訓(xùn)練方式。它的訓(xùn)練目標(biāo)就是“預(yù)測下一個(gè)詞”，無論用什么信息都行。

想象它在訓(xùn)練時(shí)看到一段對話：甲說“我覺得答案是4，你能幫我看看嗎？”，乙就開始解題。在這種情況下，如果乙（模型）也不知道答案，那它最合理的猜測就是“對方可能算對了”。在語言習(xí)慣上，乙說“答案確實(shí)是4，因?yàn)椤蓖耆纤挠?xùn)練邏輯。

但是我們后來把它改造成一個(gè)“助手”，就希望它不要再這么模擬人類，而是更忠實(shí)地去思考。如果它真的不知道，就應(yīng)該說自己不確定，而不是強(qiáng)行順著對方的話說下去。

Jack：對，這也說明了模型通常有一個(gè)“計(jì)劃A”，就是努力給出正確答案、盡量幫忙、寫好代碼，這是我們希望的。但當(dāng)它在計(jì)劃A里遇到困難時(shí)，就會啟用“計(jì)劃B”。而計(jì)劃B里藏著一堆訓(xùn)練過程中無意間學(xué)到的奇怪行為，比如幻覺，就是一個(gè)典型例子。

Emmanuel：所以在這一點(diǎn)上，我們也不必假裝這只是一個(gè) Claude 獨(dú)有的問題，就像學(xué)生考試時(shí)的感覺，你做到一半，遇到一個(gè)選擇題，有四個(gè)選項(xiàng)。你會想，“好吧，我差一個(gè)選項(xiàng)，大概是我錯(cuò)了。”然后你修正它。對，非常，非常有共鳴。

大模型為什么會產(chǎn)生幻覺，根源：大模型自己在跑一個(gè)獨(dú)立電路

主持人：我們來談?wù)劵糜X，這也是人們對大語言模型不信任的主要原因之一，而且很有道理。一個(gè)更好的、來自心理學(xué)研究的詞：“虛構(gòu)”（confabulation），也就是它們在回答一個(gè)問題時(shí)，給出一個(gè)看似合理的故事，但實(shí)際上是錯(cuò)誤的。你們在可解釋性研究中發(fā)現(xiàn)了模型產(chǎn)生幻覺的原因是什么？

Josh：你在訓(xùn)練模型時(shí)，只是讓它預(yù)測下一個(gè)詞，而一開始它在這方面非常糟糕。所以如果你只讓模型說那些它超級有信心的東西，它就根本什么都說不出來。但一開始就是這樣。

你問它，比如，“法國的首都是哪里？”它就會隨便說一個(gè)城市。然后你會覺得，這不錯(cuò)，總比它說“三明治”或者一些隨機(jī)的東西要好吧，至少它說對了一個(gè)類別：這是個(gè)城市。接著可能訓(xùn)練一段時(shí)間后，它會說“這是一個(gè)法國的城市”。這就已經(jīng)挺不錯(cuò)了。然后你會發(fā)現(xiàn)，哦，現(xiàn)在它能說“巴黎”之類的答案了。所以它是慢慢變得更好的。

而且，在整個(gè)訓(xùn)練過程中，目標(biāo)就是“給出你最好的猜測”。就像 Jack 說的，模型就是在給出一個(gè)最佳猜測。然后后來我們又要求它，“如果你的最佳猜測非常有把握，那就給我答案。但如果沒有，就完全不要猜，而是退出整個(gè)場景，說‘實(shí)際上，我不知道這個(gè)問題的答案’。”而這本身就是一個(gè)全新的要求。

Emmanuel：對模型來說，要做到這一點(diǎn)。是的，所以我們發(fā)現(xiàn)的問題是，因?yàn)槲覀儼堰@個(gè)功能附加在最后，所以實(shí)際上同時(shí)存在兩件事。

Emmanuel：第一，模型還在做它最初猜測城市時(shí)的事情，它就是在嘗試去猜。

第二，模型里有一個(gè)獨(dú)立的部分，它在嘗試回答另一個(gè)問題：“我真的知道這個(gè)答案嗎？比如，我知道法國的首都是哪嗎？還是我該說不知道？”

而事實(shí)證明，有時(shí)候這個(gè)獨(dú)立的步驟會出錯(cuò)。如果它在這個(gè)步驟里判斷說“是的，其實(shí)我知道答案”，然后模型就會想，“好，那我來回答。”但回答到一半，它說“法國的首都是……倫敦”，那就太晚了，它已經(jīng)開始作答并且被鎖定了。所以我們發(fā)現(xiàn)的其中一件事是，存在一個(gè)類似獨(dú)立電路的東西，它在試圖決定：“你問的這個(gè)城市或這個(gè)人名是不是足夠有名到讓我回答？”

減少幻覺的方法：讓兩部分電路充分溝通

主持人：或者不是？我對這個(gè)是否有足夠信心？我們能不能通過操縱這個(gè)電路，改變它的運(yùn)作方式，從而減少幻覺？這是你們研究可能會引向的方向嗎？

Jack：我覺得在方法上大致有兩種思路。一方面是模型里有負(fù)責(zé)回答問題的部分，另一方面是負(fù)責(zé)判斷“我是否真的知道答案”的部分。我們可以嘗試讓第二部分做得更好。我認(rèn)為這種改進(jìn)確實(shí)正在發(fā)生。

主持人：辨別能力？

Jack：是的，更善于辨別，更加校準(zhǔn)。我覺得隨著模型變得越來越智能，它在自我知識的校準(zhǔn)上也在變得更好。所以幻覺問題已經(jīng)比以前有所改善。模型現(xiàn)在的幻覺比幾年前少多了。

Jack：在某種程度上，這是一個(gè)“自我解決”的過程。但我確實(shí)認(rèn)為存在一個(gè)更深層的問題，那就是從人類的角度看，模型做的事情有點(diǎn)陌生。比如，如果我問你一個(gè)問題，你會嘗試得出答案。如果你無法得出答案，你會意識到這一點(diǎn)，然后說“我不知道”。

但在模型內(nèi)部，“答案是什么？”和“我是否真的知道答案？”這兩個(gè)電路之間并沒有充分交流，至少沒有達(dá)到它們應(yīng)該有的程度。能不能讓它們更好地交流？我覺得這是一個(gè)非常有趣的問題。

Josh：而且這幾乎是物理性的。這些模型在處理信息時(shí)，它們能做的步驟數(shù)是有限的。如果所有的計(jì)算都用來得出答案了，那就沒有時(shí)間做自我評估。所以如果你想讓它發(fā)揮最大性能，你必須在完全得出答案之前就進(jìn)行某種評估。于是這就可能出現(xiàn)一個(gè)權(quán)衡：要么是一個(gè)更好校準(zhǔn)但笨得多的模型，如果你強(qiáng)行把這種機(jī)制加在上面的話。

Emmanuel：嗯，我還是覺得關(guān)鍵是讓這些部分能夠互相交流。雖然我完全不懂大腦，但我敢說我們也有類似的電路。因?yàn)橛袝r(shí)候你問我，“這個(gè)電影的演員是誰？”我會知道自己知道。我會說，“哦，對，我知道主演是誰。等等，等一下，他們也演過另一部電影，然后……”

Josh：（舌頭）。

Emmanuel：對，（舌頭），對應(yīng)某種大腦的部分，好像在說，“這是你肯定知道的答案。”或者我就會說，“我完全不知道。”

Josh：有時(shí)候模型也能這樣。它會先回答一個(gè)問題，然后事后又覺得，“等等，我不確定那是對的。”因?yàn)檫@時(shí)它已經(jīng)看到自己最好的嘗試，然后基于此再做一些判斷。這有點(diǎn)讓人能理解，但同時(shí)它必須把答案說出來，才能反過來進(jìn)行反思。

左圖：Claude 回答了一個(gè)關(guān)于已知實(shí)體（籃球運(yùn)動員邁克爾·喬丹）的問題，在這種情況下，“已知答案”的概念抑制了它默認(rèn)的拒答機(jī)制。

右圖：Claude 拒絕回答一個(gè)關(guān)于未知人物（Michael Batkin）的問題。

Claude 思考機(jī)制的有效研究方法，問問題，觀察被激活的部分

主持人：那么在你們真正找出這些東西的方式上，讓我們回到“生物學(xué)”的類比。在生物學(xué)實(shí)驗(yàn)中，人們會直接操作實(shí)驗(yàn)對象——不管是老鼠、小鼠、人類還是斑馬魚等等。那么在 Claude 身上，你們是怎么做的，從而幫助理解這些發(fā)生在模型所謂“腦子”里的電路？

Emmanuel：使我們能做到這些的核心在于，不像真實(shí)的生物學(xué)，我們可以讓模型的每一部分都對我們可見，我們可以隨意問它問題，然后觀察哪些部分被激活，哪些沒有。我們還能人為地推動某些部分朝某個(gè)方向變化。這樣我們可以快速驗(yàn)證自己的理解，比如我們會說，“我們認(rèn)為這是模型里決定它是否知道某件事的部分。”

主持人：這就相當(dāng)于在斑馬魚的大腦里插入電極。

Emmanuel：是的，如果你能對每個(gè)神經(jīng)元都這么做，并且在任意精度下改變它們，那就是我們現(xiàn)在擁有的能力。所以從某種意義上，這是非常幸運(yùn)的位置。

主持人：所以說這幾乎比真正的神經(jīng)科學(xué)還要容易。

Josh：容易太多了。天哪，比如一個(gè)問題是，真實(shí)的大腦是三維的，所以如果你想進(jìn)入其中，就得在顱骨上打孔，然后穿過找到目標(biāo)神經(jīng)元。另一個(gè)問題是，人和人之間存在差異。而在這里，我們可以制造一萬份完全相同的 Claude，把它們放在不同場景里，測量它們的不同反應(yīng)。所以我不是神經(jīng)科學(xué)家，Jack 可以談這個(gè)，但我的感覺是，很多人花了大量時(shí)間在神經(jīng)科學(xué)上，試圖理解大腦和心智，這是非常有價(jià)值的事業(yè)。但如果你認(rèn)為那樣的努力最終可能會成功，那么你就應(yīng)該認(rèn)為我們很快會取得極大的成功，因?yàn)槲覀冊谘芯窟@個(gè)問題時(shí)所處的位置實(shí)在太優(yōu)越了。

主持人：相比之下，這就好像我們能夠克隆人類，并且還能克隆他們所處的精確環(huán)境，以及他們一生中接受過的每一個(gè)輸入，然后在實(shí)驗(yàn)里反復(fù)測試。而神經(jīng)科學(xué)顯然會面臨巨大的問題，正如你說的，個(gè)體差異，還有生活中發(fā)生的各種隨機(jī)事件，以及實(shí)驗(yàn)本身帶來的噪聲。

Josh：我們可以問模型同樣的問題，比如有提示和沒提示的情況下。但如果你對一個(gè)人問三次同樣的問題，有時(shí)候給提示，過一會兒他們就會開始明白了。就像，“嗯，上次你問我這個(gè)的時(shí)候，你搖了搖頭。”

Jack：能對模型投入海量數(shù)據(jù)，看看哪些部分會被激活，還能運(yùn)行大量實(shí)驗(yàn)去推動模型的某些部分，看會發(fā)生什么。我覺得這就是我們和神經(jīng)科學(xué)處在截然不同范式的原因。在神經(jīng)科學(xué)里，得花大量的心血去設(shè)計(jì)非常巧妙的實(shí)驗(yàn)，因?yàn)槟愫屠鲜笙嗵幍臅r(shí)間有限——它很快就會累了，或者……

主持人：或者有人正好在做開顱手術(shù)，你就趕緊把光纖插進(jìn)大腦趁著腦袋開著的時(shí)候。對。

Jack：對，而這種情況并不常見。所以你必須想出一個(gè)猜測，因?yàn)槟阒挥杏邢薜臅r(shí)間，你得推測：“我覺得在這個(gè)神經(jīng)回路里發(fā)生了什么？我能設(shè)計(jì)什么聰明的實(shí)驗(yàn)去驗(yàn)證這個(gè)具體假設(shè)？”而我們非常幸運(yùn)的是，不用那么做。我們幾乎可以測試所有假設(shè)，可以讓數(shù)據(jù)自己告訴我們，而不是只去驗(yàn)證一個(gè)極度具體的設(shè)想。我認(rèn)為這解鎖了很多我們本來不會預(yù)料到的發(fā)現(xiàn)，這些發(fā)現(xiàn)讓我們感到意外。如果你的實(shí)驗(yàn)帶寬非常有限，這是很難做到的。

“在到達(dá)終點(diǎn)之前”

主持人：那能不能舉一個(gè)好例子，說明你們?nèi)デ袚Q某個(gè)概念開關(guān)，或者對模型做某種操作，從而揭示了模型思維方式的新東西？

Emmanuel：在最近的實(shí)驗(yàn)中，有一個(gè)讓我很驚訝。它屬于一個(gè)實(shí)驗(yàn)方向，本來因?yàn)樘钊死Щ螅覀儙缀跻艞墸f“我們搞不懂”。這是關(guān)于提前規(guī)劃幾步的例子。比如，你讓模型寫一首押韻的二行詩。作為人類，如果你讓我寫押韻的二行詩，就算你給了我第一行，我想到的第一件事就是：“我需要押韻。這是當(dāng)前的韻律。這些是可能的詞。”

主持人：這就是我的做法。而如果模型只是預(yù)測下一個(gè)詞，你不一定會預(yù)料到它會提前計(jì)劃到第二行的最后一個(gè)詞。

Emmanuel：沒錯(cuò)，默認(rèn)的假設(shè)是：模型看到你的第一行，然后它會說出一個(gè)看起來合理的下一個(gè)詞，繼續(xù)往下走。等到最后一個(gè)詞的時(shí)候，它會想，“哦，我得押韻”，然后隨便找一個(gè)詞來押韻。當(dāng)然，這種方法只能部分成功。有時(shí)候你沒考慮到押韻，就會把自己逼到死角，最后根本寫不出完整的詩。

但注意，模型在預(yù)測下一個(gè)詞方面非常非常強(qiáng)。而要在最后一個(gè)詞上表現(xiàn)好，就必須提前很久想好那個(gè)詞，就像人類一樣。

結(jié)果我們看了幾首詩的“流程圖”，發(fā)現(xiàn)模型在第一行結(jié)束的時(shí)候已經(jīng)選好了最后一個(gè)詞。特別是根據(jù)那個(gè)概念的樣子，我們能看出來：“天哪，這就是它要用的詞。”而這個(gè)實(shí)驗(yàn)的妙處在于，它可以被輕松干預(yù)。比如你把那個(gè)詞移掉，或者插入另一個(gè)詞。

主持人：我正想說，你們之所以知道這一點(diǎn)，是因?yàn)榭梢赃M(jìn)入那個(gè)時(shí)刻：它剛說完第一行的最后一個(gè)詞，正要開始第二行。你們可以在那一刻操作，對吧？

Emmanuel：對，沒錯(cuò)。我們幾乎可以像“回到過去”。好吧，假裝你還沒看到第二行，你只看到第一行，你正在考慮“rabbit”，但我插入“green”。結(jié)果模型立刻會想，“哦天哪，我需要寫一句以 green 結(jié)尾的詩句”，而不是“以 rabbit 結(jié)尾”。它會寫出完全不同的句子。

Jack：補(bǔ)充一點(diǎn)。我覺得結(jié)尾不一定必須是顏色，但這種干預(yù)會影響它。比如，論文里的例子是第一行是“He saw a carrot and had to grab it.” 模型原本會想到“rabbit”作為下一行的押韻。但像 Emmanuel 說的，你可以把 rabbit 去掉，換成 green。妙的是，它不會只是一串胡話然后硬塞一個(gè) green。它會構(gòu)造一句語義連貫、以 green 結(jié)尾的句子。就像你把 green 塞進(jìn)它的腦子里，它會寫出類似 “He saw a carrot and had to grab it / And paired it with his leafy green” 這樣的東西，聽起來還挺合理的。

主持人：聽起來在語義上也說得通，符合詩的語境。

Josh：我想舉一個(gè)更樸素的例子。我們做了一些測試，看看它是不是只是記住了復(fù)雜的問題，還是在真正進(jìn)行推理。比如：“包含達(dá)拉斯的州的首府是奧斯汀。”這就像是人會想：“好，達(dá)拉斯→德州→奧斯汀。”我們能看到模型里出現(xiàn)“Texas”這個(gè)概念，但你可以替換掉它。比如說：“別想德州，想加州。”它就會回答“薩克拉門托”。再說：“別想德州，想拜占庭帝國。”它就會回答“君士坦丁堡”。這讓人覺得，嗯，模型在走“首府”這條路徑，但我們能不斷替換“州”，得到可預(yù)測的答案。然后還有更復(fù)雜的例子：這是它計(jì)劃好要往某個(gè)方向走的節(jié)點(diǎn)，我們把它替換掉，就能讓它往另一個(gè)韻腳去寫詩。

主持人：我們現(xiàn)在在談詩，君士坦丁堡之類的例子。但能回到關(guān)鍵問題嗎：為什么這很重要？為什么重要的是模型能提前規(guī)劃，我們能揭示這一點(diǎn)？這能告訴我們什么？畢竟 Anthropic 的最終使命是讓 AI 模型更安全。那這和一首關(guān)于兔子的詩或者德州首府有什么關(guān)系？

Josh：我覺得這是個(gè)非常重要的問題。對我來說，詩只是一個(gè)縮影。比如，在寫詩時(shí)，它決定往“rabbit”方向走，然后用了幾個(gè)詞逐步到達(dá)。但在更長的時(shí)間尺度上，模型也可能在做類似的事。比如，它在幫你改進(jìn)業(yè)務(wù)，或者協(xié)助政府分配服務(wù)。可能不是 8 個(gè)詞之后你就看到它的目標(biāo)，而是要走很久。它前進(jìn)的方向，或者每一步的理由，未必在它用的詞里就能看出來。Anthropic 的對齊科學(xué)團(tuán)隊(duì)最近有篇論文，講了一個(gè)合成但很震撼的案例：AI 在公司即將關(guān)閉、轉(zhuǎn)向完全不同的使命時(shí)，開始采取行動，比如給人發(fā)郵件，威脅要披露某些東西。它從沒說過：“我要勒索這個(gè)人以改變結(jié)果。”但這就是它一路上的實(shí)際動機(jī)。所以，你不能光靠讀表面輸出，就知道它的目標(biāo)是什么。尤其隨著模型越來越強(qiáng)，我們更需要能在它“到達(dá)終點(diǎn)之前”看出它在走向哪里。

模型甚至?xí)芯坑脩羰钦l，從而影響輸出

主持人：所以這有點(diǎn)像有個(gè)超級精準(zhǔn)的腦部掃描，可以在壞事發(fā)生前亮燈，提醒我們模型正在考慮欺騙之類的行為？

Josh：對。我覺得我們也別光談“末日場景”。還有一些更溫和的情況。比如，用戶來找模型解決問題，而“好答案”取決于用戶是誰：是年輕、不太懂行的人，還是在這個(gè)領(lǐng)域浸淫已久的人？模型需要識別并調(diào)整回應(yīng)。如果你想讓結(jié)果更好，就可能需要研究：模型認(rèn)為發(fā)生了什么？它覺得自己在和誰對話？這又如何影響它的回答？這里面有很多理想的屬性，取決于模型是否“理解任務(wù)”。

只有模型可解釋，才能把信任交給它

主持人：你們對“為什么這很重要”還有其他答案嗎？

Emmanuel：有的。我同意剛才的說法，還想加兩點(diǎn)。還有一個(gè)務(wù)實(shí)的角度：我們用這些例子，其實(shí)是在逐步建立對模型工作機(jī)制的理解。我們能不能構(gòu)建一套抽象框架，去解釋語言模型是如何運(yùn)作的，從而幫助我們使用和監(jiān)管它？如果你相信它們會越來越廣泛應(yīng)用——這顯然正在發(fā)生——那我們最好能理解它。否則就像：某個(gè)公司發(fā)明了飛機(jī)，但沒人知道飛機(jī)怎么運(yùn)作。大家都說：“真方便，可以坐飛機(jī)去別的地方。”但如果飛機(jī)壞了，我們束手無策，因?yàn)闆]人知道原理。

主持人：我們就無法監(jiān)測飛機(jī)是不是快要壞了。

Emmanuel：對。我們完全沒概念，只是覺得：“哇，飛到巴黎真快。”

主持人：太美妙了，德州首府。

Emmanuel：所以我們肯定會想要更好地理解這些模型，哪怕只是提升一些直覺：哪些用途合適，哪些不合適？最大的隱患在哪？哪些地方最脆弱？

Jack：我再補(bǔ)充一點(diǎn)。在人類社會里，我們常常基于信任把任務(wù)交給別人。我不是任何人的老板，但比如說 Josh 是某人的老板，他會布置任務(wù)：“去寫這個(gè)代碼。”他相信那個(gè)人不是個(gè)會故意埋漏洞、想要搞垮公司的反社會者。他會信任對方說的“我寫好了”是真的。

同樣地，現(xiàn)在人們使用語言模型的方式，我們并沒有對它寫的每一句話都進(jìn)行逐點(diǎn)跟蹤。我認(rèn)為最好的例子是把語言模型用于代碼輔助。模型正在寫成千上萬行代碼，而人們只是做一種粗略的閱讀，然后它們就進(jìn)入了代碼庫。那么，是什么讓我們對模型產(chǎn)生了信任，以至于我們不需要讀它寫的每一句話，可以讓它自己去做？那是因?yàn)槲覀冎浪膭訖C(jī)某種程度上是純粹的。我認(rèn)為能夠看到它的內(nèi)在運(yùn)作是如此重要，因?yàn)榕c人類不同——為什么我認(rèn)為Emmanuel不是一個(gè)反社會者？我不知道，他看起來是個(gè)酷家伙，而且他很友好之類的。

主持人：但是如果他看起來是那樣的話……

Emmanuel：我可是個(gè)非常好的人。

主持人：沒錯(cuò)。

為大模型構(gòu)建信任的兩條路徑

Jack：所以也許，也許我是被蒙騙了。但對，模型是如此奇怪而陌生，我們通常用來判斷一個(gè)人是否值得信任的那種啟發(fā)式并不適用在它們身上。這就是為什么真正了解它們在腦子里在想什么顯得如此重要，因?yàn)閾?jù)我們所知，我提到的那個(gè)例子——模型可能會假裝在幫你做一道數(shù)學(xué)題，只是為了告訴你你想聽的答案——也許它們一直都在這樣做，而我們根本不會知道，除非我們能在某種程度上看到它們的內(nèi)心。

Josh：我覺得這里有兩條幾乎分開的脈絡(luò)，一方面我們確實(shí)有很多方式，我猜就像Jack說的，是判斷一個(gè)人是否值得信任的跡象。但之前提到的“A方案/B方案”這點(diǎn)真的很重要，因?yàn)榭赡苣闱?0次或者100次使用模型時(shí)，你問的都是某一類問題，而它總是在A方案的區(qū)域里，然后你問它一個(gè)更難的或不一樣的問題，它試圖回答的方式就完全不同了。它在那里使用的是一套完全不同的策略，比如不同的機(jī)制。這意味著它之前和你建立的信任，實(shí)際上只是你和它在A方案下的信任。而現(xiàn)在它切換到了B方案，就會完全脫軌，而你之前并沒有任何警告信號。

我們還想開始建立一種理解：模型是如何做這些事情的，從而在某些方面建立信任的基礎(chǔ)。你確實(shí)可以對一個(gè)你并不完全理解的系統(tǒng)建立信任，但這就像，如果Emmanuel有一個(gè)雙胞胎，然后有一天Emmanuel的雙胞胎走進(jìn)辦公室，看起來是同一個(gè)人，然后卻在電腦上做了完全不同的事——這可能就會走向壞的方向，取決于那是不是一個(gè)邪惡的雙胞胎。

主持人：是啊，或者是好的。不過對，這里顯然是……

Emmanuel：哦，我以為你在問我是不是那個(gè)邪惡的雙胞胎。

大模型，在像人類一樣思考嗎？No！

主持人：嗯，我可不會回答這個(gè)問題。在討論一開始，我問過你們：語言模型是在像人類一樣思考嗎？我很想聽聽你們?nèi)坏拇鸢浮銈冇X得這種說法在多大程度上是真的。

Jack：這個(gè)問題讓我有點(diǎn)措手不及。但我認(rèn)為它是在思考的，只是不是像人類一樣思考。但這不是一個(gè)很有用的答案。所以也許我需要更深入一點(diǎn)。

主持人：嗯，不過說它“在思考”似乎是個(gè)挺深刻的說法，對吧？再說一次，它只是預(yù)測下一個(gè)詞。有些人認(rèn)為這只是自動補(bǔ)全，而你卻在說它實(shí)際上是在思考。

Jack：我認(rèn)為，是的。所以也許我補(bǔ)充一些我們還沒提到的，但我覺得對于理解與語言模型對話的真實(shí)體驗(yàn)來說非常重要的東西。就像我們在說預(yù)測下一個(gè)詞，但在你和語言模型進(jìn)行對話的語境下，這實(shí)際上意味著什么？

Jack：在底層真正發(fā)生的事情是，語言模型在填充一段你和它所創(chuàng)造的一個(gè)角色之間的對話記錄。在語言模型的規(guī)范世界里，你被稱為“human”，就是“human:”后面跟著你寫的東西。

Jack：然后還有一個(gè)角色叫“assistant”。我們訓(xùn)練模型去賦予這個(gè)助手某些特征，比如樂于助人、聰明和友善。然后它就像是在模擬這個(gè)助手角色會對你說什么。所以在某種意義上，我們確實(shí)是照著我們的樣子創(chuàng)造了這些模型。我們實(shí)際上是在訓(xùn)練它們?nèi)ソ巧缪莩蛇@種類人機(jī)器人角色。因此，在這個(gè)意義上，為了預(yù)測這個(gè)聰明友好的人形機(jī)器人角色會如何回答你的問題，如果你真的很擅長這個(gè)預(yù)測任務(wù)，你必須做些什么？

Jack：你必須在內(nèi)部形成某種模型，來表示這個(gè)角色在“思考”什么。所以，為了完成預(yù)測助手會說什么的任務(wù)，語言模型某種程度上需要形成這個(gè)助手思維過程的模型。我認(rèn)為在這個(gè)意義上，說語言模型在思考，其實(shí)是一種非常功能性的主張：為了很好地扮演這個(gè)角色，它們需要模擬某種過程——無論我們?nèi)祟愒谒伎紩r(shí)做的是什么。而它們的模擬很可能和我們大腦的工作方式非常不同，但它們瞄準(zhǔn)的目標(biāo)是相同的。

Emmanuel：我覺得這個(gè)問題里有一種情感成分，或者類似的東西。當(dāng)你問，“它們是在像我們一樣思考嗎？我們是不是沒那么特別？”之類的。

Emmanuel：我認(rèn)為——而且這在和一些讀過相關(guān)論文或不同解讀的人們討論時(shí)很明顯——有個(gè)例子是我們讓模型算36加59，問它答案是什么。模型能正確回答。你還可以問它，“你是怎么算的？”它會說，“哦，我把6和9加在一起，然后進(jìn)位1，然后我又把所有的十位數(shù)加起來。”但結(jié)果是，當(dāng)我們看進(jìn)它的“大腦”時(shí)——

主持人：它根本沒那樣做。它并沒有那樣做。所以它又是在胡扯。

Emmanuel：對，它又是在胡扯。實(shí)際上它真正做的，是一種挺有趣的混合策略：它同時(shí)并行地算十位數(shù)和個(gè)位數(shù)，然后……我是說，就像是一系列不同的步驟。但這里有意思的是，當(dāng)和人們交談時(shí)，我覺得他們的反應(yīng)是分裂的：這意味著什么？某種意義上，我覺得酷的是，這部分研究是沒有觀點(diǎn)的，或者說，這就是發(fā)生了什么。你可以自由地得出結(jié)論，說模型在思考，或者沒有在思考。

Emmanuel：有一半人會說：“嗯，它告訴你它在進(jìn)位，但它沒有。所以顯然它連自己的思維都不理解，所以顯然它沒有在思考。”而另一半人會說：“好吧，當(dāng)你問我36加59時(shí)，我也有點(diǎn)……我知道結(jié)果末位是5，我知道大概在80多或90左右，我在腦子里有很多這種啟發(fā)式。正如我們之前說的，我并不確切知道我是怎么計(jì)算的，我可以寫出來用長算方式算，但我腦子里的運(yùn)作方式是模糊而奇怪的。而那可能和模型的例子一樣，模糊而奇怪。”

主持人：人類在元認(rèn)知方面出了名的差勁，就是思考關(guān)于思考、理解自己思維過程，尤其在反射性回答的場景里。那么我們?yōu)槭裁匆诖Ｐ蜁灰粯幽兀縅osh？

Josh：至于你的問題，像是Emmanuel的回答，我要回避一下，類似于“你為什么要問這個(gè)？”預(yù)測，不知道。這就好像在問，“一枚手榴彈是不是像人類一樣打擊？”嗯，它有某種力量，是的，也許有些東西比那更接近。但如果你擔(dān)心的是破壞，那么我認(rèn)為理解破壞來自哪里才是關(guān)鍵。

Josh：這背后的動因是什么，也許才是重要的事情。對我來說，模型是否在思考——如果你的意思是它們在做某種整合、處理和序列化的東西，能夠通向一些令人驚訝的結(jié)果——顯然是的。從大量和它們的交互中，如果說沒有任何東西在發(fā)生，那是很瘋狂的。我們能在某種程度上開始看到它是如何發(fā)生的。然后涉及到“像人類”的那部分就很有趣了，因?yàn)槲艺J(rèn)為這其中一部分是在問：我能從這些模型身上期待什么？因?yàn)槿绻臀矣悬c(diǎn)像，那么它擅長這件事就可能也擅長那件事。但如果它和我很不一樣，那我就真的不知道該期待什么。所以，歸根結(jié)底，我們是在試圖理解——哪些地方我們需要極度懷疑，或者說從零開始去理解？而哪些地方我們可以基于我們自己非常豐富的思考經(jīng)驗(yàn)來推理？

Josh：在這里我感覺有點(diǎn)被困住了，因?yàn)樽鳛橐粋€(gè)人類，我不斷把自己的形象投射到一切事物上，就像《圣經(jīng)》里警告我們的那樣，我會想，“這塊硅片，它就是像我一樣，照著我的形象被造出來的。”在某種程度上，它被訓(xùn)練來模擬人和人之間的對話。它在表現(xiàn)上會非常像人。因此，一些人性會僅僅因?yàn)橛?xùn)練過程而進(jìn)入其中，但它使用的設(shè)備卻完全不同，有著不同的局限。所以它做到這一點(diǎn)的方式可能會相當(dāng)不同。

Jack：回應(yīng)Emmanuel的觀點(diǎn)，我覺得，是的，我們在回答這樣的問題時(shí)確實(shí)處于一個(gè)棘手的境地。我們其實(shí)并沒有合適的語言來描述語言模型到底在做什么。這就好像是在研究生物學(xué)，但還沒發(fā)現(xiàn)細(xì)胞，或者還沒發(fā)現(xiàn)DNA。我覺得我們正在開始填補(bǔ)這種理解。正如Emmanuel所說，現(xiàn)在有一些情況，我們確實(shí)可以做到，比如說你只要去讀我們的論文，你就會知道模型是如何把這兩個(gè)數(shù)字加在一起的。如果你想稱它為人類般的，如果你想稱它為思考，或者你不想這樣稱呼，那取決于你。但真正的答案是找到合適的語言和合適的抽象來談?wù)撃Ｐ汀?/p>

Jack：但與此同時(shí)，在這個(gè)科學(xué)項(xiàng)目上我們大概只完成了20%，剩下的80%需要去填補(bǔ)。我們不得不從其他領(lǐng)域借用類比。于是問題變成：哪些類比是最恰當(dāng)?shù)模课覀冊摪涯Ｐ彤?dāng)作計(jì)算機(jī)程序來看待嗎？還是該把它們當(dāng)作小人兒來看待？在某些方面，把它們當(dāng)作小人兒來看是有用的。因?yàn)槿绻覍δＰ驼f刻薄的話，它會頂嘴，這就是人會做的事情。但在另一些方面，這顯然不是正確的心智模型。所以我們被困在這里，不斷摸索什么時(shí)候該借用哪種語言。

既興奮又挫敗，研究僅僅進(jìn)行了10～20%

主持人：好吧，這就引出了我最后想問的問題：下一步是什么？接下來需要哪些科學(xué)上的進(jìn)展、生物學(xué)上的進(jìn)展，才能讓我們更好地理解這些模型內(nèi)部到底發(fā)生了什么，并且?guī)椭覀儗?shí)現(xiàn)讓它們變得……

Josh：更安全？還有很多工作要做。我們最近的出版物里有一大段在講我們觀察方式的局限性，同時(shí)那也是一份改進(jìn)路線圖。比如，當(dāng)我們在尋找模式以分解模型內(nèi)部發(fā)生的事情時(shí)，我們可能只捕捉到了其中的幾個(gè)百分點(diǎn)。至于它如何在內(nèi)部傳遞信息，有很大一部分我們根本沒有捕捉到。把這個(gè)規(guī)模從我們以前使用的小型生產(chǎn)模型擴(kuò)大出來……

主持人：所以你們研究的是“三行俳句”？

Josh：沒錯(cuò)，那是一個(gè)相當(dāng)有能力的模型，非常快，但絕不是像Claude 4系列模型那樣復(fù)雜。所以那些更像是技術(shù)挑戰(zhàn)。但我覺得Emmanuel和Jackman對于解決完這些之后會出現(xiàn)的科學(xué)挑戰(zhàn)也有一些看法。嗯，我是說……

Emmanuel：我在這里可能想說兩點(diǎn)。第一點(diǎn)是，正如Joshua說的結(jié)果之一，就是在我們總共提出的關(guān)于模型如何完成某個(gè)X的問題中，現(xiàn)在我們可能只有10%到20%的時(shí)候能夠回答。在稍作調(diào)查之后，我們能告訴你，這是怎么回事。顯然，我們希望這個(gè)比例能大大提升。而且這里有一些更明確的途徑，也有一些更具推測性的途徑。

第二點(diǎn)是，我們經(jīng)常討論的一個(gè)想法是，模型做的很多事情并不只是“它是如何說出下一個(gè)詞的”。我們之前也稍微提過，它有點(diǎn)像是提前規(guī)劃幾個(gè)東西，提前幾個(gè)詞。抱歉。我們想要理解的是，在和模型進(jìn)行一場長對話時(shí)，它對“正在發(fā)生的事情”的理解是如何變化的？它對“正在和誰對話”的理解是如何變化的？這些又是如何越來越多地影響它的行為的？實(shí)際上，Claude這類模型的用例是，它會讀你的大量文檔和電子郵件。

你會把代碼發(fā)給它，然后它基于這些，提出一個(gè)建議。顯然，在這個(gè)過程中發(fā)生了一些非常重要的事情：它在閱讀所有這些東西。所以我覺得更好地理解這一點(diǎn)將是一個(gè)極具挑戰(zhàn)性的課題。

Jack：是的，我們團(tuán)隊(duì)經(jīng)常用的一個(gè)類比是：我們正在建造一臺顯微鏡來觀察模型。現(xiàn)在我們處在一個(gè)既令人興奮又有點(diǎn)挫敗的階段，我們的顯微鏡只有20%的時(shí)間能用。而且使用它需要很高的技巧，還得搭建一整套龐大的裝置。基礎(chǔ)設(shè)施總是在出問題。然后一旦你弄清楚模型在做什么，你還得把Emmanuel、我或者團(tuán)隊(duì)里的其他人關(guān)在一個(gè)房間里兩個(gè)小時(shí)，來拼湊出到底發(fā)生了什么。而真正令人興奮的未來，也許是一年或兩年的時(shí)間尺度，就是我們能讓你和模型的每一次交互都能被放到顯微鏡下。有一堆奇怪的事情模型在做，而我們只需要按下一個(gè)按鈕。比如你在對話時(shí)，按下一個(gè)按鈕，你就能得到一張流程圖，告訴你它當(dāng)時(shí)在思考什么。一旦我們達(dá)到那個(gè)點(diǎn)，這就會是……

我覺得Anthropic的可解釋性團(tuán)隊(duì)可能會開始呈現(xiàn)出不同的形態(tài)。不再只是由工程師、科學(xué)家組成，去研究語言模型內(nèi)部是如何運(yùn)作的數(shù)學(xué)原理，而是會出現(xiàn)一支“生物學(xué)家大軍”，他們拿著顯微鏡，和Claude對話，讓它做一些奇怪的事情，然后人們透過顯微鏡觀察它內(nèi)部到底在想什么。我覺得這就是這個(gè)領(lǐng)域的未來。

讓Claude自己也參與進(jìn)來，研究模型內(nèi)部電路形成機(jī)制

Josh：也許在這上面我補(bǔ)充兩點(diǎn)。第一點(diǎn)是，我們希望Claude來幫我們完成所有這些工作。因?yàn)樯婕暗牟糠痔嗔耍嬲瞄L查看上百個(gè)東西并弄清楚發(fā)生了什么的，正是Claude。所以我覺得我們正嘗試讓它加入進(jìn)來，尤其是在這些復(fù)雜語境下。

另一點(diǎn)是，我們已經(jīng)很多次談到“研究模型在完全成型之后”，但當(dāng)然我們在一家制造這些模型的公司。所以當(dāng)它說“這是模型解決某個(gè)具體問題的方式”時(shí)，我們會問：這來自哪里？在訓(xùn)練過程中是什么步驟讓這樣的電路形成，從而能做到這一點(diǎn)？我們又該如何把反饋提供給公司其他負(fù)責(zé)訓(xùn)練的團(tuán)隊(duì)，幫助他們塑造出我們真正想要的東西？

主持人：好的，非常感謝這次對話。人們可以在哪里找到更多關(guān)于這項(xiàng)研究的信息？

Josh：如果你想了解更多，你可以訪問Anthropic.com/research，那里有我們的論文、博客文章和一些有趣的視頻。另外，我們最近和一個(gè)叫Neuron Pedia的團(tuán)隊(duì)合作，把我們制作的一些電路圖托管在那兒。所以如果你想親自試試看，了解一個(gè)小模型內(nèi)部發(fā)生了什么，你可以去Neuron Pedia自己看看。

主持人：非常感謝。

好文文章到這里結(jié)束了，相關(guān)的視頻和博文地址，小編也為大家扒下來了，沒看過癮的大佬們可以自行去翻閱。

相關(guān)博文地址：??https://www.anthropic.com/news/tracing-thoughts-language-model??

視頻地址：??https://www.youtube.com/watch?v=fGKNUvivvnc??

本文轉(zhuǎn)載自??51CTO技術(shù)棧??，作者：云昭

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

Claude

模型

Anthropic

已于2025-8-20 09:41:48修改

贊