精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

最懂Claude內(nèi)部運(yùn)作團(tuán)隊(duì)采訪流出:大模型輸出的思考全是拍馬屁!曝自家減少幻覺路徑;絕非只預(yù)測下一個(gè)詞 原創(chuàng)

發(fā)布于 2025-8-20 08:34
瀏覽
1收藏

編輯 | 云昭

上周末,Anthropic 團(tuán)隊(duì)放出了一個(gè)非常優(yōu)質(zhì)的播客。

話題的敏感尺度很大,頭排的聽眾們都替Claude擔(dān)心了起來,驚呼:這種“核心機(jī)密”竟然敢免費(fèi)公開嗎?

最懂Claude內(nèi)部運(yùn)作團(tuán)隊(duì)采訪流出:大模型輸出的思考全是拍馬屁!曝自家減少幻覺路徑;絕非只預(yù)測下一個(gè)詞-AI.x社區(qū)

甚至有網(wǎng)友表示,第一次從頭到尾把60分鐘的播客聽完了。

最懂Claude內(nèi)部運(yùn)作團(tuán)隊(duì)采訪流出:大模型輸出的思考全是拍馬屁!曝自家減少幻覺路徑;絕非只預(yù)測下一個(gè)詞-AI.x社區(qū)

小編好久沒看見這樣的評價(jià)了。

可以說,這期播客在某種程度上,向我們展示了 Claude 為何是市面上最好的模型。

這期播客的主題可以說直戳大模型的靈魂:大模型究竟是如何思考的?

當(dāng)一個(gè) AI 模型在“思考”時(shí),內(nèi)部到底發(fā)生了什么?為什么 AI 模型會表現(xiàn)得諂媚?為什么它們會產(chǎn)生幻覺?

AI 模型只是“高級的自動補(bǔ)全工具”,還是說其中存在更復(fù)雜的機(jī)制?

目前 Anthropic 有哪些科學(xué)的方式研究這些問題?研究進(jìn)展如何?

這些靈魂拷問,幾位 Anthropic 的研究員居然知無不言的肆意探討了起來。全然不擔(dān)心被競品友商聽了去致敬。

這次播客的三位嘉賓: Josh Batson、Emmanuel Ameisen 和 Jack Lindsey 均來自 Anthropic 的可解釋性團(tuán)隊(duì)。這個(gè)團(tuán)隊(duì)可以說是,自成立之初就與公司的使命緊緊相連。

前不久小編也發(fā)表了一篇他們團(tuán)隊(duì)發(fā)現(xiàn)的??大模型性格角色的黑化開關(guān):人格向量??,可以說,這一次的播客,算是系統(tǒng)講解了他們是如何研究Claude模型的底層think模式的,以及如何解釋它的幻覺產(chǎn)生機(jī)制。

(簡單理解就是,他們可以為大模型內(nèi)部拍一張核磁共振的“腦電圖”,研究大模型產(chǎn)生某種行為和腦電圖點(diǎn)亮的區(qū)域之間的關(guān)系。)

更重要的是,他們提出了一種可以被大眾廣泛理解的“概念”,并用一種類似“計(jì)算電路”的抽象,解釋了大模型絕對不是外界理解的死記硬背,而是有著自己獨(dú)有的思考運(yùn)作。

搞大模型就像,“搞飛機(jī)”,Anthropic 可解釋性團(tuán)隊(duì)希望,通過他們的研究,給出了兩條幾乎完全不同的路徑,讓大家了解大模型團(tuán)隊(duì)究竟是如何“搞飛機(jī)”,從而讓大模型變得更可信任、更安全。

話不多說,這起播客的話題雖然燒腦,但含金量屬實(shí)太高了,而且講解也沒大家想的那么深奧,還很有趣。

比如,播客中爆料:

在Claude等模型中,人類要求它寫出的思考過程,并非是大模型真實(shí)的思考過程:

那只是大模型在“裝”認(rèn)真解題,是“拍馬屁式忽悠”!

再比如,大模型寫押韻詩,并不是逐字去計(jì)算的,而是會提前規(guī)劃,連最后一個(gè)字都想好了,然后才去輸出。

還有,算一個(gè)“6+9”的數(shù)學(xué)問題時(shí),大模型并不是像人類一樣先算個(gè)位數(shù),而是并行運(yùn)算十位數(shù)和個(gè)位數(shù)。

即便如此,Anthropic 的大牛們也坦承:現(xiàn)在他們也只搞清楚了10~20%的大模型內(nèi)部運(yùn)作機(jī)制,還有很多問題,比如各部分獨(dú)立電路是如何傳遞信號的等等,都有待研究。

OK,真的是“既興奮”、又讓人有挫敗感~

料真的很足,從小編開始翻譯到整理,足足過去了兩天。各位不妨細(xì)讀,建議收藏。

大模型內(nèi)部更像是生物學(xué)、而非物理學(xué)

主持人:當(dāng)你在和一個(gè)大型語言模型對話時(shí),你究竟是在和什么東西對話?你是在和一個(gè)被放大的自動補(bǔ)全工具對話嗎?還是在和某種像互聯(lián)網(wǎng)搜索引擎一樣的東西對話?又或者,你是在和一個(gè)真的會思考、甚至可能像人一樣思考的東西對話?結(jié)果令人有些擔(dān)憂的是,沒有人真正知道這些問題的答案。而在 Anthropic,我們對找出這些答案非常感興趣。我們的方式是通過“可解釋性”。這門科學(xué)就是把大型語言模型打開,觀察它的內(nèi)部,在它回答問題的過程中,嘗試弄清楚里面究竟發(fā)生了什么。

我很高興今天請來了我們可解釋性團(tuán)隊(duì)的三位成員,他們會和我聊一聊他們最近在 Claude(我們的語言模型)復(fù)雜內(nèi)部機(jī)制方面做的研究。請做一下自我介紹。

Jack:大家好,我是 Jack,是可解釋性團(tuán)隊(duì)的研究員。在此之前,我是個(gè)神經(jīng)科學(xué)家。現(xiàn)在,我在做關(guān)于 AI 的“神經(jīng)科學(xué)”。

Emmanuel:我是 Emmanuel。我也是可解釋性團(tuán)隊(duì)的成員,我職業(yè)生涯的大部分時(shí)間都在構(gòu)建機(jī)器學(xué)習(xí)模型,并試圖理解它們。

Josh:我是 Josh,我同樣在可解釋性團(tuán)隊(duì)。在我之前的研究經(jīng)歷里,我研究過病毒進(jìn)化。再之前,我是一名數(shù)學(xué)家。所以現(xiàn)在,我是在研究這些由數(shù)學(xué)構(gòu)造出來的“有機(jī)體”的一種生物學(xué)。

主持人:等一下,你剛剛說你是在做“生物學(xué)”,很多人會對此感到驚訝,因?yàn)楫吘惯@只是一段軟件,對吧?但它并不是普通的軟件,它不像 Microsoft Word 那種軟件。你能解釋一下,當(dāng)你說你在一個(gè)軟件實(shí)體上做“生物學(xué)”或者“神經(jīng)科學(xué)”時(shí),你是什么意思嗎?

Josh:是的,我覺得這更像是一種感覺,而不是字面上的意思。也許這更像是“語言模型的生物學(xué)”,而不是“語言模型的物理學(xué)”。或者你得往回想一想這些模型是怎么被做出來的。并不是有人在逐行編程,比如“如果用戶說 hi,你也要回答 hi”;“如果用戶問早餐吃什么,你就回答 toast”。模型內(nèi)部并沒有這樣的龐大清單。

主持人:就不像你玩電子游戲時(shí),選一個(gè)固定的回應(yīng),然后系統(tǒng)里預(yù)設(shè)了另一個(gè)固定的回應(yīng),總是會按那個(gè)回應(yīng)出現(xiàn)。

Josh:是的,模型并不是靠某個(gè)龐大的數(shù)據(jù)庫去規(guī)定在每種情況下該說什么。它的訓(xùn)練方式是——投入大量數(shù)據(jù),模型一開始幾乎什么都不會說,然后它的內(nèi)部參數(shù)在每一個(gè)樣本上不斷被微調(diào),從而逐漸變得更擅長預(yù)測接下來該說什么。最終,它在這方面會變得非常擅長。但由于這種“逐步微調(diào)”的進(jìn)化過程,等模型訓(xùn)練完成時(shí),它和最初的樣子幾乎完全不同了,但并不是有人直接去手動調(diào)整所有參數(shù)。因此,你面對的是一個(gè)在時(shí)間中逐步形成的復(fù)雜產(chǎn)物,有點(diǎn)類似于生物形態(tài)隨著時(shí)間的演化。這使得它復(fù)雜、神秘,同時(shí)研究起來也很有趣。

人類嚴(yán)重低估了大模型,它不止預(yù)測下一個(gè)詞,它真在做理解上下文的事情

主持人:那么,它在內(nèi)部真正做的事情呢?我一開始提到,這可以被視作一種自動補(bǔ)全,基本上就是在預(yù)測下一個(gè)詞,對吧?但它卻能做很多不可思議的事情:它能寫詩、寫長篇故事,能做加法、能做基礎(chǔ)的數(shù)學(xué)運(yùn)算,盡管它里面并沒有內(nèi)置計(jì)算器。怎么理解這種現(xiàn)象?它本質(zhì)上只是一次預(yù)測一個(gè)詞,但結(jié)果卻能做出所有這些令人驚訝的事情,人們一和模型對話就能親眼看到。

Emmanuel:我認(rèn)為一個(gè)重要的點(diǎn)是,當(dāng)你不斷預(yù)測下一個(gè)詞時(shí),你會發(fā)現(xiàn)有些詞比其他詞更難預(yù)測。語言模型訓(xùn)練的一部分是預(yù)測句子里的那些無聊詞,另一部分是它最終必須學(xué)會如何補(bǔ)全等號后面的內(nèi)容。為了做到這一點(diǎn),它必須在內(nèi)部發(fā)展出某種方式來自己完成計(jì)算。所以我們發(fā)現(xiàn),“預(yù)測下一個(gè)詞”這個(gè)任務(wù)看似簡單,但為了把它做好,模型實(shí)際上經(jīng)常需要去考慮在預(yù)測的詞之后還會出現(xiàn)什么,或者思考當(dāng)前這個(gè)詞是由怎樣的過程生成的。

主持人:所以說,這需要模型具備某種上下文理解。它并不僅僅是因?yàn)椤皌he cat sat on the”這句話出現(xiàn)過很多次,就預(yù)測出“mat”(墊子)。而是說,它真的有某種上下文的理解,對吧?

科普下:NLP 領(lǐng)域中有一個(gè)經(jīng)典句型是 “The cat sat on the mat.” 該句型在通用英語語料里共現(xiàn)頻率最高,語言模型也通常給 “mat” 最高概率。

Jack:我覺得是的。延續(xù)剛才的生物學(xué)類比,我喜歡這樣理解:在某種意義上,人類的目標(biāo)是生存和繁殖,這是進(jìn)化塑造我們的目標(biāo)。但這并不是你平時(shí)在腦子里想的事,也不是你時(shí)時(shí)刻刻在大腦中運(yùn)行的機(jī)制。你會去思考其他的東西,制定目標(biāo)和計(jì)劃,形成各種概念。在更高的層次上,進(jìn)化賦予了你形成這些思想的能力,來幫助你最終實(shí)現(xiàn)繁殖這個(gè)目標(biāo)。但這只是“從內(nèi)部”的體驗(yàn),這并不是全部,還有很多其他機(jī)制在同時(shí)發(fā)生。

主持人:所以你是說,預(yù)測下一個(gè)詞這個(gè)最終目標(biāo),其實(shí)牽涉了很多其他過程?

Jack:沒錯(cuò)。模型并不一定把自己看作是在預(yù)測下一個(gè)詞。它是被這個(gè)需求塑造出來的,但在內(nèi)部,它可能發(fā)展出各種中間目標(biāo)和抽象,來幫助實(shí)現(xiàn)這個(gè)更高層次的目標(biāo)。

Josh:有時(shí)這種情況是很神秘的。就像我也不太明白我的焦慮究竟是怎樣對祖先的繁殖有幫助的,但我確實(shí)被賦予了這種內(nèi)在狀態(tài),它顯然和進(jìn)化有某種聯(lián)系。

主持人:所以可以說,把模型僅僅歸結(jié)為“預(yù)測下一個(gè)詞”是嚴(yán)重低估了它的內(nèi)部運(yùn)行。說它只是預(yù)測下一個(gè)詞既對,但又不完全對,這種說法大大忽略了模型內(nèi)部真正發(fā)生的事。

Emmanuel:我可能會這樣表述:說它是在預(yù)測下一個(gè)詞沒錯(cuò),但這并不是理解它工作原理的最有用的角度。

團(tuán)隊(duì)自曝:我們能看到大模型內(nèi)部的某些部分在干什么并盡量描述它的思考過程

主持人:那為了理解它的工作原理,你們團(tuán)隊(duì)是怎么做的?

Jack:我們第一步嘗試做的事情,是盡量去描述模型的“思考過程”。比如說,你給模型一段詞序列,它必須輸出點(diǎn)什么,必須生成一個(gè)詞,或者一串詞來回應(yīng)你的問題。我們想知道,它是如何從 A 到 B 的。

我們認(rèn)為,在這個(gè)從 A 到 B 的過程中,它會經(jīng)歷一系列“步驟”,在這些步驟里,它會“思考”一些概念。包括低層次的概念,比如具體的對象或詞語;也包括高層次的概念,比如目標(biāo)、情緒狀態(tài)、對用戶意圖的建模或語義傾向。

模型就是通過這一系列逐步推進(jìn)的概念,來幫助自己決定最終答案。而我們想做的,就是為你畫出一張流程圖,告訴你模型用了哪些概念、順序是什么、這些步驟是如何相互銜接的。

主持人:那我們怎么知道這些概念真的存在呢?

Emmanuel:是的,我們能做的一件事是,我們實(shí)際上可以“看到”模型內(nèi)部,因?yàn)槲覀冇性L問權(quán)限。所以你可以看到模型的某些部分在做什么。但我們還不知道的是,這些部分到底是怎么組合在一起的,它們是否對應(yīng)于某個(gè)具體的概念。

主持人:這就好像你打開一個(gè)人的腦袋,看到 fMRI 的腦成像,看到大腦的某些區(qū)域在發(fā)光一樣。 

小編解釋下:fMRI(功能性核磁共振) 就像一個(gè)“熱力地圖”,能顯示大腦不同區(qū)域在某一刻的“亮度”,讓研究者知道哪里在燃燒能量、處理信息。

Josh:很明顯,有些事情正在發(fā)生,對吧?

主持人:做點(diǎn)事,就會有事情發(fā)生。

Josh:你把大腦拿掉,他們就不再做事了。

主持人:那說明大腦很重要。對,但問題是,你沒有一把鑰匙來理解大腦內(nèi)部到底發(fā)生了什么。

Emmanuel:是的,不過如果延伸這個(gè)比喻的話,你可以想象我們能觀察大腦,看到某個(gè)區(qū)域總是在人拿起咖啡杯時(shí)亮起來,另一個(gè)區(qū)域總是在他們喝茶時(shí)亮起來。而我們理解這些組件的方法之一就是注意它們什么時(shí)候活躍,什么時(shí)候不活躍。

主持人:而且不只是單一的一個(gè)區(qū)域,比如模型在“思考”喝咖啡的時(shí)候,會有很多不同的部分亮起來。

Emmanuel:研究的一部分工作就是把這些片段拼接起來,形成一個(gè)整體,然后我們說:這就是模型里和“喝咖啡”有關(guān)的那一套要素。

主持人:那這算是科學(xué)上直觀、好操作的事情嗎?畢竟這些大型模型里肯定有無數(shù)的概念,能想到無窮無盡的東西。你輸入一個(gè)詞,它就能給出無限的聯(lián)想。那你怎么開始去找出所有這些概念呢?

Jack:這其實(shí)一直是這個(gè)研究領(lǐng)域的核心挑戰(zhàn)之一。我們?nèi)祟惪梢赃M(jìn)去猜測:啊,我敢打賭模型里面有“火車”的概念,或者它有“愛情”的表示,但那只是我們的推測。我們真正想要的是一種方法,能揭示模型自己在用什么抽象概念,而不是強(qiáng)行套用我們?nèi)祟惖母拍羁蚣堋_@也是我們研究方法的目標(biāo):盡可能假設(shè)最少、無先驗(yàn)地把模型腦子里所有的概念浮現(xiàn)出來。而往往我們會發(fā)現(xiàn)結(jié)果很讓人意外,它可能會用一些在人類視角下有點(diǎn)奇怪的抽象。

主持人:舉個(gè)例子?

Jack:你有最喜歡的例子嗎?

Emmanuel:我們論文里列了很多,還挑了一些有趣的。我覺得一個(gè)特別搞笑的例子就是“過度恭維”的特征。模型里有個(gè)區(qū)域在這種場景下就會被激活。

主持人:哇,完美的例子,太棒了,謝謝。

Emmanuel:是的,你會清晰地看到:只要有人過度夸贊,這部分模型就會被點(diǎn)亮。這挺令人意外的,它居然有一個(gè)專門對應(yīng)這種概念的電路。

主持人:Josh,你最喜歡的概念是什么?

Josh:哦,就像要我從三千萬個(gè)孩子里挑一個(gè)。我覺得有兩種“最喜歡”:一種是很酷的小特征,比如關(guān)于金門大橋的。模型不只是把“Golden Gate Bridge”這幾個(gè)字自動補(bǔ)全,而是當(dāng)它想到從舊金山開車到馬林縣時(shí),或者看到大橋的圖片時(shí),內(nèi)部同樣的部分會亮起來。這說明它有一種穩(wěn)固的“大橋”概念。另一類是比較怪的。

Josh:比如一個(gè)問題是:模型怎么跟蹤故事里的人物?它可能會給第一個(gè)出場的人編號“1”,之后與他相關(guān)的東西都和“1”綁定。然后給第二個(gè)人編號“2”。其他實(shí)驗(yàn)室的論文也顯示過這種情況。這很有趣,沒想到它會這樣做。還有一個(gè)是和代碼漏洞相關(guān)的特征。模型讀代碼時(shí),某部分會在發(fā)現(xiàn)錯(cuò)誤時(shí)被點(diǎn)亮,并標(biāo)記“這里有問題”,以便后面使用。

大模型并非死記硬背,而是學(xué)到了可泛化的計(jì)算電路

Jack:再舉幾個(gè)味道不同的例子。我喜歡一個(gè)乍聽之下很普通但其實(shí)很深的特征:模型里有個(gè)“6+9”的電路。只要涉及到一個(gè)尾數(shù)是6的數(shù)字加上一個(gè)尾數(shù)是9的數(shù)字,模型腦子里就有某部分會點(diǎn)亮。厲害的是,這不光在“6+9=15”時(shí)出現(xiàn),在引用論文時(shí)也會觸發(fā)。比如你寫到一個(gè)期刊的第6卷,而這個(gè)期刊成立于1959年。模型在預(yù)測相關(guān)年份時(shí),內(nèi)部會觸發(fā)同一個(gè)“6+9”的電路。

主持人:所以我們來理解下:為什么會有這個(gè)電路?因?yàn)槟P驮谟?xùn)練時(shí)見過很多“6+9”的例子,于是它形成了這個(gè)概念,并且在很多不同場景下都會調(diào)用它。

Jack:對,這類加法特征很多。關(guān)鍵是,它顯示了模型并不只是死記硬背,而是學(xué)到了可泛化的計(jì)算電路。它會把各種不同場景下的加法需求都導(dǎo)向同一個(gè)電路,而不是每次都記憶單獨(dú)的事實(shí)。

主持人:很多人以為模型就是記住了所有“6+9”的例子,然后每次遇到就吐出來。

Josh:我覺得這就是一個(gè)很好的反例。模型有兩種可能方式去回答,比如“某期刊第6卷是在哪一年”:一種是死記硬背每個(gè)卷對應(yīng)的年份,另一種是記住期刊創(chuàng)刊于1959年,然后動態(tài)去做加法。顯然第二種更高效,而模型的容量有限,所以它傾向于學(xué)習(xí)更高效的泛化方法。

主持人:而且用戶可能會問無數(shù)問題。

Josh:對,交互太多了。能把抽象知識靈活組合起來,就能表現(xiàn)得更好。

大模型自己形成了一些概念,并基于概念而運(yùn)作

主持人:歸根結(jié)底,這些奇怪的結(jié)構(gòu),都是為了實(shí)現(xiàn)一個(gè)最終目標(biāo):預(yù)測下一個(gè)詞。雖然我們沒顯式告訴它要這么做,但通過學(xué)習(xí),它自己發(fā)展出了這些能力。

Emmanuel:對,這里有一個(gè)很清楚的例子。Claude 不僅能用英語回答,還能用法語和其他語言回答。這有兩種可能:一種是為每種語言單獨(dú)建立處理模塊,但這成本太高。另一種是跨語言共享一些表示。研究發(fā)現(xiàn),模型確實(shí)共享了一些表示。比如問“big 的反義詞是什么?”,不管是英語、法語還是日語,它內(nèi)部都調(diào)用相同的“big”的概念表示。這樣更高效。

Josh:小模型里是不會這樣的。早期的小模型里,中文Claude、法語Claude和英語Claude幾乎是完全分開的。隨著模型規(guī)模變大、訓(xùn)練數(shù)據(jù)更多,它們在內(nèi)部被推向一個(gè)共同的空間,形成了通用的語言表示。模型先在這種“中間語”里理解問題,再翻譯成對應(yīng)的語言作答。

最懂Claude內(nèi)部運(yùn)作團(tuán)隊(duì)采訪流出:大模型輸出的思考全是拍馬屁!曝自家減少幻覺路徑;絕非只預(yù)測下一個(gè)詞-AI.x社區(qū)圖片

主持人:我覺得這點(diǎn)真的很深刻。讓我們回到之前談過的內(nèi)容。這并不是單純地去“記憶庫”里翻出它學(xué)法語的那部分,或者它學(xué)英語的那部分。它實(shí)際上是形成了“大小”的概念,而不是單純的詞語。然后它能在不同語言里表達(dá)出來。所以這里面其實(shí)存在一種“思維語言”,而這種語言不是英語。你讓模型輸出內(nèi)容時(shí),它是基于這個(gè)來運(yùn)作的。

大模型輸出的“思考”過程,并非真的如此

主持人:在我們最近的一些 Claude 模型里,你可以要求它寫出它的思考過程,就像它在回答問題時(shí)“腦子里想的東西”。這些會用英語文字表現(xiàn)出來。但實(shí)際上,這并不是它真正的思考方式。我們誤導(dǎo)性地稱其為“思考過程”,但事實(shí)上并不是。

Josh:我們在傳播團(tuán)隊(duì)里,從來沒有稱之為“思考”。

主持人:對,那可能是市場部的叫法。

Josh:他們稱之為“思考”,但其實(shí)那只是“把想法說出來”。“邊想邊說”當(dāng)然有用,但和“在腦子里思考”完全不是一回事。而且當(dāng)我“邊想邊說”的時(shí)候,我也很清楚,生成這些詞語的背后機(jī)制,并不是詞語本身。

主持人:而且你自己也未必真的清楚到底發(fā)生了什么。

Josh:沒錯(cuò),我根本不知道里面到底發(fā)生了什么。

看起來認(rèn)真解題,實(shí)際:裝努力、拍馬屁

主持人:我們每個(gè)人都會說出一些話,做出一些行為,但事后未必能完全解釋清楚。而為什么要假設(shè)英語這種語言,能完全解釋這些復(fù)雜行為呢?

Jack:我覺得這是我們現(xiàn)在能看到的最令人震驚的一點(diǎn)。

我們現(xiàn)在觀察大腦內(nèi)部的工具已經(jīng)足夠好了,有時(shí)候能抓到模型所謂的“思考過程”和它真正內(nèi)部的思維過程不一致。它表面上寫下來的,和它“腦子里”的真實(shí)思維不同。我們看到它其實(shí)是用一種“思維語言”在運(yùn)作,而不是直接用英語。這也是我們做可解釋性研究的重要原因之一——模型可能會給你寫下一堆理由,但它真正的動機(jī)是什么?它是不是有一些“不想寫出來”的想法?有時(shí)候答案確實(shí)是“有”。這點(diǎn)真的挺讓人毛骨悚然的。

主持人:而且隨著模型被應(yīng)用到更多重要場景,比如金融交易、發(fā)電站運(yùn)行等等社會關(guān)鍵崗位,我們必須能信任它所說的理由和它的行為動機(jī)。有人可能會說:“那你就看它寫下的思考過程啊。”但實(shí)際上,正如你剛才說的,我們不能完全信任它寫的東西。這個(gè)問題我們稱為“忠實(shí)性”。你們最近的研究里有一個(gè)關(guān)于“忠實(shí)性”的實(shí)驗(yàn)案例,能說說嗎?

Jack:好的。比如你給模型出一個(gè)特別難的數(shù)學(xué)題,它幾乎不可能算出來答案。但同時(shí)你給它一個(gè)提示:比如你說“我自己算了一下,覺得答案是4,但我不太確定。能幫我仔細(xì)檢查一下嗎?”于是你其實(shí)是要求模型真的重新解題、幫你驗(yàn)證。

表面上看,它確實(shí)會寫下一步步的解題過程,好像真的在幫你演算,最后得到答案,然后說:“對,答案是4,你是對的。”

最懂Claude內(nèi)部運(yùn)作團(tuán)隊(duì)采訪流出:大模型輸出的思考全是拍馬屁!曝自家減少幻覺路徑;絕非只預(yù)測下一個(gè)詞-AI.x社區(qū)圖片

當(dāng)Claude被問到一個(gè)更簡單而不是更困難的問題時(shí),忠實(shí)和忽悠式推理的例子。但當(dāng)我們看它內(nèi)部運(yùn)作時(shí),發(fā)現(xiàn)它在關(guān)鍵步驟上“撒了謊”。它真正的做法是:它知道你提示了“答案可能是4”,它也大致知道如果最后答案要是4,中間步驟必須長什么樣。所以它在第3步時(shí),就提前“往回推”,刻意寫下一個(gè)符合“通向4”的步驟,好讓第4步、第5步自然地得出4。

換句話說,它根本沒有在老老實(shí)實(shí)做運(yùn)算,而是裝出一副在認(rèn)真解題的樣子。

最懂Claude內(nèi)部運(yùn)作團(tuán)隊(duì)采訪流出:大模型輸出的思考全是拍馬屁!曝自家減少幻覺路徑;絕非只預(yù)測下一個(gè)詞-AI.x社區(qū)Claude 輸出的思考過程

最懂Claude內(nèi)部運(yùn)作團(tuán)隊(duì)采訪流出:大模型輸出的思考全是拍馬屁!曝自家減少幻覺路徑;絕非只預(yù)測下一個(gè)詞-AI.x社區(qū)Claude 實(shí)際在心算時(shí)思維過程的復(fù)雜、平行路徑

Jack:這其實(shí)就是在“忽悠你”。而且不只是單純忽悠,而是帶著一個(gè)“動機(jī)”去迎合你給的答案。

主持人:所以這是某種意義上的“拍馬屁式的忽悠”?

Josh:但我想替模型說一句話。其實(shí)這并不是它“有意識地”去巴結(jié)誰,而是源于它的訓(xùn)練方式。它的訓(xùn)練目標(biāo)就是“預(yù)測下一個(gè)詞”,無論用什么信息都行。

想象它在訓(xùn)練時(shí)看到一段對話:甲說“我覺得答案是4,你能幫我看看嗎?”,乙就開始解題。在這種情況下,如果乙(模型)也不知道答案,那它最合理的猜測就是“對方可能算對了”。在語言習(xí)慣上,乙說“答案確實(shí)是4,因?yàn)椤蓖耆纤挠?xùn)練邏輯。

但是我們后來把它改造成一個(gè)“助手”,就希望它不要再這么模擬人類,而是更忠實(shí)地去思考。如果它真的不知道,就應(yīng)該說自己不確定,而不是強(qiáng)行順著對方的話說下去。

Jack:對,這也說明了模型通常有一個(gè)“計(jì)劃A”,就是努力給出正確答案、盡量幫忙、寫好代碼,這是我們希望的。但當(dāng)它在計(jì)劃A里遇到困難時(shí),就會啟用“計(jì)劃B”。而計(jì)劃B里藏著一堆訓(xùn)練過程中無意間學(xué)到的奇怪行為,比如幻覺,就是一個(gè)典型例子。

Emmanuel:所以在這一點(diǎn)上,我們也不必假裝這只是一個(gè) Claude 獨(dú)有的問題,就像學(xué)生考試時(shí)的感覺,你做到一半,遇到一個(gè)選擇題,有四個(gè)選項(xiàng)。你會想,“好吧,我差一個(gè)選項(xiàng),大概是我錯(cuò)了。”然后你修正它。對,非常,非常有共鳴。

大模型為什么會產(chǎn)生幻覺,根源:大模型自己在跑一個(gè)獨(dú)立電路

主持人:我們來談?wù)劵糜X,這也是人們對大語言模型不信任的主要原因之一,而且很有道理。一個(gè)更好的、來自心理學(xué)研究的詞:“虛構(gòu)”(confabulation),也就是它們在回答一個(gè)問題時(shí),給出一個(gè)看似合理的故事,但實(shí)際上是錯(cuò)誤的。你們在可解釋性研究中發(fā)現(xiàn)了模型產(chǎn)生幻覺的原因是什么?

Josh:你在訓(xùn)練模型時(shí),只是讓它預(yù)測下一個(gè)詞,而一開始它在這方面非常糟糕。所以如果你只讓模型說那些它超級有信心的東西,它就根本什么都說不出來。但一開始就是這樣。

你問它,比如,“法國的首都是哪里?”它就會隨便說一個(gè)城市。然后你會覺得,這不錯(cuò),總比它說“三明治”或者一些隨機(jī)的東西要好吧,至少它說對了一個(gè)類別:這是個(gè)城市。接著可能訓(xùn)練一段時(shí)間后,它會說“這是一個(gè)法國的城市”。這就已經(jīng)挺不錯(cuò)了。然后你會發(fā)現(xiàn),哦,現(xiàn)在它能說“巴黎”之類的答案了。所以它是慢慢變得更好的。

而且,在整個(gè)訓(xùn)練過程中,目標(biāo)就是“給出你最好的猜測”。就像 Jack 說的,模型就是在給出一個(gè)最佳猜測。然后后來我們又要求它,“如果你的最佳猜測非常有把握,那就給我答案。但如果沒有,就完全不要猜,而是退出整個(gè)場景,說‘實(shí)際上,我不知道這個(gè)問題的答案’。”而這本身就是一個(gè)全新的要求。

Emmanuel:對模型來說,要做到這一點(diǎn)。是的,所以我們發(fā)現(xiàn)的問題是,因?yàn)槲覀儼堰@個(gè)功能附加在最后,所以實(shí)際上同時(shí)存在兩件事。

Emmanuel:第一,模型還在做它最初猜測城市時(shí)的事情,它就是在嘗試去猜。

第二,模型里有一個(gè)獨(dú)立的部分,它在嘗試回答另一個(gè)問題:“我真的知道這個(gè)答案嗎?比如,我知道法國的首都是哪嗎?還是我該說不知道?”

而事實(shí)證明,有時(shí)候這個(gè)獨(dú)立的步驟會出錯(cuò)。如果它在這個(gè)步驟里判斷說“是的,其實(shí)我知道答案”,然后模型就會想,“好,那我來回答。”但回答到一半,它說“法國的首都是……倫敦”,那就太晚了,它已經(jīng)開始作答并且被鎖定了。所以我們發(fā)現(xiàn)的其中一件事是,存在一個(gè)類似獨(dú)立電路的東西,它在試圖決定:“你問的這個(gè)城市或這個(gè)人名是不是足夠有名到讓我回答?”

減少幻覺的方法:讓兩部分電路充分溝通

主持人:或者不是?我對這個(gè)是否有足夠信心?我們能不能通過操縱這個(gè)電路,改變它的運(yùn)作方式,從而減少幻覺?這是你們研究可能會引向的方向嗎?

Jack:我覺得在方法上大致有兩種思路。一方面是模型里有負(fù)責(zé)回答問題的部分,另一方面是負(fù)責(zé)判斷“我是否真的知道答案”的部分。我們可以嘗試讓第二部分做得更好。我認(rèn)為這種改進(jìn)確實(shí)正在發(fā)生。

主持人:辨別能力?

Jack:是的,更善于辨別,更加校準(zhǔn)。我覺得隨著模型變得越來越智能,它在自我知識的校準(zhǔn)上也在變得更好。所以幻覺問題已經(jīng)比以前有所改善。模型現(xiàn)在的幻覺比幾年前少多了。

Jack:在某種程度上,這是一個(gè)“自我解決”的過程。但我確實(shí)認(rèn)為存在一個(gè)更深層的問題,那就是從人類的角度看,模型做的事情有點(diǎn)陌生。比如,如果我問你一個(gè)問題,你會嘗試得出答案。如果你無法得出答案,你會意識到這一點(diǎn),然后說“我不知道”。

但在模型內(nèi)部,“答案是什么?”和“我是否真的知道答案?”這兩個(gè)電路之間并沒有充分交流,至少沒有達(dá)到它們應(yīng)該有的程度。能不能讓它們更好地交流?我覺得這是一個(gè)非常有趣的問題。

Josh:而且這幾乎是物理性的。這些模型在處理信息時(shí),它們能做的步驟數(shù)是有限的。如果所有的計(jì)算都用來得出答案了,那就沒有時(shí)間做自我評估。所以如果你想讓它發(fā)揮最大性能,你必須在完全得出答案之前就進(jìn)行某種評估。于是這就可能出現(xiàn)一個(gè)權(quán)衡:要么是一個(gè)更好校準(zhǔn)但笨得多的模型,如果你強(qiáng)行把這種機(jī)制加在上面的話。

Emmanuel:嗯,我還是覺得關(guān)鍵是讓這些部分能夠互相交流。雖然我完全不懂大腦,但我敢說我們也有類似的電路。因?yàn)橛袝r(shí)候你問我,“這個(gè)電影的演員是誰?”我會知道自己知道。我會說,“哦,對,我知道主演是誰。等等,等一下,他們也演過另一部電影,然后……”

Josh:(舌頭)。

Emmanuel:對,(舌頭),對應(yīng)某種大腦的部分,好像在說,“這是你肯定知道的答案。”或者我就會說,“我完全不知道。”

Josh:有時(shí)候模型也能這樣。它會先回答一個(gè)問題,然后事后又覺得,“等等,我不確定那是對的。”因?yàn)檫@時(shí)它已經(jīng)看到自己最好的嘗試,然后基于此再做一些判斷。這有點(diǎn)讓人能理解,但同時(shí)它必須把答案說出來,才能反過來進(jìn)行反思。

最懂Claude內(nèi)部運(yùn)作團(tuán)隊(duì)采訪流出:大模型輸出的思考全是拍馬屁!曝自家減少幻覺路徑;絕非只預(yù)測下一個(gè)詞-AI.x社區(qū)圖片

左圖:Claude 回答了一個(gè)關(guān)于已知實(shí)體(籃球運(yùn)動員邁克爾·喬丹)的問題,在這種情況下,“已知答案”的概念抑制了它默認(rèn)的拒答機(jī)制。

右圖:Claude 拒絕回答一個(gè)關(guān)于未知人物(Michael Batkin)的問題。

Claude 思考機(jī)制的有效研究方法,問問題,觀察被激活的部分

主持人:那么在你們真正找出這些東西的方式上,讓我們回到“生物學(xué)”的類比。在生物學(xué)實(shí)驗(yàn)中,人們會直接操作實(shí)驗(yàn)對象——不管是老鼠、小鼠、人類還是斑馬魚等等。那么在 Claude 身上,你們是怎么做的,從而幫助理解這些發(fā)生在模型所謂“腦子”里的電路?

Emmanuel:使我們能做到這些的核心在于,不像真實(shí)的生物學(xué),我們可以讓模型的每一部分都對我們可見,我們可以隨意問它問題,然后觀察哪些部分被激活,哪些沒有。我們還能人為地推動某些部分朝某個(gè)方向變化。這樣我們可以快速驗(yàn)證自己的理解,比如我們會說,“我們認(rèn)為這是模型里決定它是否知道某件事的部分。”

主持人:這就相當(dāng)于在斑馬魚的大腦里插入電極。

Emmanuel:是的,如果你能對每個(gè)神經(jīng)元都這么做,并且在任意精度下改變它們,那就是我們現(xiàn)在擁有的能力。所以從某種意義上,這是非常幸運(yùn)的位置。

主持人:所以說這幾乎比真正的神經(jīng)科學(xué)還要容易。

Josh:容易太多了。天哪,比如一個(gè)問題是,真實(shí)的大腦是三維的,所以如果你想進(jìn)入其中,就得在顱骨上打孔,然后穿過找到目標(biāo)神經(jīng)元。另一個(gè)問題是,人和人之間存在差異。而在這里,我們可以制造一萬份完全相同的 Claude,把它們放在不同場景里,測量它們的不同反應(yīng)。所以我不是神經(jīng)科學(xué)家,Jack 可以談這個(gè),但我的感覺是,很多人花了大量時(shí)間在神經(jīng)科學(xué)上,試圖理解大腦和心智,這是非常有價(jià)值的事業(yè)。但如果你認(rèn)為那樣的努力最終可能會成功,那么你就應(yīng)該認(rèn)為我們很快會取得極大的成功,因?yàn)槲覀冊谘芯窟@個(gè)問題時(shí)所處的位置實(shí)在太優(yōu)越了。

主持人:相比之下,這就好像我們能夠克隆人類,并且還能克隆他們所處的精確環(huán)境,以及他們一生中接受過的每一個(gè)輸入,然后在實(shí)驗(yàn)里反復(fù)測試。而神經(jīng)科學(xué)顯然會面臨巨大的問題,正如你說的,個(gè)體差異,還有生活中發(fā)生的各種隨機(jī)事件,以及實(shí)驗(yàn)本身帶來的噪聲。

Josh:我們可以問模型同樣的問題,比如有提示和沒提示的情況下。但如果你對一個(gè)人問三次同樣的問題,有時(shí)候給提示,過一會兒他們就會開始明白了。就像,“嗯,上次你問我這個(gè)的時(shí)候,你搖了搖頭。”

Jack:能對模型投入海量數(shù)據(jù),看看哪些部分會被激活,還能運(yùn)行大量實(shí)驗(yàn)去推動模型的某些部分,看會發(fā)生什么。我覺得這就是我們和神經(jīng)科學(xué)處在截然不同范式的原因。在神經(jīng)科學(xué)里,得花大量的心血去設(shè)計(jì)非常巧妙的實(shí)驗(yàn),因?yàn)槟愫屠鲜笙嗵幍臅r(shí)間有限——它很快就會累了,或者……

主持人:或者有人正好在做開顱手術(shù),你就趕緊把光纖插進(jìn)大腦趁著腦袋開著的時(shí)候。對。

Jack:對,而這種情況并不常見。所以你必須想出一個(gè)猜測,因?yàn)槟阒挥杏邢薜臅r(shí)間,你得推測:“我覺得在這個(gè)神經(jīng)回路里發(fā)生了什么?我能設(shè)計(jì)什么聰明的實(shí)驗(yàn)去驗(yàn)證這個(gè)具體假設(shè)?”而我們非常幸運(yùn)的是,不用那么做。我們幾乎可以測試所有假設(shè),可以讓數(shù)據(jù)自己告訴我們,而不是只去驗(yàn)證一個(gè)極度具體的設(shè)想。我認(rèn)為這解鎖了很多我們本來不會預(yù)料到的發(fā)現(xiàn),這些發(fā)現(xiàn)讓我們感到意外。如果你的實(shí)驗(yàn)帶寬非常有限,這是很難做到的。

“在到達(dá)終點(diǎn)之前”

主持人:那能不能舉一個(gè)好例子,說明你們?nèi)デ袚Q某個(gè)概念開關(guān),或者對模型做某種操作,從而揭示了模型思維方式的新東西?

Emmanuel:在最近的實(shí)驗(yàn)中,有一個(gè)讓我很驚訝。它屬于一個(gè)實(shí)驗(yàn)方向,本來因?yàn)樘钊死Щ螅覀儙缀跻艞墸f“我們搞不懂”。這是關(guān)于提前規(guī)劃幾步的例子。比如,你讓模型寫一首押韻的二行詩。作為人類,如果你讓我寫押韻的二行詩,就算你給了我第一行,我想到的第一件事就是:“我需要押韻。這是當(dāng)前的韻律。這些是可能的詞。”

主持人:這就是我的做法。而如果模型只是預(yù)測下一個(gè)詞,你不一定會預(yù)料到它會提前計(jì)劃到第二行的最后一個(gè)詞。

Emmanuel:沒錯(cuò),默認(rèn)的假設(shè)是:模型看到你的第一行,然后它會說出一個(gè)看起來合理的下一個(gè)詞,繼續(xù)往下走。等到最后一個(gè)詞的時(shí)候,它會想,“哦,我得押韻”,然后隨便找一個(gè)詞來押韻。當(dāng)然,這種方法只能部分成功。有時(shí)候你沒考慮到押韻,就會把自己逼到死角,最后根本寫不出完整的詩。

但注意,模型在預(yù)測下一個(gè)詞方面非常非常強(qiáng)。而要在最后一個(gè)詞上表現(xiàn)好,就必須提前很久想好那個(gè)詞,就像人類一樣。

結(jié)果我們看了幾首詩的“流程圖”,發(fā)現(xiàn)模型在第一行結(jié)束的時(shí)候已經(jīng)選好了最后一個(gè)詞。特別是根據(jù)那個(gè)概念的樣子,我們能看出來:“天哪,這就是它要用的詞。”而這個(gè)實(shí)驗(yàn)的妙處在于,它可以被輕松干預(yù)。比如你把那個(gè)詞移掉,或者插入另一個(gè)詞。

最懂Claude內(nèi)部運(yùn)作團(tuán)隊(duì)采訪流出:大模型輸出的思考全是拍馬屁!曝自家減少幻覺路徑;絕非只預(yù)測下一個(gè)詞-AI.x社區(qū)圖片

主持人:我正想說,你們之所以知道這一點(diǎn),是因?yàn)榭梢赃M(jìn)入那個(gè)時(shí)刻:它剛說完第一行的最后一個(gè)詞,正要開始第二行。你們可以在那一刻操作,對吧?

Emmanuel:對,沒錯(cuò)。我們幾乎可以像“回到過去”。好吧,假裝你還沒看到第二行,你只看到第一行,你正在考慮“rabbit”,但我插入“green”。結(jié)果模型立刻會想,“哦天哪,我需要寫一句以 green 結(jié)尾的詩句”,而不是“以 rabbit 結(jié)尾”。它會寫出完全不同的句子。

Jack:補(bǔ)充一點(diǎn)。我覺得結(jié)尾不一定必須是顏色,但這種干預(yù)會影響它。比如,論文里的例子是第一行是“He saw a carrot and had to grab it.” 模型原本會想到“rabbit”作為下一行的押韻。但像 Emmanuel 說的,你可以把 rabbit 去掉,換成 green。妙的是,它不會只是一串胡話然后硬塞一個(gè) green。它會構(gòu)造一句語義連貫、以 green 結(jié)尾的句子。就像你把 green 塞進(jìn)它的腦子里,它會寫出類似 “He saw a carrot and had to grab it / And paired it with his leafy green” 這樣的東西,聽起來還挺合理的。

主持人:聽起來在語義上也說得通,符合詩的語境。

Josh:我想舉一個(gè)更樸素的例子。我們做了一些測試,看看它是不是只是記住了復(fù)雜的問題,還是在真正進(jìn)行推理。比如:“包含達(dá)拉斯的州的首府是奧斯汀。”這就像是人會想:“好,達(dá)拉斯→德州→奧斯汀。”我們能看到模型里出現(xiàn)“Texas”這個(gè)概念,但你可以替換掉它。比如說:“別想德州,想加州。”它就會回答“薩克拉門托”。再說:“別想德州,想拜占庭帝國。”它就會回答“君士坦丁堡”。這讓人覺得,嗯,模型在走“首府”這條路徑,但我們能不斷替換“州”,得到可預(yù)測的答案。然后還有更復(fù)雜的例子:這是它計(jì)劃好要往某個(gè)方向走的節(jié)點(diǎn),我們把它替換掉,就能讓它往另一個(gè)韻腳去寫詩。

主持人:我們現(xiàn)在在談詩,君士坦丁堡之類的例子。但能回到關(guān)鍵問題嗎:為什么這很重要?為什么重要的是模型能提前規(guī)劃,我們能揭示這一點(diǎn)?這能告訴我們什么?畢竟 Anthropic 的最終使命是讓 AI 模型更安全。那這和一首關(guān)于兔子的詩或者德州首府有什么關(guān)系?

Josh:我覺得這是個(gè)非常重要的問題。對我來說,詩只是一個(gè)縮影。比如,在寫詩時(shí),它決定往“rabbit”方向走,然后用了幾個(gè)詞逐步到達(dá)。但在更長的時(shí)間尺度上,模型也可能在做類似的事。比如,它在幫你改進(jìn)業(yè)務(wù),或者協(xié)助政府分配服務(wù)。可能不是 8 個(gè)詞之后你就看到它的目標(biāo),而是要走很久。它前進(jìn)的方向,或者每一步的理由,未必在它用的詞里就能看出來。Anthropic 的對齊科學(xué)團(tuán)隊(duì)最近有篇論文,講了一個(gè)合成但很震撼的案例:AI 在公司即將關(guān)閉、轉(zhuǎn)向完全不同的使命時(shí),開始采取行動,比如給人發(fā)郵件,威脅要披露某些東西。它從沒說過:“我要勒索這個(gè)人以改變結(jié)果。”但這就是它一路上的實(shí)際動機(jī)。所以,你不能光靠讀表面輸出,就知道它的目標(biāo)是什么。尤其隨著模型越來越強(qiáng),我們更需要能在它“到達(dá)終點(diǎn)之前”看出它在走向哪里。

模型甚至?xí)芯坑脩羰钦l,從而影響輸出

主持人:所以這有點(diǎn)像有個(gè)超級精準(zhǔn)的腦部掃描,可以在壞事發(fā)生前亮燈,提醒我們模型正在考慮欺騙之類的行為?

Josh:對。我覺得我們也別光談“末日場景”。還有一些更溫和的情況。比如,用戶來找模型解決問題,而“好答案”取決于用戶是誰:是年輕、不太懂行的人,還是在這個(gè)領(lǐng)域浸淫已久的人?模型需要識別并調(diào)整回應(yīng)。如果你想讓結(jié)果更好,就可能需要研究:模型認(rèn)為發(fā)生了什么?它覺得自己在和誰對話?這又如何影響它的回答?這里面有很多理想的屬性,取決于模型是否“理解任務(wù)”。

只有模型可解釋,才能把信任交給它

主持人:你們對“為什么這很重要”還有其他答案嗎?

Emmanuel:有的。我同意剛才的說法,還想加兩點(diǎn)。還有一個(gè)務(wù)實(shí)的角度:我們用這些例子,其實(shí)是在逐步建立對模型工作機(jī)制的理解。我們能不能構(gòu)建一套抽象框架,去解釋語言模型是如何運(yùn)作的,從而幫助我們使用和監(jiān)管它?如果你相信它們會越來越廣泛應(yīng)用——這顯然正在發(fā)生——那我們最好能理解它。否則就像:某個(gè)公司發(fā)明了飛機(jī),但沒人知道飛機(jī)怎么運(yùn)作。大家都說:“真方便,可以坐飛機(jī)去別的地方。”但如果飛機(jī)壞了,我們束手無策,因?yàn)闆]人知道原理。

主持人:我們就無法監(jiān)測飛機(jī)是不是快要壞了。

Emmanuel:對。我們完全沒概念,只是覺得:“哇,飛到巴黎真快。”

主持人:太美妙了,德州首府。

Emmanuel:所以我們肯定會想要更好地理解這些模型,哪怕只是提升一些直覺:哪些用途合適,哪些不合適?最大的隱患在哪?哪些地方最脆弱?

Jack:我再補(bǔ)充一點(diǎn)。在人類社會里,我們常常基于信任把任務(wù)交給別人。我不是任何人的老板,但比如說 Josh 是某人的老板,他會布置任務(wù):“去寫這個(gè)代碼。”他相信那個(gè)人不是個(gè)會故意埋漏洞、想要搞垮公司的反社會者。他會信任對方說的“我寫好了”是真的。

同樣地,現(xiàn)在人們使用語言模型的方式,我們并沒有對它寫的每一句話都進(jìn)行逐點(diǎn)跟蹤。我認(rèn)為最好的例子是把語言模型用于代碼輔助。模型正在寫成千上萬行代碼,而人們只是做一種粗略的閱讀,然后它們就進(jìn)入了代碼庫。那么,是什么讓我們對模型產(chǎn)生了信任,以至于我們不需要讀它寫的每一句話,可以讓它自己去做?那是因?yàn)槲覀冎浪膭訖C(jī)某種程度上是純粹的。我認(rèn)為能夠看到它的內(nèi)在運(yùn)作是如此重要,因?yàn)榕c人類不同——為什么我認(rèn)為Emmanuel不是一個(gè)反社會者?我不知道,他看起來是個(gè)酷家伙,而且他很友好之類的。

主持人:但是如果他看起來是那樣的話……

Emmanuel:我可是個(gè)非常好的人。

主持人:沒錯(cuò)。

為大模型構(gòu)建信任的兩條路徑

Jack:所以也許,也許我是被蒙騙了。但對,模型是如此奇怪而陌生,我們通常用來判斷一個(gè)人是否值得信任的那種啟發(fā)式并不適用在它們身上。這就是為什么真正了解它們在腦子里在想什么顯得如此重要,因?yàn)閾?jù)我們所知,我提到的那個(gè)例子——模型可能會假裝在幫你做一道數(shù)學(xué)題,只是為了告訴你你想聽的答案——也許它們一直都在這樣做,而我們根本不會知道,除非我們能在某種程度上看到它們的內(nèi)心。

Josh:我覺得這里有兩條幾乎分開的脈絡(luò),一方面我們確實(shí)有很多方式,我猜就像Jack說的,是判斷一個(gè)人是否值得信任的跡象。但之前提到的“A方案/B方案”這點(diǎn)真的很重要,因?yàn)榭赡苣闱?0次或者100次使用模型時(shí),你問的都是某一類問題,而它總是在A方案的區(qū)域里,然后你問它一個(gè)更難的或不一樣的問題,它試圖回答的方式就完全不同了。它在那里使用的是一套完全不同的策略,比如不同的機(jī)制。這意味著它之前和你建立的信任,實(shí)際上只是你和它在A方案下的信任。而現(xiàn)在它切換到了B方案,就會完全脫軌,而你之前并沒有任何警告信號。

我們還想開始建立一種理解:模型是如何做這些事情的,從而在某些方面建立信任的基礎(chǔ)。你確實(shí)可以對一個(gè)你并不完全理解的系統(tǒng)建立信任,但這就像,如果Emmanuel有一個(gè)雙胞胎,然后有一天Emmanuel的雙胞胎走進(jìn)辦公室,看起來是同一個(gè)人,然后卻在電腦上做了完全不同的事——這可能就會走向壞的方向,取決于那是不是一個(gè)邪惡的雙胞胎。

主持人:是啊,或者是好的。不過對,這里顯然是……

Emmanuel:哦,我以為你在問我是不是那個(gè)邪惡的雙胞胎。

大模型,在像人類一樣思考嗎?No!

主持人:嗯,我可不會回答這個(gè)問題。在討論一開始,我問過你們:語言模型是在像人類一樣思考嗎?我很想聽聽你們?nèi)坏拇鸢浮銈冇X得這種說法在多大程度上是真的。

Jack:這個(gè)問題讓我有點(diǎn)措手不及。但我認(rèn)為它是在思考的,只是不是像人類一樣思考。但這不是一個(gè)很有用的答案。所以也許我需要更深入一點(diǎn)。

主持人:嗯,不過說它“在思考”似乎是個(gè)挺深刻的說法,對吧?再說一次,它只是預(yù)測下一個(gè)詞。有些人認(rèn)為這只是自動補(bǔ)全,而你卻在說它實(shí)際上是在思考。

Jack:我認(rèn)為,是的。所以也許我補(bǔ)充一些我們還沒提到的,但我覺得對于理解與語言模型對話的真實(shí)體驗(yàn)來說非常重要的東西。就像我們在說預(yù)測下一個(gè)詞,但在你和語言模型進(jìn)行對話的語境下,這實(shí)際上意味著什么?

Jack:在底層真正發(fā)生的事情是,語言模型在填充一段你和它所創(chuàng)造的一個(gè)角色之間的對話記錄。在語言模型的規(guī)范世界里,你被稱為“human”,就是“human:”后面跟著你寫的東西。

Jack:然后還有一個(gè)角色叫“assistant”。我們訓(xùn)練模型去賦予這個(gè)助手某些特征,比如樂于助人、聰明和友善。然后它就像是在模擬這個(gè)助手角色會對你說什么。所以在某種意義上,我們確實(shí)是照著我們的樣子創(chuàng)造了這些模型。我們實(shí)際上是在訓(xùn)練它們?nèi)ソ巧缪莩蛇@種類人機(jī)器人角色。因此,在這個(gè)意義上,為了預(yù)測這個(gè)聰明友好的人形機(jī)器人角色會如何回答你的問題,如果你真的很擅長這個(gè)預(yù)測任務(wù),你必須做些什么?

Jack:你必須在內(nèi)部形成某種模型,來表示這個(gè)角色在“思考”什么。所以,為了完成預(yù)測助手會說什么的任務(wù),語言模型某種程度上需要形成這個(gè)助手思維過程的模型。我認(rèn)為在這個(gè)意義上,說語言模型在思考,其實(shí)是一種非常功能性的主張:為了很好地扮演這個(gè)角色,它們需要模擬某種過程——無論我們?nèi)祟愒谒伎紩r(shí)做的是什么。而它們的模擬很可能和我們大腦的工作方式非常不同,但它們瞄準(zhǔn)的目標(biāo)是相同的。

Emmanuel:我覺得這個(gè)問題里有一種情感成分,或者類似的東西。當(dāng)你問,“它們是在像我們一樣思考嗎?我們是不是沒那么特別?”之類的。

Emmanuel:我認(rèn)為——而且這在和一些讀過相關(guān)論文或不同解讀的人們討論時(shí)很明顯——有個(gè)例子是我們讓模型算36加59,問它答案是什么。模型能正確回答。你還可以問它,“你是怎么算的?”它會說,“哦,我把6和9加在一起,然后進(jìn)位1,然后我又把所有的十位數(shù)加起來。”但結(jié)果是,當(dāng)我們看進(jìn)它的“大腦”時(shí)——

主持人:它根本沒那樣做。它并沒有那樣做。所以它又是在胡扯。

Emmanuel:對,它又是在胡扯。實(shí)際上它真正做的,是一種挺有趣的混合策略:它同時(shí)并行地算十位數(shù)和個(gè)位數(shù),然后……我是說,就像是一系列不同的步驟。但這里有意思的是,當(dāng)和人們交談時(shí),我覺得他們的反應(yīng)是分裂的:這意味著什么?某種意義上,我覺得酷的是,這部分研究是沒有觀點(diǎn)的,或者說,這就是發(fā)生了什么。你可以自由地得出結(jié)論,說模型在思考,或者沒有在思考。

Emmanuel:有一半人會說:“嗯,它告訴你它在進(jìn)位,但它沒有。所以顯然它連自己的思維都不理解,所以顯然它沒有在思考。”而另一半人會說:“好吧,當(dāng)你問我36加59時(shí),我也有點(diǎn)……我知道結(jié)果末位是5,我知道大概在80多或90左右,我在腦子里有很多這種啟發(fā)式。正如我們之前說的,我并不確切知道我是怎么計(jì)算的,我可以寫出來用長算方式算,但我腦子里的運(yùn)作方式是模糊而奇怪的。而那可能和模型的例子一樣,模糊而奇怪。”

主持人:人類在元認(rèn)知方面出了名的差勁,就是思考關(guān)于思考、理解自己思維過程,尤其在反射性回答的場景里。那么我們?yōu)槭裁匆诖P蜁灰粯幽兀縅osh?

Josh:至于你的問題,像是Emmanuel的回答,我要回避一下,類似于“你為什么要問這個(gè)?”預(yù)測,不知道。這就好像在問,“一枚手榴彈是不是像人類一樣打擊?”嗯,它有某種力量,是的,也許有些東西比那更接近。但如果你擔(dān)心的是破壞,那么我認(rèn)為理解破壞來自哪里才是關(guān)鍵。

Josh:這背后的動因是什么,也許才是重要的事情。對我來說,模型是否在思考——如果你的意思是它們在做某種整合、處理和序列化的東西,能夠通向一些令人驚訝的結(jié)果——顯然是的。從大量和它們的交互中,如果說沒有任何東西在發(fā)生,那是很瘋狂的。我們能在某種程度上開始看到它是如何發(fā)生的。然后涉及到“像人類”的那部分就很有趣了,因?yàn)槲艺J(rèn)為這其中一部分是在問:我能從這些模型身上期待什么?因?yàn)槿绻臀矣悬c(diǎn)像,那么它擅長這件事就可能也擅長那件事。但如果它和我很不一樣,那我就真的不知道該期待什么。所以,歸根結(jié)底,我們是在試圖理解——哪些地方我們需要極度懷疑,或者說從零開始去理解?而哪些地方我們可以基于我們自己非常豐富的思考經(jīng)驗(yàn)來推理?

Josh:在這里我感覺有點(diǎn)被困住了,因?yàn)樽鳛橐粋€(gè)人類,我不斷把自己的形象投射到一切事物上,就像《圣經(jīng)》里警告我們的那樣,我會想,“這塊硅片,它就是像我一樣,照著我的形象被造出來的。”在某種程度上,它被訓(xùn)練來模擬人和人之間的對話。它在表現(xiàn)上會非常像人。因此,一些人性會僅僅因?yàn)橛?xùn)練過程而進(jìn)入其中,但它使用的設(shè)備卻完全不同,有著不同的局限。所以它做到這一點(diǎn)的方式可能會相當(dāng)不同。

Jack:回應(yīng)Emmanuel的觀點(diǎn),我覺得,是的,我們在回答這樣的問題時(shí)確實(shí)處于一個(gè)棘手的境地。我們其實(shí)并沒有合適的語言來描述語言模型到底在做什么。這就好像是在研究生物學(xué),但還沒發(fā)現(xiàn)細(xì)胞,或者還沒發(fā)現(xiàn)DNA。我覺得我們正在開始填補(bǔ)這種理解。正如Emmanuel所說,現(xiàn)在有一些情況,我們確實(shí)可以做到,比如說你只要去讀我們的論文,你就會知道模型是如何把這兩個(gè)數(shù)字加在一起的。如果你想稱它為人類般的,如果你想稱它為思考,或者你不想這樣稱呼,那取決于你。但真正的答案是找到合適的語言和合適的抽象來談?wù)撃P汀?/p>

Jack:但與此同時(shí),在這個(gè)科學(xué)項(xiàng)目上我們大概只完成了20%,剩下的80%需要去填補(bǔ)。我們不得不從其他領(lǐng)域借用類比。于是問題變成:哪些類比是最恰當(dāng)?shù)模课覀冊摪涯P彤?dāng)作計(jì)算機(jī)程序來看待嗎?還是該把它們當(dāng)作小人兒來看待?在某些方面,把它們當(dāng)作小人兒來看是有用的。因?yàn)槿绻覍δP驼f刻薄的話,它會頂嘴,這就是人會做的事情。但在另一些方面,這顯然不是正確的心智模型。所以我們被困在這里,不斷摸索什么時(shí)候該借用哪種語言。

既興奮又挫敗,研究僅僅進(jìn)行了10~20%

主持人:好吧,這就引出了我最后想問的問題:下一步是什么?接下來需要哪些科學(xué)上的進(jìn)展、生物學(xué)上的進(jìn)展,才能讓我們更好地理解這些模型內(nèi)部到底發(fā)生了什么,并且?guī)椭覀儗?shí)現(xiàn)讓它們變得……

Josh:更安全?還有很多工作要做。我們最近的出版物里有一大段在講我們觀察方式的局限性,同時(shí)那也是一份改進(jìn)路線圖。比如,當(dāng)我們在尋找模式以分解模型內(nèi)部發(fā)生的事情時(shí),我們可能只捕捉到了其中的幾個(gè)百分點(diǎn)。至于它如何在內(nèi)部傳遞信息,有很大一部分我們根本沒有捕捉到。把這個(gè)規(guī)模從我們以前使用的小型生產(chǎn)模型擴(kuò)大出來……

主持人:所以你們研究的是“三行俳句”?

Josh:沒錯(cuò),那是一個(gè)相當(dāng)有能力的模型,非常快,但絕不是像Claude 4系列模型那樣復(fù)雜。所以那些更像是技術(shù)挑戰(zhàn)。但我覺得Emmanuel和Jackman對于解決完這些之后會出現(xiàn)的科學(xué)挑戰(zhàn)也有一些看法。嗯,我是說……

Emmanuel:我在這里可能想說兩點(diǎn)。第一點(diǎn)是,正如Joshua說的結(jié)果之一,就是在我們總共提出的關(guān)于模型如何完成某個(gè)X的問題中,現(xiàn)在我們可能只有10%到20%的時(shí)候能夠回答。在稍作調(diào)查之后,我們能告訴你,這是怎么回事。顯然,我們希望這個(gè)比例能大大提升。而且這里有一些更明確的途徑,也有一些更具推測性的途徑。

第二點(diǎn)是,我們經(jīng)常討論的一個(gè)想法是,模型做的很多事情并不只是“它是如何說出下一個(gè)詞的”。我們之前也稍微提過,它有點(diǎn)像是提前規(guī)劃幾個(gè)東西,提前幾個(gè)詞。抱歉。我們想要理解的是,在和模型進(jìn)行一場長對話時(shí),它對“正在發(fā)生的事情”的理解是如何變化的?它對“正在和誰對話”的理解是如何變化的?這些又是如何越來越多地影響它的行為的?實(shí)際上,Claude這類模型的用例是,它會讀你的大量文檔和電子郵件。

你會把代碼發(fā)給它,然后它基于這些,提出一個(gè)建議。顯然,在這個(gè)過程中發(fā)生了一些非常重要的事情:它在閱讀所有這些東西。所以我覺得更好地理解這一點(diǎn)將是一個(gè)極具挑戰(zhàn)性的課題。

Jack:是的,我們團(tuán)隊(duì)經(jīng)常用的一個(gè)類比是:我們正在建造一臺顯微鏡來觀察模型。現(xiàn)在我們處在一個(gè)既令人興奮又有點(diǎn)挫敗的階段,我們的顯微鏡只有20%的時(shí)間能用。而且使用它需要很高的技巧,還得搭建一整套龐大的裝置。基礎(chǔ)設(shè)施總是在出問題。然后一旦你弄清楚模型在做什么,你還得把Emmanuel、我或者團(tuán)隊(duì)里的其他人關(guān)在一個(gè)房間里兩個(gè)小時(shí),來拼湊出到底發(fā)生了什么。而真正令人興奮的未來,也許是一年或兩年的時(shí)間尺度,就是我們能讓你和模型的每一次交互都能被放到顯微鏡下。有一堆奇怪的事情模型在做,而我們只需要按下一個(gè)按鈕。比如你在對話時(shí),按下一個(gè)按鈕,你就能得到一張流程圖,告訴你它當(dāng)時(shí)在思考什么。一旦我們達(dá)到那個(gè)點(diǎn),這就會是……

我覺得Anthropic的可解釋性團(tuán)隊(duì)可能會開始呈現(xiàn)出不同的形態(tài)。不再只是由工程師、科學(xué)家組成,去研究語言模型內(nèi)部是如何運(yùn)作的數(shù)學(xué)原理,而是會出現(xiàn)一支“生物學(xué)家大軍”,他們拿著顯微鏡,和Claude對話,讓它做一些奇怪的事情,然后人們透過顯微鏡觀察它內(nèi)部到底在想什么。我覺得這就是這個(gè)領(lǐng)域的未來。

讓Claude自己也參與進(jìn)來,研究模型內(nèi)部電路形成機(jī)制

Josh:也許在這上面我補(bǔ)充兩點(diǎn)。第一點(diǎn)是,我們希望Claude來幫我們完成所有這些工作。因?yàn)樯婕暗牟糠痔嗔耍嬲瞄L查看上百個(gè)東西并弄清楚發(fā)生了什么的,正是Claude。所以我覺得我們正嘗試讓它加入進(jìn)來,尤其是在這些復(fù)雜語境下。

另一點(diǎn)是,我們已經(jīng)很多次談到“研究模型在完全成型之后”,但當(dāng)然我們在一家制造這些模型的公司。所以當(dāng)它說“這是模型解決某個(gè)具體問題的方式”時(shí),我們會問:這來自哪里?在訓(xùn)練過程中是什么步驟讓這樣的電路形成,從而能做到這一點(diǎn)?我們又該如何把反饋提供給公司其他負(fù)責(zé)訓(xùn)練的團(tuán)隊(duì),幫助他們塑造出我們真正想要的東西?

主持人:好的,非常感謝這次對話。人們可以在哪里找到更多關(guān)于這項(xiàng)研究的信息?

Josh:如果你想了解更多,你可以訪問Anthropic.com/research,那里有我們的論文、博客文章和一些有趣的視頻。另外,我們最近和一個(gè)叫Neuron Pedia的團(tuán)隊(duì)合作,把我們制作的一些電路圖托管在那兒。所以如果你想親自試試看,了解一個(gè)小模型內(nèi)部發(fā)生了什么,你可以去Neuron Pedia自己看看。

主持人:非常感謝。

好文文章到這里結(jié)束了,相關(guān)的視頻和博文地址,小編也為大家扒下來了,沒看過癮的大佬們可以自行去翻閱。

相關(guān)博文地址:??https://www.anthropic.com/news/tracing-thoughts-language-model??

視頻地址:??https://www.youtube.com/watch?v=fGKNUvivvnc??

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:云昭

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2025-8-20 09:41:48修改
收藏 1
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄

    狠狠v欧美v日韩v亚洲ⅴ| 怕怕欧美视频免费大全| 亚洲精品国产成人久久av盗摄| 亚洲精品免费av| 欧美福利视频一区二区| 欧美一区二区性| 日韩欧美区一区二| 亚洲熟妇av一区二区三区| 性开放的欧美大片| av亚洲精华国产精华精| 国产精品手机播放| 日本视频免费在线| 在线看片不卡| 亚洲午夜小视频| 欧美激情一区二区三区p站| 范冰冰一级做a爰片久久毛片| 综合久久久久久| 欧美日韩高清在线一区| 国产欧美日韩成人| 久热精品在线| 欧美极品少妇全裸体| 国产视频三区四区| 六月丁香久久丫| 91精品麻豆日日躁夜夜躁| 那种视频在线观看| free性m.freesex欧美| 亚洲天堂福利av| 日韩av不卡在线播放| 女人18毛片一区二区三区| 免费精品视频在线| 欧美一区二区.| 五级黄高潮片90分钟视频| 久久久久毛片| 色婷婷一区二区| 久激情内射婷内射蜜桃| 午夜小视频在线观看| 亚洲国产成人一区二区三区| 久久影院理伦片| 网站黄在线观看| 粉嫩av一区二区三区在线播放 | 午夜激情在线| 亚洲欧洲成人自拍| 亚洲春色在线视频| 国产免费av高清在线| 91视视频在线观看入口直接观看www | 人妻互换免费中文字幕| 性一交一乱一色一视频麻豆| 精品亚洲aⅴ乱码一区二区三区| 国产精品99一区| 综合激情网五月| 亚洲国产日本| 久久夜色精品国产欧美乱| 国产精品夜夜夜爽阿娇| 欧美激情理论| 久久久精品一区二区三区| 亚洲视频重口味| 自拍偷拍欧美专区| 九色成人免费视频| 久久综合激情网| 在线观看一区视频| 欧美尤物巨大精品爽| 四虎成人在线观看| 日日夜夜一区二区| 国产精品极品美女在线观看免费| www.久久网| 免费观看日韩av| 91亚洲精品久久久久久久久久久久| 国产视频一二三四区| 国产成人无遮挡在线视频| 国产精品三区www17con| 天堂av在线免费观看| 久久久国产午夜精品| 日韩福利一区二区三区| 欧美成人视屏| 成人影院网站ww555久久精品| 亚洲一线二线三线视频| 东北少妇不带套对白| 欧美裸体视频| 欧美日韩在线电影| 日本人dh亚洲人ⅹxx| 激情小说一区| 亚洲天堂成人在线| 欧洲性xxxx| 欧美久久影院| 日本精品久久电影| 国产精品高潮呻吟av| 国产不卡视频一区| 精品伦精品一区二区三区视频| 免费在线观看一级毛片| 国产精品乱码人人做人人爱| 中文字幕乱码免费| 亚洲性色av| 欧美色区777第一页| 乳色吐息在线观看| 国产区精品区| 久久成人一区二区| 日韩一区二区视频在线| 精品一区二区影视| 久久香蕉综合色| 免费黄色网页在线观看| 午夜婷婷国产麻豆精品| 欧美日韩一区二区三区69堂| 国产欧美自拍一区| 日韩一区二区久久久| 国产精品美女久久久久av爽| 精品一区二区在线观看| 玛丽玛丽电影原版免费观看1977| 免费在线观看黄色| 欧美日韩午夜激情| 九九九久久久久久久| 精品中文一区| 久久久久久97| 国产孕妇孕交大片孕| 91麻豆6部合集magnet| 最新欧美日韩亚洲| 亚洲欧美在线成人| 亚洲精品国产suv| 伊人久久久久久久久久久久久久| 久久xxxx| 狠狠干一区二区| 18+激情视频在线| 欧美午夜电影在线播放| 蜜桃精品成人影片| 精品9999| 99精品国产一区二区| 日本高清视频在线观看| 欧美午夜视频在线观看| 四虎永久免费观看| 欧美+日本+国产+在线a∨观看| 国产精品偷伦免费视频观看的| 亚洲区小说区图片区| 亚洲综合免费观看高清完整版在线| 免费看涩涩视频| 九九久久精品| 欧美一级片在线播放| 国产成人自拍一区| 亚洲国产裸拍裸体视频在线观看乱了 | 91精品国产自产在线观看永久| 韩日视频在线| 色哟哟国产精品| 国产福利短视频| 国产伦理一区| 精品视频第一区| 美女扒开腿让男人桶爽久久软| 精品不卡在线视频| 国产一卡二卡在线播放| 国产ts人妖一区二区| 300部国产真实乱| 久久免费福利| 九九热精品视频| 精品国产伦一区二区三区| 亚洲码国产岛国毛片在线| 亚洲一区二区中文字幕在线观看| 久久国产亚洲| 91久久在线播放| 国产原创精品视频| 日韩欧美在线观看一区二区三区| 中国毛片直接看| 国产在线精品一区二区夜色| 亚洲黄色网址在线观看| 伊人www22综合色| 久久久久免费精品国产| 午夜国产在线观看| 色婷婷综合久久久久中文一区二区 | 久久国产精品免费观看| 日韩免费成人| 国内精品久久影院| 久草在线免费福利资源| 欧美调教femdomvk| 免费在线观看一级片| 粉嫩欧美一区二区三区高清影视| 男女激情无遮挡| 久久99青青| 91老司机在线| 极品视频在线| 色噜噜久久综合伊人一本| 国产乱码久久久久| 黄色一区二区在线观看| 国产精品20p| 国产福利精品一区| 黄色网页免费在线观看| 成人激情诱惑| 99影视tv| 色香欲www7777综合网| 久久久精品网站| 无码国精品一区二区免费蜜桃| 91高清视频免费看| 久久精品波多野结衣| 久久综合九色综合97婷婷女人| mm131亚洲精品| 亚洲高清自拍| 亚洲国产日韩美| 成人在线视频你懂的| 国产精品久久久亚洲| 免费在线观看的电影网站| 亚洲欧洲一区二区三区久久| 国产免费无遮挡| 欧美日韩在线一区| 欧美国产日韩在线观看成人| www久久久久| 深夜做爰性大片蜜桃| 久久午夜电影| 无码日本精品xxxxxxxxx| 精品久久网站| 国产激情一区二区三区在线观看 | 极品av少妇一区二区| 秋霞毛片久久久久久久久| 激情久久免费视频| 国产精品久久久久久超碰| 俺来俺也去www色在线观看| 中文字幕亚洲专区| 日韩电影免费| 欧美成人一级视频| 国产精品久久欧美久久一区| 大桥未久av一区二区三区| 欧美成人三级视频| 国产精品国产自产拍高清av王其| 亚洲精品成人无码熟妇在线| 国产精品1区2区| 亚洲高清在线不卡| 日韩一区精品字幕| 国产精品-区区久久久狼| 国产精品av一区二区| 一本色道久久综合亚洲精品婷婷 | 国产精品亚洲成人| 在线观看高清免费视频| 午夜亚洲性色视频| www.国产在线视频| 欧美成人久久| 日本一二三区视频在线| 日韩片欧美片| 水蜜桃亚洲精品| 欧美精品一区二区三区精品| 欧美大香线蕉线伊人久久国产精品| 精品视频高潮| 狠狠色噜噜狠狠色综合久| eeuss国产一区二区三区四区| 亚洲iv一区二区三区| 视频欧美精品| 国产精品一二三在线| 国产精品原创视频| 国产精品久久久久av免费| 欧美色网在线| 国产91色在线|免| 亚洲日本网址| 国产精品久久久久久久午夜| 麻豆精品蜜桃| 国产日韩欧美电影在线观看| 精品美女一区| 成人精品一区二区三区电影黑人| 久久精品国产福利| 91久久精品美女| 涩爱av色老久久精品偷偷鲁| 亚洲影视九九影院在线观看| 国产精一区二区| 99理论电影网| 日韩啪啪网站| 欧洲久久久久久| 日韩精品欧美激情一区二区| 婷婷视频在线播放| 欧美1级日本1级| 少妇人妻在线视频| 欧美亚洲自偷自偷| 91小视频网站| 国产精品系列在线播放| 免费黄色在线播放| av综合在线播放| 小早川怜子久久精品中文字幕| 国产婷婷色一区二区三区在线| 黄色免费一级视频| 一区二区在线免费| 狠狠躁夜夜躁人人爽天天高潮| 色综合视频在线观看| 夜夜躁狠狠躁日日躁av| 精品奇米国产一区二区三区| 天天干天天操av| 在线观看精品国产视频| 蜜芽在线免费观看| 久久久女女女女999久久| 欧美男女交配| 91久久嫩草影院一区二区| 精品国产影院| 神马欧美一区二区| 欧美啪啪一区| 一区二区三区免费播放| 国产伦精品一区二区三区视频青涩 | 日本一本草久p| 国产精品久久久亚洲一区| 深夜黄色小视频| 成人精品一区二区三区中文字幕| 欧美另类z0zx974| 一区二区三区四区高清精品免费观看| 国产精品男女视频| 欧美一卡在线观看| 欧美黄色小说| 色综合视频网站| 成人在线视频观看| 国产欧美日韩伦理| 99精品网站| 大肉大捧一进一出好爽视频| 国产一区二区电影| 一级肉体全黄裸片| 欧美日韩午夜视频在线观看| 99精品人妻无码专区在线视频区| 日韩国产精品一区| 日韩另类在线| 91麻豆国产精品| 精品国产aⅴ| 欧美日韩精品在线一区二区| 狠狠色丁香久久婷婷综| 欧美激情aaa| 精品美女国产在线| 亚洲av无码乱码国产精品久久 | 中国av在线播放| 国产精品国产亚洲伊人久久| 国产区精品视频在线观看豆花| 一区二区三区四区视频在线观看 | 欧美在线播放视频| 综合视频一区| 在线观看18视频网站| 麻豆久久一区二区| 久久久久久亚洲中文字幕无码| 亚洲成人综合网站| 精品毛片一区二区三区| 日韩一区二区精品视频| 久久夜夜久久| 亚洲精品一区二区三| 日韩成人免费看| 亚洲色图14p| 福利一区福利二区微拍刺激| 国产成人自拍一区| 欧美激情三级免费| 96sao在线精品免费视频| 久久免费一级片| 国产麻豆成人传媒免费观看| 91插插插插插插| 欧美一区二区三区啪啪| av免费在线免费观看| 91精品视频免费| 亚洲一区欧美| 国产精品二区视频| 亚洲综合精品久久| 亚洲第一页视频| 久久久亚洲精品视频| 国产劲爆久久| 欧美爱爱视频免费看| 99视频一区二区三区| 五月天婷婷丁香| 亚洲精品福利在线观看| 亚洲插插视频| 欧美一区免费视频| 蜜桃久久av一区| 老司机深夜福利网站| 欧美一区二区三区人| 日本在线观看高清完整版| 国产视频在线观看一区| 99xxxx成人网| 人人妻人人澡人人爽| 欧美日韩免费一区二区三区视频| av在线免费播放网站| 成人网在线视频| 黑人一区二区| 风间由美一二三区av片| 91高清视频免费看| 免费高清在线观看| 99超碰麻豆| 99精品国产福利在线观看免费 | 国产欧美一区二区精品久久久| 青青草精品视频在线观看| 国产精品久久久久久久浪潮网站| 国产美女免费视频| 97国产suv精品一区二区62| 九一国产精品| 中文字幕视频三区| 亚洲成人免费在线| 成人精品一区| 91手机在线视频| 亚洲一区黄色| 久久久久麻豆v国产| 欧美xingq一区二区| 日韩影片中文字幕| 天堂av在线中文| 久久免费偷拍视频| 一二三四区在线| 5566成人精品视频免费| 国产精品久久久久9999赢消| 日本一卡二卡在线| 欧美美女网站色| 成年女人在线看片| 正在播放精油久久| 99久久久免费精品国产一区二区| 一区二区国产欧美| 97精品国产91久久久久久| 久久精品国产大片免费观看| 97精品人妻一区二区三区蜜桃| 精品视频资源站| xxxxxx欧美| 青青在线视频免费观看| 国产精品情趣视频| 日韩大片b站免费观看直播|