精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

深度揭秘CoT!普林斯頓耶魯發布最新報告:大模型既有記憶推理、也有概率推理

人工智能 新聞
研究人員通過案例研究,利用大型語言模型(LLMs)如GPT-4、Claude 3和Llama 3.1,探索了思維鏈(CoT)提示在解碼移位密碼任務中的表現;CoT提示雖然提升了模型的推理能力,但這種能力并非純粹的符號推理,而是結合了記憶和概率推理的復雜過程。

「推理」是非常能展現「人類智能」的一項能力,需要結合現有證據和過去的經驗,以邏輯和系統的方式思考某件事情,進而做出決策。

大型語言模型(LLMs)以其通用性,在多項任務上都取得了出色的性能,雖然思維鏈(CoT)提示已經證明了大模型具備多步推理能力,但這種能力到底來自于「抽象泛化」(abstract generalization)還是「淺層啟發式」(shallow heuristics),仍然沒有定論。

為了深入理解影響 CoT 推理的因素,普林斯頓大學、耶魯大學的研究人員最近發布了一項案例研究,使用三個大模型(GPT-4、Claude 3 和 Llama 3.1)利用CoT提示來執行解碼移位密碼(decoding shift ciphers)的符號推理任務。

圖片

論文地址:https://arxiv.org/abs/2407.01687

文中只關注這一個簡單的任務,能夠系統地分析出影響 CoT 性能的三個因素:任務的預期輸出(概率)、模型在預訓練期間隱式學習的內容(記憶),以及數量推理中涉及的中間操作(噪聲推理)。

實驗結果顯示,這些因素可以極大地影響模型的準確率,并且可以得出結論,CoT提示帶來的性能提升,既反映了模型在推理過程中有記憶的因素,也有真實推理的概率因素。

研究方法

以往的方法在研究模型推理能力時,往往在一系列復雜的推理任務上進行評估,其中任務的多樣性和復雜性可能會掩蓋CoT推理背后的影響因素,所以這篇論文只關注一個相對簡單的任務:使用移位密碼編碼的文本進行破譯(deciphering text encoded with a shift cipher)。

使用移位密碼(shift cipher)來編碼消息的過程為,將每個字母替換為在字母表中向前移動一定數量位置(shift_level)的另一個字母;解碼則為相反的操作,即向后移動。

圖片

這種密碼也可以稱為旋轉密碼(rotation ciphers),過程等價于將字母表向前旋轉一定數量的步rot-k,其中k對應于shift_level

例如,給定測試詞「FDW」并使用rot-3加密(shift_level = 3),解碼需要將每個字母向后移動3步,即F → C,D → A,W → T,最后獲得解碼輸出「CAT」。

在實驗設計時,研究人員給大模型輸入一個使用移位密碼編碼的單詞,并要求模型對文本進行解碼以恢復原始單詞。

任務動機

研究人員使用移位密碼任務的主要出發點在于「任務復雜性」和「任務頻率」之間存在明顯的分離。

解密任務的復雜性也可以動態變化,移位級別(shift level)更高的密碼,需要更多中間步驟,也更復雜;不同的移位級別在互聯網文本中的頻率也不同,在大型語言模型的訓練數據中也是如此。

比如rot-13在互聯網論壇中廣泛用于隱藏文本,如謎題解答和劇透,而rot-3和rot-1通常用在解密教程中(rot-3也被稱為凱撒密碼)。

此外,移位密碼有助于研究概率的影響,因為正確答案可以是任意字符串,可以很容易地調節字符串的概率,并且生成樣本和正確性驗證也很容易。

最重要的是,解碼信息時,每個字母都是一個獨立的步驟,更容易分析。

CoT在移位密碼上的影響

數據

研究人員構建了一個數據集,每個單詞包含7個字母(從詞表中組合3個字母和4個字母的單詞),用GPT-4分詞器后為2個token,以控制與分詞器無關的因素。

使用GPT-2計算對數概率,用句子「The word is "WORD"」的對數概率減去「The word is」的對數概率,然后把單詞按其對數概率評分,并按降序排列。

通過選擇等距的對數概率值作為中心,形成了五個區間,其中區間1具有最高的概率,區間5具有最低的概率,再手動檢查了數據集中的單詞,并進行了篩選,以確保沒有使用不恰當的單詞,其中每個區間包含150個單詞。

數據集中總共包含150個樣本,劃分為兩個子集:1)包含100個單詞以評估GPT-4;2)包含50個單詞,用于評估擬合到GPT-4在100個單詞子集上表現的邏輯回歸模型。

最后在1-25移位級別上生成來自5個概率區間的單詞的移位密碼編碼版本,作為模型的輸入;評估只運行一次,基于100個樣本報告準確率。

評估提示

研究人員使用多種不同的提示對數據集的性能進行了評估:

1. 標準(standard)提示,只有任務描述和演示但沒有推理步驟的提示;

圖片

2. 文本思維鏈(Text-CoT),使模型逐個字母解碼消息。

圖片

要想正確得到推理步驟,模型必須在預訓練期間學會字母表。

3. 數學思維鏈(Math-CoT),模型需要將每個字母轉換為數字,然后通過數字應用算術來執行移位,再將結果轉換回字母;提示中還指定了字母和位置之間的映射。

圖片

4. 數字序列思維鏈(Number-CoT),該任務基于數字域(即輸入和輸出是數字序列),與移位密碼同構;推理需要對數字序列中的輸入元素應用算術運算以獲得相應的輸出序列。

圖片

實驗結果

研究人員使用了開源和閉源模型進行實驗:GPT-4(gpt-4-0613),Claude 3(claude-3-opus-20240229),以及Llama-3.1-405B-Instruct,其中溫度設置為0,并將max_new_tokens設置為200。

在使用標準提示時,GPT-4在大多數移位級別上的準確率為零,但當使用文本CoT時,其準確率大幅提升(平均準確率達到32%),跟以前的研究結果相同,即CoT對移位密碼很有幫助,但仍然遠非完美;但在使用數字CoT時,GPT-4的表現結果幾乎達到了完美。

圖片

上述結果顯示,如果CoT提示中用到的是符號推理,那GPT-4的推理能力就會很完美;而事實上沒有得到完美分數,也表明了CoT推理并非純粹的符號推理。

盡管如此,CoT也很明顯優于標準提示,所以CoT推理不太可能僅僅是簡單的記憶。

如果CoT推理既不是簡單的記憶也不是純粹的符號推理,那會是什么?

推理過程分解

研究人員考慮了大型語言模型(LLMs)可能采用的四種推理過程:

1. 符號推理(Symbolic reasoning)是使用離散的、確定性的推理規則。移位密碼可以通過簡單的符號算法完美解碼,因此一個使用完全系統化推理的系統應該達到100%的準確率。


2. 噪聲推理(Noisy reasoning)類似于符號推理,但增加了噪聲,導致推理過程中每個中間操作出錯的可能性。如果系統使用噪聲推理,那應該看到隨著需要執行的操作數量的增加,準確率會下降;移位密碼可以測試出這種可能性:通過改變移位級別,可以調節每個推理步驟中需要執行的操作數量,并觀察準確率是否相應變化。

3. 記憶(Memorization)策略,模型可以記住在預訓練中遇到的任務,但無法泛化到新任務。如果LLMs所做的只是記憶,應該看到在預訓練中經常遇到的情況比那些不經常遇到的任務表現更好。

之前有研究表明,13是自然語料庫中最常見的移位級別,在一些網絡社區中很常見。

4. 概率推理(Probabilistic reasoning)將任務框架為選擇給定輸入下最可能的輸出,推理會受到輸出的先驗概率的影響,概率推理器應該隨著正確答案的先驗概率增加,準確率也會有所提升。

圖片

對比假設準確率,研究人員發現,隨著移位級別的增加,準確率通常會下降,代表LLM在執行噪聲推理,并且是雙向噪聲推理,模型可以對字母進行向前或向后的移位來解碼消息,例如,向后移動25個字母和向前移動1個字母相同,但后者的中間步驟更少;雙向性質的具體表現為,當移位級別從20變為25時,準確率會增加。

其次,模型進行概率推理的證據是,準確率在最高概率區間(區間1)遠高于最低概率區間(區間5),其中「高概率」大多為常見的單詞,如{'mariner', 'shrines', 'paywall', ...},而「低概率」的情況大多是無意義的字母序列,如{'xcbrouw', 'jsxrouw', 'levjspx', ...}。

最后,雖然移位級別13比其他移位級別需要更多的推理步驟,但移位級別13上的準確率存在一個峰值,代表模型執行了記憶(13是自然語料庫中最常見的移位級別)。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-09-23 09:40:00

AI數學模型

2022-07-26 09:56:48

模型AI

2023-09-12 14:45:18

2025-02-14 10:23:00

LLM模型谷歌

2012-08-02 16:18:10

普林斯頓結構哈佛結構架構

2024-09-23 08:24:06

CoT解密技術

2023-08-27 15:28:53

人工智能語言模型

2024-02-01 08:34:30

大模型推理框架NVIDIA

2023-12-05 13:25:00

數據訓練

2025-05-21 09:02:20

2024-01-24 13:11:00

AI模型

2025-02-12 12:04:54

2024-07-19 09:59:31

2024-09-05 12:27:17

2025-05-16 08:58:09

2023-05-22 15:17:02

谷歌AI

2025-06-16 14:41:07

模型開源AI

2025-03-25 09:50:23

2011-04-22 10:14:34

無線網絡DHCPAndroid

2023-11-19 23:36:50

點贊
收藏

51CTO技術棧公眾號

污片在线免费看| 久久亚洲精品欧美| 欧洲第一无人区观看| 国色天香久久精品国产一区| 亚洲国产美国国产综合一区二区| 都市激情久久久久久久久久久| 国产无遮挡裸体免费视频| 国产不卡av一区二区| 欧美精品在线视频| 久久精品视频16| 亚洲1卡2卡3卡4卡乱码精品| 懂色av一区二区三区蜜臀| 欧美在线xxx| 久久国产美女视频| 亚洲v天堂v手机在线| 在线综合+亚洲+欧美中文字幕| 国产视频九色蝌蚪| 麻豆视频在线| 久久久久综合网| 99re6在线| 天天综合久久综合| 亚洲精品三级| 久久亚洲精品视频| 我不卡一区二区| 北条麻妃一区二区三区在线观看| 欧美欧美午夜aⅴ在线观看| 国产乱淫av片杨贵妃| 9191在线观看| 91偷拍与自偷拍精品| 91超碰在线免费观看| 中文字幕有码视频| 久久国产福利| 国外成人免费在线播放 | 97久久超碰国产精品| 999精品在线观看| 国产精品久久777777换脸| 亚洲欧美清纯在线制服| 九九久久国产精品| 熟女少妇a性色生活片毛片| 国产日产精品_国产精品毛片| 亚洲国产黄色片| 四虎国产精品免费| 国产一区二区三区精品在线观看 | 欧美精品18videosex性欧美| 人人澡人人澡人人看| 禁断一区二区三区在线| 亚洲精品小视频在线观看| 亚洲av成人精品一区二区三区| 亚洲国产精品免费视频| 91超碰这里只有精品国产| 日日躁夜夜躁aaaabbbb| 成人免费黄色| 欧美日韩一区二区三区四区五区 | 国产精品系列在线观看| 国产精品欧美日韩久久| 最新国产中文字幕| 秋霞电影网一区二区| 国产精品日韩av| 亚洲高清视频免费观看| 日本美女一区二区三区视频| 国产精品久久久久9999| 中文字幕有码视频| 国产一区二区三区久久悠悠色av| 成人精品aaaa网站| 国产成人精品a视频| 国产一区二区在线观看视频| 91香蕉国产在线观看| www.天天干.com| 成人黄色网址在线观看| 久久99久久精品国产| 欧美日本韩国一区二区| 日本一区二区三区久久久久久久久不 | 日韩av手机在线看| 成人黄色三级视频| 国产在线一区观看| y111111国产精品久久婷婷| 色噜噜在线播放| 91美女福利视频| 亚洲国产综合自拍| a级片国产精品自在拍在线播放| 一区二区不卡在线视频 午夜欧美不卡在| 黄色a级片免费看| 免费成人在线电影| 欧美色综合天天久久综合精品| 日韩成人av免费| 91久久偷偷做嫩草影院电| 日韩精品中文字幕在线观看| 亚洲精品成人av久久| 亚洲电影在线一区二区三区| 91精品国产乱码久久久久久久久 | av在线网页| 在线视频国内自拍亚洲视频| 亚洲综合123| 日韩系列在线| 日韩一级黄色av| 日韩av一二三区| 日本不卡的三区四区五区| 成人免费激情视频| 亚洲av成人精品毛片| 国产精品午夜免费| 免费一级特黄特色毛片久久看| 国产成人精品一区二三区在线观看| 91精品国产免费久久综合| jizz日本免费| 91精品啪在线观看国产81旧版 | 国产黄色片免费看| 国产一区在线不卡| 日本一区二区精品视频| 久久99亚洲网美利坚合众国| 欧美在线观看18| 一区二区三区四区影院| 日韩理论片av| 欧洲成人免费aa| 午夜精品久久久久久久第一页按摩 | 欧美高清视频| 色网站国产精品| 欧美性生交xxxxx| 91成人网在线观看| 国产精品99久久久久久白浆小说| 欧美一区二区三区激情| 亚洲欧美中日韩| 黄色aaa级片| 亚欧日韩另类中文欧美| 欧美精品videos性欧美| 国产日产亚洲系列最新| 亚洲国产精品二十页| 欧美女人性生活视频| 91大神精品| 欧美巨乳在线观看| 国产精品久久久久久免费播放| 久久久久久久性| avav在线看| 欧美美女在线直播| 久久人人看视频| www.国产黄色| 亚洲欧美日本在线| 午夜一区二区视频| 日韩综合网站| 国产日产欧美a一级在线| 国产精品久久一区二区三区不卡| 精品久久久一区| 50一60岁老妇女毛片| 亚洲欧洲一区| 国产一区在线观| av在线理伦电影| 亚洲国产天堂网精品网站| 免费一级片在线观看| 国产乱对白刺激视频不卡| 水蜜桃在线免费观看| 玖玖玖电影综合影院| 亚洲最好看的视频| 色婷婷av一区二区三区久久| 国产精品免费无遮挡无码永久视频| 久久青草欧美一区二区三区| 男人操女人免费| 国产精品一国产精品| 国产福利视频一区二区| 第一页在线观看| 欧美日韩久久一区| 欧美一区免费观看| 国产99久久久国产精品潘金| 男的插女的下面视频| 国产精品毛片视频| 茄子视频成人在线| 国产69精品久久app免费版| 欧美偷拍一区二区| 91狠狠综合久久久| 丰满少妇久久久久久久| 一二三四视频社区在线| 美日韩中文字幕| 国产美女精品视频免费观看| fc2ppv国产精品久久| 精品国产乱码久久久久久图片| 国产精品2020| 久久精品一区蜜桃臀影院| 久久婷婷综合色| 欧美精品二区| 久久综合九色综合久99| 国产69精品久久久久9999人| 久久亚洲一区二区三区四区五区高| www.com欧美| 色诱视频网站一区| 麻豆精品国产免费| 99久久综合色| gogogo高清免费观看在线视频| 你懂的国产精品永久在线| 久久国产主播精品| 伊人久久大香| 69视频在线免费观看| 成人欧美亚洲| 精品少妇一区二区三区日产乱码| 欧美精品一二三四区| 日韩一区在线免费观看| 日韩无码精品一区二区| 久久99最新地址| 精品久久久久久久久久中文字幕| 久久高清免费| 六月婷婷久久| 亚洲欧美日本国产| 国产精品视频网站| 欧美极品videos大乳护士| 日韩视频在线观看免费| 午夜福利视频一区二区| 91精品国产综合久久福利| 天天干天天干天天操| 樱桃视频在线观看一区| 我不卡一区二区| 99久久精品国产一区二区三区 | 69成人免费视频| 亚洲欧美经典视频| av男人的天堂av| 成人精品小蝌蚪| 国产乱女淫av麻豆国产| 天堂蜜桃91精品| 2018国产在线| 欧美 日韩 国产 一区| 亚洲成人av动漫| 伊人久久大香线蕉综合网站| 国产精品国模大尺度私拍| 伊人久久大香伊蕉在人线观看热v 伊人久久大香线蕉综合影院首页 伊人久久大香 | 三级小视频在线观看| 欧美一区二区在线播放| 中文av免费观看| 高跟丝袜一区二区三区| 国产真实乱人偷精品视频| 综合欧美一区二区三区| 国产一区二区三区精品在线| 97成人超碰视| 在线观看成人动漫| 国产99精品国产| 亚洲av无码久久精品色欲| 国产在线精品一区二区夜色| 亚洲少妇第一页| 丝袜美腿亚洲一区二区图片| 精品少妇一区二区三区在线| 亚洲国产精品一区| 久操手机在线视频| 欧美二区视频| 久久久99精品视频| 在线国产一区二区| 一二三四中文字幕| 欧美/亚洲一区| 成人一区二区av| 欧美精选一区| 4444在线观看| 欧美午夜不卡| 和岳每晚弄的高潮嗷嗷叫视频| 国产精品mv在线观看| 美女av免费观看| 欧美日韩ab| 日本免费a视频| 精品福利电影| 国产精品50p| 免费在线欧美黄色| 亚洲中文字幕无码不卡电影| 视频在线在亚洲| 91日韩视频在线观看| 麻豆视频观看网址久久| 国产美女视频免费看| 国产精品白丝av| 逼特逼视频在线观看| 91日韩在线专区| av男人的天堂av| 亚洲欧洲精品天堂一级| av成人免费网站| 亚洲一区二区黄色| 一区二区三区视频免费看| 色综合久久久久久久久久久| 天天综合久久综合| 欧美一级淫片007| 少妇一级淫片免费看| 亚洲欧美日韩天堂| 日韩三级影院| 久久99国产精品自在自在app| 国产99在线观看| 国产精品18久久久久久麻辣| 巨大黑人极品videos精品| 亚洲自拍偷拍第一页| 欧美黄色网视频| 视频在线观看成人| 午夜视频精品| 人妻有码中文字幕| 韩国精品久久久| 呦呦视频在线观看| 国产精品久久久爽爽爽麻豆色哟哟 | 好吊视频一区二区三区| 亚洲欧洲在线播放| 91最新在线视频| 欧美专区日韩视频| 9999在线精品视频| 久久久久久国产精品一区| 91嫩草亚洲精品| 国产91在线免费| 韩国视频一区二区| 可以直接看的无码av| 亚洲免费视频中文字幕| 一级成人黄色片| 日韩欧美一区中文| 东凛在线观看| 2021国产精品视频| 亚洲专区**| 亚洲视频在线二区| 99日韩精品| 成人高清在线观看视频| 久久精子c满五个校花| 日韩精品国产一区二区| 欧美裸体bbwbbwbbw| 久蕉在线视频| 韩日精品中文字幕| 亚洲**毛片| 欧美 日韩 国产 在线观看| 日韩精品高清不卡| 五十路六十路七十路熟婆| 亚洲精品久久久久久国产精华液| 午夜精品久久久久久久蜜桃| 亚洲第一免费网站| 国产在线观看av| 国产免费成人av| 怕怕欧美视频免费大全| 免费不卡av在线| 国产成人精品免费网站| 精品无码一区二区三区蜜臀| 日本韩国视频一区二区| 香蕉视频黄在线观看| 久久久久久久av| 国产一区二区在线观| 在线免费一区| 蜜臀久久99精品久久久画质超高清| 精品夜夜澡人妻无码av| 亚洲成人7777| 蜜桃av噜噜一区二区三区麻豆| 久久亚洲国产成人| 精品国产亚洲一区二区三区在线| 午夜精品一区二区三区在线观看| 久久狠狠婷婷| 亚洲av成人无码一二三在线观看| 亚洲影视在线观看| 亚洲AV无码精品色毛片浪潮| 欧美床上激情在线观看| 国产精品美女久久久久人| 亚洲砖区区免费| 久久国产精品无码网站| 成人欧美一区二区三区黑人一| 欧美四级电影在线观看| wwwww在线观看免费视频| 国产精品福利在线观看| 激情综合网五月| 日韩欧美国产片| 日韩美女啊v在线免费观看| 亚洲综合精品视频| 久热精品在线视频| 日韩在线精品强乱中文字幕| 韩国无码av片在线观看网站| 丁香另类激情小说| 亚洲黄色小说图片| 亚洲日本成人女熟在线观看| 日韩欧美2区| 资源网第一页久久久| 国产凹凸在线观看一区二区 | 欧美最猛黑人xxxxx猛交| 1769在线观看| 96精品久久久久中文字幕| 欧美午夜精品| 免费看污片网站| 欧美日韩一级大片网址| fc2ppv国产精品久久| 国产精品国模大尺度私拍| 性色一区二区三区| 特级西西人体高清大胆| 欧美一级二级三级蜜桃| av在线最新| 亚洲精品视频一二三| 国产精品一品二品| 51国产偷自视频区视频| 中文字幕av一区中文字幕天堂 | 日韩精品一区二区三区中文精品 | 国产精品视频区1| 欧美日韩精品| 黄色工厂在线观看| 精品视频一区二区不卡| 2024最新电影在线免费观看| 国产99在线播放| 日韩精品91亚洲二区在线观看| 日本午夜在线观看| 日韩国产高清视频在线| 涩涩涩久久久成人精品| 国产a级片网站| 国产精品久久久久一区二区三区共 | 青娱乐一区二区| 国产精品一区二区免费不卡| 特级西西444www大精品视频免费看| 久久精品成人一区二区三区| 理论片一区二区在线| 日韩中文字幕a| 欧美日韩国产色| 成人av黄色| 日韩一区二区电影在线观看| 成人在线视频一区| 91成品人影院| 日韩av手机在线|