精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

谷歌:LLM找不到推理錯誤,但能糾正它

人工智能 新聞
劍橋大學和 Google Research 的研究團隊提出了一種新思路:不再把自我校正看作一個單一過程,而是分成錯誤發現和輸出校正兩個過程

今年,大型語言模型(LLM)成為 AI 領域關注的焦點。LLM 在各種自然語言處理(NLP)任務上取得了顯著的進展,在推理方面的突破尤其令人驚艷。但在復雜的推理任務上,LLM 的表現仍然欠佳。

那么,LLM 能否判斷出自己的推理存在錯誤?最近,劍橋大學和 Google Research 聯合開展的一項研究發現:LLM 找不到推理錯誤,但卻能使用該研究提出的回溯(backtracking)方法糾正錯誤。

圖片

  • 論文地址:https://arxiv.org/pdf/2311.08516.pdf
  • 數據集地址:https://github.com/WHGTyen/BIG-Bench-Mistake

這篇論文引起了一些爭論,有人提出異議,比如在 Hacker News 上,有人評論這篇論文的標題言過其實,有些標題黨。也有人批評說其中提出的校正邏輯錯誤的方法基于模式匹配,而非采用邏輯方法,這種方法其實容易失敗。

Huang 等人在論文《Large language models cannot self-correct reasoning yet》中指出:自我校正或許是能有效地提升模型輸出的風格和質量,但鮮有證據表明 LLM 有能力在沒有外部反饋的情況下識別和糾正自身的推理和邏輯錯誤。比如 Reflexion 和 RCI 都使用了基本真值的糾正結果作為停止自我校正循環的信號。

劍橋大學和 Google Research 的研究團隊提出了一種新思路:不再把自我校正看作一個單一過程,而是分成錯誤發現和輸出校正兩個過程:

  • 錯誤發現是一種基礎推理技能,已經在哲學、心理學和數學領域得到了廣泛的研究和應用,并催生了批判性思維、邏輯和數學謬誤等概念。我們可以合理地認為發現錯誤的能力也應該是 對 LLM 的一項重要要求。但是,本文結果表明:當前最佳的 LLM 目前還無法可靠地發現錯誤。
  • 輸出校正涉及部分或完全修改之前生成的輸出。自我校正是指由生成輸出的同一模型來完成校正。盡管 LLM 沒有發現錯誤的能力,但本文表明:如果能提供有關錯誤的信息(如通過一個小型的監督式獎勵模型),LLM 可以使用回溯方法校正輸出。

本文的主要貢獻包括:

  • 使用思維鏈 prompt 設計方法,任何任務都可以變成錯誤發現任務。研究者為此收集并發布了一個 CoT 類型的軌跡信息數據集 BIG-Bench Mistake,該數據集由 PaLM 生成,并標注了第一個邏輯錯誤的位置。研究者表示,BIG-Bench Mistake 在它的同類數據集中,是首個不局限于數學問題的數據集。
  • 為了測試當前最佳 LLM 的推理能力,研究者基于新數據集對它們進行了基準評測。結果發現,當前 SOTA LLM 也難以發現錯誤,即便是客觀的明確的錯誤。他們猜測:LLM 無法發現錯誤是 LLM 無法自我校正推理錯誤的主要原因,但這方面還有待進一步研究。
  • 本文提出使用回溯方法來校正輸出,利用錯誤的位置信息來提升在原始任務上的性能。研究表明這種方法可以校正原本錯誤的輸出,同時對原本正確的輸出影響極小。
  • 本文將回溯方法解釋成了「言語強化學習」的一種形式,從而可實現對 CoT 輸出的迭代式提升,而無需任何權重更新。研究者提出,可以通過一個經過訓練的分類器作為獎勵模型來使用回溯,他們也通過實驗證明了在不同獎勵模型準確度下回溯的有效性。

BIG-Bench Mistake數據集

BIG-Bench 由 2186 個 CoT 風格的軌跡信息集合組成。每個軌跡由 PaLM 2-L-Unicorn 生成,并標注了第一個邏輯錯誤的位置。表 1 展示了一個軌跡示例,其中錯誤位于第 4 步。

這些軌跡來自 BIG-Bench 數據集中的 5 個任務:詞排序、跟蹤經過混洗的對象、邏輯推演、多步算術和 Dyck 語言。

他們使用 CoT prompt 設計法來調用 PaLM 2,使其解答每個任務的問題。為了將 CoT 軌跡分成明確的步驟,他們使用了論文《React: Synergizing reasoning and acting in language  models》中提出的方法,分開生成每一步,并使用了換行符作為停止 token。

在該數據集中,生成所有軌跡時,temperature = 0。答案的正確性由精確匹配決定。

基準測試結果 

表 4 報告了 GPT-4-Turbo、GPT-4 和 GPT-3.5-Turbo 在新的錯誤發現數據集上的準確度。

圖片

對于每個問題,可能的答案有兩種情況:要么沒有錯誤,要么就有錯誤。如有錯誤,則數值 N 則會指示第一個錯誤出現的步驟。

所有模型都被輸入了同樣的 3 個 prompt。他們使用了三種不同的 prompt 設計方法:

  • 直接的軌跡層面的 prompt 設計 
  • 直接的步驟層面的 prompt 設計 
  • CoT 步驟層面的 prompt 設計

相關討論

研究結果表明,這三個模型都難以應對這個新的錯誤發現數據集。GPT 的表現最好,但其在直接的步驟層面的 prompt 設計上也只能達到 52.87 的總體準確度。

這說明當前最佳的 LLM 難以發現錯誤,即使是在最簡單和明確的案例中。相較之下,人類在沒有特定專業知識時也能發現錯誤,并且具有很高的一致性。

研究者猜測:LLM 無法發現錯誤是 LLM 無法自我校正推理錯誤的主要原因。

prompt 設計方法的比較

研究者發現,從直接軌跡層面的方法到步驟層面的方法再到 CoT 方法,無錯誤的軌跡準確度顯著下降。圖 1 展示了這種權衡。

研究者猜測其原因是模型生成的輸出的數量。這三種方法涉及到生成越來越復雜的輸出:直接的軌跡層面的 prompt 設計方法需要單個 token,直接的步驟層面的 prompt 設計方法每步需要一個 token,CoT 步驟層面的 prompt 設計每步需要多個句子。如果每次生成調用都有一定的概率識別出錯誤,那么對每條軌跡的調用越多,模型識別出至少一個錯誤的可能性就越大。

將錯誤位置作為正確性代理的少樣本 prompt 設計

研究者探究了這些 prompt 設計方法能否可靠地決定一個軌跡的正確性,而不是錯誤位置。

他們計算了平均 F1 分數,依據為模型能否預測軌跡中是否存在錯誤。如果存在錯誤,則假設模型預測的是該軌跡是 incorrect_ans。否則就假設模型預測的是該軌跡是 correct_ans。

使用 correct_ans 和 incorrect_ans 作為正例標簽,并根據每個標簽的出現次數進行加權,研究者計算了平均 F1 分數,結果見表 5。

這個加權 F1 分數表明,對于確定最終答案的正確性而言,通過 prompt 尋找錯誤是一個很糟糕的策略。

回溯

Huang 等人指出 LLM 無法在沒有外部反饋的情況下自我校正邏輯錯誤。但是,在許多真實世界應用中,通常沒有可用的外部反饋。

研究者在這項研究中采用了一種替代方案:用一個在少量數據上訓練的輕量級分類器替代外部反饋。與傳統強化學習中的獎勵模型類似,這個分類器可以檢測 CoT 軌跡中的任何邏輯錯誤,然后再將其反饋給生成器模型以提升輸出。如果想要最大化提升,可以進行多次迭代。

研究者提出了一種簡單的回溯方法,可以根據邏輯錯誤的位置來提升模型的輸出:

  • 模型首先生成一個初始的 CoT 軌跡。在實驗中,設置 temperature = 0。
  • 然后使用獎勵模型確定軌跡中錯誤的位置。
  • 如果沒有錯誤,就轉向下一個軌跡。如果有錯誤,則再次向模型輸入 prompt 以執行相同的步驟,但這一次 temperature = 1,生成 8 個輸出。這里會使用同樣的 prompt 以及包含錯誤步驟之前所有步驟的部分軌跡。
  • 在這 8 個輸出中,過濾掉與之前的錯誤一樣的選項。再從剩下的輸出中選擇對數概率最高的一個。
  • 最后,用新的重新生成的步驟替換之前步驟,再重新設置 temperature = 0,繼續生成該軌跡的剩余步驟。

相比于之前的自我校正方法,這種回溯方法有諸多優勢:

  • 新的回溯方法不需要對答案有預先的知識。相反,它依賴于有關邏輯錯誤的信息(比如來自訓練獎勵模型的信息),這可以使用獎勵模型一步步地確定。邏輯錯誤可能出現在 correct_ans 軌跡中,也可能不出現在 incorrect_ans 軌跡中。 
  • 回溯方法不依賴于任何特定的 prompt 文本或措辭,從而可減少相關的偏好。 
  • 相比于需要重新生成整個軌跡的方法,回溯方法可以通過復用已知邏輯正確的步驟來降低計算成本。
  • 回溯方法可直接提升中間步驟的質量,這可能對需要正確步驟的場景來說很有用(比如生成數學問題的解),同時還能提升可解釋性。

研究者基于 BIG-Bench Mistake 數據集實驗了回溯方法能否幫助 LLM 校正邏輯錯誤。結果見表 6。

圖片

?accuracy? 是指在原始答案是 correct_ans 時,在軌跡集合上的 accuracy_ans 之差。

?accuracy? 則是對于 incorrect_ans 軌跡的結果。

這些分數結果表明:校正 incorrect_ans 軌跡的收益大于改變原本正確的答案所造成的損失。此外,盡管隨機基準也獲得了提升,但它們的提升顯著小于使用真正錯誤位置時的提升。注意,在隨機基準中,涉及步驟更少的任務更可能獲得性能提升,因為這樣更可能找到真正錯誤的位置。

為了探索在沒有好的標簽時,需要哪種準確度等級的獎勵模型,他們實驗了通過模擬的獎勵模型使用回溯;這種模擬的獎勵模型的設計目標是產生不同準確度等級的標簽。他們使用 accuracy_RM 表示模擬獎勵模型在指定錯誤位置的準確度。

當給定獎勵模型的 accuracy_RM 為 X% 時,便在 X% 的時間使用來自 BIG-Bench Mistake 的錯誤位置。對于剩余的 (100 ? X)%,就隨機采樣一個錯誤位置。為了模擬典型分類器的行為,會按照與數據集分布相匹配的方式來采樣錯誤位置。研究者也想辦法確保了采樣的錯誤位置與正確位置不匹配。結果見圖 2。

可以看到 ?accuracy? 的損失在 65% 時開始趨于穩定。事實上,對于大多數任務,在 accuracy_RM 大約為 60-70% 時,?accuracy? 就已經大于 ?accuracy? 了。這表明盡管更高的準確度能得到更好的結果,但即便沒有黃金標準的錯誤位置標簽,回溯也依然有效。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-07-05 15:06:00

2025-07-03 01:45:00

LLMCoT思維鏈

2025-04-24 10:26:40

2019-11-29 09:00:30

Windows 10過程錯誤Windows

2025-05-21 13:52:39

LLM模型

2025-03-03 09:00:00

2023-09-01 15:22:49

人工智能數據

2024-09-27 12:20:18

2009-11-24 20:04:36

PHP常見錯誤

2022-08-05 23:19:33

人工智能機器學習3D打印機

2025-06-05 11:51:14

NVIDIAProRLLLM

2025-10-10 02:00:00

2024-09-09 08:31:15

2025-05-29 09:14:17

2015-07-28 15:47:55

2025-06-03 03:15:00

2025-10-29 09:25:34

LLM模型訓練

2025-06-06 08:57:42

2024-02-01 08:34:30

大模型推理框架NVIDIA

2024-02-26 07:43:10

大語言模型LLM推理框架
點贊
收藏

51CTO技術棧公眾號

成人网18免费网站| jizz欧美| 久久女同精品一区二区| 国产盗摄xxxx视频xxx69| 中文字幕免费高清| 亚洲欧美久久精品| 午夜激情综合网| 深夜福利成人| 精品国产一级片| 野花国产精品入口| 综合国产在线视频| 中国特级黄色大片| 免费污视频在线一区| 亚洲精品菠萝久久久久久久| 久久久久久欧美精品色一二三四| 亚洲在线精品视频| 99国产精品| 久久精品一本久久99精品| 亚洲啪av永久无码精品放毛片| 欧美日韩五码| 亚洲一区二区三区中文字幕| 日韩午夜视频在线观看| 老牛影视av牛牛影视av| 日本美女视频一区二区| 97国产精品视频人人做人人爱| 一二三四在线观看视频| 婷婷综合电影| 欧美成人a视频| 五月婷婷六月丁香激情| 欧美男男激情videos| 综合电影一区二区三区| 日本午夜精品一区二区三区| 天堂国产一区二区三区| 国产精品夜夜嗨| 国产区亚洲区欧美区| 日韩和一区二区| 欧美精品成人| 久久这里只有精品视频首页| 五月婷婷六月香| 九九视频免费观看视频精品| 亚洲精品www久久久久久广东| 午夜免费视频网站| 欧美美女福利视频| 欧美视频一区二区三区在线观看| 亚洲色欲综合一区二区三区| 久久青草伊人| 亚洲福利一区二区三区| av一区二区三区免费观看| 国产在线1区| 国产精品天天看| 欧美一卡2卡3卡4卡无卡免费观看水多多| 亚洲免费一级片| 国产91精品精华液一区二区三区| 亚洲在线视频福利| 国产喷水吹潮视频www| 久草精品在线观看| 国产欧美日韩精品在线观看| 亚洲 小说区 图片区| 视频一区二区三区入口| 日韩免费av一区二区| 天天干天天操天天爱| 午夜在线一区| 国产国产精品人在线视| 69视频免费看| 日av在线不卡| 国产欧美在线观看| av免费观看在线| 国产成人激情av| 国产亚洲福利社区| 欧美午夜黄色| 国产天堂亚洲国产碰碰| 性刺激综合网| www在线免费观看视频| 一区二区三区四区av| 亚洲国产精品无码av| 手机av在线| 在线看日韩精品电影| 三上悠亚在线一区| 玖玖精品一区| 亚洲第一区在线| 在线观看福利片| 久久人人88| 久久999免费视频| 亚洲欧美在线观看视频| 日韩激情视频在线观看| 国产一区玩具在线观看| 欧美一级免费片| 久久亚洲精品小早川怜子| 亚洲va久久久噜噜噜久久狠狠| 免费网站成人| 激情亚洲一区二区三区四区| www.天天射.com| 久久久久久亚洲精品美女 | 日韩精品一卡二卡| 男人天堂欧美日韩| 91美女高潮出水| 日韩porn| 亚洲欧美日韩中文字幕一区二区三区| 欧美日韩不卡在线视频| 国产精品久久久久av电视剧| 制服视频三区第一页精品| 99久久免费看精品国产一区| 日韩影院二区| 77777少妇光屁股久久一区| 夜夜躁狠狠躁日日躁av| 99久久综合精品| 亚洲欧美日韩不卡| 亚洲精品日产| 日韩免费视频一区| 欧美黄色一级生活片| 欧美色综合网| 国产精品视频中文字幕91| 欧美特级特黄aaaaaa在线看| 最近日韩中文字幕| 97av视频在线观看| 在线精品视频一区| 色吧影院999| 亚洲黄色激情视频| 国产宾馆实践打屁股91| 亚洲午夜精品福利| 成人免费影院| 亚洲成人网在线| 久久国产波多野结衣| 久久一区精品| 狠狠色综合网站久久久久久久| 97caopron在线视频| 欧美日韩国产免费| 国产成人福利在线| 99精品久久| 99视频日韩| 国产福利视频在线观看| 欧美写真视频网站| 久久成人激情视频| 老鸭窝91久久精品色噜噜导演| 成人黄色片视频网站| 成人日韩欧美| 7799精品视频| 亚洲天堂av中文字幕| 日韩中文字幕一区二区三区| 久久久亚洲综合网站| 91豆花视频在线播放| 精品国产乱码久久久久久久| 日本中文字幕免费在线观看| 国产在线观看免费一区| 亚洲一区二区三区色| 欧美jizz18| 怡红院精品视频| 奴色虐av一区二区三区| 国产日韩v精品一区二区| 国产一区视频免费观看| 久久97视频| 国产999在线| 黄色av网址在线免费观看| 在线观看日韩精品| www..com.cn蕾丝视频在线观看免费版 | 毛片在线导航| 日韩欧美激情四射| 久久久久久久久久久久久久免费看| 国产乱人伦偷精品视频免下载| 国产大尺度在线观看| 国产一区二区三区精品在线观看| 久久国产精品久久国产精品| www.成人免费视频| 亚洲国产欧美另类丝袜| 亚洲制服丝袜在线播放| 午夜一区在线| 亚洲电影网站| 精品国产三级| 韩国日本不卡在线| 青青草免费在线视频| 在线观看91精品国产入口| 五月婷婷婷婷婷| 国产在线精品免费av| 香港三级日本三级a视频| 农村少妇一区二区三区四区五区| 91高清免费在线观看| eeuss影院在线播放| 欧美一区二区三区四区高清| 国产精品99精品无码视| 久久久影院官网| 蜜臀一区二区三区精品免费视频| 综合激情婷婷| 免费av在线一区二区| 国产精品伦一区二区| 久久国产天堂福利天堂| 视频一区二区三区在线看免费看| 欧洲视频一区二区| 成人免费视频网站入口::| www.视频一区| 欧美男女交配视频| 激情综合自拍| 色阁综合av| 成人在线超碰| 日韩av不卡电影| 亚洲妇熟xxxx妇色黄| 亚洲精品一区中文| av片免费播放| 色综合久久精品| 天天综合天天做| 国产午夜精品一区二区三区视频 | 成人午夜视频网站| 欧美亚洲日本在线观看| 亚洲国产裸拍裸体视频在线观看乱了中文| 欧美午夜精品久久久久久蜜| 日韩三级久久| 国产精品第三页| 电影k8一区二区三区久久| 亚洲日韩中文字幕| 亚洲av综合色区无码一区爱av| 欧美专区亚洲专区| 日韩av在线天堂| 亚洲精品免费播放| 日韩免费成人av| 99精品国产视频| 日本中文字幕在线不卡| 男女男精品网站| 男人亚洲天堂网| 欧美日韩99| 精品一区二区成人免费视频| 国产真实有声精品录音| 久草热久草热线频97精品| 一区二区日韩| 亚洲综合精品一区二区| 久久久久毛片| 国产不卡av在线免费观看| 白白色在线观看| 欧美成人免费在线观看| av在线二区| 亚洲日本成人女熟在线观看| 神马久久久久久久久久| 欧美成人一区二区三区在线观看 | 免费网站在线观看人| 久久影院模特热| 国产福利在线播放麻豆| 日韩一二三在线视频播| av片在线免费观看| 国产午夜精品美女视频明星a级| 香蕉视频网站在线| 亚洲国产成人一区| 日韩一级免费毛片| 欧美精品一区男女天堂| 亚洲毛片欧洲毛片国产一品色| 日韩视频在线你懂得| 国产美女自慰在线观看| 69av一区二区三区| 国产精品主播一区二区| 在线电影一区二区三区| 国产尤物视频在线观看| 8v天堂国产在线一区二区| 国产精品久久久久久久久毛片 | 香蕉视频一区二区三区| 精品国产区在线| 日韩a级大片| 免费国产一区二区| 成人在线免费观看网站| 亚洲欧洲日本国产| 99久久综合| 五月天激情图片| 精品福利av| 国产日产欧美视频| 日韩va欧美va亚洲va久久| 欧美特级aaa| 美国十次了思思久久精品导航| www.国产视频.com| 国产a级毛片一区| 少妇户外露出[11p]| 日本一区二区三区国色天香| 九一在线免费观看| 亚洲乱码一区二区三区在线观看| 欧美交换国产一区内射| 午夜精品福利久久久| 久久精品无码av| 欧美日韩午夜在线| 精品国产亚洲av麻豆| 日韩精品中文字幕久久臀| 成人在线视频成人| 久久中文字幕一区| 高潮在线视频| 国产男人精品视频| 澳门成人av| 欧美中文娱乐网| **女人18毛片一区二区| 日韩中文字幕在线免费| 日韩在线播放一区二区| 日本亚洲一区二区三区| wwwwww.欧美系列| 97精品在线播放| 五月天视频一区| 亚洲视频一区二区三区四区| 欧美v亚洲v综合ⅴ国产v| 黄色在线视频观看网站| 欧美精品做受xxx性少妇| 樱花草涩涩www在线播放| 国产免费一区视频观看免费 | 国产一区二区三区在线观看精品| 美女黄色一级视频| 国产精品久久久久久久久果冻传媒| 欧美日韩亚洲国产另类| 一本久久a久久免费精品不卡| 国产女18毛片多18精品| 亚洲日韩欧美视频一区| 啦啦啦中文在线观看日本| 国产精品男女猛烈高潮激情| 成人午夜大片| 免费成人深夜夜行网站视频| 免费日韩视频| 中文字幕乱码在线人视频| 国产日本欧洲亚洲| 国产无套内射又大又猛又粗又爽| 欧美日韩国产一二三| 人人九九精品| 久久久久久久久网站| 日韩一区二区三免费高清在线观看| 麻豆成人在线播放| 亚洲一级黄色| 人妻巨大乳一二三区| 国产精品久久久久影院| 中文字字幕在线中文| 日韩欧美国产一区二区在线播放| av在线之家电影网站| 日本成人黄色片| 欧美黑白配在线| 日韩欧美精品免费| 国产一区二区精品久久| 黄色片网站在线播放| 一本高清dvd不卡在线观看| 欧美一级视频免费| 久久久久久久久久久久av| 麻豆一区在线| 影音先锋男人的网站| 美女网站一区二区| 我想看黄色大片| 在线观看欧美精品| 国产一级片在线| 国产成人精品一区二区| 亚洲bt欧美bt精品777| 国产69精品久久久久久久| 国产ts人妖一区二区| 欧美高清视频一区二区三区| 777xxx欧美| 国产成人l区| 亚洲最大的成人网| 欧美一区成人| 韩国三级在线播放| 一区二区在线观看免费| 国产成人精品亚洲精品色欲| 萌白酱国产一区二区| 涩爱av色老久久精品偷偷鲁 | 亚洲影院免费| 久久丫精品国产亚洲av不卡| 狠狠躁夜夜躁人人爽超碰91| 亚洲日本中文字幕在线| 4438全国成人免费| 久久99久久人婷婷精品综合| www黄色av| 国产女同性恋一区二区| 中文区中文字幕免费看| 综合网日日天干夜夜久久| 国产成人77亚洲精品www| 中文字幕一区二区三区在线乱码| 国产又粗又猛又爽又黄91精品| 五月婷婷一区二区| 精品国产乱码久久久久久免费| av在线播放资源| 久久爱av电影| 青娱乐精品视频| 午夜精品福利在线视频| 日韩一区二区三区免费观看| 高清电影在线免费观看| 久久福利电影| 免费不卡在线观看| 粉嫩av性色av蜜臀av网站| 亚洲精品一区二区三区蜜桃下载| 色偷偷偷在线视频播放| 日韩资源av在线| 激情综合亚洲精品| 久久精品免费在线| 亚洲欧美国产精品专区久久| 日韩护士脚交太爽了| 91成人综合网| 国产午夜亚洲精品午夜鲁丝片| 国产美女精品视频国产| 2019中文字幕在线| 色乱码一区二区三区网站| 少妇精品无码一区二区| 日韩欧美在线网址| 麻豆电影在线播放| 精品国产乱码久久久久软件| 免费观看成人av| 成人免费看片98| 影音先锋日韩有码| 国产厕拍一区| 国产九九热视频| 午夜欧美视频在线观看 | 欧美精品videos| 国产精品一区二区av交换| 在线观看你懂的视频| 91激情在线视频| 草美女在线观看| 亚洲欧洲日夜超级视频|