精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

COLM 24 | 從正確中學習?大模型的自我糾正新視角

人工智能 新聞
大型語言模型(LLMs)雖然進展很快,很強大,但是它們仍然存在會產生幻覺、生成有害內容和不遵守人類指令等問題。

本文作者來自香港城市大學和華為諾亞方舟實驗室。其中,第一作者姚宇璇是香港城市大學計算機系的二年級博士生,研究方向涉及大模型的復雜推理和生成,師從宋林琦教授。吳涵,郭志江是華為諾亞方舟實驗室研究員。

大型語言模型(LLMs)雖然進展很快,很強大,但是它們仍然存在會產生幻覺、生成有害內容和不遵守人類指令等問題。一種流行的解決方案就是基于【自我糾正】,大概就是看自己輸出的結果,自己反思一下有沒有錯,如果有錯就自己改正。目前自己糾正還是比較關注于讓大模型從錯誤中進行學習。更多相關內容可以參考這篇 TACL 的 survey [1]。

但是呢,現有的很多自我糾正的方法依賴于復雜的 prompt engineering,人類反饋,或外部工具,但這些方法往往比較麻煩(試 prompt),不穩定(換了個模型 prompt 可能就要修改了),昂貴(人類反饋很貴的),增加時延(要調用不同的外部工具)。為了克服這些限制,本文提出了一種無需 prompt engineering 也無需外部反饋的方法 ——Learning from Correctness(LeCo,是的,作者們是樂高愛好者 XD),我們想倒反天罡,從正確而不是錯誤中進行學習,讓自己變得更強大。

  • 論文鏈接:https://arxiv.org/pdf/2403.19094arxiv.org/pdf/2403.19094
  • 代碼鏈接:https://github.com/starrYYxuan/LeCo

一句話總結:LeCo 通過大模型自己生成的推理步驟進行自我糾正,無需人類反饋,手工提示和外部工具。其核心思想就是:模型如果知道更多的正確推理步驟,那他的搜索空間就可以壓縮,從而更有高效地找到完整的正確推理路徑。LeCo 為每個推理步驟計算置信度分數,通過分數給推理步驟打分,低分的推理步被視為潛在錯誤,之前的步驟被視為正確。通過將這些正確步驟附加到輸入中,模型可以逐步接近正確答案。如下圖所示,LeCo 首先得到對當前問題的解(左邊 output), 然后我們逐漸去收集正確的推理步驟知道得到最后正確的解。這種漸進式學習方法不僅提高了推理準確性,還減少了 tokens 消耗(窮人友好)和迭代次數(和投票,從錯誤中學習相比)。

圖片

LeCo 方法示意圖

如何找出正確的推理步驟?

一些預設知識:在生成任務中,logits 代表候選詞被選為下一個詞的對數概率。另一方面,置信度指的是模型對其預測的確定性。在推理任務中,我們提出步驟置信度來衡量模型對每個推理步驟的正確性的置信度。于是我們設計了三種基于 logits 的評分,從單步推理步和不同推理步出發,全面評估每個推理步驟的置信度。

方法:為了找出大模型自己生成的正確推理步驟,本文開發了一種基于生成 logits 的高效方法來測量每個推理步驟的置信度,無需額外標注或工具。通過綜合考慮每個步驟中的平均置信度、步驟置信度差異和步驟傳遞概率,LeCo 能識別出近 65% 的錯誤步驟。具體來講,我們的置信度設計考慮了 3 個不同的角度:

單步置信度(average token score):一種簡單的方法來衡量步驟置信度是平均計算某一步中的 token 概率。這個平均值反映了模型在該步驟中推理的確定性。單步置信度定義為:

圖片

單步散度分數 (step divergence score):雖然平均 token 概率看似直觀,但它可能會產生誤導。在一個步驟中,大多數 token 通常是常見詞匯,具有高置信度分數,但攜帶的信息很少。相反,對于推理至關重要的 token,例如數學計算,通常置信度較低。這種矛盾導致整個步驟的平均 token 置信度偏高。為了解決這個問題,本文提出了 Step Divergence Score。這個指標測量了步驟中標記概率的分布均勻性。理想情況下,正確的推理步驟 token 概率不僅高,而且在所有 token 之間均勻分布。為此我們定義了 token 概率的歸一化分布

圖片

和均勻分布 U 來設計:

圖片

步間轉移分數 (Inter-step Transition Score) : 在步驟內部測量之后,我們尋求量化連續步驟之間的轉換。初步實驗發現了兩個關鍵點:

(1)整體置信度較低的步驟傾向于在初始的幾個 tokens(通常是前三個)中具有較低的置信度,更多討論可以在附錄中找到。

(2)這些初始的幾個 tokens 也是在不同程序運行中最有可能改變的。基于這些觀察,我們建議使用步驟中的開頭的借個 tokens 概率來表示該步驟和下一個步驟之間的交叉轉換分數。換言之,轉換分數:

圖片

結合以上三個分數,我們可以得到針對每個推理步驟的置信分數:

圖片

LeCO:從正確的推理步中學習

好了,現在我們已經擁有了衡量推理步置信分數的方法,現在只需要迭代式地收集正確的推理步驟,優化搜索空間去拿到最后的正確推理路徑。LeCo 分為兩個階段:

  • 初始階段(Initial Stage):用任何 CoT 的方法生成一個初始的解即可,要求就是需要這個解是有推理步驟的。
  • 反思階段(Rethink Stage):拿到這個解之后,我們用上述方法去計算每個推理步驟。然后選擇分數最低的那個步驟作為 “犯錯的第一步”。之前的的推理步驟我們都認為是 “正確的步驟”。然后我們將正確的步驟也作為輸入給到大模型去進行推理。

LeCo 就是在推理和反思兩個階段交替進行直到達到停止的條件。我們設置的條件有兩個:1. 達到最大的迭代次數;2. 連續兩次的解都是一致的。

LeCo 算法總結如下:

圖片

實驗結果

我們使用 LeCo 在推理任務上面進行了驗證,包括邏輯推理,常識推理和數學推理。對比的基線系統包括了也是需要多次推理的 Self-Consistency(SC [2]),Adaptive Consistency(ADPSC [3])和 Recursively Criticizes and Improves(RCI [4],從錯誤中學習):

圖片

表 1:LeCo 在邏輯,常識和數學推理上面的性能表現

圖片

表 2:LeCo 在需要更加復雜的推理 MATH 上的表現

從上面的兩個表格中我們可以看到:

  • LeCo 的普適性:適用于不同的模型(GPT3.5,GPT4,DeepSeek)和不同的 CoT 方法(Initial Stage 用的);
  • LeCo 的性能提升:在不同類型的推理任務上面都有提升,越難的任務,需要越多推理步驟的任務提升越多(比如 MATH);
  • LeCo 的效率提升:如下兩個表格所示,LeCo 除了在各種任務上對性能有一定提升之外,所消耗的 token 數量更少(如:比 self-consistency 低 80%),并且所需的迭代輪數更低。

圖片

表 3:LeCo 和不同方法的 Token 消耗比較

圖片

表 4:LeCo 和不同方法的迭代次數比較

人工分析:為了進一步驗證 LeCo 是否真的能識別到推理中正確的步驟,本文人工標注了 100 題 GSM8K,找出推理過程中正確和錯誤的時間步。Exact Correct 表示 LeCo 能精確定位到第一步犯錯的步驟,Partial Correct 表示定位在 1 步的誤差范圍內,Wrong 表示定位誤差范圍大于 1 步。總體來說,LeCo 可以通過計算置信度的方式而無需外部信息較為準備地找出正確和錯誤的步驟,不過仍然存在提升空間。

圖片

表 5:不同方法計算推理步驟置信度的準確率(人工分析 100 題)

總結

1. 本文提出了一種新的多步推理范式,稱為從正確中進行學習(LeCo),通過逐步積累正確步驟接近最終答案;

2. 本文挑戰了高質量反饋只能來自外部的觀點,并提出了一種僅僅使用模型自身的 confidence score 來近似每個推理步驟的正確性的方法;

3. 無論是開源和閉源模型,都可以在各種多步推理任務中從 LeCo 中獲益,同時減少 token 和迭代輪次的消耗。更令人振奮的是,和我們的題目一樣,LeCo 消除了 rethink 階段重新編寫 prompt 的需求。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-10-22 14:21:21

模型LLM數據

2025-11-14 09:45:09

AI模型框架

2015-09-10 13:28:51

暢享網

2023-11-23 07:41:54

因果推斷大模型

2025-10-17 09:00:00

AI模型代碼

2009-03-12 08:52:12

瀏覽器競爭

2009-03-26 09:16:34

微軟裁員職位

2021-09-14 09:52:56

ToB小程序生態評估

2024-09-24 10:45:59

數據模型數據飛輪

2024-09-26 19:25:21

數據飛輪數據中臺數據技術

2024-07-31 15:36:00

2012-10-16 10:41:31

云計算應用架構

2024-09-10 09:36:26

2024-09-26 16:51:33

2022-12-09 10:00:23

2024-02-29 12:23:54

AI數據

2021-12-17 10:09:47

編碼器語言模型DeepMind

2024-10-31 14:40:00

模型AI

2025-07-15 08:50:00

AI模型訓練

2024-11-04 00:24:56

點贊
收藏

51CTO技術棧公眾號

91精品一久久香蕉国产线看观看| 第一福利在线| 亚洲三级视频| 国产亚洲一区精品| japan高清日本乱xxxxx| 国产夫妻在线播放| 欧美激情一区三区| 96sao精品视频在线观看| 日韩 欧美 精品| 欧美理论在线播放| 精品国产污污免费网站入口 | 蜜桃视频在线观看网站| 麻豆国产欧美日韩综合精品二区| 久久久久久噜噜噜久久久精品| 欧美多人猛交狂配| 成人18夜夜网深夜福利网| 欧美性色综合网| 国产精品又粗又长| 蜜芽在线免费观看| 91丨porny丨国产| 91成人免费观看| 成人免费一区二区三区| 亚洲欧洲日本mm| 久久国产精品影视| 日本二区在线观看| 香蕉久久夜色精品国产更新时间| 欧美一区二区三区不卡| 在线免费观看av的网站| 咪咪网在线视频| 亚洲一区在线看| 最近看过的日韩成人| 精品视频一二三| 99re视频精品| 国产欧美日韩综合精品二区| 国产精品久久久久久久久久久久久久久久| 亚洲欧美日韩精品一区二区| 美日韩丰满少妇在线观看| 秋霞网一区二区三区| 一区二区美女| 亚洲精品videossex少妇| 熟女人妻一区二区三区免费看| 先锋影音网一区二区| 欧美三级蜜桃2在线观看| 欧美日韩在线中文| 亚洲美女炮图| 调教+趴+乳夹+国产+精品| 国产精品视频二| 久久久123| 亚洲一区二区三区视频在线 | 在线日韩中文| 色综合老司机第九色激情 | 欧美久久视频| 欧美乱妇40p| 一区视频免费观看| 欧美福利一区| 欧美激情精品久久久久久黑人| 免费国产羞羞网站美图| 91精品天堂福利在线观看| 色婷婷综合成人| 国产精品国产三级国产传播| 无码一区二区三区视频| 久久网福利资源网站| 成人性生活毛片| 欧美日韩国产成人精品| 97精品久久久| 区一区二在线观看| 日本亚洲免费观看| 91久久久在线| 欧美一级片免费| www国产成人免费观看视频 深夜成人网| 久久综合一区| 成人免费在线观看| 亚洲视频在线一区| 久久精品xxx| 成人美女黄网站| 欧美日韩国产一区二区三区地区| 黄色片免费网址| 国内精品麻豆美女在线播放视频| 亚洲欧美国产一区二区三区| 男人天堂资源网| 欧美日韩综合| 国产精品av在线播放| 国产乱码精品一区二三区蜜臂| 国产1区2区3区精品美女| 久久一区免费| 老司机福利在线视频| 亚洲狠狠爱一区二区三区| 免费观看精品视频| 国产精品成人**免费视频| 日韩免费观看高清完整版在线观看| 妖精视频一区二区| 欧洲乱码伦视频免费| 欧美噜噜久久久xxx| 一级黄色大片视频| 国产一区免费电影| 欧美一区观看| 人交獸av完整版在线观看| 色综合久久精品| 免费看的av网站| 成人午夜国产| 91国内精品久久| 国产理论视频在线观看| 久久午夜色播影院免费高清| 大陆极品少妇内射aaaaaa| 成人做爰视频www网站小优视频| 日韩一级免费一区| 国产精品美女高潮无套| 亚洲福利精品| 2022国产精品| av在线之家电影网站| 亚洲成a人v欧美综合天堂下载 | 成人18视频在线观看| 亚洲成人999| 中文字幕av免费在线观看| 久久久成人网| 狠狠色狠狠色综合人人| 国产淫片在线观看| 欧美三日本三级三级在线播放| 欧美大喷水吹潮合集在线观看| 久久综合国产| 国产精品99久久久久久白浆小说| 婷婷丁香花五月天| 亚洲一区视频在线观看视频| 九九热免费在线观看| 综合伊思人在钱三区| 久久久久免费视频| 国产理论视频在线观看| 国产精品卡一卡二| 男女爽爽爽视频| 亚洲国产欧美日韩在线观看第一区 | 黄视频在线免费看| 日韩小视频在线观看专区| 国产真人真事毛片视频| 视频一区国产视频| 免费h精品视频在线播放| 91超碰在线免费| 亚洲的天堂在线中文字幕| 欧美人妻一区二区| 国产精选一区二区三区| www.午夜色| 成人自拍视频| 久久视频在线免费观看| 国产男女猛烈无遮挡| 亚洲欧美在线视频| 久久精品视频在线观看免费| 你懂的成人av| 99re在线观看视频| 国产嫩草在线视频| 日韩av影院在线观看| 91国产丝袜播放在线| 成人国产视频在线观看| 秋霞无码一区二区| 五月天亚洲色图| 国产激情久久久久| 色视频在线免费观看| 欧美美女一区二区三区| 久久精品一区二区三区四区五区| 国产自产v一区二区三区c| 韩国黄色一级大片| 亚洲一区网址| 亚洲 日韩 国产第一| 亚洲AV成人无码一二三区在线| 欧美日韩在线第一页| 色一情一交一乱一区二区三区| 首页国产欧美久久| 亚洲在线观看一区| 国产精品1区| 久久久久久久久国产精品| 亚洲日本香蕉视频| 欧美日韩久久不卡| 国产极品在线播放| 久久久久久久久久久久久夜| 欧美日韩怡红院| 伊人久久大香线蕉综合四虎小说| 肥熟一91porny丨九色丨| 亚洲欧美韩国| 北条麻妃久久精品| 亚洲精品国产精| 色综合久久久久综合体| 999精品在线视频| 99热在这里有精品免费| 日本xxxx黄色| 红桃视频亚洲| 天堂精品视频| aaa国产精品| 国产精品美女主播在线观看纯欲| 91中文在线| 亚洲美女又黄又爽在线观看| 国产精品无码久久av| 精品久久久在线观看| 国产小视频你懂的| 99久久久久久99| 一本一道久久a久久综合蜜桃| 亚洲五月婷婷| 一区二区高清视频| 日韩精品a在线观看91| 国产欧美日韩中文字幕| 人成在线免费网站| 久久久精品国产| 九色网友自拍视频手机在线| 欧美一级艳片视频免费观看| 无码人妻精品一区二| 亚洲最新视频在线观看| 亚洲一级片在线播放| 成人h动漫精品一区二区| 欧美一级xxxx| 美女久久一区| 欧美精品久久久久久久自慰 | 日韩有码在线播放| 三级理论午夜在线观看| 欧美一区二区在线视频| 老熟妇一区二区三区啪啪| 五月天中文字幕一区二区| 中文乱码字幕高清一区二区| 久久亚洲免费视频| 性活交片大全免费看| 韩国一区二区在线观看| 五月婷婷深爱五月| 久久国产欧美| 91av资源网| 136国产福利精品导航网址| 男人天堂成人网| 欧美国产偷国产精品三区| 欧美色图亚洲自拍| 欧美aaaaa级| 国产精品中出一区二区三区| 警花av一区二区三区| 国产欧美精品一区二区三区-老狼| 夜鲁夜鲁夜鲁视频在线播放| 69影院欧美专区视频| 国内高清免费在线视频| 欧美激情18p| 欧美男男video| 欧美日韩国产成人| av激情在线| 久久99久久久久久久噜噜| av免费在线观| 欧美高清第一页| 性xxxxfjsxxxxx欧美| 另类图片亚洲另类| 制服丝袜在线播放| 久久777国产线看观看精品| 国产视频中文字幕在线观看| 久久在线免费观看视频| 成人av福利| 色综合男人天堂| 538在线视频| 98精品在线视频| 中文字幕在线看片| 国产精品69久久久久| 亚洲a∨精品一区二区三区导航| 国产精品久久中文| 亚洲欧洲日韩精品在线| 95av在线视频| 精品午夜电影| 麻豆91蜜桃| 久久电影院7| 国产高潮呻吟久久久| 亚洲激情五月| 日韩av中文字幕第一页| 在线综合亚洲| 欧美伦理片在线观看| 国产一区二区三区在线观看免费| 亚洲 自拍 另类 欧美 丝袜| 成人午夜视频免费看| 亚洲国产第一区| 国产欧美日韩另类一区| 欧美激情精品久久久久久免费| 一区二区三区精品| 日韩在线视频免费播放| 欧美亚洲丝袜传媒另类| av中文字幕观看| 亚洲国产另类久久精品| 国产高清av在线| 久久99精品国产99久久6尤物 | 欧美午夜片欧美片在线观看| av首页在线观看| 欧美一级搡bbbb搡bbbb| 亚洲欧美日韩免费| 久久精品一区中文字幕| yellow在线观看网址| 国产精品视频网站| 第一区第二区在线| 欧美日韩综合网| 国产综合久久| 在线观看免费成人av| 粉嫩一区二区三区性色av| 一区二区黄色片| 亚洲激情中文1区| 波多野结衣视频免费观看| 欧美一级黄色片| 国产午夜精品一区理论片| 久久福利网址导航| 在线成人视屏| 精品国产一区二区三区四区精华| 欧美偷拍综合| 日本一道本久久| 国产一区二区导航在线播放| 偷拍女澡堂一区二区三区| 亚洲美女一区二区三区| 亚洲不卡在线视频| 精品99999| 美女黄视频在线观看| 欧美中文字幕第一页| 五月亚洲婷婷| 亚洲砖区区免费| 快she精品国产999| 97人妻精品一区二区三区免费 | 欧美一级黄视频| 亚洲激情自拍图| 秋霞在线午夜| 成人综合国产精品| 欧洲三级视频| 成人一级片网站| 成人av在线资源网站| 少妇aaaaa| 欧美精品少妇一区二区三区 | 国产精品区一区二区三| 人人爽人人爽人人片av| 亚洲精品720p| 高清在线视频不卡| 国产精品swag| 欧美色综合网| 亚洲v在线观看| 亚洲美女屁股眼交| 国产精品视频在线观看免费 | 日本视频精品一区| 乱码第一页成人| 久久人人妻人人人人妻性色av| 亚洲综合自拍偷拍| www三级免费| 久久91精品国产91久久久| 精品入口麻豆88视频| 中文字幕欧美日韩一区二区三区| 美女mm1313爽爽久久久蜜臀| 久久久久无码精品国产sm果冻| 色偷偷久久一区二区三区| 免费在线稳定资源站| 18久久久久久| 欧美一级一片| 一区二区传媒有限公司| av爱爱亚洲一区| www.毛片.com| 亚洲视频综合网| 亚洲精品.com| 先锋在线资源一区二区三区| 日本免费新一区视频 | 亚洲国产一区在线观看| 免费观看的毛片| 欧美亚洲另类在线| 亚洲区小说区图片区qvod| 91av在线免费播放| 国产喷白浆一区二区三区| 中文字幕在线天堂| 在线播放亚洲激情| 国产精品日韩精品在线播放| 老司机午夜网站| 成人一区二区三区| 亚洲另类在线观看| 在线视频欧美日韩| 97久久中文字幕| 欧美日韩激情四射| 91麻豆蜜桃一区二区三区| 国产一级片免费视频| www.久久色.com| 51vv免费精品视频一区二区 | 国产一级做a爰片在线看免费| 欧美精品一区二区久久久| 台湾佬成人网| 中文字幕精品—区二区日日骚| 高清视频一区二区| 中文字幕高清在线免费播放| 久久精品久久久久久| 911亚洲精品| 欧美黄色一级片视频| 亚洲免费观看在线视频| 天堂网av在线播放| 国产精品视频久久久| 激情婷婷久久| 99久久精品免费视频| 日韩欧美成人激情| 欧美电影网址| 亚洲五码在线观看视频| 26uuu色噜噜精品一区| 一级片视频免费| 91精品国产精品| 欧美成人自拍| 欧美精品欧美极品欧美激情| 欧美日韩一区二区在线视频| 毛片网站在线看| 亚洲欧洲另类精品久久综合| 粉嫩13p一区二区三区| 国产无遮挡又黄又爽又色视频| 欧美成人精品在线视频| 亚洲综合小说图片| 日本wwwwwww| 欧美日韩精品专区| 精品国产免费人成网站| 黄网站色视频免费观看| 亚洲国产成人私人影院tom|