精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

完全使用「自生成數據」實現LLM自我糾正,DeepMind新突破SCoRe:糾正性能提升15.9%

人工智能
Google DeepMind的SCoRe方法通過在線多輪強化學習,顯著提升了大型語言模型在沒有外部輸入的情況下的自我修正能力。該方法在MATH和HumanEval基準測試中,分別將自我修正性能提高了15.6%和9.1%。

OpenAI最新發布的o1模型再次證明了自我糾正、顯式思考過程在大模型推理中的重要性,思維鏈可以幫助大模型分解復雜問題,利用計算和交互來改進模型在測試時的性能。

不過,最近有多項研究結果表明,大模型在缺乏外部輸入的情況下,基本上無法實現自我糾正,而現有的自我糾正訓練方法要么需要多個模型,要么依賴更強大的模型或其他形式的監督信號。

Google DeepMind的研究人員發布了一種多輪在線強化學習(RL)方法 SCoRe,在完全使用自生成數據(entirely self-generated data)的情況下,顯著提高了LLM的自我糾正能力。

圖片圖片

論文鏈接:https://arxiv.org/pdf/2409.12917

研究人員首先驗證了有監督微調 (SFT) 及其變體得到的離線模型,生成的糾正軌跡(correction traces)不足以把自我糾正能力灌輸(still)給語言模型。

還可以觀察到,通過 SFT 進行的訓練要么會受到訓練數據與模型本身回復之間分布不匹配的影響,要么會傾向于某種在測試時無效的糾正模式。

SCoRe 通過在模型本身的自生成糾正軌跡分布下進行訓練,并使用適當的正則化來引導學習過程,來學習在測試時有效的自我糾正策略,而非簡單地根據給定提示來擬合高獎勵回復,從而解決了前面提到的難題。

圖片圖片

在基本模型上運行強化學習的第一階段進行正則化,防止生成容易崩潰的策略初始化,然后使用額外獎勵來放大訓練期間的自我糾正信號。

在實驗階段,把SCoRe應用于Gemini 1.0 Pro和1.5 Flash模型時,該策略的自我糾正性能最高,在MATH和HumanEval基準上分別將基礎模型的自我糾正性能提高了15.6%和9.1%。

如何把自我糾正能力注入到大模型中?

之前嘗試實現自我糾正的大模型要么依賴于提示工程,要么需要專門針對自我糾正進行微調模型,兩種方法都有缺陷:提示工程無法有效地執行有意義的內在自我糾正,而基于微調的方法需要在推理時運行多個模型,比如需要一個額外的驗證器或優化(refinement)模型,或是一個預言模型(oracle)來指導自我糾正的過程。

研究人員提出的基于強化學習實現自我糾正(SCoRe, Self-Correction via Reinforcement Learning)只需要訓練一個模型,既可以對推理問題產生回復,也可以在沒有接收到任何預言信號(oracle)反饋的情況下糾正錯誤,SCoRe完全在自生成的數據上訓練,而不需要任何預測器來指導模型。

文中首先研究了現有基于微調策略在這種設置中的失敗模式,可以觀察到,在多輪自我糾正軌跡上運行有監督微調,結合拒絕采樣,通常會放大模型的偏見,雖然與基礎模型的自我糾正行為相比有顯著改進,但仍未能達到積極的自我修正率,并且與第一次嘗試相比,第二次嘗試的表現更差。

圖片圖片

通過對訓練過的模型進行探測,研究人員發現這些失敗在很大程度上源于有監督微調放大了基礎模型的初始偏見,導致模型只能對第一次嘗試回復進行微小的編輯變化。

圖片圖片

SCoRe策略

SCoRe通過使用在線多輪強化學習(RL)來解決SFT方法的缺陷,即在自生成的數據上運行多輪RL,以避免訓練和推理之間分布不匹配。

圖片圖片

為了避免在基于策略的數據上訓練時學習最小編輯策略的失敗模式,研究人員分兩個階段訓練SCoRe,每個階段都通過正則化學習過程來防止行為崩潰(collapse its behavior)。

第一階段

SCoRe第一階段的目標是通過提高基礎模型對第二次嘗試回復的覆蓋范圍,從而獲得良好的模型初始化,以便后續的自我糾正訓練不易受到STaR/SFT崩潰的影響。

由于SFT訓練模型僅依賴于一種修正行為模式,因此SFT初始化不會生成有信息量和探索性的學習軌跡,所以研究人員不使用SFT來初始化RL訓練,而是開發第一階段來產生一個不易崩潰的單獨初始化。

為此,需要明確地對基礎模型進行微調,以在第二次嘗試時產生高獎勵的糾正信號,同時通過使用KL散度將第一次嘗試的回復分布約束得盡可能接近基礎模型,限制模型不會改變第一次嘗試回復的內容。

雖然這個策略看起來是次優的,但第一階段的主要目標是減少基礎模型簡單地耦合第一次和第二次嘗試分布的偏見,防止在實際運行多輪RL時陷入局部最優,優化目標為:

圖片

第二階段

運行多輪強化學習來優化兩次嘗試的獎勵,同時使用一個額外獎勵項(reward bonus term)來激勵模型以改進回復。初始化和額外獎勵都可以確保模型不只是簡單地學會在第一次生成的時候模仿最佳回復內容,然后再進行一些微小的文本編輯。

圖片

從效果來看,SCoRe能夠從基礎模型中引出知識,以實現積極的自我修正。

實驗評估

研究人員的目標是證明SCoRe在通過訓練自身生成的數據可以有效地教導大型語言模型來糾正自己的錯誤,并深入分析SCoRe的每個組成部分對于這種能力的貢獻。

任務

主要關注數學和編程任務:MATH數據集上的數學問題,以及MBPP和HumanEval上的代碼生成任務。

評估協議和指標

研究人員主要報告了自我糾正的準確性,有兩次連續的問題嘗試,即一輪自我糾正。

對于MBPP的評估協議,文中報告了MBPP-R的結果。MBPP-R是一個離線修復任務,需要修正PaLM 2生成的錯誤的第一次嘗試程序。

模型

MBPP上的所有實驗使用微調Gemini 1.0 Pro;MATH的實驗微調Gemini 1.5 Flash

對于所有評估結果,使用貪婪解碼(即溫度0)的推理計算擴展,將溫度設置為0.7

對于每個訓練方法,使用固定的模型樣本和梯度更新budget,在運行期間不改變學習率和批量大小等超參數;在強化學習時,選擇訓練獎勵最高的檢查點。

評估提示

在MATH上使用零樣本CoT提示進行評估,在HumanEval上使用零樣本提示進行評估,并在MBPP上使用三樣本提示進行第一次嘗試訓練樣本;

圖片圖片

在第二次嘗試時,使用一個不透露之前答案正確性的指令,要求模型嘗試推斷其第一次嘗試回復中是否存在錯誤,如果存在錯誤,需要重寫回復。

對比基線

基于提示的方法Self-Refine;基于微調的方法Pair-SFT及多輪STaR,通過最小化合成配對糾正軌跡和成功糾正軌跡上的負對數似然來微調模型。

基準結果

MATH

實驗結果顯示,SCoRe在直接和自我糾正準確率方面都表現出顯著更強的性能。

圖片

圖片

值得注意的是,內在自我糾正增益Δ(t1, t2)為4.4%,是第一個顯著為正的增量,并且準確率Accuracy@t1更高,所以需要修正的錯誤問題更少。

與基礎1.5 Flash模型相比,SCoRe將Δ(t1, t2)提高了15.6%,將Accuracy@t2提高了23.0%,比最接近的基線Pair-SFT分別提高了10.2%和2.6%

通過觀察問題從第一次嘗試不正確變為第二次嘗試正確的頻率,可以看到SCoRe提高了修正錯誤答案的比率(14.5% vs 基礎模型9.5%),并減少了改變正確答案的比例。

代碼生成

研究人員發現SCoRe不僅實現了更高的自我糾正性能,而且還具有強大的離線修復性能。

對于MBPP-R,發現SCoRe將基礎模型的準確率從47.3%提高到60.6%,與GPT-3.5到GPT-4之間的差距相當(分別為42.9%和63.2%)。

雖然模型僅在MBPP上進行訓練,仍然可以觀察到SCoRe有效地泛化到了HumanEval基準,實現了12.2%的內在自我糾正增量,比基礎模型高出9%

相比之下,Pair-SFT在靜態糾正任務MBPP-R上的表現幾乎和SCoRe一樣好,但在自我糾正設置評估時實際上降低了基礎模型的性能,證明了自我糾正中基于策略采樣的重要性。

參考資料:https://x.com/_philschmid/status/1837121100196594084

責任編輯:武曉燕 來源: 新智元
相關推薦

2025-03-03 09:00:00

2021-12-17 10:09:47

編碼器語言模型DeepMind

2023-10-22 14:21:21

模型LLM數據

2023-11-27 13:19:54

模型訓練

2025-10-09 00:00:00

Neo4jLLMs結構化

2010-07-27 11:19:18

Flex

2022-08-05 23:19:33

人工智能機器學習3D打印機

2025-07-15 08:50:00

AI模型訓練

2025-10-17 09:00:00

AI模型代碼

2024-09-18 09:50:00

大模型AI

2023-06-12 12:21:27

研究框架

2025-05-30 10:50:27

2024-02-02 17:04:35

UCLALLMGPT-4

2023-07-04 14:01:26

GPT-4模型

2009-11-24 20:04:36

PHP常見錯誤

2024-11-28 13:40:00

模型訓練

2024-09-05 11:26:08

人工智能

2022-12-29 08:17:57

AIAI人工標注ChatGPT

2015-07-28 15:47:55

2025-03-24 09:35:00

點贊
收藏

51CTO技術棧公眾號

亚洲精品aⅴ| 二区在线播放| 日韩av中文字幕一区二区| 亚洲人午夜精品| 亚洲精品怡红院| 亚洲成人影院麻豆| 国产精品影视天天线| 91地址最新发布| 久久视频精品在线观看| 奇米一区二区| 黑丝美女久久久| 亚洲精品国产精品国自产| 精品人妻无码一区二区三区蜜桃一| 国产精品久久| 中文字幕亚洲一区二区三区| 手机看片国产精品| 韩国久久久久久| 亚洲精品福利视频网站| 欧美一进一出视频| 亚洲精品人妻无码| 蜜桃精品在线观看| 97视频在线观看成人| 少妇一级黄色片| 国产96在线亚洲| 欧美体内she精视频| 国产精品av免费观看| 岛国在线视频| 成人免费视频免费观看| 国产精品爽爽爽| 日本三级午夜理伦三级三| 色综合天天综合网中文字幕| 亚洲精品一区久久久久久| 亚洲妇女无套内射精| 韩日精品一区| 色94色欧美sute亚洲线路一久| 国产一区二区三区播放| av资源种子在线观看| 99久久精品99国产精品| 不卡视频一区二区三区| 国产乱码精品一区二区| 日本va欧美va瓶| 国产不卡视频在线| 日韩免费在线视频观看| 欧美三区视频| 久久国产精品久久久久久久久久| 日本人亚洲人jjzzjjz| 日韩免费电影在线观看| 精品久久一区二区三区| 四川一级毛毛片| 亚洲国产精选| 欧美日韩电影一区| 五月婷婷丁香色| 精品3atv在线视频| 色偷偷久久人人79超碰人人澡| 东北少妇不带套对白| 天堂8中文在线| 亚洲美女在线一区| 国产成人一二三区| 日韩三级免费| 亚洲综合丁香婷婷六月香| 成人黄色片免费| 日本在线视频网址| 亚洲成人一区二区在线观看| 18禁裸男晨勃露j毛免费观看| 日本性爱视频在线观看| 狂野欧美性猛交xxxxx视频| 久久久精品影视| 欧美xxxx黑人又粗又长精品| 亚洲 欧美 自拍偷拍| av高清不卡在线| 国产一区在线观| 五月婷婷六月丁香综合| 久久影院视频免费| 日韩精品欧美一区二区三区| 国产福利在线视频| 国产精品久久久久7777按摩| 中文字幕不卡每日更新1区2区| 哥也色在线视频| 亚洲一区二区免费视频| 日本欧美黄色片| 亚洲女色av| 欧美亚洲日本国产| 中文字幕 欧美日韩| 亚洲国产精品免费视频| 亚洲国产精彩中文乱码av在线播放| 日本人添下边视频免费| 午夜欧洲一区| 社区色欧美激情 | 国产免费无码一区二区视频 | 在线视频一区二区三| 国产成人无码av在线播放dvd| av在线播放一区| 91麻豆精品国产91久久久资源速度| 国产黑丝在线视频| 欧美五码在线| 色yeye香蕉凹凸一区二区av| 欧美三级小视频| 乱码第一页成人| 国产精品最新在线观看| 成人乱码一区二区三区| 久久精品综合网| 丰满女人性猛交| 九色porny自拍视频在线播放 | 国产亚洲精品91在线| 久久精品亚洲a| 在线视频精品| 91系列在线观看| 天天操天天操天天| 国产精品国产精品国产专区不蜜| 日韩免费在线观看av| 欧美黑人巨大xxxxx| 91精品国产手机| 爱爱的免费视频| 夜间精品视频| 日本在线精品视频| 六月丁香色婷婷| 国产精品高潮呻吟久久| 国产 福利 在线| 粉嫩av国产一区二区三区| 亚洲免费电影一区| 精国产品一区二区三区a片| 美女视频黄免费的久久| 激情五月综合色婷婷一区二区| 亚洲成人三级| 一本色道综合亚洲| 这里只有精品在线观看视频| 欧美gayvideo| 国产成人精品一区二区| 囯产精品一品二区三区| 亚洲欧美在线视频| www.色就是色| 制服丝袜日韩| 91超碰中文字幕久久精品| 国产99对白在线播放| 国产精品久久久久一区二区三区| aa在线观看视频| 99国产精品免费网站| 久久精品视频免费播放| www.五月婷婷.com| 久久嫩草精品久久久精品一| 欧美视频免费看欧美视频| 精品一区二区三区在线观看视频| 神马久久久久久| 成人小视频在线播放| 91在线你懂得| 国产a级片网站| 午夜视频一区二区在线观看| 久热精品视频在线免费观看| 亚洲综合精品在线| 国产精品久久久久久久久免费樱桃| 成人免费无码av| 精品国产一区二区三区久久久蜜臀| 18一19gay欧美视频网站| 天天操天天干天天| 欧美日韩久久久久| 一级做a爰片毛片| 中文日韩在线| 久久伦理网站| 成人小电影网站| 亚洲欧美制服第一页| 少妇高潮av久久久久久| 国产性做久久久久久| 国产免费人做人爱午夜视频| 精品国产日韩欧美| 国产精品黄色影片导航在线观看| 高清性色生活片在线观看| 在线日韩av片| 成人在线观看免费高清| 蜜臀av一区二区| 伊人情人网综合| 免费欧美网站| 性视频1819p久久| 午夜av免费观看| 色欧美88888久久久久久影院| 日本理论中文字幕| 精品一区二区三区欧美| 成人高清dvd| 日韩福利视频一区| 国产精品久久99久久| 视频免费一区| 日韩午夜三级在线| 国产成人无码一区二区三区在线| 久久亚洲精品国产精品紫薇| 麻豆一区二区三区视频| 羞羞色午夜精品一区二区三区| yy111111少妇影院日韩夜片| 欧美aa在线观看| 夜夜躁日日躁狠狠久久88av| 国产毛片一区二区三区va在线| 亚洲一区二区三区在线看| 天堂久久久久久| 美洲天堂一区二卡三卡四卡视频 | 一二三区视频在线观看| 亚洲免费成人| 日韩高清国产精品| 日本免费精品| 日本欧美一二三区| caoporn免费在线视频| 日韩二区三区在线| 亚洲天堂中文字幕在线| 亚洲一二三级电影| 天天躁夜夜躁狠狠是什么心态| 国产精品一级在线| 人妻有码中文字幕| 91精品国产麻豆国产在线观看| 国内视频一区二区| 欧美日韩破处视频| 97视频免费观看| av在线免费网站| 亚洲欧美激情精品一区二区| 国产片在线播放| 色综合久久九月婷婷色综合| 欧美色图亚洲天堂| 亚洲国产精品99久久久久久久久| 91精品啪在线观看国产| 久久国产精品一区二区| av天堂永久资源网| 亚洲黄色毛片| 中文字幕第50页| 欧美色图一区| 狠狠色综合色区| 久久精品免视看国产成人| 国产成人精品在线| 川上优av中文字幕一区二区| 欧美精品制服第一页| av成人手机在线| 亚洲精品综合精品自拍| 亚洲男女视频在线观看| 91精品国产一区二区三区蜜臀| 在线免费观看国产精品| 偷拍亚洲欧洲综合| 国产一级二级三级| 亚洲视频一二三| 大吊一区二区三区| 国产亚洲自拍一区| 黄色国产在线观看| 99免费精品在线| 久久性爱视频网站| 成人白浆超碰人人人人| 中文字幕欧美视频| 国产专区欧美精品| 欧美午夜精品理论片| 蜜桃视频一区二区三区| 欧美特级aaa| 免费在线观看不卡| 天天爱天天操天天干| 日本不卡一区二区| 手机看片一级片| 六月婷婷色综合| 亚洲一级片av| 国产高清精品在线| 不许穿内裤随时挨c调教h苏绵 | 欧美一级片免费| 欧美成人国产一区二区| 午夜精品一区二区三| 日韩欧美亚洲国产精品字幕久久久| 国产精品伊人久久| 日韩一区二区三区av| www.日本在线观看| 精品国内片67194| 欧美一区,二区| 亚洲精品国产免费| 同心难改在线观看| 亚洲人成网站在线播| 狠狠狠综合7777久夜色撩人| 一个色综合导航| 男人在线资源站| 蜜臀久久99精品久久久无需会员 | 韩剧1988免费观看全集| 97人澡人人添人人爽欧美| 2023亚洲男人天堂| 视频精品导航| 51成人做爰www免费看网站| 99精品在免费线中文字幕网站一区| 91九色蝌蚪国产| 日韩不卡在线视频| 九色91在线视频| 欧美日韩国产高清电影| 亚洲成人动漫在线| 国产日韩欧美在线播放不卡| 可以免费在线看黄的网站| 精品影视av免费| 亚洲成年人av| 国产午夜亚洲精品不卡| 蜜桃av.com| 亚洲综合视频网| 久久久精品毛片| 6080yy午夜一二三区久久| 男人天堂网在线视频| 国产一区二区三区精品久久久| 成人午夜在线影视| 日本视频久久久| www久久久| 久久综合九九| 亚洲91中文字幕无线码三区| 日韩视频免费播放| 麻豆精品一区二区综合av| 中国xxxx性xxxx产国| 国产精品午夜免费| 日本亚洲色大成网站www久久| 欧美怡红院视频| 欧美综合视频在线| 色阁综合伊人av| 校园春色亚洲| 亚洲综合最新在线| 国产毛片一区二区三区| 成人免费看片'免费看| 免费成人美女在线观看.| 在线观看成人动漫| 亚洲图片欧美激情| 无码aⅴ精品一区二区三区| 日韩精品一区二区在线观看| 国产视频三级在线观看播放| 国产做受高潮69| 日韩av黄色| 日韩国产在线一区| 国产精品毛片在线看| 人妻少妇偷人精品久久久任期| 国产精品日韩精品欧美在线| 日韩av一区二区在线播放| 3751色影院一区二区三区| 男人的天堂在线视频| 性色av一区二区三区免费 | 国产 高清 精品 在线 a| 日韩精品欧美| 国产视频一区二区三区在线播放 | 亚洲综合第一页| 色喇叭免费久久综合| 日本成人在线免费视频| 99精品视频一区二区| 久久免费视频6| 在线播放/欧美激情| 中国日本在线视频中文字幕| 97av在线播放| 激情小说一区| 国产av熟女一区二区三区| 国内一区二区在线| 精品少妇一区二区三区密爱| 欧美中文字幕不卡| 国产一级网站视频在线| 国产91色在线|免| 免费观看久久av| 麻豆av免费在线| 久久久久国产免费免费| 日韩综合在线观看| 国产亚洲欧美视频| 欧美人体一区二区三区| 欧美日韩精品一区| 久久久久久夜| 波多野结衣片子| 在线观看精品一区| av免费在线一区二区三区| 国产精品老女人视频| 超碰成人久久| www.久久av.com| 亚洲品质自拍视频| 成人黄色免费视频| 国模私拍一区二区三区| 久久综合五月婷婷| 国产一区亚洲二区三区| 国产女同互慰高潮91漫画| 亚洲图片视频小说| 久久艳片www.17c.com| 亚洲3区在线| 黄页免费在线观看视频| 91免费视频网| 久久精品五月天| 中文在线资源观看视频网站免费不卡| 欧美成人黄色| 大桥未久一区二区三区| 东方aⅴ免费观看久久av| 日本在线视频中文字幕| 亚洲欧美日韩精品久久亚洲区 | 高清欧美性猛交xxxx| 日韩av字幕| 乌克兰美女av| 亚洲欧美激情一区二区| 国产 欧美 自拍| 国产精品igao视频| 亚洲午夜精品一区二区国产| 真实乱偷全部视频| 欧美午夜丰满在线18影院| a√资源在线| 99精品在线直播| 米奇777在线欧美播放| 国产视频不卡在线| 日韩欧美你懂的| 亚洲天堂av影院| 在线观看一区欧美| a在线欧美一区| 亚洲视频在线免费播放| 欧美激情一区二区三区成人| 在线日韩一区| 午夜av中文字幕| 欧美视频中文字幕在线| 国产三区在线观看| 久久草.com| 韩日av一区二区| 久久国产精品免费看| 超碰精品一区二区三区乱码 |