精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

SWEET-RL:基于訓練時信息的多輪LLM代理強化學習框架

人工智能
SWEET-RL(Step-WisE Evaluation from Training-time information,基于訓練時信息的逐步評估)是多輪大型語言模型(LLM)代理強化學習領域的重要技術進展。

SWEET-RL(Step-WisE Evaluation from Training-time information,基于訓練時信息的逐步評估)是多輪大型語言模型(LLM)代理強化學習領域的重要技術進展。該算法相較于現有最先進的方法,成功率提升了6%,使Llama-3.1-8B等小型開源模型能夠達到甚至超越GPT-4O等大型專有模型的性能水平。本文將深入分析SWEET-RL如何改進AI代理在復雜協作任務中的訓練方法。

LLM代理與多輪交互機制

LLM代理是經過特定任務微調的大型語言模型,能夠作為決策實體與環境或人類進行交互以完成預定目標。多輪交互過程本質上是一系列連續的信息交換,類似于結構化對話,每個交互步驟都朝著最終解決方案遞進。這種交互模式可類比于協作規劃過程:例如在共同規劃旅行時,一方提出目的地建議,另一方提出問題或顧慮,然后初始建議被逐步完善直至形成完整計劃。在此類情境中,代理需要學習如何有效貢獻,而反饋往往僅在整個交互序列結束時才能獲得,這顯著增加了訓練的復雜性。

強化學習在此情境中發揮關鍵作用,它使代理能夠通過試錯方法進行學習,以最大化累積獎勵。然而,多輪交互環境中的傳統強化學習面臨信用分配問題——即難以準確判定長期序列中哪些特定行動導致了最終的成功或失敗。對于已經通過大規模文本數據預訓練的LLM而言,這一挑戰尤為明顯,因為它們需要在保持通用泛化能力的同時適應特定任務的要求。

ColBench:協作推理任務的評估基準

ColBench是專為驗證LLM代理在協作產物創建過程中的多輪強化學習算法而設計的基準。該基準主要關注后端編程和前端設計兩個關鍵領域,遵循以下核心原則:

ColBench確保任務具有足夠的復雜性,要求代理具備推理和泛化能力,從而真實反映實際應用場景。同時,它采用LLM作為人類模擬器和功能評估器,實現了低開銷的快速原型設計。

在后端編程任務中,代理最多可與人類模擬器進行10輪交互,從高級需求描述和函數簽名開始,最終通過通過全部10個單元測試(二元獎勵制:0或1)評估性能。該數據集包含10,000個訓練任務和1,000個測試任務,以及來自Llama-3.1-8B/70B-Instruct的15,000個離線交互軌跡。前端設計任務則要求代理設計網頁界面,通過計算與參考設計的余弦相似度評估效果,包含10,000個訓練任務和500個測試任務,以及來自Llama-3.1-8B和Qwen2-VL-72B的6,000個交互軌跡。

通過與現有多輪LLM代理基準的比較可知,ColBench是唯一同時滿足三個關鍵標準的評估框架:1)具備充分的任務多樣性,確保強化學習訓練不會過度擬合;2)擁有足夠的任務復雜性,能夠挑戰代理的推理和泛化能力;3)工程開銷最小化,適合快速研究原型開發。

多輪LLM代理面臨的核心挑戰

在當前快速發展的AI技術生態中,構建高效多輪LLM代理是最具挑戰性的前沿研究領域之一。這類代理必須能夠參與持續的交互過程,做出連貫一致的決策序列,同時保持對長期目標的導向性。傳統強化學習方法在應對此類復雜性時面臨諸多困難,主要體現在三個方面:跨回合的信用分配問題、對不同任務的泛化能力,以及如何高效利用有限訓練數據。

SWEET-RL作為一種創新解決方案,通過根本性改變LLM代理在協作推理任務中的訓練方法,有效應對了上述挑戰。

圖左展示了ColBench框架概覽,包括后端編程和前端設計兩個評估任務,支持在真實環境中對代理多輪強化學習算法進行低成本且可靠的評估。圖右闡述了SWEET-RL的核心理念,即利用額外的訓練時信息結合適當的Bradley-Terry(BT)目標函數實現有效的信用分配。

SWEET-RL的技術創新:核心組件與架構

非對稱Actor-Critic結構

SWEET-RL的核心創新在于其非對稱actor-critic架構,該架構從根本上改變了代理從經驗中學習的方式:

Critic(評估器)可以訪問額外的訓練時信息,從而提供更精確的行動評估,實現更有效的跨回合信用分配。而Actor(策略網絡)則在有限觀察條件下運作,根據交互歷史做出決策,保持在實際應用場景中的泛化能力。

這種非對稱設計使SWEET-RL能夠同時獲得兩種優勢:Critic在訓練階段的全面深入理解能力,以及Actor在實際部署中的適用性。

創新的優勢函數參數化

SWEET-RL引入了一種新型優勢函數參數化方法,顯著區別于傳統強化學習方法。該方法直接建模優勢函數,與LLM預訓練目標保持一致,提高了訓練穩定性和泛化能力,同時增強了信用分配效率。

兩階段訓練流程

該算法實現了精心設計的兩階段訓練過程:

第一階段:回合式Critic訓練 - 使用Bradley-Terry目標函數訓練Critic,利用訓練時信息進行準確評估,根據偏好對優勢函數進行優化。

第二階段:策略改進 - 利用訓練好的Critic指導策略更新,實施直接偏好優化的變體算法,確保學習過程穩定高效。

SWEET-RL訓練流程概述。在宏觀層面,我們首先應用Bradley-Terry目標函數直接訓練一個能夠訪問額外訓練時信息的逐步優勢函數。優勢函數訓練完成后,通過將其作為每個回合的獎勵模型執行策略改進。

實驗性能與應用效果

后端編程任務性能

SWEET-RL在后端編程任務中展現出卓越性能,達到了40.4%的成功率,而多輪DPO方法僅為34.4%;單元測試通過率達到56.8%,顯著高于競爭方法的48.0%。

前端設計任務性能

在前端設計場景中,SWEET-RL同樣取得了顯著進步,與參考解決方案的余弦相似度達到77.7%,對基線方法的勝率為48.2%。

ColBench基準上不同LLM和多輪強化學習算法的性能比較。SWEET-RL相較于其他多輪強化學習算法實現了超過6%的性能提升,使Llama-3.1-8B-Instruct模型能夠達到與更大規模專有模型相當的性能水平。

技術優勢與創新特點

增強的信用分配機制

SWEET-RL的創新信用分配方法解決了多輪強化學習中最具挑戰性的問題之一,通過有效利用訓練時信息,提供準確的回合級獎勵信號,減少學習信號的方差。

優化的泛化能力

該算法通過與LLM預訓練目標保持一致性,展現出卓越的泛化能力,在未見過的任務上表現強勁,并能隨訓練數據增加而有效擴展。

計算效率優化

SWEET-RL在實現性能提升的同時保持了較高的計算效率,通過直接優勢函數建模、穩定的訓練動態以及有效利用訓練數據實現這一目標。

性能比較圖表:(a)展示了不同步進獎勵模型在后端編程任務上Best-of-N采樣的擴展曲線。結果表明SWEET能夠在回合基礎上最優判斷高質量行動,從而實現Best-of-N采樣的最佳擴展性能。需注意,此曲線區別于測試時擴展曲線,因為SWEET利用了額外的訓練時信息。(b)展示了不同多輪強化學習算法在后端編程任務上隨微調數據量增加的性能擴展情況。盡管SWEET-RL初期需要更多數據以學習可靠的Critic,但它能迅速趕上并最終實現更優的收斂性能。

實驗表明,利用訓練時信息顯著增強了信用分配能力,這一點從SWEET-RL與不使用訓練時信息的SWEET-RL之間的性能差距得到證實。雖然相對于固定的LLM-as-a-Judge的Best-of-N采樣可在零樣本成功率上帶來一定改進,但這種改進有限。從質性分析看,固定的LLM評判器容易被響應的長度和格式影響,而未能真正關注其對任務成功的實際效用。最后,盡管在深度強化學習文獻中較為常見,但價值函數的使用與SWEET-RL相比未能實現相當的擴展性能,這凸顯了SWEET-RL在強化學習算法選擇上的精心設計,同時表明訓練價值函數的常規做法可能在未見過任務上泛化能力較差。

總結

SWEET-RL代表了多輪LLM代理訓練技術的重大進展。其在信用分配、優勢函數參數化和非對稱actor-critic結構方面的創新為該領域確立了新的基準。該算法使小型模型能夠實現與大型專有模型相當的性能,成為AI能力民主化進程中的關鍵一步。

展望未來,SWEET-RL的影響可能超越其當前應用范圍,影響更復雜AI系統的開發,特別是需要復雜推理和協作能力的系統。其成功證明了強化學習的持續發展價值及其在構建更強大、更高效AI代理中的重要性。

SWEET-RL通過技術創新、實用性和卓越性能的結合,成為人工智能領域的關鍵發展,可能深刻影響未來多輪LLM代理和強化學習的研究與發展方向。

責任編輯:華軒 來源: DeepHub IMBA
相關推薦

2025-03-21 13:00:54

2025-10-11 04:00:00

2025-05-28 02:25:00

2025-11-10 04:15:00

2024-08-28 13:53:42

多代理強化學習機器人

2021-07-22 15:25:14

開源技術 框架

2025-08-08 09:15:00

2024-10-12 17:14:12

2025-05-12 08:24:01

2023-05-04 15:53:34

強化學習開發

2025-10-10 08:33:49

2020-12-23 06:07:54

人工智能AI深度學習

2025-11-06 08:56:00

2024-03-19 00:15:00

機器學習強化學習人工智能

2020-06-05 08:09:01

Python強化學習框架

2025-07-30 09:12:00

2025-07-22 09:05:00

強化學習AI模型

2025-05-06 08:40:00

2020-04-15 16:44:38

谷歌強化學習算法

2023-07-20 15:18:42

點贊
收藏

51CTO技術棧公眾號

五月激情综合色| 国产盗摄视频一区二区三区| 亚洲天堂影视av| 亚洲18在线看污www麻豆| 超碰97免费在线| 国产欧美一二三区| av免费精品一区二区三区| 国产美女激情视频| 中文字幕乱码亚洲无线精品一区| 亚洲精品720p| 亚洲视频在线不卡| 日韩电影免费观| 亚洲午夜免费福利视频| 日韩一区二区三区高清| 狠狠综合久久av一区二区| 日韩精品欧美精品| 国外色69视频在线观看| 成人免费视频入口| 制服丝袜日韩| 欧美v国产在线一区二区三区| 黑人粗进入欧美aaaaa| 香蕉成人app免费看片| 国产女主播一区| 久久99九九| 成人久久久精品国产乱码一区二区| 日韩中文字幕91| 97精品久久久| 国产无遮挡裸体免费视频| 欧美a级成人淫片免费看| 亚洲免费中文字幕| 亚洲第一黄色网址| 在线精品国产亚洲| 欧美一级二级三级蜜桃| 中文字幕第100页| 天天综合网天天| 欧美日韩性视频| 日韩av在线播放不卡| 91极品在线| 亚洲日穴在线视频| 欧美精品二区三区四区免费看视频| 亚洲国产一二三区| 国产精品亚洲一区二区三区在线| 国产日韩在线观看av| 国产一级片一区二区| 六月婷婷一区| 国产福利视频一区| 日韩国产成人在线| 久久午夜视频| 国产精品成人品| 91丨九色丨海角社区| 日韩国产成人精品| 国产精品久久久久久久久| 国产成人精品777777| 久久国产欧美| 日韩免费av片在线观看| 无码视频在线观看| 日欧美一区二区| 国产精品极品在线| 在线观看中文字幕av| 青草av.久久免费一区| 国产精品高潮呻吟久久av无限| 中文字幕精品无码一区二区| 免费亚洲一区| 国产精品黄色av| 国产又粗又长又大视频| 加勒比av一区二区| www.成人av| 四季av日韩精品一区| 91在线你懂得| 视频一区二区综合| 浪潮av一区| 亚洲一区在线观看免费| 欧美不卡在线播放| 中文一区一区三区高中清不卡免费 | 欧美亚洲日本黄色| 蜜臀99久久精品久久久久小说| 日韩不卡手机在线v区| 国产日产欧美精品| 国产成人精品av在线观| 成人av网站大全| 欧美一区二区三区四区五区六区| 91xxx在线观看| 一区二区三区视频在线看| 日韩av在线播放不卡| 日本少妇一区| 日韩一级黄色片| 国产呦小j女精品视频| 欧美高清视频在线观看mv| 美女少妇精品视频| 午夜毛片在线观看| 久久99国产精品尤物| 国产精品国产精品国产专区蜜臀ah | 国产一二三精品| 精品蜜桃传媒| 免费av在线| 欧美性色视频在线| 别急慢慢来1978如如2| 一区二区三区在线免费看| 国产丝袜一区二区三区| 97成人资源站| 日日嗨av一区二区三区四区| 97影院在线午夜| 高清美女视频一区| 性感美女久久精品| 17c国产在线| 免费看成人吃奶视频在线| 日韩一区二区久久久| 精品99久久久久成人网站免费| 日本中文字幕一区二区视频 | 精品久久久免费视频| 国产亚洲欧美激情| 国产免费一区二区视频| 欧美激情福利| 亚洲人在线视频| 国产午夜福利一区二区| 激情成人午夜视频| 欧美日韩一区在线播放| 国产精品一区hongkong| 91精品国产综合久久精品图片| 亚洲天堂资源在线| 欧美韩日精品| 成人性生交xxxxx网站| 理论在线观看| 欧美日韩国产一区二区| 女教师高潮黄又色视频| 久久高清精品| 国产精品av在线| 五月天婷婷视频| 亚洲一区二区美女| 久久久久久无码精品人妻一区二区| 日韩精品电影| 国产精品入口尤物| 国产三级视频在线| 一本大道久久a久久综合婷婷| 2018国产精品| 欧美涩涩视频| 成人动漫视频在线观看完整版| 久操视频在线播放| 欧美伦理视频网站| 蜜桃视频最新网址| 美国三级日本三级久久99| 日韩av在线一区二区三区| 亚洲黄色中文字幕| 亚洲欧美一区二区三区情侣bbw| 国产污视频在线观看| 成人精品小蝌蚪| 99热久久这里只有精品| 99精品在免费线中文字幕网站一区| 欧美精品免费播放| 亚洲av综合色区无码一二三区| 一区二区三区精品久久久| 亚洲一区二区三区三州| 欧美fxxxxxx另类| 99热在线播放| av在线最新| 亚洲精品一区二区三区婷婷月| 波多野结衣国产| 久久久久国产精品麻豆ai换脸| 99精品免费在线观看| 自拍亚洲一区| 国产精品视频区1| 黄色片免费在线观看| 日韩免费一区二区三区在线播放| 久久国产精品波多野结衣| 粉嫩aⅴ一区二区三区四区 | 日本在线影院| 亚洲三级av在线| 91九色蝌蚪91por成人| 亚洲人成影院在线观看| 亚洲性图第一页| 一本一道久久综合狠狠老精东影业| 麻豆亚洲一区| 精品亚洲a∨| 欧美理论片在线观看| 欧美在线精品一区二区三区| 色综合久久久久综合| 九九这里只有精品视频| 高清不卡在线观看| 国产偷人视频免费| 亚洲五月综合| 精品欧美一区二区在线观看视频 | 1024日韩| 欧美日韩精品综合| 亚洲国产91视频| 韩国日本不卡在线| www.亚洲.com| 欧美精品一区二区三区很污很色的| 国产欧美一区二区三区在线看蜜臂| 国产欧美一区二区精品性色超碰| 一级黄色大片儿| 在线亚洲伦理| 亚洲第一精品区| 欧美影院天天5g天天爽| 成人黄色av免费在线观看| 91九色在线看| 久久婷婷国产麻豆91天堂| 少妇精品高潮欲妇又嫩中文字幕 | 国内精品久久久久久久| 都市激情在线视频| 精品成人a区在线观看| 中文字幕一区二区人妻痴汉电车 | 最近更新的2019中文字幕| 不卡av中文字幕| 欧美视频日韩视频| 国产精品一区二区6| 亚洲欧洲国产专区| 久久精品老司机| 成人午夜视频在线| 国模私拍视频在线观看| 国产日韩一区二区三区在线播放| 正在播放国产精品| 国产伦精品一区二区三区千人斩 | 一级淫片在线观看| 久久久久久婷| 国产精品久久..4399| 99国产精品免费视频观看| 欧美精品成人一区二区在线观看| 亚洲视频国产精品| 成人网欧美在线视频| 成人性生活视频| 欧美激情久久久| 黄色网址视频在线观看| 伊人久久综合97精品| 日韩在线免费播放| 精品欧美一区二区久久| 国产精品美女一区| 欧美日韩一区二区三区在线| 中国一级特黄毛片| 亚洲妇熟xx妇色黄| 久久久精品91| 一区二区三区久久| 欧美亚洲日本在线| 日韩毛片一二三区| 麻豆精品国产免费| 一区在线中文字幕| 夫妻性生活毛片| 国产精品蜜臀在线观看| 亚洲理论片在线观看| 久久在线观看免费| 泷泽萝拉在线播放| 91蜜桃传媒精品久久久一区二区| 成人做爰69片免费| 国产999精品久久久久久| 亚洲国产综合av| 国产成人综合在线| 最新日本中文字幕| 成人动漫在线一区| 国产麻豆xxxvideo实拍| 暴力调教一区二区三区| 亚洲精品乱码久久久久久蜜桃欧美| 国产成人亚洲综合a∨婷婷图片| 国产老头和老头xxxx×| 成人教育av在线| 毛茸茸多毛bbb毛多视频| 26uuu另类欧美| 人妻精品久久久久中文| 国产精品色在线观看| 天海翼在线视频| 亚洲制服欧美中文字幕中文字幕| 精品视频久久久久| 欧美日韩国产一区在线| 超碰在线免费97| 91精品中文字幕一区二区三区| 国产熟女精品视频| 亚洲第一国产精品| 狠狠v欧美ⅴ日韩v亚洲v大胸| 亚洲性生活视频| 欧美午夜电影一区二区三区| 久热精品视频在线观看| 国产91足控脚交在线观看| 欧美一区二区视频97| 成人国产精品一区二区免费麻豆 | 欧美天堂社区| 视频在线一区二区三区| 婷婷成人基地| 毛片在线播放视频| 麻豆成人av在线| 麻豆精品国产传媒| 国产亚洲美州欧州综合国| 国产又粗又硬又长又爽| 欧美日韩免费在线观看| 怡红院男人天堂| 精品国产凹凸成av人导航| 毛片在线免费| 欧美另类精品xxxx孕妇| 欧美大胆性生话| 3d精品h动漫啪啪一区二区| 色老板在线视频一区二区| 亚洲精品成人自拍| 亚洲国产1区| 超碰超碰在线观看| 成人污污视频在线观看| 老司机精品免费视频| 亚洲一区二区在线免费看| www.久久网| 亚洲国产成人一区| 欧美精品日韩少妇| 8090成年在线看片午夜| 激情视频亚洲| 日韩国产欧美精品| 亚洲电影av| 成年人网站av| 国产欧美一区二区精品秋霞影院| 久久一二三四区| 欧美日韩成人一区| 青青草免费在线视频| 色综合久久中文字幕综合网小说| 亚洲伦乱视频| 国产欧美日韩综合精品二区| 日本久久精品| 午夜精品久久久内射近拍高清| 国产成人综合亚洲网站| 日本美女黄色一级片| 一本到不卡精品视频在线观看| 成人久久精品人妻一区二区三区| 久久精品一本久久99精品| 香蕉视频亚洲一级| 国产一区二区免费在线观看| 欧美日韩三级电影在线| 女同激情久久av久久| 欧美国产日本视频| 9i精品福利一区二区三区| 亚洲黄色在线观看| 国内在线视频| 国产高清精品一区二区三区| 中文字幕一区二区三三| 中文字幕66页| 国产精品久久久久久久久搜平片 | 中文字幕 在线观看| 国产高清精品一区| 欧美激情五月| 日本成人xxx| 亚洲欧美国产77777| 国产美女免费视频| 日韩有码片在线观看| 精品国产黄a∨片高清在线| 亚洲精品日韩在线观看| 日韩成人精品视频| 一级肉体全黄裸片| 在线观看免费亚洲| 国产中文在线| 国产精品久久久久久超碰| 成人同人动漫免费观看| www.99在线| 国产精品久久久久久久久搜平片| 成人黄色片在线观看| 自拍偷拍亚洲一区| 97久久精品一区二区三区的观看方式 | 国产综合无码一区二区色蜜蜜| 欧美成在线视频| 成人福利免费在线观看| 丁香花在线影院观看在线播放| av不卡在线播放| 青青草免费观看视频| 国产亚洲精品美女久久久| 亚洲综合av一区二区三区| 亚洲一区二区三区加勒比| 国产综合久久久久久鬼色| 国产av无码专区亚洲av毛网站| 欧美成人一区二区三区在线观看| 麻豆福利在线观看| 精品国产乱码久久久久软件| 久久电影一区| 萌白酱视频在线| 日韩欧美电影在线| 欧美巨大丰满猛性社交| 欧美性大战久久久久| 老司机精品视频导航| 日本妇女毛茸茸| 亚洲精品美女在线| av成人在线播放| 黄色一级片国产| 久久在线观看免费| 91福利免费视频| 国内免费精品永久在线视频| 亚洲资源网你懂的| 手机免费看av网站| 五月婷婷综合网| √新版天堂资源在线资源| av在线不卡一区| 日本视频中文字幕一区二区三区| 精品国产精品国产精品| 亚洲国产毛片完整版| 成人精品高清在线视频| 日韩 欧美 视频| 中文字幕 久热精品 视频在线 | 日本成人福利| avav在线播放| 欧美激情一区二区三区不卡 | 成人性色生活片免费看爆迷你毛片| 日韩在线播放中文字幕| 久久视频国产精品免费视频在线| 大伊香蕉精品在线品播放| 成人免费毛片播放| 亚洲综合色自拍一区| 国产黄色片在线播放| 国产成人精品一区二区三区福利| 免费在线视频一区| 日韩av大片在线观看| 久久久久北条麻妃免费看|