精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

伯克利最強代碼Agent屠榜SWE-Bench!用Scaling RL打造,配方全公開

人工智能 新聞
新晉AI編程冠軍DeepSWE來了!僅通過純強化學習拿下基準測試59%的準確率,憑啥?7大算法細節首次全公開。

AI編程領域競爭激烈,但多被閉源模型主導。

如今,一款開源軟件工程模型DeepSWE橫空出世,以59%的準確率大幅刷新了SOTA。

DeepSWE基于Qwen3-32B打造,并且只使用強了化學習進行訓練。

圖片

地址:https://github.com/agentica-project/rllm

模型:https://huggingface.co/agentica-org/DeepSWE-Preview

Agentica的項目負責人Michael Luo感嘆道,「那個過度定價、黑箱式的編碼助手時代要終結了!」

圖片

另外一個好消息是,Agentica團隊也慷慨解囊,開源了所有內容。

除了模型,還包括訓練代碼(rLLM)、數據集(R2EGym)以及實現完全可復現的訓練配方。

訓練方法

DeepSWE最大亮點是,相較于之前許多依賴「老師模型」(如 GPT-4)進行模仿學習(SFT或蒸餾)的路徑不同。

它僅用強化學習(RL)就能從零開始將一個基礎模型訓練成性能亮眼的智能體。

據官方介紹,DeepSWE是在模塊化RL后訓練框架rLLM上訓練的。

rLLM有一個好處,說白了,就是讓你自己動手攢一個用強化學習訓練出來的AI小能手,從頭到尾都不再那么費勁了,直接拿去干活兒就行。

使用R2E-Gym進行可擴展數據集管理

訓練環境方面,DeepSWE是在R2E-Gym訓練環境中(一個現有的Gym環境)訓練,用于高質量可執行SWE環境的可擴展管理。

狀態與動作

R2E-Gym定義了一組四個工具作為動作空間的一部分:

1. 執行Bash:輸出LLM生成的bash命令的stdout和stderr。

2. 搜索:搜索并返回目錄或單個文件中所有符合LLM定義的查詢的結果。

3. 文件編輯器:允許查看、創建、替換字符串、插入以及撤銷對特定文件的編輯。

4. 完成/提交:LLM已決定解決了該拉取請求,這將終止軌跡生成。

獎勵模型

獎勵函數采用了一種稀疏的結果獎勵模型(ORM)。

研究人員驚喜的發現,僅僅通過簡單的「成功/失敗」獎勵信號,DeepSWE自發地學會高級程序員才具備的復雜行為,例如:

  • 主動思考邊緣案例和回歸測試。
  • 根據任務的復雜程度,自適應地調整「思考」的深度

通過擴展RL訓練SWE智能體

算法方面,DeepSWE僅僅使用了強化學習來直接訓練,沒有使用蒸餾方法。

更值得關注的是,研發人員使用了獨家改良的GRPO++算法,這個算法在之前的基礎上做了增強。

為了提升模型訓練的穩定性和性能的提升,研發人員整合7個算法:

1. Clip High (DAPO):提高GRPO/PPO替代損失的上限可以鼓勵探索并穩定熵。

2. 無KL損失(DAPO):消除KL損失可以防止LLM受限于原始SFT模型的信任區域。

3. 無獎勵標準差(Dr.GRPO):去除獎勵標準差可消除GRPO損失中的難度偏差,從而更好地區分難易問題。

4. 長度歸一化(Dr.GRPO):將替代損失除以最大上下文長度,可以消除GRPO中存在的長度偏差,這種偏差會增加錯誤響應的長度。

5. 一法(Loop/RLOO):在優勢估計中移除一個樣本,可以在不引入偏差的情況下降低策略梯度的方差。

6. 緊湊過濾:受DAPO啟發,對達到最大上下文長度、生成過程中超時(20分鐘)或達到最大步數的軌跡進行損失屏蔽。

7. 無熵損失:熵損失會引入更高的不穩定性,最終導致熵呈指數增長,從而使訓練崩潰。如果基礎模型的令牌級熵在0.3到1之間,則不需要熵損失。

針對其中一個算法「緊湊過濾」,研發人員強調了其對模型訓練優勢:

好處1:防止或延緩訓練過程中的獎勵崩潰(上圖)

好處2:減少了每一步的過度思考,并鼓勵跨步驟的長篇推理(下圖)

圖片

圖片

挑戰

當然,在訓練過程中也遇到了挑戰——擴展SWE-Bench環境。

研發人員指出,你可以想象下,在最后的訓練過程中,需要同時啟動好幾百個Docker容器。

因為跑得太多、太猛,一瞬間搞出了幾千個,直接把Docker給整崩潰了。

為了解決這個問題,研發人員將Kubernetes支持集成到了R2E-Gym環境中,使編排器能夠在節點池中調度容器。

研發人員,給每個干活的服務器都配了頂配裝備

差不多200核的CPU,還有6T多的超高速固態硬盤。

為了讓程序跑得飛快,研究員提前把所有要用的軟件(鏡像)都下載好存到本地硬盤里了。

這樣一來,每次啟動程序就跟打開桌面軟件一樣秒開,根本不用再吭哧吭哧地去網上下載了。

研究人員指出,該集群可以擴展到超過1000個CPU核心,并依賴Kubernetes集群自動縮放器來自動添加或移除節點。

當Pod在短時間內無法調度時,自動縮放器會配置額外的工作節點;相反,它會移除那些大約二十分鐘內利用率較低的節點。

這種彈性設置能夠可靠地收集數百萬條軌跡,同時保持計算成本與負載成比例。

評估策略(TTS)

除了強大的模型本身,DeepSWE還采用了「測試時擴展 (TTS)」這一評估策略。

該策略通過「多方案生成 + 智能驗證」的方式,將性能推向了新的高度。

為了提升其模型的Pass@1性能,研發人員在「測試時」想到了兩種方法:

方法一:擴展上下文長度(見上圖):

將最大上下文從16K擴展到128K個標記,性能有所提升。在超過32K時收益約為2%,達到42.2%的Pass@1。

方法二:擴展代理部署(見下圖):

使用最佳選擇策略為每個問題生成了多個代理部署。采用結合基于執行和免執行方法的混合驗證器,以選擇最佳的代理軌跡。

兩種方法確實帶來了性能的提升,在SWE-Bench Verified上達到59%,在開放權重的SWE-Agent中實現新的SOTA。

圖片

圖片

作者簡介

Michael Luo

圖片

Michael Luo,加州大學伯克利分校電氣工程與計算機科學系博士生,研究興趣聚焦人工智能和系統領域。

碩士和本科研究主要集中在強化學習(RL)的實際問題和應用,包括自然語言處理(NLP)、數據庫查詢優化以及視頻流。

Sijun Tan

圖片

Sijun Tan,目前是加州大學伯克利分校計算機科學系在校三年級的博士生,本科畢業于弗吉尼亞大學,獲得了計算機科學和數學雙學士學位。

研究重點是LLM后訓練和代理 AI。曾在Facebook人工智能研究(FAIR)實習,并在螞蟻集團擔任過高級算法工程師。

責任編輯:張燕妮 來源: 新智元
相關推薦

2018-10-09 14:00:41

SQL深度學習神經網絡

2025-07-14 13:47:29

2025-10-15 09:05:05

2023-05-04 14:55:02

模型AI

2021-11-29 16:12:38

AI數據強化學習

2022-03-28 13:25:42

AI扶貧機器之心

2024-07-15 12:23:49

2024-02-19 13:46:04

多模態信息LWMtoken

2025-06-11 09:08:00

AI模型數據

2025-09-16 09:09:03

2024-09-25 09:37:16

2024-08-19 14:05:00

2024-11-15 13:42:25

2017-04-25 10:44:02

網利寶

2025-01-22 15:21:00

2025-08-19 02:00:00

AI講師教育

2023-04-07 09:28:31

模型訓練

2023-05-26 17:20:29

模型工具

2024-05-30 14:23:00

點贊
收藏

51CTO技術棧公眾號

欧美一级生活片| 91视频国产资源| 久久人人爽人人爽爽久久| 伊人色在线视频| www.8ⅹ8ⅹ羞羞漫画在线看| 成人福利视频在线| 国产成人精品日本亚洲| 中国一级片在线观看| 欧美黑白配在线| 欧美日韩亚洲综合| 欧美二区在线视频| 欧美一区二区三区在线观看免费| 国产精选一区二区三区| 2019精品视频| 欧美做爰啪啪xxxⅹ性| 窝窝社区一区二区| 欧美成人video| 国产又大又黄又粗又爽| 国产乱码在线| 综合欧美亚洲日本| 欧美日韩国产精品一卡| 亚洲精品人妻无码| 美国一区二区三区在线播放| 97超视频免费观看| 私库av在线播放| 日韩精品二区| 亚洲码在线观看| 亚洲av熟女高潮一区二区| 亚洲电影二区| 在线看日本不卡| 欧美色图另类小说| h片在线观看视频免费| 国产精品久久久久久久岛一牛影视| 精品国产乱码久久久久久久软件| 国产三级在线观看视频| 日本不卡一区二区三区高清视频| 性色av一区二区三区| 青青草手机视频在线观看| 成人免费电影网址| 亚洲全黄一级网站| 欧美狂猛xxxxx乱大交3| 久久亚州av| 精品国产免费人成电影在线观看四季 | 亚洲精品国久久99热| 深夜福利成人| 超碰免费在线观看| 国产清纯在线一区二区www| 国产欧美日韩一区二区三区| 亚洲第一成人av| 国产91丝袜在线播放九色| 亚洲自拍欧美另类| 精品人妻aV中文字幕乱码色欲| 国精品**一区二区三区在线蜜桃| 国产精品久久久久久网站 | 欧美人与禽猛交乱配| 亚洲欧洲精品成人久久奇米网| 五月天综合网| 麻豆免费在线视频| 一区二区三区在线看| 国产av熟女一区二区三区| 日本中文字幕伦在线观看| 中文字幕一区在线观看视频| 一本一生久久a久久精品综合蜜 | 亚洲av无码国产精品久久不卡| 国产一区二区三区黄视频| 91系列在线观看| 午夜精品久久久久久久96蜜桃 | 亚洲欧美大片| 国产va免费精品高清在线观看| 日韩黄色片网站| 免费成人你懂的| 91精品中文在线| www.精品视频| 99久久国产综合精品麻豆| 欧美伦理一区二区| 在线毛片网站| 一区二区三区中文字幕电影| 欧美日韩不卡在线视频| 中文一区一区三区高中清不卡免费| 色综合久久久久综合体 | 丰满亚洲少妇av| 久久精品五月婷婷| h视频在线播放| 亚洲精品videosex极品| 国产肥臀一区二区福利视频| 亚洲精品粉嫩美女一区| 日韩午夜在线影院| 五级黄高潮片90分钟视频| 色一区二区三区四区| 欧美人与性动交| 国产精品人人人人| 国产精一区二区三区| 久久精品女人的天堂av| 黄色国产网站在线播放| 精品成人久久av| 男人添女人下面免费视频| xxxxxhd亚洲人hd| 亚洲日本中文字幕免费在线不卡| 天天综合天天做| 模特精品在线| 99精品国产高清在线观看| 国产在线超碰| 亚洲尤物视频在线| 91香蕉视频污版| 国产精品巨作av| 最近2019年手机中文字幕| 精品91久久久| 国产一区二区三区不卡在线观看| 欧美一区二区影视| 亚洲精品一线| 欧美日韩视频第一区| 亚洲久久久久久| 一本精品一区二区三区| 国产精品久久久久久久天堂| 香蕉视频国产在线| 亚洲精品国产一区二区精华液| 久久久久国产精品熟女影院 | 亚洲春色在线| 天堂8中文在线最新版在线| 欧美一区二区在线免费播放 | 亚洲永久免费视频| 天天久久综合网| 成人一二三区| 日本一区二区不卡| 亚洲aaa在线观看| 一区二区三区四区亚洲| 久久99999| 黄色不卡一区| 欧洲日本亚洲国产区| 欧美一级淫片aaaaaa| 日韩毛片视频在线看| 91人人澡人人爽人人精品| 亚洲国产国产| 国产91精品青草社区| 后入内射欧美99二区视频| 亚洲色大成网站www久久九九| 无需播放器的av| 欧美裸体在线版观看完整版| 91成人性视频| 水中色av综合| 欧美日韩激情小视频| 亚洲香蕉中文网| 亚洲激情在线| 国产欧美一区二区三区另类精品 | 国产精品大全| 调教一区二区| 欧美大片在线观看| 久艹视频在线观看| 成人夜色视频网站在线观看| 777久久精品一区二区三区无码| 亚洲黑人在线| 欧美成人免费播放| 国产香蕉在线观看| 岛国av一区二区三区| 中文字幕一区二区久久人妻网站| 18成人免费观看视频| 精品国产乱码久久久久久蜜柚 | 日本美女在线中文版| 欧美色图片你懂的| 亚洲精品一区二区三区在线播放| 捆绑调教一区二区三区| 美国av在线播放| 欧美.com| 97香蕉超级碰碰久久免费的优势| 四虎在线观看| 欧美三级日韩三级| 精品无码一区二区三区蜜臀| 国产精品123区| 日本免费a视频| 亚洲小说图片视频| 国产精品中文字幕久久久| 国产一区久久精品| 欧美日韩日本国产亚洲在线| 69堂精品视频在线播放| 日韩欧美极品在线观看| 黄色aaa视频| 久久国产乱子精品免费女| 亚洲成人动漫在线| 麻豆一区二区| 国产精品美女久久久免费| 99热国产在线| 亚洲国产精品成人va在线观看| 久久国产乱子伦精品| 亚洲图片你懂的| 亚洲中文字幕一区| 男女男精品视频| 免费网站永久免费观看| 精品国产一区二区三区| 51国产成人精品午夜福中文下载| 久草免费在线视频| 日韩一区av在线| 午夜视频福利在线观看| 91精品视频网| 天天干天天干天天操| 亚洲欧美另类小说| 大又大又粗又硬又爽少妇毛片 | 亚洲一区二区免费视频| 国产色视频一区二区三区qq号| 国精产品一区一区三区mba桃花 | 久久久久女人精品毛片九一 | 99精品一级欧美片免费播放| 欧美电影完整版在线观看| 国产欧美va欧美va香蕉在线| av资源在线播放| 久久中文字幕在线视频| 九色视频成人自拍| 亚洲а∨天堂久久精品9966| 做爰视频毛片视频| 精品久久久久久久久久久久久| 亚洲区一区二区三| 欧美极品xxx| 国产精品探花一区二区在线观看| 国产一区二区三区免费看 | 欧美国产日韩电影| 性欧美暴力猛交69hd| av网址在线| www.久久久久久.com| 国产精品一二三区视频| 日韩av中文字幕在线播放| 国产裸体永久免费无遮挡| 91福利在线导航| 国产成人在线免费视频| 亚洲午夜电影在线观看| 国产女片a归国片aa| 欧美激情一区在线观看| 亚洲AV无码国产成人久久| 成人免费视频一区二区| 日本黄色www| 国产一区二区三区美女| 亚洲理论中文字幕| 久久黄色级2电影| 污片在线免费看| 青青草成人在线观看| 日韩中文字幕免费在线| 亚洲欧美清纯在线制服| 91视频最新入口| 亚洲欧美成人| 精品视频一区二区在线| 国产精品亚洲综合久久| 成熟了的熟妇毛茸茸| 99在线热播精品免费99热| 久久国产午夜精品理论片最新版本| 欧美成熟视频| 成年人深夜视频| 欧美日本久久| 18黄暴禁片在线观看| 国内一区二区三区| 欧美大黑帍在线播放| 国产综合激情| 僵尸世界大战2 在线播放| 亚洲精品资源| 国产99久久九九精品无码| 久久激情久久| 特级丰满少妇一级| 精品亚洲欧美一区| 久草福利在线观看| 成人久久视频在线观看| 中文字幕在线播放一区| 久久婷婷国产综合国色天香| 少妇无套高潮一二三区| 中文字幕一区二区三区在线观看| 亚洲国产123| 亚洲一区二区中文在线| 在线观看亚洲欧美| 色猫猫国产区一区二在线视频| 亚洲免费视频二区| 91精品国产91热久久久做人人 | 17c丨国产丨精品视频| 99riav1国产精品视频| 免费大片在线观看| 国内精品免费**视频| 动漫美女无遮挡免费| 久久中文字幕电影| 国产视频123区| 一级女性全黄久久生活片免费| 久草国产精品视频| 欧美午夜精品理论片a级按摩| 国产伦精品一区二区三区视频痴汉| 欧美不卡一区二区三区四区| 天天操天天操天天| 色偷偷av一区二区三区| 人交獸av完整版在线观看| 91高清视频免费| 色综合一区二区日本韩国亚洲| 国产二区不卡| 精品国产一区二区三区小蝌蚪| 91九色国产ts另类人妖| 国产毛片久久| 一区二区三区四区毛片| 91啪亚洲精品| 手机在线免费看片| 色综合色狠狠综合色| 国产乱子伦精品无码码专区| 日韩av在线免播放器| 毛片av在线| 欧洲亚洲女同hd| 日韩欧美中文字幕在线视频 | 一本大道久久a久久综合婷婷| 97人妻一区二区精品免费视频| 日韩国产欧美区| v片在线观看| 国产精品99久久久久久白浆小说| 亚洲精品观看| 午夜精品短视频| 亚洲一区二区动漫| 91福利视频免费观看| 国产欧美中文在线| 国产精品老女人| 日韩一级片网站| 日韩毛片久久久| 国产成人精品在线| 国产图片一区| 成人黄色片免费| 激情综合色综合久久综合| 精品无码人妻一区| 午夜在线电影亚洲一区| 国产精品久久久久久久免费看| 亚洲热线99精品视频| 亚洲插插视频| 国产精品亚洲一区| 伊人成综合网| 亚洲欧美日韩三级| 国产欧美日韩激情| 337p粉嫩色噜噜噜大肥臀| 日韩av影视综合网| 天堂av在线网| 国产美女精品在线观看| 欧美日本一区二区视频在线观看| 久久人人爽av| 中文无字幕一区二区三区| av片免费观看| 亚洲天堂男人天堂女人天堂| 依依综合在线| 免费精品视频一区二区三区| 国产欧美在线| 内射中出日韩无国产剧情| 大桥未久av一区二区三区| 日韩欧美亚洲系列| 琪琪第一精品导航| 精品中文字幕一区二区三区av| 免费成人在线视频网站| 99在线精品观看| 欧美bbbbbbbbbbbb精品| 日韩av在线资源| 超碰一区二区| 日韩中文字幕av在线| 日本不卡123| 午夜激情福利电影| 欧美精品自拍偷拍| 污污网站在线看| 国产乱人伦精品一区二区| 亚洲日韩成人| 91精彩刺激对白露脸偷拍| 色播五月激情综合网| av在线播放免费| 91精品国产自产在线| 夜间精品视频| 少妇被狂c下部羞羞漫画| 欧美日韩一区二区三区| 深夜福利在线看| 国产精品久久久久久久久久ktv| 色135综合网| 无码人妻一区二区三区一| 亚洲成a人片在线不卡一二三区 | aⅴ在线免费观看| 国产精品网站在线观看| 国产免费不卡av| 久久人人爽国产| 国产亚洲一卡2卡3卡4卡新区 | 久久久精品国产免大香伊| 小泽玛利亚一区二区三区视频| 日韩一级裸体免费视频| 国产伦精品一区二区三区免费优势| 超碰网在线观看| 中文字幕在线观看不卡| 日本免费网站在线观看| 国产精品第1页| 欧美日韩蜜桃| 国产综合精品在线| 91精品国产91久久久久久最新毛片| jizz一区二区三区| 亚洲国产午夜伦理片大全在线观看网站 | 久久神马影院| 稀缺呦国内精品呦| 欧美综合亚洲图片综合区| av片在线观看免费| 欧美一区二区三区成人久久片| 久久99久久久欧美国产| 日韩免费在线视频观看| 中文字幕一区二区三区电影| 99久久免费精品国产72精品九九| 成年人视频在线免费| 一区二区三区四区av| 黄色国产在线| 国产福利久久| 久久99久国产精品黄毛片色诱| 在线观看黄网站| 九色成人免费视频| 成人在线亚洲| 波多野结衣办公室33分钟|