精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

性能提升84%-166%!L-Zero僅靠強化學習解鎖大模型探索世界的能力 | 已開源

人工智能 新聞
新研究僅通過RLVR(可驗證獎勵的強化學習),成功讓模型自主進化出通用的探索、驗證與記憶能力,讓模型學會“自學”!

大模型可以不再依賴人類調教,真正“自學成才”啦?

新研究僅通過RLVR(可驗證獎勵的強化學習),成功讓模型自主進化出通用的探索、驗證與記憶能力,讓模型學會“自學”!

圖片

當前主流的LLM Agent依然高度依賴于提示詞工程、復雜的系統編排、甚至靜態規則表,這使得它們在面對復雜任務時難以實現真正的智能行為演化。

而來自招商局獅子山人工智能實驗室的研究團隊認為,RLVR范式是智能體(Agent)通往更高通用性和自主性的重要突破口。

于是,他們從兩個關鍵層面出發構建了端到端Agent訓練pipeline——L0系統

  • 智能體架構層面提出了結構化智能體框架——NB-Agent,在經典”代碼即行動”(Code-as-Action)架構基礎上進行擴展,使智能體能夠操作記憶/上下文,從而獲得類人類的記憶存儲、信息總結與自我反思能力。
  • 學習范式層面探索了一個核心問題:是否可以僅通過RLVR范式,引導智能體從零開始,學會如何規劃、搜索、驗證與記憶,最終解決復雜的多輪推理任務?

L0系統的框架、模型及訓練集已全部開源,詳細可見文末鏈接。

結構化智能體框架:Notebook Agent(NB-Agent)

圖片

△NB-Agent的“Think-Code-Observe”循環

受到“代碼即行動”的啟發,NB-Agent選擇使用代碼作為通用的動作空間,并且遵循“讀取-求值-輸出”循環(Read-Eval-Print-Loop,REPL)的方式來和Jupyter Kernel交互。

每一步都是“Think-Code-Observe”:

  • Think:模型生成推理邏輯;
  • Code:將推理轉化為Python代碼;
  • Observe:執行代碼并觀察輸出結果,反饋進入下一輪思考。

在這個過程中,長文本處理是智能體驅動模型(Agentic model)面臨的核心挑戰。

為此,研究團隊提出一個創新方案:將模型的上下文窗口(context)與一個Python運行時的變量進行雙向綁定。

這賦予了智能體主動管理自身記憶的能力,不再被動受限于上下文長度。

具體來說,研究團隊提供了一個Notepad Python類作為結構化的外部記憶模塊。智能體可以通過代碼指令,將關鍵信息、推理步驟或中間結果寫入Notepad。

這些信息會持久存在,并映射到上下文中一個穩定區域,確保在長程任務中不被遺忘。

同時,REPL的交互模式,使智能體能像程序員一樣,將復雜信息存入變量、隨時取用,從而徹底突破上下文的枷鎖。

訓練流程:端到端強化學習

圖片
△L0的multi-turn訓練過程

L0采用端到端強化學習進行智能體訓練:

  • 重新定義動作粒度一個動作不再是一個token,而是一個完整的“思考+代碼段”;
  • 提出Agentic Policy Gradient算法適應序列級動作定義,將策略梯度從單token級擴展到完整動作序列級;
  • 構建多維度自動獎勵函數包括最終答案正確性、代碼執行情況、輸出結構規范性等;
  • 分布式訓練架構采用輕量級沙箱隔離(Bubblewrap),支持高并發、低部署門檻的大規模RL訓練。

測試:L0顯著提升了模型在多個基準測試上的性能

在多個經典的開放領域問答數據集對L0系統進行測試,見證了智能體的驚人進化。

圖片

以Qwen2.5-7B這個基礎模型為例:

L0-Scaffold(僅有架構,未經過RL訓練)下,它就像一個剛拿到Notebook的新手,在HotpotQA上得分22%

經過L0-RL(強化學習訓練)后,它學會了如何高效搜索、驗證信息、剔除冗余步驟,最終在同一任務上得分飆升至41%(提升84%)

在SimpleQA數據集上,L0-RL帶來的提升更加顯著:EM(精確匹配)得分從30%暴漲到80%(提升166%)

圖片

L0在與其他工作的比較中也獲得了具有競爭力的性能,在平均表現上明顯優于Search-R1和ZeroSearch。

這表明L0框架為強化學習提供了更豐富和更具表現力的環境:其他方法訓練智能體學習何時調用單個工具(例如搜索引擎),而L0框架訓練智能體成為一個程序化的問題解決者,學習如何在結構化環境中組合動作、管理狀態和進行推理。

這意味著什么?

在真實搜索之外,模型自己“學會”的搜索、規劃和記憶行為,比直接調用API的規則式Agent更穩定、更泛化、也更強大!

它不再是生硬地調用工具,而是真正理解了怎么利用代碼和這個世界交互,展現了通往更高級通用智能的清晰路徑。

論文:https://github.com/cmriat/l0/tree/main/papers/l0.pdf

NB-Agent框架、訓練pipeline和所有訓練recipe:https://github.com/cmriat/l0

模型checkpoint:https://huggingface.co/cmriat/models

20K訓練數據集:https://huggingface.co/cmriat/datasets

用checkpoint執行深度搜索任務的示例:https://github.com/cmriat/l0/blob/main/examples/nb_agent/deep_searcher_case.md

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-02-20 09:21:51

2025-06-09 09:32:35

2024-01-26 08:31:49

2022-09-04 14:38:00

世界模型建模IRIS

2025-05-30 04:00:00

IBMRLVRGRPO

2023-08-28 06:52:29

2022-06-25 21:38:36

AI模型

2024-09-23 08:30:00

AI模型

2025-08-08 09:02:00

AI架構模型

2025-02-20 15:32:28

2025-04-09 09:15:00

數據模型AI

2023-09-21 10:29:01

AI模型

2025-09-11 06:57:11

2025-06-23 09:09:00

2022-11-02 14:02:02

強化學習訓練

2025-06-11 08:45:00

強化學習AI模型

2025-07-04 08:53:00

大模型AI訓練

2023-05-05 13:11:16

2025-02-03 06:00:00

2023-04-23 10:12:14

算法強化學習
點贊
收藏

51CTO技術棧公眾號

欧美精品一区二区久久| 国产精品一卡二卡三卡| 久久精品伊人| 色哟哟入口国产精品| 精品人妻一区二区三区免费| 俄罗斯一级**毛片在线播放| 久久久三级国产网站| 国产在线精品一区免费香蕉 | 久久综合精品国产一区二区三区| 日韩美女主播视频| 激情五月婷婷在线| 国内黄色精品| 精品动漫一区二区三区在线观看| 日本a√在线观看| 国产探花视频在线观看| 国产日韩影视精品| 国产日韩三区| 国产乱码久久久| 免费看的黄色欧美网站| 欧美成人免费全部观看天天性色| 37p粉嫩大胆色噜噜噜| yw.尤物在线精品视频| 亚洲午夜av在线| 亚洲一卡二卡三卡| 青青草免费在线视频| 国产精品18久久久久久久久久久久| 日本久久中文字幕| 久久亚洲av午夜福利精品一区| 精品国产一区探花在线观看 | 国产区高清在线| 国产ts人妖一区二区| 国产精品免费视频久久久| 69精品久久久| 一区二区蜜桃| www.xxxx欧美| 欧美另类z0zx974| 首页亚洲中字| 亚洲精品短视频| 自拍视频第一页| 欧美日韩中出| 欧美精品三级在线观看| 亚洲36d大奶网| 制服诱惑亚洲| 91福利小视频| 人妻内射一区二区在线视频| 国产自产自拍视频在线观看| 亚洲一区二区三区爽爽爽爽爽| 一区二区三区我不卡| 国产精品久久久久久久龚玥菲| 91亚洲男人天堂| 国产精品福利视频| 亚洲伦理在线观看| 国产做a爰片久久毛片| 91精品久久久久久久久久另类| 91黑人精品一区二区三区| 久久成人亚洲| 日本高清视频精品| 狠狠狠狠狠狠狠| 日韩激情一二三区| 神马久久久久久久久久| 免费网站免费进入在线| 国产亚洲精品资源在线26u| 精品国产一区二区三区免费 | 日韩欧美黄色动漫| 欧美,日韩,国产在线| 国产在线观看www| 精品日本美女福利在线观看| 人妻熟妇乱又伦精品视频| 日韩av一卡| 91激情在线视频| 麻豆一区二区三区视频| 青草综合视频| 日韩欧美国产午夜精品| 国产69视频在线观看| 黑人久久a级毛片免费观看| 亚洲国产精品推荐| 爱爱的免费视频| 欧美裸体在线版观看完整版| 色婷婷综合久久久久中文字幕1| av黄色免费在线观看| 2023国产精品久久久精品双| 欧美老肥婆性猛交视频| 国产一级片久久| 久久午夜精品| 国产成人精品一区二区在线| 亚洲天堂中文字幕在线| 国产乱码精品一品二品| 精品国产免费久久久久久尖叫 | 伊人中文字幕在线观看| 美腿丝袜在线亚洲一区| 成人av片网址| 九九热视频在线观看| 亚洲同性同志一二三专区| www.xxx麻豆| 午夜欧美巨大性欧美巨大| 欧美日韩精品欧美日韩精品一| 91香蕉视频免费看| 妖精视频一区二区三区免费观看| 日韩视频在线一区| 黄色一级片免费看| 美国一区二区三区在线播放| 国产精品.com| 日本中文字幕电影在线免费观看| 亚洲综合在线第一页| 久久人妻精品白浆国产| 精品国产亚洲一区二区在线观看| 日韩国产欧美精品在线| 黄色精品视频在线观看| 国产欧美二区| 亚洲中国色老太| 国产三级视频在线看| 一区二区三区.www| 天天干天天爽天天射| 国产乱人伦丫前精品视频| 久久精品99国产精品酒店日本| 日韩 欧美 综合| 国内成人免费视频| 丝袜足脚交91精品| 三妻四妾的电影电视剧在线观看| 91精品国产91综合久久蜜臀| 国产亚洲精品熟女国产成人| 黄色在线一区| 亚洲一区二区在线播放| www.av在线| 色综合天天综合网国产成人综合天 | 黄色网在线看| 在线免费观看不卡av| 日韩综合第一页| 图片区亚洲欧美小说区| 日韩av成人在线观看| 手机看片1024日韩| 一区二区国产盗摄色噜噜| 伊人国产在线视频| 久久av网址| 欧美一级黄色网| 成人小说亚洲一区二区三区| 亚洲欧美在线另类| 久久人人爽av| 欧美成人自拍| 国产精品一区二区久久久| 国产视频精品久久| 91豆麻精品91久久久久久| av直播在线观看| 亚洲精品少妇| 国产精品乱码视频| 国产盗摄一区二区| 欧美一二三区精品| 国产精品白丝喷水在线观看| 麻豆中文一区二区| 中文一区一区三区免费| 91国内外精品自在线播放| 亚洲国产精品一区二区三区| 国产精品999久久久| 国产福利一区二区三区| 国产美女作爱全过程免费视频| 精品中文在线| 欧美高清一级大片| 丁香六月色婷婷| 精品欧美激情精品一区| 女同毛片一区二区三区| 久久精品中文| 亚洲欧洲国产日韩精品| 欧美日韩免费电影| 久久成人精品视频| www日本视频| 亚洲电影一区二区| 一出一进一爽一粗一大视频| 香蕉精品999视频一区二区| 日韩av大全| 自拍偷拍亚洲| 久久久久久久久久亚洲| 天天干视频在线| 色国产精品一区在线观看| 精品无码在线观看| 国产在线不卡一区| 久久在线中文字幕| 欧美猛男同性videos| 国产精品自拍偷拍视频| a在线免费观看| 亚洲高清免费观看高清完整版| 中文字幕超碰在线| 欧美韩国日本综合| 中文字幕avav| 国产精品亚洲欧美| 在线观看一区二区三区三州| 日韩欧美中文字幕在线视频 | 538任你躁在线精品视频网站| 国产精品99久久久久久有的能看 | 久久狠狠婷婷| 中文字幕成人一区| 人人香蕉久久| 国产视频福利一区| 999av小视频在线| 一个色综合导航| 韩国av电影在线观看| 欧美亚洲国产一区在线观看网站 | 日本午夜精品理论片a级appf发布| 成全电影播放在线观看国语| 欧美一区二区性放荡片| 在线观看日本视频| 亚洲男女毛片无遮挡| 四虎永久免费影院| 国产精品一区在线观看乱码 | 欧美性猛片xxxx免费看久爱| 日本天堂中文字幕| 国产农村妇女毛片精品久久麻豆| 日本天堂在线播放| 麻豆精品在线视频| 国产97在线 | 亚洲| 亚洲视频电影在线| 欧美日韩在线观看一区| 大型av综合网站| 91精品久久久久久久久久久久久久 | 欧美激情网址| 7777奇米亚洲综合久久| 日韩高清不卡| 秋霞午夜一区二区| 污片在线免费观看| 久久视频免费观看| 尤物网址在线观看| 亚洲欧美在线一区二区| 黄色av免费观看| 91精品在线观看入口| 激情网站在线观看| 色综合激情久久| 欧美精品亚洲精品日韩精品| 亚洲欧美激情在线| 亚洲精品电影院| 国产日韩欧美精品综合| 亚洲av成人片无码| 国产成人aaa| 中文字幕在线视频一区二区三区| 久久天天综合| 亚洲精品中文字幕无码蜜桃| 亚洲日本国产| 亚洲国产精品无码av| 欧美日韩专区| 国产黄色激情视频| 国产精品啊啊啊| 成人免费看片视频在线观看| 欧美激情偷拍自拍| 一区二区三区不卡在线| 欧美偷拍综合| 亚洲成人av动漫| 日本一本不卡| 色之综合天天综合色天天棕色 | 国产一区二区视频在线播放| 亚洲精品久久久中文字幕| 奇米在线7777在线精品| 成人午夜激情av| 麻豆国产欧美日韩综合精品二区 | 日本久久二区| 国产精品69久久| 欧美××××黑人××性爽 | 国产麻豆电影在线观看| 日本不卡二三区| 亚洲春色综合另类校园电影| 国产精品手机在线播放 | 无码国产精品一区二区免费16| 精品国产网站在线观看| 婷婷视频在线观看| 亚洲男女自偷自拍图片另类| 久草福利在线| 色狠狠久久aa北条麻妃 | 久久久久久久久亚洲| 暧暧视频在线免费观看| 97人人做人人爱| 黑人巨大亚洲一区二区久 | 97色婷婷成人综合在线观看| 成人综合国产精品| jizz国产精品| 欧美精品与人动性物交免费看| 成人免费看片39| 一本一道久久a久久综合精品| 亚洲二区三区不卡| 国内精品视频一区二区三区| 午夜一区不卡| 欧美国产日韩另类| 成人精品视频一区二区三区| 黄瓜视频污在线观看| 国产精品国产自产拍高清av王其| 成年人av电影| 色综合网站在线| 国产视频第二页| 日韩大陆欧美高清视频区| 成人资源www网在线最新版| 久久久www成人免费精品| 123区在线| 国产精品影片在线观看| 粉嫩av一区二区| 图片区小说区区亚洲五月| 欧美精品国产| av五月天在线| 国产精品69毛片高清亚洲| 人人人妻人人澡人人爽欧美一区| 综合在线观看色| 99精品人妻国产毛片| 日韩亚洲欧美成人一区| 欧美日韩免费做爰大片| 久久亚洲精品成人| 日韩三级影视| 国产三区精品| 99久久亚洲精品蜜臀| 免费欧美一级视频| 国产精品性做久久久久久| 无码人妻aⅴ一区二区三区69岛| 亚洲蜜臀av乱码久久精品蜜桃| 欧美日韩一二三四区| 日韩丝袜美女视频| 在线看av的网址| 97在线观看视频| 日韩欧美中文字幕一区二区三区 | 香蕉国产精品| 国产日韩成人内射视频| 成人在线视频一区| 看黄色录像一级片| 欧美在线视频你懂得| 人妻91麻豆一区二区三区| 精品国产一区二区三区四区在线观看| 亚洲精品日产| 国产精品综合久久久久久| 亚洲国产日韩欧美在线| 亚洲欧美激情网| 久久欧美一区二区| 亚洲一区 视频| 日韩女优av电影| 国产视频一区二区| 国产中文字幕日韩| 欧美高清视频手机在在线| 欧美女人性生活视频| 本田岬高潮一区二区三区| 极品颜值美女露脸啪啪| 欧美精品丝袜久久久中文字幕| 第九色区av在线| 国产成人精品免费久久久久| 国产精品网址| a级黄色小视频| 成人97人人超碰人人99| 久热这里只有精品在线| 91精品在线观看入口| 精品孕妇一区二区三区| 国产伦精品免费视频| 日韩在线精品| 狠狠操狠狠干视频| 成人欧美一区二区三区小说| 一区二区日韩视频| 久久精品国产v日韩v亚洲| 亚洲网站免费| 中文字幕av导航| 国产激情一区二区三区四区 | 国产精品一区二区久久久久| 成人精品久久| 肉色超薄丝袜脚交| 一区二区欧美国产| 欧美熟女一区二区| 51久久精品夜色国产麻豆| 免费精品国产| 最近中文字幕一区二区| 国产精品久久久久国产精品日日| 夜夜躁狠狠躁日日躁av| 久久av.com| 一区二区三区四区视频免费观看| 成年人看的毛片| 91论坛在线播放| 丰满熟女人妻一区二区三| 色综合亚洲精品激情狠狠| 久久久国产精品入口麻豆| 国产激情片在线观看| 99久久伊人网影院| 91视频久久久| 欧美成人免费一级人片100| 白白在线精品| 精品久久久久av| 国产精品高潮呻吟| 国产成人手机在线| 欧美在线一级视频| 久久综合成人| 黄色在线免费播放| 色老头久久综合| av免费网站在线| 久久99精品久久久久子伦| 日韩精品免费视频人成| 九九热最新地址| 日韩精品视频在线观看网址| 中韩乱幕日产无线码一区| 国产激情在线看| 久久精品一区二区三区不卡牛牛| 在线免费看毛片| 久久久在线视频| 成人精品视频| 性囗交免费视频观看| 欧美性色综合网| 97天天综合网| 一区二区在线不卡| 91毛片在线观看| 国产麻豆精品一区| 日韩av成人在线| 影音先锋久久| 欧美肥妇bbwbbw| 精品无人区太爽高潮在线播放|