精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

“無獎勵”也能超越強化學習?Meta新方法讓語言智能體自我成長 原創

發布于 2025-11-13 08:25
瀏覽
0收藏

如果有一天,一個語言智能體(Language Agent)能不依賴任何獎勵機制、沒有人工示范,就能通過“自己探索的結果”學得比模仿學習還好——這是不是有點像人類的“頓悟”?

Meta Superintelligence Labs 最近發布的新研究 《Early Experience》(早期經驗)正是這樣一種讓智能體“自我成長”的新方法。它在沒有獎勵、沒有強化學習(RL)主循環、甚至不依賴大規模人類示范的前提下,依然在 8 個任務環境中全面超越模仿學習(IL)。

這不是魔法,而是一次對智能體學習范式的根本重構。

一、AI 訓練的“中間地帶”:從模仿到自省

過去的語言智能體大多依賴兩種學習方式:

  1. 模仿學習(Imitation Learning, IL)——通過模仿專家行為進行學習,訓練快、成本低,但問題在于一旦遇到“沒見過”的場景(out-of-distribution),表現就會顯著下降。
  2. 強化學習(Reinforcement Learning, RL)——通過獎勵信號驅動模型優化,但需要可驗證的獎勵函數和穩定的環境——在復雜的 Web、API 或多工具協作場景中,這幾乎不現實。

而 Early Experience 選擇了一條“中間路徑”:

它像模仿學習一樣無需獎勵,但監督信號來自智能體自己行為的結果,而不是僅僅模仿專家動作。

換句話說,智能體不再只是“學別人怎么做”,而是“看自己做了什么,再反思哪里做得好”。

“無獎勵”也能超越強化學習?Meta新方法讓語言智能體自我成長-AI.x社區

二、核心機制:讓智能體從后果中學習

Meta 的研究團隊在這一框架下提出了兩個關鍵策略:

1?? 隱式世界建模(Implicit World Modeling, IWM)

讓模型預測“下一步會發生什么”。 當智能體在一個狀態下采取某個行動后,它需要預測環境隨之變化的狀態。 這種方式逼迫模型建立對環境動態的理解,從而減少偏離策略(off-policy drift)的問題。

簡單來說:

模型學會了理解“自己的行為會帶來什么后果”,而不是機械地執行指令。

2?? 自我反思(Self-Reflection, SR)

在同一狀態下,模型會看到專家動作與自身動作的對比,然后嘗試解釋:

“為什么專家的動作更好?”

這些解釋來自真實的執行結果——也就是說,模型不僅比較,還會“反思”為什么會差。這種對比式的信號,用來進一步微調策略。

兩種方法的共同點是:

  • 預算與模仿學習相同(訓練成本不變);
  • 唯一不同是數據來源:不再收集更多專家示范,而是利用智能體自身生成的“未來狀態”。

“無獎勵”也能超越強化學習?Meta新方法讓語言智能體自我成長-AI.x社區

三、八大環境驗證:平均提升近10個百分點

研究團隊在 8 個不同的語言智能體任務環境中進行了評估,包括:

  • WebShop(網頁交易與導航)
  • TravelPlanner(約束條件下的行程規劃)
  • ScienceWorld(科學推理與實驗)
  • ALFWorld(具身環境下的行動)
  • Tau-Bench等多領域任務

結果令人驚訝:

Early Experience 平均在成功率上比模仿學習高出 +9.6,在分布外任務(OOD)上提升 +9.4

更令人印象深刻的是,當相同的模型用于強化學習(GRPO)初始化時,最終性能還能再提升 +6.4,相比從模仿學習出發的強化學習,起點更高、收斂更快。

四、效率革命:1/8 的專家數據就能超越

一個實用價值極高的結果是:Early Experience 的數據效率極高

在固定訓練預算下:

  • WebShop中,只需1/8 的專家示范就能超越用滿量數據訓練的模仿學習;
  • ALFWorld中,只用一半的示范數量就能追平;
  • 隨著數據增多,優勢還會擴大。

這說明:智能體生成的“未來狀態”包含了傳統示范中沒有的監督信號。 換句話說,它能從錯誤中學得更多。

五、數據構建:從專家出發,但走自己的路

整個數據生成流程非常巧妙:

  1. 從少量專家示范出發,獲得一批“代表性狀態”;
  2. 智能體在這些狀態上提出不同的動作選擇;
  3. 執行這些動作并記錄結果——也就是“下一狀態”。

隨后:

  • 對于IWM:生成三元組 ?state, action, next-state?,目標是預測下一個狀態;
  • 對于SR:生成包含專家動作與多種替代動作及其結果的提示,讓模型解釋“為什么專家更好”。

這種自我生成的數據,使得智能體可以在無需額外獎勵或標注的情況下持續成長。

六、強化學習的角色:從“獎勵驅動”到“結果驅動”

雖然 Early Experience 被稱為“無獎勵訓練”,但它并不是強化學習的替代品。 它更像是強化學習的前奏

研究者的策略是:

先用 Early Experience 做 reward-free 預訓練,再在有獎勵的環境中繼續強化學習。

由于初始策略比模仿學習更穩定、泛化更強,后續的強化學習在相同調度下能達到更高的上限。

這意味著:

  • Early Experience 是IL 與 RL 之間的橋梁
  • 在缺乏獎勵信號的環境中,它能獨立工作;
  • 在獎勵可用時,它能顯著提升強化學習的最終效果。

七、關鍵結論:智能體“學會思考”的第一步

這項研究帶來了幾個令人深思的結論:

  • 無需獎勵的自我訓練也能實現性能提升,關鍵在于能否從“后果”中學習。
  • IWM 與 SR兩種機制幫助模型形成環境動態理解與自我反思能力。
  • 在 WebShop、TravelPlanner、ScienceWorld 等環境中,分別獲得+18.4、+15.0、+13.3的性能提升。
  • 數據效率極高:1/8 的示范即可超越全量 IL,節省大量人工標注成本。
  • 強化學習增強:以 Early Experience 初始化的 RL,比以 IL 初始化的 RL 最終成功率高+6.4

這讓 Early Experience 成為了連接模仿學習與強化學習之間的“缺失環節”——一種兼顧自主性與穩定性的通用學習范式。

八、從研究到落地:智能體的下一階段

Meta 的這項工作不僅是學術上的突破,更具有實際落地意義。

在當下的 AI Agent 體系中,很多場景(如網頁交互、復雜工具鏈執行、科研助理)都難以獲得穩定的獎勵信號。Early Experience 為這類系統提供了一條可行的路徑——讓模型在無獎勵條件下持續改進。

它的兩個核心思想——

  • 通過預測未來建立世界模型
  • 通過結果對比進行自我反思; 正好對應了人類認知發展的兩個階段:

“想象未來的后果” 與 “從錯誤中反思成長”。

這讓語言智能體第一次,真正具備了“從經驗中學習”的能力。

結語:當 AI 學會“后果自省”,智能體的邊界被重新定義

Early Experience 讓我們看到:智能體不一定要靠獎勵驅動成長,它可以靠結果反饋、靠反思機制、靠內化的世界模型

這正如人類學習駕駛,不是因為每次操作有獎勵,而是因為我們通過觀察結果(剎不住車、轉彎太急)不斷修正。 當智能體擁有這種能力,它就離“真正的自主智能”更近一步。

?

本文轉載自??Halo咯咯??    作者:基咯咯

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
久久av一区二区三区| jizz国产精品| 亚洲欧美偷拍三级| 国产精品xxxx| 波多野结衣一区二区三区在线| 国产成人毛片| 亚洲人成小说网站色在线| 国产一区二区黄色| 中文字幕在线2019| 在线看片日韩| 日韩午夜在线视频| 亚洲欧美在线不卡| 国产aa精品| 日韩欧美在线视频观看| 中文字幕在线观看一区二区三区| 亚洲精品男人的天堂| 欧美残忍xxxx极端| 日韩精品中文字幕有码专区| 9l视频白拍9色9l视频| 99热99re6国产在线播放| 国产精品五月天| 狠狠色狠狠色综合人人| 国产绿帽刺激高潮对白| 丝袜亚洲另类欧美| 海角国产乱辈乱精品视频| 黄色国产在线播放| 神马影视一区二区| 亚洲国产欧美日韩精品| 亚洲国产综合av| 精品久久久网| 欧美日韩亚洲系列| 91.com在线| 精品国产丝袜高跟鞋| 久久精品一区二区三区不卡牛牛| 国产精品极品尤物在线观看| 豆国产97在线 | 亚洲| 日韩欧美电影| 亚洲男人av电影| 久久久久久久无码| 成人香蕉社区| 欧美刺激午夜性久久久久久久| 可以看毛片的网址| av在线播放观看| 国产精品久久三| 亚洲精品第一区二区三区| 五月天福利视频| caoporen国产精品视频| 国产精品久久久久久久久久久久冷| 欧美精品二区三区| 一本久道久久久| 2019最新中文字幕| 天天爽夜夜爽夜夜爽精品| 99精品久久久| 2024亚洲男人天堂| 日韩成人av毛片| 999亚洲国产精| 97精品在线观看| 日本天堂网在线| 香蕉国产精品偷在线观看不卡| 中文字幕av一区中文字幕天堂 | 懂色av一区| 一区二区三区在线观看网站| 草草草视频在线观看| 伊人手机在线| 午夜精品久久久久久久久久久| 日韩av高清在线播放| 国产精品免费观看| 国产精品国产三级国产普通话蜜臀 | 99久久久精品视频| 丰满大乳少妇在线观看网站 | 日本视频一区在线观看| 牛牛热在线视频| 国产免费成人在线视频| 91香蕉视频网址| 日本一级理论片在线大全| 亚洲成av人**亚洲成av**| 欧美视频在线观看网站| 久久毛片亚洲| 欧美日韩成人激情| 91成人在线观看喷潮蘑菇| 激情视频极品美女日韩| 亚洲片在线资源| 国产精品麻豆免费版现看视频| 亚洲性视频大全| 中文字幕日韩有码| 欧美成人精品欧美一| 亚洲专区在线| 国产女同一区二区| www.av网站| 久久久不卡影院| 欧美 日韩 国产 在线观看| 波多野结衣乳巨码无在线观看| 亚洲精品国产a久久久久久| 日韩五码在线观看| 国外成人福利视频| 亚洲а∨天堂久久精品喷水| 亚洲性猛交xxxx乱大交| 欧美黄色免费| 国产精品美女999| 免费观看的毛片| 国产女主播在线一区二区| av在线免费观看国产| 欧美xxxx做受欧美护士| 欧美成人精品高清在线播放| 深爱五月激情网| 欧美1区2区| 国产精品日韩欧美大师| 少妇高潮久久久| 成人免费在线观看入口| 免费在线激情视频| 一区二区三区四区精品视频| 中文字幕日韩av电影| 日韩熟女精品一区二区三区| 久久99精品一区二区三区三区| 91香蕉电影院| 国产在线你懂得| 精品国产31久久久久久| 国产一级免费大片| 国产亚洲一区二区三区不卡| 高清欧美电影在线| 国产成人精品一区二区无码呦| 国产成a人亚洲精品| 亚洲激情图片| 欧美一级大黄| 亚洲国产精品久久91精品| 欧美xxxooo| 日韩专区在线视频| 久久久福利视频| aa国产成人| 欧美成人在线直播| 国产精品 欧美激情| 麻豆视频观看网址久久| 日本一区二区三区www| 中文字幕乱码在线播放| 亚洲国产欧美自拍| 国产一级淫片a| 成人免费va视频| 97碰在线视频| 丁香5月婷婷久久| 国产做受高潮69| 国产成人手机在线| 亚洲一区二区在线观看视频 | 亚洲第一免费播放区| 国产精品 欧美激情| 久久精品国产久精国产爱| 亚洲成人一区二区三区| 嫩草伊人久久精品少妇av杨幂| 日韩精品一区二区在线| 午夜精品久久久久99蜜桃最新版| 亚洲激情综合| 成人免费视频网站入口| 在线电影福利片| 欧美一级日韩不卡播放免费| 婷婷久久综合网| 国产精品一品二品| 久久久久久久9| 美国一区二区| 欧美最猛黑人xxxx黑人猛叫黄| 国产精品毛片久久久久久久av| 国产精品亚洲а∨天堂免在线| 美国av一区二区三区| 看黄在线观看| 亚洲视频777| 一级爱爱免费视频| 亚洲精品自拍动漫在线| 亚洲少妇一区二区三区| 国产日韩一区二区三区在线播放| 91传媒视频免费| av福利导福航大全在线| 亚洲女人天堂网| 中日韩在线观看视频| 亚洲欧美aⅴ...| 亚洲av成人无码一二三在线观看| 97在线精品| 97久久天天综合色天天综合色hd | 一级特黄aaa大片| 亚洲色图清纯唯美| 亚洲欧美日韩偷拍| 另类av一区二区| 中文字幕av导航| 欧美激情网址| 国产精品一区二区三区毛片淫片| 欧美套图亚洲一区| 欧美日本乱大交xxxxx| 国产一国产二国产三| 久久色在线视频| 中文字幕视频三区| 国产深夜精品| 最新不卡av| 美女视频免费精品| 国产一区二区香蕉| 激情黄产视频在线免费观看| 亚洲区在线播放| 国产按摩一区二区三区| 欧美视频在线观看免费网址| 亚洲区一区二区三| 91碰在线视频| 一级黄色免费毛片| 日韩**一区毛片| 精品久久一二三| 亚州av乱码久久精品蜜桃 | 97超视频在线观看| 午夜欧美视频在线观看 | 久久综合九色综合97婷婷| 五月激情五月婷婷| 亚洲中午字幕| 国产在线视频综合| 国产精品成人a在线观看| 久久99蜜桃综合影院免费观看| 国产夫妻在线播放| 色噜噜狠狠狠综合曰曰曰| 午夜影院免费体验区| 日韩亚洲欧美中文三级| 最近中文字幕在线观看视频| 午夜av电影一区| 99精品久久久久| 中文字幕亚洲电影| 欧美精品日韩在线| 久久精品一区二区三区不卡 | 日韩中文综合网| 色吊丝在线永久观看最新版本| 欧美视频国产精品| 国产精品99re| 亚洲综合免费观看高清完整版| 极品白嫩的小少妇| 久久精品国产久精国产| caoporn超碰97| 午夜在线视频一区二区区别| 久久久久99精品成人片| 综合在线一区| 资源网第一页久久久| 日韩久久精品网| 日本欧美精品久久久| 深爱激情久久| 日韩尤物视频| 精品国产一区二区三区久久久樱花| 国产精品视频地址| 久久毛片亚洲| 国产99在线|中文| 久久uomeier| 国产精品电影久久久久电影网| av官网在线播放| 欧美成人午夜激情视频| 国产黄a三级三级三级av在线看| 日韩www在线| 婷婷在线观看视频| 亚洲国产天堂久久国产91| 污污视频在线免费看| 亚洲国产毛片完整版| 外国精品视频在线观看 | 美美哒免费高清在线观看视频一区二区 | 亚洲经典一区二区| 日韩精品专区在线影院重磅| www.午夜激情| 亚洲黄色在线观看| 免费a在线观看| 一个人www欧美| 伦xxxx在线| 久久97精品久久久久久久不卡 | 久久动漫网址| 久久av免费观看| 一本久久青青| 亚洲精品乱码久久久久久蜜桃91 | www亚洲国产| 欧美一区网站| 福利视频一区二区三区四区| 国产精品毛片一区二区三区| 99久久国产宗和精品1上映 | 少妇网站在线观看| 精品亚洲aⅴ乱码一区二区三区| 欧美黑人经典片免费观看| 亚洲精品资源| 熟女少妇精品一区二区| 精品一区二区在线免费观看| 国产老头和老头xxxx×| 91在线免费播放| 久久久久久久久福利| 亚洲激情欧美激情| www.国产毛片| 欧美一区二区三区在线观看 | 国产精品一二一区| 在线观看av中文字幕| 中文字幕欧美激情一区| 欧美精品xxxxx| 色婷婷久久一区二区三区麻豆| 激情综合网五月婷婷| 一本在线高清不卡dvd| 国产精品国产一区二区三区四区| 欧美综合久久久| 国产成人三级在线播放| 国产视频欧美视频| 在线观看av黄网站永久| 久久久久中文字幕| 国产精品黄色片| 国产一区免费视频| 亚洲深深色噜噜狠狠爱网站| 狠狠爱免费视频| 国产成人在线色| 亚洲理论片在线观看| 亚洲综合一区二区精品导航| 日本a级c片免费看三区| 日韩一区二区在线观看视频| 黄色片在线免费看| 欧美激情奇米色| gogo大尺度成人免费视频| 欧美精品一区二区三区久久| 欧美在线资源| 三上悠亚在线一区| 国产亚洲一二三区| 亚洲欧美在线观看视频| 欧美一区二区三区小说| h网站视频在线观看| 91av在线免费观看| 亚洲一区二区三区四区电影 | 日本少妇一区二区三区| 国产三级三级三级精品8ⅰ区| 精品国产aaa| 亚洲超碰97人人做人人爱| 国产av精国产传媒| 日韩在线高清视频| 成人做爰免费视频免费看| 免费亚洲精品视频| 国产精品亚洲综合久久| 麻豆精品国产传媒av| 一个色在线综合| 国产高清不卡视频| 久久亚洲精品视频| 四虎影视精品永久在线观看| 色综合久久久久久久久五月| 久久午夜精品| 91精品人妻一区二区| 午夜日韩在线观看| 亚洲 国产 欧美 日韩| 国内伊人久久久久久网站视频 | 亚洲黄色一区二区三区| 视频一区二区三区在线| 丝袜美腿中文字幕| 狠狠爱在线视频一区| 视频一区二区在线播放| 欧美野外猛男的大粗鳮| 色婷婷综合久久久久久| 欧美二区在线视频| 久久综合资源网| 毛片基地在线观看| 精品中文字幕久久久久久| 成人小电影网站| 日本精品一区二区| 美女精品自拍一二三四| 四虎884aa成人精品| 日韩一本二本av| av在线最新| 欧美自拍资源在线| 日本不卡123| 国产精品视频一区二区在线观看| 精品久久久久久亚洲国产300| 中文字幕丰满人伦在线| 三级精品视频久久久久| www.成人| 国产一级爱c视频| 久久免费偷拍视频| 中文字幕av无码一区二区三区| 亚洲电影免费观看高清完整版在线| 春暖花开成人亚洲区| 国产精品网红直播| 欧美va天堂| 成人影视免费观看| 欧美亚洲免费在线一区| 黄色网址免费在线观看| 99久久自偷自偷国产精品不卡| 欧美少妇xxxx| 亚洲一二区在线观看| 亚洲国产精品久久人人爱| 青青九九免费视频在线| 国产中文日韩欧美| 亚洲国产导航| 成人免费视频入口| 欧美一区二区三区四区久久| 激情国产在线| 日本免费在线视频观看| 不卡视频一二三| 在线免费观看av片| 欧美黑人国产人伦爽爽爽| 免费成人结看片| 久久久久久久久久毛片| 天天影视网天天综合色在线播放| 嫩草影院一区二区| 国产精品久久久久免费a∨| 综合激情一区| 97超碰在线资源| 日韩欧美国产综合在线一区二区三区| 日本免费视频在线观看| 成人三级视频在线观看一区二区| 亚洲中无吗在线| 亚洲精品乱码久久久久久不卡| 亚洲国产精品尤物yw在线观看| va视频在线观看| 17婷婷久久www| 欧美成人精品| 欧美人与禽zoz0善交| 日韩av在线免费看|