Karpathy盛贊「環(huán)境中心」!AGI最后一塊拼圖開(kāi)源,大廠豪擲百萬(wàn)鎖死
強(qiáng)化學(xué)習(xí)時(shí)代,什么最重要?
Karpathy給出了答案,環(huán)境!只有環(huán)境,才能讓LLM真正進(jìn)行交互、執(zhí)行動(dòng)作、觀察結(jié)果。

如今,一個(gè)開(kāi)源的環(huán)境中心——Environments Hub正式登場(chǎng)了,它由一家專(zhuān)注于去中心化AI開(kāi)發(fā)公司Prime Intellect發(fā)布。
圖片
一直以來(lái),RL環(huán)境是割裂的、封閉的,甚至難以共享。
但有且只有環(huán)境,定義了世界、規(guī)則,以及「狀態(tài)—?jiǎng)幼鳌?jiǎng)勵(lì)」的反饋閉環(huán)。
從游戲到編程,再到聊天對(duì)話(huà),它們是AI學(xué)習(xí)發(fā)生的場(chǎng)景。沒(méi)有它們,RL只是一套無(wú)從著力的算法。
圖片
Environments Hub的誕生,能夠讓任何人模擬出各種各樣、高質(zhì)量的環(huán)境,為開(kāi)源AGI做出貢獻(xiàn)。
AI智能體交互,缺的是環(huán)境
RL環(huán)境,是智能體學(xué)習(xí)的試驗(yàn)場(chǎng)。
回想一下,在預(yù)訓(xùn)練時(shí)代,互聯(lián)網(wǎng)數(shù)據(jù)是核心。LLM主要通過(guò)大量多樣,且高質(zhì)量的數(shù)據(jù)來(lái)學(xué)習(xí)。
到了監(jiān)督微調(diào)階段,重點(diǎn)變成了「對(duì)話(huà)數(shù)據(jù)」。
人們會(huì)雇傭外包團(tuán)隊(duì),來(lái)為問(wèn)題創(chuàng)建答案,類(lèi)似Stack Overflow、Quora平臺(tái)的模式,但又專(zhuān)為L(zhǎng)LM使用場(chǎng)景而設(shè)計(jì)。
如今到了強(qiáng)化學(xué)習(xí)時(shí)代,前兩個(gè)階段不會(huì)消失,但不同的是,環(huán)境成為了重心。
這些環(huán)境,可以用于模型訓(xùn)練,也可用于評(píng)估。不過(guò),問(wèn)題在于,如何創(chuàng)建出豐富多樣的環(huán)境?
Karpathy回憶道,OpenAI最早的一個(gè)項(xiàng)目Gym,一個(gè)希望用統(tǒng)一框架去構(gòu)建大規(guī)模環(huán)境集合。
圖片
GitHub地址:https://github.com/openai/gym
不過(guò),這都是近十年前,大模型還未興起的項(xiàng)目了。所以,當(dāng)時(shí)的環(huán)境,都是一些簡(jiǎn)單的經(jīng)典控制任務(wù),比如cartpole、ATARI之類(lèi)的。
而現(xiàn)在,Environments Hub是一個(gè)專(zhuān)門(mén)針對(duì)LLM構(gòu)建的版本。
Karpathy激動(dòng)地表示,「這是個(gè)非常棒的努力和想法」。今年初,他還發(fā)文建議過(guò)有人應(yīng)該做類(lèi)似的事情。
圖片
Environments Hub有個(gè)特點(diǎn),一旦框架構(gòu)建完成,原則上社區(qū)和行業(yè)就可以在不同領(lǐng)域并行開(kāi)發(fā)。
而且,環(huán)境和智能體交互的方向,是下一個(gè)未來(lái)。
圖片
大廠斥資幾百萬(wàn),搞出圍墻花園
為什么需要打造一個(gè)Environments Hub呢?
目前,多數(shù)強(qiáng)化學(xué)習(xí)環(huán)境是由初創(chuàng)公司構(gòu)建,并將其出售給少數(shù)幾家不對(duì)外開(kāi)放的大型實(shí)驗(yàn)室。
如果高質(zhì)量的學(xué)習(xí)環(huán)境一直保持封閉且昂貴,開(kāi)源模型將進(jìn)一步落后于閉源模型。
要想扭轉(zhuǎn)這種局勢(shì),需要有一個(gè)強(qiáng)大的開(kāi)源學(xué)習(xí)環(huán)境和訓(xùn)練工具生態(tài)系統(tǒng)能崛起。
圖片
Environments Hub正是承載著這個(gè)使命應(yīng)運(yùn)而生,旨在讓下一波初創(chuàng)公司和AI的發(fā)展能夠構(gòu)建于開(kāi)放的基礎(chǔ)設(shè)施和開(kāi)源模型之上。
核心功能,一鍵生成評(píng)估報(bào)告
總結(jié)來(lái)說(shuō),Environments Hub具備了以下功能亮點(diǎn):
- 通過(guò)Hub或CLI(命令行)拉取、推送并管理環(huán)境
- 生成跨模型的評(píng)測(cè)報(bào)告
- 與verifiers框架深度集成
- prime-rl訓(xùn)練器原生支持環(huán)境
- 提供用于代碼執(zhí)行的原生沙箱支持
你可以創(chuàng)建、管理和共享用于強(qiáng)化學(xué)習(xí)及評(píng)估的環(huán)境:
圖片
可以為不同模型創(chuàng)建和瀏覽環(huán)境評(píng)估報(bào)告:
圖片
可擴(kuò)展訓(xùn)練器prime-rl原生支持這些環(huán)境:
圖片
還有沙盒功能,可直接與Verifier Environments對(duì)接,以實(shí)現(xiàn)安全的代碼執(zhí)行。
圖片
如果還有你需求的功能沒(méi)有滿(mǎn)足,你也可以親自作為該開(kāi)源項(xiàng)目開(kāi)發(fā)者去貢獻(xiàn)代碼。
下一步:全棧式開(kāi)源AGI基礎(chǔ)設(shè)施
過(guò)去幾個(gè)月中,Environments Hub將基于Agent的強(qiáng)化學(xué)習(xí)訓(xùn)練擴(kuò)展到規(guī)模最大的開(kāi)源模型,并取得了顯著進(jìn)展。
隨著眾多眾包環(huán)境被引入INTELLECT-3,訓(xùn)練出一個(gè)完全開(kāi)放、最先進(jìn)的Agent模型將成為可能。
除此之外,Environments Hub關(guān)心的重點(diǎn)是,讓人人都能用上這套基礎(chǔ)設(shè)施,使研究人員和初創(chuàng)公司都能為自己的任務(wù)訓(xùn)練模型、集成工具、運(yùn)行強(qiáng)化微調(diào),以及優(yōu)化Agent支撐框架。
prime-rl的整個(gè)技術(shù)棧都是開(kāi)源的,正在擴(kuò)展到全球的計(jì)算資源上無(wú)縫運(yùn)行。
強(qiáng)化學(xué)習(xí)不僅是通往AGI的必經(jīng)之路,也是構(gòu)建AI原生產(chǎn)品的基礎(chǔ)。
未來(lái)最成功的初創(chuàng)公司,將是那些能根據(jù)自身需求,創(chuàng)造出差異化環(huán)境的公司。
圖片
如今,最大的障礙并非獲取強(qiáng)大模型,而在于大規(guī)模訓(xùn)練和部署它們所需的基礎(chǔ)設(shè)施及成本。
通過(guò)降低這一門(mén)檻,Environments Hub旨在為所有AI構(gòu)建者提供廉價(jià)、無(wú)縫的計(jì)算、推理和訓(xùn)練資源,以及全套的強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施。
參考資料:
https://www.primeintellect.ai/blog/environments
https://x.com/karpathy/status/1960803117689397543




























