LLM搶人血案:強(qiáng)化學(xué)習(xí)天才被挖空,一朝淪為「無(wú)人區(qū)」!
最近,斯坦福的AI+CS博士Joseph Suarez發(fā)表了對(duì)強(qiáng)化學(xué)習(xí)的歷史回顧。
結(jié)果,在??上火了!目前,已有38.2萬(wàn)閱讀。

封面可謂醒目:一條曲線線先是快速上升,然后平緩爬升,最后卻急轉(zhuǎn)直下 ,暗喻RL領(lǐng)域的研究前途不妙!
從歷史角度看,強(qiáng)化學(xué)習(xí)發(fā)生了什么?為什么到現(xiàn)在它才真正開始起飛?
他提供了獨(dú)特的個(gè)人視角。

師出名門
2019年, 他本科畢業(yè)于斯坦福大學(xué)計(jì)算機(jī)科學(xué)專業(yè)人工智能方向。
2018年,他利用休學(xué)期在OpenAI完成6個(gè)月實(shí)習(xí),期間正式發(fā)布Neural MMO首個(gè)公開版本。
更早之前,他曾在李飛飛課題組、吳恩達(dá)實(shí)驗(yàn)室參與過研究項(xiàng)目。
大約從2017年,他開始從事強(qiáng)化學(xué)習(xí)。
當(dāng)時(shí),他在麻省理工學(xué)院Phillip Isola實(shí)驗(yàn)室攻讀博士,開始創(chuàng)建開源計(jì)算研究平臺(tái)Neural MMO。
他的研究聚焦于推動(dòng)現(xiàn)代基于智能體的學(xué)習(xí)方法向更復(fù)雜、更具認(rèn)知真實(shí)性的環(huán)境拓展。

后來(lái),這個(gè)項(xiàng)目后來(lái)成為他整個(gè)博士生畢業(yè)論文的的主題。

論文鏈接:https://jsuarez5341.github.io/static/jsuarez_phd_thesis.pdf
這也為他PufferLib的工作奠定了基礎(chǔ)。

當(dāng)時(shí),各大實(shí)驗(yàn)室也在做從零開始、非語(yǔ)言模型的強(qiáng)化學(xué)習(xí)RL。
事實(shí)上,這是當(dāng)時(shí)大多數(shù)工作的重點(diǎn):多智能體(multiagent)剛剛興起,所有核心算法剛剛發(fā)布。
AlphaGo讓研究者已經(jīng)看到了強(qiáng)化學(xué)習(xí)的潛力。OpenAI Five正在開發(fā)中,當(dāng)時(shí)他恰好在OpenAI實(shí)習(xí),所以親眼看到了一些工作。

OpenAI的DoTA(Dota 2)項(xiàng)目,則完全讓他信服RL的神奇。

論文鏈接:https://cdn.openai.com/dota-2.pdf
你如果不玩這款游戲,難以想象這個(gè)問題有多復(fù)雜。
你不會(huì)相信人們居然把打DoTA當(dāng)成愛好。它和圍棋并非完全一樣,無(wú)法直接比較,但它確實(shí)涉及許多圍棋中沒有的、與現(xiàn)實(shí)世界相關(guān)的推理類型。
比如,高低級(jí)策略、控制、團(tuán)隊(duì)協(xié)調(diào)和心智理論(theory of mind),這些只是其中幾個(gè)例子。

而OpenAI用1.68億參數(shù)的網(wǎng)絡(luò),在約1000個(gè)GPU上訓(xùn)練,打敗了頂尖職業(yè)選手。

現(xiàn)在,用64到128個(gè)H100 GPU,你也能做到。
而且還不止一個(gè)結(jié)果。還有AlphaStar、Capture the Flag、Emergent Tool Use……

在訓(xùn)練過程中,AlphaStar最終被選中與職業(yè)選手MaNa對(duì)抗的智能體(黑點(diǎn))其策略與競(jìng)爭(zhēng)對(duì)手(彩點(diǎn))的演化過程。每個(gè)彩點(diǎn)代表AlphaStar聯(lián)賽中的一位競(jìng)爭(zhēng)對(duì)手
短短時(shí)間內(nèi),有好幾個(gè)主要的RL展示項(xiàng)目。那么,既然潛力這么明顯,領(lǐng)域肯定會(huì)繼續(xù)前進(jìn),對(duì)吧……對(duì)吧???
為什么RL衰落了
從2019年到2022年的,有些工作繼續(xù)在進(jìn)行,但強(qiáng)化學(xué)習(xí)明顯在走下坡路。
盡管那幾年論文更多了,但沒有多少像2017-2019年那種水平的持久突破。究竟發(fā)生了什么?
首要的因素是學(xué)術(shù)短視。
整個(gè)領(lǐng)域集體決定了一套標(biāo)準(zhǔn),卻沒有實(shí)際理由。在這些標(biāo)準(zhǔn)下,幾乎不可能出現(xiàn)什么進(jìn)步。
由于歷史原因,Agent57成為了最常見的基準(zhǔn),共包含57款雅達(dá)利游戲。

由于任務(wù)結(jié)果波動(dòng)大,需要運(yùn)行所有游戲(理想情況下,每款游戲使用多個(gè)種子)。同時(shí),學(xué)界決定x軸應(yīng)該是樣本數(shù),而不是實(shí)際運(yùn)行時(shí)間(墻鐘時(shí)間)。
背后的想法是,這更接近現(xiàn)實(shí)世界的學(xué)習(xí),許多問題受限于采樣率。而且你不用擔(dān)心不同論文的硬件設(shè)置。
然而,顯而易見的問題是沒有限制硬件使用量,可以通過投入更多計(jì)算資源來(lái)提升基準(zhǔn)成績(jī)。因此,研究變得愈加耗時(shí),以至于單個(gè)游戲的單獨(dú)運(yùn)行可能需要耗費(fèi)數(shù)周的GPU時(shí)間。
因?yàn)閷W(xué)術(shù)界對(duì)工程很排斥,代碼基底也慢得可怕。更不用說(shuō)有限的預(yù)算……
所以,你最終需要1萬(wàn)GPU小時(shí),在利用率不到5%的情況下運(yùn)行一組消融實(shí)驗(yàn)(ablations)。
這樣的研究方式根本行不通,跟好的科學(xué)更不沾邊。
要是沒有上萬(wàn)小時(shí)的GPU算力,很多人干脆不做消融實(shí)驗(yàn)就直接發(fā)論文——難怪那時(shí)候的研究成果基本無(wú)法復(fù)現(xiàn)。
另外,學(xué)界追名逐利。
大語(yǔ)言模型(LLMs)出現(xiàn)了。
人們經(jīng)常問他為什么討厭LLM。他真的不討厭。他討厭的是,它們從其他領(lǐng)域吸走了99%的天才,而不是更合理的80%。
他眼看著最有才華的同事一個(gè)個(gè)離開RL研究領(lǐng)域,被雇去研究LLM。這很難去責(zé)怪他們。做RL太糟了。那是艱苦、殘酷的工作,對(duì)抗一套似乎專門設(shè)計(jì)來(lái)阻礙真正進(jìn)步。
在一般深度學(xué)習(xí)中你習(xí)以為常的基本東西,甚至2015年的東西,在RL中都不存在。
超參數(shù)沒道理,模型無(wú)法擴(kuò)展,簡(jiǎn)單的任務(wù)也無(wú)法順利轉(zhuǎn)移。
盡管他們有證據(jù)證明RL能在DoTA和圍棋之類的驚人問題上奏效,但日常工作的感覺就是絕望。
現(xiàn)在的RL重蹈覆轍
緩慢的實(shí)驗(yàn)周期、過度優(yōu)化的評(píng)價(jià)體系、遲緩的開發(fā)進(jìn)度……這一切聽起來(lái)是否耳熟?
現(xiàn)代RL研究不知怎么花了數(shù)十億美元,卻再現(xiàn)了最初扼殺RL發(fā)展的混亂局面,重蹈覆轍。
David Peterson對(duì)此非常認(rèn)同:強(qiáng)化學(xué)習(xí)莫名其妙地多次重蹈覆轍,上一次是時(shí)序差分。

這一次它會(huì)走得更遠(yuǎn),畢竟有利可圖……但效率極低。
看著該領(lǐng)域重新陷入前人多年前就已經(jīng)克服的困境,同時(shí)為各種概念創(chuàng)造新的術(shù)語(yǔ),令人啼笑皆非。
「多輪RL」意思是「不只是賭博機(jī)問題」(not a bandit)。這幾乎涵蓋了全部的RL新研究,除了某些小眾理論研究。
「長(zhǎng)期規(guī)劃」(Long horizons)也不是新東西,這也不是讓問題變得如此困難的全貌。
當(dāng)前對(duì)早期RL研究的充滿了不信任,Joseph Suarez表示理解——
因?yàn)樵S多發(fā)表的內(nèi)容確實(shí)存在問題。
另尋他路
Joseph Suarez還在堅(jiān)持用小模型從零開始的RL。
只是現(xiàn)在,這不再是衰落的舊勢(shì)力,他們?cè)谝泽@人速度突破。
那么,什么改變了?
完成博士學(xué)位后,他決定完全從學(xué)界的隨意的標(biāo)準(zhǔn)中解放出來(lái),從頭重建RL。
標(biāo)準(zhǔn)是墻鐘訓(xùn)練時(shí)間,性能工程將和算法工作一樣重要。
他花幾個(gè)月時(shí)間拆除所有慢的基礎(chǔ)設(shè)施,目標(biāo)是每秒數(shù)百萬(wàn)步的吞吐,而不是幾千。
起初,這只是現(xiàn)有方法的加速版本。這對(duì)解決行業(yè)中因成本過高而難以實(shí)施的問題已綽綽有余。
但這還不止——這個(gè)過程實(shí)際上讓他們能夠以前所未有的速度開展高質(zhì)量研究。當(dāng)你可以運(yùn)行1000倍的實(shí)驗(yàn)時(shí),無(wú)需過于精巧的方法論;當(dāng)所有選項(xiàng)都可以測(cè)試時(shí),也無(wú)需小心翼翼地挑選變量。

最新基準(zhǔn)測(cè)試顯示,在單個(gè)RTX 5090上,強(qiáng)化學(xué)習(xí)庫(kù)PufferLib 3.0的訓(xùn)練速度最高可達(dá)每秒400萬(wàn)步
一年前,你需要RL博士學(xué)位和幾周到幾個(gè)月來(lái)處理每個(gè)新問題。如果你沒有經(jīng)驗(yàn),耗時(shí)就更長(zhǎng)了。現(xiàn)在,新手程序員在幾天內(nèi)讓RL在新問題上運(yùn)行。不是超級(jí)難的問題——那些還是需要點(diǎn)經(jīng)驗(yàn)。但比之前好多了。
他們走在正確方向的跡象:他們?cè)诤?jiǎn)單環(huán)境上的實(shí)驗(yàn)?zāi)芊夯礁y環(huán)境。
他們認(rèn)為之前的batch size和特定退化超參數(shù)是罪魁禍?zhǔn)住2皇?00%——肯定有些技術(shù)只有在更難問題上才見效。
但他們現(xiàn)在有足夠多在幾分鐘內(nèi)運(yùn)行的技術(shù),開發(fā)周期還是很快。
下一步:他們計(jì)劃能用現(xiàn)有東西解決有價(jià)值的問題。
只要能建快模擬器,RL大多能工作。嘿,在很多問題上,它開箱即用。
長(zhǎng)期來(lái)看,他們會(huì)回到舊的樣本效率研究。但他們還是會(huì)從至少保持flop效率的角度接近它。不再讓GPU在5%利用率下跑批量大小8的200萬(wàn)參數(shù)網(wǎng)絡(luò)。































