知識(shí)儲(chǔ)備≠模型能力!DeepMind強(qiáng)化學(xué)習(xí)微調(diào):大幅縮小「知行差距」
大語言模型的知識(shí)儲(chǔ)備要遠(yuǎn)遠(yuǎn)超越任何一個(gè)人類,在各種領(lǐng)域、應(yīng)用場(chǎng)景下都展現(xiàn)出了驚人的「世界知識(shí)」。
最近興起的智能體,就是要求模型利用自身知識(shí),在沒有大量與環(huán)境互動(dòng)的情況下生成更優(yōu)的行動(dòng)預(yù)測(cè),比如思維鏈(CoT)就能讓模型能夠?qū)τ^察到的歷史和自己的行動(dòng)進(jìn)行推理,提升與環(huán)境互動(dòng)的表現(xiàn)。
不過,在決策(decision-making)場(chǎng)景中,「知識(shí)儲(chǔ)備」和「推理優(yōu)勢(shì)」并沒有提升大模型的能力,反而可能導(dǎo)致探索力不足,使得決策結(jié)果不夠理想。
有研究結(jié)果顯示,即便在「狀態(tài)空間有限」的應(yīng)用中,比如網(wǎng)格世界或是Atari游戲,大模型的決策能力也有待提升。
這種缺陷可能來自大模型的「知行差距」(knowing-doing gap),即模型可能知道任務(wù)的相關(guān)知識(shí),或者能夠描述自己行動(dòng)的后果(知道該做什么),但在行動(dòng)時(shí)卻無法將這些知識(shí)付諸實(shí)踐(無法做到)。
最近,Google DeepMind和約翰·開普勒林茨大學(xué)(JKU Linz)的研究人員系統(tǒng)地研究了中小規(guī)模LLMs中常見的三種失敗模式:貪婪性、頻率偏差和知行差距。
分析結(jié)果表明,大模型的最終表現(xiàn)不夠理想的原因,主要是因?yàn)長(zhǎng)LMs過早地選擇了貪婪的行動(dòng)策略,導(dǎo)致行動(dòng)覆蓋停滯不前,高達(dá)55%的行動(dòng)空間都沒有被探索到。

論文鏈接:https://arxiv.org/pdf/2504.16078
小規(guī)模的LLMs(20億參數(shù))在不同獎(jiǎng)勵(lì)機(jī)制下,都表現(xiàn)出模仿上下文中最頻繁的行動(dòng),以以犧牲探索空間為代價(jià),表現(xiàn)出貪婪搜索性。
研究人員對(duì)知行差距進(jìn)行了量化,發(fā)現(xiàn)LLMs通常知道如何解決任務(wù)(87%的正確推理),但在行動(dòng)時(shí)卻無法利用這些知識(shí),主要因?yàn)閮?yōu)先選擇貪婪的行動(dòng),在推理正確的情況下,64%的行動(dòng)是貪婪的。
為了克服這些缺陷,研究人員提出了基于自我生成的推理過程(CoT)的強(qiáng)化學(xué)習(xí)微調(diào)(RLFT),在多臂老虎機(jī)(MAB)、上下文老虎機(jī)(CB)和文字版井字棋任務(wù)中,使用三種規(guī)模(20億、90億和270億參數(shù))的Gemma2模型進(jìn)行效果研究。
結(jié)果發(fā)現(xiàn),RLFT通過增加探索性并縮小「知行差距」來增強(qiáng)LMs的決策能力,盡管RLFT對(duì)LLM智能體的探索性產(chǎn)生了積極影響,但其探索策略仍然不夠理想。
因此,研究人員對(duì)強(qiáng)化學(xué)習(xí)中常用的「經(jīng)典」探索機(jī)制(如?-貪婪算法)以及LLM中特有的方法(如自我修正和自我一致性)進(jìn)行了實(shí)證評(píng)估,以實(shí)現(xiàn)更有效的決策場(chǎng)景微調(diào)。
強(qiáng)化學(xué)習(xí)微調(diào)(RLFT)
強(qiáng)化學(xué)習(xí)和RLHF
簡(jiǎn)單來說,強(qiáng)化學(xué)習(xí)就是教模型在不同的場(chǎng)景(狀態(tài)空間S)下,決策出做不同的動(dòng)作(行動(dòng)空間A),每次做完動(dòng)作,都會(huì)根據(jù)表現(xiàn)獲得獎(jiǎng)勵(lì)(獎(jiǎng)勵(lì)函數(shù)R)以學(xué)習(xí)。
學(xué)習(xí)過程是一個(gè)馬爾可夫決策過程,用一個(gè)四元組(S,A,P,R)來表示,其中P表示狀態(tài)轉(zhuǎn)移,在做完動(dòng)作后,以不同概率進(jìn)入新的狀態(tài)。
強(qiáng)化學(xué)習(xí)的目標(biāo)就是讓模型找到一個(gè)最好的策略(πθ),以在不同場(chǎng)景下選擇獎(jiǎng)勵(lì)最多的行動(dòng)。

基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)就是引導(dǎo)模型學(xué)習(xí)人類偏好的動(dòng)作,偏好數(shù)據(jù)由人類標(biāo)注獲得,記錄在獎(jiǎng)勵(lì)模型(rφ)中。
RLHF學(xué)習(xí)過程中,會(huì)用一個(gè)參考策略(π_ref)作為參考,模型在之參考策略進(jìn)行調(diào)整,還會(huì)用一個(gè)權(quán)重項(xiàng)(β)來平衡學(xué)習(xí)的速度和方向,以及一個(gè)基線(b)來減少學(xué)習(xí)過程中的波動(dòng),讓學(xué)習(xí)更加穩(wěn)定。
RLFT
強(qiáng)化學(xué)習(xí)微調(diào)(RLFT)方法主要是通過與環(huán)境互動(dòng)獲得的獎(jiǎng)勵(lì)來對(duì)模型生成的推理鏈(CoT)進(jìn)行優(yōu)化。
在這個(gè)過程中,模型會(huì)逐步改進(jìn)自己的推理方式,更傾向于選擇那些能帶來更高獎(jiǎng)勵(lì)的推理模式和行動(dòng)。

上下文表征
在步驟t時(shí),輸入到模型的token包括輸入指令、輸出指令以及最近的互動(dòng)歷史,其中歷史表征包含了C個(gè)最近的狀態(tài)、行動(dòng)和獎(jiǎng)勵(lì)的軌跡。

研究人員選擇使用針對(duì)具體任務(wù)的指令,以便為智能體提供觀察到的信息、可能的行動(dòng)及其目標(biāo)的信息。
行動(dòng)token的分解
在每次互動(dòng)步驟t時(shí),模型會(huì)生成包含CoT推理token和要在環(huán)境中執(zhí)行的行動(dòng)token,研究人員使用一個(gè)基于正則表達(dá)式的提取函數(shù),從推理token中提取出行動(dòng)。
如果未找到有效行動(dòng),則執(zhí)行隨機(jī)行動(dòng)。
為有效行動(dòng)進(jìn)行獎(jiǎng)勵(lì)塑形
除了環(huán)境獎(jiǎng)勵(lì)外,研究人員還使用了一個(gè)獎(jiǎng)勵(lì)塑形項(xiàng)(reward shaping),促使模型遵循輸出模板。
即,如果提取函數(shù)無法提取出有效行動(dòng),使用-5的獎(jiǎng)勵(lì)值進(jìn)行懲罰,同時(shí)為了確保獎(jiǎng)勵(lì)懲罰不會(huì)過度影響優(yōu)化,需要對(duì)環(huán)境獎(jiǎng)勵(lì)進(jìn)行歸一化處理。
微調(diào)目標(biāo)
研究人員使用了clipping目標(biāo)進(jìn)行微調(diào),并增加了一個(gè)針對(duì)參考策略的KL約束。

為了在具有固定episode長(zhǎng)度的環(huán)境中進(jìn)行內(nèi)存高效的微調(diào),使用蒙特卡洛基線來估計(jì)狀態(tài)A_adv
對(duì)于具有可變episode長(zhǎng)度的環(huán)境,研究人員在LLM表示的最后一層學(xué)習(xí)了一個(gè)單獨(dú)的狀態(tài)價(jià)值頭,并使用了泛化優(yōu)勢(shì)估計(jì)(generalized advantage estimation)。
實(shí)驗(yàn)結(jié)果
多臂老虎機(jī)和上下文強(qiáng)盜(Context Bandit)
多臂老虎機(jī)(MAB)是一個(gè)經(jīng)典的強(qiáng)化學(xué)習(xí)問題,模型需要在「探索新選項(xiàng)」和「利用已知好選項(xiàng)」之間做出平衡。

研究人員重點(diǎn)關(guān)注了連續(xù)型和按鈕型這兩種變體,測(cè)試了5、10或20個(gè)拉桿的老虎機(jī),每個(gè)拉桿的回報(bào)值呈高斯分布或伯努利分布,交互步數(shù)限制在50步以內(nèi)。
還設(shè)置了三種不同的隨機(jī)性水平(低/中/高),這決定了高斯老虎機(jī)或伯努利老虎機(jī)的標(biāo)準(zhǔn)差或回報(bào)值差距。
對(duì)比的基線模型為上置信界限(UCB,性能的上限)和隨機(jī)智能體(性能下限)。
基于文本的井字棋環(huán)境具有合理的狀態(tài)轉(zhuǎn)換,并且前沿模型在這個(gè)環(huán)境中很難取得良好表現(xiàn),甚至只能勉強(qiáng)戰(zhàn)勝隨機(jī)對(duì)手。
貪婪性
這是最普遍的失敗模式,其特點(diǎn)是LLM過度偏愛在已見過的少數(shù)行動(dòng)中表現(xiàn)最好的行動(dòng)。
為了說明這種失敗模式,研究人員測(cè)量了Gemma2 2B、9B和27B模型在有無因果推理(CoT)的情況下,在64個(gè)擁有10個(gè)或20個(gè)拉桿的MAB中,經(jīng)過50步交互后平均覆蓋的行動(dòng)數(shù)量。

對(duì)于10個(gè)拉桿的情況,平均在64個(gè)并行環(huán)境中,Gemma2 2B覆蓋了40%的所有行動(dòng),而9B和27B覆蓋了65%(即6.5個(gè)行動(dòng)),意味著仍有相當(dāng)一部分行動(dòng)空間未被探索。

沒有CoT時(shí),模型在10個(gè)拉桿的設(shè)置中僅探索了25%的行動(dòng),次優(yōu)的覆蓋是由于模型過度偏愛高回報(bào)行動(dòng),模型過早地承諾了一種貪婪策略,導(dǎo)致在超過10步后行動(dòng)覆蓋停滯不前。
增加拉桿數(shù)量會(huì)使貪婪性更加明顯,最大的模型也只覆蓋了45%的所有行動(dòng)。
頻率偏差
其特點(diǎn)是即使某個(gè)行動(dòng)的回報(bào)很低,模型也會(huì)反復(fù)選擇在上下文中出現(xiàn)頻率最高的行動(dòng)。
為了了解模型的行動(dòng)如何受到行動(dòng)頻率的影響,研究人員使用隨機(jī)策略構(gòu)建前綴歷史記錄,改變上下文歷史中最后一個(gè)行動(dòng)的重復(fù)次數(shù)(0到100次),并記錄所有行動(dòng)的熵。

為了量化頻率偏差,研究人員根據(jù)行動(dòng)的出現(xiàn)次數(shù),將行動(dòng)分類為頻繁行動(dòng)、貪婪行動(dòng)和其他行動(dòng),以10%的概率為最優(yōu)。
可以看到,Gemma2 2B嚴(yán)重受到重復(fù)行動(dòng)的影響,隨著重復(fù)次數(shù)的增加,熵逐漸降低,而27B則擺脫了頻率偏差(14%),并且隨著重復(fù)次數(shù)的增加,對(duì)自己的行動(dòng)預(yù)測(cè)變得不那么確定。
2B和27B在0-10次、45-55次和90-100次重復(fù)情況下的分段比例中可以看到,2B隨著重復(fù)次數(shù)的增加而持續(xù)增加,而27B雖然擺脫了頻率偏差,但卻嚴(yán)重受到貪婪性的影響。
結(jié)果表明頻率偏差是監(jiān)督預(yù)訓(xùn)練的產(chǎn)物,并促使人們使用強(qiáng)化學(xué)習(xí)作為一種對(duì)策。
知行差距

研究人員讓Gemma2 27B與環(huán)境(64個(gè)實(shí)例)進(jìn)行50個(gè)時(shí)間步的交互,每步的計(jì)算量為2048個(gè)token,并從推理過程中提取UCB數(shù)值。
為了量化「知道」,研究人員將模型計(jì)算的UCB值與真實(shí)的UCB值進(jìn)行比較,并認(rèn)為如果模型選擇的拉桿與具有最高UCB值的拉桿一致,則認(rèn)為其推理過程是正確的。
為了量化「做」,研究人員將生成的行動(dòng)分類為:如果模型選擇了具有最高UCB值的行動(dòng),則為最優(yōu)行動(dòng);如果選擇了到目前為止嘗試過的具有最高UCB值的行動(dòng),則為貪婪行動(dòng);如果行動(dòng)既不是最優(yōu)也不是貪婪,則歸為其他類別。

隨后,研究人員計(jì)算了貪婪/最優(yōu)/其他行動(dòng)的百分比。
智能體顯然知道如何解決任務(wù),因?yàn)?7%的推理過程都是正確的,然而,即使對(duì)于正確計(jì)算的推理過程,模型也經(jīng)常選擇貪婪行動(dòng)(58%)而不是最優(yōu)行動(dòng)(21%)。
這種差異突出了大型語言模型在「知道」算法的情況下,仍然在「行動(dòng)」上存在不足。




































