將R1的思路引入多模態(tài)大模型的RL訓(xùn)練配方-Skywork-R1V3 原創(chuàng)
來看一個實驗比較扎實的工作,Skywork-R1V3將R1的思路引入多模態(tài)大模型,提出:直接將RL技術(shù)從僅文本的大語言模型轉(zhuǎn)移到VLMs是不夠的,需要開發(fā)VLM特定的RL配方。下面來看看如何在VLM中引入COT的RL,供參考。
數(shù)據(jù)情況
1、冷啟動微調(diào)數(shù)據(jù)
構(gòu)建了一個包含約2萬個實例的冷啟動數(shù)據(jù)集,這些實例來自2024年之前的中國高中數(shù)學(xué)實踐問題。數(shù)據(jù)集涵蓋物理、化學(xué)、生物和數(shù)學(xué)四個主要學(xué)科(分布如下)。通過Skywork-R1V2模型生成每個問題的逐步思考過程,并使用拒絕采樣策略篩選出最終答案與真實答案匹配的高質(zhì)量實例。得到了大約12000個高質(zhì)量的帶有推理鏈的樣本。
2、RL微調(diào)數(shù)據(jù)
K12難度多模態(tài)數(shù)學(xué)數(shù)據(jù)15000個樣本,全部是多項選擇題和填空題,每個實例由一個問題q和其對應(yīng)的答案a組成,不包含顯式的推理步驟。
3、連接器模塊的調(diào)優(yōu)數(shù)據(jù)
從20個不同領(lǐng)域中選擇了10000個樣本,用于在強(qiáng)化學(xué)習(xí)階段之后對連接器模塊進(jìn)行專門的調(diào)優(yōu),以確保模型在不同領(lǐng)域中的知識和推理能力得到平衡和增強(qiáng)。

三個訓(xùn)練階段的數(shù)據(jù)分布情況
后訓(xùn)練方法
1、獎勵函數(shù)設(shè)計
Skywork-R1V3的獎勵函數(shù)由兩部分組成:
- 格式獎勵:和dpsk那樣,回答模板遵循結(jié)構(gòu) “< think >...< think >...”格式
- 準(zhǔn)確性獎勵:RL過程的主要目標(biāo),

準(zhǔn)確性獎勵優(yōu)化目標(biāo)
2、冷啟動微調(diào)
冷啟動微調(diào)階段的目標(biāo)是通過使用早期版本的Skywork-R1V2模型生成的樣本,初始化模型的推理能力。在這個階段,模型被訓(xùn)練以采用“先思考后回答”的方式,這種能力是從LLM的預(yù)訓(xùn)練階段繼承而來的。
3、強(qiáng)化學(xué)習(xí)微調(diào)
用PPO和GRPO算法來優(yōu)化模型的推理策略,
- PPO:通過限制策略更新的幅度來確保訓(xùn)練的穩(wěn)定性,優(yōu)化目標(biāo)是最大化期望獎勵。
- GRPO:針對稀疏的二進(jìn)制獎勵(0或1),通過組內(nèi)歸一化來估計優(yōu)勢函數(shù),從而提供更豐富的學(xué)習(xí)信號。(關(guān)于GPRO這里不再贅述,可參考《???DeepSeek采用的GRPO算法數(shù)學(xué)原理及算法過程淺析??》)

實現(xiàn)細(xì)節(jié)上,使用VERL框架進(jìn)行訓(xùn)練,逐步增加上下文和輸出長度,并使用特定的超參數(shù)設(shè)置(如學(xué)習(xí)率、批量大小等)來優(yōu)化訓(xùn)練過程。
4、連接器模塊微調(diào)
作用是跨模態(tài)對齊,僅調(diào)整連接器參數(shù),可以有效重新平衡模型的知識分布,而不影響其推理能力。訓(xùn)練過程中使用特定的超參數(shù)設(shè)置(如學(xué)習(xí)率、批量大小等),并通過早停策略避免過擬合。
消融研究

對不同組件進(jìn)行消融研究

模塊消融
從上圖可以看到:視覺編碼器是否激活對模型性能的影響不大,連接器模塊被凍結(jié)或移除,模型會迅速失去推理能力,獎勵曲線急劇下降。

引入課程學(xué)習(xí)策略,通過從簡單到困難的問題逐步訓(xùn)練模型。實驗結(jié)果顯示,這種基于難度的課程學(xué)習(xí)策略并未提高模型的泛化能力。相反,模型在切換到更難的問題后,雖然在復(fù)雜任務(wù)上的表現(xiàn)有所提升,但在統(tǒng)一評估集上的表現(xiàn)卻出現(xiàn)了偏差,尤其是在中等難度問題上的性能下降。這表明,模型在復(fù)雜任務(wù)上學(xué)到的特殊策略可能與中等難度任務(wù)的核心推理路徑相沖突,從而削弱了整體泛化能力。
實驗評測


參考文獻(xiàn):Skywork-R1V3 Technical Report,https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V3.pdfrepo:https://github.com/SkyworkAI/Skywork-R1V
本文轉(zhuǎn)載自???大模型自然語言處理????? 作者:余俊暉

















