RLPT：用強化學習“重讀”預訓練數據，讓大模型學會思考

作者：肆零柒 2025-10-11 09:23:28

當大模型訓練遭遇高質量數據瓶頸，騰訊團隊提出RLPT——一種無需人類標注、僅用預訓練數據即可訓練推理能力的強化學習新范式，為模型能力持續擴展開辟了新路徑。

大家好，我是肆〇柒。今天要和大家分享的是一項來自騰訊大模型部門（LLM Department, Tencent）與香港中文大學合作的前沿研究——RLPT（Reinforcement Learning on Pre-Training Data）。面對高質量數據增長見頂、計算資源持續膨脹的矛盾，這項工作提出了一種全新的訓練范式：讓大模型在原始預訓練數據上通過強化學習自主探索推理路徑，從而突破傳統監督學習的泛化瓶頸。這不僅是一次技術升級，更是一場從“死記硬背”到“主動思考”的認知革命。

預訓練范式的瓶頸與突破

想象一下：一個學生反復研讀數學教材，卻只能死記硬背例題答案，無法掌握解題精髓。如今的大語言模型（LLM）訓練也遭遇類似瓶頸。計算資源呈指數級飆升，而優質文本數據的增長卻極為有限，二者間差距日益顯著，這嚴重制約了傳統擴展方法的效能。傳統依賴監督學習的預訓練方式，正陷入“死記硬背”的困境，難以培育出深層次的推理能力。

研究表明，在NTP范式下的監督微調（SFT）往往促使模型進行表面級的記憶，而不是培養通過強化學習（RL）能夠實現的更深層次的泛化能力。這意味著模型可能記住了“2+2=4”這樣的事實，卻無法理解加法的本質，更無法解決“2+3=？”這樣的新問題。這種局限性在復雜推理任務中尤為明顯——當面對需要多步推理的數學問題時，傳統訓練的模型往往只能給出最終答案，而無法展示解題過程。

RLPT（Reinforcement Learning on Pre-Training data）應運而生，它通過讓模型"預測下一片段"而非"預測下一個token"，引導模型主動探索數據中的隱含推理過程。這就像從讓學生死記硬背答案，轉變為要求學生展示解題步驟，從而培養真正的理解能力。RLPT不僅解決了數據稀缺問題，還為模型能力的持續提升開辟了新路徑，使訓練性能能夠隨著計算資源的增加而持續改善。

RLPT：超越監督學習的訓練新范式

RLPT的核心思想是讓模型像人類學習一樣，通過預測"下一片段"來理解數據中的推理邏輯。考慮一個簡單的數學問題：計算函數在區間上的傅里葉變換。傳統預訓練模型可能直接輸出答案："傅里葉變換為 "，但這種記憶式學習無法應對稍有變化的問題。

而RLPT則要求模型展示完整的推理過程。論文中提供了一個生動的思維過程示例：

這種"step by step"的思考方式，正是RLPT的核心價值所在——它迫使模型不僅知道"是什么"，還要理解"為什么"和"怎么做"。

RLPT與現有方法的本質區別在于其自監督獎勵機制。RLHF（Reinforcement Learning from Human Feedback）和RLVR（Reinforcement Learning with Verifiable Rewards）都需要人類標注或驗證，而RLPT直接從原始預訓練數據中獲取獎勵信號。這種設計使RLPT能夠擴展到海量預訓練數據，突破了人類標注的瓶頸。

從token級預測到segment級推理的目標升級，是RLPT的革命性突破。傳統預訓練關注下一個token的預測（如預測"4"作為"2+2="的后續），而RLPT關注更高級別的語義單元——文本片段（segment），如完整的推理步驟："首先，將積分范圍限制在[-a, a]內；然后，將指數函數拆分為余弦和正弦部分；接下來，計算余弦積分..."。這種轉變使模型能夠捕捉文本中更豐富的語義結構，培養更深層次的推理能力。

強化學習為何能夠促進模型挖掘數據背后的隱含推理過程？強化學習的關鍵優勢在于它能夠生成中間推理內容，揭示數據構建中潛在的思維過程。正如材料所述：“強化學習使模型能夠揭示數據背后的潛在推理過程，這可以被視為在下游性能中反映出來的深思熟慮的思維的一種壓縮形式。”同時，強化學習利用自身的探索軌跡進行訓練，保持與原始策略分布的接近性，從而培養出更強的泛化能力。

從訓練時擴展視角看，RLPT代表了一種全新的計算資源利用方式。傳統方法通過擴大模型規模或擴展預訓練數據來減少預測損失，而RLPT則讓模型自主探索和學習大規模預訓練語料庫。這種從"被動記憶"到"主動思考"的轉變，使模型能夠從相同數據中提取更深層次的知識，實現訓練效率的質的飛躍。

技術創新：RLPT的架構設計

RLPT系統架構

上圖清晰展示了RLPT的完整工作流程：從原始預訓練數據出發，經過數據準備階段，分割為語義連貫的片段序列，然后通過策略模型進行ASR和MSR任務的預測，最后由生成式獎勵模型評估預測片段與參考文本的語義一致性。

RLPT包含兩個關鍵任務：自回歸片段推理（Autoregressive Segment Reasoning, ASR）和中間片段推理（Middle Segment Reasoning, MSR）。

Complete the text provided under### Context by predicting the next most probable sentence. Please reason step by step to determine the best possible continuation, and then enclose your final answer within<|startofprediction|> and<|endofprediction|> tags. ### Context{context}

這種設計不僅要求模型預測下一個句子，還強制其進行"step by step"的思考過程，模擬人類解題時的思維路徑。例如，在解決傅里葉變換問題時，模型不會直接跳到最終答案，而是逐步推導：先定義積分范圍，再拆分指數函數，然后分別計算余弦和正弦積分...

##Text Material##: {prompt}<MASK>{next_step} ## Task##: Fill in the<MASK> section of the material with appropriate sentences or a solution step. Carefully reason step by step to determine the most suitable completion.

這種任務特別適用于代碼補全或需要上下文理解的場景，如"已知三角形兩邊長分別為3和4，<MASK>，求第三邊長度"，模型需要根據后續提示"且夾角為90度"來推斷中間缺失的推理步驟。

生成式獎勵模型通過評估預測片段與參考文本的語義一致性來計算獎勵。最初的嚴格獎勵機制要求預測片段必須與真實片段傳達完全相同的語義內容，但這種方法過于僵化。論文中指出：“我們觀察到，該模型經常生成包含多個真實片段的輸出，這主要是由于基于句子的分割導致信息分布不均勻：有些句子只包含一個公式，而另一些句子可能涵蓋了子問題的完整解決方案。”

嚴格獎勵與前綴獎勵對比

上圖直觀展示了獎勵機制演進的關鍵優勢：(a)前綴獎勵提供了更穩定、更高的訓練獎勵信號；(b)前綴獎勵機制自然引導模型生成更長的響應（從約200 tokens增加到500+ tokens）；(c)更重要的是，響應長度的增加直接轉化為驗證性能的提升（Pass@1從約0.45提升至0.50）。

讓我們具體理解為什么前綴獎勵如此關鍵。考慮一個數學問題的上下文："已知圓的半徑為r，面積公式為。"

真實后續片段1："首先，我們需要計算圓的面積。"
真實后續片段2："然后，確定半徑的值。"

如果模型預測："首先，我們需要計算圓的面積，然后確定半徑的值。"，嚴格獎勵會判定為失敗，因為預測片段包含了兩個真實片段的內容。但前綴獎勵會識別出預測片段包含了正確前綴，從而給予正向反饋。

這種機制解決了句子間信息密度不均的挑戰，使模型能夠生成更連貫、更豐富的推理過程，而不是被強制切割成機械的單句預測。正如上圖(c)所示，這種更自然的推理過程直接轉化為下游任務性能的提升。

實現細節：從理論到實踐的挑戰

理解了RLPT的架構設計后，接下來將探討如何將這一理論框架轉化為實際可行的訓練方案。實現RLPT面臨多重技術挑戰，其中冷啟動問題和訓練穩定性尤為關鍵。

RLPT的實施面臨多個技術挑戰，其中冷啟動問題尤為關鍵。由于RLPT需要模型具備一定的指令遵循能力才能啟動next-segment reasoning，研究者首先進行監督微調（SFT）階段，使用批量大小1024、學習率2×10??（余弦調度器）訓練3個周期，為后續強化學習奠定基礎。

數據準備流程包含三重保障機制：(i)基于MinHash的近似去重，(ii)個人身份信息(PII)檢測與掩碼，(iii)針對所有開發和評估集的污染去除。其中，基于規則的階段消除明顯不適合語言模型訓練的內容，而基于模型的階段則使用指令調優的語言模型進行更細粒度的質量評估。這種雙重過濾機制確保了訓練數據的高質量，為RLPT的有效性提供了堅實基礎。

在訓練策略上，RLPT通過超參數λ平衡ASR和MSR的貢獻，訓練目標定義為：

其中λ∈(0,1)可根據特定下游應用需求調整。實驗中采用批量大小512、最大響應長度8192、恒定學習率1×10??。對每個提示詞，以溫度1.0采樣8個輸出，使用on-policy GRPO（Generalized Reinforcement Policy Optimization）進行優化，無需KL正則化。

獎勵機制的演進是解決訓練穩定性問題的關鍵。從嚴格匹配到前綴獎勵的轉變，不僅避免了因句子信息密度不均導致的訓練中斷，還自然引導模型生成更長、信息更豐富的響應。上圖(b)顯示，前綴獎勵促使模型生成的響應長度顯著增加，這與上圖(c)中驗證性能的提升密切相關，表明更豐富的推理過程確實帶來了更好的下游任務表現。

值得一提的是，RLPT在實現中定義片段單元默認為句子級別，雖然研究者也嘗試了使用LLM提取文本中集成的原子步驟作為分割單元，但初步研究表明句子級分割已能有效工作。這種實用主義的設計選擇避免了過度復雜化，使RLPT能夠在保持效果的同時易于實現。

實驗驗證：量化分析與洞見

RLPT在通用領域和數學推理任務上均展現出顯著優勢。在通用領域任務中，研究者使用MMLU、MMLU-Pro、GPQA-Diamond、SuperGPQA和KOR-Bench等基準進行評估。結果顯示，當應用于Qwen3-4B-Base模型時，RLPT在MMLU、MMLU-Pro、GPQA-Diamond、KOR-Bench上分別帶來3.0、5.1、8.1和6.0的絕對提升。

這些數字背后的實際意義是什么？以MMLU為例，它包含57個學科領域的多項選擇題，涵蓋STEM、人文、社會科學等。3.0的提升意味著模型在這些廣泛領域的知識應用能力顯著增強——原本100道題能答對65道，現在能答對68道。在專業領域如GPQA-Diamond（研究生級物理、化學和生物學問題）上8.1的提升更為驚人，這相當于將模型從"勉強通過資格考試"提升到"能夠進行獨立研究"的水平。

在數學推理任務方面，RLPT在MATH-500、AMC23、Minerva Math和AIME24/25等挑戰性數據集上取得突破性進展。表中展示了基于Qwen3-4B-Base模型的詳細結果，使用64個樣本每提示詞的設置。

數學推理基準上的性能表現

上表展示了RLPT在多個數學推理基準上的顯著提升。特別值得注意的是AIME24和AIME25數據集上的表現：Pass@1指標分別提升了6.6和5.3個百分點，而Pass@8指標的提升更為顯著（分別提升10.9和9.1個百分點）。

AIME（美國數學邀請賽）是高中數學競賽的最高水平之一，難度遠超普通數學課程。Pass@1提升6.6個百分點意味著：原本在15道題中只能正確解答約2.3道（15.3%），現在能解答約3.3道（21.9%）。雖然絕對數量看似不大，但在這種高難度競賽中，每多解對一道題都可能決定能否進入下一輪比賽。Pass@8指標的更大提升（10.9個百分點）表明RLPT不僅提高了模型生成正確答案的概率，還增強了其探索多種解題路徑的能力，這對解決復雜問題至關重要。

擴展性分析揭示了RLPT的另一大優勢：訓練性能與計算資源之間存在明顯的冪律關系。圖1展示了隨著訓練token數量增加，模型在多個基準上的性能提升。

訓練token與性能的冪律關系

上圖揭示了一個關鍵發現：隨著訓練token數量增加，模型性能遵循清晰的冪律關系。以MMLU為例，其性能可精確表示為，其中x為訓練tokens數量（單位：10^9）。這種可預測的擴展行為表明，RLPT具有明確的持續改進路徑——只要增加計算資源，性能就能按預期規律提升。

思維過程分析進一步揭示了RLPT的工作機制。研究者提供了一個示例，展示了模型如何通過結構化序列處理next-segment reasoning任務：首先抽象先前上下文以捕捉整體流程，然后確定后續步驟，形成候選延續，驗證其合理性，探索替代可能性，必要時進行回溯，最終產生最終答案。這種結構化軌跡與LLM在復雜問題解決中表現出的多步推理策略一致，解釋了RLPT的有效性。

與SFT的對比實驗表明，RLPT在泛化能力上具有明顯優勢。研究表明，監督微調往往促進表層記憶而非深度泛化能力，而RLPT通過自主探索有意義的軌跡，培養了更強的泛化能力。RLPT與SFT代表了兩種截然不同的學習范式：探索vs記憶。監督學習促使模型記憶輸入-輸出對，而RLPT鼓勵模型探索多種可能的推理路徑，選擇那些能產生與參考文本語義一致的響應。這種探索過程模擬了人類學習中的"思考-驗證-修正"循環，使模型能夠發展出更穩健的推理能力。

此外，RLPT為后續的RLVR（Reinforcement Learning with Verifiable Rewards）提供了堅實基礎，進一步擴展了LLM的推理邊界。當RLPT與RLVR結合時，在AIME24和AIME25上的Pass@1分別達到29.9%和29.0%，顯著優于單獨使用RLVR的結果。這種組合策略充分利用了兩種方法的優勢：RLPT提供廣泛的推理能力基礎，而RLVR則針對特定任務進行精細優化。

深層討論：RLPT的理論意義

RLPT為何能更好地挖掘預訓練數據的價值？關鍵在于它能夠揭示數據構建中潛在的思維過程。通過生成中間推理內容，RLPT不僅增強了原始數據，還支持更高效的數據學習。這種機制使模型能夠從相同數據中提取更深層次的知識，突破了傳統監督學習的表層記憶局限。

從本質上講，RLPT與監督微調代表了兩種截然不同的學習范式：探索vs記憶。監督學習促使模型記憶輸入-輸出對，而RLPT鼓勵模型探索多種可能的推理路徑，選擇那些能產生與參考文本語義一致的響應。這種探索過程模擬了人類學習中的"思考-驗證-修正"循環，使模型能夠發展出更穩健的推理能力。

RLPT為RLVR提供了理想的訓練基礎。研究表明，當RLPT作為RLVR的預訓練階段時，模型在數學推理任務上的表現進一步提升。這表明RLPT培養的基礎推理能力可以被更專業的獎勵機制進一步精煉，形成能力提升的層次遞進效應。這種組合策略充分利用了兩種方法的優勢：RLPT提供廣泛的推理能力基礎，而RLVR則針對特定任務進行精細優化。

從數據效率視角看，RLPT顯著提升了訓練數據的利用效率。通過讓模型主動探索和驗證其推理過程，相同數量的預訓練數據能夠產生更多的學習信號。研究表明，RLPT生成的推理軌跡比原始文本包含更豐富的語義信息，使模型能夠從更少的數據中學習到更復雜的推理模式。

RLPT保持與原始策略分布的接近性，這也是其增強泛化能力的關鍵因素。與依賴人類標注的方法不同，RLPT的獎勵信號直接來自預訓練數據本身，從而確保策略更新不會過度偏離原始分布。這種接近性使模型能夠保留預訓練階段獲得的廣泛知識，同時增強其推理能力，避免了“災難性遺忘”問題。

RLPT的發展方向

盡管RLPT已取得顯著成果，但其發展仍有廣闊空間。在片段分割策略方面，目前主要采用基于NLTK的句子級分割，但研究者已進行初步嘗試，探索使用LLM提取文本中集成的原子步驟作為分割單元。雖然這些方法尚未顯示出比句子級分割的明顯優勢，但更精細的分割策略可能進一步提升RLPT的效果。

與測試時擴展方法的協同是另一個有前景的方向。測試時擴展通過在推理過程中分配更多計算資源（如生成更長的推理鏈）來提升性能，而RLPT則在訓練時擴展模型能力。這兩種方法可能產生互補效應：RLPT訓練的模型可能更有效地利用測試時擴展，從而實現性能的進一步提升。例如，RLPT訓練的模型在進行思維鏈推理時，可能更少出現邏輯跳躍，從而從更長的推理鏈中獲得更多收益。

探索其他自監督RL目標也是未來研究的重要方向。當前的next-segment reasoning關注文本片段的預測，但可能還有其他有價值的自監督信號，如邏輯一致性、多步推理連貫性等。這些新目標可能進一步豐富RLPT的學習信號，提升模型的推理能力。

RLPT在不同規模模型上的適應性與可擴展性值得關注。雖然目前實驗主要集中在中等規模模型（如Qwen3-4B）上，但研究者推測RLPT的效果可能隨模型規模增大而增強。探索RLPT在超大規模模型上的表現，以及如何針對不同規模模型調整訓練策略，將是未來研究的重要課題。

獎勵模型設計仍有優化空間。當前的前綴獎勵機制已顯著優于嚴格匹配，但更精細的獎勵設計（如考慮推理步驟的邏輯連貫性、創新性等）可能進一步提升RLPT的效果。此外，動態調整獎勵權重以適應不同訓練階段的需求，也是值得探索的方向。

總結：訓練范式的根本性轉變

RLPT代表了大模型訓練范式的根本性轉變：從被動學習到主動探索。這種轉變不僅解決了高質量數據有限增長的瓶頸，還為模型能力的持續提升開辟了新路徑。通過在預訓練數據上進行強化學習，RLPT使模型能夠挖掘數據背后的隱含推理過程，從而培養更深層次的泛化能力。

RLPT對模型能力邊界的拓展意義深遠。它不僅在多個基準測試上取得顯著提升，還展示了與計算資源的良好擴展性，預示著隨著更多計算資源的投入，模型能力有望持續增強。更重要的是，RLPT為后續的RLVR提供了堅實基礎，進一步擴展了LLM的推理邊界。

通向更強大、更通用AI的新路徑已在RLPT的指引下顯現。通過讓模型自主探索有意義的推理軌跡，RLPT使LLM能夠發展出更接近人類的思維模式，這種能力對于解決復雜問題、進行創造性思考至關重要。RLPT所展示的訓練時擴展新范式，為大模型的發展提供了可持續的方向。

讓我們回到文章開頭的比喻：RLPT就像是教會學生如何思考，而非僅僅記憶答案。在計算資源持續增長而數據資源相對有限的未來，這種從"記憶"到"思考"的轉變，不僅將推動技術進步，還可能深刻影響我們理解和構建智能系統的方式。RLPT所代表的主動探索范式，或許正是解鎖下一代AI潛力的關鍵。

責任編輯：龐桂玉來源：覺察流

RLPT 強化學習預訓練數據大模型