強化學習的“GPT-3 時刻”即將到來

作者：Baihai IDP 2025-08-29 05:00:00

當前的 RL 數據集相對較小。例如，DeepSeek-R1 在大約 60 萬個數學問題上進行了訓練，這相當于人類連續努力六年的工作量（假設每個任務耗時五分鐘完成）。相比之下，重建 GPT-3 那包含 3000 億 token 的訓練語料庫，若按人類平均書寫速度計算，需要大約數萬年的寫作時間。

強化學習能否像 GPT-3 改變自然語言處理那樣，通過大規模擴展實現質的飛躍？為什么強化學習至今仍困在“先預訓練，再微調”的傳統模式中？為什么即使是最先進的 RL 模型，一旦脫離訓練環境就變得如此脆弱？

無論是自動駕駛、機器人控制，還是復雜系統優化，我們都需要能夠快速適應新任務、具備真正泛化能力的智能體。然而當前的 RL 模型就像是“高分低能”的應試選手 —— 在熟悉的測試環境中表現優異，但面對真實世界的復雜性時卻束手無策。

本文提出了 replication training 范式，為強化學習的規模化擴展指明了全新方向。作者不再拘泥于傳統的游戲環境或仿真場景，而是大膽提議讓 AI 復制現有的軟件產品。它利用了互聯網上豐富的軟件資源，提供了客觀明確的評估標準，同時訓練了 AI 在長周期項目中保持穩定輸出的能力。

GPT-3 證明了，僅僅通過擴大語言模型的規模，就能帶來強大的、task-agnostic（譯者注：模型不依賴特定任務的設計或微調，就能處理多種不同類型的任務。）、few-shot（譯者注：模型僅需極少量示例，就能快速理解并執行新任務。）的性能，其表現通常優于經過精心微調的模型。在 GPT-3 出現之前，要達到最先進的性能，首先需要在大型通用文本語料庫上對模型進行預訓練，然后再針對特定任務進行微調。

如今的強化學習同樣困在類似 GPT-3 之前的范式里。我們首先是對大模型進行預訓練，然后在高度專業化的環境中，對特定任務進行精細的微調。但這種方法的根本局限在于：由此獲得的能力難以泛化，導致性能“脆弱”（brittle performance） —— 模型一旦脫離訓練期間接觸的精確語境，性能便會迅速退化。

image.png

我們認為強化學習（RL）即將迎來其“GPT-3 時刻”。相比在有限數量的訓練場景或任務設置上微調模型，我們預計該領域將轉向在數千個多樣化環境上進行大規模訓練。有效實施這一做法將催生出具有 few-shot、task-agnostic 能力的 RL 模型，能夠快速適應全新的任務。但實現這一點需要訓練環境在規模和多樣性上遠超當前任何的可用資源。

究竟需要多少 RL 資源？

需要說明的是，要達到與當前前沿模型預訓練預算相當的 RL 計算支出，按人類完成相同任務所需時長來衡量，可能需要大約上萬年。DeepSeek-R1 在 RL 階段使用了約 6e23 FLOP 的計算量[1]，按人類效率折算，對應約 6 年的時長。假設未來的訓練任務使用與 DeepSeek-R1 相似的訓練輪次（epochs）和組大小（group sizes），將此擴展至約 6e26 FLOP 意味著需要人類約 6000 年的工作時長。

尚不確定未來的強化學習訓練會需要更大的還是更小的組規模（group sizes）、抑或是更多的訓練輪次（epochs），尤其是隨著任務分布多樣性的增加。我們在這方面缺乏足夠的數據，因此精確估算等效的人類工作時間仍很困難，盡管 1 萬年左右似乎是一個較為合理的數量級。

這一過程要求模型完成的工作量，其規模可與 Windows Server 2008、GTA V 或 Red Hat Linux 7.1 等大型項目相當 —— 每個項目估計都需要約 1 萬年的累計人類工作量。

將強化學習（RL）擴展到這一規模在經濟上是高效的。由于算力成本在總訓練成本中占據主導地位，將強化學習的規模提升到與預訓練預算相當的水平，能在不明顯增加總成本的情況下帶來大幅的性能提升。然而，要實現這一目標，就必須大規模擴展強化學習環境（RL environments）的體量，同時確保任務能夠實現自動化評估。這很可能需要開發新的構建強化學習環境的方法。

Replication training

想象一下，每次當你想要通過下一個詞預測方法（next-token prediction）預訓練語言模型時，都必須親手創建整個訓練語料庫。顯然，這極其不切實際。因此，我們轉而利用海量的現有內容 —— 如書籍、學術論文、博客帖子和 Reddit 討論內容來構建訓練語料庫。

同樣，我們推測，RL（強化學習）領域的“GPT-3 時刻”將主要依托于一種稱為 replication training 的新范式來實現。該范式要求 AI 復制現有的軟件產品或其內部特定功能。實現復雜的哈希與加密算法的簡單命令行工具是較為理想的初期目標，這種方案可以輕松擴展到更復雜的軟件，例如網站、專業軟件和游戲。

每項復制任務（replication tasks）均包含詳細的說明規范和用于參考的實現方案。其核心思想是，AI 模型經過訓練后能夠生成與用于參考的實現方案完全一致的方案。這種清晰直接的方法極大地簡化了評估過程，因為評分標準客觀且明確：生成的實現方案的行為要么與用于參考的實現方案完全一致，要么就是不一致。

盡管這些復制任務（replication tasks）可能與日常的軟件工程活動有所不同，但它們專門針對當前 AI 系統難以掌握的關鍵能力。例如，復制一個復雜的算法（如依據詳細規范進行開發的、包含萬行量級代碼的加密/解密 CLI 工具），要求模型必須做到：

準確閱讀并深度理解詳細指令。
一絲不茍且精確無誤地執行指令。
能夠發現早期錯誤并可靠地恢復。
在長時間周期（相當于人類數月時間的開發工作量）內保持穩定輸出 —— 在此過程中，質量優劣完全由功能正確性直接判定。
在遇到困難時展現出韌性，而非草率止步于看起來“差不多能用”的方案。

我們預測，replication training 將成為 AI 領域的下一個范式，因為它順延了我們在 AI 發展過程中已觀察到的趨勢 —— 利用海量的現有人類生成數據來創建新任務。就像自然語言一樣，軟件在互聯網上同樣資源豐富。因此，replication training 提供了一種可擴展的途徑，能高效生成復雜任務，推動我們實現可端到端完成完整軟件項目的 AI。

然而，這種方法也面臨著幾項挑戰。編寫有效且全面的測試仍然是一項非同小可的任務，需要大量的工程投入。此外，復制任務（replication tasks）本身具有一定的人造性，因為精確復制現有軟件并非日常軟件工程的典型工作（盡管在軟件移植、遺留系統重構、凈室重新實現【譯者注：clean-room reimplementations，指在嚴格隔離原始代碼知識的前提下，僅通過分析功能規范或外部行為，重新實現與原有軟件功能相同的程序。該過程需確保開發團隊從未接觸過原始源代碼，以避免法律上的版權/專利侵權風險。】）等場景中確有其例。

盡管存在這些挑戰，但我們認為 replication training 為將強化學習環境（RL environments）擴展到實現有意義泛化所需的龐大規模提供了一條清晰明確的路徑。它很可能將成為解鎖強化學習“GPT-3 時刻”的關鍵，為達成穩健的、task-agnostic 的性能提供所需的數萬年量級的經驗積累。

replication training 會是解鎖 full automation of labor（譯者注：通過 AI / 機器人系統實現人類所有勞動形式的自動化替代，達到無需人類直接參與即可完成經濟生產活動的終極狀態。）的終極范式嗎？對此我們持懷疑態度。雖然它能催生可在精確設計規范下自主完成高復雜度軟件項目的系統，但我們推測，這些能力仍將遜色于人類所具備的開放式能力。即便 AI 成為高級編程專家，它們在狹窄的軟件領域之外的高層管理（譯者注：high-level management，指組織架構中涉及戰略決策、資源分配和跨部門協調的頂層管理職能。）與自主規劃（agentic planning）方面也未必能勝任。

然而，正如我們需要先發明預訓練，才能邁向 replication training，replication training 仍可作為通往下一范式的橋梁。我們對這一新范式的未來潛力充滿期待。

責任編輯：武曉燕來源： Baihai IDP

GPT-3 系統優化