大模型推理的"慢思考"：訓練數據如何決定模型的思維深度

作者：無影寺 2025-10-10 01:25:00

你是否好奇，為什么有時候讓大模型"多想一會兒"能得到更好的答案，而有時候反而會越想越錯?OpenAI的o3和DeepSeek R1展示了驚人的推理能力，它們的秘密就在于測試時擴展(test-time scaling)——給模型更多時間去"思考"。但什么樣的訓練數據才能讓這種"慢思考"真正有效?

這里介紹的是論文(Understanding the Role of Training Data in Test-Time Scaling)的內容：你是否好奇，為什么有時候讓大模型"多想一會兒"能得到更好的答案，而有時候反而會越想越錯?OpenAI的o3和DeepSeek R1展示了驚人的推理能力，它們的秘密就在于測試時擴展(test-time scaling)——給模型更多時間去"思考"。但什么樣的訓練數據才能讓這種"慢思考"真正有效?

圖片

什么是測試時擴展：傳統的AI模型接收問題后會立即給出答案。而測試時擴展讓模型生成更長的思維鏈(Chain-of-Thought， CoT)，就像人類解決復雜問題時會:

?把問題分解成多個步驟

?嘗試不同的解決路徑

?發現錯誤后回溯修正

關鍵是，這一切都發生在推理階段，無需改變模型參數。

圖片

核心發現：論文通過理論分析和實驗，揭示了訓練數據與測試時推理之間的微妙關系:

（1）訓練數據可以"省著用"：實驗表明:在保持相同測試誤差的前提下，增加推理步數就能減少訓練時需要的示例數量。這意味著我們可以用更少的訓練數據，通過在推理階段投入更多計算來達到同樣的效果。

（2）"過度思考"的陷阱：并非所有情況下，思考得越久越好。研究發現了一個反直覺的現象:當訓練數據中缺少解決目標任務所需的某些"技能"時，增加推理步數反而會降低性能。

想象一下，如果訓練數據主要包含代數問題，但測試時需要解決幾何問題，那么讓模型"深度思考"可能會讓它在錯誤的方向上越走越遠。研究團隊將這種現象稱為"過度思考"(overthinking)。

（3）任務難度的數學定義：論文提出了一個優雅的任務難度度量:

圖片

這里Λ是特征協方差矩陣。簡單來說:

?簡單任務:依賴少數幾個主要技能(類似于只需要加減法)

?困難任務:需要眾多技能且分布不均(類似于綜合運用代數、幾何、邏輯等)

圖片

如何選擇訓練任務?：基于理論分析，研究團隊提出了訓練數據選擇的三個原則:

(1)多樣性(Diversity)：訓練數據必須覆蓋足夠廣泛的技能方向。如果某些測試時需要的技能在訓練中從未出現，模型將無法有效推理。

（2）相關性(Relevance):選擇與目標任務密切相關的訓練數據。不相關的數據不僅浪費資源，還可能干擾模型學習。

（3）難度(Hardness):當目標任務困難時，應該選擇困難的訓練任務。實驗表明，在困難任務上訓練的模型，在測試時擴展中表現更好。研究證明，至少50%的訓練概率應分配給困難任務。

論文揭示了一個有趣的機制:訓練好的模型在測試時進行思維鏈推理，實際上是在執行偽牛頓法(pseudo-Newton's method)來優化預測。每一步思考都在迭代改進答案，就像人類逐步接近問題的正確解。

這解釋了為什么:

?足夠的訓練覆蓋讓模型知道"朝哪個方向優化"

?更多的推理步數相當于"走更多步到達目標"

?訓練數據覆蓋不足會讓模型"走向錯誤的方向"

論文的重要啟示:

1.訓練策略: 不必盲目追求海量訓練數據，而應關注數據的多樣性、相關性和難度

2.資源分配: 可以在訓練效率和推理成本之間找到最優平衡點

3.問題診斷: 當模型表現不佳時，可以檢查是訓練數據覆蓋不足還是推理深度不夠

責任編輯：武曉燕來源： AI帝國

大模型訓練數據 OpenAI