NeurIPS 2025 | 中科大、港中深、通義千問聯合發布CoRT:僅30個樣本教會大模型高效推理,token消耗降低50%
近年來,以 OpenAI-o1、Qwen3、DeepSeek-R1 為代表的大型推理模型(LRMs)在復雜推理任務上取得了驚人進展,它們能夠像人類一樣進行長鏈條的思考、反思和探索。然而,這些模型在面對精確的數學計算時,仍然會「心有余而力不足」,常常出現效率低下甚至算錯的問題。
一個直觀的解決方案,是為模型配備代碼解釋器(Code Interpreter)等計算工具。但這引入了一個更深層次的挑戰,也是當前領域面臨的關鍵瓶頸:
- 認知沖突:模型內部基于概率的、模糊的「思考」,與外部工具返回的確定性的、精確的「知識」之間存在沖突,導致模型陷入無意義的反復驗證和「糾結」。
- 行為低效:模型傾向于先用自然語言進行冗長的推演,再用代碼驗證,造成「延遲計算」;或者不信任代碼返回的結果,進行不必要的「結果不信任」和手動核算,白白浪費了大量計算資源(tokens)。
- 數據稀缺:如何為這種新型的「模型 - 工具」協同推理模式,合成高質量的訓練數據,本身就是一個開放性難題。
那么,如何讓大模型學會「何時」以及「如何」高效地使用工具,將自身的抽象推理能力與工具的精確計算能力完美結合?
來自中國科學技術大學、香港中文大學(深圳)、通義千問的聯合研究團隊給出了他們的答案:CoRT (Code-Optimized Reasoning Training) —— 一個旨在教會大型語言模型高效利用代碼工具進行推理的后訓練(post-training)框架。該框架通過創新的數據合成策略和多階段訓練流程,顯著提升了模型的數學推理能力和效率。

目前,該論文已被 NeurIPS 2025 接收,相關模型和代碼均已開源。

- 論文鏈接:https://arxiv.org/abs/2510.20342
- 項目倉庫:https://github.com/ChengpengLi1003/CoRT
方法核心:從「數據冷啟動」到「智能體調優」的三步走
CoRT 框架的核心思想是,通過高質量的數據和精細化的訓練,重塑模型與工具的交互模式,使其從低效的「驗證」思維轉向高效的「計算」思維。

1.Hint-Engineering (提示工程):數據冷啟動的藝術
- 挑戰:高質量的「模型 - 工具」交互數據極度稀缺。簡單地提示模型使用代碼,會產生大量冗長、低效的推理軌跡。
- 核心思路:研究團隊首次提出了一種名為「提示工程」(Hint-Engineering) 的全新數據合成策略。其核心是在推理路徑的關鍵決策點,策略性地注入引導性提示,從而糾正模型的低效行為。
a.當模型試圖手動進行復雜計算時,注入提示:「這看起來很繁瑣,我們可以用 python 代碼來簡化推理」,引導其立即計算。
b.當模型得到代碼結果后試圖手動驗證時,注入提示:「我們不需要懷疑 python 計算的準確性」,打消其結果不信任。
- 效果:遵循「數據質量遠重于數量」的原則,團隊僅手動標注了 30 個高質量樣本,就為后續訓練奠定了堅實基礎。這種方法生成的推理軌跡不僅正確,而且極其簡短高效。

2.多階段訓練流程:精細化能力塑造
在高質量數據的基礎上,CoRT 設計了一套包含 SFT、RFT 和 RL 的完整訓練管線:
- 監督微調 (SFT):使用 30 個「提示工程」樣本進行初步微調,讓模型快速學習到高效交互的基本模式。
- 拒絕采樣微調 (RFT):讓初步微調后的模型生成大量解答,并自動過濾掉錯誤的、或存在「延遲計算」「結果不信任」等不良行為的軌跡,只保留優質軌跡用于進一步訓練,強化模型的「好品味」。
- 強化學習 (RL):將模型視為一個智能體 (Agent),將代碼解釋器視為環境 (Environment)。通過精心設計的獎勵函數(同時獎勵最終答案的準確性和代碼執行的成功率),讓模型在與環境的交互中,通過試錯自主學習最優的工具使用策略。這一步極大地提升了模型的穩定性和上限,尤其對于小尺寸模型效果顯著。
實驗結果:性能與效率的雙重飛躍

CoRT 框架在 5 個極具挑戰性的數學推理基準上進行了全面評估,結果證明了其卓越的性能。
- 性能顯著提升:在同等規模的開源模型基礎上,CoRT 為 DeepSeek-R1-32B 帶來了 4% 的絕對精度提升,為 1.5B 模型帶來了高達 8% 的絕對提升,效果媲美乃至超越了許多依賴更多數據訓練的模型。
- 效率革命性優化:與純自然語言推理的基線模型相比,CoRT 將 32B 模型的 token 消耗降低了約 30%,1.5B 模型更是降低了驚人的 50%。這意味著用一半的計算成本,就能達到更高的準確率。
- 重塑代碼使用行為:分析顯示,傳統方法促使模型將代碼主要用于「驗證」(占比 68.2%),而 CoRT 成功地將模型行為轉變為以「計算」為核心(占比 51.1%),從根本上提升了推理效率。
- 強大的泛化能力:在完全沒見過的化學問題(OOD)測試中,CoRT 訓練的模型不僅性能更優,還能自發地發現并使用一個從未在訓練中出現過的專業工具庫(RDKit),使用率高達 81.3%,展現了真正的智能涌現。
意義與展望
CoRT 框架的提出,為解決大型語言模型在精確推理領域的短板提供了一條高樣本效率、高計算效率的全新路徑。
它證明了,通過精巧的數據設計和先進的智能體強化學習框架,我們不僅能教會模型「使用」工具,更能教會它們「高效、智能」地 與工具協作。
這項工作展示了構建更強大、更可靠、更經濟的 AI 智能體系統的巨大潛力,為 AI 在科學發現、教育輔助、工程設計等需要精確推理的領域的落地應用,掃清了一大障礙。未來,將此框架擴展到更多樣化的工具和更復雜的任務場景,將是該方向激動人心的研究路徑。
作者介紹
核心作者:
- 唐正陽,香港中文大學(深圳)博士生,參與了 Qwen3 模型的開發,提出了 MathScale、ORLM 等代表性工作。
- 李成鵬,中國科學技術大學博士生,參與了 Qwen2.5、QwQ、Qwen3 等模型的開發,提出了 Mugglemath, START 等代表性工作。
- 李子牛,香港中文大學(深圳)博士生,提出了 ReMax、Knapsack RL 等代表性工作。




































