360智腦開(kāi)源Light-R1!1000美元數(shù)學(xué)上首次從零超越DeepSeek-R1-Distill
2025 年 3 月 4 日,360 智腦開(kāi)源了 Light-R1-32B 模型,以及全部訓(xùn)練數(shù)據(jù)、代碼。僅需 12 臺(tái) H800 上 6 小時(shí)即可訓(xùn)練完成,從沒(méi)有長(zhǎng)思維鏈的 Qwen2.5-32B-Instruct 出發(fā),僅使用 7 萬(wàn)條數(shù)學(xué)數(shù)據(jù)訓(xùn)練,得到 Light-R1-32B,在 AIME24 測(cè)試基準(zhǔn)中取得 76.6 分、AIME25 取得 64.6 分,在數(shù)學(xué)評(píng)測(cè)上開(kāi)源首次實(shí)現(xiàn)從零大幅超越 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分和 54.9 分。
一周前,360 智腦聯(lián)合北大開(kāi)源了 TinyR1-32B-Preview,從 DeepSeek-R1-Distill-Qwen-32B 訓(xùn)練,在數(shù)學(xué)、科學(xué)和代碼上取得了接近 DeepSeek-R1 滿血版的優(yōu)異效果。Light-R1-32B 則不依賴(lài) DeepSeek-R1-Distill,從沒(méi)有長(zhǎng)思維鏈的模型出發(fā),在數(shù)學(xué)上從零復(fù)現(xiàn)并超越了 DeepSeek-R1-Distill-Qwen-32B。360 智腦希望這些工作助力開(kāi)源社區(qū)發(fā)展。

注:表中為 64 次采樣均分,較 16 次平均更穩(wěn)定;其他開(kāi)源模型截取開(kāi)源匯報(bào)的結(jié)果,若沒(méi)有則測(cè)試 64 次取均分。
- 模型倉(cāng)庫(kù):https://huggingface.co/qihoo360/Light-R1-32B
- 項(xiàng)目地址:https://github.com/Qihoo360/Light-R1
低成本從零超越,領(lǐng)域?qū)>?/span>
DeepSeek-R1 模型發(fā)布以來(lái),盡管許多開(kāi)源工作試圖在 72B 或更小的模型上復(fù)現(xiàn)長(zhǎng)思維鏈的 DeepSeek-R1 的性能,但至今還沒(méi)有在 AIME24 等高難度數(shù)學(xué)競(jìng)賽中達(dá)到接近 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分的成績(jī)。
360 智腦開(kāi)源的 Light-R1-32B 實(shí)現(xiàn)了突破,從沒(méi)有長(zhǎng)思維鏈的 Qwen2.5-32B-Instruct 開(kāi)始訓(xùn)練,它在 AIME24 上取得了 76.6 的高分、在 AIME25 上 64.6 分,均顯著超越 DeepSeek-R1-Distill-Qwen-32B。
Light-R1-32B 的這套從零訓(xùn)練的方案,按 H800 租用價(jià)格估算,訓(xùn)練成本僅需 1000 美元左右。僅使用了 7 萬(wàn)條數(shù)學(xué)數(shù)據(jù),通過(guò)兩階段的課程學(xué)習(xí) SFT 接著 DPO,即可超過(guò) DeepSeek-R1-Distill-Qwen-32B,12 臺(tái) H800 機(jī)器的訓(xùn)練時(shí)長(zhǎng)僅需 6 小時(shí)以?xún)?nèi)(約 4+0.5+0.5 小時(shí))。
雖然僅使用數(shù)學(xué)數(shù)據(jù)訓(xùn)練了模型的長(zhǎng)思維鏈能力,但在 GPQA Diamond 任務(wù)上的優(yōu)秀結(jié)果,讓我們相信 Light-R1 的訓(xùn)練方案的泛化性及有效性。相比于內(nèi)部目前正在研發(fā)的強(qiáng)化學(xué)習(xí)路線,Light-R1 的課程學(xué)習(xí) SFT+DPO 對(duì)整個(gè)訓(xùn)練流程更輕便,成本也更友好。隨著訓(xùn)練和推理技術(shù)的不斷發(fā)展,未來(lái)長(zhǎng)思維鏈模型將更加普及,Light-R1 正為低成本快速訓(xùn)練一個(gè)領(lǐng)域?qū)>评砟P吞峁┝酥匾獏⒖肌?/span>
全量開(kāi)源,簡(jiǎn)單易用
Light-R1 開(kāi)源首日即開(kāi)源全量訓(xùn)練和評(píng)測(cè)資產(chǎn):
- Light-R1-32B 模型:沿用 Qwen2.5-32B Apache 2.0 License;
- 課程學(xué)習(xí) SFT+DPO 數(shù)據(jù)集:兩階段課程學(xué)習(xí) SFT 和 DPO 的全部數(shù)據(jù);
- 360-LLaMA-Factory 訓(xùn)練框架:在長(zhǎng)思維鏈數(shù)據(jù) Post-Training(尤其是 DPO)上解鎖序列并行;
- 完整評(píng)測(cè)代碼和結(jié)果:基于 DeepScaleR 的評(píng)測(cè)工具,Light-R1-32B 的原始采樣結(jié)果也在 Huggingface 模型目錄下。
Fully open at Day 1,確保可信度和可復(fù)現(xiàn)性。360 智腦也正在探索強(qiáng)化學(xué)習(xí)續(xù)訓(xùn),未來(lái)性能有望進(jìn)一步提升。
Light-R1-32B 基于 Qwen tokenizer 增加了個(gè)別特殊 token。使用 Light-R1-32B 模型時(shí),因其長(zhǎng)思維鏈能力目前僅通過(guò)數(shù)學(xué)數(shù)據(jù)訓(xùn)練,故并不會(huì)對(duì)所有用戶(hù)輸入輸出長(zhǎng)思維鏈。參照 DeepSeek 的推理建議,我們?cè)诹奶炷0逯杏簿幋a了 < think> token 強(qiáng)制其思考。建議使用較新版本的 vLLM 或 SGLang 進(jìn)行推理。
課程 SFT+DPO,穩(wěn)步提升
數(shù)據(jù)準(zhǔn)備
訓(xùn)練用的數(shù)學(xué)題來(lái)自 OpenR1-Math-220k、OpenThoughts-114k、Omni-MATH、AIME(截至 2023 年)等多個(gè)開(kāi)源的數(shù)學(xué)數(shù)據(jù)集,并對(duì) AIME、MATH、GPQA 等基準(zhǔn)測(cè)試的數(shù)據(jù)泄露去除了污染的題目。
數(shù)學(xué)題的答案抓取了 DeepSeek-R1 的結(jié)果并經(jīng)過(guò)驗(yàn)證過(guò)濾。同時(shí)使用 DeepScaleR-1.5B-Preview 進(jìn)行采樣根據(jù)回答正確率估算題目的難度分級(jí)。

課程學(xué)習(xí) SFT+DPO
基于 Qwen2.5-32B-Instruct,依次進(jìn)行 Post-Training:
- SFT 階段 1:根據(jù)驗(yàn)證結(jié)果和難度分級(jí)初篩,得到 7 萬(wàn)條數(shù)據(jù)進(jìn)行 SFT;
- SFT 階段 2:在 SFT 階段 1 之后,篩選出難度最大的 3 千條數(shù)據(jù),進(jìn)行 SFT;
- DPO 階段:在 SFT 階段 2 之后,在 3 千條數(shù)據(jù)上多次采樣 Light-R1-SFT 階段 2 的回答,根據(jù)驗(yàn)證結(jié)果和 DeepSeek-R1 的回答構(gòu)建 DPO pair 對(duì),進(jìn)行 DPO,使用 DPO 原始 loss 或 NCA loss。
模型融合
最終,智腦團(tuán)隊(duì)將 SFT 階段 2、DPO 和另一個(gè) DPO 版本的模型(AIME24 74.7 分)融合,使用 Arcee 團(tuán)隊(duì)的 mergekit 工具,得到 Light-R1-32B。這兩個(gè) DPO 版本在訓(xùn)練數(shù)據(jù)和超參上略有不同。
整個(gè)訓(xùn)練流程中,每一步的提升都在前文的表格中體現(xiàn)。在完全沒(méi)訓(xùn)練的科學(xué)類(lèi)題目評(píng)測(cè) GPQA 上,數(shù)學(xué)專(zhuān)項(xiàng)訓(xùn)練導(dǎo)致了部分遺忘,但 Light-R1-32B 也體現(xiàn)了較強(qiáng)的泛化性。
數(shù)據(jù)去重,助力開(kāi)源生態(tài)
基準(zhǔn)測(cè)試分?jǐn)?shù)既有其重要性,也有局限性。雖然預(yù)訓(xùn)練階段的個(gè)別基準(zhǔn)測(cè)試污染難以完全避免,但在后訓(xùn)練階段,應(yīng)當(dāng)嚴(yán)格杜絕數(shù)據(jù)污染,在訓(xùn)練集中對(duì)測(cè)試數(shù)據(jù)嚴(yán)格去重。360 智腦在研發(fā)過(guò)程中發(fā)現(xiàn),雖然開(kāi)源數(shù)據(jù)集對(duì) AIME 都沒(méi)有污染,但是在 MATH-500 和 GPQA 上都存在一定污染,通過(guò) N-gram 或純字母匹配檢測(cè),可以發(fā)現(xiàn)原題或僅更改數(shù)字的計(jì)算題。針對(duì)這種情況,Light-R1-32B 在訓(xùn)練過(guò)程中做了嚴(yán)格去重。

在開(kāi)源社區(qū)中,Light-R1-32B 是首個(gè)從零訓(xùn)練超越 DeepSeek-R1-Distill-Qwen-32B 的模型。Light-R1-32B 基于開(kāi)源模型 Qwen2.5-32B-Instruct 和 DeepSeek-R1 和多個(gè)開(kāi)源數(shù)據(jù),使用開(kāi)源框架 360-LLaMA-Factory 訓(xùn)練,使用開(kāi)源項(xiàng)目 DeepScaleR 和 verl 評(píng)測(cè)。360 希望通過(guò) Light-R1-32B 和上周開(kāi)源的 TinyR1 等工作助力開(kāi)源生態(tài)發(fā)展,加速中國(guó) AI。
注:本文 “從零” 表示從沒(méi)有長(zhǎng)思維鏈的模型開(kāi)始訓(xùn)練

團(tuán)隊(duì)成員:Liang Wen, Fenrui Xiao, Xin He, Yunke Cai, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang


































