360智腦開(kāi)源Light-R1！1000美元數(shù)學(xué)上首次從零超越DeepSeek-R1-Distill

作者：機(jī)器之心 2025-03-06 10:00:00

360 智腦聯(lián)合北大開(kāi)源了 TinyR1-32B-Preview，從 DeepSeek-R1-Distill-Qwen-32B 訓(xùn)練，在數(shù)學(xué)、科學(xué)和代碼上取得了接近 DeepSeek-R1 滿血版的優(yōu)異效果。

2025 年 3 月 4 日，360 智腦開(kāi)源了 Light-R1-32B 模型，以及全部訓(xùn)練數(shù)據(jù)、代碼。僅需 12 臺(tái) H800 上 6 小時(shí)即可訓(xùn)練完成，從沒(méi)有長(zhǎng)思維鏈的 Qwen2.5-32B-Instruct 出發(fā)，僅使用 7 萬(wàn)條數(shù)學(xué)數(shù)據(jù)訓(xùn)練，得到 Light-R1-32B，在 AIME24 測(cè)試基準(zhǔn)中取得 76.6 分、AIME25 取得 64.6 分，在數(shù)學(xué)評(píng)測(cè)上開(kāi)源首次實(shí)現(xiàn)從零大幅超越 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分和 54.9 分。

一周前，360 智腦聯(lián)合北大開(kāi)源了 TinyR1-32B-Preview，從 DeepSeek-R1-Distill-Qwen-32B 訓(xùn)練，在數(shù)學(xué)、科學(xué)和代碼上取得了接近 DeepSeek-R1 滿血版的優(yōu)異效果。Light-R1-32B 則不依賴(lài) DeepSeek-R1-Distill，從沒(méi)有長(zhǎng)思維鏈的模型出發(fā)，在數(shù)學(xué)上從零復(fù)現(xiàn)并超越了 DeepSeek-R1-Distill-Qwen-32B。360 智腦希望這些工作助力開(kāi)源社區(qū)發(fā)展。

注：表中為 64 次采樣均分，較 16 次平均更穩(wěn)定；其他開(kāi)源模型截取開(kāi)源匯報(bào)的結(jié)果，若沒(méi)有則測(cè)試 64 次取均分。

模型倉(cāng)庫(kù)：https://huggingface.co/qihoo360/Light-R1-32B
項(xiàng)目地址：https://github.com/Qihoo360/Light-R1

低成本從零超越，領(lǐng)域?qū)＞?/span>

DeepSeek-R1 模型發(fā)布以來(lái)，盡管許多開(kāi)源工作試圖在 72B 或更小的模型上復(fù)現(xiàn)長(zhǎng)思維鏈的 DeepSeek-R1 的性能，但至今還沒(méi)有在 AIME24 等高難度數(shù)學(xué)競(jìng)賽中達(dá)到接近 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分的成績(jī)。

360 智腦開(kāi)源的 Light-R1-32B 實(shí)現(xiàn)了突破，從沒(méi)有長(zhǎng)思維鏈的 Qwen2.5-32B-Instruct 開(kāi)始訓(xùn)練，它在 AIME24 上取得了 76.6 的高分、在 AIME25 上 64.6 分，均顯著超越 DeepSeek-R1-Distill-Qwen-32B。

Light-R1-32B 的這套從零訓(xùn)練的方案，按 H800 租用價(jià)格估算，訓(xùn)練成本僅需 1000 美元左右。僅使用了 7 萬(wàn)條數(shù)學(xué)數(shù)據(jù)，通過(guò)兩階段的課程學(xué)習(xí) SFT 接著 DPO，即可超過(guò) DeepSeek-R1-Distill-Qwen-32B，12 臺(tái) H800 機(jī)器的訓(xùn)練時(shí)長(zhǎng)僅需 6 小時(shí)以?xún)?nèi)（約 4+0.5+0.5 小時(shí)）。

雖然僅使用數(shù)學(xué)數(shù)據(jù)訓(xùn)練了模型的長(zhǎng)思維鏈能力，但在 GPQA Diamond 任務(wù)上的優(yōu)秀結(jié)果，讓我們相信 Light-R1 的訓(xùn)練方案的泛化性及有效性。相比于內(nèi)部目前正在研發(fā)的強(qiáng)化學(xué)習(xí)路線，Light-R1 的課程學(xué)習(xí) SFT+DPO 對(duì)整個(gè)訓(xùn)練流程更輕便，成本也更友好。隨著訓(xùn)練和推理技術(shù)的不斷發(fā)展，未來(lái)長(zhǎng)思維鏈模型將更加普及，Light-R1 正為低成本快速訓(xùn)練一個(gè)領(lǐng)域?qū)＞评砟Ｐ吞峁┝酥匾獏⒖肌?/span>

全量開(kāi)源，簡(jiǎn)單易用

Light-R1 開(kāi)源首日即開(kāi)源全量訓(xùn)練和評(píng)測(cè)資產(chǎn)：

Light-R1-32B 模型：沿用 Qwen2.5-32B Apache 2.0 License；
課程學(xué)習(xí) SFT+DPO 數(shù)據(jù)集：兩階段課程學(xué)習(xí) SFT 和 DPO 的全部數(shù)據(jù)；
360-LLaMA-Factory 訓(xùn)練框架：在長(zhǎng)思維鏈數(shù)據(jù) Post-Training（尤其是 DPO）上解鎖序列并行；
完整評(píng)測(cè)代碼和結(jié)果：基于 DeepScaleR 的評(píng)測(cè)工具，Light-R1-32B 的原始采樣結(jié)果也在 Huggingface 模型目錄下。

Fully open at Day 1，確保可信度和可復(fù)現(xiàn)性。360 智腦也正在探索強(qiáng)化學(xué)習(xí)續(xù)訓(xùn)，未來(lái)性能有望進(jìn)一步提升。

Light-R1-32B 基于 Qwen tokenizer 增加了個(gè)別特殊 token。使用 Light-R1-32B 模型時(shí)，因其長(zhǎng)思維鏈能力目前僅通過(guò)數(shù)學(xué)數(shù)據(jù)訓(xùn)練，故并不會(huì)對(duì)所有用戶(hù)輸入輸出長(zhǎng)思維鏈。參照 DeepSeek 的推理建議，我們?cè)诹奶炷０逯杏簿幋a了 < think> token 強(qiáng)制其思考。建議使用較新版本的 vLLM 或 SGLang 進(jìn)行推理。

課程 SFT+DPO，穩(wěn)步提升

數(shù)據(jù)準(zhǔn)備

訓(xùn)練用的數(shù)學(xué)題來(lái)自 OpenR1-Math-220k、OpenThoughts-114k、Omni-MATH、AIME（截至 2023 年）等多個(gè)開(kāi)源的數(shù)學(xué)數(shù)據(jù)集，并對(duì) AIME、MATH、GPQA 等基準(zhǔn)測(cè)試的數(shù)據(jù)泄露去除了污染的題目。

數(shù)學(xué)題的答案抓取了 DeepSeek-R1 的結(jié)果并經(jīng)過(guò)驗(yàn)證過(guò)濾。同時(shí)使用 DeepScaleR-1.5B-Preview 進(jìn)行采樣根據(jù)回答正確率估算題目的難度分級(jí)。

課程學(xué)習(xí) SFT+DPO

基于 Qwen2.5-32B-Instruct，依次進(jìn)行 Post-Training：

SFT 階段 1：根據(jù)驗(yàn)證結(jié)果和難度分級(jí)初篩，得到 7 萬(wàn)條數(shù)據(jù)進(jìn)行 SFT；
SFT 階段 2：在 SFT 階段 1 之后，篩選出難度最大的 3 千條數(shù)據(jù)，進(jìn)行 SFT；
DPO 階段：在 SFT 階段 2 之后，在 3 千條數(shù)據(jù)上多次采樣 Light-R1-SFT 階段 2 的回答，根據(jù)驗(yàn)證結(jié)果和 DeepSeek-R1 的回答構(gòu)建 DPO pair 對(duì)，進(jìn)行 DPO，使用 DPO 原始 loss 或 NCA loss。

模型融合

最終，智腦團(tuán)隊(duì)將 SFT 階段 2、DPO 和另一個(gè) DPO 版本的模型（AIME24 74.7 分）融合，使用 Arcee 團(tuán)隊(duì)的 mergekit 工具，得到 Light-R1-32B。這兩個(gè) DPO 版本在訓(xùn)練數(shù)據(jù)和超參上略有不同。

整個(gè)訓(xùn)練流程中，每一步的提升都在前文的表格中體現(xiàn)。在完全沒(méi)訓(xùn)練的科學(xué)類(lèi)題目評(píng)測(cè) GPQA 上，數(shù)學(xué)專(zhuān)項(xiàng)訓(xùn)練導(dǎo)致了部分遺忘，但 Light-R1-32B 也體現(xiàn)了較強(qiáng)的泛化性。

數(shù)據(jù)去重，助力開(kāi)源生態(tài)

基準(zhǔn)測(cè)試分?jǐn)?shù)既有其重要性，也有局限性。雖然預(yù)訓(xùn)練階段的個(gè)別基準(zhǔn)測(cè)試污染難以完全避免，但在后訓(xùn)練階段，應(yīng)當(dāng)嚴(yán)格杜絕數(shù)據(jù)污染，在訓(xùn)練集中對(duì)測(cè)試數(shù)據(jù)嚴(yán)格去重。360 智腦在研發(fā)過(guò)程中發(fā)現(xiàn)，雖然開(kāi)源數(shù)據(jù)集對(duì) AIME 都沒(méi)有污染，但是在 MATH-500 和 GPQA 上都存在一定污染，通過(guò) N-gram 或純字母匹配檢測(cè)，可以發(fā)現(xiàn)原題或僅更改數(shù)字的計(jì)算題。針對(duì)這種情況，Light-R1-32B 在訓(xùn)練過(guò)程中做了嚴(yán)格去重。

在開(kāi)源社區(qū)中，Light-R1-32B 是首個(gè)從零訓(xùn)練超越 DeepSeek-R1-Distill-Qwen-32B 的模型。Light-R1-32B 基于開(kāi)源模型 Qwen2.5-32B-Instruct 和 DeepSeek-R1 和多個(gè)開(kāi)源數(shù)據(jù)，使用開(kāi)源框架 360-LLaMA-Factory 訓(xùn)練，使用開(kāi)源項(xiàng)目 DeepScaleR 和 verl 評(píng)測(cè)。360 希望通過(guò) Light-R1-32B 和上周開(kāi)源的 TinyR1 等工作助力開(kāi)源生態(tài)發(fā)展，加速中國(guó) AI。

注：本文 “從零” 表示從沒(méi)有長(zhǎng)思維鏈的模型開(kāi)始訓(xùn)練

團(tuán)隊(duì)成員：Liang Wen, Fenrui Xiao, Xin He, Yunke Cai, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型開(kāi)源訓(xùn)練