精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

360智腦開(kāi)源Light-R1!1000美元數(shù)學(xué)上首次從零超越DeepSeek-R1-Distill

人工智能 開(kāi)源
360 智腦聯(lián)合北大開(kāi)源了 TinyR1-32B-Preview,從 DeepSeek-R1-Distill-Qwen-32B 訓(xùn)練,在數(shù)學(xué)、科學(xué)和代碼上取得了接近 DeepSeek-R1 滿血版的優(yōu)異效果。

2025 年 3 月 4 日,360 智腦開(kāi)源了 Light-R1-32B 模型,以及全部訓(xùn)練數(shù)據(jù)、代碼。僅需 12 臺(tái) H800 上 6 小時(shí)即可訓(xùn)練完成,從沒(méi)有長(zhǎng)思維鏈的 Qwen2.5-32B-Instruct 出發(fā),僅使用 7 萬(wàn)條數(shù)學(xué)數(shù)據(jù)訓(xùn)練,得到 Light-R1-32B,在 AIME24 測(cè)試基準(zhǔn)中取得 76.6 分、AIME25 取得 64.6 分,在數(shù)學(xué)評(píng)測(cè)上開(kāi)源首次實(shí)現(xiàn)從零大幅超越 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分和 54.9 分。

一周前,360 智腦聯(lián)合北大開(kāi)源了 TinyR1-32B-Preview,從 DeepSeek-R1-Distill-Qwen-32B 訓(xùn)練,在數(shù)學(xué)、科學(xué)和代碼上取得了接近 DeepSeek-R1 滿血版的優(yōu)異效果。Light-R1-32B 則不依賴(lài) DeepSeek-R1-Distill,從沒(méi)有長(zhǎng)思維鏈的模型出發(fā),在數(shù)學(xué)上從零復(fù)現(xiàn)并超越了 DeepSeek-R1-Distill-Qwen-32B。360 智腦希望這些工作助力開(kāi)源社區(qū)發(fā)展。

圖片

注:表中為 64 次采樣均分,較 16 次平均更穩(wěn)定;其他開(kāi)源模型截取開(kāi)源匯報(bào)的結(jié)果,若沒(méi)有則測(cè)試 64 次取均分。

  • 模型倉(cāng)庫(kù):https://huggingface.co/qihoo360/Light-R1-32B
  • 項(xiàng)目地址:https://github.com/Qihoo360/Light-R1

低成本從零超越,領(lǐng)域?qū)>?/span>

DeepSeek-R1 模型發(fā)布以來(lái),盡管許多開(kāi)源工作試圖在 72B 或更小的模型上復(fù)現(xiàn)長(zhǎng)思維鏈的 DeepSeek-R1 的性能,但至今還沒(méi)有在 AIME24 等高難度數(shù)學(xué)競(jìng)賽中達(dá)到接近 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分的成績(jī)。

360 智腦開(kāi)源的 Light-R1-32B 實(shí)現(xiàn)了突破,從沒(méi)有長(zhǎng)思維鏈的 Qwen2.5-32B-Instruct 開(kāi)始訓(xùn)練,它在 AIME24 上取得了 76.6 的高分、在 AIME25 上 64.6 分,均顯著超越 DeepSeek-R1-Distill-Qwen-32B。

Light-R1-32B 的這套從零訓(xùn)練的方案,按 H800 租用價(jià)格估算,訓(xùn)練成本僅需 1000 美元左右。僅使用了 7 萬(wàn)條數(shù)學(xué)數(shù)據(jù),通過(guò)兩階段的課程學(xué)習(xí) SFT 接著 DPO,即可超過(guò) DeepSeek-R1-Distill-Qwen-32B,12 臺(tái) H800 機(jī)器的訓(xùn)練時(shí)長(zhǎng)僅需 6 小時(shí)以?xún)?nèi)(約 4+0.5+0.5 小時(shí))。

雖然僅使用數(shù)學(xué)數(shù)據(jù)訓(xùn)練了模型的長(zhǎng)思維鏈能力,但在 GPQA Diamond 任務(wù)上的優(yōu)秀結(jié)果,讓我們相信 Light-R1 的訓(xùn)練方案的泛化性及有效性。相比于內(nèi)部目前正在研發(fā)的強(qiáng)化學(xué)習(xí)路線,Light-R1 的課程學(xué)習(xí) SFT+DPO 對(duì)整個(gè)訓(xùn)練流程更輕便,成本也更友好。隨著訓(xùn)練和推理技術(shù)的不斷發(fā)展,未來(lái)長(zhǎng)思維鏈模型將更加普及,Light-R1 正為低成本快速訓(xùn)練一個(gè)領(lǐng)域?qū)>评砟P吞峁┝酥匾獏⒖肌?/span>

全量開(kāi)源,簡(jiǎn)單易用

Light-R1 開(kāi)源首日即開(kāi)源全量訓(xùn)練和評(píng)測(cè)資產(chǎn):

  • Light-R1-32B 模型:沿用 Qwen2.5-32B Apache 2.0 License;
  • 課程學(xué)習(xí) SFT+DPO 數(shù)據(jù)集:兩階段課程學(xué)習(xí) SFT 和 DPO 的全部數(shù)據(jù);
  • 360-LLaMA-Factory 訓(xùn)練框架:在長(zhǎng)思維鏈數(shù)據(jù) Post-Training(尤其是 DPO)上解鎖序列并行;
  • 完整評(píng)測(cè)代碼和結(jié)果:基于 DeepScaleR 的評(píng)測(cè)工具,Light-R1-32B 的原始采樣結(jié)果也在 Huggingface 模型目錄下。

Fully open at Day 1,確保可信度和可復(fù)現(xiàn)性。360 智腦也正在探索強(qiáng)化學(xué)習(xí)續(xù)訓(xùn),未來(lái)性能有望進(jìn)一步提升。

Light-R1-32B 基于 Qwen tokenizer 增加了個(gè)別特殊 token。使用 Light-R1-32B 模型時(shí),因其長(zhǎng)思維鏈能力目前僅通過(guò)數(shù)學(xué)數(shù)據(jù)訓(xùn)練,故并不會(huì)對(duì)所有用戶(hù)輸入輸出長(zhǎng)思維鏈。參照 DeepSeek 的推理建議,我們?cè)诹奶炷0逯杏簿幋a了 < think> token 強(qiáng)制其思考。建議使用較新版本的 vLLM 或 SGLang 進(jìn)行推理。

課程 SFT+DPO,穩(wěn)步提升

數(shù)據(jù)準(zhǔn)備

訓(xùn)練用的數(shù)學(xué)題來(lái)自 OpenR1-Math-220k、OpenThoughts-114k、Omni-MATH、AIME(截至 2023 年)等多個(gè)開(kāi)源的數(shù)學(xué)數(shù)據(jù)集,并對(duì) AIME、MATH、GPQA 等基準(zhǔn)測(cè)試的數(shù)據(jù)泄露去除了污染的題目。

數(shù)學(xué)題的答案抓取了 DeepSeek-R1 的結(jié)果并經(jīng)過(guò)驗(yàn)證過(guò)濾。同時(shí)使用 DeepScaleR-1.5B-Preview 進(jìn)行采樣根據(jù)回答正確率估算題目的難度分級(jí)。

圖片

課程學(xué)習(xí) SFT+DPO

基于 Qwen2.5-32B-Instruct,依次進(jìn)行 Post-Training:

  • SFT 階段 1:根據(jù)驗(yàn)證結(jié)果和難度分級(jí)初篩,得到 7 萬(wàn)條數(shù)據(jù)進(jìn)行 SFT;
  • SFT 階段 2:在 SFT 階段 1 之后,篩選出難度最大的 3 千條數(shù)據(jù),進(jìn)行 SFT;
  • DPO 階段:在 SFT 階段 2 之后,在 3 千條數(shù)據(jù)上多次采樣 Light-R1-SFT 階段 2 的回答,根據(jù)驗(yàn)證結(jié)果和 DeepSeek-R1 的回答構(gòu)建 DPO pair 對(duì),進(jìn)行 DPO,使用 DPO 原始 loss 或 NCA loss。

模型融合

最終,智腦團(tuán)隊(duì)將 SFT 階段 2、DPO 和另一個(gè) DPO 版本的模型(AIME24 74.7 分)融合,使用 Arcee 團(tuán)隊(duì)的 mergekit 工具,得到 Light-R1-32B。這兩個(gè) DPO 版本在訓(xùn)練數(shù)據(jù)和超參上略有不同。

整個(gè)訓(xùn)練流程中,每一步的提升都在前文的表格中體現(xiàn)。在完全沒(méi)訓(xùn)練的科學(xué)類(lèi)題目評(píng)測(cè) GPQA 上,數(shù)學(xué)專(zhuān)項(xiàng)訓(xùn)練導(dǎo)致了部分遺忘,但 Light-R1-32B 也體現(xiàn)了較強(qiáng)的泛化性。

數(shù)據(jù)去重,助力開(kāi)源生態(tài)

基準(zhǔn)測(cè)試分?jǐn)?shù)既有其重要性,也有局限性。雖然預(yù)訓(xùn)練階段的個(gè)別基準(zhǔn)測(cè)試污染難以完全避免,但在后訓(xùn)練階段,應(yīng)當(dāng)嚴(yán)格杜絕數(shù)據(jù)污染,在訓(xùn)練集中對(duì)測(cè)試數(shù)據(jù)嚴(yán)格去重。360 智腦在研發(fā)過(guò)程中發(fā)現(xiàn),雖然開(kāi)源數(shù)據(jù)集對(duì) AIME 都沒(méi)有污染,但是在 MATH-500 和 GPQA 上都存在一定污染,通過(guò) N-gram 或純字母匹配檢測(cè),可以發(fā)現(xiàn)原題或僅更改數(shù)字的計(jì)算題。針對(duì)這種情況,Light-R1-32B 在訓(xùn)練過(guò)程中做了嚴(yán)格去重。

圖片

在開(kāi)源社區(qū)中,Light-R1-32B 是首個(gè)從零訓(xùn)練超越 DeepSeek-R1-Distill-Qwen-32B 的模型。Light-R1-32B 基于開(kāi)源模型 Qwen2.5-32B-Instruct 和 DeepSeek-R1 和多個(gè)開(kāi)源數(shù)據(jù),使用開(kāi)源框架 360-LLaMA-Factory 訓(xùn)練,使用開(kāi)源項(xiàng)目 DeepScaleR 和 verl 評(píng)測(cè)。360 希望通過(guò) Light-R1-32B 和上周開(kāi)源的 TinyR1 等工作助力開(kāi)源生態(tài)發(fā)展,加速中國(guó) AI。

注:本文 “從零” 表示從沒(méi)有長(zhǎng)思維鏈的模型開(kāi)始訓(xùn)練

圖片

團(tuán)隊(duì)成員:Liang Wen, Fenrui Xiao, Xin He, Yunke Cai, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-02-03 14:17:27

2025-07-30 09:06:02

2025-04-21 08:42:00

模型開(kāi)源AI

2025-02-19 08:00:00

2025-01-27 12:30:07

2025-04-23 15:23:25

AI模型代碼

2025-02-11 08:35:30

2025-11-19 08:56:42

2025-02-20 15:32:28

2025-09-08 09:06:16

2025-02-17 09:33:00

AI算法模型

2025-02-07 13:10:06

2025-03-13 08:13:47

DeepSeekMLLMVision-R1

2025-07-08 08:53:00

2025-03-12 13:55:05

2025-03-05 10:21:04

DeepSeekLVLM

2025-06-17 17:14:01

DeepSeekSOTA開(kāi)源

2025-03-13 11:07:30

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

久久精品99无色码中文字幕 | 亚洲永久免费av| 91中文精品字幕在线视频| 亚洲色婷婷一区二区三区| 亚洲精品福利| 欧美性猛交xxxx免费看| 先锋影音日韩| www.激情五月| 国产亚洲在线| www.亚洲免费视频| 国产精品手机在线观看| 欧美精品高清| 夜夜爽夜夜爽精品视频| 欧美日韩国产不卡在线看| 91成品人影院| 国产欧美丝祙| 久久精品视频在线观看| 少妇户外露出[11p]| 欧美亚洲二区| 欧美日韩在线免费观看| 中文字幕久久综合| 五月婷在线视频| 国产又黄又大久久| 欧美综合在线观看| 国产真实乱在线更新| 偷拍精品福利视频导航| 日韩一区二区视频| 中文字幕第80页| 国产亚av手机在线观看| 国产精品日日摸夜夜摸av| 国产欧美韩日| 国产情侣自拍小视频| 日韩国产精品久久久| 欧美精品成人在线| 来吧亚洲综合网| 精品中文一区| 亚洲激情在线观看视频免费| 欧美一级小视频| 国精产品一区二区三区有限公司 | 成人一区二区视频| 91精品国产综合久久香蕉922| 美女又爽又黄免费视频| 欧美成人嫩草网站| 日韩有码在线电影| 色无极影院亚洲| 美女视频免费精品| 日韩美女一区二区三区四区| 日韩在线不卡一区| www.成人在线视频| 色成人在线视频| 色综合久久久久无码专区| 女子免费在线观看视频www| 国产精品国产精品国产专区不片 | 香蕉久久国产av一区二区| 国产成人自拍网| 亚洲最大成人免费视频| 国产精品毛片一区二区在线看舒淇| 日韩国产精品91| 国产成人精品日本亚洲专区61| 久久亚洲天堂网| 一区二区三区四区五区精品视频| 欧美国产在线电影| 久久黄色小视频| 激情国产一区| 国外成人性视频| 在线免费观看毛片| 亚洲视频免费| 97在线免费观看| 国产 日韩 欧美 在线| 99国产一区| 91精品国产91久久久久久最新| 国产一级片免费| 夜夜嗨一区二区| 国产91精品久久久久| 国产精品久免费的黄网站| 国产女优一区| 在线亚洲+欧美+日本专区| 免费成人深夜夜行网站视频| 免费av在线网址| 亚洲你懂的在线视频| 小泽玛利亚av在线| 乱插在线www| 午夜精品视频一区| 麻豆av免费在线| 成人国产综合| 日韩三级免费观看| 妖精视频一区二区| 九九久久电影| 俺去了亚洲欧美日韩| www.99re7| 1024成人| 国产精品永久免费在线| 亚洲av无码专区在线| 不卡一区二区三区四区| 日本一区高清不卡| 巨大荫蒂视频欧美大片| 亚洲国产中文字幕| 三级在线免费看| 在线播放成人| 亚洲国产精品va在线看黑人动漫| 99久久精品免费视频| 一本一道久久a久久精品蜜桃| 欧美国产日韩二区| 男人的天堂av网站| 国产成人免费在线视频| 欧美三级电影在线播放| 精品黄色免费中文电影在线播放| 亚洲一区二区欧美| 欧美大尺度做爰床戏| 91成人精品在线| 中文字幕成人精品久久不卡| 久久久国产精华液| 奇米777欧美一区二区| 丁香五月网久久综合| 都市激情一区| 香蕉久久一区二区不卡无毒影院 | 第一福利永久视频精品 | 波多野结衣亚洲一区二区| 欧美午夜一区| 国产精国产精品| 成人h动漫精品一区二区无码| 久久久久亚洲蜜桃| 男人天堂a在线| 欧美一级网址| 国产午夜精品麻豆| 久久久久成人片免费观看蜜芽| 久久亚洲视频| 国产精品初高中精品久久| 992tv免费直播在线观看| 亚洲国产cao| 免费黄频在线观看| 精品视频久久| 欧美与黑人午夜性猛交久久久| 国产99视频在线| 中文字幕 久热精品 视频在线| 热99这里只有精品| 亚洲午夜精品| 久久视频在线免费观看| 无码人妻aⅴ一区二区三区有奶水 无码免费一区二区三区 | 亚洲视频在线观看免费| 精品一区二区三区四| 精品一区二区三区在线观看国产| 欧美亚洲另类在线一区二区三区| a级片在线免费观看| 日韩视频在线一区二区| 熟女少妇a性色生活片毛片| 久久久久在线| 六十路精品视频| av今日在线| 精品国产一区二区亚洲人成毛片| 三上悠亚在线观看视频| 蜜臀99久久精品久久久久久软件| 欧美精品一区二区三区久久| 成人一级福利| 日韩精品极品在线观看播放免费视频| 国产亚洲色婷婷久久99精品| 国产成人自拍网| 成人在线免费高清视频| 激情视频亚洲| 久久视频中文字幕| 99精品久久久久久中文字幕 | 日韩亚洲视频在线| 日韩欧美一区二区三区在线观看 | 中文字幕人妻一区二区三区| 午夜精品999| 97av影视网在线观看| av大全在线| 欧美mv日韩mv| 日韩久久精品视频| 91在线观看高清| 国产淫片免费看| 国产aⅴ精品一区二区三区久久| 热99精品里视频精品| 免费a在线观看| 欧美综合亚洲图片综合区| 成人黄色a级片| 美女mm1313爽爽久久久蜜臀| 波多野结衣激情| 视频精品国内| 26uuu日韩精品一区二区| 男女网站在线观看| 欧美电影在线免费观看| 91高清免费看| 国产成人在线视频网站| 北条麻妃在线视频观看| 国产成人黄色| 亚洲综合中文字幕在线| av电影免费在线看| 亚洲精品少妇网址| 中文字幕在线观看精品| 中文在线资源天堂| 尤物在线观看一区| 久久人人妻人人人人妻性色av| 老司机午夜免费精品视频| 一区二区三区四区国产| 成人在线tv视频| 国产精品第二页| 欧美女同一区| 国产一区二区三区在线观看视频| 一级黄色片免费| 亚洲一级片在线观看| 成人免费无遮挡无码黄漫视频| 久久国内精品自在自线400部| 日韩久久久久久久久久久久| 亚洲va久久久噜噜噜久久| 国产情人节一区| 国产在线天堂www网在线观看| 在线观看日韩av| 亚洲男人天堂久久| 欧洲色大大久久| 国产乡下妇女做爰视频| 国产精品美女久久福利网站| 95视频在线观看| 久久精品国产99| 一本大道熟女人妻中文字幕在线 | 国产亚洲精品一区二区| www.黄色av| 欧美日韩aaaaaa| 婷婷激情五月网| 亚洲精品乱码久久久久久| 国产三级视频网站| 懂色av一区二区三区蜜臀| 999精彩视频| 欧美专区18| 996这里只有精品| 午夜精品视频一区二区三区在线看| 久久99欧美| av成人资源网| 亚洲影院色在线观看免费| 欧美va在线| 日本aⅴ大伊香蕉精品视频| 天堂av在线电影| 久久精品色欧美aⅴ一区二区| 免费在线国产| 精品99一区二区三区| 国产av无码专区亚洲av麻豆| 欧美视频一区在线观看| 久久黄色精品视频| 亚洲高清视频在线| 老湿机69福利| 亚洲欧美自拍偷拍色图| 懂色av蜜臀av粉嫩av永久| 国产亚洲婷婷免费| av男人的天堂av| 91亚洲永久精品| 男男做爰猛烈叫床爽爽小说| 成人免费毛片片v| jjzz黄色片| 成人性视频网站| 中文字幕天堂av| 国产成人在线电影| 日本一级大毛片a一| 国产+成+人+亚洲欧洲自线| 韩国三级与黑人| 国产精一区二区三区| 手机免费av片| 美女国产一区二区| 欧美国产日韩在线播放| 日日夜夜精品免费视频| 国产精品69页| 青青草成人在线观看| 男人天堂成人在线| 石原莉奈在线亚洲三区| 日本888xxxx| 日本aⅴ免费视频一区二区三区 | 国产99在线| 91精品国产亚洲| 97久久人人超碰caoprom| 欧美美女15p| 成年男女免费视频网站不卡| 久久久久国产精品免费| 丝袜中文在线| 亚州精品天堂中文字幕| 韩日毛片在线观看| 欧美成人午夜激情在线| 国产精品69xx| 午夜精品久久久99热福利| 精品精品导航| 欧美亚洲国产另类| 国模一区二区| 国产欧美韩国高清| 日韩欧美中文在线观看| 爱情岛论坛亚洲入口| 7m精品国产导航在线| 六十路精品视频| 精品国产视频| 中文字幕av日韩精品| 极品尤物久久久av免费看| 蜜桃传媒一区二区三区| 免费视频一区| 欧美日韩精品区别| 国产成人精品网址| 性欧美丰满熟妇xxxx性久久久| 国产日韩成人精品| 蜜臀av午夜精品久久| 亚洲一区视频在线| 在线免费观看av网址| 欧美二区乱c少妇| 亚洲黄色一级大片| 亚洲性无码av在线| 看黄网站在线| 91av在线免费观看| 欧美亚洲人成在线| 成人免费看片网站| 视频一区在线观看| 国产精品av免费观看| 99亚洲伊人久久精品影院红桃| 日韩一级在线免费观看| 国产精品夜夜嗨| 欧美多人猛交狂配| 中文字幕中文字幕中文字幕亚洲无线| 国产精品111| 欧美揉bbbbb揉bbbbb| 国产黄色免费大片| 中文字幕无线精品亚洲乱码一区 | av影片在线| 成人黄色av播放免费| 欧美电影完整版在线观看| 日韩欧美视频第二区| 亚洲精选在线| 奇米影视四色在线| 国产91精品一区二区麻豆亚洲| 日本少妇高潮喷水xxxxxxx| 一区二区三区在线不卡| 在线观看不卡的av| 亚洲精品999| 顶级网黄在线播放| 国产精品激情av在线播放| 日本亚洲视频| 亚洲韩国在线| 先锋亚洲精品| 麻豆精品国产传媒| 中文字幕va一区二区三区| 国产一级一级片| 在线视频中文字幕一区二区| 亚洲欧美高清视频| 中文字幕亚洲欧美日韩2019| 91久久国产综合久久91猫猫| 亚洲xxx视频| 999久久久亚洲| 亚洲综合在线网站| 不卡av在线免费观看| 免费看特级毛片| 欧美日高清视频| 免费毛片在线| 九九视频这里只有精品| 狠狠久久综合| 欧美日韩亚洲在线| 亚洲精品人人| 亚洲成人精品在线播放| 最新国产成人在线观看| 日韩国产成人在线| 夜夜嗨av一区二区三区免费区| 欧美激情网站| 你懂的视频在线一区二区| 亚洲高清久久| 亚洲视频天天射| 偷拍一区二区三区| 亚洲精品18p| 欧美床上激情在线观看| 久久免费福利| 99热一区二区三区| 国产一区二区看久久| 色哟哟一一国产精品| 欧美日韩国产首页在线观看| 欧美一级二级三级区| 国产精品视频一区二区高潮| 精品国内自产拍在线观看视频 | 国产精品久久亚洲7777| 天天综合一区| 激情av中文字幕| 午夜视频一区二区三区| 日本大臀精品| 国产精品jizz在线观看麻豆| 国产91精品对白在线播放| 国产九九在线观看| 国产精品美女久久久久久久久| 国产三级按摩推拿按摩| 插插插亚洲综合网| 国内精品视频| 凹凸国产熟女精品视频| 国产丝袜在线精品| 国产一区二区三区成人| 欧美日韩成人在线播放| 国产成人在线中文字幕| 99999精品视频| 国产精品午夜久久| 午夜精品久久久久久久99| 隔壁老王国产在线精品| 偷窥自拍亚洲色图精选| 中文字幕22页| 亚洲五码中文字幕| 国产在线日本| 亚洲www视频| 亚洲大胆在线| 日本在线观看网址| 日韩欧美综合在线| 欧美理论影院| avove在线观看| 91美女片黄在线观看|