精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

200多行代碼,超低成本復現DeepSeek R1「Aha Moment」!復旦大學開源

人工智能 新聞
DeepSeek-R1-zero 經過強化學習實現了大模型頓悟時刻的自發涌現,引發了大量對其方案的解讀與復現工作。

本文是復旦大學知識工場實驗室肖仰華教授、梁家卿青年副研究員科研團隊的最新研究成果,他們用簡潔的代碼高效復現了 R1-zero 的自發反思能力。

在關于 DeepSeek 的文章中,我們會多次聽到「Aha Moment」這個詞。它指的是模型在訓練過程中經歷的一種頓悟時刻,表現為模型突然展現出類似人類的自我反思和策略調整能力。

DeepSeek 論文中提到的 Aha Moment。

DeepSeek-R1-zero 經過強化學習實現了大模型頓悟時刻的自發涌現,引發了大量對其方案的解讀與復現工作。

其中,基于 GRPO( Group Relative Policy Optimization)強化學習方案尤其受到關注。業界先后開源了多個基于 GRPO 算法的 R1-zero 復現項目。然而,這些復現項目嚴重依賴一些復雜代碼框架,有著較高的代碼實現復雜度,對部署環境存在較高依賴,資源利用率不高,代碼可讀性與可維護性仍存在改進空間。

對此,復旦大學知識工場實驗室肖仰華教授、梁家卿青年副研究員科研團隊基于 GRPO 算法思想高效復現了 R1-zero 自發反思能力。目前,該項目(Simple-GRPO)的第一版代碼實現已經開源并提交 Github。

代碼地址:https://github.com/lsdefine/simple_GRPO。

該項目相對于現有開源的 R1-zero 復現具有以下優勢:

代碼簡潔,依賴簡單,只需要 200 多行;

資源消耗低,通過模型解耦與分離進一步降低算力需求,該項目支持在一張 A800 (80G) 加一張 3090 (24G) 完成 7B 模型的訓練。根據 AutoDL 平臺計費標準,一張 A800 (80G) 5.98 元 / 時,一張 3090 (24G) 1.32 元 / 時。以項目作者經驗,模型在這樣的算力平臺下,訓練 1h 模型就能出現 aha moment,折合人民幣 7.3 元,單次實驗成本壓縮至奶茶價格區間。

項目介紹 

本項目代碼簡單,GRPO 算法實現僅有 200 多行代碼,且僅依賴基礎的深度學習代碼庫,如 deepspeed 和 torch,而無需 ray 等復雜框架。具體實現細節如下:

① 參考模型分離

在實現過程中,參考模型(reference model)被解耦,允許其在不同的 GPU 上運行(甚至可以運行在 3090 顯卡上)。這避免了將參考模型和訓練模型放在同一個 GPU 上,防止 torch 的多進程機制創建多個副本,避免顯存浪費,并使得在 A800(80G)上訓練 7B 模型成為可能。

② 核心損失計算

損失計算公式基于 Hugging Face 的 trl 實現。

③ 訓練環境與過程

項目在 1 張 A800(80G)顯卡上用 Zero-Stage 2 做優化,使用另一張 A800(80G)顯卡進行參考模型的推理,參考模型分離使得 GRPO 的訓練更加高效。

在以上訓練環境中,Qwen2.5-3B 訓練 60 步需要 12 分 34 秒,Qwen2.5-7B 訓練 60 步需要 16 分 40 秒。其中在前 30 步優化中,Qwen2.5-7B 和 Qwen2.5-3B 的輸出內容中,均出現了「頓悟時刻」現象。示例如下:

  • Qwen2.5-3B(步驟 20)

其中文翻譯如下:

「<think> ... 要找出卡姆登畫的雞蛋比阿諾德多多少,我們從卡姆登畫的雞蛋數量中減去阿諾德畫的雞蛋數量。所以,21-28 = -7。然而,這個結果在問題的背景下沒有意義,因為卡姆登畫的雞蛋不可能比阿諾德少。讓我們重新考慮最初的解決方案步驟:我們應該驗證關于卡姆登和莎拉的雞蛋之間關系的初始假設是否正確 。... </think> <answer>-7</answer>」

  • Qwen2.5-7B(步驟 20)

其中文翻譯如下:

「<think> ... 因此,Joanne 從普通樹上摘了 350 個蘋果。但是,這似乎不對,因為總數應該是 500 個,而我們已經計算了 150 個,只剩下 350 個普通樹上的蘋果,這與總數相矛盾。讓我們重新評估一下 。... </think> <answer>350</answer>」

實驗結果 

使用 Qwen2.5-3B 和 Qwen2.5-7B 作為基礎模型,測試了模型訓練過程中正確率(左圖)和格式遵循能力(右圖)的變化情況,比較符合預期。

  • Qwen2.5-3B:

在 GSM8K 和 Math 混合數據集進行訓練,從上圖可以看出,Qwen2.5-3B 的準確率在經歷 5 步的優化后能穩定在 60% 以上,最高能達到 70% 左右;格式遵循能力在 30 步以后接近 100%.

  • Qwen2.5-7B

在 GSM8K 數據集上進行訓練,從上圖可以看出,Qwen2.5-7B 的無論是準確率還是格式遵循能力都能在三十步以內快速收斂,準確率(左圖)始終保持在 90% 以上,格式遵循能力(右圖)到達 100%.

改進方向

近期本項目將進一步推出以下方向的優化版本,敬請關注。

組內答案同質性問題

根據 GRPO 算法中的分組策略,當組內答案全部正確或全為錯誤時,獎勵函數無法有效分配差異化獎勵,強化學習將缺乏對比性的訓練信號,導致模型難以收斂。后續將在訓練過程中實時監控答案分布,對同質化的答案進行重新采樣和分組,以提供有效的對比信號。

長思維鏈(CoT)顯存占用問題

當模型生成較長的思維鏈(CoT)時,由于文本序列長度較長,顯存占用會顯著增加。對此,后續考慮拆分組別,減小批次大小,或對長序列分階段處理,以減小訓練過程中的 GPU 內存開銷,提升訓練效率。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-20 15:32:28

2025-04-03 15:46:53

2025-01-27 12:30:07

2025-07-04 09:08:00

AI模型架構

2025-02-06 18:37:46

GPUQwen2.5模型

2025-02-11 16:11:12

2025-02-07 13:10:06

2025-04-02 09:00:00

模型開源AI

2010-09-16 18:44:17

Coremail

2025-03-03 08:17:00

DeepSeek模型數據

2025-04-27 09:00:00

模型視頻生成

2025-05-09 08:55:00

2025-02-03 00:00:55

DeepSeekRAG系統

2025-02-11 08:35:30

2025-02-25 08:20:50

AI程序員DeepSeek

2025-02-08 11:31:17

DeepseekR1模型

2025-02-12 12:12:59

2011-01-21 15:10:42

日立JP1復旦大學IT運維管理課程

2025-02-20 11:12:11

2022-06-30 08:55:15

DDoSWAF網絡攻擊
點贊
收藏

51CTO技術棧公眾號

97在线观看视频国产| 欧美成人三级在线| 亚洲欧洲国产日韩精品| 99国产成人精品| 一区二区三区福利| 中文字幕精品av| 亚洲少妇一区二区三区| 澳门av一区二区三区| 亚洲精品一二三四区| 欧美成ee人免费视频| 国产美女www爽爽爽视频| 国产精品婷婷| 九九热最新视频//这里只有精品 | 国产精品影视在线| 欧洲成人免费视频| 永久久久久久久| 国产探花一区二区| 亚洲第一福利在线观看| 麻豆三级在线观看| 男人天堂视频在线观看| 亚洲同性gay激情无套| 免费久久99精品国产自| 超碰在线人人干| 免费观看在线综合色| 欧美性受xxxx白人性爽| 国产在线一卡二卡| 精品国产午夜| 亚洲男人天天操| 制服丝袜av在线| 激情视频亚洲| 欧美裸体bbwbbwbbw| 国产美女三级视频| а_天堂中文在线| 亚洲三级免费电影| 亚洲国产精品一区二区第四页av| 亚洲 欧美 精品| 成人午夜视频福利| 91嫩草免费看| 国产精品一级视频| 另类中文字幕网| 国产精品欧美激情| 久久这里只有精品9| 香蕉久久夜色精品| 8x海外华人永久免费日韩内陆视频| 性色av无码久久一区二区三区| 欧美丝袜丝交足nylons172| 亚洲精品国产精品乱码不99按摩| 亚洲欧洲国产视频| 9l亚洲国产成人精品一区二三| 555www色欧美视频| 亚洲在线观看网站| 日韩成人在线观看视频| 欧美一卡在线观看| 中文字幕亚洲日本| 18国产精品| 精品国产凹凸成av人网站| a级大片免费看| 亚洲国产欧美在线观看| 欧美va亚洲va在线观看蝴蝶网| 国产精品igao网网址不卡| 精品入口麻豆88视频| 91精品国产色综合久久不卡电影 | 欧美综合在线播放| 秋霞伦理一区| 91成人看片片| 在线免费观看av的网站| 色婷婷成人网| 日韩欧美国产高清| 国产av一区二区三区传媒| 国产精品毛片视频| 精品视频www| 国产在线综合视频| 91成人影院| 久久久久久久久网站| 国产精品久久久免费视频| 久久人人97超碰国产公开结果| 国产精品久久久久久久久免费| 一级黄在线观看| 国产精品亚洲第一区在线暖暖韩国| 999视频在线免费观看| 亚洲成人第一区| 96av麻豆蜜桃一区二区| 亚洲国产高清国产精品| 天堂av中文在线| 日韩欧美精品中文字幕| 亚洲第一狼人区| 亚洲欧美日本国产| 日韩精品丝袜在线| 少妇高潮在线观看| 亚洲激情网站| 国产精品极品美女在线观看免费 | 自拍偷拍亚洲一区| 欧美成人一二三区| 久久综合影音| 69174成人网| 欧美色综合一区二区三区| 中文字幕日韩欧美一区二区三区| 久久这里只有精品8| 超碰一区二区| 日韩欧美的一区| 99久久久无码国产精品性| 欧美 日韩 国产精品免费观看| 欧美在线视频网站| aaa级黄色片| 国产情人综合久久777777| 国产精品88久久久久久妇女| 在线天堂中文资源最新版| 欧美顶级少妇做爰| 在线观看福利片| 欧美涩涩视频| 国产日韩欧美在线视频观看| 天天摸夜夜添狠狠添婷婷| 中文字幕一区三区| 37pao成人国产永久免费视频| 日韩视频一区二区三区四区| 尤物九九久久国产精品的分类| 久久久久久久久久一区二区三区| 日本特黄久久久高潮| 国产精品美女久久久久av福利| 欧美边添边摸边做边爱免费| 色综合久久88色综合天天免费| 韩国三级在线看| 国产精品久久久久久久免费观看| 日韩av理论片| 亚洲 小说区 图片区 都市| 1000精品久久久久久久久| 美女网站免费观看视频| 色吊丝一区二区| 午夜精品美女自拍福到在线| 国产视频一区二区三| 国产精品你懂的在线| 四虎永久在线精品无码视频| 欧美激情影院| 久久免费国产视频| 亚洲第一免费视频| 一区二区三区日韩在线观看| 午夜一级免费视频| 日本欧美视频| 国产精品美腿一区在线看| 你懂的免费在线观看视频网站| 亚洲成人自拍网| youjizz.com国产| 极品日韩av| 国产精品日韩欧美一区二区| 性xxxfreexxxx性欧美| 日韩一区二区三区免费看| 免费中文字幕在线| 国产91在线观看丝袜| 999久久欧美人妻一区二区| 日本一区二区三区电影免费观看| 欧美成人网在线| 亚洲av无码乱码国产精品久久| 亚洲日本欧美天堂| 91亚洲一线产区二线产区| 欧美激情91| 国产精品一 二 三| 欧美三级网站| 亚洲人成亚洲人成在线观看| 久久人人爽人人爽人人片av免费| 国产欧美综合在线观看第十页| 色哟哟精品视频| 91亚洲国产高清| 亚洲一区国产精品| 波多野结衣中文字幕久久| 亚洲国产精品字幕| 五月婷婷激情视频| 欧美激情在线免费观看| 欧美性受xxxxxx黑人xyx性爽| 一区二区影视| 国产一区二区视频在线免费观看 | 色悠久久久久综合欧美99| 亚洲区自拍偷拍| 久久精品国产精品青草| av影院在线播放| 日本一区福利在线| 国产精品久久久久久久av电影| 欧美日本一道| 精品国产一二三| 少妇高潮av久久久久久| 亚洲国产成人一区二区三区| 日本高清免费观看| 国产欧美精品久久| 亚洲黄色成人久久久| 日本在线成人| 日本最新高清不卡中文字幕| 在线观看美女网站大全免费| 欧美tickling网站挠脚心| 五月天婷婷导航| 亚洲精品免费电影| 91网站免费视频| 国产传媒日韩欧美成人| 成年人黄色片视频| 国产主播一区| 神马影院一区二区三区| 99久久婷婷国产综合精品青牛牛| 日本精品视频在线观看| 97超碰在线公开在线看免费| 国产视频久久久久| 精品人妻伦一区二区三区久久| 色噜噜久久综合| 久久久久亚洲av成人片| 中文久久乱码一区二区| 国产十八熟妇av成人一区| 久久精品理论片| 日本成年人网址| 欧美理论在线| 亚洲国产欧洲综合997久久| 精品久久ai电影| 91欧美精品午夜性色福利在线| 美女网站在线看| 超碰精品一区二区三区乱码| 精品亚洲成a人片在线观看| 欧美成人女星排名| 一级特黄aa大片| 色婷婷精品久久二区二区蜜臀av| 久久综合加勒比| 综合精品久久久| 亚洲色成人网站www永久四虎| eeuss影院一区二区三区| 波多野结衣中文字幕在线播放| 日本va欧美va欧美va精品| 久久久亚洲精品无码| 欧美破处大片在线视频| 亚洲日本japanese丝袜| 国产精品一在线观看| 精品久久精品久久| www国产精品| 99国产超薄丝袜足j在线观看| 国产精品久久久久久久久久辛辛 | 中国女人一级一次看片| 欧美日韩亚洲网| 亚洲 欧美 日韩 综合| 亚洲国产视频一区| 久久国产在线观看| 亚洲精品综合在线| 三级影片在线看| 亚洲美女淫视频| 国产一二三区精品| 亚洲美腿欧美偷拍| 欧美日韩偷拍视频| 一二三区精品视频| 激情视频在线播放| 亚洲一级电影视频| 国产精品成人国产乱| 亚洲成人动漫在线观看| 日本少妇性生活| 午夜国产精品影院在线观看| 国产主播在线播放| 午夜电影网亚洲视频| 日韩欧美激情视频| 黑丝美女久久久| 日韩手机在线视频| 在线观看视频一区二区欧美日韩| 国内av在线播放| 欧美精品在线一区二区三区| 国产精品老熟女视频一区二区| 欧美夫妻性生活| 国产a级免费视频| 精品国产乱码久久久久久蜜臀| 精品久久人妻av中文字幕| 精品国产网站在线观看| 日本韩国一区| 色久欧美在线视频观看| 成人日韩欧美| 韩国精品久久久999| 一个人看的www视频在线免费观看 一个人www视频在线免费观看 | 91精品久久久久久久久久入口| 日韩毛片免费看| 亚洲最大的网站| 欧美黑人做爰爽爽爽| 日韩免费电影一区二区三区| 色综合天天综合网中文字幕| 91大学生片黄在线观看| 一级成人国产| 超碰超碰在线观看| 高清shemale亚洲人妖| 日韩网站在线播放| 国产精品嫩草99a| 久草视频手机在线观看| 日韩欧美成人网| 国产精品久久久久久久免费| 日韩免费在线观看| 久久精品色图| 久久69精品久久久久久国产越南| 色老头在线一区二区三区| 国产精品美女久久久久av超清| 精品网站999| 日韩欧美视频一区二区| 欧美日韩精品免费观看视频完整| 国产亚洲天堂网| 国产乱色国产精品免费视频| 在线不卡av电影| 亚洲一区二区三区在线看| 国产无遮挡又黄又爽又色视频| 欧美一级久久久| 国产视频二区在线观看| 欧美肥老妇视频| 免费在线观看一区| 国产综合动作在线观看| 91精品推荐| 三级4级全黄60分钟| 粉嫩aⅴ一区二区三区四区五区 | 国产精品久久久久久久av福利| av男人天堂一区| 2025国产精品自拍| 91福利视频网站| 日日夜夜精品免费| 久久成人18免费网站| 国产 日韩 欧美一区| 国产伦精品一区二区三区高清| 欧美jizz| 中文字幕欧美人妻精品一区| 成人性生交大合| 爱爱视频免费在线观看| 在线精品视频小说1| 亚洲色图欧美视频| 欧美国产日韩精品| 97久久精品一区二区三区的观看方式| 久久精品美女| 影音先锋亚洲电影| 国产精品久久久久久久99| 日本一区二区视频在线| 国产黄色91视频| 麻豆av一区二区| 韩国欧美一区| 中文字幕亚洲影院| 国产日韩欧美麻豆| 黄色大片网站在线观看| 精品国产制服丝袜高跟| 精品孕妇一区二区三区| 国产精品天天狠天天看| 九九热精品视频在线观看| 777av视频| 国产69精品久久久久777| 九九在线观看视频| 日韩亚洲欧美在线观看| 制服丝袜在线播放| 97在线电影| 欧美色综合网| 97精品人人妻人人| 亚洲一区日韩精品中文字幕| 精品国产99久久久久久宅男i| 久久这里有精品视频| 国产精品视频首页| 色哺乳xxxxhd奶水米仓惠香| 国内久久婷婷综合| 18岁成人毛片| 日韩女优av电影| √天堂8资源中文在线| 国产美女在线精品免费观看| 激情综合视频| 五级黄高潮片90分钟视频| 欧美性色xo影院| 川上优的av在线一区二区| 国产精品视频不卡| 99久久婷婷| 三大队在线观看| 亚洲国产精品久久一线不卡| 天天干在线观看| 国产精品国产三级国产专播精品人 | 久久综合图片| 老司机福利在线观看| 欧美乱熟臀69xxxxxx| 99福利在线| 久久久久se| 男女男精品网站| 久久r这里只有精品| 精品国产网站在线观看| 久久男人天堂| 亚洲欧洲日韩综合二区| 国产自产v一区二区三区c| 久久精品国产亚洲av无码娇色| 日韩成人在线观看| 福利一区二区| 人妻无码一区二区三区四区| 99国产精品视频免费观看| 亚洲色成人www永久网站| 久久天天躁日日躁| 欧美黑人巨大videos精品| 另类小说色综合| 亚洲一线二线三线久久久| 日韩二区三区| 亚洲va久久久噜噜噜| 亚洲一区免费| 搜索黄色一级片| 亚洲精品在线不卡| 精品久久国产一区| aaa毛片在线观看| 亚洲激情第一区| 春暖花开成人亚洲区| 国产成人精品福利一区二区三区| 久热综合在线亚洲精品| 亚洲色图综合区| 亚洲人在线视频| 9l视频自拍九色9l视频成人| 色噜噜狠狠永久免费| 精品人伦一区二区三区蜜桃网站| 欧美激情二区| 欧美日韩在线观看一区| 国产盗摄精品一区二区三区在线|