精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

成本不到150元!李飛飛等26分鐘訓出個推理模型,媲美o1和R1,秘訣:用蒸餾

人工智能 新聞
s1模型,是在一個1000個精挑細選的小樣本數據集上,通過SFT,讓小模型能力在數學等評測集上性能飆升的研究。

成本不到150元,訓練出一個媲美DeepSeek-R1和OpenAI o1的推理模型?!

這不是洋蔥新聞,而是AI教母李飛飛、斯坦福大學、華盛頓大學、艾倫人工智能實驗室等攜手推出的最新杰作:s1

在數學和編程能力的評測集上,s1的表現比肩DeepSeek-R1和o1。

而訓一個這樣性能的模型,團隊僅僅用了16個英偉達H100,訓練耗時26分鐘。

據TechCrunch,這個訓練過程消耗了不到50美元的云計算成本,約合人民幣364.61元;而s1模型作者之一表示,訓練s1所需的計算資源,在當下約花20美元(約145.844元)就能租到

怎么做到的???

s1團隊表示,秘訣只有一個:蒸餾

簡單來說,團隊以阿里通義團隊的Qwen2.5- 32B-Instruct作為基礎模型,通過蒸餾谷歌DeepMind的推理模型Gemini 2.0 Flash Thinking實驗版,最終得到了s1模型。

為了訓練s1,研究團隊創建了一個包含1000個問題(精心挑選那種)的數據集,且每個問題都附有答案,以及Gemini 2.0 Flash Thinking實驗版的思考過程。

目前,項目論文《s1: Simple test-time scaling》已經掛上arXiv,模型s1也已在GitHub上開源,研究團隊提供了訓練它的數據和代碼。

150元成本,訓練26分鐘

s1團隊搞這個花活,起因是OpenAI o1展現了Test-time Scaling的能力。

即「在推理階段通過增加計算資源或時間,來提升大模型的性能」,這是原本預訓練Scaling Law達到瓶頸后的一種新Scaling。

但OpenAI并未公開是如何實現這一點的。

在復現狂潮之下,s1團隊的目標是尋找到Test-time Scaling的簡單方法

過程中,研究人員先構建了一個1000個樣本的數據集,名為s1K

起初,在遵循質量、難度、多樣性原則的基礎上,這個數據集收集了來自MATH、AGIEval等諸多來源的59029個問題。

經去重、去噪后,通過質量篩選、基于模型性能和推理痕跡長度的難度篩選,以及基于數學學科分類的多樣性篩選,最終留下了一個涵蓋1000個精心挑選過的問題的數據集

且每個問題都附有答案,以及谷歌Gemini 2.0 Flash Thinking實驗版的模型思考過程。

這就是最終的s1K。

研究人員表示,Test-time Scaling有2種。

第1種,順序Scaling,較晚的計算取決于焦躁的計算(如較長的推理軌跡)

第2種,并行Scaling,be like計算獨立運行(如多數投票任務)

s1團隊專注于順序這部分,原因是團隊“從直覺上”認為它可以起到更好的Scaling——因為后面的計算可以以中間結果為基礎,從而允許更深入的推理和迭代細化。

基于此,s1團隊提出了新的順序Scaling方法,以及對應的Benchmark。

研究過程中,團隊提出了一種簡單的解碼時間干預方法budget forcing,在測試時強制設定最大和/或最小的思考token數量。

具體來說,研究者使用了一種很簡單的辦法:

直接添加“end-of-thinking token分隔符”和“Final Answer”,來強制設定思考token數量上限,從而讓模型提前結束思考階段,并促使它提供當前思考過程中的最佳答案。

為了強制設定思考過程的token數量下限,團隊又禁止模型生成“end-of-thinking token分隔符”,并可以選擇在模型當前推理軌跡中添加“wait”這個詞,鼓勵它多想想,反思反思當前的思考結果,引導最佳答案。

以下是budget forcing這個辦法的一個實操示例:

團隊還為budget forcing提供了baseline。

一是條件長度控制方法(Conditional length-control methods),該方法依賴于,在提示中告訴模型它應該花費多長時間來生成輸出。

團隊按顆粒度將它們分為Token-conditional控制、步驟條件控制和類條件控制。

  • Token-conditional控制:在提示詞中,指定Thinking Tokens的上限;
  • 步驟條件控制:指定一個思考步驟的上限。其中每個步驟約100個tokens;
  • 類條件控制:編寫兩個通用提示,告訴模型思考短時間或長時間。

二是拒絕抽樣(rejection sampling)

即在抽樣過程中,若某一生成內容符合預先設定的計算預算,就停止計算。

該算法通過其長度來捕捉響應的后驗分布。

而s1模型的整個訓練過程,只用了不到半個小時——

團隊在論文中表示,他們使用Qwen2.532B-Instruct模型在s1K數據集上進行SFT,使用16個英偉達H100,訓練耗時26分鐘

s1研究團隊的Niklas Muennighoff(斯坦福大學研究員)告訴TechCrunch,訓練s1所需的計算資源,在當下約花20美元就能租到。

研究新發現:頻繁抑制思考會導致死循環

訓出模型后,團隊選用3個推理基準測試,把s1-32B和OpenAI o1系列、DeepSeek-R1系列、阿里通義Qwen2.5系列/QWQ、昆侖萬維Sky系列、Gemini 2.0 Flash Thinking實驗版等多個模型進行對比。

3個推理基準測試如下:

  • AIME24:2024年美國數學邀請考試中使用的30個問題
  • MATH500:不同難度的競賽數學問題的基準
  • GPQA Diamond:生物、化學和物理領域的198個博士級問題

整體來說,采用了budget forcing的s1-32B擴展了更多的test-time compute。

評測數據顯示,s1-32B在MATH500上拿到了93.0的成績,超過o1-mini,媲美o1和DeepSeek-R1

不過,如下圖所示,團隊發現,雖然可以用budget forcing和更多的test-time compute來提高s1在AIME24上的性能,在AIME24上比 o1-preview最高提升27%。

但曲線最終在性能提升6倍后趨于平緩。

由此,團隊在論文中寫道:

過于頻繁地抑制思考結束標記分隔符,會導致模型進入重復循環,而不是繼續推理。

而如下圖所示,在s1K上訓練Qwen2.5-32B-Instruct來得到s1-32B,并為它配備了簡單的budget forcing后,它采用了不同的scaling范式。

具體來說,通過多數投票在基礎模型上對test-time compute進行Scale的方法,訓出的模型無法趕上s1-32B的性能。

這就驗證了團隊之前的“直覺”,即順序Scaling比并行Scaling更有效

此外,團隊提到,s1-32B僅僅使用了1000個樣本訓練,在AIME24上的成績就能接近Gemini 2.0 Thinking,是“樣本效率最高的開源數據推理模型”。

研究人員還表示,Budget forcing在控制、縮放和性能指標上表現最佳。

而其它方法,如Token-conditional控制、步驟條件控制、類條件控制等,均存在各種問題。

One More Thing

s1模型,是在一個1000個精挑細選的小樣本數據集上,通過SFT,讓小模型能力在數學等評測集上性能飆升的研究。

但結合近期刷爆全網的DeepSeek-R1——以1/50成本比肩o1性能——背后的故事,可以窺見模型推理技術的更多值得挖掘之處。

模型蒸餾技術加持下,DeepSeek-R1的訓練成本震撼硅谷。

現在,AI教母李飛飛等,又一次運用「蒸餾」,花費低到令人咋舌的訓練成本,做出了一個能媲美頂尖推理模型的32B推理模型。

一起期待大模型技術更精彩的2025年吧~

arXiv:

https://arxiv.org/pdf/2501.19393

GitHub:

https://github.com/simplescaling/s1

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-09-24 11:01:03

2025-02-06 18:37:46

GPUQwen2.5模型

2025-02-06 14:28:16

2025-03-06 10:14:39

2025-02-08 09:30:00

2025-03-06 09:55:49

2025-02-08 14:03:25

2025-02-14 09:20:00

模型數據訓練

2025-02-10 06:50:00

AIDeepSeek推理模型

2025-03-10 08:10:00

AI研究安全

2024-11-25 12:50:14

2025-05-27 15:40:34

模型AI訓練

2025-01-21 10:10:56

2025-06-11 14:28:34

SOTAQwenR1

2025-03-05 10:21:04

DeepSeekLVLM

2025-01-21 11:53:53

2024-12-10 07:00:00

2024-11-07 15:40:00

2025-02-17 09:33:00

AI算法模型

2025-02-25 09:13:16

點贊
收藏

51CTO技術棧公眾號

成人短视频在线| 亚洲免费视频二区| 欧美变态网站| 在线欧美小视频| 三年中国中文在线观看免费播放 | 午夜精品视频| 亚洲精品视频免费在线观看| 天美星空大象mv在线观看视频| 性欧美video高清bbw| 91免费观看在线| 成人a免费视频| 成年人视频在线免费看| 欧美一区91| 国产亚洲激情视频在线| 免费观看污网站| 日本精品网站| 午夜影院在线观看欧美| 一区二区三区欧美在线| 四虎精品在线| 国产成人在线看| 国产精品久久久久久久av电影 | 欧美精品播放| 在线观看国产欧美| 黄色性生活一级片| 天堂va欧美ⅴa亚洲va一国产| 色综合视频一区二区三区高清| 国产91av视频在线观看| 青青操视频在线| 成人成人成人在线视频| 成人福利在线视频| 精品久久久久久久久久久久久久久久久久| 韩日成人在线| 久久久97精品| 自拍偷拍第9页| 欧洲专线二区三区| 日韩av在线免费| 国产av一区二区三区传媒| 日韩免费在线电影| 欧美日韩精品高清| 国产又大又黄又粗的视频| 深夜福利视频一区二区| 五月天亚洲精品| 成人免费在线视频播放| 国产1区在线| 国产精品美女久久久久久久久久久| 免费看成人午夜电影| 可以免费观看的毛片| 成人午夜视频免费看| 91高跟黑色丝袜呻吟在线观看| 国产原创中文av| 久久黄色级2电影| 国产精品亚洲网站| 在线视频 中文字幕| 奇米影视7777精品一区二区| 国产精品91免费在线| 亚洲大尺度在线观看| 久久综合五月| 欧美在线视频免费观看| 亚洲GV成人无码久久精品| 红桃视频欧美| 97精品在线观看| 日韩视频在线观看一区| 久久国产88| 国产精品av电影| 在线免费看91| 国产激情视频一区二区三区欧美| 5g国产欧美日韩视频| 欧洲av在线播放| 97aⅴ精品视频一二三区| 欧美精品欧美精品系列c| 国产免费av高清在线| 欧美国产一区二区| 三年中文高清在线观看第6集 | 亚洲欧美强伦一区二区| 成人免费毛片片v| 欧美精品一区二区三区在线看午夜| 欧洲天堂在线观看| 国产精品网友自拍| 男人天堂成人网| 国产激情在线播放| 欧美在线观看禁18| 日本黄色一级网站| 思热99re视热频这里只精品| 在线观看久久av| 欧美日韩一级在线观看| 亚洲免费中文| 国产日韩在线免费| 亚洲女人18毛片水真多| 久久久国产精品午夜一区ai换脸| 伊人色综合影院| ririsao久久精品一区| 欧美在线色视频| 麻豆传媒在线看| 国产videos久久| 欧美xxxx做受欧美| 在线免费观看av网址| 国产成人免费网站| 日本一区不卡| 日韩电影免费观看| 欧美色涩在线第一页| 日本少妇一级片| 精品国产乱码| 97久久精品在线| 国产精品久久久久久久成人午夜| 99视频精品在线| 中文字幕在线亚洲三区| 手机在线理论片| 91精品国产欧美一区二区| a级在线观看视频| 欧美日韩久久| 国产精品入口尤物| 天天干视频在线观看| 1000部国产精品成人观看| 日韩欧美视频网站| 日韩中文字幕在线一区| 国产一区二区三区18| 久久久久久国产精品免费播放| 奇米亚洲午夜久久精品| 久久av一区二区三区漫画| 免费高清完整在线观看| 欧美性猛交xxxx| 亚洲av无一区二区三区久久| 精品久久久久久久久久久下田 | 亚洲永久免费| 亚洲精品免费av| 97视频精彩视频在线观看| 欧美日韩在线看| 妖精视频一区二区| 亚洲午夜精品一区二区国产 | 欧美a一级片| 日韩av网址在线观看| 澳门黄色一级片| 久久精品国产**网站演员| 人偷久久久久久久偷女厕| 99久久精品免费看国产小宝寻花 | 老牛影视av牛牛影视av| 一区二区三区不卡视频在线观看| 波多野结衣xxxx| 欧美日韩在线播放视频| 国产成人久久精品| 四虎影视在线播放| 欧美午夜激情在线| 中文成人无字幕乱码精品区| 在线播放一区| 国产成人av一区二区三区| 中文国产字幕在线观看| 91麻豆精品国产91久久久资源速度| 一级黄色片网址| 日本中文字幕一区二区视频| 久久综合伊人77777麻豆| а√天堂8资源中文在线| 日韩精品一区二区三区四区 | 婷婷六月综合| 国产一区香蕉久久| 在线观看免费版| 欧美日韩另类国产亚洲欧美一级| 天天躁日日躁aaaa视频| 日韩高清不卡一区二区| 亚洲欧美精品| 精品视频在线观看免费观看| 欧美第一页在线| 亚洲va久久久噜噜噜无码久久| 尤物视频一区二区| 无码人妻一区二区三区精品视频| 欧美三级视频| 国产日韩一区二区| 日韩大片免费观看| 一区二区欧美激情| 97人妻精品一区二区三区| 亚洲情趣在线观看| 黑森林av导航| 亚洲欧美日本视频在线观看| 日本一区二区三区www| 国产精成人品2018| 久久综合国产精品台湾中文娱乐网| 国产美女三级无套内谢| 亚洲第一福利视频在线| 色噜噜日韩精品欧美一区二区| 蜜桃av一区二区在线观看| 亚洲一二三区精品| 亚州一区二区| 日韩美女主播视频| 久久综合网导航| 亚洲精品一线二线三线| 亚洲黄网在线观看| 综合网在线视频| 风韵丰满熟妇啪啪区老熟熟女| 精品成人久久| 日本不卡一区二区三区在线观看 | 亚洲国产综合91精品麻豆| 亚洲国产果冻传媒av在线观看| 视频一区二区三区中文字幕| 台湾成人av| 亚洲一区二区三区免费| 欧亚精品中文字幕| 久草中文在线观看| 亚洲精品电影网在线观看| 日韩国产亚洲欧美| 亚洲夂夂婷婷色拍ww47| 少妇人妻好深好紧精品无码| 国产福利一区二区三区视频在线| 亚洲乱码中文字幕久久孕妇黑人| 欧美gay男男猛男无套| 精品乱子伦一区二区三区| 国产亚洲人成a在线v网站| 午夜美女久久久久爽久久| 午夜免费视频在线国产| 亚洲精品理论电影| 国产三级精品在线观看| 日本高清不卡在线观看| 国产亚洲成人av| 中文一区在线播放| 加勒比精品视频| 国产在线观看免费一区| www黄色在线| 欧美激情视频一区二区三区在线播放 | 日韩精品小视频| www.色亚洲| 欧美日韩综合色| 天堂网一区二区三区| 亚洲激情一二三区| 日本美女黄色一级片| 91麻豆精品秘密| 亚洲成年人av| 国内成人免费视频| 91国产精品视频在线观看| 亚洲在线观看| 国产精品久久久久7777| 91精品天堂福利在线观看| 欧美人与物videos另类| 成人资源在线播放| 亚洲aa在线观看| 日韩欧国产精品一区综合无码| 国产精品福利久久久| 99热99re6国产在线播放| 欧美高清自拍一区| 成人影院在线看| 日韩中文字幕第一页| 国产午夜在线视频| 亚洲男人的天堂网站| 亚洲av成人无码久久精品老人 | 国产精品永久入口久久久| 高清久久精品| 国产日韩亚洲欧美| 激情中国色综合| 国产精品久久久久久久久影视| 欧美舌奴丨vk视频| 欧美亚洲午夜视频在线观看| 日韩精品av| 91成人在线视频| 国产高清中文字幕在线| 2019av中文字幕| 性欧美又大又长又硬| 2019中文字幕免费视频| 欧美xo影院| 国产精品69av| 曰本一区二区| 亚洲自拍偷拍一区| 伊人www22综合色| 国产精品免费视频一区二区 | 亚洲乱码一区二区三区 | 人体内射精一区二区三区| 极品日韩av| 精品一卡二卡三卡| 美腿丝袜亚洲综合| 亚洲精品在线网址| 成人国产精品视频| 亚洲av综合一区二区| 国产精品美女一区二区| 激情视频在线播放| 狠狠色狠狠色综合日日小说| 日韩不卡高清视频| 欧美一区二区三区四区在线观看| 免费a级片在线观看| 亚洲欧美日韩高清| 国产黄a三级三级三级av在线看| 欧美精品中文字幕一区| 桃色av一区二区| 成人av电影天堂| 成人h动漫精品一区二区器材| 久久精品日产第一区二区三区精品版| 精品久久一区| 300部国产真实乱| 欧美亚洲自偷自偷| 手机免费av片| 91日韩一区二区三区| 美女网站视频色| 精品动漫一区二区三区| 一区二区三区免费在线| 亚洲成人久久久久| 91av资源在线| 韩国欧美亚洲国产| 一级欧美视频| 日韩视频精品| 亚洲午夜黄色| 亚洲欧美自拍另类日韩| 成人黄色综合网站| 国产一级淫片久久久片a级| 亚洲精品视频在线观看免费| 亚洲GV成人无码久久精品 | 手机在线免费观看毛片| 国产麻豆午夜三级精品| 亚洲av综合一区二区| 依依成人精品视频| 在线免费看av片| 亚洲免费视频网站| 污视频在线免费观看网站| 欧洲亚洲免费视频| 日韩在线观看中文字幕| 亚洲国产日韩美| 99成人精品| 无码国产精品一区二区高潮| 国产精品婷婷午夜在线观看| 五月天婷婷久久| 日韩欧美一区二区在线视频| h网站视频在线观看| 久久久久久噜噜噜久久久精品| 欧美性aaa| 欧美视频观看一区| 在线午夜精品| 国产一卡二卡三卡四卡| 亚洲美女区一区| 国产精品一二三四五区| 国产一区二区三区视频免费| 美女网站在线看| 国产一区二区在线网站| 国产综合视频| 欧美人与性动交α欧美精品| 亚洲你懂的在线视频| 一级日韩一级欧美| 国产一区二区日韩精品欧美精品| 中文字幕在线免费观看视频| 国产精品初高中精品久久| 亚洲在线久久| 亚洲一区二区福利视频| 中文字幕一区在线观看视频| 91视频久久久| 亚洲裸体xxxx| 成人av三级| 欧美一区二区三区成人久久片| 小嫩嫩精品导航| 国产精品jizz| 日韩欧美成人区| 久久电影视频| 国产精品狼人色视频一区| 欧美色女视频| 欧美三级午夜理伦三级富婆| 亚洲国产激情av| 中文字幕在线视频第一页| 一区二区三区国产在线观看| 成人免费毛片嘿嘿连载视频…| 日韩欧美在线观看强乱免费| 免费观看成人鲁鲁鲁鲁鲁视频| xxxxx99| 91精品国产综合久久精品麻豆 | 91国产高清在线| 蜜桃国内精品久久久久软件9| 免费黄色日本网站| 国产亚洲精品超碰| 又污又黄的网站| 久久影院在线观看| 草草视频在线一区二区| 男人天堂999| 国产精品无遮挡| 国产精品人妻一区二区三区| 精品中文字幕在线观看| 国产精品videossex| 成人久久久久久久久| 中文在线免费一区三区高中清不卡| 国产一区二区在线视频观看| 美女av一区二区| 大桥未久女教师av一区二区| 国产精品免费观看久久| 国产精品久久久久久久久久免费看 | 欧美另类tv| 欧美极品色图| 久久99久久99小草精品免视看| 久热这里只有精品在线| 亚洲人午夜精品| 欧美午夜网站| aaa毛片在线观看| 亚洲精品日产精品乱码不卡| 天天干天天爱天天操| 国产欧美一区二区三区久久| 欧美日韩国产探花| 国产中年熟女高潮大集合| 91精品国产综合久久精品app| 蜜桃av在线播放| 免费成人深夜夜行网站视频| 99精品视频在线观看免费| 中文字字幕在线中文乱码| 欧美日韩成人网| 日韩不卡一区| 亚洲视频在线播放免费| 欧美日韩在线免费视频| mm视频在线视频| 特级毛片在线免费观看| 国产婷婷色一区二区三区在线| 亚洲h视频在线观看| 国产欧美日韩亚洲精品|