精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

全球掀DeepSeek復現狂潮!硅谷巨頭神話崩塌,30刀見證啊哈時刻

人工智能 新聞
就在剛剛,網上已經出現了一波復現DeepSeek的狂潮。UC伯克利、港科大、HuggingFace等紛紛成功復現,只用強化學習,沒有監督微調,30美元就能見證「啊哈時刻」!全球AI大模型,或許正在進入下一分水嶺。

這些天,硅谷徹底處于中國公司帶來的大地震余波中。

全美都在恐慌:是否全球人工智能的中心已經轉移到了中國?

就在這當口,全球復現DeepSeek的一波狂潮也來了。

誠如LeCun所言:「這一次,正是開源對閉源的勝利!」

圖片

在沒有頂級芯片的情況下,以極低成本芯片訓出突破性模型的DeepSeek,或將威脅到美國的AI霸權。

大模型比拼的不再是動輒千萬億美元的算力戰。

OpenAI、Meta、谷歌這些大公司引以為傲的技術優勢和高估值將會瓦解,英偉達的股價將開始動搖。

種種這些觀點和討論,讓人不禁懷疑:數百億美元支出,對這個行業真的必要嗎?甚至有人說,中國量化基金的一群天才,將導致納斯達克崩盤。

從此,大模型時代很可能會進入一個分水嶺:超強性能的模型不再獨屬于算力巨頭,而是屬于每個人。

30美金,就能看到「啊哈」時刻

來自UC伯克利博士生潘家怡和另兩位研究人員,在CountDown游戲中復現了DeepSeek R1-Zero。

他們表示,結果相當出色!

實驗中,團隊驗證了通過強化學習RL,3B的基礎語言模型也能夠自我驗證和搜索。

更令人興奮的是,成本不到30美金(約217元),就可以親眼見證「啊哈」時刻。

圖片

這個項目叫做TinyZero,采用了R1-Zero算法——給定一個基礎語言模型、提示和真實獎勵信號,運行強化學習。

然后,團隊將其應用在CountDown游戲中(這是一個玩家使用基礎算術運算,將數字組合以達到目標數字的游戲)。

模型從最初的簡單輸出開始,逐步進化出自我糾正和搜索的策略。

在以下示例中,模型提出了解決方案,自我驗證,并反復糾正,直到解決問題為止。

圖片

在消融實驗中,研究人員運行了Qwen-2.5-Base(0.5B、1.5B、3B、7B四種參數規模)。

結果發現,0.5B模型僅僅是猜測一個解決方案然后停止。而從1.5B開始,模型學會了搜索、自我驗證和修正其解決方案,從而能夠獲得更高的分數。

他們認為,在這個過程,基礎模型的是性能的關鍵。

圖片

他們還驗證了,額外的指令微調(SFT)并非是必要的,這也印證了R1-Zero的設計決策。

圖片

這是首個驗證LLM推理能力的實現可以純粹通過RL,無需監督微調的開源研究

基礎模型和指令模型兩者區別:

  • 指令模型運行速度快,但最終表現與基礎模型相當
  • 指令輸出的模型更具結構性和可讀性

圖片

此外,他們還發現,具體的RL算法并不重要。PPO、GRPO、PRIME這些算法中,長思維鏈(Long CoT)都能夠涌現,且帶來不錯的性能表現。

圖片

而且,模型在推理行為中非常依賴于具體的任務:

  • 對于Countdow任務,模型學習進行搜索和自我驗證
  • 對于數字乘法任務,模型反而學習使用分布規則分解問題,并逐步解決

圖片

蘋果機器學習科學家Yizhe Zhang對此表示,太酷了,小到1.5B的模型,也能通過RL涌現出自我驗證的能力。

圖片

7B模型復刻,結果令人驚訝

港科大助理教授何俊賢的團隊(共同一作黃裕振、Weihao Zeng),只用了8K個樣本,就在7B模型上復刻出了DeepSeek-R1-Zero和DeepSeek-R1的訓練。

結果令人驚喜——模型在復雜的數學推理上取得了十分強勁結果。

圖片

圖片

項目地址:https://github.com/hkust-nlp/simpleRL-reason

他們以Qwen2.5-Math-7B(基礎模型)為起點,直接對其進行強化學習。

整個過程中,沒有進行監督微調(SFT),也沒有使用獎勵模型。

最終,模型在AIME基準上實現了33.3%的準確率,在AMC上為62.5%,在MATH上為77.2%。

這一表現不僅超越了Qwen2.5-Math-7B-Instruct,并且還可以和使用超過50倍數據量和更復雜組件的PRIME和rStar-MATH相媲美!

圖片

圖片

其中,Qwen2.5-7B-SimpleRL-Zero是在Qwen2.5-Math-7B基礎模型上僅使用純PPO方法訓練的,僅采用了MATH數據集中的8K樣本。

Qwen2.5-7B-SimpleRL則首先通過Long CoT監督微調(SFT)作為冷啟動,然后再進行強化學習。

在這兩種方法中,團隊都只使用了相同的8K MATH樣本,僅此而已。

大概在第44步的時候,「啊哈時刻」出現了!模型的響應中,出現了自我反思。

圖片

并且,在這個過程中,模型還顯現了更長的CoT推理能力和自我反思能力。

圖片

在博客中,研究者詳細剖析了實驗設置,以及在這個強化學習訓練過程中所觀察到的現象,例如長鏈式思考(CoT)和自我反思機制的自發形成。

與DeepSeek R1類似,研究者的強化學習方案極其簡單,沒有使用獎勵模型或MCTS(蒙特卡洛樹搜索)類技術。

他們使用的是PPO算法,并采用基于規則的獎勵函數,根據生成輸出的格式和正確性分配獎勵:

  • 如果輸出以指定格式提供最終答案且正確,獲得+1的獎勵
  • 如果輸出提供最終答案但不正確,獎勵設為-0.5
  • 如果輸出未能提供最終答案,獎勵設為-1

該實現基于OpenRLHF。初步試驗表明,這個獎勵函數有助于策略模型快速收斂,產生符合期望格式的輸出。

第一部分:SimpleRL-Zero(從頭開始的強化學習)

接下來,研究者為我們分享了訓練過程動態分析和一些有趣的涌現模式。

訓練過程動態分析

如下所示,所有基準測試的準確率在訓練過程中都在穩步提高,而輸出長度則呈現先減少后逐漸增加的趨勢。

經過進一步調查,研究者發現,Qwen2.5-Math-7B基礎模型在初始階段傾向于生成大量代碼,這可能源于模型原始訓練數據的分布特征。

輸出長度的首次下降,是因為強化學習訓練逐漸消除了這種代碼生成模式,轉而學會使用自然語言進行推理。

隨后,生成長度開始再次增加,此時出現了自我反思機制。

圖片

訓練獎勵和輸出長度

圖片

基準測試準確率(pass@1)和輸出長度


自我反思機制的涌現

在訓練到第 40 步左右時,研究者觀察到:模型開始形成自我反思模式,這正是DeepSeek-R1論文中所描述的「aha moment」(頓悟時刻)。

圖片

第二部分:SimpleRL(基于模仿預熱的強化學習)

如前所述,研究者在進行強化學習之前,先進行了long CoT SFT預熱,使用了8,000個從QwQ-32B-Preview中提取的MATH示例響應作為SFT數據集。

這種冷啟動的潛在優勢在于:模型在開始強化學習時已具備long CoT思維模式和自我反思能力,從而可能在強化學習階段實現更快更好的學習效果。

圖片

與RL訓練前的模型(Qwen2.5-Math-7B-Base + 8K QwQ知識蒸餾版本)相比,Qwen2.5-7B-SimpleRL的平均性能顯著提升了6.9個百分點。

此外,Qwen2.5-7B-SimpleRL不僅持續優于Eurus-2-7B-PRIME,還在5個基準測試中的3個上超越了Qwen2.5-7B-SimpleRL-Zero。

訓練過程分析

圖片

訓練獎勵和輸出長度

圖片

基準測試準確率(pass@1)和輸出長度

Qwen2.5-SimpleRL的訓練動態表現與Qwen2.5-SimpleRL-Zero相似。

有趣的是,盡管研究者先進行了long CoT SFT,但在強化學習初期仍然觀察到輸出長度減少的現象。

他們推測,這可能是因為從QwQ提取的推理模式不適合小型策略模型,或超出了其能力范圍。

因此,模型選擇放棄這種模式,轉而自主發展新的長鏈式推理方式。

最后,研究者用達芬奇的一句話,對這項研究做了總結——

簡約,便是最終極的精致。

圖片

完全開源復刻,HuggingFace下場了

甚至,就連全球最大開源平臺HuggingFace團隊,今天官宣復刻DeepSeek R1所有pipeline。

復刻完成后,所有的訓練數據、訓練腳本等等,將全部開源。

圖片

這個項目叫做Open R1,當前還在進行中。發布到一天,星標沖破1.9k,斬獲142個fork。

圖片

項目地址:https://github.com/huggingface/open-r1

研究團隊以DeepSeek-R1技術報告為指導,將整個復刻過程劃分為三個關鍵步驟。

  • 步驟 1:通過從DeepSeek-R1蒸餾高質量語料庫,復現R1-Distill模型。
  • 步驟 2:復現DeepSeek用于創建R1-Zero的純強化學習(RL)流程。這可能需要為數學、推理和代碼任務策劃新的大規模數據集。
  • 步驟 3:展示我們如何通過多階段訓練,從基礎模型發展到經過RL調優的模型。

圖片

從斯坦福到MIT,R1成為首選

一個副業項目,讓全世界科技大廠為之惶恐。

DeepSeek這波成功,也成為業界的神話,網友最新截圖顯示,這款應用已經在APP Store「效率」應用榜單中擠進前三。

圖片

在Hugging Face中,R1下載量直接登頂,另外3個模型也霸占著熱榜。

圖片

a16z合伙人Anjney Midha稱,一夜之間,從斯坦福到MIT,DeepSeek R1已經成為美國頂尖高校研究人員「首選模型」。

圖片

還有研究人員表示,DeepSeek基本上取代了我用ChatGPT的需求。

圖片

中國AI,這一次真的震撼了世界。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-03-06 01:00:00

2009-07-01 17:07:51

2016-02-22 09:36:18

手機廠商虛擬現實Facebook手機

2017-10-23 11:42:10

敦煌網

2024-01-15 13:36:00

AI數據

2017-05-19 16:55:22

睿江云520優惠降價

2013-07-30 17:26:11

科技公司科技巨頭IT公司

2025-02-03 00:00:10

2025-02-20 15:32:28

2015-01-19 16:52:03

Cocos企業培訓

2025-02-10 09:31:29

2025-02-11 09:17:57

2025-02-24 09:00:00

微軟模型算法

2025-02-24 08:28:30

2025-03-03 09:00:00

2020-10-26 07:03:35

機器學習算法

2025-03-10 00:00:00

2015-07-03 11:32:08

硅谷搜狐試題集錦

2025-04-02 09:21:00

DeepSeekAI開源
點贊
收藏

51CTO技術棧公眾號

色悠久久久久综合欧美99| 激情伊人五月天久久综合| 精品88久久久久88久久久| 欧美裸体网站| 日韩精品在线一区二区三区| 青青草国产成人a∨下载安卓| 欧美视频你懂的| 欧美日韩综合另类| 伊人22222| 91精品亚洲| 亚洲缚视频在线观看| 无码人妻少妇伦在线电影| 日本啊v在线| 开心九九激情九九欧美日韩精美视频电影| 久久激情视频久久| 国产原创剧情av| 日本欧美韩国| 亚洲高清免费在线| 日本一区视频在线| 成人激情四射网| 久久男女视频| 欧美理论电影在线播放| 在线观看日本中文字幕| 一区二区三区四区视频免费观看| 色美美综合视频| 特色特色大片在线| 天堂中文在线官网| 精品一区二区三区影院在线午夜 | 亚洲最大av| 亚洲精品福利在线观看| 91香蕉视频污版| xxx性欧美| 国产三级一区二区| 精品乱子伦一区二区三区| 一区二区三区亚洲视频| 免费看亚洲片| 欧美激情乱人伦| 我不卡一区二区| 极品国产人妖chinesets亚洲人妖| 欧美日韩亚洲综合在线 欧美亚洲特黄一级| 97久久国产亚洲精品超碰热| av大片在线看| 91在线视频18| 成人国产一区二区| 97精品人妻一区二区三区| 欧美综合二区| 久久露脸国产精品| 青娱乐在线视频免费观看| 欧美激情成人| 正在播放亚洲1区| 女~淫辱の触手3d动漫| 动漫一区二区三区| 欧美日本在线一区| 色七七在线观看| 欧美日韩精品免费观看视完整| 午夜视频在线观看一区| 三上悠亚免费在线观看| 毛片在线看网站| 中文字幕在线观看不卡| 神马一区二区影院| 国产98在线| 久久亚洲影视婷婷| 欧美xxxx黑人又粗又长密月 | 亚洲国产一区自拍| 国产51自产区| 97品白浆高清久久久久久| 91精品黄色片免费大全| 五月天婷婷影视| 日本a人精品| 7777精品伊人久久久大香线蕉超级流畅 | 久久久av毛片精品| 日本欧美精品久久久| 黄色av免费在线观看| av高清久久久| 久久久久久久久久久久久久一区 | 久久人人97超碰国产公开结果| 欧美亚洲另类视频| 一级黄色在线视频| 日韩电影免费在线看| 国产精品成人国产乱一区| 中文字幕一区二区三区精品| 国产精品一区毛片| 国产999精品| 中文字幕av影视| 男女男精品视频| 国产专区欧美专区| 亚洲成熟女性毛茸茸| 成人av在线资源网| 翡翠波斯猫1977年美国| 国产自产精品| 蜜臀久久精品久久久久| 成人久久视频在线观看| 久久久综合亚洲91久久98| 色av男人的天堂免费在线| 国产成人免费高清| 乱色588欧美| 91caoporn在线| 亚洲不卡在线观看| 在线黄色免费观看| 亚洲免费一区三区| 亚洲男人7777| 亚洲成人生活片| 久久午夜影视| 波多野结衣一区二区三区在线观看 | 国产精品免费人成网站酒店| 亚洲第一精品影视| 国产精品香蕉在线观看| 日本激情视频网站| 亚洲视频一区在线| 色欲av无码一区二区人妻| 久久av网站| 亚洲网站在线播放| 国产福利久久久| 极品销魂美女一区二区三区| 久久久久网址| 国语对白在线刺激| 欧美日产在线观看| 久久久久亚洲av无码a片| 在线看片日韩| 亚洲已满18点击进入在线看片| 黄网站在线观看| 岛国av在线不卡| 四虎精品一区二区| 欧美在线网址| 91精品视频在线看| 91在线网址| 在线看日韩精品电影| 粉嫩av懂色av蜜臀av分享| 欧美日韩亚洲三区| 91丨九色丨国产在线| gogogo高清在线观看免费完整版| 亚洲不卡av一区二区三区| 极品人妻一区二区| 欧美在线网址| 91在线在线观看| 成人免费网址| 91精品午夜视频| 日韩欧美在线视频播放| 日韩电影在线看| 欧美裸体网站| 欧美色网在线| 伊是香蕉大人久久| 亚洲男人天堂网址| 久久午夜国产精品| 国产超级av在线| 亚洲影院天堂中文av色| 青草热久免费精品视频| 麻豆影视在线| 在线日韩av片| 欧美激情亚洲色图| 麻豆视频观看网址久久| 这里只有精品66| 97久久精品一区二区三区的观看方式| 久久久av一区| 亚洲精品国产精| 午夜视黄欧洲亚洲| 国产成人无码一区二区在线观看 | 久久久999视频| 婷婷亚洲成人| 国产精品丝袜一区二区三区| 欧美边添边摸边做边爱免费| 欧美一区二区私人影院日本| 精品97人妻无码中文永久在线| 成人一级片在线观看| 9久久9毛片又大又硬又粗| 亚洲区小说区图片区qvod| 国产精品扒开腿做爽爽爽的视频| 国产永久av在线| 欧美日韩国产乱码电影| 曰本女人与公拘交酡| 丁香一区二区三区| 日韩精品一区二区三区色欲av| 成人在线国产| 444亚洲人体| 国产亚洲成av人片在线观看 | 亚洲一区日本| 亚洲日本japanese丝袜| 无码国模国产在线观看| 欧洲精品在线视频| 欧美日韩在线看片| 精品粉嫩超白一线天av| 人人妻人人爽人人澡人人精品 | 精品成人av一区二区三区| 日本伊人色综合网| 亚洲五码在线观看视频| 日本国产精品| 国产欧美日韩中文字幕| 激情图片在线观看高清国产| 亚洲男人的天堂网站| 91中文字幕在线视频| 亚洲成人av中文| 国产aaaaaaaaa| 成人av在线资源网站| 特级丰满少妇一级| 最新国产乱人伦偷精品免费网站| 日韩欧美在线电影| 2020国产精品极品色在线观看| 国产精品久久久久久影视| 欧美人与动牲性行为| 这里只有视频精品| 天天摸天天干天天操| 9191国产精品| 国产性生活视频| 亚洲无线码一区二区三区| 国产日韩精品中文字无码| 成人网页在线观看| 中文字幕 日韩 欧美| 国产欧美在线| 免费在线黄网站| 四季av一区二区三区免费观看| 欧美激情第六页| 99这里只有精品视频| 91精品免费视频| 天天免费亚洲黑人免费| 97在线视频免费观看| 99自拍视频在线观看| 日韩在线观看网址| 神马精品久久| 欧美一区二区视频观看视频| jizz国产在线| 日韩欧美一区二区三区久久| 国产无套粉嫩白浆内谢| 亚洲美女视频在线观看| 精品手机在线视频| 国产网红主播福利一区二区| 人妻体内射精一区二区三区| 国产精品亚洲午夜一区二区三区| 自拍偷拍21p| 奇米777欧美一区二区| 国产99久久九九精品无码| 国产精品www994| 久久天天东北熟女毛茸茸| 亚洲网色网站| 免费观看中文字幕| 偷偷www综合久久久久久久| 视频一区视频二区视频| 国产伦精品一区二区三区视频| 免费影院在线观看一区 | 亚洲永久一区二区三区在线| 怕怕欧美视频免费大全| 欧美精品二区三区四区免费看视频 | 久久伊人国产| 国产欧美一区二区三区久久| 99只有精品| 国产美女91呻吟求| 涩涩涩久久久成人精品| 成人久久一区二区| 精品国产一区二区三区性色av| 91免费精品国偷自产在线| 亚洲人成网站在线在线观看| 成人夜晚看av| 中文字幕av一区二区三区四区| 成人午夜电影在线播放| 精品国产午夜肉伦伦影院| 国产一区精品在线| 伊人久久大香线蕉综合网蜜芽| 欧洲成人一区二区| 国产成人调教视频在线观看| 视频二区一区| 亚洲视频电影在线| 丁香婷婷综合激情| 国产九九精品| 日韩福利视频在线| 精品一区二区三区在线播放视频| 91性高潮久久久久久久| bt欧美亚洲午夜电影天堂| 中文字幕在线观看的网站| 国产三区在线成人av| 5566中文字幕| 亚洲国产精品久久一线不卡| 欧美亚洲精品天堂| 欧美日韩国产综合一区二区三区| 国产精品综合在线| 亚洲第一区在线观看| 韩国福利在线| 欧美精品一本久久男人的天堂| 色偷偷偷在线视频播放 | 精品视频一区二区三区| 国产伦精品一区二区三区高清 | 成人av在线资源网| 欧美黄色一级生活片| 亚洲丝袜另类动漫二区| 日韩精品人妻中文字幕| 欧美午夜一区二区三区免费大片| 国产裸体无遮挡| 亚洲免费一在线| av在线影院| 国产成人a亚洲精品| 欧美日韩午夜电影网| 日韩av在线电影观看| 欧美黄色大片网站| 国产熟人av一二三区| 粉嫩aⅴ一区二区三区四区五区 | 日韩精品一卡| 日韩中字在线观看| 国产一区免费电影| 小早川怜子久久精品中文字幕| 一区二区三区四区视频精品免费 | 91色乱码一区二区三区| 欧美风情第一页| 一本色道久久加勒比精品| 亚洲va欧美va| 最新日韩中文字幕| 亚洲午夜天堂| 97超碰人人看人人| 日韩精品不卡一区二区| 春日野结衣av| 成人午夜看片网址| 小泽玛利亚一区二区免费| 日本精品一区二区三区四区的功能| 午夜精品久久久久久久99热黄桃| 中文字幕一区二区精品| 91久久偷偷做嫩草影院| 日韩电影免费网站| 日本一本二本在线观看| 成人一区在线看| 国产一二三四区| 欧美狂野另类xxxxoooo| 黄色美女网站在线观看| 欧美亚洲国产精品| 精品亚洲免a| 国产尤物av一区二区三区| 国产一区二区三区四区五区入口| 国产sm调教视频| 色综合色综合色综合色综合色综合| 丰满少妇被猛烈进入| 不卡伊人av在线播放| 91麻豆精品| 日精品一区二区三区| 可以直接看的无码av| 精品欧美一区二区三区| 少妇精品视频一区二区| 欧美黄色三级网站| 日韩激情综合| 国产精品三级一区二区| 国产aⅴ精品一区二区三区色成熟| 亚洲色偷偷综合亚洲av伊人| 欧美日韩在线电影| 永久av在线| 国产一区二区丝袜| 天天操综合网| а 天堂 在线| 亚洲麻豆国产自偷在线| 99久久精品国产一区二区成人| 久久久久www| 欧美高清一级片| 国产精品www在线观看| k8久久久一区二区三区| 日本在线视频免费观看| 日韩经典第一页| 成人自拍av| 亚洲一区二区三区乱码 | 亚洲精品久久久蜜桃| 国产成人精品一区二区无码呦 | 麻豆中文字幕在线观看| 国产在线精品免费av| 青青草国产在线观看| 精品日韩在线一区| 日韩激情电影| 免费国产在线精品一区二区三区| 久久综合中文| 国产麻豆a毛片| 日韩三级在线免费观看| 99riav视频在线观看| 欧美激情论坛| 久久精品国产精品青草| 日韩影院一区二区| 亚洲国产精品高清久久久| 日本成人片在线| 国产四区在线观看| 99久久精品免费精品国产| 亚洲天堂男人av| 久久艳片www.17c.com | 国产福利91精品| 精品成人av一区二区在线播放| 亚洲天堂av女优| 免费一级欧美在线大片| 欧美色图另类小说| 中文字幕一区视频| 天堂在线中文网| 国产日本欧美视频| 国产一区久久| 黄色片在线观看免费| 欧美一区二区三区视频免费播放| 黄色软件视频在线观看| 亚洲一区影院| 91网上在线视频| av网站在线观看免费| 欧美最猛性xxxx| 欧美午夜影院| 老司机精品免费视频| 亚洲精品久久久久| 亚洲老司机网| 少妇高潮喷水久久久久久久久久| 国产精品视频看| 欧美女v视频| 动漫美女被爆操久久久| 老司机精品视频在线| 日日夜夜综合网| 欧美日韩电影在线观看|