精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

200B參數擊敗滿血DeepSeek-R1,字節豆包推理模型Seed-Thinking-v1.5要來了

人工智能 新聞
Seed-Thinking-v1.5 是一款通過深度思考提升推理能力的模型,在多個權威基準測試中展現出卓越性能。

字節跳動豆包團隊今天發布了自家新推理模型 Seed-Thinking-v1.5 的技術報告。從報告中可以看到,這是一個擁有 200B 總參數的 MoE 模型,每次工作時會激活其中 20B 參數。其表現非常驚艷,在各個領域的基準上都超過了擁有 671B 總參數的 DeepSeek-R1。有人猜測,這就是字節豆包目前正在使用的深度思考模型。

圖片

字節近期官宣的「2025 火山引擎 Force Link AI 創新巡展」活動推文中提到,4 月 17 日首發站杭州站時,豆包全新模型將重磅亮相,這會是 Seed-Thinking-v1.5 的正式發布嗎?

圖片


  • 報告標題:Seed-Thinking-v1.5: Advancing Superb Reasoning Models with Reinforcement Learning 
  • 項目地址:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5
  • 報告地址:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/blob/main/seed-thinking-v1.5.pdf

Seed-Thinking-v1.5 是一款通過深度思考提升推理能力的模型,在多個權威基準測試中展現出卓越性能。在具體評測中,該模型在 AIME 2024 測試中獲得 86.7 分,Codeforces 評測達到 55.0 分,GPQA 測試達到 77.3 分,充分證明了其在 STEM(科學、技術、工程和數學)領域以及編程方面的出色推理能力。

圖片

除推理任務外,該方法在不同領域都表現出顯著的泛化能力。例如,在非推理任務中,其勝率比 DeepSeek R1 高出 8%,這表明了其更廣泛的應用潛力。

從技術架構看,Seed-Thinking-v1.5 采用了混合專家模型(Mixture-of-Experts,MoE)設計,總參數量為 200B,實際激活參數僅為 20B,相比同等性能的其他最先進推理模型,規模相對緊湊高效。

為全面評估模型的泛化推理能力,團隊開發了 BeyondAIME 和 Codeforces 兩個內部基準測試,這些測試工具將向公眾開放,以促進相關領域的未來研究與發展。

先來看看其具體表現。

圖片

在數學推理方面,在 AIME 2024 基準上,Seed-Thinking-v1.5 取得了 86.7 的高分,與高計算量的 o3-mini-high 差不多。

由于 AIME 2024 已經不足以彰顯前沿模型的差異,豆包團隊還使用了另一個更具挑戰性的評估基準 BeyondAIME,其中所有問題都是人類專家新整理編寫的。結果可以看到,雖然 Seed-Thinking-v1.5 的成績超過了 R1 和 o1,但相比于 o3 和 Gemini 2.5 pro 還有所差距。

在競賽編程方面,在 Codeforces 基準上,該團隊沒有采用之前的依賴 Elo 分數的評估策略,而是采用了基于最新的 12 場 Codeforces 競賽的具體評估方案。

具體來說,他們報告的是 pass@1 和 pass@8 指標,其中 pass@k 表示模型能否在 k 次嘗試內解決問題,即從 k 次生成的提交中選擇最佳結果。之所以選擇報告  pass@8,是因為能提供更穩定的結果,并且更接近實際用戶提交模式。

結果來看,Seed-Thinking-v1.5 在這兩個指標上均超過 DeepSeek-R1,不過與 o3 的差距仍舊比較明顯。該團隊表示未來將公開發布這個評估集。

在科學問題上,Seed-Thinking-v1.5 在 GPQA 基準上得分為 77.3,接近 o3 的表現。該團隊表示,這一提升主要歸功于數學訓練帶來的泛化能力的提升,而非增加了特定領域的科學數據。

豆包也測試了 Seed-Thinking-v1.5 在非推理任務上的表現。這里他們使用的測試集盡力復現了真實的用戶需求。通過人類對 Seed-Thinking-v1.5 與 DeepSeek-R1 輸出結果的比較評估,結果發現,Seed-Thinking-v1.5 獲得的用戶積極反饋總體高出 8.0%,凸顯了其在復雜用戶場景處理能力方面的能力。

下面我們就來簡單看看豆包是如何創造出 Seed-Thinking-v1.5 的。

開發高質量推理模型有三大關鍵:數據、強化學習算法和基礎設施。為了打造出 Seed-Thinking-v1.5,該團隊在這三個方面都進行了創新。

數據

推理模型主要依賴思維鏈(CoT)數據,這種數據展示逐步推理過程。該團隊的初步研究表明,過多非思維鏈數據會削弱模型探索能力。

研究團隊在強化學習訓練中整合了 STEM 問題、代碼任務、邏輯推理和非推理數據。其中邏輯推理數據提升了 ARC-AGI 測試表現。而數學數據則展現除了優秀的泛化能力。

另外,他們還構建了一個新的高級數學基準 BeyondAIME,其中包含 100 道題,每道題的難度等于或高于 AIME 中最難的題目。與 AIME 類似,所有答案都保證為整數(不受特定數值范圍的限制),這能簡化并穩定評估過程。

強化學習算法

推理模型的強化學習訓練常出現不穩定性,尤其對未經監督微調的模型。為解決這一問題,研究團隊提出了 VAPO 和 DAPO 框架,分別針對基于價值和無價值的強化學習范式。兩種方法均能提供穩健的訓練軌跡,有效優化推理模型。

獎勵建模

獎勵建模是強化學習的關鍵,它確定了策略的目標。良好的獎勵機制能在訓練時提供準確的信號。團隊針對可驗證和不可驗證的問題使用不同的獎勵建模方法。

1、可驗證問題

通過適當的原則和思維軌跡,團隊利用 LLMs 來判斷各種場景下的可驗證問題。這種方法提供了超越基于規則的獎勵系統局限性的更普遍解決方案。

團隊設計了兩個遞進式的獎勵建模方案:Seed-Verifier 和 Seed-Thinking-Verifier:

  • Seed-Verifier  基于一套由人類制定的原則,利用大語言模型的能力評估由問題、參考答案和模型生成答案組成的三元組。如果參考答案與模型生成的答案本質上等價,它返回「YES」;否則返回「NO」。這里的等價不要求逐字匹配,而是基于計算規則和數學原理進行深層評估,確保獎勵信號準確反映模型回答的本質正確性。
  • Seed-Thinking-Verifier 的靈感來自人類的判斷過程,通過細致思考和深入分析得出結論。為此,團隊訓練了一個能夠提供詳細推理路徑的驗證器,將其視為可驗證任務,與其他數學推理任務一起優化。該驗證器能夠分析參考答案與模型生成答案之間的異同,提供精確的判斷結果。

Seed-Thinking-Verifier 顯著緩解了 Seed-Verifier 存在的三個主要問題:

  • 獎勵欺騙(Reward Hacking):非思考型模型可能利用漏洞獲取獎勵,而不真正理解問題。Seed-Thinking-Verifier 的詳細推理過程使這種欺騙變得更加困難。
  • 預測的不確定性:在參考答案與模型生成答案本質相同但格式不同的情況下,Seed-Verifier 可能有時返回「YES」,有時返回「NO」。Seed-Thinking-Verifier 通過深入分析答案背后的推理過程,提供一致的結果。
  • 邊界情況處理失敗:Seed-Verifier 在處理某些邊界情況時表現不佳。Seed-Thinking-Verifier 提供詳細推理的能力使其能夠更好地應對這些復雜場景。

表 1 展示了上述兩種驗證器的性能。結果表明,Seed-Verifier 在處理某些特殊情況時效果欠佳,而 Seed-Thinking-Verifier 展現出提供準確判斷的卓越能力。盡管后者的思維過程消耗了大量 GPU 資源,但其產生的精確且穩健的獎勵結果對于賦予策略強大的推理能力至關重要。

圖片

2、不可驗證問題

研究團隊為不可驗證問題訓練了一個強化學習獎勵模型,使用與 Doubao 1.5 Pro 相同的人類偏好數據,主要覆蓋創意寫作和摘要生成。

團隊采用了成對生成式獎勵模型,通過直接比較兩個回答的優劣并將「是 / 否」概率作為獎勵分數。這種方法讓模型專注于回答間的實質差異,避免關注無關細節。

實驗表明,此方法提高了強化學習的穩定性,尤其在混合訓練場景中減少了不同獎勵模型間的沖突,主要是因為它能降低異常分數的生成,避免與驗證器產生顯著的分數分布差異。

基礎設施

大語言模型強化學習系統需要強大基礎設施支持。團隊開發的流式推演架構通過優先級樣本池異步處理軌跡生成,使迭代速度提升 3 倍。系統還支持自動故障恢復的混合精度訓練,確保大規模強化學習運行的穩定性。

框架

Seed-Thinking-v1.5 采用的訓練框架是基于 HybridFlow 編程抽象構建的。整個訓練工作負載運行在 Ray 集群之上。數據加載器和強化學習算法在單進程 Ray Actor(單控制器)中實現。模型訓練和響應生成(rollout)在 Ray Worker Group 中實現。

流式 Rollout 系統

其 SRS 架構引入了流式 Rollout,可將模型演化與運行時執行解耦,并通過參數 α 動態調整在策略和離策略的樣本比例:

  • 將完成率(α ∈ [0, 1])定義為使用最新模型版本以在策略方式生成的樣本比例。
  • 將剩余的未完成片段(1- α)分配給來自版本化模型快照的離策略 rollout,并通過在獨立資源上異步延續部分生成來實現無縫集成。

此外,該團隊還在環境交互階段實現了動態精度調度,通過后訓練量化和誤差補償范圍縮放來部署 FP8 策略網絡。

為了解決 MoE 系統中 token 不平衡的問題,他們實現了一個三層并行架構,結合了用于分層計算的 TP(張量并行化)、具有動態專家分配的 EP(專家并行)和用于上下文分塊的 SP(序列并行)。這樣一來,其 kernel auto-tuner 就能根據實時負載監控動態選擇最佳 CUDA 核配置。

訓練系統

為了高效地大規模訓練 Seed-Thinking-v1.5 模型,該團隊設計了一個混合分布式訓練框架,該框架集成了先進的并行策略、動態工作負載平衡和內存優化。下面詳細介紹一下其中的核心技術創新:


  • 并行機制:該團隊 TP(張量并行)/EP(專家并行)/CP(上下文并行)與完全分片數據并行(FSDP)相結合,用于訓練 Seed-Thinking-v1.5。具體而言,他們將 TP/CP 應用于注意力層,將 EP 應用于 MoE 層。
  • 序列長度平衡:有效序列長度可能在不同的 DP 等級上不平衡,從而導致計算負載不平衡和訓練效率低下。為了應對這一挑戰,他們利用 KARP 算法重新排列了一個 mini-batch 內的輸入序列,使它們在 mini-batch 之間保持平衡。
  • 內存優化:他們采用逐層重新計算、激活卸載和優化器卸載來支持更大 micro-batch 的訓練,以覆蓋 FSDP 造成的通信開銷。
  • 自動并行:為了實現最佳系統性能,他們開發了一個自動微調系統,稱為 AutoTuner。具體來說,AutoTuner 可按照基于配置文件的解決方案對內存使用情況進行建模。然后,它會估算各種配置的性能和內存使用情況,以獲得最佳配置。
  • 檢查點:為了以最小的開銷從不同的分布式配置恢復檢查點,該團隊使用了 ByteCheckpoint。這能讓用戶彈性地訓練任務以提高集群效率。
責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-04-11 12:10:33

2025-03-06 17:29:21

2025-04-11 14:54:44

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-03-07 08:30:00

2025-04-15 00:50:00

字節跳動豆包大模型

2025-02-21 10:34:49

2025-02-25 14:46:59

2025-03-27 10:28:32

2025-03-06 10:14:39

2025-03-10 08:30:00

AI模型訓練

2025-03-06 09:55:49

2025-02-12 12:45:59

2025-03-05 03:00:00

DeepSeek大模型調優

2025-03-19 10:10:43

2025-02-12 14:09:31

DeepSeekChatGPTAPI

2025-03-19 09:20:00

2025-02-13 01:00:00

點贊
收藏

51CTO技術棧公眾號

亚洲精品在线视频观看| 欧美国产第二页| 免费无码不卡视频在线观看| 日本xxxxwww| 很黄很黄激情成人| 欧美精品一区二区不卡| 欧美 激情 在线| 欧美性天天影视| 国产在线精品不卡| 隔壁老王国产在线精品| 欧美激情 一区| 亚洲欧美一级| 精品欧美激情精品一区| 日本在线视频一区| 国产成人免费看一级大黄| 国产农村妇女精品一区二区| 色天天综合狠狠色| 亚洲欧美高清在线| 亚洲黄色免费看| 亚洲视频综合在线| 欧美xxxx黑人又粗又长精品| 国产精品乱码久久久| 亚洲精选一区| 精品激情国产视频| 欧美色图亚洲激情| 日韩精品久久久久久久软件91| 亚洲成人免费影院| 中文字幕欧美日韩一区二区| 黄色成人一级片| 麻豆国产欧美日韩综合精品二区| 韩国国内大量揄拍精品视频| 小嫩苞一区二区三区| 在线视频亚洲专区| 精品国产乱码久久久久久浪潮| 日本中文字幕高清| 国产ktv在线视频| 永久免费av在线| av影院在线免费观看| 欧美国产精品一区二区三区| 国产欧美韩日| 国产精品视频一二区| 丝袜美腿亚洲一区二区图片| 性欧美xxxx视频在线观看| 视频这里只有精品| 色婷婷亚洲mv天堂mv在影片| 亚洲视频在线播放| 在线免费观看a级片| 97视频一区| 欧美成人a视频| 亚洲欧美天堂在线| 色综合一区二区日本韩国亚洲| 欧美性xxxxx| 国内自拍在线观看| 97蜜桃久久| 亚洲在线成人精品| 黄色成人在线免费观看| av基地在线| 欧美国产丝袜视频| 日韩精品极品视频在线观看免费| 日韩大片b站免费观看直播| 99久久免费国产| 国产精品9999久久久久仙踪林| 国产日韩免费视频| 国产一区二区影院| 97欧洲一区二区精品免费| 国产99视频在线| 国产精品1区2区3区| 成人av色在线观看| 99久久久国产精品无码网爆| 国产精品77777竹菊影视小说| 91网站免费观看| 超碰在线播放97| 成人免费观看av| 久久精品magnetxturnbtih| 四虎精品成人影院观看地址| 久久亚洲一区二区三区明星换脸 | 欧美日韩一级大片| 欧美成人久久| 97精品免费视频| 国产婷婷色一区二区在线观看| 久久中文精品| 国产欧美日韩丝袜精品一区| 99国产精品99| eeuss影院一区二区三区| 久久免费视频1| 一级日本在线| 亚洲综合免费观看高清完整版| 亚洲精品www| 久久久999成人| 永久av免费网站| 欧美日韩国产高清| 91精品国产91久久久久| 在线视频精品免费| 国产综合色视频| 国产美女99p| 国产大片在线免费观看| 亚洲欧洲99久久| 欧美高清中文字幕| 成人啊v在线| 精品国产免费视频| 男人舔女人下部高潮全视频| 欧美日本一区二区视频在线观看| 国产91色在线播放| 亚洲AV无码精品国产| 久久美女高清视频| 青草全福视在线| 在线最新版中文在线| 717成人午夜免费福利电影| 国产麻豆xxxvideo实拍| 久久国产精品成人免费观看的软件| 欧美高跟鞋交xxxxhd| 中文字幕精品视频在线观看| 成人在线视频首页| 亚洲巨乳在线观看| 欧美男男激情videos| 91精品久久久久久久99蜜桃 | 日本成人三级电影网站| 在线视频国产区| 在线免费不卡视频| 逼特逼视频在线观看| 欧美激情偷拍自拍| 日本国产欧美一区二区三区| 亚洲av无码国产精品永久一区| 中文字幕欧美三区| 2022亚洲天堂| 加勒比中文字幕精品| 久久精品成人欧美大片| 国内av在线播放| 99国产精品国产精品久久| 国产一二三四五| 日韩黄色在线| 在线看欧美日韩| 欧美一级特黄视频| 成人av在线网站| 超碰10000| 国产精品2区| 日韩在线视频网| 国产黄色免费视频| 久久久综合视频| 精品久久久久久久久久中文字幕| 2023国产精华国产精品| 操日韩av在线电影| 国产精品伊人久久| 欧美激情在线一区二区| 日本老熟妇毛茸茸| 小嫩嫩12欧美| 欧美做爰性生交视频| 天天射,天天干| 亚洲国产日产av| 中文字幕一区二区三区人妻在线视频| 天天久久综合| 亚洲xxxx3d| 18av在线播放| 日韩美女视频一区二区在线观看| 日韩精品一区二区亚洲av性色| 毛片av一区二区三区| 亚洲精品在线视频观看| 四虎精品永久免费| 久久精品成人一区二区三区| 国产麻豆一精品一男同| 亚洲精选在线视频| 国产精品91av| 亚洲美女网站| 欧美国产二区| 成人国产精品一区二区免费麻豆| 在线观看国产精品91| 91激情在线观看| 亚洲女人的天堂| 韩国三级在线看| 亚洲色诱最新| 日韩av高清| 四虎精品一区二区免费| 欧美精品情趣视频| 人妻精品无码一区二区| 精品久久久久久久久中文字幕| 亚洲色图14p| 玖玖精品视频| 免费看啪啪网站| 色悠久久久久综合先锋影音下载| 久久久久久久久久久免费精品| 视频一区二区免费| 91成人在线观看喷潮| 后入内射无码人妻一区| 国产精品1区2区3区在线观看| 精品无码国模私拍视频| 国产亚洲一区| 91探花福利精品国产自产在线| 俺来也官网欧美久久精品| 亚洲欧美综合v| 亚洲精品77777| 天天干免费视频| 91网址在线看| 欧美伦理片在线看| 亚洲成人最新网站| 久久精品国产精品青草色艺| 国产69精品久久| 久久久久久久久久国产| 国产中文字幕在线播放| 91精品国产品国语在线不卡| 国产精品100| 国产精品护士白丝一区av| 国产免费无码一区二区| 日韩精品一二三| 人妻无码一区二区三区四区| 在线亚洲a色| 成人在线观看av| 色天使综合视频| 久久久久亚洲精品| 日韩在线观看www| 日韩国产欧美精品在线 | 色噜噜偷拍精品综合在线| 五月婷婷综合激情网| 26uuu亚洲婷婷狠狠天堂| 午夜av中文字幕| 久久都是精品| 国产一区二区三区小说| 在线视频这里只有精品| 性高潮久久久久久久久久| 亚洲一区二区欧美激情| 性猛交娇小69hd| www.亚洲免费av| 99精品视频国产| 日韩中文欧美在线| 2018国产在线| 亚洲精品99| 日韩在线电影一区| 老司机aⅴ在线精品导航| 51午夜精品| 久久精品国产精品亚洲毛片| 欧美性在线视频| 国产精品蜜臀| 免费97视频在线精品国自产拍| 国产免费永久在线观看| 日韩成人激情视频| 黄色福利在线观看| 欧美一级高清片| 97人妻精品一区二区三区视频 | 中文字幕av日韩精品| 国产日韩视频在线| 久久综合九色欧美狠狠| 红杏成人性视频免费看| 亚洲综合色av| 高清久久一区| 91青草视频久久| 亚洲欧美在线综合| 91久久久精品| 国产色99精品9i| 亚洲一区二区三区乱码aⅴ蜜桃女| 黄色成人小视频| 国产精品视频导航| 国产精品亚洲成在人线| 国产精品美女免费看| 亚洲成av在线| 国产精品视频资源| 成人h在线观看| 国产欧美一区二区三区在线| 狂野欧美性猛交xxxx| 成人激情av在线| 国产aa精品| 成人午夜电影在线播放| 精品自拍偷拍| 久久大片网站| 欧美激情在线免费| 少妇免费毛片久久久久久久久| 日本激情一区| 色乱码一区二区三区熟女| 亚洲精品久久| a级黄色小视频| 免费视频一区| 亚洲一级免费观看| 韩国一区二区在线观看| 中文字幕无人区二| 99riav久久精品riav| 99久久人妻无码精品系列| 国产午夜一区二区三区| 操人视频免费看| 天天爽夜夜爽夜夜爽精品| 成人av网址在线观看| 国产精品久久久久久久无码| 99re66热这里只有精品3直播 | 99久久精品国产一区| 9.1成人看片| 中文字幕av一区二区三区| 糖心vlog免费在线观看| 亚洲一区二区三区小说| 国产成人在线观看网站| 在线观看日韩一区| 99久久精品国产色欲| 日韩精品在线电影| 亚洲天天影视| 668精品在线视频| 成人国产精品| 国产精品一区二区三区不卡| 国产一区二区三区日韩精品| 青青草影院在线观看| 亚洲一区二区动漫| 极品粉嫩美女露脸啪啪| 国产成人免费xxxxxxxx| www.狠狠爱| 一区二区激情小说| 精人妻无码一区二区三区| 91精品国产色综合久久不卡电影 | 风间由美性色一区二区三区| 北岛玲一区二区| 自拍偷自拍亚洲精品播放| 日韩三级视频在线| 欧美疯狂做受xxxx富婆| 全部免费毛片在线播放网站| 久色乳综合思思在线视频| 中文字幕在线视频网站| 91视频最新| 欧美另类69xxxxx| 日韩中字在线观看| 激情丁香综合五月| 亚洲永久精品ww.7491进入| 亚洲乱码一区二区三区在线观看| 亚洲国产av一区二区三区| 精品久久久久99| 免费高清完整在线观看| 国产精品99久久久久久白浆小说| 国产精品毛片视频| 精品日韩在线播放| 毛片不卡一区二区| 永久免费毛片在线观看| 欧美日韩午夜视频在线观看| www.四虎在线观看| zzjj国产精品一区二区| 日韩欧美一区二区三区在线观看| 国产精品香蕉视屏| 一区二区蜜桃| 成人激情av| 国产高清视频在线观看| 久久免费精品视频| 日韩欧美激情电影| 中文字幕一区二区三区乱码 | 亚洲电影在线| 久久久久久久高清| 国产精品素人视频| 无码人妻一区二区三区线| 亚洲精品美女在线| 国产在线88av| 国产一区精品在线| 国自产拍偷拍福利精品免费一| 欧美xxxxxbbbbb| 亚洲色图.com| 国产三级按摩推拿按摩| 久久久999成人| 精品中文字幕一区二区三区| 最新中文字幕久久| 激情综合色播五月| 极品魔鬼身材女神啪啪精品| 9191国产精品| 国产精品剧情| 亚洲在线免费视频| 欧美性久久久| 国产不卡一二三| 欧美日韩国产一区在线| 日韩精品系列| 日韩免费在线看| 国精一区二区| 亚欧在线免费观看| 中文字幕在线免费不卡| 国产乱淫av片免费| 欧美巨猛xxxx猛交黑人97人| 亚洲性视频在线| 日本a在线免费观看| 久久综合九色综合97婷婷女人| 中文字幕精品视频在线观看| 国产一区二区动漫| 在线视频成人| 日本黄色片一级片| 久久夜色精品一区| 亚洲中文字幕在线一区| 欧美成人中文字幕在线| 红杏一区二区三区| 精品久久久噜噜噜噜久久图片 | 日本免费一区二区六区| 欧美一区二视频在线免费观看| 日本vs亚洲vs韩国一区三区二区 | 日本欧美国产在线| 精品av一区二区| 亚洲五月激情网| 亚洲成人免费在线观看| 第三区美女视频在线| 91欧美精品午夜性色福利在线| 亚洲高清网站| 亚洲 小说 欧美 激情 另类| 欧美乱妇20p| 2020国产在线| 亚洲国产午夜伦理片大全在线观看网站 | 亚洲欧洲第一视频| www.久久爱.com| 好吊妞无缓冲视频观看| 国产精品久久久久久久蜜臀| www.麻豆av| 国产精品久久久久久久一区探花 | 国产成a人亚洲精v品在线观看| 91看片淫黄大片一级在线观看| 国产又粗又黄又爽| 7777精品视频|