精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Every Step Evolves:萬億參數(shù)思維模型如何靠三大支柱穩(wěn)訓(xùn)高效?

人工智能 開源
Ling Team發(fā)布首個開源萬億參數(shù)思維模型Ring-1T,通過IcePop、C3PO++與ASystem三大創(chuàng)新,首次實現(xiàn)穩(wěn)定高效的超大規(guī)模強化學(xué)習(xí)訓(xùn)練,在IMO等高難度任務(wù)中達到銀牌水平。

大家好,我是肆〇柒。今天我們一起來看看來自 Ling Team(InclusionAI) 的最新工作《Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model》。這篇論文不僅開源了首個萬億參數(shù)思維模型 Ring-1T,更系統(tǒng)性地解決了超大規(guī)模強化學(xué)習(xí)中的穩(wěn)定性與效率難題——從訓(xùn)練-推理失配導(dǎo)致的崩潰,到長思維鏈Rollout的資源浪費,再到系統(tǒng)級同步瓶頸。其背后三大創(chuàng)新 IcePop、C3PO++ 與 ASystem,共同構(gòu)成了一個可復(fù)現(xiàn)、可擴展的萬億參數(shù)RL訓(xùn)練范式。

當(dāng)下的人工智能正經(jīng)歷關(guān)鍵轉(zhuǎn)型:大型語言模型(LLM)正超越靜態(tài)人類知識庫,成為將信息轉(zhuǎn)化為行動洞察與理解的動態(tài)處理器。這一向更通用智能的演進,通過其核心能力——復(fù)雜、自適應(yīng)的問題解決能力得到實證驗證。近期在解決高難度人類競賽問題上的突破,為大型語言模型顯著提升的推理能力提供了具體證據(jù)。在這一背景下,Ling團隊推出的Ring-1T成為首個開源、最先進的萬億參數(shù)思維模型,它擁有1萬億總參數(shù),每Token激活約500億參數(shù),僅依靠自然語言推理能力即達到IMO銀牌水平。實現(xiàn)這一突破的關(guān)鍵在于三大相互關(guān)聯(lián)的創(chuàng)新:IcePop解決訓(xùn)練-推理失配問題,C3PO++提升長Rollout處理效率,ASystem則克服了萬億參數(shù)模型訓(xùn)練的系統(tǒng)瓶頸。

多基準(zhǔn)測試性能對比

如上圖所示,Ring-1T在多項關(guān)鍵基準(zhǔn)測試中展現(xiàn)出全面領(lǐng)先優(yōu)勢:AIME-2025得分為93.40(第二,領(lǐng)先所有開源模型),HMMT-2025得分為86.72(第二,領(lǐng)先所有開源模型),CodeForces評分為2088(最高分,超越所有開源和閉源API),ARC-AGI-1得分為55.94(第二,比DeepSeek-V3.1提升15.32個百分點)。這些結(jié)果驗證了穩(wěn)定高效的RL訓(xùn)練方法與系統(tǒng)的重要性,展示了萬億參數(shù)推理模型的可行性與卓越能力。

訓(xùn)練體系全景:從基礎(chǔ)模型到思維引擎的三階段演進

Ring-1T的訓(xùn)練流程始于Ling-1T-base模型,這是一種擁有1萬億總參數(shù)、激活500億參數(shù)的新型專家混合(MoE)模型。其訓(xùn)練過程包含三個關(guān)鍵階段,形成遞進式能力培養(yǎng)體系。

如下圖所示,Long-CoT SFT階段通過長鏈思維監(jiān)督微調(diào)為模型奠定基礎(chǔ)能力。研究團隊收集并合成了大量涵蓋數(shù)學(xué)、代碼、科學(xué)等多領(lǐng)域的推理軌跡數(shù)據(jù),其中數(shù)學(xué)占46%、STEM占26%、代碼占20%、其他占8%。

Ring-1T訓(xùn)練流水線

如下圖所示,SFT數(shù)據(jù)的域分布清晰展示了其多領(lǐng)域覆蓋特性,為模型奠定廣泛的推理基礎(chǔ)。這些訓(xùn)練數(shù)據(jù)經(jīng)過嚴(yán)格的數(shù)據(jù)清洗協(xié)議處理:1) 去重,采用精確匹配移除重復(fù)樣本;2) 有害內(nèi)容過濾,識別并清除包含有毒或有害信息的數(shù)據(jù)樣本;3) 數(shù)據(jù)凈化,利用哈希和精確字符串匹配技術(shù)檢測并消除與現(xiàn)有基準(zhǔn)重疊的樣本;4) 低質(zhì)量樣本過濾,移除包括不可見控制碼和額外Unicode字符在內(nèi)的各種噪聲源。

SFT數(shù)據(jù)域分布

訓(xùn)練數(shù)據(jù)被打包為64k長度序列,模型訓(xùn)練3個epoch,學(xué)習(xí)率為2×10??,采用余弦衰減調(diào)度器(30個預(yù)熱步)并應(yīng)用0.1的權(quán)重衰減。此階段的目標(biāo)是賦予基礎(chǔ)模型持續(xù)連貫的多步驟思考能力,為后續(xù)強化學(xué)習(xí)訓(xùn)練奠定堅實基礎(chǔ)。

隨后的Reasoning RL階段構(gòu)建了一個涵蓋數(shù)學(xué)、代碼、科學(xué)和邏輯任務(wù)的綜合、高質(zhì)量RL數(shù)據(jù)集,包含可驗證結(jié)果。研究團隊對RL數(shù)據(jù)集進行了全面構(gòu)建:數(shù)學(xué)領(lǐng)域擴展自Ling-Team等人的數(shù)據(jù)集,包含來自權(quán)威來源的嚴(yán)格數(shù)學(xué)問題;代碼領(lǐng)域通過多階段工作流合成、驗證、質(zhì)量評分和選擇額外測試用例;科學(xué)領(lǐng)域通過眾包方式收集高難度物理、化學(xué)和生物問題,并將選擇題重新格式化為開放式問題,對于有機化學(xué),建立了專用的圖像語義化管道,將分子結(jié)構(gòu)等視覺信息轉(zhuǎn)換為結(jié)構(gòu)化文本描述;邏輯領(lǐng)域涵蓋五個領(lǐng)域:視覺模式歸納、網(wǎng)格謎題、路徑尋找、算術(shù)推理和命題邏輯,通過整合公共資源到內(nèi)部游戲生成器實現(xiàn)可擴展創(chuàng)建;通用數(shù)據(jù)則聚合自公共倉庫和真實用戶交互。

RL數(shù)據(jù)難度分布

如上圖所示,RL數(shù)據(jù)集的難度分布顯示"非常困難"類別占比高達30%,這為模型在高難度任務(wù)上的卓越表現(xiàn)提供了數(shù)據(jù)基礎(chǔ)。研究團隊采用多階段篩選流程,包括解析、重構(gòu)和去重,通過LLM和基于規(guī)則的雙重評分確保數(shù)據(jù)質(zhì)量,同時通過細(xì)粒度元數(shù)據(jù)注釋實現(xiàn)動態(tài)采樣和跨領(lǐng)域混合,顯著提高訓(xùn)練效率和模型在復(fù)雜任務(wù)上的表現(xiàn)。

最后的General RL階段在可驗證任務(wù)的大規(guī)模強化學(xué)習(xí)之后,進行第二階段的強化學(xué)習(xí),聚焦于一般性任務(wù)。此階段采用RLHF(Reinforcement Learning from Human Feedback)重新校準(zhǔn)模型的能力分布,在保持核心推理能力的同時增強人類對齊、指令遵循、創(chuàng)意寫作、安全性和整體可用性。

這三個階段形成清晰的能力遞進關(guān)系:Long-CoT SFT奠定基礎(chǔ)推理模式→Reasoning RL提升專業(yè)領(lǐng)域推理能力→General RL優(yōu)化通用任務(wù)表現(xiàn),共同塑造出強大的思維模型。

第一支柱:IcePop —— 解決訓(xùn)練-推理失配的梯度凈化器

在萬億參數(shù)規(guī)模的強化學(xué)習(xí)訓(xùn)練中,一個根本性挑戰(zhàn)是訓(xùn)練引擎與推理引擎之間的概率計算差異,這在MoE模型中因動態(tài)路由機制而被放大。在長思維鏈(CoT)設(shè)置中,這些差異會隨著迭代逐步累積并進一步放大。

理論分析表明,這種復(fù)合概率偏差遵循特定規(guī)律:設(shè)πinfer(·; θ)和πtrain(·; θ)分別為推理引擎和訓(xùn)練引擎加載的策略模型,δt = DKL(πinfer(·; θt) ∥ πtrain(·; θt))表示第t步的概率偏差,在一定條件下存在常數(shù)η > 0,使得δt+1 ≥ (1+ η2μ) δt。這一不等式證明了概率偏差會以指數(shù)級速度累積,導(dǎo)致訓(xùn)練不穩(wěn)定。

為解決這一問題,研究團隊提出IcePop,一種通過雙側(cè)差異掩碼和裁剪穩(wěn)定RL訓(xùn)練的GRPO變體。IcePop的核心機制是僅在校準(zhǔn)區(qū)域內(nèi)更新梯度,而丟棄所有超出此邊界的噪聲梯度更新,從而在不減慢推理速度的情況下穩(wěn)定訓(xùn)練。

IcePop采用兩項關(guān)鍵技術(shù):

  • 雙側(cè)校準(zhǔn):在校準(zhǔn)函數(shù)定義的區(qū)域內(nèi)校準(zhǔn)Token級梯度,該函數(shù)為M(k)={k if k ∈[α, β], 0 otherwise},其中α和β控制上下限
  • 掩碼機制:將超出概率偏差范圍的Token從梯度計算中排除,將梯度更新限制在穩(wěn)定區(qū)域內(nèi)

其目標(biāo)函數(shù)設(shè)計為:

對應(yīng)的梯度計算為:

與現(xiàn)有方法相比,TIS(Yao et al., 2025)通過重要性采樣校正解決訓(xùn)練-推理失配問題,對發(fā)散梯度應(yīng)用修正系數(shù);而IcePop則直接丟棄超出范圍的梯度,確保訓(xùn)練穩(wěn)定性。實驗證明,這種"丟棄所有噪聲梯度更新"的方法在長期訓(xùn)練中更為有效。

AIME25性能對比

如上圖所示,在Ring-mini-2.0上的初步實驗顯示,IcePop在AIME25基準(zhǔn)測試上穩(wěn)定提升性能,最終比基線(63%)提高超過14%,并相對于TIS擴大了6%的性能差距。

在Ring-1T的實際訓(xùn)練中,IcePop有效抑制了梯度范數(shù)增長和概率偏差累積,使訓(xùn)練過程保持穩(wěn)定。實驗數(shù)據(jù)顯示,IcePop的掩碼比例維持在1-2‰的訓(xùn)練Token,這表明只有極少數(shù)但關(guān)鍵的噪聲梯度被丟棄,既保證了訓(xùn)練穩(wěn)定性,又保留了足夠的探索空間。

訓(xùn)練獎勵與梯度范數(shù)對比

如上圖所示,在Ring-mini-2.0實驗中,基線方法在180-200步后獎勵崩潰,而IcePop和TIS均能維持穩(wěn)定增長;在梯度范數(shù)方面,基線迅速爆炸,而IcePop和TIS保持穩(wěn)定。這表明IcePop有效解決了訓(xùn)練不穩(wěn)定問題。

如下圖所示,IcePop在訓(xùn)練過程中保持相對較低且穩(wěn)定的概率差異,而TIS顯示出更大的極端差異和更快的增長;同時,IcePop的token對數(shù)概率保持相對穩(wěn)定,而基線則快速上升后驟降。這表明IcePop能夠有效控制訓(xùn)練-推理失配問題。

概率差異與token對數(shù)概率

如下圖所示,IcePop的裁剪比例維持在1-2‰的訓(xùn)練token,隨著訓(xùn)練進行,裁剪比例急劇上升,表明訓(xùn)練過程中逐漸出現(xiàn)更微妙但有害的梯度更新。對被裁剪token的詳細(xì)分析表明,相比所有token,被裁剪token具有更高的熵值,這意味著這些被裁剪的token在訓(xùn)練中扮演著關(guān)鍵角色,它們的高熵特性使它們成為探索多樣性的重要來源,但同時也可能引入不穩(wěn)定性。

裁剪比例與token熵比較

掩碼范圍的敏感性分析如圖13所示,[0.5, 5.0]是最佳范圍:默認(rèn)范圍[0.5, 5.0]不僅穩(wěn)定訓(xùn)練,還豐富了采樣多樣性;過窄范圍[0.5, 2.0]立即導(dǎo)致訓(xùn)練不穩(wěn)定;而過寬范圍[0.4, 5.0]雖然保持穩(wěn)定,但包含過多高log概率Token,不利于探索多樣性。具體而言,[0.4, 5.0]范圍內(nèi)的token對數(shù)概率較低(如下圖右下角所示),意味著模型過度自信,這反而限制了探索空間。

不同掩碼范圍下的訓(xùn)練動態(tài)

第二支柱:C3PO++ —— Token預(yù)算驅(qū)動的高效Rollout調(diào)度器

在萬億參數(shù)思維模型的強化學(xué)習(xí)訓(xùn)練中,長思維鏈生成導(dǎo)致Rollout階段效率低下,成為訓(xùn)練瓶頸。為解決這一問題,研究團隊提出C3PO++,一種基于Token預(yù)算的動態(tài)劃分機制,顯著提升資源利用率。

IcePop與C3PO++集成框架

如上圖所示,IcePop與C3PO共同構(gòu)成了Ring-1T的強化學(xué)習(xí)核心,其中IcePop解決訓(xùn)練-推理失配問題,C3PO優(yōu)化Rollout效率,二者與推理引擎、訓(xùn)練引擎和RL數(shù)據(jù)語料庫共同協(xié)作,顯著提升RL訓(xùn)練的效率和效果。

C3PO++引入了預(yù)算控制的Rollout分區(qū)機制,通過動態(tài)劃分Rollout生成防止因個別長Rollout導(dǎo)致的計算資源閑置。系統(tǒng)包含兩個關(guān)鍵組件:容量為Ωinfer的高吞吐推理池Pinfer用于并行生成,以及容量為Ωtrain的訓(xùn)練池Qtrain用于收集已完成的軌跡。

C3PO++的Rollout緩沖區(qū)動態(tài)管理

如上圖所示,C3PO++在每個訓(xùn)練步驟中維護跨策略版本的Rollout狀態(tài)。當(dāng)?shù)_到Token預(yù)算時,優(yōu)化即刻執(zhí)行;未完成的Rollout被存儲在緩沖區(qū)中,由下一迭代中更新的策略繼續(xù)處理。每個序列經(jīng)歷的分區(qū)次數(shù)稱為保留期(retention period),每次迭代后,未完成Rollout的保留期自動增加1。保留期超過閾值σ的Rollout會在每次迭代前被清除。這一機制確保系統(tǒng)不會無限期保留未完成的Rollout,同時給予足夠機會讓策略模型繼續(xù)處理先前未完成的序列,從而最大化計算資源利用率。

C3PO++的算法流程如下:

1. 初始化推理池和訓(xùn)練池

2. 按保留期清理過期rollout(保留期超過閾值σ的Rollout被清除)

3. 維持推理池容量,補充新提示

4. 并行生成rollout,達到token預(yù)算后停止

5. 將完成rollout移至訓(xùn)練池,更新模型參數(shù)

算法1詳細(xì)展示了C3PO++的工作流程:在每個訓(xùn)練步驟t,推理引擎πinfer;θt并行生成rollout,同時實時跟蹤生成的token總數(shù)C。當(dāng)rollout達到終端狀態(tài)([EOS])時,它將從Pinfer移至訓(xùn)練池Qtrain,并計入訓(xùn)練token C。推理持續(xù)進行,直到C達到token預(yù)算Φ。此時,訓(xùn)練引擎πtrain;θt使用Qtrain中受token預(yù)算調(diào)控的已完成軌跡更新參數(shù),這些軌跡可能包含從早期推理版本恢復(fù)的樣本。將序列經(jīng)歷的分區(qū)次數(shù)稱為保留期,每個迭代后,未完成rollout的保留期自動增加1。在每次迭代前,保留期超過閾值σ的rollout將從Pinfer中清除。同時,可能采樣新提示以填充Pinfer,直到達到容量Ωinfer。模型參數(shù)更新至θt+1后,推理引擎πinfer;θt+1啟動新的rollout生成迭代,繼續(xù)處理有效保留期內(nèi)的rollout,并由token預(yù)算監(jiān)控。

C3PO++與基線的時間成本對比

實驗結(jié)果表明,C3PO顯著提升了訓(xùn)練效率。如上圖所示,在Rollout階段實現(xiàn)了約2.5倍的速度提升,由于Rollout階段通常占RL訓(xùn)練時間的很大比例,C3PO使端到-end訓(xùn)練速度提升了約1.5倍。

C3PO++與基線的獎勵和基準(zhǔn)性能比較

更重要的是,C3PO在提升效率的同時保持了訓(xùn)練效果。如上圖所示,獎勵曲線與基線保持接近,表明其在Rollout管理中的優(yōu)化維持了可比的訓(xùn)練動態(tài)。在代表性推理基準(zhǔn)測試中,C3PO實現(xiàn)了與基線相當(dāng)?shù)男阅埽篈IME25為92.29 vs 92.29,CodeForces評級為2084 vs 2085,ARC-AGI-1得分為53.25 vs 53.62。這證明了C3PO++在提高效率的同時,沒有犧牲模型性能。

第三支柱:ASystem —— 為萬億參數(shù)RL量身打造的高性能框架

訓(xùn)練萬億參數(shù)規(guī)模的強化學(xué)習(xí)模型需要專門的基礎(chǔ)設(shè)施,以管理其前所未有的規(guī)模。模型的巨大尺寸與分布式RL工作流的固有復(fù)雜性,在內(nèi)存管理、狀態(tài)同步和計算吞吐方面提出了獨特挑戰(zhàn)。為此,研究團隊開發(fā)了ASystem,一個高性能RL框架,其組件針對Ring-1T的需求進行了協(xié)同設(shè)計。

ASystem RL訓(xùn)練框架架構(gòu)

如上圖所示,ASystem的架構(gòu)圍繞統(tǒng)一執(zhí)行環(huán)境構(gòu)建,包含以下關(guān)鍵組件:

Hybrid Runtime:ASystem的核心,無縫集成訓(xùn)練和推理工作負(fù)載。對于Ring-1T,這意味著可以同時進行大規(guī)模并行策略評估(推理)和模型權(quán)重更新(訓(xùn)練),消除系統(tǒng)間數(shù)據(jù)傳輸開銷,確保數(shù)千GPU的高效利用。

AMem:GPU內(nèi)存管理庫,專為克服大規(guī)模RL訓(xùn)練中的內(nèi)存瓶頸而設(shè)計。它優(yōu)化內(nèi)存使用和數(shù)據(jù)傳輸,支持更大的批處理量,減少OOM錯誤,并通過最小代碼更改加速部署,且不損失準(zhǔn)確性。AMem通過三項關(guān)鍵技術(shù)提升內(nèi)存效率:內(nèi)存切換(透明釋放和恢復(fù)訓(xùn)練狀態(tài))、分布式多路徑傳輸(聚合多通道帶寬)和統(tǒng)一內(nèi)存池(跨GPU和節(jié)點的動態(tài)分配)。

AState:高性能權(quán)重同步框架,高效解決將更新后的模型參數(shù)從訓(xùn)練器分發(fā)到推理執(zhí)行者的挑戰(zhàn)。它采用零冗余點對點機制,能夠在10秒內(nèi)完成萬億參數(shù)模型的同步。這一機制通過僅傳輸必要權(quán)重分片、硬件-軟件協(xié)同設(shè)計(NUMA拓?fù)浜虲PU-GPU親和性感知)以及多傳輸通信層(動態(tài)選擇最佳協(xié)議)實現(xiàn)。相比之下,早期RL框架依賴分布式文件系統(tǒng)(如NFS)進行檢查點共享,同步延遲達數(shù)十分鐘,而AState將同步時間縮短至秒級,實現(xiàn)了數(shù)量級的性能突破。

ASandbox:按需無服務(wù)器沙箱環(huán)境,提供快速場景驗證。通過毫秒級冷啟動和高吞吐隔離,ASandbox加速了大型規(guī)模RL訓(xùn)練中Ring-1T Rollout的評估。它提供專用沙箱(數(shù)學(xué)、代碼、STEM、終端),支持HTTP和MCP協(xié)議,并具備內(nèi)核級隔離、自動故障檢測和高擴展性(5,000 QPS/200ms吞吐)。

ASystem基于SingleController+SPMD(Single Program, Multiple Data)架構(gòu)設(shè)計,提供了顯著優(yōu)勢:為訓(xùn)練、推理和獎勵模型后端提供即插即用支持,便于在規(guī)模上進行獨立調(diào)試和開發(fā);通過將控制流與數(shù)據(jù)流分離,有效緩解了主流SingleController框架中普遍存在的單點數(shù)據(jù)流瓶頸;此外,系統(tǒng)還包含快速失敗報告和自動恢復(fù)機制,增強訓(xùn)練穩(wěn)定性。

在細(xì)節(jié)層面,AReaL作為高性能RL算法框架,提供異步多階段流水線(并發(fā)執(zhí)行軌跡生成、獎勵計算和訓(xùn)練)、高效數(shù)據(jù)管理(智能數(shù)據(jù)打包和分片,最小化填充開銷)以及容錯機制(自動錯誤檢測、重試和恢復(fù)),與算法創(chuàng)新無縫集成。

實驗驗證:從訓(xùn)練動態(tài)到基準(zhǔn)測試的全方位驗證

研究團隊進行了全面實驗,驗證IcePop和C3PO++的有效性,以及ASystem框架的性能優(yōu)勢。

在數(shù)據(jù)分布方面,如圖14所示,Long-CoT SFT數(shù)據(jù)集的域分布為數(shù)學(xué)46%、STEM 26%、代碼20%、其他8%,確保了模型在多領(lǐng)域的基礎(chǔ)推理能力。而RL數(shù)據(jù)集的多領(lǐng)域分布如圖15所示,為數(shù)學(xué)23%、科學(xué)28%、代碼24%、邏輯19%,難度分布為非常簡單15%、簡單11%、中等13%、困難17%、非常困難30%,構(gòu)成了高質(zhì)量的強化學(xué)習(xí)訓(xùn)練數(shù)據(jù)。

在IcePop有效性驗證方面,Ring-mini-2.0上的實驗顯示,IcePop在AIME25基準(zhǔn)測試上穩(wěn)定提升性能,而TIS存在平臺期。在Ring-1T的實際訓(xùn)練中,IcePop有效抑制了梯度范數(shù)增長和概率偏差累積。掩碼范圍實驗表明,[0.5,5.0]范圍在穩(wěn)定性和探索空間間取得最佳平衡,保持1-2‰的Token被裁剪,同時確保訓(xùn)練穩(wěn)定性。

C3PO的效率驗證顯示,其在Rollout階段提速2.5倍,端到-end訓(xùn)練提速1.5倍。獎勵曲線與基線保持高度一致,證明無性能損失。在AIME25、CodeForces、ARC-AGI-1等基準(zhǔn)測試中,C3PO實現(xiàn)了與基線相當(dāng)?shù)男阅埽炞C了其在提高效率的同時不犧牲模型能力。

成果與啟示:Ring-1T的性能表現(xiàn)與行業(yè)意義

Ring-1T在多項關(guān)鍵基準(zhǔn)測試中展現(xiàn)出突破性結(jié)果:AIME-2025得分為93.40(第二,領(lǐng)先所有開源模型),HMMT-2025得分為86.72(第二,領(lǐng)先所有開源模型),CodeForces評分為2088(最高分,超越所有開源和閉源API),ARC-AGI-1得分為55.94(第二,比DeepSeek-V3.1提升15.32個百分點),ArenaHard v2勝率為81.59%(第二,僅落后GPT-5-Thinking 1.32個百分點)。

尤為引人注目的是,Ring-1T在IMO-2025評估中達到銀牌水平。在AWorld 2框架內(nèi),Ring-1T僅通過純自然語言推理(不依賴代碼生成或外部符號求解器)即正確解決了四道問題,并部分證明了問題2,所有這些都在單次提交中完成。具體而言,模型首次嘗試即正確解決了問題1、3、4和5;第三次嘗試為問題2生成了近乎完整的幾何證明;對于最具挑戰(zhàn)性的問題6(IMO 2025中無AI參與者正確解決),Ring-1T與Gemini 2.5 Pro收斂到相同錯誤答案(4048),而正確答案為2112。

以問題1為例,Ring-1T展示了完整的推理鏈:

  • 步驟1:理解點集結(jié)構(gòu) - 識別所需覆蓋的點集Pn={(a,b)∈Z+×Z+:a+b≤n+1},共T(n)=n(n+1)/2個點
  • 步驟2:非陽光線分類 - 確定非陽光線分為三類:水平線(y=c)、垂直線(x=d)、對角線(x+y=e)
  • 步驟3:最大覆蓋分析 - 計算m=n?k條非陽光線最多覆蓋M(m,n)=m(2n?m+1)/2個點,剩余U(k)=k(k+1)/2個點需由k條陽光線覆蓋
  • 步驟4:偶數(shù)k≥2不可能性 - 證明k條陽光線最多覆蓋k2/2個點,小于U(k)=k(k+1)/2
  • 步驟5:奇數(shù)k≥5不可能性 - 對k=2t?1(t≥3),證明僅存在3條不相交的t點陽光線,剩余2t(t?2)個點無法被剩余2t?4條線覆蓋
  • 步驟6:k=0構(gòu)造 - 使用n條對角線x+y=2,...,n+1覆蓋所有點
  • 步驟7:k=1構(gòu)造 - 使用n?1條水平線覆蓋b≤n?1的點,剩余點(1,n)用陽光線y=x+(n?1)覆蓋
  • 步驟8:k=3構(gòu)造 - 使用n?3條水平線留下P3子網(wǎng)格,用三條陽光線(斜率1、?1/2、?2)覆蓋所有6個點

這一完整的純自然語言推理過程,無需任何代碼或符號計算,充分展示了Ring-1T的深度推理能力。

這些結(jié)果驗證了穩(wěn)定高效的RL訓(xùn)練方法與系統(tǒng)的重要性,展示了萬億參數(shù)推理模型的可行性與卓越能力。Ring-1T的成功證明,算法與系統(tǒng)必須協(xié)同設(shè)計,才能克服超大規(guī)模RL訓(xùn)練中的穩(wěn)定性與效率挑戰(zhàn)。IcePop解決了訓(xùn)練-推理失配問題,但其效果依賴于ASystem提供的統(tǒng)一執(zhí)行環(huán)境;C3PO的效率提升需要AState的快速權(quán)重同步支持;而ASystem的組件設(shè)計則充分考慮了IcePop和C3PO的算法需求。

模型局限與未來方向

盡管取得了一定的成績,Ring-1T及其相關(guān)訓(xùn)練系統(tǒng)仍存在若干局限,指向未來研究的有益方向。

在模型架構(gòu)與推理效率方面,模型使用的GQA(Grouped-Query Attention)架構(gòu)在性能與速度間提供了良好平衡。然而,對于生成大量內(nèi)部"思維"過程的Ring-1T思維模型,GQA帶來的推理成本仍然顯著。未來需要探索替代機制,如MoBA 或高級線性注意力變體,以實現(xiàn)更高的推理吞吐量。

在訓(xùn)練-推理一致性方面,雖然IcePop方法緩解了主要的訓(xùn)練-推理失配問題,但并未實現(xiàn)完美的訓(xùn)練-推理一致性。訓(xùn)練和推理計算操作符之間的底層數(shù)值差異仍然是潛在的不穩(wěn)定性來源。解決這一基礎(chǔ)系統(tǒng)挑戰(zhàn)對于未來模型的穩(wěn)定擴展至關(guān)重要。

在能力缺陷方面,Ring-1T的訓(xùn)練策略針對基礎(chǔ)自然語言推理進行了優(yōu)化,導(dǎo)致高級智能體技能(如工具使用)未得到充分優(yōu)化。未來迭代將把Ring-1T定位為基礎(chǔ)模型,整合專門數(shù)據(jù)和訓(xùn)練范式(如智能體RL),培養(yǎng)復(fù)雜的自主問題解決能力。此外,身份混淆和語言代碼切換等小問題,歸因于數(shù)據(jù)雜質(zhì)和正則化不足,將通過改進數(shù)據(jù)凈化技術(shù)解決。

總結(jié):Every Step Evolves,每一步都在進化

Ring-1T的發(fā)布標(biāo)志著萬億參數(shù)思維模型領(lǐng)域的里程碑。這一成就成功解決了將強化學(xué)習(xí)擴展到萬億參數(shù)規(guī)模所固有的深刻系統(tǒng)和算法挑戰(zhàn)。其核心貢獻在于三個相互關(guān)聯(lián)的創(chuàng)新:IcePop解決了訓(xùn)練-推理失配問題,C3PO++實現(xiàn)了高效長軌跡Rollout,ASystem則消除了可擴展性瓶頸并確保訓(xùn)練穩(wěn)定性。

這三大創(chuàng)新環(huán)環(huán)相扣:IcePop確保訓(xùn)練穩(wěn)定性→C3PO++提高Rollout效率→ASystem提供系統(tǒng)級支撐,共同構(gòu)成了萬億參數(shù)思維模型訓(xùn)練的完整解決方案。通過向社區(qū)發(fā)布完整的1T參數(shù)MoE模型,研究團隊為研究社區(qū)提供了直接訪問尖端推理能力的機會,標(biāo)志著大規(guī)模推理智能民主化的重要里程碑。

作為首個開源的萬億參數(shù)思維模型,Ring-1T為研究社區(qū)提供了前所未有的機會,使研究人員能夠直接探索超大規(guī)模RL訓(xùn)練的穩(wěn)定性與效率問題。隨著GitHub代碼庫和HuggingFace模型權(quán)重的開放,Ring-1T將為AI社區(qū)提供強大的基礎(chǔ),推動推理模型研究的邊界。未來,從"思維模型"到"行動智能體"的演進路徑將更加清晰,每一步都在進化,每一次進化都在改變AI的未來。我大愛這篇論文中的數(shù)據(jù)配方配比。

責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2016-11-04 23:29:40

云計算IT基礎(chǔ)設(shè)施

2012-10-24 14:08:25

Elop趕快下臺

2017-10-10 08:30:21

Kubernetes容器編排

2023-09-25 07:31:19

算力AI框架

2021-08-30 08:00:00

編程語言WebAssembly安全

2024-04-01 12:10:48

數(shù)據(jù)訓(xùn)練

2013-05-26 15:47:12

SUSEEnterprise SUSE Cloud

2023-12-27 06:51:21

可觀測性系統(tǒng)數(shù)字體驗

2025-07-07 06:36:14

大模型大模型開源人工智能

2021-02-02 13:00:30

快手參數(shù)推薦精排模型

2023-05-24 07:47:23

ChatGPT參數(shù)模型

2023-05-26 07:47:41

ChatGPT模型AI

2023-05-19 10:26:01

谷歌模型

2025-07-08 03:22:00

大模型參數(shù)AI

2024-01-18 15:38:17

語言模型大型語言模型

2011-05-23 09:15:20

諾基亞SymbianWindows Pho

2024-09-23 16:12:44

2021-12-13 20:00:49

工業(yè)網(wǎng)絡(luò)安全網(wǎng)絡(luò)安全漏洞

2023-09-20 16:55:15

華為AI 計算集群

2018-08-03 10:25:53

區(qū)塊鏈大數(shù)據(jù)比特幣
點贊
收藏

51CTO技術(shù)棧公眾號

日本中文字幕第一页| 麻豆免费在线观看视频| 在线国产91| 国产一区二区三区蝌蚪| 韩国福利视频一区| 精品中文字幕在线播放| 日韩一区二区三区免费视频| 亚洲欧洲制服丝袜| 久久综合福利| 国产探花精品一区二区| 亚洲中字在线| 久久精品久久久久电影| av黄色一级片| 亚洲国产91视频| 欧美日韩免费看| 50度灰在线观看| 国产精品四虎| 成人激情校园春色| 成人h片在线播放免费网站| 日产精品久久久久| 亚洲草久电影| 国产一区二区三区欧美| 老熟妇精品一区二区三区| 日韩毛片免费视频一级特黄| 欧美视频在线看| 免费人成在线观看视频播放| 欧美三级电影一区二区三区| 久久免费精品国产久精品久久久久| 成人网在线视频| 国产精品无码一区| aa国产精品| 色综合久久悠悠| 国产suv精品一区二区68| 视频一区中文| 国产丝袜一区二区三区免费视频| 性生交大片免费看l| 亚洲综合资源| 精品视频999| 北条麻妃视频在线| 小草在线视频免费播放| 亚欧色一区w666天堂| 肉大捧一出免费观看网站在线播放| 在线观看av黄网站永久| 国产亚洲午夜高清国产拍精品| 国产精品免费观看高清| 性一交一乱一伧老太| 精品一区二区免费在线观看| 国产精品久久久久久久电影| 超碰在线观看91| 久久激情视频| 日韩美女毛茸茸| 中文字幕黄色片| 国产偷自视频区视频一区二区| 欧美精品第一页在线播放| 免费中文字幕在线| 亚洲精品成人无限看| 免费91在线视频| 欧美爱爱小视频| 欧美福利专区| 久久青草福利网站| 日产电影一区二区三区| 国产偷自视频区视频一区二区| 欧美亚洲成人xxx| 日本免费在线观看视频| 日本伊人精品一区二区三区观看方式| 日韩免费在线免费观看| 免费黄色片视频| 久久se精品一区二区| 国产在线高清精品| 国产夫妻自拍av| 99久久免费国产| 欧美一区二区三区在线免费观看| 福利成人在线观看| 亚洲三级在线观看| 国产色一区二区三区| 一本大道色婷婷在线| 欧美亚洲一区二区在线| 久久久久久综合网| 中文字幕一区二区三区日韩精品| 亚洲激情中文字幕| 精品无码在线观看| 亚洲国产精品日韩专区av有中文| 欧美激情一级精品国产| 欧美一级片免费在线观看| 久久视频一区| 91网站免费观看| 婷婷五月综合激情| 国产精品污污网站在线观看| 国产91视频一区| 第84页国产精品| 9191精品国产综合久久久久久| 涩视频在线观看| re久久精品视频| 久精品免费视频| 国产免费一区二区三区四区五区 | 久久久久五月天| 天天干天天干天天| 黄网站免费久久| 国严精品久久久久久亚洲影视| 黄色在线网站| 一二三区精品福利视频| 成人亚洲视频在线观看| 日韩精品视频一区二区三区| 亚洲免费电影在线观看| 毛片aaaaa| 日av在线不卡| 精品欧美一区二区久久久伦| 秋霞成人影院| 色天使色偷偷av一区二区| 亚洲男人天堂2021| 国产欧美日韩一区二区三区四区| 免费不卡欧美自拍视频| 中文字幕av资源| av在线不卡电影| 色婷婷777777仙踪林| 希岛爱理一区二区三区av高清| 日韩网站在线看片你懂的| 色屁屁草草影院ccyy.com| 亚洲精品影视| 97久草视频| 在线播放麻豆| 欧洲精品视频在线观看| 亚洲国产精品无码久久久久高潮| 天天做综合网| 国产精品一区二区三区久久久| 性猛交xxxx| 亚洲国产成人porn| 黑人巨大猛交丰满少妇| 99久久久国产精品美女| 国产精品丝袜久久久久久高清| 日韩精品123| 亚洲成a人v欧美综合天堂 | 国产免费av一区| 成人蜜臀av电影| 精品免费久久久久久久| а天堂中文最新一区二区三区| 中文字幕9999| 久久久久久无码午夜精品直播| 91首页免费视频| 怡红院av亚洲一区二区三区h| 午夜日韩影院| 欧美激情国产精品| www日本高清| 亚洲欧美国产高清| 日本人dh亚洲人ⅹxx| 91精品蜜臀一区二区三区在线| 国产欧美最新羞羞视频在线观看| 午夜免费福利在线观看| 制服丝袜亚洲色图| 欧美国产在线看| 丰满亚洲少妇av| 日本人体一区二区| 男人的天堂久久| 777777777亚洲妇女| 图片区 小说区 区 亚洲五月| 亚洲va欧美va人人爽午夜| 亚洲男女在线观看| 99亚洲一区二区| 蜜桃久久精品乱码一区二区| japanese23hdxxxx日韩| 尤物tv国产一区| 91丨九色丨蝌蚪丨对白| 亚洲欧美aⅴ...| av电影在线播放| 亚洲欧美日韩国产综合精品二区| 久久综合一区二区三区| 日韩不卡视频在线观看| 日韩中文在线中文网三级| 国产乱淫av片免费| 洋洋av久久久久久久一区| 尤物网站在线观看| 久久精品一区二区国产| 伊人久久大香线蕉av一区| 日韩精品一级| 2019中文字幕在线观看| 北条麻妃在线| 日韩欧美在线观看一区二区三区| 国产 日韩 欧美 成人| 91免费视频网址| 性欧美videossex精品| 亚洲高清影视| 久久超碰亚洲| 日韩黄色三级| 久久久久国产精品免费| 免费一级在线观看播放网址| 欧美日韩在线免费视频| 久久综合激情网| 久久久精品黄色| 男女视频在线观看网站| 国产欧美日韩一级| 青青草原国产免费| 黑色丝袜福利片av久久| 国产美女久久精品香蕉69| www.综合网.com| 中文字幕亚洲专区| 成人免费一级视频| 欧美性一区二区| 国产一级在线播放| 亚洲国产激情av| a级一a一级在线观看| 狠狠色丁香婷综合久久| 美女av免费在线观看| 欧美有码视频| 亚洲国产婷婷香蕉久久久久久99 | 麻豆精品视频在线观看| 久久99中文字幕| 偷偷www综合久久久久久久| 久久国产手机看片| 日日夜夜精品视频| 国产精品自产拍在线观看中文| 国产福利片在线观看| 欧美成人精品激情在线观看| 成人精品一区二区三区校园激情| 欧美成人a视频| 国产又大又粗又硬| 一本一道波多野结衣一区二区| 欧美激情一区二区视频| 国产精品国模大尺度视频| 中文字幕丰满孑伦无码专区| 高清日韩电视剧大全免费| 超碰成人在线播放| 视频一区在线视频| 国产成人精品视频免费看| 欧美精品激情| 一区二区三区偷拍| 成人区精品一区二区婷婷| 精品国产一区二区三区日日嗨 | 4438成人网| 中文字幕乱码一区二区| 色哟哟国产精品| 精品成人av一区二区在线播放| 亚洲一区在线电影| 538精品在线观看| 亚洲精品一二三| 久久av红桃一区二区禁漫| 国产欧美日韩不卡| 欧美特黄一区二区三区| www欧美成人18+| 亚洲天堂网一区二区| 99久久精品免费| 香港三级日本三级| 国产成人啪免费观看软件| 青青草原播放器| 国产剧情在线观看一区二区| www激情五月| 国产精品资源在线| 亚洲精品久久久久久| 成人一区二区三区视频在线观看| 可以看的av网址| 国产91精品精华液一区二区三区 | 欧美性猛交xxxx乱大交91| 青青草精品视频| 福利在线一区二区三区| 青青草伊人久久| 国产性生活一级片| 国产精品 欧美精品| 91精品国产高清91久久久久久| 国产福利精品一区二区| www.四虎在线| 91麻豆国产香蕉久久精品| 人妻aⅴ无码一区二区三区| 欧美国产精品劲爆| 久久久久久久久久97| 亚洲黄色在线视频| 精品处破女学生| 欧美日韩中文在线| 影音先锋国产在线| 欧美一区二区三区思思人| 午夜精品久久久久久久99热黄桃 | 美女视频第一区二区三区免费观看网站 | 在线观看黄色av| 欧美成人久久久| av第一福利在线导航| 欧美专区福利在线| 国产成人77亚洲精品www| 亚洲aⅴ男人的天堂在线观看| 99国产精品免费网站| 欧美精品一区二区三区在线四季 | 久久久亚洲精品一区二区三区| 摸摸摸bbb毛毛毛片| 亚洲天堂中文字幕| 日韩三级av在线| 欧美性videosxxxxx| www.com在线观看| 亚洲欧美国产视频| 成人在线观看亚洲| 91av视频在线观看| 亚洲精品aa| 狠狠干一区二区| 色男人天堂综合再现| 日韩国产成人无码av毛片| 久久aⅴ国产紧身牛仔裤| 91 视频免费观看| 久久影院午夜论| 蜜臀av午夜精品久久| 欧美性极品xxxx做受| 国产精品无码久久久久成人app| 亚洲第一福利在线观看| 91电影在线播放| 性视频1819p久久| www一区二区三区| 色一情一乱一伦一区二区三区丨| 欧美va天堂在线| 国产精品入口免费软件| 成人福利视频网站| 永久av免费网站| 在线一区二区三区四区| 理论片中文字幕| 久久综合久久八八| 欧美xnxx| 欧美连裤袜在线视频| 影音先锋中文字幕一区| 午夜一级免费视频| 国产欧美日韩不卡免费| 91精品国产乱码在线观看| 欧美一区二区国产| 一本一道波多野毛片中文在线 | 99ri日韩精品视频| 国产精品夜夜夜爽张柏芝| 日韩国产成人精品| 欧美大片免费播放器| 一区二区三区欧美亚洲| 97在线公开视频| 最新国产精品拍自在线播放| 久久影院午夜精品| 国产精品毛片va一区二区三区| 欧美成人国产| 亚洲欧美一区二区三区不卡| 国产精品成人午夜| 最近国语视频在线观看免费播放| 亚洲精品网站在线播放gif| av免费不卡国产观看| 产国精品偷在线| 午夜欧美精品久久久久久久| 午夜影院免费版| 亚洲免费观看高清完整版在线| 在线免费看91| 视频直播国产精品| 久草综合在线| 在线国产精品网| 极品少妇xxxx偷拍精品少妇| 国产日产在线观看| 欧美日韩大陆一区二区| 98在线视频| 成人黄色av免费在线观看| 91影院成人| 日本77777| 一区二区三区四区高清精品免费观看 | 欧美不卡一区二区三区四区| 青草视频在线免费直播| 91手机在线视频| 亚洲二区视频| 六十路息与子猛烈交尾| 欧美日韩国产中文字幕| 色天堂在线视频| 国产精品扒开腿做| 日韩一级毛片| 国产亚洲色婷婷久久| 亚洲一区二区黄色| 色视频在线观看| 国产精品免费小视频| 亚洲欧美偷拍自拍| 日本一级大毛片a一| 婷婷激情综合网| 国产在线一二三| 91久久精品视频| 亚洲电影av| 永久免费av无码网站性色av| 欧美日韩国产系列| 三级福利片在线观看| 久久精品国产理论片免费| 日韩av一区二区三区四区| 国产男女猛烈无遮挡在线喷水| 欧美一级片免费看| 欧美亚洲日本精品| 亚洲欧洲久久| 夫妻av一区二区| 高潮毛片又色又爽免费| xxxxx91麻豆| 极品束缚调教一区二区网站| 别急慢慢来1978如如2| 日韩毛片精品高清免费| 日韩有码第一页| 国产欧美日韩高清| 雨宫琴音一区二区在线| 中文字幕黄色网址| 日韩欧美电影一二三| 亚洲四虎影院| 国产人妻人伦精品| 国产日韩精品一区| 亚洲爱爱综合网| 国产精品久久视频| 国产精品magnet| 国产精品情侣呻吟对白视频| 精品国精品自拍自在线| 456成人影院在线观看| 日韩在线观看a| 国产精品高潮久久久久无| 天天综合网在线观看| 亚洲尤物视频网|