精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

MiroMind-M1:如何用CAMPO算法打造高效且可復(fù)現(xiàn)的全棧開源推理模型

人工智能
MiroMind-M1項(xiàng)目解決了開源推理模型領(lǐng)域的核心痛點(diǎn):數(shù)據(jù)不透明、訓(xùn)練不可復(fù)現(xiàn),真正實(shí)現(xiàn)了全棧開源。本文解析其創(chuàng)新的CAMPO算法,展示了如何在保持高性能的同時(shí)將推理效率提升25%。文末參考資料有開源模型,以及開源可復(fù)現(xiàn)過程的數(shù)據(jù)集和代碼。

大家好,我是肆〇柒。今天為大家介紹MiroMind-M1,這是一個(gè)開源的數(shù)學(xué)推理語言模型項(xiàng)目,它通過創(chuàng)新的"上下文感知多階段策略優(yōu)化"(CAMPO)算法,在保持高性能的同時(shí)顯著提升了推理效率。該項(xiàng)目解決了當(dāng)前推理語言模型(RLM)領(lǐng)域的主要痛點(diǎn):閉源模型主導(dǎo)市場導(dǎo)致研究不透明,以及開源項(xiàng)目缺乏完整可復(fù)現(xiàn)的訓(xùn)練數(shù)據(jù)和配置。下面,一起來看看。

圖片

核心突破與價(jià)值

在眾多推理能力評估維度中,數(shù)學(xué)推理因其客觀可驗(yàn)證性成為評估模型推理能力的黃金標(biāo)準(zhǔn)。數(shù)學(xué)問題解決不僅要求精確的多步邏輯推導(dǎo),還涉及抽象思維能力,這些能力往往可以泛化到其他推理任務(wù)中。更重要的是,每個(gè)LLM生成的答案都可以通過規(guī)則驗(yàn)證器進(jìn)行嚴(yán)格評估,從而提供清晰的獎(jiǎng)勵(lì)信號,這使得數(shù)學(xué)推理成為基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(Reinforcement Learning with Verifiable Rewards,RLVR)的理想測試場景。AIME24、AIME25和MATH500等高級基準(zhǔn)測試因其高難度和可控性,已成為評估RLM性能的核心指標(biāo)。

MiroMind-M1不僅在AIME24、AIME25和MATH500等基準(zhǔn)測試上達(dá)到或超越現(xiàn)有開源RLM的性能,還完整公開了模型、數(shù)據(jù)集和訓(xùn)練配置,為社區(qū)提供了一個(gè)可復(fù)現(xiàn)、可擴(kuò)展的推理語言模型開發(fā)框架,有力推動(dòng)RLM研究的透明化和協(xié)作化發(fā)展。

MiroMind-M1的核心價(jià)值有三點(diǎn):

1. 全棧開源:完整公開模型、訓(xùn)練數(shù)據(jù)(719K SFT數(shù)據(jù)集和62K RL數(shù)據(jù)集)和訓(xùn)練配置

2. CAMPO算法:創(chuàng)新性地整合多階段訓(xùn)練、重復(fù)懲罰機(jī)制和精確驗(yàn)證器,解決RL訓(xùn)練中的效率與穩(wěn)定性問題

3. Token效率突破:在AIME24/25等數(shù)學(xué)推理基準(zhǔn)測試中,以更少的token消耗實(shí)現(xiàn)與競品模型相當(dāng)甚至更優(yōu)的性能

該項(xiàng)目基于Qwen-2.5架構(gòu),通過兩階段訓(xùn)練范式(監(jiān)督微調(diào)SFT和基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)RLVR)構(gòu)建了MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B和MiroMind-M1-RL-32B三個(gè)主要模型。實(shí)驗(yàn)證明,這些模型在數(shù)學(xué)推理任務(wù)上達(dá)到了開源領(lǐng)域的領(lǐng)先水平,且推理過程更加高效。

MiroMind-M1的技術(shù)架構(gòu)與創(chuàng)新

模型整體架構(gòu):Qwen-2.5基礎(chǔ)與兩階段訓(xùn)練范式

MiroMind-M1系列模型建立在Qwen-2.5架構(gòu)之上,采用兩階段訓(xùn)練范式:首先通過監(jiān)督微調(diào)(SFT)在高質(zhì)量思維鏈數(shù)據(jù)上進(jìn)行訓(xùn)練,然后通過基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)進(jìn)一步優(yōu)化推理性能與效率。

SFT階段為模型提供高質(zhì)量的推理基礎(chǔ),使模型學(xué)會(huì)模仿人類專家的思維過程;RLVR階段則在此基礎(chǔ)上通過獎(jiǎng)勵(lì)信號引導(dǎo)模型探索更有效、更穩(wěn)健的推理模式。MiroMind-M1針對7B和32B兩種規(guī)模的模型進(jìn)行了完整訓(xùn)練與評估,形成了三個(gè)主要模型,滿足不同計(jì)算資源需求。

MiroMind-M1項(xiàng)目針對7B和32B兩種規(guī)模的模型進(jìn)行了完整訓(xùn)練與評估,形成了MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B和MiroMind-M1-RL-32B三個(gè)主要模型。

監(jiān)督微調(diào)(SFT)階段:數(shù)據(jù)構(gòu)建與訓(xùn)練策略

數(shù)據(jù)來源與質(zhì)量控制:719K數(shù)學(xué)推理問題的構(gòu)建過程

MiroMind-M1-SFT-7B的訓(xùn)練數(shù)據(jù)來源于四大公開數(shù)據(jù)源:OpenR1、OpenThoughts、Light-R1和Synthetic-1。這些數(shù)據(jù)源共同構(gòu)成了一個(gè)包含412K問題、719K驗(yàn)證過的思維鏈軌跡的高質(zhì)量數(shù)據(jù)集。其中,OpenR1提供了191K問題和418K推理軌跡,OpenThoughts貢獻(xiàn)了56K問題和56K軌跡,Light-R1提供了75K問題和76K軌跡,而Synthetic-1則貢獻(xiàn)了362K問題和638K軌跡(其中247K為數(shù)學(xué)相關(guān)軌跡)。

圖片

MiroMind-M1-SFT-719K數(shù)據(jù)集的詳細(xì)構(gòu)成,展示了各數(shù)據(jù)源的貢獻(xiàn)比例

數(shù)據(jù)質(zhì)量控制是SFT階段的關(guān)鍵環(huán)節(jié)。MiroMind團(tuán)隊(duì)采用了多層驗(yàn)證機(jī)制確保每條思維鏈軌跡的準(zhǔn)確性:首先通過MathVerify工具進(jìn)行規(guī)則驗(yàn)證,然后結(jié)合LLM裁判進(jìn)行二次驗(yàn)證。這種雙重驗(yàn)證策略有效過濾了錯(cuò)誤推理路徑,確保了訓(xùn)練數(shù)據(jù)的高質(zhì)量。同一問題允許多個(gè)正確響應(yīng),這有助于模型學(xué)習(xí)多樣化的解題思路。

數(shù)據(jù)去重、去污染與驗(yàn)證流程

數(shù)據(jù)預(yù)處理過程中,MiroMind團(tuán)隊(duì)實(shí)施了嚴(yán)格的去重和去污染流程。通過計(jì)算N-gram重疊來識別并排除高度相似的樣本,有效減少了訓(xùn)練數(shù)據(jù)中的冗余。特別針對Math500、AIME24和AIME25等評估基準(zhǔn)進(jìn)行了N-gram重疊過濾,確保訓(xùn)練數(shù)據(jù)與評估數(shù)據(jù)之間無交叉污染。

訓(xùn)練策略優(yōu)化:無打包訓(xùn)練與長軌跡樣本選擇

在訓(xùn)練策略上,MiroMind團(tuán)隊(duì)發(fā)現(xiàn)無打包(no-packing)訓(xùn)練策略顯著優(yōu)于傳統(tǒng)的打包(packing)和整潔打包(neat-packing)策略。

如下表所示,在AIME24、AIME25和MATH500基準(zhǔn)測試上,no-packing策略分別達(dá)到38.12、29.37和90.40的得分,明顯優(yōu)于packing(35.41/26.66/89.06)和neat-packing(32.50/26.25/88.80)策略。

圖片

不同訓(xùn)練策略在數(shù)學(xué)推理基準(zhǔn)測試上的性能對比,no-packing策略顯著優(yōu)于其他方法

這一優(yōu)勢源于LlamaFactory實(shí)現(xiàn)中使用的knapsack算法可能違反訓(xùn)練中的i.i.d.假設(shè)(Independent and Identically Distributed,見下注解)。為平衡訓(xùn)練效率與性能,MiroMind團(tuán)隊(duì)提出了一種混合策略:前兩輪訓(xùn)練使用packing以提高效率,最后一輪切換到no-packing以提升性能。實(shí)驗(yàn)表明,這種策略在保持MATH500上90.4的高準(zhǔn)確率的同時(shí),顯著縮短了訓(xùn)練時(shí)間。

注:LlamaFactory框架在實(shí)現(xiàn)“打包”訓(xùn)練時(shí),使用了一種名為“knapsack”的算法來高效地填充數(shù)據(jù)。但這種算法可能會(huì)把不相關(guān)的樣本強(qiáng)行拼接在一起,導(dǎo)致模型誤以為這些樣本是有關(guān)聯(lián)的。這種人為制造的虛假聯(lián)系,破壞了“每個(gè)訓(xùn)練樣本都應(yīng)獨(dú)立”的基本原則,從而影響了模型的學(xué)習(xí)效果,使得“打包”策略的性能可能不如“無打包”策略

此外,研究發(fā)現(xiàn)長軌跡選擇策略優(yōu)于隨機(jī)選擇。在50K樣本規(guī)模下,長軌跡策略在AIME24上達(dá)到35.41分,比隨機(jī)策略的31.66分高出3.75分。

圖片

不同數(shù)據(jù)規(guī)模下長軌跡選擇與隨機(jī)選擇策略的性能對比,長軌跡選擇在所有指標(biāo)上均顯著優(yōu)于隨機(jī)選擇

這一現(xiàn)象的理論解釋是:長軌跡通常對應(yīng)更復(fù)雜的問題,能夠更好地訓(xùn)練模型處理AIME等挑戰(zhàn)性任務(wù)。復(fù)雜問題要求模型進(jìn)行更深入的邏輯推導(dǎo)和抽象思維,這正是高級推理能力的核心要素。因此,在數(shù)據(jù)篩選過程中優(yōu)先選擇長軌跡樣本,可以有效提升模型處理復(fù)雜推理任務(wù)的能力。

基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)階段

62K挑戰(zhàn)性問題的數(shù)據(jù)篩選過程

RLVR階段的數(shù)據(jù)構(gòu)建是MiroMind-M1成功的關(guān)鍵。研究團(tuán)隊(duì)從四大來源收集了約100萬候選問題:NuminaMath-1.5(896K問題)、Skywork-OR1-RL-Data(105K數(shù)學(xué)子集)、Big-Math(50K問題)以及DAPO-Math-17K(17K高質(zhì)量數(shù)學(xué)問題)。經(jīng)過嚴(yán)格的四輪篩選后,僅保留了62K個(gè)問題,過濾率高達(dá)94%。

研究團(tuán)隊(duì)發(fā)現(xiàn),并非所有問題都適合RLVR訓(xùn)練:某些問題(如需要長篇自由形式答案或詳細(xì)數(shù)學(xué)證明的問題)難以通過基于規(guī)則的驗(yàn)證器準(zhǔn)確評估;另一些問題則存在模糊或不完整的答案格式,可能導(dǎo)致不一致的標(biāo)簽。這些問題會(huì)引入沖突信號,阻礙模型學(xué)習(xí),甚至導(dǎo)致訓(xùn)練崩潰。

過濾策略:格式、難度、驗(yàn)證答案長度等關(guān)鍵因素

MiroMind團(tuán)隊(duì)設(shè)計(jì)了多維度的過濾策略:

1. 格式過濾:移除非可驗(yàn)證問題(如證明題)并限制為英語問題

2. 重復(fù)過濾:包括精確重復(fù)和基于10-gram相似度閾值的近似重復(fù)

3. 難度過濾:確保問題既不過于簡單也不過于困難

在強(qiáng)化學(xué)習(xí)算法選擇上,MiroMind團(tuán)隊(duì)評估了PPO、GRPO和DAPO等主流方法。PPO雖然穩(wěn)定,但需要價(jià)值模型和GAE(Gated Advantage Estimator)估計(jì)器,計(jì)算成本高;GRPO通過消除critic和GAE降低了內(nèi)存和計(jì)算成本,但省略KL損失可能導(dǎo)致熵崩潰和訓(xùn)練不穩(wěn)定;DAPO通過解耦ε參數(shù)和動(dòng)態(tài)采樣策略優(yōu)化了這些問題,但對長度偏差的處理仍需改進(jìn)。

這些分析為MiroMind團(tuán)隊(duì)開發(fā)更高效的RL算法奠定了基礎(chǔ),直接促成了CAMPO算法的誕生。

核心創(chuàng)新:上下文感知多階段策略優(yōu)化(CAMPO)

CAMPO算法的理論基礎(chǔ)與設(shè)計(jì)動(dòng)機(jī)

CAMPO算法的提出源于RL訓(xùn)練中的三大關(guān)鍵挑戰(zhàn):長rollout帶來的高計(jì)算成本、訓(xùn)練過程的不穩(wěn)定性以及推理過程中的冗余問題。傳統(tǒng)RLVR方法往往忽視這些挑戰(zhàn),導(dǎo)致訓(xùn)練效率低下、性能波動(dòng)大以及生成的推理過程冗長低效。

CAMPO算法的核心創(chuàng)新在于整合了多階段訓(xùn)練、重復(fù)懲罰機(jī)制和精確驗(yàn)證器,通過上下文感知的學(xué)習(xí)策略促進(jìn)更有效的推理。訓(xùn)練過程在響應(yīng)長度達(dá)到飽和時(shí)進(jìn)入下一階段,即模型在當(dāng)前長度限制下已能生成足夠長的推理鏈。

效率感知的多階段訓(xùn)練策略

多階段訓(xùn)練策略是CAMPO的核心組件之一。該策略從較短的響應(yīng)限制開始(如16K tokens),隨著訓(xùn)練的深入逐步放寬長度限制(如32K tokens)。

這種設(shè)計(jì)有其深刻的理論依據(jù):較短的響應(yīng)限制有助于約束模型的輸出空間,減少rollout長度并加速反饋循環(huán)。同時(shí),超過當(dāng)前最大長度的響應(yīng)被視為失敗,提供了明確的訓(xùn)練信號,促使模型生成更簡潔、更精煉的輸出。

圖片

 MiroMind-M1-RL-7B在兩階段訓(xùn)練中的響應(yīng)長度變化趨勢,展示了長度限制對模型行為的塑造作用

上圖展示了MiroMind-M1-RL-7B在兩階段訓(xùn)練中的響應(yīng)長度變化:在16K限制階段,響應(yīng)長度壓縮至8K-9K tokens并趨于穩(wěn)定;當(dāng)限制提升至32K后,平均響應(yīng)長度顯著增加,超過13K tokens。

這一現(xiàn)象揭示了長度限制對模型行為的塑造作用:初始約束迫使模型在有限預(yù)算內(nèi)運(yùn)作,幫助建立強(qiáng)大的推理基礎(chǔ);這種基礎(chǔ)隨后支持在更長序列范圍內(nèi)的更穩(wěn)定、更有效的優(yōu)化。

重復(fù)懲罰機(jī)制:減少冗余推理

重復(fù)懲罰機(jī)制是CAMPO算法的另一關(guān)鍵組件,目的是減少推理過程中的冗余和循環(huán)。該機(jī)制通過計(jì)算重復(fù)分?jǐn)?shù)f(o_i)(檢測到的重復(fù)循環(huán)占整個(gè)序列的比例)來評估生成內(nèi)容中的重復(fù)程度。重要的是,重復(fù)發(fā)生越早,懲罰越重,因?yàn)樵缙诘闹貜?fù)對推理效率的影響更大。

圖片

重復(fù)懲罰機(jī)制使訓(xùn)練過程更加穩(wěn)定,避免了模型陷入冗余循環(huán)

上圖展示了重復(fù)懲罰機(jī)制對訓(xùn)練穩(wěn)定性的影響。在AIME24和AIME25基準(zhǔn)測試中,引入重復(fù)懲罰的模型表現(xiàn)出更穩(wěn)定的訓(xùn)練軌跡,而沒有重復(fù)懲罰的模型則出現(xiàn)了明顯的性能波動(dòng)。

這一機(jī)制有效減少了模型在推理過程中重復(fù)檢查相同條件或重新表述相同概念的行為。在幾何問題案例中,重復(fù)懲罰使模型的推理路徑減少了約18%的token數(shù),同時(shí)保持了相同的準(zhǔn)確率。更重要的是,去除冗余后,推理邏輯更加清晰連貫,減少了因重復(fù)導(dǎo)致的邏輯混淆風(fēng)險(xiǎn)。

精確驗(yàn)證器:提升推理效率的關(guān)鍵

MiroMind團(tuán)隊(duì)開發(fā)了改進(jìn)的級聯(lián)驗(yàn)證器(cascade verifier),能夠處理多種答案格式,包括數(shù)字、分?jǐn)?shù)、表達(dá)式等。這種設(shè)計(jì)確保了即使面對多樣化的答案格式,驗(yàn)證器也能提供準(zhǔn)確的反饋信號。

改進(jìn)的驗(yàn)證器通過提供更可靠的反饋,幫助模型學(xué)習(xí)生成簡潔且邏輯嚴(yán)謹(jǐn)?shù)拇鸢浮O聢D進(jìn)一步揭示了驗(yàn)證器改進(jìn)對推理效率的積極影響:在正確響應(yīng)的條件下,MiroMind-M1-RL-32B生成的平均token數(shù)顯著低于Skywork-OR1-32B-Preview。

圖片

MiroMind-M1-RL-32B在正確響應(yīng)上的平均Token數(shù)顯著低于Skywork-OR1-32B-Preview,證明了精確驗(yàn)證器對推理效率的積極影響

機(jī)制分析顯示,當(dāng)驗(yàn)證器能夠準(zhǔn)確識別正確答案時(shí),模型無需通過冗長的推理來"猜測"驗(yàn)證器的偏好,而是可以直接聚焦于最簡潔有效的解決方案。這種"獎(jiǎng)勵(lì)-行為"的正向循環(huán)使模型在保持高準(zhǔn)確率的同時(shí),顯著降低了推理成本,實(shí)現(xiàn)了性能與效率的雙贏。

CAMPO算法流程詳解

CAMPO算法的完整流程如Algorithm 1所示,包含以下關(guān)鍵步驟:

1. 階段初始化:設(shè)置當(dāng)前階段的最大上下文長度,從較短限制開始

2. 動(dòng)態(tài)clipping ratio設(shè)置:從和中采樣和,實(shí)現(xiàn)不同訓(xùn)練階段的解耦clipping分布

3. 批量采樣:從任務(wù)提示集合中采樣一批問題

4. 策略更新:使用舊策略模型生成多個(gè)響應(yīng),計(jì)算獎(jiǎng)勵(lì)和重復(fù)分?jǐn)?shù)

5. 難度過濾:排除完全正確或完全錯(cuò)誤的批次()

6. 策略優(yōu)化:應(yīng)用PPO目標(biāo)函數(shù)進(jìn)行參數(shù)更新

圖片上下文感知多階段策略優(yōu)化(CAMPO)算法的詳細(xì)流程,展示了多階段訓(xùn)練和重復(fù)懲罰機(jī)制的實(shí)現(xiàn)

這一算法設(shè)計(jì)通過多階段訓(xùn)練、重復(fù)懲罰和精確驗(yàn)證器的協(xié)同作用,有效解決了RL訓(xùn)練中的效率、穩(wěn)定性和冗余問題,為MiroMind-M1的卓越性能奠定了基礎(chǔ)。

動(dòng)態(tài)clipping ratio:解決訓(xùn)練穩(wěn)定性問題

CAMPO算法還引入了動(dòng)態(tài)clipping ratio設(shè)置:從φlow(s)和φhigh(s)中采樣εlow和εhigh,實(shí)現(xiàn)不同訓(xùn)練階段的解耦clipping分布。DAPO將ε解耦為εlow和εhigh,以防止熵崩潰,強(qiáng)制多樣化的rollout以獲得穩(wěn)定的梯度,并對所有token的損失進(jìn)行平均以消除長度偏差。

這種動(dòng)態(tài)調(diào)整機(jī)制能夠適應(yīng)不同訓(xùn)練階段的需求,在早期訓(xùn)練階段允許更大的策略變化,在后期訓(xùn)練階段則更加穩(wěn)定,從而提高了整體訓(xùn)練的穩(wěn)定性和收斂速度。

MiroMind-M1-RL系列模型的性能表現(xiàn)

MiroMind-M1-SFT-7B 的 SFT 與 RL 的性能提升

圖片

不同SFT模型在AIME24、AIME25和MATH500基準(zhǔn)測試上的性能對比,MiroMind-M1-SFT-7B全面領(lǐng)先

MiroMind-M1-SFT-7B在數(shù)學(xué)推理基準(zhǔn)測試上取得了顯著成果:AIME24得分為60.4,AIME25得分為45.0,MATH500得分為94.6。經(jīng)過RLVR階段的優(yōu)化,MiroMind-M1-RL-7B在所有三個(gè)基準(zhǔn)測試上實(shí)現(xiàn)了顯著提升:AIME24達(dá)到73.4,AIME25達(dá)到57.8,MATH500達(dá)到96.7。

圖片

 MiroMind-M1-RL-7B在訓(xùn)練過程中的性能軌跡,展示了RL過程帶來的顯著提升

上圖展示了MiroMind-M1-RL-7B在訓(xùn)練過程中的性能軌跡。RL過程帶來了AIME24和AIME25上超過15%的準(zhǔn)確率提升,這一提升在數(shù)學(xué)推理任務(wù)中是相當(dāng)顯著的。

這一結(jié)果不僅超越了所有基于Qwen2.5系列的7B模型,還超過了Skywork-OR1-7B(72.2, 54.6)的性能。特別值得注意的是,MiroMind-M1-RL-7B的AIME24得分比DeepSeek-R1-Distill-Qwen-7B(55.5)高出17.9個(gè)百分點(diǎn),展示了RLVR階段的巨大潛力。

MiroMind-M1-RL-32B的性能表現(xiàn)

對于32B規(guī)模的模型,MiroMind-M1-RL-32B同樣表現(xiàn)出色:AIME24得分為77.5,AIME25得分為65.6,MATH500得分為96.4。與初始檢查點(diǎn)DeepSeek-R1-Distill-Qwen-32B(70.8, 52.1, 95.8)相比,MiroMind-M1-RL-32B在AIME24上提升了6.7個(gè)百分點(diǎn),在AIME25上提升了13.5個(gè)百分點(diǎn),驗(yàn)證了CAMPO算法在更大規(guī)模模型上的有效性。

圖片

MiroMind-M1-RL-32B與其他32B模型在數(shù)學(xué)推理基準(zhǔn)上的性能對比,展示了CAMPO算法的有效性

盡管MiroMind-M1-RL-32B在AIME25上略遜于Skywork-OR1-32B-Preview(65.6 vs 68.2),但其token效率更高,在較短的響應(yīng)長度下表現(xiàn)更佳。這一權(quán)衡表明,MiroMind-M1-RL-32B更適合需要高效推理的實(shí)際應(yīng)用場景,并不只是追求絕對性能。

Token效率分析:MiroMind-M1-RL-32B為何能用更少的token完成推理

Token效率是MiroMind-M1系列模型的核心優(yōu)勢之一。

圖片

 MiroMind-M1-RL-32B與Skywork-OR1-32B-Preview在AIME24和AIME25基準(zhǔn)測試上,不同最大響應(yīng)長度下的性能對比

上圖清晰展示了在不同最大響應(yīng)長度下,MiroMind-M1-RL-32B與Skywork-OR1-32B-Preview的性能對比。在AIME24上,MiroMind-M1-RL-32B在4K、8K、16K長度下分別領(lǐng)先2.6、7.5和8.7個(gè)百分點(diǎn);在AIME25上,分別領(lǐng)先3.7、4.8和5.8個(gè)百分點(diǎn)。

這一優(yōu)勢在較短的響應(yīng)長度下尤為明顯,表明MiroMind模型能夠在更少的計(jì)算資源下實(shí)現(xiàn)更高效的推理。這一優(yōu)勢源于CAMPO算法的三大關(guān)鍵組件:

1. 重復(fù)懲罰機(jī)制:有效減少了冗余推理步驟

2. 級聯(lián)驗(yàn)證器:引導(dǎo)模型生成更簡潔有效的推理過程

3. 多階段訓(xùn)練策略:初始階段的長度限制促使模型在有限預(yù)算內(nèi)建立高效推理習(xí)慣

Token效率的實(shí)際意義重大:在相同計(jì)算資源下,高效模型可以處理更多問題;在相同問題上,高效模型能提供更快的響應(yīng)速度;在資源受限場景下,高效模型更容易部署和應(yīng)用。這些優(yōu)勢使MiroMind-M1系列模型在實(shí)際應(yīng)用中具有顯著競爭力。

評估穩(wěn)定性問題:AIME基準(zhǔn)測試的波動(dòng)性深度分析

AIME基準(zhǔn)測試的評估穩(wěn)定性問題值得關(guān)注。由于AIME24和AIME25僅包含30個(gè)問題,單個(gè)問題的正確與否可能導(dǎo)致性能波動(dòng)超過3.3個(gè)百分點(diǎn);1-2個(gè)問題的差異甚至?xí)?dǎo)致超過5%的性能波動(dòng)。

圖片

 64次重復(fù)評估的結(jié)果分布,顯示即使采用avg@k方法,AIME基準(zhǔn)測試仍存在顯著波動(dòng)

為應(yīng)對這一問題,MiroMind團(tuán)隊(duì)采用avg@k評估策略,在AIME24和AIME25上設(shè)置k=64,在MATH500上設(shè)置k=5。選擇k=64用于AIME評估是基于統(tǒng)計(jì)考慮:通過64次重復(fù)評估,可以將標(biāo)準(zhǔn)差降低到可接受水平(約1.25%)。

這一發(fā)現(xiàn)揭示了當(dāng)前數(shù)學(xué)推理基準(zhǔn)測試的固有限制:小樣本量導(dǎo)致的高方差使得精確比較變得困難。盡管增加評估次數(shù)可以提高結(jié)果的穩(wěn)健性,但這會(huì)顯著增加基準(zhǔn)測試的時(shí)間成本。

典型案例:MiroMind-M1的推理效率展示

Token效率對比案例

選取AIME24中的一個(gè)典型組合數(shù)學(xué)問題進(jìn)行分析:問題要求計(jì)算特定條件下排列組合的數(shù)量。MiroMind-M1-RL-32B生成的解決方案包含約7,200 tokens,而Skywork-OR1-32B-Preview生成的解決方案則超過10,500 tokens。

關(guān)鍵區(qū)別在于,MiroMind模型直接應(yīng)用了最相關(guān)的組合公式,而Skywork模型則進(jìn)行了更廣泛的公式推導(dǎo)和驗(yàn)證。具體而言,MiroMind模型識別出問題可以簡化為"從n個(gè)元素中選擇k個(gè)的組合數(shù)",直接應(yīng)用公式并代入數(shù)值計(jì)算。相比之下,Skywork模型從基本原理出發(fā),逐步推導(dǎo)組合公式,包括階乘定義、排列與組合的關(guān)系等,雖然邏輯正確但過程冗長。

這一案例清晰展示了MiroMind模型如何通過更聚焦的推理路徑實(shí)現(xiàn)更高的令牌效率。

重復(fù)懲罰機(jī)制的實(shí)際效果

在另一個(gè)幾何問題中,重復(fù)懲罰機(jī)制的效果尤為明顯。問題要求計(jì)算復(fù)雜圖形的面積。沒有重復(fù)懲罰的模型傾向于重復(fù)檢查同一條件或重新表述相同概念,例如多次驗(yàn)證"由于三角形ABC是等腰的,所以...",導(dǎo)致推理路徑膨脹。

而應(yīng)用重復(fù)懲罰后,模型能夠識別并避免這種冗余行為,直接進(jìn)入下一步推理。值得注意的是,即使在32K階段,MiroMind模型的推理路徑仍比同類模型短約25%,這歸功于前期建立的高效推理習(xí)慣。

這一案例證明,重復(fù)懲罰不僅提高了效率,還增強(qiáng)了推理質(zhì)量。

多階段訓(xùn)練的漸進(jìn)效果分析

分析一個(gè)需要多步變換的代數(shù)問題,可以清晰看到多階段訓(xùn)練的漸進(jìn)效果。在16K階段,模型能夠解決基礎(chǔ)版本的問題,但對更復(fù)雜的變體表現(xiàn)不佳;進(jìn)入32K階段后,模型成功處理了包含額外約束條件的復(fù)雜版本。關(guān)鍵區(qū)別在于推理深度:16K階段的模型傾向于使用已知公式直接求解,而32K階段的模型則能夠進(jìn)行更深入的代數(shù)變換,包括引入輔助變量和中間步驟。

然而,即使在32K階段,MiroMind模型的推理路徑仍比同類模型短約25%,這歸功于前期建立的高效推理習(xí)慣。這一案例說明,多階段訓(xùn)練不僅擴(kuò)展了模型的能力范圍,還保持了推理效率。

這一案例說明,多階段訓(xùn)練不僅擴(kuò)展了模型的能力范圍,還保持了推理效率。

開源貢獻(xiàn)與復(fù)現(xiàn)指南

完整開源棧:模型、數(shù)據(jù)集與訓(xùn)練配置

MiroMind-M1項(xiàng)目的核心價(jià)值在于其全面的開源承諾。與許多聲稱"開源"但缺乏關(guān)鍵資源的項(xiàng)目不同,MiroMind團(tuán)隊(duì)完整公開了以下資源:(見文末參考)

  • 模型系列:包括MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B和MiroMind-M1-RL-32B
  • 數(shù)據(jù)集:MiroMind-M1-SFT-719K和MiroMind-M1-RL-62K
  • 訓(xùn)練與評估配置:完整的訓(xùn)練腳本、超參數(shù)設(shè)置和評估協(xié)議

這種全棧開源策略為研究者提供了真正可復(fù)現(xiàn)的研究基礎(chǔ),使他們能夠從數(shù)據(jù)構(gòu)建、模型訓(xùn)練到評估的完整流程進(jìn)行驗(yàn)證和改進(jìn)。

SFT-719K與RL-62K數(shù)據(jù)集的特點(diǎn)與使用建議

MiroMind-M1-SFT-719K數(shù)據(jù)集的核心特點(diǎn)是其思維鏈軌跡的長度和復(fù)雜性。數(shù)據(jù)統(tǒng)計(jì)顯示,該數(shù)據(jù)集包含412K問題和719K驗(yàn)證過的思維鏈軌跡,平均每個(gè)問題有1.75條正確推理路徑。

使用建議:

  • SFT階段:推薦進(jìn)行3輪訓(xùn)練,采用峰值學(xué)習(xí)率5.0×10^-5,余弦學(xué)習(xí)率調(diào)度器,10%的預(yù)熱步長比例,以及128的批次大小
  • RL階段:建議采用CAMPO算法進(jìn)行訓(xùn)練,包括多階段上下文擴(kuò)展和重復(fù)懲罰機(jī)制

SFT-719K與RL-62K數(shù)據(jù)集的特點(diǎn)與使用建議

MiroMind-M1-SFT-719K數(shù)據(jù)集的核心特點(diǎn)是其思維鏈軌跡的長度和復(fù)雜性。數(shù)據(jù)統(tǒng)計(jì)顯示,該數(shù)據(jù)集包含412K問題和719K驗(yàn)證過的思維鏈軌跡,平均每個(gè)問題有1.75條正確推理路徑。軌跡長度分布分析表明,該數(shù)據(jù)集特別強(qiáng)調(diào)長軌跡樣本,這對于訓(xùn)練模型處理復(fù)雜推理任務(wù)至關(guān)重要。

使用建議方面,SFT階段推薦進(jìn)行3輪訓(xùn)練,采用峰值學(xué)習(xí)率5.0×10^-5,余弦學(xué)習(xí)率調(diào)度器,10%的預(yù)熱步長比例,以及128的批次大小。為支持復(fù)雜推理的長生成,模型的最大位置嵌入被擴(kuò)展至32,768,使用線性RoPE縮放。訓(xùn)練策略上,推薦采用無打包(no-packing)方法,或采用前兩輪打包、最后一輪無打包的混合策略以平衡效率與性能。

MiroMind-M1-RL-62K數(shù)據(jù)集則專注于挑戰(zhàn)性和可驗(yàn)證性。該數(shù)據(jù)集經(jīng)過嚴(yán)格篩選,確保每個(gè)問題既非過于簡單也非無法解決,且答案格式適合規(guī)則驗(yàn)證。使用時(shí),建議采用CAMPO算法進(jìn)行訓(xùn)練,包括多階段上下文擴(kuò)展和重復(fù)懲罰機(jī)制。強(qiáng)化學(xué)習(xí)階段通常需要更高的計(jì)算資源,但能顯著提升模型的推理效率和準(zhǔn)確性。

訓(xùn)練資源需求與最佳實(shí)踐

SFT階段的資源需求相對可控:訓(xùn)練7B模型通常需要單節(jié)點(diǎn)8×A100 GPU,約3天時(shí)間完成3輪訓(xùn)練。關(guān)鍵配置包括:無打包訓(xùn)練策略、32,768的最大位置嵌入、5.0×10^-5的學(xué)習(xí)率和128的批次大小。

RLVR階段的資源需求則顯著增加:7B模型需要64×A800 GPU(8個(gè)計(jì)算節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)8 GPU),32B模型需要16×8 A100 GPU。訓(xùn)練過程通常分為多個(gè)階段,每個(gè)階段有不同的最大響應(yīng)長度限制。對于7B模型,推薦采用兩階段策略:第一階段限制為16K tokens,訓(xùn)練約1200步;第二階段擴(kuò)展至32K tokens,繼續(xù)訓(xùn)練。對于32B模型,則推薦三階段策略,逐步將最大響應(yīng)長度從16K擴(kuò)展至32K再到49K。

特別是重復(fù)懲罰機(jī)制,需要精確計(jì)算重復(fù)分?jǐn)?shù)并正確整合到獎(jiǎng)勵(lì)信號中。MiroMind團(tuán)隊(duì)建議使用他們開源的實(shí)現(xiàn)代碼,以確保正確應(yīng)用這一關(guān)鍵組件。

RL訓(xùn)練效率瓶頸深度分析

rollout階段:RL訓(xùn)練的主要瓶頸

實(shí)驗(yàn)數(shù)據(jù)表明,rollout階段占據(jù)了RL訓(xùn)練90%以上的計(jì)算時(shí)間,是RL訓(xùn)練的主要瓶頸。在rollout階段,模型需要為每個(gè)輸入生成完整響應(yīng)以計(jì)算獎(jiǎng)勵(lì),這一過程高度依賴自回歸生成,計(jì)算成本隨序列長度線性增長。相比之下,參數(shù)更新階段的計(jì)算相對高效,因?yàn)榭梢猿浞掷肎PU的并行計(jì)算能力。

同步batch處理機(jī)制進(jìn)一步加劇了這一問題:在標(biāo)準(zhǔn)實(shí)現(xiàn)中,整個(gè)batch必須等待最長的生成完成才能進(jìn)行下一步處理。這意味著即使batch中只有一個(gè)樣本生成異常長的響應(yīng),也會(huì)拖慢整個(gè)batch的處理速度,導(dǎo)致GPU大量空閑。這種現(xiàn)象在數(shù)學(xué)推理任務(wù)中尤為明顯,因?yàn)閱栴}難度差異大,生成長度分布廣泛。

長尾問題:訓(xùn)練效率的隱形殺手

長尾問題(即生成極長響應(yīng)的樣本)對訓(xùn)練效率有顯著影響。這些長尾問題雖然數(shù)量不多,但由于同步處理機(jī)制,它們顯著拖慢了整個(gè)訓(xùn)練過程。具體影響包括:GPU空閑時(shí)間增加,訓(xùn)練效率降低;批次處理時(shí)間不穩(wěn)定,難以預(yù)測訓(xùn)練完成時(shí)間;資源利用率低下,增加了訓(xùn)練成本。

MiroMind團(tuán)隊(duì)觀察到,哪怕只是少量樣本生成了極長的序列,也會(huì)嚴(yán)重拖慢整個(gè)批次的處理速度,這使得長尾問題成為RL訓(xùn)練中的關(guān)鍵效率瓶頸。

多階段訓(xùn)練對效率瓶頸的緩解作用

MiroMind團(tuán)隊(duì)發(fā)現(xiàn),多階段訓(xùn)練策略部分緩解了這一問題。通過從較短的響應(yīng)限制開始訓(xùn)練,模型在早期階段就能建立高效的推理習(xí)慣,減少了長響應(yīng)的可能性。此外,較短的初始響應(yīng)限制降低了每個(gè)樣本的平均生成長度,從而減少了rollout階段的計(jì)算負(fù)擔(dān)。

如下圖顯示,在16K限制階段,模型的響應(yīng)長度壓縮至8K-9K tokens并趨于穩(wěn)定,這顯著降低了rollout階段的計(jì)算成本。

圖片

效率優(yōu)化方向

針對RL訓(xùn)練效率瓶頸,MiroMind團(tuán)隊(duì)指出了幾個(gè)有前景的優(yōu)化方向:

1. 解耦rollout與參數(shù)更新(detached rollout):減少GPU空閑時(shí)間,通過異步方式處理rollout和參數(shù)更新

2. 流式負(fù)載均衡架構(gòu):動(dòng)態(tài)分配計(jì)算資源,確保GPU始終處于高效工作狀態(tài)

3. 長尾問題的主動(dòng)識別與處理:預(yù)測生成長度并動(dòng)態(tài)調(diào)整批次組成

這些優(yōu)化方向已在相關(guān)研究中得到初步驗(yàn)證。例如,Ji等人提出的流式負(fù)載均衡架構(gòu)顯著減少了GPU空閑時(shí)間,提高了整體訓(xùn)練效率。

局限性

模型在復(fù)雜問題上的局限性

盡管MiroMind-M1在多個(gè)基準(zhǔn)測試上表現(xiàn)出色,但在處理極端復(fù)雜的數(shù)學(xué)問題時(shí)仍存在局限。例如,49K長度限制仍不足以解決最復(fù)雜的數(shù)學(xué)問題,特別是在需要超長推理鏈或詳細(xì)證明的場景中。

值得注意的是,Skywork-OR1-32B-Preview在AIME25上表現(xiàn)更好,部分原因可能是其訓(xùn)練數(shù)據(jù)包含了代碼和數(shù)學(xué)的混合:Skywork-OR1-32B-Preview 得益于數(shù)學(xué)與代碼數(shù)據(jù)的多元混合;其中加入代碼,多半讓模型在符號推理上更強(qiáng)。

這表明,代碼訓(xùn)練數(shù)據(jù)通過強(qiáng)化模型對符號操作和結(jié)構(gòu)化邏輯的理解,間接提升了其數(shù)學(xué)推理能力。

RL訓(xùn)練效率瓶頸的系統(tǒng)性解決方案

rollout階段是RL訓(xùn)練的主要瓶頸,需要系統(tǒng)性解決方案。未來工作可能包括:開發(fā)異步rollout機(jī)制,設(shè)計(jì)智能長度預(yù)測模型,實(shí)現(xiàn)更精細(xì)的資源調(diào)度策略。MiroMind團(tuán)隊(duì)特別指出,detached rollout和流式負(fù)載均衡架構(gòu)是兩個(gè)有前景的方向。

多領(lǐng)域推理能力的擴(kuò)展可能性

MiroMind-M1目前專注于數(shù)學(xué)推理,但其方法論具有擴(kuò)展到其他領(lǐng)域的潛力。未來工作可以探索將MiroMind框架擴(kuò)展到科學(xué)、邏輯和代碼生成等領(lǐng)域。通過構(gòu)建多領(lǐng)域驗(yàn)證數(shù)據(jù)集,并設(shè)計(jì)領(lǐng)域自適應(yīng)的驗(yàn)證器,模型可能發(fā)展出更通用的推理能力。

總結(jié)

核心貢獻(xiàn)

MiroMind-M1項(xiàng)目的核心貢獻(xiàn)在于:

1. 全棧開源:完整公開模型、數(shù)據(jù)集和訓(xùn)練配置,為社區(qū)提供真正可復(fù)現(xiàn)的研究基礎(chǔ)

2. CAMPO算法:通過整合多階段訓(xùn)練、重復(fù)懲罰和精確驗(yàn)證器,有效解決RL訓(xùn)練中的效率、穩(wěn)定性和冗余問題

3. Token效率突破:在保持高性能的同時(shí)顯著提升推理效率,證明效率與性能可以兼得

這些貢獻(xiàn)不僅推動(dòng)了數(shù)學(xué)推理能力的提升,還為更廣泛的推理語言模型研究提供了方法論指導(dǎo)。

對開源RLM的關(guān)鍵啟示

MiroMind-M1項(xiàng)目為開源RLM社區(qū)提供了三點(diǎn)重要啟示:

1. 數(shù)據(jù)質(zhì)量與訓(xùn)練策略同等重要:719K高質(zhì)量SFT數(shù)據(jù)超越了更大規(guī)模但質(zhì)量較低的數(shù)據(jù)集

2. 效率與性能需要平衡考慮:在實(shí)際應(yīng)用中,高效的推理往往比絕對性能更重要

3. 嚴(yán)格的驗(yàn)證機(jī)制是RLVR成功的關(guān)鍵:準(zhǔn)確的獎(jiǎng)勵(lì)信號直接決定了模型能否學(xué)習(xí)有效的推理模式

這些啟示挑戰(zhàn)了當(dāng)前RLM研究中的一些常見假設(shè),如"數(shù)據(jù)越多越好"或"響應(yīng)越長越好"。

實(shí)操建議

基于MiroMind-M1的研究成果,有以下具體建議:

1. 評估方法:在小樣本基準(zhǔn)測試(如AIME)上進(jìn)行多次評估(如k=64),并報(bào)告標(biāo)準(zhǔn)差,避免僅憑單次評估結(jié)果做出結(jié)論

2. 訓(xùn)練策略

  • 采用多階段訓(xùn)練策略,從較短的響應(yīng)限制開始,逐步放寬長度限制
  • 實(shí)施重復(fù)懲罰機(jī)制,減少推理過程中的冗余
  • 使用精確的級聯(lián)驗(yàn)證器,提供可靠的獎(jiǎng)勵(lì)信號

3. 數(shù)據(jù)構(gòu)建

  •    優(yōu)先選擇長軌跡樣本,提升模型處理復(fù)雜問題的能力
  •    嚴(yán)格進(jìn)行數(shù)據(jù)去重和去污染,確保訓(xùn)練數(shù)據(jù)質(zhì)量
  •    采用多層驗(yàn)證機(jī)制,確保思維鏈軌跡的準(zhǔn)確性
  1.    效率優(yōu)化
  •    探索解耦rollout與參數(shù)更新的技術(shù)
  •    實(shí)現(xiàn)流式負(fù)載均衡架構(gòu),提高GPU利用率
  •    開發(fā)長尾問題的主動(dòng)識別與處理機(jī)制

MiroMind-M1項(xiàng)目證明,開源社區(qū)完全有能力開發(fā)出與閉源模型相媲美甚至超越的推理語言模型。通過持續(xù)的協(xié)作和創(chuàng)新,開源RLM有望成為AI推理能力發(fā)展的主要驅(qū)動(dòng)力,為更廣泛的應(yīng)用場景提供強(qiáng)大支持。最后還是那句話,開源,是人類歷史上最偉大的社會(huì)創(chuàng)作活動(dòng)!另外,相關(guān)開源資源已文末參考資料中,歡迎查閱。此外,倉庫中,我特意制作了RL和DPO后模型的量化版本,歡迎取用。

責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2025-08-11 09:00:00

2024-09-24 11:01:03

2025-06-11 14:39:50

AILLMMistral

2025-03-05 00:22:00

2025-04-02 09:00:00

模型開源AI

2025-05-28 02:40:00

AdaptThink推理模型AI

2025-06-10 03:30:00

2025-05-30 02:00:00

獎(jiǎng)勵(lì)模型RRMAI

2025-01-21 11:53:53

2025-03-06 10:14:39

2025-06-27 08:40:00

模型推理AI

2025-06-13 01:00:00

人工智能大型推理模型推理模型

2025-05-08 16:45:32

開源Phi-4推理模型

2025-03-06 17:29:21

2016-01-28 10:16:29

ConsulPaaS平臺運(yùn)維

2025-09-15 09:43:33

分層推理模型循環(huán)網(wǎng)絡(luò)推理

2025-03-19 09:20:00

2025-04-08 09:16:00

推理模型AI

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-05-06 09:09:37

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

欧美日韩免费高清一区色橹橹| 26uuu另类欧美| 久久这里有精品| 黄色av电影网站| 男人天堂视频在线观看| 国产日韩av一区二区| 成人在线激情视频| 欧美不卡视频在线观看| 精品久久久中文字幕| 宅男噜噜噜66一区二区66| 欧美国产日韩激情| av在线免费播放网站| 国产一区二区看久久| 国产91精品久久久| 色哟哟一一国产精品| 农村少妇一区二区三区四区五区| 欧美揉bbbbb揉bbbbb| 日本免费a视频| 国产系列在线观看| 国产成a人无v码亚洲福利| 日韩av电影免费观看高清| 婷婷久久综合网| 蜜桃一区二区| 精品国精品自拍自在线| 天天干天天干天天干天天干天天干| 尤物在线网址| 国产精品入口麻豆九色| 精品福利影视| 国产av无码专区亚洲a∨毛片| 免费久久99精品国产自在现线| 不卡中文字幕av| 91精品人妻一区二区三区| 香蕉免费一区二区三区在线观看| 色婷婷av一区二区| 熟女少妇在线视频播放| 91麻豆一二三四在线| 久久久久一区二区三区四区| 国产精品日韩一区二区| japanese国产| 免费成人av资源网| 国产成人精品视频在线观看| 精品亚洲永久免费| 欧美1区视频| 日韩一区二区精品视频| 日本乱子伦xxxx| 日日天天久久| 亚洲成人精品在线| 日韩大尺度视频| 老司机亚洲精品一区二区| 欧美日韩国产色站一区二区三区| www.亚洲天堂网| 国产盗摄——sm在线视频| 亚洲一级电影视频| 免费人成自慰网站| 国产啊啊啊视频在线观看| 亚洲欧美日韩国产成人精品影院| 伊人久久大香线蕉午夜av| www.在线视频.com| 亚洲国产精品ⅴa在线观看| 欧美久久电影| 男女污视频在线观看| 久久综合精品国产一区二区三区| 精品无码久久久久久久动漫| 日本波多野结衣在线| 处破女av一区二区| 国产美女在线精品免费观看| 蜜桃av中文字幕| 不卡免费追剧大全电视剧网站| 国产精品国产三级国产专区53| 成人免费观看在线视频| 成人国产精品免费观看动漫| 国产精品一区二区免费| 日韩一区二区三区不卡| www.色综合.com| 久久伊人资源站| 国产视频三级在线观看播放| 国产精品亲子伦对白| 欧美性视频在线播放| 好了av在线| 一区二区三区在线观看视频| 国产真人做爰毛片视频直播| 欧美动物xxx| 欧美日韩精品久久久| 亚洲综合在线一区二区| 国产一区二区在线视频你懂的| 亚洲黄色在线观看| 在线观看国产精品一区| 欧美成免费一区二区视频| 欧美精品一二区| jizz国产免费| 日韩综合一区二区| 亚洲一区二区久久久久久| 亚洲春色一区二区三区| 91香蕉国产在线观看软件| 水蜜桃亚洲精品| 伊人影院在线视频| 日韩欧美黄色动漫| 91欧美一区二区三区| 欧美福利在线播放网址导航| 搡老女人一区二区三区视频tv| 放荡的美妇在线播放| 国产欧美激情| 成人性生交大片免费看视频直播| 欧洲精品久久一区二区| 久久久久久97三级| 成人一区二区av| 三日本三级少妇三级99| 午夜av免费在线观看| 99精品一区二区三区| 日韩电影天堂视频一区二区| 中文字幕在线三区| 色94色欧美sute亚洲线路一ni| 182午夜视频| 欧美9999| 在线一区二区日韩| 国产第一页在线播放| 老司机精品视频在线| 国产精品亚洲综合| 日本精品一区二区三区在线播放| 婷婷六月综合网| 麻豆网站免费观看| 精品国产精品久久一区免费式| 欧美剧在线观看| 在线免费观看高清视频| 久久伊人中文字幕| 国产黄色片免费在线观看| av在线亚洲一区| 亚洲天堂av网| 日韩黄色在线播放| 成人网页在线观看| 裸体裸乳免费看| 成人日韩av| 亚洲精品永久免费精品| 免费一级片视频| 久久91精品久久久久久秒播| 欧美成人免费在线| www.超碰在线| 精品国产亚洲在线| 欧美黄片一区二区三区| 美女视频免费一区| 日韩精品久久久| 欧美aa视频| 日韩禁在线播放| 天天操天天干视频| 成人午夜伦理影院| 国产91在线亚洲| 日韩精品三级| 久久亚洲精品一区二区| 中文字幕在线观看你懂的| 91免费观看在线| 国产成人精品视频免费看| 日韩欧洲国产| 欧美激情二区三区| 精品区在线观看| 一级日本不卡的影视| 午夜诱惑痒痒网| 欧美1区2区| 99re在线观看| 国产传媒在线观看| 日韩毛片在线看| 国产又粗又爽视频| 国产午夜精品一区二区三区嫩草 | 伊人久久大香伊蕉在人线观看热v 伊人久久大香线蕉综合影院首页 伊人久久大香 | 在线免费视频一区| 日韩不卡一区| 成人午夜小视频| 欧美aaaxxxx做受视频| 亚洲国产97在线精品一区| 国产又爽又黄的视频| 久久综合色婷婷| 成人精品视频一区二区| 青草国产精品| 91久久国产精品| 最新超碰在线| 亚洲精品97久久| 在线免费黄色av| 欧美激情一区二区在线| 国产传媒免费观看| 黄色日韩精品| 欧美亚洲另类久久综合| 欧美jizz18| 欧美另类99xxxxx| 水莓100在线视频| 欧美日本一区二区在线观看| 欧美一区免费观看| 国产精品1区2区| 婷婷五月综合缴情在线视频| 台湾亚洲精品一区二区tv| 国产精品久久久久91| 国产美女在线观看| 亚洲第一页中文字幕| 在线视频精品免费| 一区二区三区鲁丝不卡| 国产肉体xxxx裸体784大胆| 日本伊人色综合网| 中文字幕色呦呦| 亚洲精品3区| 91免费看片网站| 一本大道色婷婷在线| 日韩中文字幕在线精品| 四季av日韩精品一区| 欧美日韩国产在线观看| 四虎永久在线精品| 国产精品久久久久久久久图文区| 特黄特色免费视频| 蜜桃视频在线观看一区| 久操网在线观看| 欧美激情另类| 免费观看成人高| 激情综合婷婷| 国产精品久久久久一区二区| 在线观看免费视频你懂的| 亚洲色图17p| 黄色www视频| 91麻豆精品国产91久久久资源速度 | 国产91对白刺激露脸在线观看| 欧美成人直播| 欧美在线视频二区| 国内自拍欧美| 91福利视频导航| 欧美一级做a| 欧美一区二区三区免费观看| 欧美aaaaaaa| 欧美成人精品三级在线观看| av在线天堂| 亚洲天堂av在线免费| 天堂在线中文| 亚洲电影av在线| 亚洲经典一区二区| 51午夜精品国产| 国产一级精品毛片| 欧美日韩在线一区| 国产午夜视频在线| 亚洲自拍偷拍图区| 日日骚一区二区三区| 亚洲色图视频网| 精品一区二区6| 国产欧美日韩三区| av黄色在线免费观看| 久久亚洲私人国产精品va媚药| 亚洲精品第二页| 国产精品一区在线观看你懂的| 日韩中文字幕a| 久久精品久久99精品久久| 亚洲国产高清av| 蜜桃视频一区二区| 伊人影院综合在线| 九九在线精品视频| 三级黄色片播放| 国产一区二区三区免费看| 奇米777在线视频| 韩国av一区二区| 国产精品久久久久久9999| 激情综合网av| 先锋资源在线视频| 国产91精品在线观看| 亚洲最大视频网| 成人国产免费视频| 蜜桃精品一区二区| 久久精品一区二区| 中国1级黄色片| 中文字幕一区二区5566日韩| 国产午夜精品理论片| 一区二区高清视频在线观看| 国产一级特黄aaa大片| 激情av一区二区| 欧美a视频在线观看| 91福利视频在线| 97成人在线观看| 日韩一区二区三区免费看| 亚洲精品中文字幕成人片| 亚洲国产成人久久| 国产人成在线观看| 久久久精品国产亚洲| av电影在线地址| 国产mv久久久| 国产精品成人**免费视频| yellow视频在线观看一区二区 | 欧美一区二区三区公司| 国精产品一品二品国精品69xx| 日韩av中文字幕在线免费观看| 免费在线毛片| 久久亚洲精品小早川怜子66| 91av久久| 国产精品久久久久久超碰| 高清一区二区| 九色91视频| 久久综合成人| 777av视频| 免费一级片91| 9.1在线观看免费| 国产丝袜美腿一区二区三区| 夫妻性生活毛片| 精品日韩中文字幕| 91tv国产成人福利| 日韩成人高清在线| 男人的天堂在线视频免费观看| 国自产精品手机在线观看视频| 日本在线精品| 国产精品二区三区| 成人综合久久| 国模吧无码一区二区三区| 国产一区高清在线| 欧美另类z0zx974| 亚洲一区二区av电影| 一级黄色片视频| 精品丝袜一区二区三区| 在线看三级电影| 国产精品美女主播| 青青一区二区| 屁屁影院ccyy国产第一页| 日本最新不卡在线| 中文字幕日韩三级片| 亚洲人妖av一区二区| 中文亚洲av片在线观看| 日韩精品福利在线| 免费看电影在线| 成人免费黄色网| 久操精品在线| 成人黄色av片| 国产成人h网站| 久久久精品少妇| 欧美性猛交xxxx乱大交退制版| 男人天堂av网| 欧美国产极速在线| 精品久久亚洲| 欧美少妇一级片| 免费精品99久久国产综合精品| free性中国hd国语露脸| 亚洲一区二区三区美女| 99热这里只有精品99| 三级精品视频久久久久| 高清亚洲高清| 色姑娘综合网| 日韩成人午夜精品| brazzers精品成人一区| 欧美日韩国产一区二区| 国内爆初菊对白视频| 欧美肥老妇视频| 美女日韩一区| 欧美 日韩 国产精品| 国产乱码精品1区2区3区| 日韩在线一卡二卡| 91精品国产综合久久婷婷香蕉| 久久77777| 91免费精品国偷自产在线| 偷拍欧美精品| 欧美日韩精品区别| √…a在线天堂一区| 一二区在线观看| www.国产一区| 国产精品一区二区三区www| 天天爱天天做天天操| 国产一区二区0| 免费人成视频在线| 欧美精品一区二区三| 极品美鲍一区| 欧美精品一区三区在线观看| 日韩精品电影在线观看| аⅴ天堂中文在线网| 欧美久久高跟鞋激| 18+激情视频在线| 激情视频在线观看一区二区三区| 亚洲美女黄网| 蜜桃精品成人影片| 欧美性感一区二区三区| 色综合久久影院| av蓝导航精品导航| 99精品国产在热久久| 人妻少妇无码精品视频区| 欧美日韩成人综合| 日本高清在线观看| 精品国产免费一区二区三区 | 99热在这里有精品免费| www.中文字幕在线观看| 亚洲一级免费视频| 国产日韩在线观看视频| 青青草成人免费在线视频| xf在线a精品一区二区视频网站| 中文字幕在线播放日韩| 欧美国产日本在线| 国产欧美日韩精品一区二区免费| 亚洲xxx在线观看| 亚洲伊人伊色伊影伊综合网| 日本1级在线| 成人性生交大片免费看小说| 91久久综合| 亚洲一级黄色录像| 日韩精品资源二区在线| 中文在线免费二区三区| 中文字幕av导航| 91在线播放网址| 国产精品久久久久久久一区二区| 久久久久久有精品国产| 精品福利久久久| jjzz黄色片| 欧美色视频在线| 欧美1—12sexvideos| 青青影院一区二区三区四区| 国产成人在线观看|