精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型推理學(xué)習(xí)新范式!ExGRPO框架:從盲目刷題到聰明復(fù)盤

人工智能
實驗結(jié)果顯示,與傳統(tǒng)的在線策略RLVR(基于可驗證獎勵的強化學(xué)習(xí))方法相比,ExGRPO在不同基準(zhǔn)上均帶來了一定程度的性能提升。尤其在一些極具挑戰(zhàn)性的任務(wù)(如AIME數(shù)學(xué)競賽題)上,提升效果更為明顯,證明了ExGRPO在攻克復(fù)雜推理難題上的有效性。

大模型在強化學(xué)習(xí)過程中,終于知道什么經(jīng)驗更寶貴了!

來自上海人工智能實驗室、澳門大學(xué)、南京大學(xué)和香港中文大學(xué)的研究團隊,最近提出了一套經(jīng)驗管理和學(xué)習(xí)框架ExGRPO——

通過科學(xué)地識別、存儲、篩選和學(xué)習(xí)有價值的經(jīng)驗,讓大模型在優(yōu)化推理能力的道路上,走得更穩(wěn)、更快、更遠(yuǎn)。

圖片

實驗結(jié)果顯示,與傳統(tǒng)的在線策略RLVR(基于可驗證獎勵的強化學(xué)習(xí))方法相比,ExGRPO在不同基準(zhǔn)上均帶來了一定程度的性能提升。

尤其在一些極具挑戰(zhàn)性的任務(wù)(如AIME數(shù)學(xué)競賽題)上,提升效果更為明顯,證明了ExGRPO在攻克復(fù)雜推理難題上的有效性。

而且該研究也揭示了一些有趣的現(xiàn)象,比如滾雪球效應(yīng)。

不過在展開之前,我們先來回答一個核心問題——

大模型推理的下一步,為什么我們需要“經(jīng)驗驅(qū)動”的訓(xùn)練方法?

2025年初以來,賦能大模型推理能力的技術(shù)路線以基于可驗證獎勵的強化學(xué)習(xí)(Reinforcement Learning from Verifiable Rewards)為主導(dǎo)。

簡單來說,就是讓模型像個學(xué)生一樣,不斷地“刷題”(生成推理步驟),然后由“判卷老師”(獎勵模型)來打分,模型根據(jù)分?jǐn)?shù)高低調(diào)整自己的“解題思路”。

但RLVR存在一個天然缺陷:經(jīng)驗浪費

在標(biāo)準(zhǔn)的RLVR訓(xùn)練中,模型生成的推理軌跡(Rollouts)只會被使用一次,之后就被丟棄。這意味著模型從來不會回頭復(fù)盤,甚至不記得自己是如何答對或答錯的。

以現(xiàn)實世界作比,它們像一個只做新題、從不復(fù)習(xí)的學(xué)生。每當(dāng)模型做完一道題,無論這道題的解法多么精妙、多么有啟發(fā)性,都可能都會在一次參數(shù)更新后,把這次寶貴的“解題經(jīng)驗”忘得一干二凈。

這種“學(xué)完就忘”的模式,由于Rollout代價昂貴不僅導(dǎo)致了計算資源浪費,也讓訓(xùn)練過程變得非常不穩(wěn)定。

因此,學(xué)會“溫故而知新”,讓模型根據(jù)“錯題本”,把每一次寶貴的成功經(jīng)驗都內(nèi)化為自己的能力對訓(xùn)練效率和能力提升都至關(guān)重要。

值得注意的是,強化學(xué)習(xí)著名學(xué)者David Silver和Richard S. Sutton在《Welcome to the Era of Experience》的Position Paper中提到:

人類數(shù)據(jù)正在用盡,經(jīng)驗將是下一個超級數(shù)據(jù)源,是能夠為AI帶來能力提升的下一個突破口。

但是,一個看似簡單卻被忽視的問題是:

既然經(jīng)驗這么重要,那么什么樣的經(jīng)驗才值得反復(fù)學(xué)習(xí)?在大模型全面鋪開應(yīng)用的當(dāng)下,面對經(jīng)驗這個超級數(shù)據(jù)源的增長,其量級和高復(fù)雜性之高是我們不得不考慮的因素。

針對這一挑戰(zhàn),ExGRPO框架應(yīng)運而生。

圖片圖1. 主流人工智能范式的簡要時間軸示意圖。縱軸表示該領(lǐng)域總投入和計算資源中專注于強化學(xué)習(xí)(RL)的比例。截取自David Silver, Richard S. Sutton. Welcome to the Era of Experience.

什么樣的“經(jīng)驗”才是好經(jīng)驗?

在設(shè)計一個“復(fù)習(xí)”系統(tǒng)前,我們首先要搞清楚一個根本問題:

對一個正在學(xué)習(xí)推理的模型來說,什么樣的“解題經(jīng)驗”才是最有價值的?是不是所有做對的題目都值得反復(fù)回味?

為了找到答案,該工作進行了一系列有趣的探索性實驗(見圖2),并發(fā)現(xiàn),一份“高質(zhì)量”的經(jīng)驗,其價值體現(xiàn)在兩個關(guān)鍵維度上:問題的難度解題路徑的質(zhì)量

問題的甜蜜點:中等難度的問題

作者把模型在訓(xùn)練中遇到的問題,根據(jù)它當(dāng)下的“正確率”動態(tài)地分成了三類:簡單題(正確率>75%)、中等題(25%-75%)和難題(<25%)。

然后,分別只用這三類問題來進行On-Policy RLVR訓(xùn)練模型。

結(jié)果一目了然:只刷“中等難度”問題的模型,最終性能提升最大

這也符合一般直覺,簡單題模型通常已經(jīng)掌握了,反復(fù)練習(xí)邊際效益遞減,容易“學(xué)廢”;對于難題,遠(yuǎn)超模型當(dāng)前能力,強行學(xué)習(xí)容易讓模型“受挫”,產(chǎn)生胡亂猜測的壞習(xí)慣。

而中等難度的題恰好處于模型的最近發(fā)展區(qū),既有挑戰(zhàn)性,又能通過努力解決,是學(xué)習(xí)效率最高的甜蜜點。

解題路徑的“自信度”:低熵軌跡

另一方面,同樣是做對一道題,解題過程(下文也稱為軌跡)的質(zhì)量也千差萬別。

有的解法思路清晰、一步到位;有的則繞來繞去、充滿了不確定性,甚至可能是蒙對的。如何量化這種解題思路的質(zhì)量呢?

外部的強模型也許是一個選擇,但是在訓(xùn)練中使用代價過高并且會拖慢速度。

為了找到可靠的在線代理指標(biāo),作者以較強能力的Qwen3-32B模型作為參考:評價推理過程的對錯,并看看有沒有內(nèi)源性的在線指標(biāo)能夠和外部Judge的判斷正相關(guān)。

在此,作者發(fā)現(xiàn)推理軌跡的Token平均熵是一個優(yōu)秀的指標(biāo),在所有做對的題目中,那些推理過程邏輯更正確的解法,其對應(yīng)的熵值顯著更低。

進一步地,高熵軌跡很多時候只是幸運的瞎猜,反復(fù)學(xué)習(xí)這些軌跡不僅沒有幫助,反而可能污染模型的邏輯能力。

圖片圖2:模型經(jīng)驗=問題+對應(yīng)推理過程。什么才是“好問題”和“好推理過程”? (a) 使用中等難度問題訓(xùn)練的模型性能最佳。(b) 邏輯正確的推理過程通常表現(xiàn)出更低的熵值。 (c) 中等難度推理正確的熵值也更密集于低熵值區(qū)域。

這樣符合我們的認(rèn)知直覺:在人類學(xué)習(xí)中,難度適中的題目、邏輯清晰的解法,往往是最高效的學(xué)習(xí)材料。太簡單的題目讓人停滯不前,太難的題目則令人無從下手。

ExGRPO框架: 為模型打造的“高價值錯題本+溫習(xí)系統(tǒng)”

基于上述洞見,作者設(shè)計了ExGRPO框架,包含了兩個核心部件:經(jīng)驗管理和混合經(jīng)驗優(yōu)化。

圖片△圖3:ExGRPO框架概覽:經(jīng)驗管理 + 策略優(yōu)化

經(jīng)驗管理:精挑細(xì)選,分類歸檔

作者將模型經(jīng)驗定義為問題+對應(yīng)推理過程,分兩個層級進行經(jīng)驗的管理和挑選,具體它分為三步:

1、經(jīng)驗收集:ExGRPO會建立一個“經(jīng)驗回放池”,像一個巨大的“錯題本”,專門收集模型在訓(xùn)練過程中所有成功的推理案例。這也是傳統(tǒng)強化學(xué)習(xí)和先前相關(guān)工作中均擁有的基礎(chǔ)機制。

2、經(jīng)驗劃分與存儲:根據(jù)每個問題最新的“在線正確率”,將經(jīng)驗池中的問題動態(tài)地劃分到不同的“難度分區(qū)”里。這就像給錯題本按章節(jié)和難度進行分類。這樣,所有經(jīng)驗都被貼上了“簡單”、“中等”、“困難”的標(biāo)簽,管理起來一目了然。

同時,為了防止模型在簡單問題上“刷分”而產(chǎn)生過擬合,ExGRPO還擁有一個“退休機制”(Retired Set),將模型已經(jīng)完全掌握(例如連續(xù)多次全部成功解答)的問題移出學(xué)習(xí)隊列,讓模型始終聚焦于更具挑戰(zhàn)性的任務(wù)。

3、經(jīng)驗篩選:按照之前分析實驗得到的啟示和洞見,ExGRPO從兩個層次挑選經(jīng)驗:

  • 問題篩選:利用高斯分布概率模型,有偏地優(yōu)先從中等難度的分組中抽取問題。這樣能確保模型總是在學(xué)習(xí)效率最高的甜蜜點上。
  • 軌跡篩選:對于選出的問題,如果它歷史上有多個成功解法,只挑選出當(dāng)前模型看來熵最低的那一個,也就是最篤定清晰的那個解法。

通過這套精細(xì)化管理,確保了每次復(fù)習(xí)的都是最高質(zhì)量的黃金經(jīng)驗。

混合策略優(yōu)化目標(biāo):溫故而知新

選好了復(fù)習(xí)材料,接下來就是如何復(fù)習(xí)經(jīng)驗了。

ExGRPO采用了一種混合策略的優(yōu)化目標(biāo),除了對重要性采樣進行修正外,在每一次訓(xùn)練迭代中,Mini-Batch中一部分計算資源用于讓模型探索全新的問題(On-policy),另一部分則用于學(xué)習(xí)從經(jīng)驗池中精心篩選出的經(jīng)驗(Off-policy)。

巧妙地平衡了探索新知(On-Policy Exploration)和復(fù)習(xí)舊識(Experience Exploitation)。

圖片圖4:ExGRPO混合策略優(yōu)化目標(biāo)。ρ代表經(jīng)驗在Mini-Batch優(yōu)化中的混合比例。

這種“一半時間學(xué)新,一半時間復(fù)習(xí)”的模式,讓模型既能不斷拓展認(rèn)知邊界,又能持續(xù)鞏固和內(nèi)化已有的成功經(jīng)驗,從而在保證訓(xùn)練穩(wěn)定性的同時,極大地提升了學(xué)習(xí)效率。

此外,作者還引入了策略塑形(Policy Shaping)機制,確保模型在復(fù)習(xí)過往成功經(jīng)驗時,不會變得過于僵化,喪失探索創(chuàng)新的能力。

ExGRPO實驗結(jié)果和分析:更強、更穩(wěn)、更高效

作者在6個不同規(guī)模(1.5B到8B)和架構(gòu)(Qwen、Llama)的模型(Base、Instruct)上,對ExGRPO進行了全面的測試,涵蓋了從AIME、MATH等數(shù)學(xué)推理的 benchmark,到GPQA、MMLU-Pro等通用推理benchmark。

與傳統(tǒng)的在線策略RLVR方法相比,平均所有模型和測試集,ExGRPO相對于On-Policy方法(Dr. GRPO),分別帶來了+3.5和+7.6個點的分布內(nèi)、分布外性能提升。

尤其在一些極具挑戰(zhàn)性的任務(wù)(如AIME數(shù)學(xué)競賽題)上,提升效果更為明顯,證明了ExGRPO在攻克復(fù)雜推理難題上的有效性。

圖片△表1:ExGRPO在多個數(shù)學(xué)與通用推理基準(zhǔn)上的性能表現(xiàn)

圖片△圖5:ExGRPO在不同模型架構(gòu)和尺寸上的泛化能力

  • 賦能強模型

即使是在已經(jīng)很強的模型(如經(jīng)過外部R1軌跡數(shù)據(jù)作為RLVR引導(dǎo)的LUFFY)上進行持續(xù)學(xué)習(xí),ExGRPO依然能帶來穩(wěn)定的性能增益,而標(biāo)準(zhǔn)的在線RL方法反而會導(dǎo)致性能下降。

  • “救活”弱模型

此外,作者發(fā)現(xiàn)對于像Llama-3.1 8B Base基模,由于其初始推理能力較弱,標(biāo)準(zhǔn)的On-Policy強化學(xué)習(xí)方法根本無法進行有效訓(xùn)練,很快就會訓(xùn)練崩潰。

而ExGRPO憑借其經(jīng)驗回放機制,能夠捕捉到早期偶然的lucky hits,并將其作為寶貴的學(xué)習(xí)信號反復(fù)利用,最終成功地將模型“救活”并穩(wěn)定地提升其性能。

圖片圖6:在Llama-3.1 8B訓(xùn)練過程中On-Policy與ExGRPO的學(xué)習(xí)動態(tài)對比。ExGRPO能夠穩(wěn)定訓(xùn)練并獲得更高的獎勵,而On-Policy則容易出現(xiàn)訓(xùn)練崩潰。

此外,該研究也揭示了一些有趣的現(xiàn)象,比如滾雪球效應(yīng)。高熵的經(jīng)驗中,經(jīng)常包含著一些看似正確但邏輯上有瑕疵的步驟(比如在數(shù)學(xué)題里濫用代碼塊來黑箱計算)。

如果讓模型反復(fù)學(xué)習(xí)這些經(jīng)驗,就會像滾雪球一樣,讓錯誤的推理習(xí)慣根深蒂固。ExGRPO的經(jīng)驗篩選機制,切斷了這種錯誤學(xué)習(xí)的路徑。

迎接“經(jīng)驗即媒介”的AI新時代

正如強化學(xué)習(xí)領(lǐng)域的先驅(qū)David Silver和Richard Sutton所言:

我們正處于一個新時期的風(fēng)口浪尖,在這個時期,經(jīng)驗將成為能力提升的主要媒介。

團隊表示,ExGRPO的核心貢獻,是為模型推理能力的提升,提供了一套系統(tǒng)性的、基于經(jīng)驗的學(xué)習(xí)框架。有理由相信, Principled Experience Management(有原則的經(jīng)驗管理)將成為未來構(gòu)建更強大、更高效的AI模型訓(xùn)練生態(tài)中的關(guān)鍵一環(huán)。

它不再讓寶貴的成功經(jīng)驗付諸東流,而是通過智能地識別、管理和重放高價值經(jīng)驗,像錯題本一般,讓模型真正擁有了“溫故而知新”的能力。

這不僅顯著提升了訓(xùn)練的效率和穩(wěn)定性,也為我們打開了通往更強大、更通用的人工智能的一扇新窗。

論文:https://arxiv.org/pdf/2510.02245
Code:https://github.com/ElliottYan/LUFFY/tree/main/ExGRPO
模型:https://huggingface.co/collections/rzzhan/exgrpo-68d8e302efdfe325187d5c96

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2025-06-09 09:32:35

2025-06-26 09:06:59

2025-07-16 10:42:32

2011-07-05 17:45:07

PHP框架

2025-05-30 02:00:00

獎勵模型RRMAI

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-06-13 08:45:00

數(shù)據(jù)模型可視化

2025-10-21 09:06:00

2025-10-28 08:46:00

2025-11-04 01:43:00

循環(huán)語言模型架構(gòu)

2025-04-30 16:48:07

2025-10-11 09:23:28

RLPT強化學(xué)習(xí)預(yù)訓(xùn)練數(shù)據(jù)

2025-05-16 08:44:01

2023-06-09 07:29:03

模型文本document

2022-05-25 10:28:35

模型AI

2024-09-04 18:22:11

2022-11-03 14:13:52

強化學(xué)習(xí)方法

2024-02-01 08:34:30

大模型推理框架NVIDIA

2025-06-10 03:30:00

2020-10-30 10:23:14

機器學(xué)習(xí)趨勢范式
點贊
收藏

51CTO技術(shù)棧公眾號

日本大胆人体视频| 亚洲一区免费网站| 亚洲天堂最新地址| 四虎精品在线观看| 午夜欧美在线一二页| 欧美二级三级| av中文字幕免费在线观看| 99精品国产一区二区青青牛奶 | www.亚洲自拍| 91在线三级| 91丝袜美腿高跟国产极品老师| 国产精品久久久久久av| 久久精品国产亚洲av高清色欲| 国产一区二区三区网| 日韩欧美在线网站| 国产xxxxx在线观看| 伊人影院蕉久影院在线播放| 国产亚洲精久久久久久| 操一操视频一区| 一区二区三区亚洲视频| 欧美专区在线| 欧美激情综合亚洲一二区| 国产又粗又猛又爽又黄的视频四季| 国产精品1区2区3区4区| 国模冰冰炮一区二区| 亚洲黄色免费电影| 亚洲国产欧美日韩| 日夜干在线视频| 国产成人福利片| 国产日韩精品在线| 东京热一区二区三区四区| 欧美日韩国产亚洲一区| 日韩一级裸体免费视频| caopeng视频| 天堂av一区二区三区在线播放 | 日韩av片专区| 澳门av一区二区三区| 欧美视频在线观看 亚洲欧| 9191国产视频| 97影院秋霞午夜在线观看| 国产欧美日韩综合| 欧美日韩一区二区三区在线观看免| 丰满少妇高潮在线观看| 国产98色在线|日韩| 91影视免费在线观看| 91久久久久久久久久久久| 三级不卡在线观看| 日韩免费av一区二区| 国产成人精品片| 99精品热6080yy久久| 国产综合在线视频| 国产一级二级三级| 国内精品福利| 久久久亚洲国产| 中文字幕一区二区三区精品| 日韩视频三区| 欧美在线影院在线视频| 国产精品va无码一区二区三区| 国产欧美精品| 日韩av大片在线| 国产在线一级片| 免费人成在线不卡| 成人动漫网站在线观看| 99热这里只有精品5| 国产精品亚洲а∨天堂免在线| 999精品视频一区二区三区| 精品人妻久久久久一区二区三区| 国产精品亚洲视频| 国产一区免费观看| 日本一区视频| 国产精品人人做人人爽人人添| 在线视频91| 美女精品导航| 色婷婷激情综合| 亚洲xxx在线观看| 日韩在线观看中文字幕| 精品国产欧美一区二区| 一本加勒比北条麻妃| 国产探花一区在线观看| 久久天天躁狠狠躁老女人| 久久国产在线观看| 蜜桃视频一区| 亚洲一区精品电影| 亚洲人成色777777老人头| 国产网站一区二区三区| 国产人妻互换一区二区| 午夜影院在线播放| 欧美日韩国产综合久久 | 97aⅴ精品视频一二三区| 欧美重口乱码一区二区| 男人的天堂在线视频免费观看| 一区二区免费看| 亚洲中文字幕无码不卡电影| 日韩一区二区三区四区五区| 亚洲福利视频二区| 欧美黄色高清视频| 在线精品视频在线观看高清| 7777精品久久久久久| 亚洲天堂中文网| av中文字幕不卡| 亚洲精品tv久久久久久久久| 波多野结衣精品| 欧美视频精品在线观看| 在线精品视频播放| 日韩电影免费网站| 国内精品久久久久久影视8| 一本大道伊人av久久综合| 99久久99久久久精品齐齐| 中文精品一区二区三区| 国产精品粉嫩| 欧美r级在线观看| 人妻熟人中文字幕一区二区| 亚洲在线日韩| 不卡日韩av| 欧美成人二区| 欧美私模裸体表演在线观看| 日本五十肥熟交尾| 自拍欧美日韩| 成人国产精品久久久久久亚洲| 亚洲av成人无码网天堂| 亚洲精品国产a| 午夜一区二区视频| 久久99国内| 欧美一乱一性一交一视频| 国产香蕉在线观看| 有坂深雪av一区二区精品| 国产一二三四在线视频| 九九热线有精品视频99| 韩国三级电影久久久久久| 精品国产亚洲av麻豆| 最新国产精品久久精品| 三上悠亚av一区二区三区| 你懂的一区二区三区| 欧美亚洲另类制服自拍| 免费观看a视频| 亚洲免费av高清| 国产一级免费大片| 999国产精品999久久久久久| 国产精品你懂得| 国产主播福利在线| 91久久精品网| 亚洲女优在线观看| 狂野欧美一区| 日韩欧美亚洲区| 日韩成人亚洲| 日韩在线免费av| 91在线精品入口| 亚洲欧洲av在线| 人妻少妇偷人精品久久久任期| 91精品一区二区三区综合| 成人av资源在线播放| 麻豆免费在线视频| 正在播放一区二区| 视频这里只有精品| 国产传媒日韩欧美成人| 国产成人亚洲综合无码| av在线亚洲色图| 久久久久久久久久久免费 | 国产69精品久久久久99| 性感美女一级片| 福利二区91精品bt7086| 18禁裸乳无遮挡啪啪无码免费| 久久国产66| 亚洲一区二区三区免费观看| 国产精品亚洲一区二区在线观看| 欧美成在线视频| 人妻一区二区三区| 色久优优欧美色久优优| 久久久久亚洲AV成人无在| 韩国一区二区视频| 热久久最新地址| 亚洲精华一区二区三区| 国产欧美日韩综合精品| 污视频免费在线观看| 日韩成人在线网站| 亚洲天堂视频在线| 亚洲网友自拍偷拍| 中文字幕在线看高清电影| 久久99国产精品麻豆| 国产精彩视频一区二区| 国产伦一区二区三区| 3d动漫啪啪精品一区二区免费 | 国产精品我不卡| 日韩伦理三区| 久久国产精品免费视频| 亚洲欧美日韩综合在线| 欧美日韩另类一区| 国产性一乱一性一伧一色| 久久久精品日韩欧美| 中文字幕在线视频一区二区| 99re国产精品| 熟女视频一区二区三区| 欧美日韩看看2015永久免费 | 欧美人与牛zoz0性行为| 成人性生交大片免费看视频直播| 超黄网站在线观看| 中国人与牲禽动交精品| 欧性猛交ⅹxxx乱大交| 欧美亚洲一区三区| 国产成人无码一区二区三区在线| 国产精品传媒在线| 亚洲av无码一区二区三区网址| 极品尤物av久久免费看| 日韩精品视频久久| 在线观看一区视频| 中日韩在线视频| 九九亚洲视频| 日本不卡123| 国产ts人妖一区二区三区| 色呦呦在线免费观看| 一区二区亚洲欧洲国产日韩| 人妻精品一区二区三区| 欧美日韩久久不卡| 国产精品久免费的黄网站| 亚洲老妇xxxxxx| 久久精品国产亚洲AV成人婷婷| www激情久久| 蜜臀av粉嫩av懂色av| 国产揄拍国内精品对白| 黄色三级视频在线| 亚洲永久免费精品| 久艹视频在线免费观看| 91精品一区二区三区综合在线爱| 无码免费一区二区三区免费播放| 精品网站aaa| 99理论电影网| 精品一区二区三区视频在线播放| 国产精品美乳在线观看| 欧美大胆成人| 青青久久aⅴ北条麻妃| 国产三级伦理在线| 久久成人一区二区| 精品51国产黑色丝袜高跟鞋| 少妇高潮 亚洲精品| 国产高清自拍视频在线观看| 亚洲精品中文字幕av| 午夜国产在线视频| 亚洲韩国青草视频| 污污视频在线免费看| 亚洲国产精品久久久久秋霞蜜臀| 国产 欧美 自拍| 亚洲成人a级网| 成人午夜免费在线观看| 欧美成人女星排名| 亚洲黄色片视频| 欧亚av在线| 精品国内自产拍在线观看| 91av资源在线| 日韩亚洲成人av在线| 欧美成年黄网站色视频| 久久夜色撩人精品| gogo在线观看| 欧美极品xxxx| 末成年女av片一区二区下载| 国语自产精品视频在免费| av第一福利在线导航| 久久免费视频这里只有精品| 两个人看的在线视频www| 45www国产精品网站| 欧美三级网址| 国产精品久久久久久久久久久新郎 | 亚洲精品在线a| 国产精品免费看一区二区三区| 国产三级精品三级在线观看国产| 精品亚洲第一| 欧美日韩激情在线一区二区三区| 国产中文字幕精品| 欧美精品一区二区三区三州| 国产人成精品一区二区三| 人妻少妇被粗大爽9797pw| 天堂蜜桃91精品| 亚洲va在线va天堂va偷拍| 国产99久久久国产精品潘金网站| 美女露出粉嫩尿囗让男人桶| aa级大片欧美| 成熟人妻av无码专区| 亚洲天堂免费看| 日本午夜小视频| 欧美性色19p| 国产又爽又黄免费软件| 精品免费国产一区二区三区四区| 天天舔天天干天天操| 一区二区亚洲精品国产| 欧美videos另类精品| 国产91精品久久久久久久| 狂野欧美性猛交xxxx| 91久久精品国产91久久性色tv| 日韩精选在线| 中文字幕一区二区三区在线乱码 | 久久a爱视频| 日本一区二区三区免费看| 91精品国产成人观看| 日韩中文字幕在线视频观看| 九色综合国产一区二区三区| 丰满岳乱妇一区二区 | 九九九在线视频| 欧洲精品在线观看| 亚洲欧美黄色片| 国产亚洲成精品久久| av在线加勒比| 国产深夜精品福利| 蜜桃视频欧美| 免费极品av一视觉盛宴| 蜜桃视频一区二区三区| 一级特级黄色片| 亚洲欧美国产毛片在线| 黄色污污视频软件| 亚洲成人精品av| 黄色成人在线| 国产精品视频永久免费播放 | 欧美一区二区三区电影在线观看 | 1000精品久久久久久久久| 国产尤物在线视频| 日韩一级大片在线| 日本成人网址| 国产精品444| 偷拍自拍亚洲色图| 国产a级黄色大片| 久久99国产精品久久99果冻传媒| 波多野结衣片子| 狠狠躁夜夜躁人人躁婷婷91 | 亚洲天堂日韩电影| www.youjizz.com在线| 亚洲伊人成综合成人网| 99久久精品费精品国产风间由美| 亚洲精品乱码久久久久久自慰| 99久久久无码国产精品| 精品亚洲永久免费| 日韩精品一区二区三区中文不卡 | 午夜精品123| 亚洲精品喷潮一区二区三区| 美女久久久久久久| 中文字幕日韩亚洲| 亚洲综合网中心| 麻豆国产欧美一区二区三区| 日本一区二区视频在线播放| 色呦呦国产精品| 免费在线观看一级毛片| 欧洲亚洲在线视频| 夜夜躁狠狠躁日日躁2021日韩| 97超碰人人澡| www.99精品| 日韩欧美一级视频| 亚洲美女av电影| 欧美电影免费观看| 欧美一级日本a级v片| 丝袜诱惑亚洲看片| wwwww黄色| 欧美日韩在线观看一区二区 | 久久久久久久久91| 免费成人三级| 欧美丰满熟妇bbbbbb百度| www.欧美.com| 神马久久久久久久| 一本久久综合亚洲鲁鲁| 国产精品.xx视频.xxtv| 一区二区三区的久久的视频| 国内精品伊人久久久久av影院| 疯狂试爱三2浴室激情视频| 欧美一区二区播放| 丁香花在线影院| 精品乱子伦一区二区三区| 久久综合中文| 成年人二级毛片| 欧美www视频| 亚洲欧洲美洲av| 亚洲国产欧美日韩| 国产黄色91视频| 国产一区二区三区影院| 亚洲热线99精品视频| 日韩av黄色| 国产真人做爰毛片视频直播| 久久这里只有精品6| 亚洲在线视频播放| 欧美激情中文网| 欧美精品系列| 杨幂一区二区国产精品| 精品久久久久久久久久久| wwwxxx在线观看| 高清国产在线一区| 日韩激情中文字幕| 青草影院在线观看| 亚洲色图25p| 欧美欧美在线| 免费黄色特级片| 一二三四区精品视频| 久久米奇亚洲| 91一区二区三区| 日本大胆欧美人术艺术动态| 国产大学生自拍| 亚洲视频欧美视频| 亚洲一区二区免费在线观看| 成人在线激情网| 一区二区三区.www| 国产黄在线播放| 精品伊人久久大线蕉色首页| 久久国产欧美日韩精品| 国产毛片aaa| 欧美另类在线观看| 欧美熟乱15p|