精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

揭秘DeepSeek R1-Zero訓練方式,GRPO還有極簡改進方案

人工智能 新聞
其實大模型在DeepSeek-V3時期就已經「頓悟」了?

DeepSeek-V3-Base 在強化學習(RL)調優之前就已經展現出「頓悟時刻」?RL 調整中不斷增加的輸出長度可能是由于 GRPO 中的 BIAS 造成的?

近日,來自 Sea AI Lab、新加坡國立大學、新加坡管理大學的研究人員研究了預訓練特性影響 RL 性能的原理,發表了一篇名為《Understanding R1-Zero-Like Training: A Critical Perspective》的研究報告。

分析表明,DeepSeek-V3-Base 已經展現出「頓悟時刻」,而 Qwen2.5 基礎模型即使沒有提示模板也表現出強大的推理能力,這表明存在潛在的預訓練偏差。此外,作者還在群體相對策略優化(GRPO)中發現了優化偏差,它在訓練期間人為地增加了響應長度(尤其是對于錯誤輸出)。

為解決這個問題,研究人員引入了 Dr. GRPO,這是一種無偏優化方法,可在保持推理性能的同時提高 token 效率。利用這些見解,作者提出了一種簡化的 R1-Zero 方案,使用 7B 基礎模型在 AIME 2024 上實現了 43.3% 的準確率,建立了新的 SOTA 水準。

paper.png

項目鏈接:https://github.com/sail-sg/understand-r1-zero

介紹

最近一段時間,人工智能領域正在迎來變革。DeepSeek-R1-Zero 通過引入類似 R1-Zero 的訓練范式徹底改變了大語言模型(LLM) 后訓練的流程:直接將 RL 應用于基礎 LLM,而不依賴任何監督微調(SFT) 作為初步步驟。

這種新范式因其簡單性和已證明的 RL 擴展現象而具有吸引力:模型推理能力隨著模型響應長度的不斷增加而提高。這種現象還伴隨著「頓悟時刻」(Aha Moment),此時模型展現出了人類一樣的自我反思等新興技能,讓人們見證了強化學習的力量和美感。

在本文中,研究人員旨在通過研究兩個基本組成部分來理解類似 R1-Zero 的訓練:基礎模型和 RL。

在第一部分中,他們研究了基礎模型的各種屬性,重點關注 Qwen2.5 模型系列 ,該模型最近被用于重現 R1-Zero ,以及 DeepSeek-V3-Base,真正的 R1-Zero 模型是從該模型中經過 RL 調整的。

在第二部分中,人們確定了 GRPO 優化中的偏差,這可能會導致錯誤響應逐漸變長。為此,研究人員提出了一個簡單的解決方案,可以在保持推理性能的同時提高 token 效率,稱為 Dr. GRPO(GRPO Done Right)(圖 1 中顯示)。

f1.png

為了理解 R1-Zero 上的訓練方式,研究人員仔細觀察了兩個核心部分:基礎模型和強化學習,隨后重點介紹了其發現。

他們對基礎模型和強化學習的分析表明,實現類似 R1-Zero 訓練可采用極簡方案:利用無偏的 Dr. GRPO 算法,以 Qwen-Math 模板對 Qwen2.5-Math-7B 模型進行強化學習調優,使用 MATH 3-5 級問題作為訓練數據,僅用 8 塊 A100 GPU 訓練 27 小時,就實現了最先進的性能(圖 2 展示)。

image.png

該研究的主要觀點總結如下:

  • 模板對于讓基礎模型回答問題(而非完成句子)至關重要。此外,所有基礎模型在強化學習之前都已具備數學解題能力;
  • 有趣的是,Qwen-2.5 基礎模型在不使用模板時立即獲得約 60% 的提升,這讓研究人員假設它們可能在訓練模型時對拼接的問答文本進行了預訓練;
  • 幾乎所有基礎模型都已表現出「頓悟時刻」,包括 DeepSeek-V3-Base;
  • 新方法 Dr. GRPO 有效修復了 GRPO 在優化中的偏差,實現了更好的標記效率;
  • 模型與模板不匹配會在強化學習重建之前破壞推理能力;
  • 在 Llama-3.2-3B 上進行數學預訓練可提高其強化學習的上限。

基礎模型分析

研究人員對廣泛的基礎模型進行了審查,包括 Qwen-2.5 系列、Llama-3.1 和 DeepSeek 系列,向它們提出從 MATH 訓練集中抽取的 500 個問題,并分析它們的回答。

R1-Zero 訓練能力:模板構建探索性基礎策略

由于從基礎模型進行訓練是 R1-Zero 類范式的基本設置,研究人員首先研究廣泛使用的開源基礎模型,這些模型通常是為了句子補全而訓練的。研究人員探索了是否可以通過適當的模板有效地激發其問答能力,從而作為問答基礎策略 。

在實驗設置中,研究人員納入了 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-7B、Llama-3.1-8B、DeepSeek-Math-7B 和 DeepSeek-V3-Base-685B 進行實驗。

對于每個模型,他們首先應用無模板來獲取模型回答,然后讓 GPT-4o-mini 判斷模型回答是處于問答格式(無論質量如何)還是處于句子補全模式。他們記錄傾向于回答問題的回答百分比作為指標。然后,他們分別應用 R1 模板和 Qwen-Math 模板來獲取模型回答,并根據該指標確定每個模型最合適的模板。最后,使用相應模板評估每個模型的 pass@8 準確度,以判斷基礎策略是否能夠探索出有益于強化學習(RL)改進的軌跡。

在結果呈現中,圖 3 中的左圖顯示了基礎模型(無論是否使用模板)對所提供問題的回答能力。

f3.png

研究人員觀察到,Llama 和 DeepSeek 模型通過使用適當的模板(R1 模板)都提高了回答能力。然而,Qwen2.5 模型在不使用模板時表現最佳(回答率為 100%)。這一有趣的特性激發了他們進一步研究的動力。同時,無模板時最低的回答率表明 DeepSeek-V3-Base 是一個幾乎純粹的基礎模型。這一觀察結果促使他們探討像 DeepSeekV3-Base 這樣的純粹基礎模型是否表現出 「頓悟時刻」的現象。

圖 3 的中圖顯示了不同基礎模型(使用模板)在不同采樣溫度下的 pass@8 準確度。該指標可以作為基礎策略探索能力的指標。例如,如果基礎策略甚至無法采樣出一條通向正確最終答案的軌跡,那么由于沒有獎勵信號,強化學習就不可能改進該策略。他們的結果表明,所有測試的模型都具有探索性(因此已準備好進行強化學習),其中 Qwen2.5 模型表現最佳(甚至超越了 DeekSeek-V3-Base)。這可能部分解釋了為什么大多數 R1-Zero 項目都基于 Qwen2.5 模型。

image.png

基礎模型中已出現「頓悟時刻」

包括 DeepSeek-V3-Base 模型

DeepSeek-R1-Zero 最令人振奮的成果之一,是通過純粹的強化學習訓練,模型涌現出了自我反思行為,也就是所謂的 「頓悟時刻」(Aha moment)。

一些早期研究指出,在開源的 R1 復現項目中可能不存在「頓悟時刻」,因為這些項目所使用的基礎模型已經表現出自我反思相關的關鍵詞。然而,這些研究并未測試過作為真實 R1-Zero 模型強化學習微調基礎的 DeepSeek-V3-Base 模型。研究人員通過自己部署 DeepSeek-V3-Base-685B 模型,并使用 R1 模板對其回答的 500 道 MATH 題目進行分析,填補了這一空白。

從圖 3 的右圖可以看出,DeepSeek-V3-Base 模型也產生了相當數量的自我反思,進一步驗證了早期研究的主張。此外,該研究人員在圖 4 中展示了 DeepSeek-V3-Base 模型生成諸如 「Aha」「等等」「重新檢查問題」等關鍵詞的例子。

f4.png

DeepSeek-V3-Base 已經展現出了頓悟時刻。

另一個重要的問題是,自我反思行為是否在強化學習訓練后提升了模型性能。為了探究這一點,研究人員部署了 DeepSeek-R1-Zero,并分析了它對 MATH 數據集中相同問題的回答。他們發現,與基礎模型相比,R1-Zero 中自我反思行為的出現頻率更高。然而,沒有明確的證據表明這些自我反思行為與更高的準確率相關。

看起來,在基礎模型預訓練中存在的偏差,自我反思行為、數學解決能力在 RL 通過獎勵信號強化之前就已經被注入了。那么越來越長的響應是這種 RL 過程的結果嗎?

強化學習分析

在 Deepseek-R1-Zero 的訓練和研究過程中,一個顯著的趨勢是模型在整個訓練中響應長度增加,這一趨勢被廣泛解釋為模型正在發展「自我反思」等高級推理能力的標志,后續也有很多研究者通過不同的算法和實現方式復現了這一趨勢。

然而,有學者提出,觀察到的響應長度增加可能并非完全由高級推理能力的發展所驅動,而是歸因于 GRPO 目標函數固有的偏差:

image.png

eq3.png

其中,

eq3a.png

R (q, oi) 表示 Deepseek-R1-Zero 中給定問題 q 和采樣響應 oi 的結果獎勵(該結論也適用于過程獎勵案例)。

與公式(2)中的目標函數相比,GRPO 引入了兩種偏差:

  • 響應層面的長度偏差:這種偏差源于對響應長度進行歸一化處理。當模型生成正確響應時(即優勢值為正),較短的響應會獲得更大的梯度更新,從而促使策略傾向于生成簡潔的正確答案。然而,當模型生成錯誤響應時(即優勢值為負),較長的響應由于長度較大而受到的懲罰較輕,導致策略更傾向于生成冗長的錯誤答案。這種長度規范化機制使得模型在正確時偏好簡短,而在錯誤時偏好冗長,形成了一種不對稱的優化傾向。
  • 問題層面的難度偏差:這種偏差源于對問題的獎勵進行標準差歸一化處理。對于標準差較低的問題(即問題過于簡單或過于困難),策略更新時會賦予更高的權重。盡管優勢值歸一化是強化學習中的常見技巧,但 GRPO 將其應用于單個問題層面,而非整個批次,這導致不同問題在目標函數中的權重分布不均。這種機制使得模型更偏好極端簡單或極端困難的問題,而忽視了中等難度的問題,進一步影響了策略的優化方向。

值得注意的是,長度偏差并不僅限于 GRPO,在開源的標準 PPO 算法中也普遍存在。

隨后作者對多個流行的開源 PPO 實現進行了分析,發現這些實現無一例外地在損失函數中表現出了基于響應長度的偏差(詳見附錄 1 和表 2)。

image.png

image.png

研究者推測,這種逐詞歸一化的設計可能源于大語言模型(LLM)的逐詞預訓練機制,其初衷是讓每個詞對目標函數的影響均衡。然而,在強化學習的語境下,通過除以響應長度 | oi | 進行歸一化,卻意外引入了這種偏差。因此這一發現為優化提供了新的思路。

為了優化 GRPO 算法并解決其存在的偏差問題,研究針對 GRPO 兩處修改:一是刪除了長度歸一化項 ∣oi∣,二是移除了標準差(std)標準化項。

同時,為確保優化目標的無偏性,研究在 Listing 1 的掩碼均值函數中將 mask.sum (axis=dim) 替換為一個固定值 MAX_TOKENS,具體如綠色高亮部分所示。

基于上述改進,研究者將這一優化算法命名為 Dr. GRPO,并通過實驗驗證了其在實際應用中的有效性。

image.png

如圖 5 所展示的多項實驗對比結果,證明 Dr. GRPO 能夠有效緩解優化偏差并顯著減少了錯誤回答的長度。

image.png

如果對詳細推導過程感興趣,可以參考附錄 A。

此外,由于 Qwen2.5-Math 基礎模型可以在沒有任何提示模板的情況下輕松回答問題并達到高精度,作者探討了不同模板對 RL 訓練的影響。針對「更大問題覆蓋率提升性能」的普遍觀點,作者還研究了不同模板與問題覆蓋率之間的交互作用。(實驗設置詳見表 3)

image.png

image.png

結果如圖 6 展示了不同實驗的 RL 訓練曲線,揭示了以下結論:

  • 模板決定了初始策略的性能,但 RL 可以將所有策略提升至約 40% 的相似水平(給定合適的問題集);
  • 使用 R1 模板時,問題集覆蓋率顯著影響 RL 動態,覆蓋率不足會導致性能上限降低。而使用 Qwen-Math 模板時,RL 在 GSM-8K 上取得最佳表現,表明在更簡單(且分布外)問題上訓練可大幅提升(近乎翻倍)在更難題上的測試準確率。

進一步分析表明:

  • Qwen2.5-Math-1.5B 基礎模型已具備較強的數學解題能力(見圖 6 右圖的起點),模板的使用反而會破壞這一能力,直到 RL 重建。因此這說明在強調純 RL 帶來的巨大收益時應更加謹慎。
  • 當基礎模型與模板存在較大不匹配時(如 R1 模板與 Qwen2.5-Math-1.5B),策略改進主要依賴 RL 調優,需問題集具有良好的覆蓋率(見圖 6 左圖)。反之,即使是一個小型且完全分布外的問題集,也能通過強化正確推理行為而非注入新知識,有效提升推理能力。

領域特定預訓練可提升 RL 上限

最近成功的 R1-Zero 類數學推理器復制大多以 Qwen2.5 基礎模型作為初始策略,這些模型本身已是強大的數學解題器,并展現出自我反思的模式。不過,該研究人員希望探討另一方面:R1-Zero 類訓練能否在最初數學推理能力較弱的基礎模型上取得成功?他們的回答是肯定的,并且觀察到數學預訓練能夠提升強化學習的上限。

在實驗設置中,他們以 Llama-3.2-3B 基礎模型為起點,采用無偏的 Dr. GRPO 算法進行強化學習微調,并使用 R1 模板。他們假設領域特定的預訓練有助于強化學習,因此選用了在 FineMath 數據集上持續預訓練的 Llama-3.2-3B-FineMath4 模型。此外,正如之前假設的那樣,Qwen2.5 模型很可能是在拼接的問答文本上進行預訓練的,因此他們同樣從 NuminaMath1.5 中準備了一個拼接的數據集,并用 1e-5 的學習率對 Llama-3.2-3B-FineMath 進行了 2 輪持續預訓練。他們將這種拼接持續預訓練的模型稱為 Llama-3.2-3BNuminaQA。

以下是結果呈現。圖 7 的左圖中展示了不同基礎模型的強化學習曲線。他們觀察到,即使是對基礎的 Llama 模型,強化學習也能提升其性能,但提升幅度很小。在經過持續預訓練(以及拼接持續預訓練)以融入數學領域知識后,Llama 模型展現出了更強大的強化學習性能,驗證了他們的假設。

f7.png

作者還使用 Llama 基礎模型重新審視了 GRPO 的優化偏差。圖 7 的右圖比較了使用 GRPO 和 Dr. GRPO 訓練的模型性能和回答長度,可以清楚地看到,GRPO 可以產生「雙重增加」現象,可能導致誤解,即在數學預訓練后,長思維鏈(long-CoT)也能在 Llama 模型上出現。然而,長度的增加可能是由于優化偏差,而這種偏差可以通過他們提出的 Dr. GRPO 有效緩解(圖 7 的右圖)。

結語

研究人員對用于 R1-Zero 類似訓練的基礎模型以及強化學習中所用算法進行了批判性審視。通過分析,作者揭示了預訓練偏差如何影響強化學習的結果,以及諸如 GRPO 這樣的優化選擇如何無意中改變模型的行為。他們提出的 Dr. GRPO 算法提供了一個簡單的修正方案,在保持推理性能的同時提高 token 效率。

最終的研究結果表明,擴大強化學習的規模既能提升效果,又能提高效率 —— 有時,簡單化反而能實現更優的性能。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-12 13:55:05

2025-02-07 14:08:45

2025-02-11 16:15:09

2025-02-08 11:31:17

DeepseekR1模型

2025-04-23 15:23:25

AI模型代碼

2025-03-14 11:59:29

訓練模型數據

2025-08-14 18:12:59

強化學習AI算法

2025-03-13 11:07:30

2025-02-24 08:40:00

開源模型訓練

2025-03-10 09:10:00

2025-04-07 02:25:00

DeepSeek模型訓練GRPO

2025-05-06 09:09:37

2025-02-19 08:00:00

2025-01-27 12:30:07

2025-02-21 12:24:14

2025-02-03 14:17:27

2025-03-05 09:10:00

AI生成模型

2025-02-20 15:32:28

點贊
收藏

51CTO技術棧公眾號

精品一区二区亚洲| 亚洲成精国产精品女| 国产精品网站大全| 欧美国产日韩在线观看成人| 在线精品国产亚洲| 欧美日韩国产中文字幕| 五月天国产一区| www.国产三级| 久久免费高清| 欧美精品一区二区免费| 特大黑人巨人吊xxxx| 另类一区二区| 亚洲精品成人在线| 欧美污视频久久久| 国内精品久久久久久久久久| 另类av一区二区| 久久久加勒比| 国产精品综合av一区二区国产馆| 久久久亚洲影院| ass极品国模人体欣赏| 成人精品毛片| 欧美精品久久久久久久久老牛影院 | 国语对白一区二区| 欧美码中文字幕在线| 精品国产精品一区二区夜夜嗨| 国模杨依粉嫩蝴蝶150p| 色噜噜狠狠狠综合欧洲色8| 久久夜色精品国产噜噜av| 亚洲影院色无极综合| 成年人视频免费| 亚洲一级二级| 免费不卡欧美自拍视频| 午夜国产福利视频| 欧美日韩在线二区| 亚洲男人天堂古典| 国产婷婷在线观看| 亚洲小说春色综合另类电影| 欧美老年两性高潮| 少妇激情一区二区三区| 在线观看爽视频| 亚洲香蕉伊在人在线观| 蜜臀av.com| 免费av网站在线看| 国产精品你懂的在线| 免费看污久久久| 午夜av免费在线观看| 成人晚上爱看视频| 高清一区二区三区视频| 国产黄频在线观看| 国产九色精品成人porny| 国产欧美久久一区二区| 九九热最新视频| 天堂一区二区在线| 69av在线视频| 91精品国产乱码久久久张津瑜| 国内综合精品午夜久久资源| 欧美国产日韩一区二区在线观看| 五月婷婷一区二区| 欧美天天视频| 久久久免费观看视频| 国产在线一二区| a91a精品视频在线观看| 91精品国产高清久久久久久| 全部毛片永久免费看| 最新成人av网站| 欧洲精品久久久| 无码人妻丰满熟妇精品| 日本不卡123| 91精品久久久久久| 国产模特av私拍大尺度| 国产999精品久久久久久| 国产精品亚洲一区| 日夜干在线视频| 中文字幕欧美激情| 天天成人综合网| 日韩av毛片| 亚洲第一精品在线| 国产福利视频在线播放| 成人毛片免费| 欧美成人乱码一区二区三区| 国产精品九九视频| 国产精品欧美日韩一区| 色天天综合狠狠色| 黄色一级片在线| 亚洲一区二区伦理| 国产精品视频最多的网站| 国产熟女精品视频| 99久久久国产精品| 日韩高清三级| 丝袜在线视频| 色欲综合视频天天天| 9l视频白拍9色9l视频| 三级欧美日韩| 亚洲日韩中文字幕在线播放| 日本不卡一二区| 宅男噜噜噜66国产日韩在线观看| 国产成人激情小视频| 99久久精品无免国产免费| aaa国产一区| 亚洲日本精品国产第一区| 欧美野外wwwxxx| 在线视频欧美精品| 免费在线观看日韩av| 国产一区二区电影在线观看| 久久久国产精品免费| 圆产精品久久久久久久久久久| 美女视频一区二区三区| 国产日韩一区二区三区| 日本不卡视频| 色琪琪一区二区三区亚洲区| 性久久久久久久久久久久久久| 羞羞色国产精品网站| 免费91在线视频| 中文永久免费观看| 91亚洲精品久久久蜜桃| 色哺乳xxxxhd奶水米仓惠香| 日本一道高清亚洲日美韩| 精品国产一区二区三区av性色| 国产午夜精品福利视频| 国产精品毛片| 高清国产一区| 成人av免费| 欧美午夜精品一区| 变态另类丨国产精品| 午夜日韩视频| 成人激情免费在线| 成人免费在线观看| 欧美性猛交丰臀xxxxx网站| 又色又爽又黄18网站| 我不卡伦不卡影院| 国产成人短视频| 奇米影视888狠狠狠777不卡| 亚洲国产精品影院| 人妻精品久久久久中文字幕69| 日韩欧美高清在线播放| 国产成人在线播放| 日本一级在线观看| 欧美日韩国产一中文字不卡| 国产女主播在线播放| 欧美高清不卡| 2022国产精品| 中文字幕中文字幕在线十八区 | 国产精品久久久久久久天堂| 手机福利小视频在线播放| 亚洲午夜视频在线观看| 国产黄色一区二区三区| 午夜国产精品视频免费体验区| 国产在线一区二区三区| 日本中文字幕在线观看| 欧美久久高跟鞋激| 欧美大片xxxx| 国产精品99久久久久| 8x8x华人在线| 涩爱av色老久久精品偷偷鲁 | 国产av无码专区亚洲av毛网站| 精彩视频一区二区三区| 最新精品视频| 免费欧美网站| 久久免费少妇高潮久久精品99| 亚洲精品97久久中文字幕无码| 亚洲一区二区三区自拍| 无码国产精品一区二区免费式直播| 红桃视频亚洲| 鲁丝一区鲁丝二区鲁丝三区| 欧美电影免费观看高清完整| 亚洲色在线视频| 中文字字幕在线观看| 国产精品蜜臀在线观看| 久久久久久综合网| 国产主播一区| 麻豆成人小视频| 免费高清视频在线一区| 久久精品99无色码中文字幕| www.色呦呦| 五月婷婷激情综合网| 亚洲精品成人无码| 精品在线亚洲视频| 日韩 欧美 视频| 蜜臀av免费一区二区三区| 国产精品嫩草影院久久久| 在线看女人毛片| 日韩精品在线观看网站| 亚洲性在线观看| 一二三四区精品视频| 久久精品老司机| 麻豆freexxxx性91精品| 99在线观看视频免费| 国产精品欧美在线观看| 国产欧洲精品视频| caoporn视频在线| 色妞一区二区三区| 天天干天天舔天天射| 欧美日韩国产欧美日美国产精品| 久久久久久久久久久久久久免费看 | 亚洲精品在线二区| 亚洲韩国在线| 国产精品45p| 国产美女精彩久久| 爱啪视频在线观看视频免费| 伊人久久免费视频| 人妻91麻豆一区二区三区| 欧美视频在线观看一区| 日韩成人av毛片| 亚洲欧洲精品成人久久奇米网| 亚洲中文字幕一区| 国产一区999| 国产一区视频免费观看| 国产一区二区三区四区三区四| 日韩欧美在线一区二区| 成人av综合网| 亚洲专区国产精品| 韩国理伦片久久电影网| 奇米成人av国产一区二区三区| 宅男网站在线免费观看| 在线精品国产欧美| 天天躁日日躁狠狠躁喷水| 欧美高清你懂得| 免费在线不卡av| 五月天亚洲婷婷| 久操视频免费在线观看| 国产精品伦理一区二区| 成人乱码一区二区三区av| 成人99免费视频| 天天操夜夜操很很操| 免费在线看一区| 国产高清精品在线观看| 亚洲精品欧洲| 国产妇女馒头高清泬20p多| 一区二区三区在线观看免费| 天堂√在线观看一区二区| 岳的好大精品一区二区三区| 久久99精品久久久水蜜桃| av成人资源| 91视频99| 日韩在线精品强乱中文字幕| 成人亲热视频网站| 欧美高清你懂的| 国产日本欧美一区二区三区在线| 在线国产成人影院| 国产成人91久久精品| 不卡av影片| 日本精品一区二区三区在线播放视频 | 国产精品美女www爽爽爽| 亚洲精品国产一区黑色丝袜| 久久人人97超碰com| 国产呦小j女精品视频| xnxx国产精品| 韩国女同性做爰三级| 国产三级精品三级在线专区| 精品久久久久久中文字幕人妻最新| 99精品黄色片免费大全| 日本少妇毛茸茸| 26uuu亚洲| 亚洲久久久久久久| 亚洲国产成人私人影院tom| 一级黄色毛毛片| 国产精品久久久久一区| 少妇aaaaa| 亚洲国产成人tv| 五月天激情国产综合婷婷婷| 91黄视频在线观看| 国产一区二区小视频| 欧美一级一区二区| 天天躁日日躁狠狠躁喷水| 精品伊人久久97| 视频一区二区三区不卡| 九九精品在线观看| aa国产成人| 国产精品成人在线| 亚洲精品自拍| 国产精品一区二| 秋霞蜜臀av久久电影网免费| 日韩免费电影一区二区| 98精品视频| 男女啪啪免费视频网站| 久久中文在线| 欧美wwwwwww| 顶级嫩模精品视频在线看| 在线免费观看黄色小视频| 国产精品美女视频| 国产亚洲欧美久久久久| 欧美性色19p| 国产欧美日韩综合精品一区二区三区| 亚洲第一男人av| aiai在线| 97久久精品视频| 69堂精品视频在线播放| 91福利入口| 国产aⅴ精品一区二区三区久久| 亚洲午夜在线观看| 国产日本精品| 天天综合天天添夜夜添狠狠添| 99久久婷婷国产精品综合| 欧美xxxooo| 疯狂欧美牲乱大交777| 97精品人妻一区二区三区香蕉| 亚洲成人在线网| 日韩av中文| 日本一本a高清免费不卡| 日本在线成人| 午夜午夜精品一区二区三区文| 亚洲国产国产亚洲一二三| 国产三级三级看三级| jizz一区二区| 久久国产波多野结衣| 欧洲精品一区二区三区在线观看| 亚洲av无码国产精品久久不卡| 在线播放国产一区中文字幕剧情欧美| 男人天堂亚洲| 成人精品一区二区三区| 精品欧美久久| 国产极品粉嫩福利姬萌白酱| 国产精品亚洲专一区二区三区 | 精品一区二区三区中文字幕老牛| 黄色a级片免费看| 久久成人av少妇免费| 中文字幕丰满乱子伦无码专区| 亚洲小说欧美激情另类| 国产精品人人妻人人爽| 亚洲一区第一页| 国产欧美一区二区三区精品酒店| 国产精品免费一区二区三区观看| 2023国产精品久久久精品双| 久久国产这里只有精品| 久久久亚洲综合| 毛片基地在线观看| 亚洲精品mp4| 丁香花在线电影小说观看| 91欧美日韩一区| 欧美gayvideo| 婷婷六月天在线| 国产欧美一区二区精品性| 9i精品福利一区二区三区| 日韩电视剧在线观看免费网站| 丁香影院在线| 鬼打鬼之黄金道士1992林正英| 欧美女激情福利| 亚洲精品鲁一鲁一区二区三区| 亚洲日本电影在线| 国产女人高潮时对白| 欧美成人精品一区| 欧美第一在线视频| 蜜桃视频一区二区在线观看| 国产经典欧美精品| 欧美日韩一级在线观看| 精品日本一线二线三线不卡| 人妖欧美1区| 国产九色91| 国产欧美日韩一级| 欧美多人猛交狂配| 欧美在线观看一二区| 在线免费av网站| 成人激情视频在线| 欧美.www| 182在线视频| 五月婷婷色综合| 国产在线一二三| 国产精品亚洲视频在线观看| 天天色综合色| 国产大学生av| 黄色成人av在线| 国产视频第一区| 国产有码一区二区| 欧美另类综合| 欧洲一级黄色片| 欧美视频在线播放| 成人免费在线| 国产亚洲精品美女久久久m| 免费亚洲一区| 在线看的片片片免费| 亚洲国产精品成人精品| 欧美中文字幕精在线不卡| 一区二区视频在线播放| 国产成人在线网站| 久久久成人免费视频| 日韩亚洲综合在线| 国产精品nxnn| 波多结衣在线观看| 亚洲自拍偷拍av| 巨骚激情综合| 91原创国产| 另类国产ts人妖高潮视频| 91免费公开视频| 亚洲精品久久久久久久久久久| h1515四虎成人| 欧美一区二区激情| 久久综合av免费| 国产成人av免费看| 国产成人一区二区三区小说| 欧美成人一品| 免费观看a级片| 精品久久久久99| h1515四虎成人| 老太脱裤让老头玩ⅹxxxx| 中文字幕一区二区三中文字幕| 黑人乱码一区二区三区av| 国产精品久久久久久中文字| 尤物在线精品| 污软件在线观看| 亚洲网站在线播放|