精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

一半成本,更優性能:JustRL用"反常識"配方打破強化學習訓練迷思

人工智能
在強化學習訓練日益復雜化的今天,清華大學自然語言處理實驗室的JustRL研究提出了一個反常識的發現:單階段訓練、固定超參數、完整數據——這個極簡配方在1.5B模型數學推理上達到當前最優性能,且僅用主流方法一半的計算量。這不僅是技術創新,更是對"復雜性等于先進性"的方法論反思。

大家好,我是肆〇柒。我看到一個關于RL的實踐研究,今天和大家分享一下,是清華大學自然語言處理實驗室(THU NLP Lab)最新發布的JustRL研究。他們在探索大型語言模型強化學習訓練時,做了一個"反常識"的實驗:把所有超參數固定、取消多階段管道、直接使用完整數據——那些被認為必不可少的復雜機制,統統去掉。結果令人意外:這套極簡配方不僅訓練過程異常穩定,4000多步沒有一次震蕩,最終在九個數學基準測試中達到了當前最優(SOTA)性能,而且只用了主流復雜方法一半的計算量。更重要的是,這套配方在DeepSeek和Nemotron兩個完全不同的架構上都有效,證明了方法的普適性。

這個發現對整個強化學習訓練范式提出了一個尖銳的問題:我們是否在復雜性的道路上走得太遠了?

一個實驗,兩個結果,一個顛覆性發現。

當研究團隊把訓練超參數全部固定——沒有學習率衰減、沒有動態調度、沒有課程學習——他們預期會看到訓練崩潰或性能平庸。結果恰恰相反:訓練曲線平滑上升,4000多步沒有一次震蕩,最終在九個數學基準測試中達到當前最優(SOTA)性能。更令人意外的是,這套"簡陋"配方只用了主流復雜方法一半的計算量。

這不是偶然。JustRL在兩個不同架構的1.5B模型上驗證了同一個結論:強化學習訓練的競爭性能,不需要復雜的多階段管道、精巧的超參數調度,甚至不需要課程學習。單階段、固定參數、完整數據——這個極簡配方挑戰了過去幾年建立起來的方法論共識。

對于正在為訓練不穩定頭疼、為超參數調優煎熬、為論文復現困擾的研究者和工程師,這個發現意味著一條完全不同的路徑:你不需要海量算力和復雜工程,也能訓練出高性能的推理模型。

當前訓練范式的隱性成本

翻開ProRL-V2、BroRL、QuestA等近期高性能方法的論文,會看到驚人相似的技術清單:

  • 多階段訓練管道:預訓練階段、初始對齊階段、強化學習階段,每個階段有不同的數據配置和超參數設置
  • 動態超參數調度:學習率從warm-up逐步提升再衰減,采樣溫度根據訓練進度調整,KL懲罰系數動態變化
  • 課程學習策略:根據問題難度排序,從簡單問題逐步過渡到困難問題,有的甚至根據模型表現實時調整數據分布
  • 復雜獎勵設計:不僅評估最終答案,還對推理過程、步驟正確性、格式規范性分別打分

這套體系看似嚴密,但帶來了三個隱性成本:

第一,訓練不穩定風險。 動態調度的每一個決策點都是潛在的故障點。學習率衰減太快,模型學習停滯;衰減太慢,后期震蕩。課程設計不當,模型可能過擬合簡單樣本,在困難問題上表現反而下降。這些復雜機制反而成為訓練不穩定和結果難以復現的源頭。

第二,超參數調優負擔。 每增加一個動態調度策略,就多了一組需要調優的超參數。調度曲線的形狀(線性?指數?余弦?)、切換時機(多少步后開始衰減?)、切換幅度(每次調整多少?)——每個選擇都需要大量試錯。對于資源有限的團隊,這種試錯成本可能比訓練本身更高。

第三,方法復現困難。 即使論文詳細描述了超參數設置,動態調度策略的細節往往難以完整傳達。不同代碼實現、不同硬件環境,都可能導致訓練動態的微妙差異。研究的blog指出,復雜性帶來了"復現困難"的問題。

JustRL的核心問題由此而來:這些復雜性真的必要嗎? 如果不必要,能否用極簡方案達到同等甚至更好的效果?

反常識的實驗:固定一切,然后等待

JustRL的做法在強化學習領域近乎"異端":

  • 超參數全程固定:學習率、采樣溫度、裁剪閾值、KL懲罰系數——所有參數從第一步到最后一步保持恒定,沒有任何調度
  • 單階段訓練:沒有預熱期、沒有調優期、沒有階段切換,從頭到尾就是一個訓練循環
  • 完整數據直接使用:DAPO-Math-17k數據集不做任何難度過濾、不做動態采樣、不做課程設計,模型接觸到完整的問題分布
  • 極簡獎勵機制:答案對就是1分,錯就是0分,不評估過程、不打部分分、不考慮格式

這套配方簡單到令人懷疑。按照傳統觀念,固定的學習率會導致訓練初期不穩定(步長太大)或后期收斂緩慢(步長太小)。沒有課程學習,模型可能被困難樣本"嚇倒",學習效率低下。極簡獎勵可能丟失有價值的過程信號。

但實驗結果打破了這些預期。

超過4000個訓練步驟呈現出"平滑、單調的性能改進曲線,沒有出現訓練崩潰或性能震蕩現象"。這種穩定性在強化學習訓練中極為罕見——動態調度方法常常在某個階段出現性能突然下降,需要調整策略才能恢復。而JustRL的訓練過程就像一條平穩向上的直線,沒有意外、沒有波動。

更關鍵的證據來自跨架構驗證。研究發布了兩個模型:JustRL-DeepSeek-1.5B和JustRL-Nemotron-1.5B,分別基于完全不同的基礎架構訓練。兩個模型使用完全相同的超參數配置,都實現了穩定訓練并達到SOTA性能。 這意味著這套極簡配方不是針對某個特定模型的偶然發現,而是在1.5B規模上具有普適性的方法論。

數據會說話:簡約方法的競爭力

JustRL-DeepSeek-1.5B模型的性能數據揭示了第一層反差。該模型基于DeepSeek-R1-Distill-Qwen-1.5B訓練,在九大基準上的完整表現如下:

模型

AIME24

AIME25

AMC23

MATH-500

Minerva

OlympiadBench

HMMT25

BRUMO25

CMIMC25

平均

DeepSeek-R1-Distill-1.5B

29.90

22.40

63.82

84.90

34.65

45.95

13.44

30.94

12.89

37.65

DeepScaleR-1.5B-Preview

40.21

28.65

73.83

89.30

39.34

52.79

18.96

40.00

21.00

44.88

ProRL-V2

51.87

35.73

88.75

92.00

49.03

67.84

19.38

47.29

25.86

53.08

BroRL

57.50

36.88

/

92.14

49.08

61.54

/

/

/

/

JustRL-DeepSeek-1.5B

52.60

38.75

91.02

91.65

51.47

67.99

21.98

52.71

25.63

54.87

這張表格講述的不只是性能數字,而是三個顛覆性的發現:

發現一:簡單配方打敗復雜管道。 JustRL的平均54.87%超過ProRL-V2的53.08%,雖然僅1.79個百分點,但,JustRL使用的計算量僅為ProRL-V2的一半。在AMC23上,JustRL達到91.02%,比ProRL-V2的88.75%高出2.27個百分點。在BRUMO25這個最新競賽基準上,JustRL的52.71%顯著超過ProRL-V2的47.29%——提升5.42個百分點。這意味著在新問題的泛化能力上,簡約方法甚至可能更強。

發現二:效率才是真正的護城河。 BroRL在AIME24上取得了57.50%的最高分,超過JustRL的52.60%。研究的blog揭示了一個關鍵細節:BroRL將每個樣本的rollout次數增加到512,總計算量是JustRL的4.9倍。這本質上是窮舉式探索解決方案空間,通過暴力搜索覆蓋更多可能的解題路徑。這種方法在學術基準上可能有效,但在實際應用中面臨嚴重的可行性問題:誰愿意為每個問題生成512個候選答案?

發現三:相比基線的提升幅度揭示了方法的真實價值。 JustRL相比基線模型DeepSeek-R1-Distill-1.5B,平均性能從37.65%躍升至54.87%,增幅達到17.22個百分點。在BRUMO25上提升21.77個百分點,在AIME25上提升16.35個百分點,在CMIMC25上提升12.74個百分點。這些大幅提升集中在競賽級困難問題上,說明強化學習訓練對于復雜推理的改進效果顯著——而這一切,是用極簡方案達成的。

JustRL-Nemotron-1.5B模型的數據揭示了第二層反差:

模型

AIME24

AIME25

AMC23

MATH-500

Minerva

OlympiadBench

HMMT25

BRUMO25

CMIMC25

平均

OpenMath-Nemotron-1.5B

58.75

48.44

90.55

92.40

26.93

71.70

30.10

61.67

30.08

56.74

QUESTA-Nemotron-1.5B

71.56

62.08

93.44

92.95

32.08

72.28

40.94

67.50

41.48

63.81

JustRL-Nemotron-1.5B

69.69

62.92

96.02

94.15

30.24

76.59

40.63

66.88

41.72

64.32

這張表格傳遞的信息更加微妙但同樣重要。JustRL-Nemotron-1.5B實現了64.32%的平均性能,小幅超越QuestA的63.81%,僅0.51個百分點的差距。在九個基準中,JustRL在五個測試上領先,包括AMC23的96.02%(領先2.58個百分點)、Olympiad-Bench的76.59%(領先4.31個百分點)。

研究的blog對這種微小差距給出了坦誠的解讀:"這種差距是合理的——兩種方法都在推動1.5B規模的性能邊界。"在這個參數規模下,任何方法都很難實現大幅領先。但關鍵的區別在于達成路徑:JustRL使用的計算量僅為QuestA的一半,且無需設計復雜的課程學習策略。QuestA采用了精心設計的課程,根據問題難度動態調整訓練樣本分布。而JustRL直接使用完整數據集,用更簡單的方式達到了相當甚至略好的效果。

兩張表格共同傳遞的核心信息是:簡約不是妥協,而是效率革命。 在兩個不同架構上,使用相同的簡單配置,JustRL都實現了與最復雜方法相當或更優的性能,同時顯著降低了計算成本和工程復雜度。

為什么簡單反而更好?技術機制的深層邏輯

JustRL的成功不是靠運氣,而是基于三個核心技術選擇的協同效應。

GRPO:用群體智慧替代價值估計

理解JustRL的起點是GRPO(Group-wise Relative Policy Optimization)算法。傳統的PPO算法需要一個獨立的價值網絡來估計"這個行動有多好",這個網絡需要額外訓練,消耗大量內存,還可能因為估計偏差誤導訓練方向。

GRPO的創新在于徹底取消價值網絡,用群組統計量替代個體估計。對于每個數學問題,模型生成多個不同的解答(通常幾十個),形成一個"評估群組"。每個解答獨立評分后,用群組的平均分作為參照基線。表現高于組內平均的解答被強化,低于平均的被抑制。

這種設計在數學推理場景中特別有效。數學答案有明確的對錯標準,通過群組內的橫向對比,模型能夠快速識別哪些推理策略更優。同時,一次生成多個解答也帶來了探索的多樣性——模型能夠嘗試不同的解題路徑,不會過早鎖定某個局部最優解。

從資源角度,GRPO的優勢更加明顯。取消價值網絡意味著內存消耗大幅降低——不需要存儲和更新另一個大型神經網絡的參數。這使得在有限的GPU資源下訓練更大規模的模型成為可能。同時,基于群組統計的優勢估計避免了價值網絡可能帶來的擬合偏差,訓練過程因此更加穩定。

二元獎勵:聚焦本質的設計哲學

JustRL的獎勵系統只有兩個狀態:答案正確得1分,錯誤得0分。沒有過程分、沒有部分分、沒有根據解題步驟給予的漸進式獎勵。

這種極簡設計抓住了數學問題的本質特征——答案的確定性。無論推理過程多么曲折,最終結果要么對、要么錯。二元獎勵將評估邏輯完全聚焦于這個本質,避開了過程獎勵設計的所有困境:如何定義"部分正確"?如何量化"推理質量"?如何在不同題型間統一評分標準?這些問題在二元框架下根本不存在。

答案驗證采用DAPO驗證器的字符串匹配方法,刻意避開SymPy等符號計算庫。字符串匹配雖然簡單,但在數學答案驗證場景中已經足夠可靠,同時能夠大幅降低系統復雜度和計算開銷——更少的軟件依賴、更快的驗證速度、更少的潛在故障點。

評估階段引入CompassVerifier-3B模型作為混合驗證的補充。這個3B參數的模型能夠理解格式變化和等價表達(比如"1/2"和"0.5"),彌補純字符串匹配的局限。訓練階段保持簡單,評估階段適度增強——這種分層設計在簡潔性和可靠性之間找到了平衡。

固定超參數:穩定性的意外來源

最違反直覺的設計是超參數的完全固定。從第一步到最后一步,學習率、采樣溫度、梯度裁剪閾值——所有參數保持恒定。

傳統觀念認為,固定學習率會帶來兩難:設置太大,訓練初期不穩定;設置太小,后期收斂緩慢。因此主流做法是動態調度——初期warm-up保證穩定,中期提升加快收斂,后期衰減精細調優。

但JustRL的實踐揭示了一個反常識的規律:在某些場景下,固定的簡單策略反而比動態的復雜機制更穩定。4000多個訓練步驟呈現平滑上升曲線,沒有崩潰或震蕩。這種穩定性的來源可能是:動態調度的每個決策點都是潛在的故障點,而固定策略消除了所有這些風險。

跨架構驗證進一步證實了這一點。DeepSeek和Nemotron代表不同的模型設計理念,卻都能用相同的固定超參數實現高性能訓練。這表明存在一組相對魯棒的超參數配置,在1.5B規模的數學推理訓練中具有普適性,無需為每個模型專門調優。

唯一引入的技術是"clip higher"——允許正向梯度有更大步長的非對稱裁剪。這鼓勵模型在發現有效策略時更大膽地強化,促進策略空間的探索。但即便如此,這個技術本身也是固定的,不隨訓練進度變化。

完整數據直接使用:質疑課程學習的必要性

JustRL直接使用DAPO-Math-17k數據集,沒有離線難度過濾,沒有在線動態采樣。模型在訓練中接觸到完整的問題分布,簡單題和困難題隨機混合出現。

這挑戰了課程學習的傳統智慧。主流觀點認為,從易到難的漸進式學習能幫助模型更好地掌握知識。QuestA等方法采用精心設計的課程,根據問題難度動態調整訓練樣本。

但JustRL的實踐提出了質疑:如果數據集本身已經經過策劃,額外的課程調度可能收益有限。DAPO-Math-17k的"精選"性質意味著它已經排除了過于簡單或質量不佳的問題。在此基礎上,GRPO的群組采樣機制提供了自適應學習能力——對于困難問題,模型有多次嘗試機會,通過群組內的相對比較來學習;對于簡單問題,模型能快速識別有效策略。混合難度反而可能幫助模型建立更魯棒的推理能力,學會適應不同難度場景,而不是依賴固定的難度梯度。

上下文長度硬性限制在16K Token,超過則直接截斷,不設軟性懲罰項。這個長度已經能夠覆蓋絕大多數問題的完整解答過程,同時避免了長度懲罰帶來的超參數調優負擔。

從零到結果:實踐路徑

JustRL的開源實現為研究者提供了清晰的實踐路徑,降低了復現和應用的門檻。

環境準備:精確版本的可復現性保證

推薦使用conda創建Python 3.10環境,然后安裝精確版本的依賴包:PyTorch 2.6.0、vLLM 0.8.4、transformers 4.51.3、sympy 1.13.1、pylatexenc 2.10。

這些版本要求不是隨意選擇——深度學習框架的版本差異可能導致數值計算的微妙變化,最終影響推理結果。精確指定依賴版本是確保結果可復現的關鍵。許多研究因為版本差異而無法復現,JustRL通過明確版本要求規避了這個問題。

生成與評分:兩步評估流程

評估分為兩個階段。第一階段使用gen_vllm.py腳本調用vLLM推理引擎生成回答。用戶在腳本中設置NAME變量指定模型(如"hbx/JustRL-DeepSeek-1.5B"),配置available_workers參數控制并行度。腳本自動遍歷九個基準測試,為每個問題生成指定次數的回答(競賽基準32次,綜合基準4次),輸出保存為JSONL格式。

第二階段使用grade.py腳本進行評分。腳本掃描所有JSONL文件,使用混合驗證器——先規則匹配檢查格式和內容,再調用CompassVerifier-3B模型進行語義驗證——判斷每個回答的正確性,最終生成grading_results.json匯總文件。

快速驗證:預生成輸出的直接訪問

想要快速驗證結果的研究者可以從Google Drive下載預生成的評估輸出。這些文件包含JustRL-DeepSeek-1.5B和JustRL-Nemotron-1.5B在所有基準上的完整回答和評分結果。下載后解壓到justrl_eval_outputs/文件夾,即可直接查看詳細數據,無需重新運行生成和評分流程。

模型權重:即用型資源的開放獲取

模型權重托管在Hugging Face平臺:hbx/JustRL-DeepSeek-1.5B和hbx/JustRL-Nemotron-1.5B。即使沒有訓練資源,研究者也能下載這些訓練好的模型進行推理或進一步分析。這種開放性降低了使用門檻,讓更多人能夠基于這些模型開展工作。

倉庫的目錄結構清晰:evals/存放評估腳本,data/包含九個基準測試數據集,justrl_eval_outputs/用于存放評估輸出。這種組織讓研究者能夠快速定位所需組件。

簡約哲學的行業啟示:我們是否走錯了方向?

JustRL的價值不僅在于1.5B模型的性能數字,更在于它對整個強化學習訓練范式的反思。

復雜性不等于先進性

在許多研究領域,技術方案的復雜度似乎成為了創新的標志。更多的訓練階段、更精巧的調度策略、更復雜的損失函數——這些元素在論文中被視為技術深度的體現。JustRL的實踐表明,至少在某些場景下,簡單穩定的方法比精巧復雜的系統更有價值

這并非反對復雜性本身,而是質疑"為復雜而復雜"的傾向。每增加一個技術組件,都應該問:這個組件解決了什么真實問題?去掉它會有什么后果?如果答案是"不確定"或"可能沒什么影響",那就該重新審視這個組件的必要性。

效率是可持續創新的基礎

JustRL用一半計算量達到更好性能,這不只是成本節約,更是可持續創新的基礎。當一個方法需要數周訓練、消耗數萬美元算力時,只有少數擁有海量資源的機構能夠開展研究。這種高門檻限制了參與者的多樣性,最終可能限制創新的多樣性。

相反,如果一個方法只需數天訓練、成本降低一半,更多團隊就能參與進來。學術機構、創業公司、獨立研究者——不同背景的參與者會帶來不同視角的創新。降低資源門檻就是拓寬創新的賽道。

可復現性是科學研究的生命線

研究的"可復現性"和"穩定性"很重要。這不是技術細節,而是科學研究的生命線。一個需要大量調參才能復現的方法,其科學價值是存疑的——它更像是一個"偶然成功的配置",而非一個"穩健的方法論"。

JustRL通過固定超參數、精確版本依賴、完整開源實現,最大化了可復現性。任何人按照文檔操作,都應該能夠得到相近的結果。這種透明度和可驗證性,是建立研究信任的基礎。

普適性比專用優化更重要

兩個不同架構使用相同超參數都成功,這揭示了方法的普適性價值。在實際應用中,普適的簡單方法往往比專用的復雜優化更有用——前者可以快速應用到新場景,后者則需要為每個新場景重新調優。

這對工業界尤其重要。當需要快速驗證一個想法、評估一個新模型、遷移到新任務時,能夠直接套用的簡單方法比需要精心調參的復雜方案更具實用價值。時間成本和機會成本常常比性能的幾個百分點更重要。

你可以做什么:行動建議

對于正在或計劃開展強化學習訓練的研究者和工程師,JustRL提供了三條可行的行動路徑:

路徑一:直接使用。 如果你的任務是1.5B規模的數學推理,可以直接下載JustRL-DeepSeek-1.5B或JustRL-Nemotron-1.5B模型進行推理。這些模型已經在九個基準上驗證,可以作為強有力的基線或直接應用。

路徑二:復現驗證。 按照開源的評估腳本和環境配置,在你關心的基準上驗證JustRL的性能。這既是對方法的驗證,也是建立自己評估流程的起點。完整的依賴版本和詳細文檔大幅降低了復現難度。

路徑三:方法遷移。 如果你的任務不是數學推理,可以嘗試將JustRL的簡約哲學遷移到你的場景:固定超參數、單階段訓練、簡化獎勵設計。這些原則在1.5B數學推理上有效,它們在其他規模和任務上的表現值得探索。

更重要的是思維轉變。 下次設計訓練方案時,先從最簡單的配置開始。只有當簡單方案確實不夠用時,才逐步增加復雜性。每增加一個組件,都要問:這真的必要嗎?去掉它會有什么后果?這種"簡約優先"的思維方式,可能會帶來意想不到的收獲。

總結:重新定義"先進"

JustRL的故事揭示了一個常被忽視的真理:先進不等于復雜,有時恰恰相反。

在1.5B參數規模的數學推理訓練中,單階段、固定超參數、完整數據這個極簡配方,用一半的計算量達到了當前最優性能。這不是性能妥協,而是效率革命。它證明了強化學習訓練不必是少數擁有海量算力的機構才能玩轉的游戲,也不必是需要精巧調參技藝的藝術——它可以是一個簡單、穩定、可復現的工程實踐。

對于正在為訓練不穩定困擾、為超參數調優煎熬、為論文復現掙扎的你,JustRL的信息很清晰:試試最簡單的方案,它可能比你想象的更有效。

當整個行業在復雜性的道路上越走越遠時,或許是時候停下來問一句:我們是否走錯了方向?簡單、高效、可復現——這些看似"不性感"的品質,也許才是可持續創新的真正基石。

責任編輯:龐桂玉 來源: 覺察流
相關推薦

2025-06-06 09:13:00

2009-04-09 19:21:02

Vmware虛擬化服務器

2011-11-07 10:06:28

惠普ARM服務器Moonshot

2022-03-18 12:08:10

微分計算模式

2022-11-02 14:02:02

強化學習訓練

2025-10-11 09:23:28

RLPT強化學習預訓練數據

2015-07-27 10:24:01

蘋果中國

2013-02-25 10:11:35

4GLTE商用網絡

2020-12-04 10:11:26

Unsafejava并發包

2025-05-28 02:25:00

2021-07-15 10:30:08

谷歌強化學習AI

2021-11-16 15:26:23

強化學習火箭人工智能

2023-03-09 08:00:00

強化學習機器學習圍棋

2020-08-10 06:36:21

強化學習代碼深度學習

2025-06-23 09:14:00

2010-06-13 11:12:10

惠普思科

2013-11-27 15:48:56

移動中間件廠商

2024-12-09 08:45:00

模型AI

2018-06-03 08:49:21

2025-08-04 08:49:00

點贊
收藏

51CTO技術棧公眾號

亚洲欧美卡通动漫| 成人在线观看黄| 乱精品一区字幕二区| 尤物网精品视频| 日韩成人中文字幕| 人妻无码视频一区二区三区| 欧美69xxx| 国产成人综合精品三级| 欧美在线国产精品| 九九热免费在线| www.成人网| 91精品福利在线| 伊人再见免费在线观看高清版 | 亚洲成人精品av| 男人透女人免费视频| 免费在线观看黄| 99精品久久只有精品| 国产精品丝袜视频| 精品少妇一二三区| 日韩中文在线电影| 日韩经典第一页| 北条麻妃亚洲一区| 欧美xnxx| 岛国av一区二区| 日本福利视频网站| 黄色片网站在线观看| 91免费视频观看| 亚洲自拍小视频| 中文字幕 人妻熟女| 亚洲经典在线| 欧美精品一区二区三区国产精品 | aaa国产视频| 久久精品亚洲一区二区| 久久久久成人精品| 日韩三级在线观看视频| 精品国产乱码久久久| 亚洲精美色品网站| 丰满少妇一区二区三区专区| 巨大黑人极品videos精品| 精品国产福利视频| 777久久精品一区二区三区无码 | 黑人操亚洲女人| 久久国产精品99精品国产| 97色在线视频观看| 久久久美女视频| 一本一道久久a久久精品蜜桃| 在线播放精品一区二区三区 | 亚洲精品久久久狠狠狠爱| 精品一区二区免费在线观看| 国产精品高清网站| 中文字幕亚洲乱码熟女1区2区| 伊人久久大香线蕉av超碰演员| 欧美另类暴力丝袜| 久久97人妻无码一区二区三区| 国产精品久久久久久麻豆一区软件| 中文字幕精品av| 日本人亚洲人jjzzjjz| 精品国产乱码久久久久久1区2匹| 亚洲丝袜在线视频| 手机看片日韩av| 国产精品99re| 实拍女处破www免费看| 日韩a级大片| 日韩成人在线网站| 亚洲av片不卡无码久久| 少妇一区二区三区| 亚洲欧美激情四射在线日| 中文人妻一区二区三区| 嫩草一区二区三区| 国产一区二区三区精品久久久| 在线观看免费小视频| 久久国产综合| 欧美成人黄色小视频| 黄色一级视频在线观看| 日韩香蕉视频| 国产精品福利在线观看| 国产精品国产精品国产专区| 国产精品一区二区三区网站| 国产高清精品一区二区| 五月婷婷免费视频| 国产日韩欧美激情| 一区二区av| 欧美1—12sexvideos| 午夜影院久久久| 成年人小视频网站| 成人精品视频在线观看| 亚洲福利影片在线| 亚洲自拍偷拍图| 久久久久久久久国产一区| 欧美国产精品日韩| 人妻丰满熟妇av无码区| 国产真实乱偷精品视频免| 99视频网站| 黄色毛片在线观看| 亚洲日本在线看| 黄色免费福利视频| 日韩亚洲国产免费| 亚洲大胆人体av| 美国黑人一级大黄| 在线看片一区| 国产原创欧美精品| 黄色三级网站在线观看| 国产欧美一区二区在线| 99在线观看视频免费| 欧美最新精品| 亚洲第五色综合网| 神马久久精品综合| 日韩一级免费| 91久久精品一区二区别| 久草视频在线看| 亚洲一区二区三区影院| 91香蕉视频污版| 国产精品白丝av嫩草影院| 在线观看久久久久久| 久久影院一区二区| 久久精品国产99| 欧美日韩一区二区三区在线视频| 伊人春色在线观看| 欧美丝袜丝nylons| 欧美 日本 国产| 午夜日韩av| 国产区亚洲区欧美区| 桃花色综合影院| 亚洲一区二区影院| 又色又爽又黄视频| 国产探花一区二区| 亚州av一区二区| 午夜久久久久久久久久| 国产精品美女久久久久av爽李琼| 亚洲 欧美 日韩 国产综合 在线| 免费一级欧美在线大片| 综合网中文字幕| 亚洲国产成人无码av在线| 成人a免费在线看| 伊人再见免费在线观看高清版| 亚洲成人a级片| 色噜噜狠狠色综合网图区| 免费污污视频在线观看| 91老师片黄在线观看| 波多野结衣综合网| 草莓视频一区二区三区| 欧美人在线观看| a天堂在线视频| 国产精品福利在线播放| 中文字幕第100页| 欧美日韩国产免费观看视频| 欧美在线影院在线视频| 天天操天天干天天操| 亚洲国产精品嫩草影院| 日韩欧美中文在线视频| 一区二区日韩欧美| 91免费在线视频| 超碰在线最新| 欧美一级欧美三级在线观看 | 亚洲四区在线观看| 日韩精品视频网址| 伊人色**天天综合婷婷| 亚洲在线视频观看| 日韩经典av| 亚洲电影免费观看高清| 国产视频91在线| 91免费看片在线观看| 无码人妻h动漫| 精品国产日韩欧美| 成人欧美一区二区三区在线| 欧美成人性生活视频| 欧美一卡在线观看| 久久精品国产亚洲av麻豆色欲| 成人综合在线视频| 一女被多男玩喷潮视频| 久操国产精品| 国产日本欧美一区二区三区在线| 久久综合之合合综合久久| 日韩欧美国产小视频| 一区二区三区免费高清视频| 99久久精品免费看国产免费软件| 免费观看精品视频| 欧美中文一区二区| 91免费高清视频| av影视在线看| 国产亚洲视频中文字幕视频| 亚洲性在线观看| 亚洲一区二区精品久久av| 国产ts丝袜人妖系列视频 | 日产精品久久久久久久性色| 色拍拍在线精品视频8848| 性の欲びの女javhd| 国产精品一区免费视频| 成人在线观看你懂的| av在线不卡顿| 国产精品加勒比| 精品3atv在线视频| 九九视频这里只有精品| 美女毛片在线看| 日韩一级视频免费观看在线| 久久久久久91亚洲精品中文字幕| 国产精品国产三级国产普通话99 | 精品国产1区| 99re在线国产| 电影在线观看一区二区| 国内外成人免费激情在线视频网站 | 日本网站免费观看| 中文字幕第一区综合| 亚洲av熟女高潮一区二区| 日产欧产美韩系列久久99| 污污污污污污www网站免费| 精品久久久久中文字幕小说| 97超碰人人看人人 | 欧美在线播放高清精品| 免费看一级一片| 中文字幕乱码一区二区免费| 在线看黄色的网站| 精品一区二区日韩| 国产精品人人妻人人爽人人牛| 极品中文字幕一区| 99久久久无码国产精品性色戒| 希岛爱理av免费一区二区| 成人性生交大片免费观看嘿嘿视频| 老司机深夜福利在线观看| 久久99精品久久久久久噜噜| 自拍视频在线播放| 亚洲精选在线观看| 免费国产黄色片| 日韩一区二区电影在线| 一级做a爰片久久毛片16| 日韩欧美在线观看| 免费在线观看国产精品| 国产精品久99| 国产三级黄色片| 久久精品在这里| 99久久国产精| 99这里都是精品| av天堂一区二区| 国产成人av电影免费在线观看| 亚洲成人福利在线| 日韩中文字幕不卡| 久久综合久久色| 巨乳诱惑日韩免费av| 国产91美女视频| 亚洲在线网站| 国产精品宾馆在线精品酒店| 99日韩精品| 亚洲中文字幕无码专区| 国产欧美短视频| 国产精品50p| 亚洲欧美日韩国产一区| 一区二区传媒有限公司| 日韩网站在线| 精品一区二区中文字幕| 亚洲欧美日韩国产| 北条麻妃在线视频| 日本成人中文字幕在线视频| 我看黄色一级片| 免费观看在线综合| 色一情一区二区| 国产揄拍国内精品对白| 性欧美在线视频| 国产99久久久国产精品| 国产一卡二卡三卡四卡| 91亚洲资源网| 国产成人av一区二区三区不卡| 久久久精品中文字幕麻豆发布| 亚洲图片另类小说| 国产精品视频在线看| 999福利视频| 亚洲靠逼com| 日本少妇在线观看| 精品免费在线视频| 波多野结衣电车| 欧美一区二区在线不卡| 精品久久久无码中文字幕| 亚洲成人精品在线| 成人三级黄色免费网站| 久久久精品视频成人| wwwww亚洲| 国产成人一区二区| 超碰国产精品一区二页| 国产精品福利视频| 综合亚洲自拍| 综合色婷婷一区二区亚洲欧美国产| 在线观看国产精品入口| 国产亚洲黄色片| 日韩高清一级片| 日本少妇激三级做爰在线| 成人av在线观| 九九九视频在线观看| 一区二区三区色| 亚洲日本视频在线观看| 欧美精品久久天天躁| 人妻91麻豆一区二区三区| 国产亚洲精品久久久优势 | 热久久天天拍国产| 久久av综合网| 免费精品视频在线| 人妖粗暴刺激videos呻吟| 国产精品妹子av| 中文字幕第15页| 日韩欧美久久一区| 久青草国产在线| 久久久免费电影| 在线播放成人| 色婷婷精品国产一区二区三区| 午夜精品久久99蜜桃的功能介绍| 蜜臀久久99精品久久久酒店新书| 国产福利一区二区三区| 91精品久久久久久久久久久久| 亚洲动漫第一页| av免费在线不卡| 在线观看欧美成人| 国产精品粉嫩| 国产一区二区三区四区五区加勒比 | 国产亚洲美女久久| av电影在线地址| 91亚洲精品一区二区| 精品国产一区二区三区久久久蜜臀| 久草视频国产在线| 激情五月婷婷综合网| 免费福利视频网站| 天天综合天天做天天综合| 7777精品伊久久久大香线蕉语言| caoporm免费视频在线| 国产99久久精品一区二区| 成人h动漫免费观看网站| 伊人情人网综合| 日韩国产欧美视频| 国产精品三级在线观看无码| 亚洲中国最大av网站| 91tv国产成人福利| 在线播放精品一区二区三区| 成人福利视频| 精品在线不卡| 尤物精品在线| 免费日本黄色网址| 一区二区三区小说| 国产农村妇女毛片精品久久| 色av吧综合网| 国产成人精品一区二区三区免费| 欧美日韩中文国产一区发布| 亚洲大胆av| 国产性生活毛片| 午夜精品一区在线观看| 色哟哟中文字幕| 97久久精品人搡人人玩| 久久久免费毛片| 男人日女人视频网站| 成人免费高清在线观看| 国产精品第一页在线观看| 精品国产伦一区二区三区观看方式 | 久久精品这里都是精品| 夜夜爽妓女8888视频免费观看| 亚洲老板91色精品久久| 惠美惠精品网| 亚洲国产日韩欧美| 久草精品在线观看| frxxee中国xxx麻豆hd| 日韩一区二区精品在线观看| 欧美78videosex性欧美| 国产免费一区| 久久免费黄色| 亚洲ⅴ国产v天堂a无码二区| 欧美三电影在线| 91最新在线视频| 国产精品美女xx| 西西人体一区二区| 国产精品久久免费观看| 91精品国产色综合久久不卡电影| 影音先锋男人在线资源| 狠狠色综合欧美激情| 久久福利一区| 人妻互换一区二区激情偷拍| 欧美一区午夜精品| 91色在线看| 日韩久久在线| 国产乱对白刺激视频不卡| www.av视频在线观看| 国产一区二区av| 国产精品白丝久久av网站| 99色这里只有精品| 久久精品在这里| 国产夫妻性生活视频| 91a在线视频| 欧美电影免费| 91视频在线免费| 欧美吻胸吃奶大尺度电影| √天堂8在线网| 日韩片电影在线免费观看| 国产在线麻豆精品观看| 精品91久久久| 在线视频精品一| 午夜毛片在线观看| 亚洲免费在线看| 五月婷婷狠狠干| 成人激情视频在线| 午夜一级久久| 欧美成人精品欧美一| 亚洲视频视频在线| 136导航精品福利| 99视频在线视频| 天天亚洲美女在线视频| 毛片激情在线观看|