精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

增強大模型智能:數學推理能力的提升策略與實踐

人工智能
本文將分享如何提升大模型的數學推理能力。我們沒有把數學推理能力與翻譯、長文本生成等專項分開優化,而是視為通用能力的一部分。因為我們認為數學推理能力是衡量大模型智能水平的關鍵指標。

一、大語言模型概述

圖片

首先來回顧一下大模型的基本結構。上圖中列出了當前一些主流大模型,比如 GPT 系列中的 GPT-3,發布于 2020 年,擁有 175B 參數,還有 Huggingface 的 Bloom、清華的 GLM 系列、Meta 的 LLaMA、百川的 Baichuan 和阿里的 Qwen 系列等等。除了清華的 GLM 使用的是 Prefix decoder,這些模型大多采用與 GPT 類似的架構。

這些模型的參數規模各不相同。GLM 系列除了最大 130B 的模型外,還有 6B 和 10B 的版本。Meta 的 LLaMA 系列有 65B 及其他不同規模的版本。千問系列有 7B、14B 和最大的 110B。這些開源模型為業界公司提供了很多優化的思路。

圖片

大模型的結構在業界已較為標準化,主要基于 transformer 結構。關鍵參數包括詞表、transformer 層數、Multi-head 和全連接層。以 GPT-2 為例,它是一個 1.3B 參數的模型,詞表大小 5 萬,層數 24 層。根據參數計算公式, Embedding 層的 d_model 為 2048,乘以 5 萬,得到其參數規模。QKV 計算、Attention Project 和 FFN 等參數加起來,最終得到 1.3B 的總參數。

大模型優化方面,常用的方法包括 SparseAttention、FlashAttention,以及其他結構如 MAQ 和 GQA 的優化,但整體結構仍基于 transformer。

圖片

大模型結構中,關鍵部分包括圖上面的 Multi-head 和下面的點積注意力計算,右側是大模型的總體結構示意。針對 Attention 的優化有 FlashAttention、SparseAttention 和 GQA,位置編碼有絕對位置編碼和 RoPE 等相對位置編碼。優化主要是為了提升大模型的外推能力,尤其對長文本效果更好。此外,還有對激活函數和其他細節的優化,業界在這些方向上都做了很多工作。

圖片

大語言模型的構建通常分為四個部分。以 OpenAI 為例:①預訓練,這是資源消耗最大的一環,通常使用 1000 多塊 GPU,訓練周期長,數據量達到數千億 token,約幾 TB;②SFT 層(有監督微調),主要優化指令對齊,數據量較少,通常為百萬級,少數達千萬級,訓練時間為天級別;③訓練獎勵模型(Reward Model);④人工反饋強化學習(RLHF),這部分的成本與 SFT 相似,但如果使用傳統 PPU 顯存占用較高,數據量允許天級別完成。

LLaMA 等模型也遵循類似流程,比如說 LLaMA2-Chat,分為預訓練、SFT、強化等階段,根據人類反饋調整指令偏好。

圖片

大模型的構建可以分為三個部分。第一階段是指令學習階段,通過訓練基座模型,使其理解人類指令,并根據人類編寫的指令和高質量回答進行 SFT。第二階段是讓大模型更擬人性或者是更符合人類偏好(人類對模型輸出進行偏好排序)。第三階段是人類反饋強化學習階段,是由四個模型構成:Reference Model(訓練好的參考模型)、Reward Model(對生成結果評分的模型)、Actor Model(需要強化的模型)和 Critique Model(訓練過程中的評分模型)。

圖片

前面回顧了大語言模型的基礎結構,接下來將介紹數學推理優化的流程,分為四塊:數據構建、數據篩選、模型構建、模型訓練與優化。數學推理的數據分為混合指令和合成數據。其中合成數據是對當前數據的擴展,因為高質量的數學數據,尤其是應用類指令較少。數據篩選,包括質量篩選和多樣性篩選,避免重復或相似問題。篩選原則依賴于 Reward Model 或 Critique Model。模型訓練使用 Reference Model,訓練好 SFT 后進行質量和多樣性篩選,歸為 RFT 流程,即拒絕采樣流程。在 Reward Model 或 Critique Model 中,使用 PPO、DPO 或 RFT 流程。

接下來將詳細介紹混合指令、合成數據和訓練優化的具體做法。

二、混合指令

圖片

數學問題可以拆解為邏輯推理和數學應用兩類。數學應用早期主要采用思維鏈(CoT)模式,后來為解決計算問題,引入了 PoT(Program-of-Thought)模式。當前的思路是數學分析或邏輯推理放到 CoT 部分處理,涉及計算的問題,如解方程或微積分計算,放到 PoT 部分。因此,混合指令由這兩部分構成。

圖片

這樣做有兩個原因。首先,CoT 并不擅長復雜運算,尤其是積分和方程運算。盡管大模型在預訓練中可以處理簡單運算(如三位數的加減乘除),但對于更高階的數學運算,PoT 的準確率更高,讓大模型專注于擅長的部分。

其次,單純使用 PoT 也有問題。在涉及需要推理的數學場景(如抽象代數和幾何運算)時,PoT 顯得不夠直觀,難以一步步推理。此外,它在整合前后邏輯關系時也存在問題。

圖片

所以現在我們使用的是混合指令。混合指令的前一部分是標準的 CoT 模式,比如 GPT-4o 的回答,前面的推理、中間的評分計算、合并同類項都是靠其數學推理能力一步步解決的。但我們發現最后的合并同類項出現了錯誤,前面的推理是完全正確的,公式引用也沒問題,但在數值計算方面有誤。

左側的方案將其拆分為:前面采用 CoT 思維鏈模式,類似于 GPT-4o,而在最后的計算部分,使用 PoT 來提高準確性。這個方法對于大模型的數學推理來說雖然不復雜,但確實簡單有效。

三、合成數據

圖片

接下來介紹合成數據。在預訓練時我們能獲得大量數學題目,但以英文為主。進行二階段 SFT 時,我們發現開源的好數據很少。常用的數據集如 GSM8K 和 MATH,雖然不錯,但數量有限。GSM8K 是小學數學推理題,MATH 類偏向競賽題。

大模型在解題時表現優秀,但讓它生成新問題則相對困難。這是因為解題需要的是運算能力,而生成新問題需要更高層次的思考和創造能力。

圖片

合成數據的 Self Instruct 是常用的方法,此方法早已提出。我們在種子任務中有部分高質量的數學問題集合,無論是購買的還是自建的。我們希望從這些高質量集合中擴展出更多樣化的數學指令。為此,將其細分為數學問題,按學科拆解,如矩陣運算、微積分、方程等。拆解后,再對每個子問題進行 Self Instruct,以擴展種子任務。篩選時,若只對指令篩選,可用最長公共子序列或 Jaccard 距離等簡單方法。

圖片

指令構建和篩選相對容易,但指令能否提供更多樣化的問題則是一個難點。有些解出的題目不適合作為訓練集,因此需嚴格把控指令和回答的質量。我們訓練過 Reward Model,最新的英偉達 340B 模型評分最高為 92 分,我們的模型為 86.8 分,排第五。86.8 分包括所有任務,如生成任務和翻譯任務。

針對數學類問題,我們理想的 Reward Model 評分分布應是正態分布,實際情況中,GPT-4o 評分在正確和錯誤回答間有明顯區分度,但我們 Reward Model 的評分分布不明顯。訓練時,Reward Model 對同一問題的正確和錯誤答案進行排序,而非絕對值評分。因此,Reward Model 能合理地對相同問題的生成進行排序,但不同問題間的絕對值評分參考意義不大。

圖片

在質量過濾時,不僅考慮相同問題,還要考慮不同問題之間的差異。因此,我們選擇了 Critique Model 進行絕對值打分。例如,左圖中,先用 Reward Model 對 n 個問題評分,取前 M 個高分,再用 Critique Model 從下往上卡絕對值。

Critique Model 的訓練如中圖所示:首先構建指令,明確角色;然后提供參考答案和模型回答;最后,GPT-4o 給出步驟和最終分值。

圖片

整個 Critique Model 訓練流程如下:從數據中提取問題和對應的參考答案,中間部分是標準指令,指導模型生成評判標準。最下面是 GPT-4o 或其他模型生成的打分結果。我們用這些數據訓練 Critique Model。GPT-4o 對問題的打分準確率為 85.94%,Critique Model 訓練后約為 84.76%。可以看到,GPT-4o 和 Critique Model 的最終打分分布差異明顯。

四、訓練優化

圖片

訓練分兩階段:RFT 階段和強化階段。

在 RFT 階段,我們采用這種方法有其背景。之前在大模型進行數學推理時發現,即使指令集不大,如果為每個問題生成多條不同的合理推理路徑,可以提升模型的多樣性和能力。因此,在 RFT 階段,我們先訓練一個 chat 模型,例如 LLaMA 進行 SFT 訓練。一階段訓練后的模型在二階段生成多條推理路徑,經過 Reward Model 和 Critique Model 的質量過濾和多樣性篩選。最終數據包含每個問題的多條推理路徑,再用于更大模型進行 RFT。

使用小模型生成和篩選數據,是因為大模型采樣成本過高。例如,10 萬條指令每條采樣 100 次,共生成 1000 萬條數據,用大模型成本較高,而小模型生成數據更節省時間成本,其生成的推理路徑更為多樣化。

圖片

上圖中可以反映出小模型的優勢,比如右上角的 LLaMA 模型,我們可以看到 33B、7B 和 13B 的模型,其中推理路徑貢獻最大的一部分并不是 33B,而是 7B。下面的圖也顯示,7B 和 14B 的模型分別貢獻了 41% 和 39% 的推理路徑,而中間兩個模型相交的推理路徑只有 19%。這說明更小的模型在數據生成和采樣方面,能得到更加多樣化的推理路徑。

圖片

整個 RFT 流程是使用較小的模型,例如我們會用 LLaMA 的小參數模型,來生成和過濾推理路徑,并進行多樣性選擇,然后再將這些數據用于更大的模型進行 RFT。質量過濾包括 Reward Model 打分和 Critique Model 打分,多樣性篩選是關鍵,因為重復的回答對大模型并不友好。

圖片

上圖中展示了詳細流程,比如左邊圖中的推理路徑由 r1 到 r3,再加入一個新路徑 r4。我們會計算 r1 到 r4 的相關性或距離,如果 r4 超過前兩個路徑的距離,就會替換其中一個,以保證選出路徑間距離最大化。在我們的流程中,重點在 PoT 部分的多樣性選擇。PoT 部分相對結構化,不同推理路徑會反映在 PoT 部分的不同實現方式上。

圖片

可以看一下,有三條路徑對應三個部分的 PoT。路徑一和路徑二在 PoT 部分看似不同,但只是注釋和變量命名不同。如果抽取關鍵信息,規范化變量命名并去掉冗余信息,會發現它們是完全相同的推理路徑。只有路徑三是真正不同的推理路徑,通過設未知數和方程來實現不同的推理。因此,設置關鍵信息抽取模塊,去掉冗余信息和規范化變量命名后,再計算相關性或距離度量,用作多樣性篩選的一個評判標準。

最終實驗結果顯示,我們的模型每次采樣 100 次,平均生成約 7.8 條推理路徑。

圖片

我們也評估了準確率。在一個評測集上,SFT 后的準確率為 71%,RFT 為 77%。但 DPO 部分沒有顯著提升。DPO 從 RFT 中采樣得分最高的答案(如九分)作為正例,得分最低的(如兩分)作為負例,并訓練 DPO 模型。訓練時加了輔助 loss 以與 reference 對齊。但九分和兩分的差距較大,DPO 能學到兩者的差異,但在難以區分的問題上優化效果不佳。

復盤發現,DPO 提升不明顯的主要原因:①在簡單問題上,答案更固定化,導致多樣性減少。②字數控制等方面做得更好,使得模型的分布更尖銳,logistic 輸出更精準,但對難題的優化效果有限。

圖片

我們對 DPO 部分進行了優化,不再用九分和兩分構建數據 pair 訓練 DPO 模型,而是使用一些難以區分的問題。例如,數學中的精度控制問題,CoT 錯誤但 PoT 正確的問題,或多步 PoT 的難題。我們將這些難以通過 SFT 解決的案例放入 DPO。

我們做了兩部分優化:PPO 和 DPO。最終效果顯示,DPO 勝率為 17%,負率為 10%,差距為 7%;而 PPO 的差距僅為 1%。上圖中右邊的案例顯示,SFT 難以解決的問題在 DPO 后確定性更好,減少了生成的隨機性。

圖片

這是一個早期的工作,講述了為什么要使用動態 loss。我們發現簡單的數學或邏輯推理,7B 或 10B 模型就能很好地解決。在訓練初期,準確率在前兩個樣本達到峰值,后續訓練效果不明顯。

而 hard sample 則需要更多輪訓練才能收斂。舉例來說,從前面 233 個 step 到最后 2047 個 step,loss 在后期才平緩。我們定義 hard sample 為模型有十條推理路徑,但 Critique Model 打分準確率低于 50% 的問題。對這些 hard sample,特別是 PoT 部分,進行動態 loss 加權。

圖片

我們一直在進行數學推理的研究,作為大模型通用能力的一部分。上圖中展示了今年 4 月的 Superclue 評測數據,這是一個閉源的第三方評測,看不到具體問題。數據顯示 GPT-4-Turbo-0125 擁有最佳表現(GPT-4o 尚未推出),國內大模型中成績最好的是從容大模型,接著就是 360gpt-pro,得分為 75.5 分。

以上就是本次分享的內容,謝謝大家。

五、問答環節

Q1:之前提到的 DPO 和 PPO 是基于兩個測試集的結果,還是在兩個不同的問題領域中的表現?另外,這兩個方法之間存在什么主要差異?

A1:那個評測是在一個評測集上的,都是數學推理類的問題。我們做了兩部分工作,一部分是 PPO,另一部分是 DPO。當時在構建 pair 對時,是根據 RFT 的最高得分和最低得分來構建的。這部分數據是重新構建的。

Q2:關于您們的合成數據工作,包括最近其他的合成數據研究,比如騰訊的 10 億人設研究。您覺得為什么這種合成數據能在復雜推理任務中發揮作用?另外,您認為合成數據在復雜推理任務中的上限是什么?因為看騰訊的研究,Scaling 曲線表現很好。

A2:這個問題很好,也是我們目前在做的,我們數據組尤其關注合成數據。為什么要做合成數據?因為現有指令少,尤其是數學類的。我們需要更多的指令,同時要提高指令的難度。比如,現有的 GSM8K 和 MAS 類指令只能擴展到小學數學應用和競賽題目,這在多樣性和難度上都有問題。我們的做法是將問題細分為數學應用類、矩陣運算類、積分類等子類。每個子類下由標注人員構建種子指令,然后再進行數據合成。第一步必須做到位,第二步才能有效。

合成數據在復雜推理任務的天花板在于篩選邏輯。如果篩選機制好,生成模型足夠優秀,就能生成更好的指令。要對指令進行關鍵詞抽取,再根據 token 級別擴展,生成的指令才會更好。篩選機制也很重要,不僅要篩選好的指令,還要篩選指令的回答,這兩者決定了天花板的高度。

英偉達的研究也展示了合成數據的重要性。只有 2 萬條數據是人工標注的,98% 是合成數據。他們的篩選方法尤其對 MAS 類問題進行了分類,但主要針對簡單問題,像 GSM8K 的簡單替換。而在數學推理外,如 close QA 或 open QA 類問題,英偉達的方法可能會生成與原數據分布相似的數據,這不是我們想要的。我們需要分布之外的數據,有擴展性的合成數據。英偉達還注重 reward model 的訓練,特別是 340B 的 reward model,這部分工作在于區分難分的指令。因此,合成數據需要細分領域或技能,最終的質量和多樣性決定了效果。

Q3:老師您好,我們看到 Critique Model 和 GPT-4o 的打分分布已經接近,Critique Model 的大小是否考慮了不同參數量的影響?您提到生成樣本數據時會用一個特別小的模型,所以判別模型也會很小,但英偉達的 reward model 很大。

A3:Critique Model 比 reference model 小很多。Critique Model 和 reward model 不同,reward model 很大,但Critique Model 不能太大。reward model 推理速度快很多,但它是二分類模型;而 Critique Model 是語言模型,兩者屬于不同類型的模型。

責任編輯:姜華 來源: DataFunTalk
相關推薦

2025-01-27 12:03:11

2025-04-08 00:40:00

谷歌合成數據大模型

2023-11-15 14:17:23

微軟語言模型AI 模型

2025-09-15 09:43:33

分層推理模型循環網絡推理

2025-06-30 02:44:00

2024-09-12 13:50:00

模型訓練

2022-04-12 14:12:43

谷歌研究模型

2025-05-29 03:00:00

混合推理模型LHRMAI

2024-07-10 09:37:57

2024-11-08 08:39:39

2025-02-13 08:51:23

DeepSeek大模型

2024-11-11 11:05:00

大語言模型系統

2023-06-05 13:02:19

OlaGPT語言模型

2025-07-10 14:55:12

機器人AI模型

2024-03-13 11:58:00

自動化數據

2025-04-10 08:23:11

2023-06-20 13:44:49

清華推理

2024-11-06 08:13:28

2024-11-11 08:50:24

點贊
收藏

51CTO技術棧公眾號

色女人在线视频| 国产夫绿帽单男3p精品视频| 成人免费在线观看av| 欧美精品久久久久久久多人混战 | 精品国自产拍在线观看| 韩国自拍一区| 亚洲性生活视频| 无码人妻一区二区三区一| 暖暖成人免费视频| 亚洲精品中文在线| 欧美自拍资源在线| 亚洲精品国产一区二| 视频一区欧美日韩| 高清欧美性猛交| 亚洲区自拍偷拍| 亚洲天堂av资源在线观看| 91国内精品野花午夜精品| 热久久最新网址| 成全电影播放在线观看国语| 不卡一卡二卡三乱码免费网站| 国产精品视频xxxx| 免费观看一区二区三区毛片| 91精品国产视频| 国产亚洲欧洲在线| 欧美孕妇与黑人孕交| 国产极品视频在线观看| 精品福利一区| 538在线一区二区精品国产| 北条麻妃69av| 影音先锋在线播放| 国产精品网友自拍| 久久99精品久久久久久水蜜桃| 91美女精品网站| 噜噜噜在线观看免费视频日韩| 欧美精品在线免费| 91免费在线看片| 国产欧美日韩精品一区二区免费| 精品国产网站在线观看| 中文字幕亚洲影院| 亚洲电影有码| 欧美性猛交xxxx免费看| 欧美成人高潮一二区在线看| www.久久ai| 国产精品白丝在线| 亚洲国产一区二区精品视频| 日韩毛片在线一区二区毛片| 成人蜜臀av电影| www.成人av.com| 亚洲av无码国产精品永久一区| 蜜桃视频一区二区三区| 国产mv免费观看入口亚洲| 国产情侣自拍av| 亚洲国产网站| 久久免费福利视频| 国产第100页| 黄色在线成人| 海角国产乱辈乱精品视频| 欧美激情图片小说| 欧美99久久| 久久97精品久久久久久久不卡| 久草手机视频在线观看| 婷婷伊人综合| 久久国产精品影视| 欧美另类视频在线观看| 欧美视频亚洲视频| 91国内产香蕉| 亚洲黄色激情视频| 久久在线精品| 美女爽到呻吟久久久久| 久久久精品2019中文字幕神马| 日韩一卡二卡在线观看| 99久久夜色精品国产亚洲96 | 日本精品一二三| jazzjazz国产精品麻豆| 亚洲黄在线观看| 免费在线观看你懂的| 欧美色女视频| 日韩在线观看免费av| wwwav国产| 一本一本久久| 国产精品久久久久久久天堂| 国产一区二区自拍视频| 风间由美性色一区二区三区| 精品一区二区久久久久久久网站| 黄色大片在线看| 亚洲三级小视频| 国产精品网站免费| 久久99国产精品二区高清软件| 欧美日韩aaaaaa| 三大队在线观看| 要久久电视剧全集免费| 精品久久国产精品| 日本三级视频在线| 亚洲欧美清纯在线制服| 成人高清视频观看www| 丁香六月天婷婷| 欧美激情综合网| 青青在线视频免费观看| 欧美三区四区| 精品欧美黑人一区二区三区| 久久久久久久毛片| 久久久久久久久国产一区| 97国产精品免费视频| 中文字字幕在线观看| 成人精品视频一区| 亚洲午夜在线观看| 波多野结衣在线播放| 欧美吻胸吃奶大尺度电影 | 免费超爽大片黄| 成人精品一区二区三区电影| 精品国一区二区三区| 日本美女xxx| 亚洲美女色禁图| 91色中文字幕| porn视频在线观看| 五月开心婷婷久久| 三级黄色片免费看| 精品国产一区二区三区香蕉沈先生| 欧美黑人性视频| 国产乱人乱偷精品视频| 久久精品夜色噜噜亚洲a∨| 拔插拔插海外华人免费| 欧州一区二区三区| 精品国产一区二区三区四区在线观看| 亚洲天堂一区在线| 成人性生交大片免费看中文| 在线视频福利一区| 久久久成人av毛片免费观看| 亚洲精品永久免费| 在线观看 中文字幕| 国产精品99久久久| 五月天av影院| 宅男噜噜噜66国产精品免费| 国产一区二区三区久久精品| 天天综合天天干| 成人美女视频在线观看18| 久久福利一区二区| 经典三级久久| 精品国产美女在线| 一本色道久久综合精品婷婷| 国产日产欧产精品推荐色| 国产欧美高清在线| 猛男gaygay欧美视频| 欧美亚洲一级片| 青青草手机在线| 黑人与娇小精品av专区| 日韩精品卡通动漫网站| 久久精品日产第一区二区| 久久久久欧美| 成人私拍视频| 亚洲欧美精品suv| 日韩在线播放中文字幕| 国产欧美一区二区在线观看| 天天插天天操天天射| 清纯唯美日韩| 国产这里只有精品| 高潮毛片在线观看| 欧美一级黄色片| 亚洲一区二区91| 99视频精品免费视频| 国产精品12345| 亚洲成aⅴ人片久久青草影院| 日韩美女免费视频| 最新97超碰在线| 欧美福利视频导航| 日本黄色小说视频| 成人精品小蝌蚪| avav在线看| 日本一本不卡| 92国产精品久久久久首页 | 亚洲二区在线视频| 日b视频在线观看| 久久精品首页| 亚洲资源在线网| 欧美大片91| 8x拔播拔播x8国产精品| 成人精品一区二区三区校园激情| 欧美日韩国产一级二级| 青青草免费av| www激情久久| 国产永久免费网站| 最新成人av网站| 日韩精品福利视频| 激情综合五月| 777777777亚洲妇女| 成人av毛片| 精品久久久久久亚洲综合网| 国产成人精品777777| 1区2区3区精品视频| 好男人香蕉影院| 亚洲国产精品va在线| 国产一级黄色av| 久久亚洲综合色一区二区三区 | 亚洲人做受高潮| 成人h版在线观看| 久久午夜夜伦鲁鲁一区二区| 欧美一区激情| 玛丽玛丽电影原版免费观看1977| 亚洲成人va| 97精品国产97久久久久久| 日本蜜桃在线观看| 日韩电影中文字幕在线| 91好色先生tv| 在线免费亚洲电影| 精品午夜福利在线观看| 国产精品免费aⅴ片在线观看| 亚洲日本久久久| 国产在线一区二区| aⅴ在线免费观看| 国产一区二区三区自拍| 一区二区91美女张开腿让人桶| 久久精品色综合| 亚洲va欧美va国产综合剧情| 快播电影网址老女人久久| 久久久久久久久网站| 免费在线观看黄| 尤物yw午夜国产精品视频| 手机看片1024日韩| 日韩视频123| 一级黄色免费片| 91精品1区2区| 免费在线不卡视频| 亚洲国产精品一区二区尤物区| 亚洲国产精品一区二区久久hs| 久久免费看少妇高潮| 日本在线视频播放| 久久精品国产一区二区| 亚洲成人av免费看| 视频一区二区三区在线| 国产一区二区在线视频播放| 国产一区视频在线观看免费| 中文字幕精品在线播放| 欧美www视频在线观看| 欧美性天天影院| 一区二区三区日本久久久| 精品国产_亚洲人成在线| 给我免费播放日韩视频| 成人午夜电影在线播放| 一区二区亚洲视频| 5566av亚洲| 国产日本亚洲| 亚洲xxx大片| 日本伊人久久| 91大片在线观看| 精品一区二区三区在线观看视频| 91久久久久久久久| 懂色av色香蕉一区二区蜜桃| 成人久久久久久久| 97久久精品一区二区三区的观看方式 | 国产一二三av| 国产精品久久久久影院老司| 国产91在线播放九色| 中文字幕一区免费在线观看| 香蕉久久久久久久| 综合精品久久久| 国产性生活大片| 亚洲最色的网站| 国产91av视频| 欧美日韩中文字幕| 中文字幕一区在线播放| 欧美自拍偷拍午夜视频| 亚洲图片中文字幕| 制服丝袜成人动漫| 黄色美女一级片| 精品无人国产偷自产在线| 国产午夜在线视频| 久久精品人人做人人爽| 五月花成人网| 91极品女神在线| 日韩毛片免费观看| 国产色视频一区| 99国产精品免费网站| 久久精品二区| 日韩欧美三级| 国产一区二区三区乱码| 欧美亚洲三级| 99国产精品久久久久久| 高清shemale亚洲人妖| 三级黄色片网站| 国产精品久久久久久久蜜臀| 欧美成人精品一区二区免费看片| 午夜视频在线观看一区| 中文字幕网址在线| 欧美不卡一区二区| 黄色小视频在线观看| 欧美成人精品一区| 另类激情视频| 亚洲aaa激情| 免费精品国产的网站免费观看| 一区二区精品国产| 最新亚洲激情| gogogo高清免费观看在线视频| 成人午夜av电影| 亚洲欧美日韩第一页| 亚洲一区在线视频观看| 国产精品无码粉嫩小泬| 日韩精品一区二区三区蜜臀| 可以免费看污视频的网站在线| 色琪琪综合男人的天堂aⅴ视频| 国产偷倩在线播放| 国产欧美一区二区三区视频| 国产精品一区二区三区美女| 日韩精品另类天天更新| 国产综合激情| 久久久久免费精品| 国产一区二区不卡老阿姨| 五月天综合视频| 午夜精品一区二区三区三上悠亚| 又骚又黄的视频| 国产偷国产偷亚洲清高网站| av软件在线观看| 国产精品视频久| 色吊丝一区二区| 乱熟女高潮一区二区在线| 久久aⅴ国产欧美74aaa| 欧洲女同同性吃奶| 亚洲成a人在线观看| 一区二区久久精品66国产精品| 日韩av在线电影网| 日本高清在线观看视频| 91精品久久久久久久久久| 久久99高清| 国产精品12345| 成人精品免费看| 久久国产在线观看| 91精品午夜视频| 国产不卡在线| 成人精品久久av网站| 日韩视频在线观看| 欧美视频免费播放| 26uuu亚洲| 日韩成人免费观看| 亚洲国产天堂久久综合| 女同一区二区免费aⅴ| 91国产丝袜在线放| 亚洲国产日韩欧美在线| 亚洲va在线va天堂va偷拍| 国产精品区一区二区三区| 波多野结衣一区二区三区四区| 日韩成人中文字幕在线观看| av资源在线| 国产一区二区精品在线| 亚洲福利一区| 国产精品手机在线观看| 亚洲国产精品一区二区www| 欧美一区二区三区黄片| 久久久视频免费观看| 懂色av一区二区| 99精品在线免费视频| 91美女片黄在线| www亚洲视频| 夜夜躁日日躁狠狠久久88av| 亚洲综合在线电影| 无码免费一区二区三区免费播放| 日韩电影网1区2区| 后入内射无码人妻一区| 91麻豆精品国产91久久久久久 | 欧洲精品毛片网站| 亚州国产精品| 九九热在线免费| 亚洲视频一区在线| www.色日本| 欧美一级黑人aaaaaaa做受| 精品国产一级毛片| 亚洲国产成人va在线观看麻豆| 一区在线播放视频| av免费在线观看不卡| 国内揄拍国内精品少妇国语| 日韩理论电影中文字幕| 国产九九在线视频| 亚洲精品国产一区二区精华液 | 中文字幕亚洲色图| 亚洲精品成人一区| 欧美乱大交xxxxx潮喷l头像| 91丝袜美腿高跟国产极品老师 | 男人久久天堂| 婷婷四月色综合| 国产精品911| 久久青青草原亚洲av无码麻豆| 日韩最新中文字幕电影免费看| 一区二区中文字幕在线观看| 久久精品午夜福利| 亚洲免费伊人电影| 青青草免费在线| 成人精品久久久| 亚洲综合国产| 天天做夜夜爱爱爱| 日韩成人在线电影网| 性欧美video另类hd尤物| www.射射射| 国产精品久久久久久久久免费相片| 成人毛片在线精品国产| 日韩av免费网站| 欧美天堂亚洲电影院在线观看| 国产成人av一区二区三区不卡| 日韩一级完整毛片| 韩国成人在线| 成 年 人 黄 色 大 片大 全| 国产精品麻豆99久久久久久| 手机看片一区二区|