精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM | SimPO:使用無參考獎勵的簡單偏好優化

發布于 2024-5-28 10:52
瀏覽
0收藏

LLM | SimPO:使用無參考獎勵的簡單偏好優化-AI.x社區

一、結論寫在前面

直接偏好優化(DPO)是一種廣泛使用的離線偏好優化算法,它通過人類反饋(RLHIP)重新參數化強化學習中的獎勵函數,以增強簡單性和訓練穩定性。

論文提出了SimPO,一種更簡單但更有效的方法。SimPO的有效性歸功于一個關鍵設計:使用序列的平均對數概率作為隱式獎勵。這種獎勵形式更好地與模型生成對齊,并消除了對參考模型的需求,使其在計算和內存上更高效。此外,論文在Bradley-Terry目標中引入了一個目標獎勵邊際,以鼓勵獲勝和失敗響應之間的更大邊際,進一步提升了算法的性能。論文將SimPO與DPO及其最新變體在各種最先進的訓練設置中進行了比較,包括Mistral和Llama3等基礎和指令調整模型。論文在廣泛的指令遵循基準上進行了評估,包括AlpacaEval 2、MT-Bench以及最近具有挑戰性的Arena-Hard基準。    

論文的結果表明,SimPO始終且顯著地優于現有方法,而不會大幅增加響應長度。具體而言,SimPO在AlpacaEval 2上超越DPO最多6.4分,在Arena-Hard上最多7.5分。論文基于Llama3-8B-Instruct構建的頂級模型在AlpacaEval 2上實現了驚人的44.7長度控制勝率——超越了排行榜上的Claude 3 Opus,并在Arena-Hard上達到了33.8的勝率,使其成為最強大的8B開源模型。

盡管SimPO在實證上取得了成功并具有直觀的動機,但論文缺乏對其工作原理的理論和嚴格理解。此外,引入目標獎勵邊際需要論文調整額外的超參數,未來的工作可以探索如何自動確定最佳邊際。其次,SimPO是一種離線偏好算法,并未利用迭代訓練或其他正交技術。未來的研究可以探索將SimPO與這些方法結合,以進一步提高模型性能。第三,論文的實驗僅專注于評估幫助性,忽略了模型行為的其他關鍵方面,如安全性、誠實性和公平性。在未來的研究中,調查SimPO在這些行為上的泛化能力是重要的。最后,論文觀察到在一些下游任務上,尤其是在數學基準測試上的性能下降。

二、論文的簡單介紹

2.1 論文的背景

從人類反饋中學習對于使大型語言模型(LLMs)與人類價值觀和意圖對齊至關重要,確保它們是有幫助的、誠實的和無害的。從人類反饋的強化學習(RLHF)是一種流行的方法,用于微調語言模型以實現有效對齊。盡管經典的RLIIF方法已顯示出令人印象深刻的結果,但由于其多階段程序,它提出了優化挑戰,該程序涉及訓練獎勵模型,然后優化策略模型以最大化該獎勵。

最近,研究人員一直在探索更簡單的離線算法。直接偏好優化(DPO)就是這樣一種方法。DPO重新參數化了RLHF中的獎勵函數,直接從偏好數據中學習策略模型,從而消除了顯式獎勵模型的需求。由于其簡單性和穩定性,它獲得了廣泛的實際采用。在DPO中,隱含的獎勵是使用當前策略模型和監督微調(SFT)模型之間響應的可能性對數比值來形式化的。然而,這種獎勵形式化并不直接與用于指導生成的度量相一致,這個度量大約是策略模型生成的響應的平均對數似然。論文假設訓練和推理之間的這種差異可能導致性能不佳。              

LLM | SimPO:使用無參考獎勵的簡單偏好優化-AI.x社區

              圖1:SimPO和DPO主要在獎勵公式上有所不同,如圖中陰影框所示。在AlpacaEval 2和Arena-Hard的廣泛設置中,SimPO優于DPO    

在本工作中,論文提出了SimPO,一種簡單而有效的離線偏好優化算法(圖1)。論文算法的核心是將偏好優化目標中的獎勵函數與生成度量對齊。SimPO包含兩個主要組件:(1) 一個長度歸一化獎勵,計算為策略模型中所有令牌在響應中的平均對數概率,以及(2) 一個目標獎勵邊際,確保獲勝和失敗響應之間的獎勵差異超過此邊際。

表1:AlpacaEval 2排行榜上頂級模型的長度控制(LC)和原始勝率(WR),以及生成長度。粗體為論文訓練的模型    

LLM | SimPO:使用無參考獎勵的簡單偏好優化-AI.x社區

2.2 論文的方法--SimPO

2.2.1 背景:直接偏好優化(DPO)

DPO 是最流行的離線偏好優化方法之一。DPO不是學習一個顯式的獎勵模型 ,而是使用一個封閉形式的表達式重新參數化獎勵函數。

2.2.2 與生成一致的簡單無參考獎勵

DPO中獎勵與生成的差異。使用公式(1)作為隱式獎勵表達式存在以下缺點:(1) 訓練期間需要參考模型Tref,這增加了內存和計算成本;(2) 訓練期間優化的獎勵與用于推理的生成指標之間存在差異。具體而言,在生成過程中,策略模型πθ用于生成序列,該序列大致最大化平均對數似然。

在解碼過程中直接最大化此指標是不可行的,可以使用各種解碼策略來近似它,例如貪心解碼、束搜索、核采樣和top-k采樣。此外,此指標常用于語言模型中的多項選擇任務中對選項進行排名。在DPO中,對于任何三元組,滿足獎勵排名并不一定意味著似然排名成立。事實上,當使用DPO訓練時,僅約50%的保留集三元組滿足此條件(見圖4b)。    

2.2.3 SimPO目標

目標獎勵邊際。此外,論文在Bradley-Terry目標中引入了一個目標獎勵邊際項,以確保獲勝響應的獎勵至少超過失敗響應的獎勵。兩個類別之間的邊際被認為會影響分類器的泛化能力。在標準訓練設置中,隨機模型初始化下,增加目標邊際通常會提高泛化能力。在偏好優化中,兩個類別是單個輸入的獲勝和失敗響應。實際上,論文觀察到生成質量最初隨著目標邊際的增加與提高,但當邊際變得過大時會下降。DPO的一個變體,IPO,也提出了一個類似SimPO的目標獎勵邊際。然而,其完整目標不如SimPO有效。

目標。SimPO目標:

LLM | SimPO:使用無參考獎勵的簡單偏好優化-AI.x社區

總之,SimPO采用了一種與生成指標直接對齊的隱式獎勵公式,消除了對參考模型的需求。此外,它引入了一個目標獎勵邊際y,以幫助區分獲勝和失敗響應。在附錄E中,論文提供了SimPO和DPO的梯度分析,以進一步理解這兩種方法之間的差異。

2.3 論文的效果

2.3.1 實驗設置

模型和訓練設置。論文在兩種模型系列Llama3-8B和Mistral-7B上進行偏好優化,分別在基礎和指令兩種設置下進行。

在Base設置中,論文首先在UltraChat-200k數據集上對一個基礎模型進行監督微調(SFT)以獲得SFT模型。接著,論文使用SFT模型作為起點,在UltraFeedback數據集上進行偏好優化。這種設置提供了高度的透明性,因為SFT模型是基于開源數據訓練的。

對于Instruct設置,論文使用現成的指令調優模型(作為SFT模型。這些模型經歷了廣泛的指令調優過程,使其比Base設置中的SFT模型更強大和穩健。然而,它們也更不透明,因為它們的RLIIF過程未公開披露。為了減輕SFT模型與偏好優化過程之間的分布偏移,論文根據使用SFT模型生成偏好數據集。    

綜上所述,論文有四種設置:Llama3-Base、Llama3-Instruct、Mistral-Base和Mistral-Instruct。論文相信這些配置代表了最先進的技術水平,使論文的模型在各種排行榜上名列前茅。論文鼓勵未來的研究采用這些設置,以實現不同算法之間更好和更公平的比較。

此外,論文發現調整超參數對于所有離線偏好優化算法(包括SimPO)實現最佳性能至關重要。通常,對于SimPO,設置B在2.0到2.5之間,y在0.5到1.5之間,可以在所有設置中獲得良好的性能。更多詳情,請參閱附錄A。

評估基準。 論文主要使用三個最受歡迎的開放式指令遵循基準來評估論文的模型:MT-Bench 、AlpacaEval 2 [和 Arena-Hard v0.1。這些基準測試了模型在多樣化查詢集上的多才多藝對話能力,并已被社區廣泛采用(詳情見表2)。

LLM | SimPO:使用無參考獎勵的簡單偏好優化-AI.x社區

基線。 論文將SimPO與其他離線偏好優化方法進行了比較,這些方法列于表3中。IPO 是一種理論基礎方法,避免了DPO假設成對偏好可以被點態獎勵替代。KTO [25]從非配對偏好數據中學習。ORPO 引入了一個參考模型無關的奇數比率項,直接對比獲勝和失敗的響應與策略模型,并聯合訓練SFT目標。R-DPO 是DPO的修改版本,包含了一個額外的正則化項以防止長度利用。論文徹底調整了超參數。對于每個基線參數,論文報告最佳性能。論文發現許多DPO的變體在實證上并未顯示出優于標準DPO的優勢。更多細節可在附錄A中找到。

2.3.2實驗結果

2.3.2.1 主要結果和消融研究

表3:給定偏好數據D,各種偏好優化目標。                  
方法    

LLM | SimPO:使用無參考獎勵的簡單偏好優化-AI.x社區

SimPO始終且顯著地超越了現有的偏好優化方法。如表4所示,盡管所有偏好優化算法都提升了SFT模型的性能,但SimPO,盡管其簡單性,在所有基準和設置中實現了最佳的整體性能。值得注意的是,SimPO在AlpacaEval 2 LC勝率上比最佳基線高出3.6至4.8個百分點,在Arena-Hard上跨不同設置高出0.2至6.2個百分點。這些一致且顯著的改進突顯了SimPO的魯棒性和有效性。

基準測試的質量有所不同。盡管所有三個基準測試都被廣泛采用,但論文發現MTBench在不同方法之間的可分離性較差。MTBench上方法之間的微小差異可能歸因于隨機性,這可能是由于其評估數據的規模有限以及其單實例評分協議所致。這一發現與 [50] 中報告的觀察結果一致。

相比之下,AlpacaEval 2和Arena-Hard能夠在不同方法之間提供更有意義的區分。另外,Arena-Hard采用了與基線模型不同的評判模型,可能會帶來更公平的評估。論文觀察到,Arena-Hard上的勝率明顯低于AlpacaEval 2,這表明Arena-Hard是一個更具挑戰性的基準測試。    

表 4:在四種設置下的 AlpacaEval 2 [51]、Arena-Hard [50] 和 MT-Bench [88] 結果。LC 和 WR 分別表示長度控制和原始勝率。論文在 UltraChat 數據集上針對基礎設置訓練 SFT 模型。對于指令設置,論文使用現成的模型作為 SFT 模型

LLM | SimPO:使用無參考獎勵的簡單偏好優化-AI.x社區

表 5:在 Mistral-Base 和 Mistral-Instruct 設置下的消融研究。論文對 SimPO 的每個關鍵設計進行消融:(1) 在等式 (4) 中去除長度歸一化(即,w/o LN);(2) 在等式 (6) 中將目標獎勵邊際 LLM | SimPO:使用無參考獎勵的簡單偏好優化-AI.x社區 設為 0(即,LLM | SimPO:使用無參考獎勵的簡單偏好優化-AI.x社區

LLM | SimPO:使用無參考獎勵的簡單偏好優化-AI.x社區

    

Instruct設置引入了顯著的性能提升。在所有基準測試中,論文觀察到Instruct設置始終優于Base設置。這種改進可能是由于用于初始化的SFT模型質量更高,以及這些模型生成了更高質量的偏好數據。

SimPO中的兩個關鍵設計至關重要。在表5中,論文展示了去除SimPO每個關鍵設計元素后的結果:(1) 在公式(4)中移除長度歸一化(即,無LN);(2) 在公式(6)中將目標獎勵邊際設為0(即,y = 0)。移除長度歸一化對結果產生了最大的負面影響。論文的檢查發現,這會導致生成冗長且重復的模式,顯著降低輸出整體質量(見附錄D)。將y設為0也導致性能下降,相比SimPO表現不佳,表明這并非最佳選擇。                  

LLM | SimPO:使用無參考獎勵的簡單偏好優化-AI.x社區

圖2:長度歸一化(LN)的影響。(a) 獎勵邊際與獲勝和失敗響應之間的長度差異的關系。(b) SimPO中平均對數概率與響應長度之間的Spearman相關性。(c) 未采用LN的SimPO的Spearman相關性

LLM | SimPO:使用無參考獎勵的簡單偏好優化-AI.x社區

圖3:邊際研究。(a) 不同y值下的獎勵準確性和AlpacaEval2 LC勝率。(b) 不同y值下的獎勵差異分布。(c) 不同y值下選擇的響應的對數似然分布

2.3.2.2 長度歸一化(LN)防止長度利用

長度歸一化導致所有偏好對之間的獎勵差異增加,無論其長度如何。論文調查了從UltraFeedback訓練集中獲勝和失敗響應之間的學習獎勵差異與長度差異Δl = yw - yn之間的關系。論文使用SFT模型、SimPO模型以及未使用長度歸一化的SimPO訓練的模型來測量獎勵差異。結果如圖2a所示,觀察到帶有LN的SimPO始終為所有響應對實現正獎勵邊際,無論其長度差異如何,并且始終提高了邊際超過SFT模型。相比之下,不帶LN的SimPO在獲勝響應短于失敗響應的偏好對中導致了負獎勵差異,表明模型在這些實例上學習不佳。    

移除LN導致獎勵與響應長度之間存在強烈的正相關關系,從而引發長度利用問題。圖2b和2c展示了在保留集上,使用SimPO訓練的模型與未使用LN訓練的模型的平均對數似然度與響應長度之間的關系。未使用LN訓練的模型顯示出比SimPO更強的正斯皮爾曼相關性,表明其傾向于利用長度偏差并生成更長的序列。相比之下,SimPO導致斯皮爾曼相關系數與SFT模型相似。

2.3.2.3 SimPO中目標獎勵邊際的影響

目標獎勵邊際y對獎勵準確性和勝率的影響。論文研究了SimPO中目標獎勵邊際n如何影響保留集上的獎勵準確性和AlpacaEval 2上的勝率,結果如圖3a所示。獎勵準確性被衡量為偏好對中獲勝響應最終獲得的獎勵高于失敗響應的比例。論文觀察到,在兩個基準測試上,獎勵準確性隨y的增加而提高,表明強制實施更大的目標獎勵邊際有效地提高了獎勵準確性。                  

LLM | SimPO:使用無參考獎勵的簡單偏好優化-AI.x社區

                  

圖4:SimPO與DPO在UltraFeedback上的對比。(a) DPO中平均對數概率與響應長度之間的Spearman相關性。(b) 基于DPO獎勵和訓練集上的平均對數似然排名的列聯表。(c) DPO和SimPO的獎勵準確性。(d) DPO和SimPO的運行時間和內存使用情況。

2.3.2.4 DPO與SimPO的深入分析

本節中,論文從以下四個方面對比SimPO與DPO:(1) 似然-長度相關性,(2) 獎勵公式化,(3) 獎勵準確性,(4) 算法效率。論文證明SimPO在獎勵準確性和效率方面優于DPO。    

LLM | SimPO:使用無參考獎勵的簡單偏好優化-AI.x社區

DPO獎勵隱含地促進了長度歸一化。盡管DPO獎勵表達式缺少明確的長度歸一化項,但策略模型與參考模型之間的對數比值可以隱式地抵消長度偏差。如表6和圖4a所示,采用DPO降低了平均對數似然與響應長度之間的斯皮爾曼相關系數,相比于不進行任何長度歸一化的方法。然而,與SimPO相比,它仍然表現出更強的正相關性。

DPO獎勵與生成可能性不匹配。DPO的獎勵函數 與目標生成技術存在分歧,直接影響生成過程。相比之下,SimPO直接采用平均對數似然(按B縮放)作為獎勵表達式,從而完全消除了這種差異,如圖5b所示。

DPO在獎勵精度方面落后于SimPO。在圖4c中,論文比較了SimPO和DPO的獎勵精度,評估了它們最終學習到的獎勵與留出集上的偏好標簽的一致性。論文觀察到,SimPO始終比DPO取得更高的獎勵精度,這表明論文的獎勵設計有助于更有效的泛化,并導致更高質量的生成結果。

SimPO比DPO在內存和計算效率方面更有優勢。SimPO的另一個好處是效率較高,因為它不使用參考模型。圖4d展示了在使用8個H100 GPU的Llama3-Base設置下,SimPO和DPO的整體運行時間和每GPU內存峰值使用情況。與普通DPO實現相比,SimPO減少了約20%的運行時間,降低了約10%的GPU內存使用,這得益于不需要使用參考模型進行前向傳播。

論文標題:SimPO: Simple Preference Optimization with a Reference-Free Reward

論文鏈接:???https://arxiv.org/pdf/2405.14734??    

本文轉載自 ??AI帝國??,作者: 無影寺

收藏
回復
舉報
回復
相關推薦
精品久久国产一区| 波多野结衣在线网站| 在线成人www免费观看视频| 国产网站欧美日韩免费精品在线观看| 国产亚洲综合视频| 日韩三级影院| aaa国产一区| 国产欧美精品一区二区三区-老狼 国产欧美精品一区二区三区介绍 国产欧美精品一区二区 | 国产日韩av在线| 国产亚洲精品久久777777| 蜜桃a∨噜噜一区二区三区| 欧美日韩在线播放| 蜜臀av无码一区二区三区| 亚洲s色大片| hitomi一区二区三区精品| 成人网中文字幕| 亚洲s码欧洲m码国产av| 欧美日本二区| www亚洲精品| 三上悠亚ssⅰn939无码播放| 99久久人爽人人添人人澡| 欧美性受xxxx| 99热成人精品热久久66| 98色花堂精品视频在线观看| 亚洲欧洲另类国产综合| 日本a级片久久久| 亚洲美女福利视频| 久久国产麻豆精品| 日本不卡高字幕在线2019| 久久精品视频国产| 欧美成人亚洲| 久久不射电影网| 欧美福利在线视频| 免费一区二区三区视频导航| 亚洲大尺度美女在线| 国产精品欧美性爱| 97精品资源在线观看| 欧洲色大大久久| 久久精品一区二| 涩涩在线视频| 狠狠久久亚洲欧美专区| 91丨porny丨探花| 久草在线视频网站| 一区二区三区不卡视频在线观看| 一区二区三区精品国产| 成人动漫在线播放| 国产欧美一区二区精品性色| 你懂的视频在线一区二区| 香蕉视频黄色片| 99r精品视频| 免费一区二区三区| 黄视频在线播放| 国产日产欧产精品推荐色| 欧美一区二区福利| 92国产在线视频| 国产精品看片你懂得| 在线观看一区二区三区三州| 男人和女人做事情在线视频网站免费观看| 中文字幕av免费专区久久| 先锋影音欧美| 老司机免费在线视频| 亚洲另类中文字| 99久热在线精品视频| 黄色大片在线| 色综合色狠狠天天综合色| 亚洲成熟丰满熟妇高潮xxxxx| 欧美色网一区| 欧美日韩视频在线第一区| 激情在线观看视频| 中文字幕一区二区三区四区久久| 亚洲精品一区二区三区福利| 老熟妇精品一区二区三区| 亚洲素人在线| 色婷婷综合久久久久| 免费在线观看h片| 精品成人久久| 日韩av毛片网| 国产99久一区二区三区a片| 从欧美一区二区三区| 精品在线视频一区二区| 北条麻妃在线| 亚洲综合成人网| 免费av网址在线| 欧美视频免费看| 精品国产免费人成在线观看| 亚洲熟妇无码av| 在线精品视频在线观看高清| 97成人在线视频| 亚洲熟妇av乱码在线观看| 国产99精品视频| 欧美二区三区| 成年视频在线观看| 欧美色欧美亚洲高清在线视频| 日本精品免费在线观看| 91亚洲精品在看在线观看高清| 亚洲成人激情在线| 麻豆视频免费在线播放| 亚洲天堂成人| 国产精品午夜一区二区欲梦| 人妻妺妺窝人体色www聚色窝 | 欧美第一页在线观看| 99精品视频网| 91精品在线看| 国产在线日本| 亚洲va欧美va人人爽| 亚洲综合av在线播放| 西野翔中文久久精品字幕| 久久天堂电影网| 神马久久久久久久| 成人美女视频在线观看18| 亚洲精品欧洲精品| 亚洲第一av| 日韩三级精品电影久久久| 免费在线观看a视频| 怡红院精品视频在线观看极品| 国产欧美日韩亚洲精品| 人人九九精品| 精品magnet| 在线观看欧美一区二区| 亚洲二区三区不卡| 国产精品美女免费看| 亚洲三区在线播放| 亚洲国产日韩一区二区| 国产成人强伦免费视频网站| 久久国产亚洲精品| 国产97在线亚洲| 天堂中文在线资源| 亚洲永久免费av| 久久久久无码精品| 在线成人直播| 3d动漫啪啪精品一区二区免费| 91成人高清| 欧美日韩免费高清一区色橹橹| 3d动漫精品啪啪一区二区下载 | 男人天堂综合网| 亚洲精品五月天| 免费成人黄色大片| 婷婷激情综合| 91精品久久久久| 欧美精品videos另类| 欧美性一二三区| 欧美日韩中文字幕视频| 日韩精品一区第一页| 欧美日韩在线一区二区三区| 在线天堂中文资源最新版| 日韩精品中文字幕在线| 六月丁香在线视频| 久久婷婷综合激情| 波多野结衣乳巨码无在线| 欧美一级色片| 国产精品∨欧美精品v日韩精品| 欧洲成人av| 在线观看网站黄不卡| 国产一级久久久久毛片精品| 麻豆91精品视频| 青青草免费在线视频观看| 久久久久九九精品影院| 欧美极品少妇全裸体| 三级视频在线看| 欧美性猛交xxxx乱大交3| 九色porny自拍视频| 免费看精品久久片| 成人性做爰片免费视频| 91综合精品国产丝袜长腿久久| 久久久久久国产| 四虎在线观看| 欧美日韩电影一区| 久久久精品一区二区涩爱| 99国产精品国产精品毛片| 国产三级日本三级在线播放| 夜间精品视频| 久久99精品久久久久久久青青日本| 一级毛片久久久| 搡老女人一区二区三区视频tv| 国产精品无码AV| 亚洲二区在线观看| 国产美女永久免费无遮挡 | 第四色在线视频| 日韩精品久久理论片| 综合操久久久| 久久av国产紧身裤| 国产精品国产三级国产专播精品人 | 上原亚衣av一区二区三区| 精品人妻少妇嫩草av无码专区| 图片区小说区国产精品视频| 国产白丝一区二区三区| 不卡的av中国片| 狠狠躁狠狠躁视频专区| 国产综合婷婷| 日韩在线三级| 精品精品国产毛片在线看| 国产精品中文在线| 超碰在线99| 色偷偷91综合久久噜噜| 人人妻人人澡人人爽久久av| 欧美久久一区二区| 天堂网一区二区三区| 一区在线中文字幕| 波多野结衣av在线免费观看| 极品少妇xxxx精品少妇| 欧美黄色一级片视频| 欧美1区视频| 亚洲人体一区| 久久综合另类图片小说| 91免费在线视频网站| 成年美女黄网站色大片不卡| 色综合久久天天综线观看| 成人动漫在线播放| 精品亚洲精品福利线在观看| 国内精品国产成人国产三级| 欧美性大战久久| 日本天堂网在线| 亚洲午夜久久久久久久久电影院| 美国美女黄色片| 久久―日本道色综合久久| 亚洲图片欧美另类| 国产一区二区在线免费观看| 嫩草av久久伊人妇女超级a| 激情综合中文娱乐网| 福利网在线观看| 久久在线电影| 亚洲午夜精品久久久中文影院av| 亚洲精品进入| 久久国产精品免费一区| 97视频一区| 国产91亚洲精品一区二区三区| 亚洲一区二区av| 国产在线拍偷自揄拍精品| 国产经典一区| 国产精品视频色| 自拍偷自拍亚洲精品被多人伦好爽 | 青娱乐91视频| 亚洲另类在线制服丝袜| 欧美激情精品久久久久久免费| 中国色在线观看另类| 国产人妻一区二区| 久久亚洲一区二区三区四区| 538国产视频| 91小视频在线免费看| 五月婷婷综合在线观看| 91在线丨porny丨国产| 亚洲精品在线视频免费观看| 97成人超碰视| 国产伦精品一区二区三区妓女| 99麻豆久久久国产精品免费| 亚洲一区二区乱码| 91在线免费视频观看| 日韩精品电影一区二区| 久久久不卡影院| 在线小视频你懂的| 国产精品每日更新在线播放网址 | 亚洲成人福利片| 日韩 欧美 亚洲| 欧美视频在线观看 亚洲欧| 天天操夜夜操视频| 欧美视频一区二区在线观看| 亚洲专区第一页| 这里是久久伊人| 亚洲av无码乱码在线观看性色| 日韩久久久久久| 天天综合永久入口| 亚洲免费一级电影| 在线播放毛片| 日韩中文字幕网址| 色老头在线观看| 欧美与欧洲交xxxx免费观看| 色天使综合视频| 成人啪啪免费看| 哺乳挤奶一区二区三区免费看| 久久99蜜桃综合影院免费观看| 一区三区在线欧| 一本久道久久综合| 伊人狠狠色j香婷婷综合| 中文字幕日本最新乱码视频| 美女久久久精品| 免费看91视频| www国产成人免费观看视频 深夜成人网| 成人在线手机视频| 亚洲精品免费在线观看| 不卡的免费av| 欧美性xxxxx极品少妇| 国产成人精品毛片| 亚洲免费成人av电影| 欧美成人hd| 5252色成人免费视频| 日韩深夜福利网站| 久久av免费观看| 国产精品久久久久久久久久10秀| 2018国产在线| 韩国精品在线观看| 97伦伦午夜电影理伦片| 亚洲色图一区二区| 亚洲欧美一二三区| 精品国精品自拍自在线| 国产精品久久一区二区三区不卡| 久久久久国产一区二区三区| 成人黄页网站视频| 国产伦精品一区二区| 久久精品不卡| 欧洲av无码放荡人妇网站| 国产呦萝稀缺另类资源| 国产小视频自拍| 亚洲福利视频一区| 国产成人精品一区二三区四区五区| 亚洲免费电影在线观看| 日韩少妇视频| 成人国产精品久久久久久亚洲| 亚洲传媒在线| 日本手机在线视频| 国产乱码精品一区二区三区忘忧草| 蜜桃传媒一区二区亚洲av| 亚洲国产wwwccc36天堂| 一级全黄裸体免费视频| 亚洲三级黄色在线观看| www欧美xxxx| 444亚洲人体| 日韩电影二区| av免费网站观看| 99r国产精品| 日韩视频免费观看高清| 日韩一级视频免费观看在线| av资源网站在线观看| 91极品女神在线| 丁香综合av| 成年人网站国产| 成人免费福利片| 精品深夜av无码一区二区老年| 91精品国产一区二区| 午夜视频在线| 国产精品亚洲欧美导航| 精品视频网站| 男人舔女人下面高潮视频| 久久综合九色综合97婷婷女人| 日韩欧美亚洲视频| 亚洲国产中文字幕久久网| av在线不卡免费| 国产视色精品亚洲一区二区| 精品91视频| 97香蕉碰碰人妻国产欧美| 亚洲.国产.中文慕字在线| 人妻妺妺窝人体色www聚色窝| 国内精品小视频在线观看| 超碰在线亚洲| 337p粉嫩大胆噜噜噜鲁| xfplay精品久久| 无码人妻一区二区三区线| 亚洲香蕉成视频在线观看| 自拍偷自拍亚洲精品被多人伦好爽| 欧美国产二区| 日本麻豆一区二区三区视频| 国产大屁股喷水视频在线观看| 欧美日韩国产首页在线观看| 国产乱色在线观看| 91成人在线看| 宅男噜噜噜66一区二区 | 亚洲天堂av一区| 国产精品人人爽| 欧美精品福利视频| 真实原创一区二区影院| 九色porny91| 中文字幕永久在线不卡| www.好吊色| 68精品久久久久久欧美| 欧美丝袜激情| 四川一级毛毛片| 午夜电影网一区| 韩国三级在线观看久| 国产一区二区在线免费视频| 欧美成熟视频| 插吧插吧综合网| 欧美日韩午夜精品| 久久香蕉一区| 欧美日韩在线精品| 韩国精品久久久| 在线观看精品国产| 亚洲新中文字幕| 日韩欧美中文在线观看| 99精品视频在线看| 亚洲人成网站在线| 同心难改在线观看| 成人福利在线观看| 亚洲激情一区| 久久国产高清视频| 日韩电影中文字幕一区| 四虎国产精品免费久久5151| 欧美精品自拍视频| 综合久久综合久久| 日韩一二三四| 97人人模人人爽人人喊38tv| 性欧美xxxx大乳国产app| 欧美成人777| 亚洲欧洲在线看| 成人搞黄视频| 99视频精品免费| 亚洲国产视频直播| 日本中文字幕在线视频| 久久久久久欧美精品色一二三四 | 国产呦小j女精品视频| 91精选在线观看| 欧美成人app|