精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

斯坦福提出對(duì)比偏好學(xué)習(xí):無(wú)需強(qiáng)化學(xué)習(xí)即可從人類反饋中學(xué)習(xí)

人工智能 新聞
我們知道,ChatGPT 的成功離不開(kāi) RLHF 這個(gè)「秘密武器」。不過(guò) RLHF 并不是完美無(wú)缺的,存在難以處理的優(yōu)化難題。本文中,斯坦福大學(xué)等研究機(jī)構(gòu)的團(tuán)隊(duì)探索用「對(duì)比偏好學(xué)習(xí)」替換掉「強(qiáng)化學(xué)習(xí)」,在速度和性能上都有不俗的表現(xiàn)。

在模型與人類意圖對(duì)齊方面,根據(jù)人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)已經(jīng)成為一大流行范式。通常來(lái)說(shuō),RLHF 算法的工作過(guò)程分為兩個(gè)階段:一、使用人類偏好學(xué)習(xí)一個(gè)獎(jiǎng)勵(lì)函數(shù);二、通過(guò)使用強(qiáng)化學(xué)習(xí)優(yōu)化所學(xué)習(xí)的獎(jiǎng)勵(lì)來(lái)對(duì)齊模型。

RLHF 范式假定人類偏好的分布遵照獎(jiǎng)勵(lì),但近期有研究認(rèn)為情況并非如此,人類偏好其實(shí)遵循用戶最優(yōu)策略下的后悔值(regret)。因此,根據(jù)反饋學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)不僅基于一個(gè)有漏洞的對(duì)于人類偏好的假設(shè),而且還會(huì)導(dǎo)致出現(xiàn)難以處理的優(yōu)化難題 —— 這些難題來(lái)自強(qiáng)化學(xué)習(xí)階段的策略梯度或 bootstrapping。

由于存在這些優(yōu)化難題,當(dāng)今的 RLHF 方法都會(huì)將自身限定在基于上下文的 bandit 設(shè)置中(比如在大型語(yǔ)言模型中)或會(huì)限制自己的觀察維度(比如基于狀態(tài)的機(jī)器人技術(shù))。

為了克服這些難題,斯坦福等多所大學(xué)的一個(gè)研究團(tuán)隊(duì)提出了一系列新算法,可使用基于后悔的人類偏好模型來(lái)優(yōu)化采用人類反饋時(shí)的行為,而沒(méi)有采用社區(qū)廣泛接受的僅考慮獎(jiǎng)勵(lì)總和的部分回報(bào)模型。不同于部分回報(bào)模型,基于后悔的模型可直接提供有關(guān)最優(yōu)策略的信息。

這樣一種機(jī)制帶來(lái)了一個(gè)幸運(yùn)的結(jié)果:完全不需要強(qiáng)化學(xué)習(xí)了!

這樣一來(lái),就能在具有高維狀態(tài)和動(dòng)作空間的通用型 MDP 框架中來(lái)解決 RLHF 問(wèn)題了。

研究者提出,他們這項(xiàng)研究成果的核心見(jiàn)解是:將基于后悔的偏好框架與最大熵(MaxEnt)原理結(jié)合起來(lái),可得到優(yōu)勢(shì)函數(shù)與策略之間的雙射。通過(guò)將對(duì)優(yōu)勢(shì)的優(yōu)化換成對(duì)策略的優(yōu)化,可以推導(dǎo)出一個(gè)純監(jiān)督學(xué)習(xí)的目標(biāo),其最優(yōu)值為專家獎(jiǎng)勵(lì)下的最優(yōu)策略。該團(tuán)隊(duì)將這種方法命名為對(duì)比偏好學(xué)習(xí)(Contrastive Preference Learning/CPL),因?yàn)槠漕愃朴谌藗儚V為接受的對(duì)比學(xué)習(xí)目標(biāo)。

圖片


  • 論文地址:https://arxiv.org/pdf/2310.13639.pdf
  • 代碼地址:https://github.com/jhejna/cpl

相比于之前的方法,CPL 有三大關(guān)鍵優(yōu)勢(shì)。

一、CPL 能像監(jiān)督學(xué)習(xí)一樣擴(kuò)展,因?yàn)樗皇褂帽O(jiān)督式目標(biāo)來(lái)匹配最優(yōu)優(yōu)勢(shì),而無(wú)需使用任何策略梯度或動(dòng)態(tài)規(guī)劃。

二、CPL 是完全離策略的方法,因此其可有效使用任何離線的次優(yōu)數(shù)據(jù)源。

三、CPL 可應(yīng)用于任意馬爾可夫決策過(guò)程(MDP),使其可以從序列數(shù)據(jù)上的偏好查詢中學(xué)習(xí)。

該團(tuán)隊(duì)表示,之前的 RLHF 方法都無(wú)法同時(shí)滿足以上三點(diǎn)。為了表明 CPL 方法符合以上三點(diǎn)描述,研究者進(jìn)行了實(shí)驗(yàn),結(jié)果表明該方法確實(shí)能有效應(yīng)對(duì)帶有次優(yōu)和高維離策略數(shù)據(jù)的序列決策問(wèn)題。

值得注意的是,他們?cè)趯?shí)驗(yàn)中發(fā)現(xiàn):在 MetaWorld 基準(zhǔn)上,CPL 竟能有效地使用與對(duì)話模型一樣的 RLHF 微調(diào)流程來(lái)學(xué)習(xí)在時(shí)間上擴(kuò)展的操作策略。

具體來(lái)說(shuō),他們使用監(jiān)督學(xué)習(xí)方法,在高維圖像觀察上對(duì)策略進(jìn)行預(yù)訓(xùn)練,然后使用偏好來(lái)對(duì)其進(jìn)行微調(diào)。無(wú)需動(dòng)態(tài)規(guī)劃或策略梯度,CPL 就能達(dá)到與基于先驗(yàn)式強(qiáng)化學(xué)習(xí)的方法一樣的性能表現(xiàn)。與此同時(shí),CPL 方法要快 1.6 倍,參數(shù)效率也提高了四倍。當(dāng)使用更密集的偏好數(shù)據(jù)時(shí),CPL 的性能表現(xiàn)在 6 項(xiàng)任務(wù)的 5 項(xiàng)上超越了強(qiáng)化學(xué)習(xí)。

對(duì)比偏好學(xué)習(xí)

這種方法的核心思想很簡(jiǎn)單:研究者發(fā)現(xiàn),當(dāng)使用最大熵強(qiáng)化學(xué)習(xí)框架時(shí),后悔偏好模型中使用的優(yōu)勢(shì)函數(shù)可被輕松替換成策略的對(duì)數(shù)概率。但是,這種簡(jiǎn)單的替換能帶來(lái)巨大的好處。如果使用策略的對(duì)數(shù)概率,就不需要學(xué)習(xí)優(yōu)勢(shì)函數(shù)或應(yīng)付與類強(qiáng)化學(xué)習(xí)算法相關(guān)的優(yōu)化難題了。

研究者表示,這不僅能造就對(duì)齊更緊密的后悔偏好模型,還能完全依靠監(jiān)督學(xué)習(xí)來(lái)學(xué)習(xí)人類反饋。

下面首先將推導(dǎo) CPL 目標(biāo),并表明對(duì)于帶有無(wú)界數(shù)據(jù)的專家用戶獎(jiǎng)勵(lì)函數(shù) r_E,該方法可以收斂到最優(yōu)策略。然后將說(shuō)明 CPL 與其它監(jiān)督學(xué)習(xí)方法的聯(lián)系。最后,研究者將說(shuō)明如何在實(shí)踐中使用 CPL。他們表示,這些算法屬于一個(gè)用于解決序列決策問(wèn)題的新方法類別,這類方法非常高效,因?yàn)樗苤苯訌幕诤蠡诘钠弥袑W(xué)習(xí)出策略,而無(wú)需強(qiáng)化學(xué)習(xí)。

圖片

從最優(yōu)優(yōu)勢(shì)到最優(yōu)策略

在使用后悔偏好模型時(shí),偏好數(shù)據(jù)集 D_pref 包含有關(guān)最優(yōu)優(yōu)勢(shì)函數(shù) A^? (s, a) 的信息。我們可以直觀地認(rèn)為,該函數(shù)度量的是一個(gè)給定動(dòng)作 a 比最優(yōu)策略在狀態(tài) s 時(shí)生成的動(dòng)作的糟糕程度。

因此根據(jù)定義,最大化最優(yōu)優(yōu)勢(shì)的動(dòng)作就是最優(yōu)動(dòng)作,并且從偏好學(xué)習(xí)最優(yōu)優(yōu)勢(shì)函數(shù)應(yīng)該讓人能直觀地提取出最優(yōu)策略。

具體而言,該團(tuán)隊(duì)證明了以下定理:

圖片

直接學(xué)習(xí)策略的好處。以這種方式直接學(xué)習(xí) π 有諸多實(shí)踐和理論上的好處。其中最明顯的可能是:直接學(xué)習(xí)策略的話,就無(wú)需學(xué)習(xí)其它任何函數(shù)了,比如獎(jiǎng)勵(lì)函數(shù)或價(jià)值函數(shù)。這使得 CPL 比之前的方法簡(jiǎn)單很多。

與對(duì)比學(xué)習(xí)的聯(lián)系。CPL 方法直接使用一個(gè)對(duì)比目標(biāo)來(lái)進(jìn)行策略學(xué)習(xí)。研究者表示,鑒于對(duì)比學(xué)習(xí)目標(biāo)已經(jīng)在大型數(shù)據(jù)集和神經(jīng)網(wǎng)絡(luò)方面取得了有目共睹的成功,因此他們預(yù)計(jì) CPL 能比使用傳統(tǒng)強(qiáng)化學(xué)習(xí)算法的強(qiáng)化學(xué)習(xí)方法進(jìn)行更好的擴(kuò)展。

實(shí)踐方面需要考慮的問(wèn)題

對(duì)比偏好學(xué)習(xí)框架提供了一個(gè)通用的損失函數(shù),可用于從基于優(yōu)勢(shì)的偏好中學(xué)習(xí)策略,基于此可以派生出許多算法。下面將基于一個(gè)實(shí)踐效果很好的特定 CPL 框架實(shí)例介紹實(shí)踐方面需要考慮的問(wèn)題。

使用有限離線數(shù)據(jù)的 CPL。盡管 CPL 可通過(guò)無(wú)界偏好數(shù)據(jù)收斂到最優(yōu)策略,但實(shí)際上我們通常關(guān)心的是學(xué)習(xí)有限離線數(shù)據(jù)集。在這種設(shè)置下,外推到數(shù)據(jù)集支持之外太遠(yuǎn)的策略表現(xiàn)很差,因?yàn)樗鼈儾扇〉膭?dòng)作會(huì)導(dǎo)致出現(xiàn)分布之外的狀態(tài)。

正則化。在有限設(shè)置中,我們希望選擇能最小化 CPL 損失函數(shù)的策略,同時(shí)為該數(shù)據(jù)集中的動(dòng)作賦予更高的可能性。為了做到這一點(diǎn),研究者使用一個(gè)保守的正則化器得到了以下?lián)p失函數(shù):當(dāng)策略在 D_pref 中的動(dòng)作上有更高的可能性時(shí),就分配更低的損失,從而保證其在分布內(nèi)。

圖片

預(yù)訓(xùn)練。該團(tuán)隊(duì)發(fā)現(xiàn),如果使用行為克隆(BC)方法對(duì)策略 π_θ 進(jìn)行預(yù)訓(xùn)練,往往能得到更優(yōu)的結(jié)果。因此,在通過(guò) CPL 損失使用偏好來(lái)進(jìn)行微調(diào)之前,該團(tuán)隊(duì)使用了標(biāo)準(zhǔn)的最大似然行為克隆目標(biāo)來(lái)訓(xùn)練策略,即:

圖片

實(shí)驗(yàn)及結(jié)果

這一節(jié)將解答以下有關(guān) CPL 的問(wèn)題:一、CPL 能否有效地根據(jù)基于后悔的偏好來(lái)微調(diào)策略?二、CPL 能否擴(kuò)展用于高維控制問(wèn)題和更大的網(wǎng)絡(luò)?三、CPL 的哪些組件對(duì)于獲得高性能很重要?

偏好數(shù)據(jù)。使用次優(yōu)的離策略 rollout 數(shù)據(jù)和偏好,研究者評(píng)估了 CPL 為一般性 MDP 學(xué)習(xí)策略的能力。

基準(zhǔn)方法。實(shí)驗(yàn)中考慮了三種基準(zhǔn)方法:監(jiān)督式微調(diào)(SFT)、偏好隱式 Q 學(xué)習(xí)(P-IQL)、% BC(通過(guò)對(duì) rollout 的 top X% 進(jìn)行行為克隆來(lái)訓(xùn)練策略)。

CPL 表現(xiàn)如何?

使用基于狀態(tài)的觀察數(shù)據(jù)時(shí),CPL 表現(xiàn)如何?對(duì)于基于狀態(tài)的實(shí)驗(yàn)結(jié)果,主要可見(jiàn)表 1 的第 1 和 3 行。

當(dāng)使用更稀疏的比較數(shù)據(jù)時(shí)(第 3 行),CPL 在 6 個(gè)環(huán)境中的 5 個(gè)上都優(yōu)于之前的方法,并且相比于 P-IQL 的優(yōu)勢(shì)大都很明顯,尤其是 Button Press、Bin Picking 和 Sweep Into 環(huán)境。當(dāng)應(yīng)用于具有更密集比較的數(shù)據(jù)集時(shí),CPL 比 P-IQL 的優(yōu)勢(shì)還要更大(第 1 行),并且在所有環(huán)境上都很顯著。

圖片

CPL 如何擴(kuò)展用于高維觀察數(shù)據(jù)?為了測(cè)試 CPL 的監(jiān)督目標(biāo)能否擴(kuò)展用于高維連續(xù)控制問(wèn)題,該團(tuán)隊(duì)將 MetaWorld 數(shù)據(jù)集渲染成了 64 × 64 的圖像。

表 1 的第 2 和 4 行給出了基于圖像的實(shí)驗(yàn)結(jié)果。他們得到了有趣的發(fā)現(xiàn):對(duì) SFT 來(lái)說(shuō),性能表現(xiàn)略有提升,但 P-IQL 的提升卻很明顯。當(dāng)學(xué)習(xí)更密集的偏好數(shù)據(jù)時(shí)(第 2 行),CPL 仍舊在 6 個(gè)環(huán)境中的 4 個(gè)上優(yōu)于 P-IQL,在 Sweep Into 上兩者相當(dāng)。當(dāng)學(xué)習(xí)更稀疏的比較數(shù)據(jù)時(shí)(第 4 行),CPL 和 P-IQL 在大多數(shù)任務(wù)上都表現(xiàn)相當(dāng)。

考慮到 CPL 有明顯更低的復(fù)雜性,這樣的結(jié)果就更驚人了!P-IQL 必須學(xué)習(xí)一個(gè)獎(jiǎng)勵(lì)函數(shù)、一個(gè) Q 函數(shù)、一個(gè)價(jià)值函數(shù)和一個(gè)策略。CPL 則都不需要,它只需學(xué)習(xí)一個(gè)策略,這能極大減少訓(xùn)練時(shí)間和參數(shù)數(shù)量。

正如下表 2 所示,在圖像任務(wù)上,CPL 的運(yùn)行速度比 P-IQL 快 1.62 倍,并且參數(shù)數(shù)量還不到 P-IQL 的四分之一。隨著網(wǎng)絡(luò)越來(lái)越大,使用 CPL 所帶來(lái)的性能增益只會(huì)有增無(wú)減。

圖片

哪些組件有助于 CPL 的性能表現(xiàn)?

從實(shí)驗(yàn)結(jié)果可以看到,當(dāng)使用有更密集比較的數(shù)據(jù)集時(shí),CPL 和基準(zhǔn)方法之間的差距會(huì)更大。這與之前在對(duì)比學(xué)習(xí)方面的研究成果一致。

為了研究這種效果,研究者基于一個(gè)包含 5000 個(gè)片段的固定大小的數(shù)據(jù)集,通過(guò)增加每個(gè)片段采樣的比較數(shù)量,對(duì) CPL 的性能進(jìn)行了評(píng)估。下圖 2 給出了在基于狀態(tài)的觀察數(shù)據(jù)的開(kāi)抽屜(Drawer Open)任務(wù)上的結(jié)果。

整體上看,當(dāng)每片段采樣的比較數(shù)量增加時(shí),CPL 都能從中受益,僅有 Plate Slide 任務(wù)例外。

圖片

最后,該團(tuán)隊(duì)也對(duì) CPL 的超參數(shù)(溫度值 α 和偏差正則化器 λ)進(jìn)行了消融研究;該研究也基于開(kāi)抽屜任務(wù),結(jié)果見(jiàn)圖 2 右側(cè)。盡管 CPL 使用這些值的表現(xiàn)已經(jīng)很好了,但實(shí)驗(yàn)發(fā)現(xiàn)通過(guò)適當(dāng)調(diào)整超參數(shù)(尤其是 λ),其表現(xiàn)還能更好。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2025-10-30 01:22:00

強(qiáng)化學(xué)習(xí)RFT大模型

2024-06-05 09:59:13

2025-10-08 10:26:04

2020-12-02 10:09:00

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2025-04-25 13:34:53

R1DeepSeekAgent

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2018-12-03 09:35:26

互聯(lián)網(wǎng)

2024-12-09 08:45:00

模型AI

2025-11-04 08:42:27

2025-10-21 08:53:00

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2022-11-03 14:13:52

強(qiáng)化學(xué)習(xí)方法

2021-02-07 10:01:31

AI 數(shù)據(jù)人工智能

2025-10-24 12:07:12

2021-10-08 15:21:52

AI 數(shù)據(jù)人工智能

2023-01-31 10:13:29

AI模型

2017-06-10 16:19:22

人工智能智能體強(qiáng)化學(xué)習(xí)

2023-11-07 07:13:31

推薦系統(tǒng)多任務(wù)學(xué)習(xí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

西西人体一区二区| 欧洲大片精品免费永久看nba| av福利精品导航| 日韩免费在线播放| 中文字幕在线有码| 91精品久久久久久综合五月天| 欧美日韩美女视频| 秋霞久久久久久一区二区| 一区二区三区播放| 99pao成人国产永久免费视频| 亚洲人午夜色婷婷| 肉色超薄丝袜脚交| 九色porny视频在线观看| 国产人成亚洲第一网站在线播放 | 欧美一级二级三级九九九| 一区二区三区在线免费观看视频| 欧美一区免费| 亚洲天堂2020| 韩国三级在线看| 欧美日韩女优| 午夜精品久久久久久久99水蜜桃| 亚洲精品久久区二区三区蜜桃臀| 欧美一级做性受免费大片免费| 日本麻豆一区二区三区视频| 久久久久久久久久久av| 日本裸体美女视频| 日韩av三区| 日韩欧美中文字幕制服| 天天插天天操天天射| 国产网站在线| 伊人开心综合网| 五月天婷亚洲天综合网鲁鲁鲁| 手机在线不卡av| 国产精品996| 国产欧亚日韩视频| 9i精品福利一区二区三区| 欧美午夜久久| 久久精品99久久香蕉国产色戒| 97人妻精品一区二区三区免 | 性欧美videos另类喷潮| 久久久久国产视频| 91视频综合网| 99久久激情| 中日韩美女免费视频网址在线观看| 呦呦视频在线观看| 国产精东传媒成人av电影| 91精品国产入口在线| 久久久久久久久久久久91| 国产精品av一区二区三区| 亚洲成人www| 男人天堂手机在线视频| 羞羞电影在线观看www| 成人免费小视频| 一区二区在线观| 91sp网站在线观看入口| 日本一区二区动态图| 日韩成人av电影在线| 亚洲aⅴ乱码精品成人区| 99久久综合色| 久久综合久久久| 色视频精品视频在线观看| av网站一区二区三区| 狠狠爱一区二区三区| 日本韩国在线观看| 26uuu久久综合| 久中文字幕一区| 精品av中文字幕在线毛片| 久久久久成人黄色影片| 日韩在线三区| 久久久久久国产精品免费无遮挡| 亚洲码国产岛国毛片在线| 美女av免费观看| 波多野结依一区| 狠狠爱在线视频一区| 亚洲人成无码www久久久| 主播大秀视频在线观看一区二区| 欧美日韩精品福利| 免费在线观看日韩av| 999在线精品| 国产视频欧美视频| 黑人と日本人の交わりビデオ| 天天影视天天精品| 久久久久久久一| 国产成人无码av| 蜜臀a∨国产成人精品| 成人免费直播live| 人妻va精品va欧美va| 久久久综合网站| 日本在线观看不卡| av网址在线播放| 亚洲成人激情av| 一区二区三区国产免费| 国产精品18| 亚洲精品久久久久中文字幕欢迎你| 毛茸茸多毛bbb毛多视频| 日本一区二区免费高清| 久久久久久久一区二区| a片在线免费观看| 岛国精品在线观看| 日韩少妇中文字幕| 女囚岛在线观看| 欧美性猛交xxxx乱大交退制版| 一级日本黄色片| 欧美人与物videos另类xxxxx| 精品国偷自产在线视频| 日韩免费黄色片| 麻豆91在线看| 精品国产一区二区三区四区精华 | 国产精品麻豆欧美日韩ww| 国产日本在线播放| 亚洲欧美在线人成swag| 精品小视频在线| 日韩女优一区二区| 日韩高清不卡一区二区| 国产精品久久7| 天堂а√在线资源在线| 日韩欧美成人免费视频| 女同性αv亚洲女同志| 日本a级不卡| 97在线观看免费高清| 国产女人高潮时对白| 国产亚洲人成网站| 丁香花在线影院观看在线播放| 四虎精品一区二区免费| 亚洲精品综合精品自拍| 青娱乐国产在线视频| 麻豆久久久久久| 热舞福利精品大尺度视频| xxx性欧美| 日韩一区二区三区在线| 日本黄色激情视频| 日韩综合在线视频| 久久久一本精品99久久精品| 女同视频在线观看| 日韩视频免费直播| 美国一级片在线观看| 视频一区视频二区中文| 久久久一本精品99久久精品| 国产拍在线视频| 亚洲第一二三四五区| 免费视频网站www| 国产一区二区影院| 最近中文字幕免费mv| 91久久久久久白丝白浆欲热蜜臀| 亚洲欧美日韩直播| 亚洲毛片一区二区三区| 久久久五月婷婷| 久久久久久久久久久视频| 看全色黄大色大片免费久久久| 久久久日本电影| 欧美少妇bbw| 亚洲图片欧美视频| 男人网站在线观看| 中文高清一区| 久久国产一区| 成人性生交大片免费观看网站| 亚洲男人的天堂在线播放| 手机看片久久久| 久久只精品国产| 欧美牲交a欧美牲交aⅴ免费真 | 国产精品综合在线视频| 国产日本欧美在线| 日韩精品视频一区二区三区| 欧美日产国产成人免费图片| 性生交大片免费看女人按摩| 亚洲午夜三级在线| 人妻无码一区二区三区| 噜噜噜在线观看免费视频日韩| 欧美日韩国产精品一卡| 四虎4545www国产精品| 自拍偷拍亚洲在线| 国产av精国产传媒| 亚洲成人免费看| 黄色aaa视频| 免费观看久久久4p| 黑人巨茎大战欧美白妇 | 视频二区一区| 婷婷精品久久久久久久久久不卡| 欧美成人精品在线播放| 日韩中文字幕免费在线观看| 一本到不卡免费一区二区| 成人一级片免费看| 成人h精品动漫一区二区三区| 国产成人a亚洲精v品无码| 第四色成人网| 成人免费视频网站入口| 原纱央莉成人av片| 久久手机免费视频| 香蕉久久一区二区三区| 欧美精品免费视频| 特一级黄色大片| 成人免费在线播放视频| 欲求不满的岳中文字幕| 麻豆国产精品一区二区三区 | 亚洲校园激情春色| 色悠悠久久88| 欧美特黄一级视频| 欧美日韩aaaaa| 免费看日韩毛片| 亚洲色图在线播放| 国产熟妇搡bbbb搡bbbb| 国产一区二区三区在线观看免费视频| 国产xxxx振车| 成人精品电影| 狠狠色综合色区| 色999韩欧美国产综合俺来也| 97在线观看视频国产| 草草影院在线观看| 精品国产乱码久久久久久蜜臀| 国产成人自拍网站| 久久精品在这里| 色婷婷狠狠18禁久久| 日韩中文字幕91| 欧美三级在线观看视频| 日本大胆欧美| 国新精品乱码一区二区三区18| 中文字幕系列一区| 55夜色66夜色国产精品视频| 黄色网页在线播放| 亚洲性视频网站| 亚洲精品视频网| 在线电影国产精品| 国产欧美日韩另类| 亚洲美女在线国产| 伊人影院综合网| 久久一区二区三区国产精品| 日本少妇一区二区三区| 日韩精品国产欧美| 国产免费成人在线| 国产一区亚洲| 综合操久久久| 成人vr资源| 午夜免费电影一区在线观看| 啪啪激情综合网| 91中文字幕一区| 国模私拍国内精品国内av| 日本一区二区三区在线播放| 精品日韩av| 久久资源免费视频| 久色视频在线| 亚洲人成网站色ww在线| 少妇人妻精品一区二区三区| 日韩手机在线导航| 国产小视频免费观看| 91精品国产综合久久精品麻豆| 波多野结衣一区二区三区在线| 红桃视频成人在线观看| 日本一级黄色录像| 亚洲国产sm捆绑调教视频| 看免费黄色录像| 亚洲猫色日本管| 色欲人妻综合网| 亚洲欧美区自拍先锋| xxxxx99| **性色生活片久久毛片| 国产真人真事毛片视频| 国产日韩精品久久久| 捆绑裸体绳奴bdsm亚洲| 91在线丨porny丨国产| 成人在线视频免费播放| 成人免费毛片嘿嘿连载视频| 黄色污在线观看| 91在线国产观看| 午夜一区二区三区免费| 99精品久久99久久久久| 熟女俱乐部一区二区视频在线| 91麻豆123| 天天躁日日躁aaaa视频| 中文字幕在线一区| 国产精品嫩草影院俄罗斯| 最新欧美精品一区二区三区| 中文字幕在线观看2018| 亚洲国产精品久久人人爱蜜臀| 精品亚洲永久免费| 五月天久久比比资源色| 在线精品免费视| 欧美日韩一二三区| 99在线精品视频免费观看软件 | 成人涩涩免费视频| 性色av蜜臀av色欲av| 国产日韩欧美a| 欧美日韩中文字幕在线观看| 亚洲午夜久久久久久久久久久| 国产欧美日韩另类| 色8久久精品久久久久久蜜| 日批视频免费观看| 欧美一级二级在线观看| 色综合视频在线| 日韩在线欧美在线| 手机在线免费看av| 69**夜色精品国产69乱| 国产精品久久久久77777丨| 成人午夜激情免费视频| 国产精品色呦| 伊人久久青草| 亚洲午夜精品久久久久久app| 无码精品a∨在线观看中文| 日本在线不卡一区| xxxwww国产| 欧美激情综合五月色丁香小说| 日本福利片在线观看| 欧美自拍丝袜亚洲| 国产夫妻在线观看| 亚洲视频第一页| 97人澡人人添人人爽欧美| 国产极品jizzhd欧美| 2021年精品国产福利在线| 国内精品二区| 99久久精品费精品国产| 国产精品无码av在线播放| 丝袜美腿亚洲色图| 中文字幕三级电影| 亚洲欧洲精品一区二区精品久久久 | 成人小视频在线观看免费| 久久久久在线| 老熟妇精品一区二区三区| 亚洲欧洲日韩在线| 黄色片免费观看视频| 精品欧美久久久| 在线观看黄色av| 97在线看免费观看视频在线观看| 日韩一级二级| 久久精品丝袜高跟鞋| 一区二区日韩欧美| 国产xxxxx视频| 26uuu国产一区二区三区| 欧美黄片一区二区三区| 欧美视频一区在线| 欧洲综合视频| 91精品国产高清久久久久久| 成人短视频软件网站大全app| 婷婷精品国产一区二区三区日韩 | 国产九色91回来了| 日韩成人免费视频| 污片在线免费观看| 成人信息集中地欧美| 精品国产1区| 免费看黄在线看| 国产激情一区二区三区| 日韩一区二区三区四区视频| 欧美四级电影网| 国产小视频福利在线| 欧美在线免费观看| 免费不卡中文字幕在线| 男人添女人下部高潮视频在观看| 韩国av一区二区三区四区 | 欧美电影在线观看完整版| 国产av人人夜夜澡人人爽麻豆| 国产高清亚洲一区| 久久噜噜色综合一区二区| 7777精品伊人久久久大香线蕉经典版下载| 黄色软件在线观看| 欧美在线播放视频| 久久不见久久见国语| 99久久久无码国产精品6| 91在线视频网址| 欧美一级做a爰片免费视频| 亚洲日韩第一页| 桃色一区二区| 一区二区精品在线观看| 久久99精品久久久久久久久久久久 | 自拍偷拍亚洲一区| 高清久久精品| 看一级黄色录像| 国产精品自拍av| 日本视频免费在线| 亚洲久久久久久久久久| 亚洲插插视频| 五月天国产一区| 激情伊人五月天久久综合| 国精品无码一区二区三区| 欧美成人综合网站| 久久一卡二卡| 精品视频高清无人区区二区三区| 久久av一区二区三区| 国产又大又粗又爽的毛片| 精品视频在线免费看| 污污影院在线观看| 国产日韩一区欧美| 亚洲二区在线| 人与嘼交av免费| 欧美麻豆精品久久久久久| 懂色av一区| 日本免费一区二区三区| 精品一区免费av| www..com国产| 亚洲新中文字幕| 成人国产精品一区二区网站| a在线视频观看| 欧美极品少妇xxxxⅹ高跟鞋 | 国产精品夜夜夜| 亚洲精品国产精品乱码在线观看| 欧美顶级少妇做爰| 77thz桃花论族在线观看| 亚洲ai欧洲av| 成人97人人超碰人人99| 波多野结衣视频网址| 久久福利视频网| 先锋影音国产精品| 亚洲成人av免费观看|