精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

訓練模擬人形機器人的五種強化學習技術大PK

譯文 精選
人工智能
通過閱讀本文中介紹的內容,你將學習到關于這五種強化學習算法的工作原理和數學原理,并了解我是如何實現這些不同算法的。同時,您還可以領略一下這些機器人是如何面對面地展開決斗,并最終確定哪一種算法是最后的冠軍!

譯者 | 朱先忠

審校 | 重樓

本文將使用五篇新發表的強化學習論文中介紹的五種算法(DDPG、SAC、PPO、I2A和決策轉換器)來訓練模擬人形機器人互相打斗并對訓練結果進行排名。

訓練模擬人形機器人的五種強化學習技術大PK-AI.x社區訓練模擬人形機器人的五種強化學習技術大PK-AI.x社區

簡介

我想起了最近的一個老電視節目《Battlebots》,并想對這個節目進行進一步的改造。因此,我將使用最新發表的五篇有關強化學習的論文中提到的技術來分別訓練模擬人形機器人并讓它們展開決斗,以便比較這些算法的不同排名。

通過閱讀本文中介紹的內容,你將學習到關于這五種強化學習算法的工作原理和數學原理,并了解我是如何實現這些不同算法的。同時,您還可以領略一下這些機器人是如何面對面地展開決斗,并最終確定哪一種算法是最后的冠軍!

  • 深度確定性策略梯度(DDPG)算法
  • 決策轉換器算法
  • 柔性演員-評論家(Soft Actor-Critic:SAC)算法
  • 基于近鄰策略優化(PPO)的想象增強智能體(I2A)算法

設置模擬環境

在本文實驗中,我將使用Unity機器人學習智能體模擬器,針對每個機器人身體在9個關節上構建21個執行器,通過他們頭上的虛擬相機實現了10乘10的RGB視覺,還有一把劍和一個盾牌。然后,我使用C#代碼來定義它們的獎勵和物理交互。智能體可以通過三種主要方式來獲得獎勵:

  • 用劍攻擊對手(“擊敗”對手)
  • 將頭部的y位置保持在身體上方(以激勵他們站起來)
  • 比以前更接近對手(以鼓勵智能體會聚在一起并展開決斗)

智能體將在1000個時間步后重置,我盡量大規模并行化執行環境,以加快訓練速度。

大規模并行化訓練環境(我個人的截圖)

然后,就是編寫算法了。為了理解我使用的算法,您首先需要理解Q學習,這是至關重要的。

Q學習(如果已熟悉,請跳過本節)

在強化學習中,我們讓智能體采取行動來探索其環境,并根據其與目標的接近程度對其進行積極或消極的獎勵。那么,智能體如何調整其決策標準以獲得更好的獎勵呢?

Q學習(Q Learning)算法提供了一種解決方案。在Q學習中,我們跟蹤Q函數Q(s,a);這個函數能夠跟蹤從狀態s_t到動作a_t后的預期返回結果。

在上面公式中,R(s,a)表示當前狀態和動作的獎勵,γ表示折扣因子(超參數),E[]表示期望值。

如果我們學習了這個Q函數,那么我們可以簡單地選擇返回最高Q值的那個動作。

接下來,我們來看如何學習這個Q函數?

從訓練回合結束時開始,我們已知道真實的Q值(也就是我們當前的獎勵)。我們可以使用以下更新方程并使用遞歸技術來填充之前的Q值:

在上面公式中,α表示學習率,r表示即時獎勵,γ表示折扣因子(權重參數),s'表示下一個狀態,max_a'Q(s',a')表示所有可能動作中下一個狀態的最大Q值。

從本質上講,我們的新Q值變成了舊Q值+當前獎勵+下一個最大Q值和舊Q值之間差值的一小部分。現在,當我們的智能體想要選擇一個動作時,他們可以選擇產生最大Q值(預期獎勵)的那個動作。

不過,你可能會注意到這樣一個潛在的問題:我們正在每個時間步對每個可能的操作評估Q函數。如果我們在離散空間中僅有有限數量的可能動作,這倒是很好的;但是,這種情況在連續動作空間中卻會崩潰——此時不再可能對無限數量可能動作上的Q函數展開有效的評估。于是,這就引出了我們的第一個競爭算法——DDPG。

深度確定性策略梯度(DDPG)算法

DDPG(Deep Deterministic Policy Gradient)算法試圖以一種新穎的方式在連續動作空間中使用Q網絡。

創新點1:演員與評論家

我們不能使用Q網絡直接做出決策,但我們可以用它來訓練另一個單獨的決策函數。這就要使用所謂的演員-評論家(actor-critic)設置。其中,演員(actor)代表決定行動的策略,評論家(critic)則根據這些行動確定未來的預期獎勵。

其中,目標評論家的計算公式如下所示:

在上面公式中,r表示即時獎勵,γ表示折扣因子,s'表示下一個狀態,μ'(s')表示目標策略網絡對下一狀態的動作,Q'表示目標批評網絡,目標演員:預期返回值wrt策略的梯度約等于:

本質上,在N個樣本上,策略(wrt-策略)選擇的操作的Q值的變化方式會改變wrt-策略參數。

為了更新這兩者,我們使用隨機梯度上升更新的辦法,在當前Q和目標Q的MSE損失上使用lr*梯度。請注意,演員和評論家都是作為神經網絡實現的。

創新點2:確定性動作策略

我們的策略可以是確定性的(每個狀態的保證動作)或隨機性的(根據概率分布對每個狀態的采樣動作)。用于高效評估Q函數的確定性動作策略由于每個狀態只有一個動作,因此是奇異型的遞歸評估。

然而,我們如何使用確定性策略來進行探索呢?我們不會一次又一次地重復同樣的動作嗎?確實如此,我們可以通過添加隨機生成的噪聲以鼓勵探索來增加智能體的探索(這看起來有點像通過研究基因突變所具有的獨特的遺傳可能性來探索它是如何促進進化的一樣)。

創新點3:交互式環境中的批處理學習

我們還希望通過觀察到的每個時間步(由“狀態-動作-獎勵-下一個狀態”組成)獲得更大的回報:這樣我們就可以存儲之前的時間步數據元組,并將其用于未來的訓練。

這允許我們離線使用批處理學習(這意味著使用之前收集的數據,而不是通過環境進行交互),此外還允許我們并行化以提高GPU的訓練速度。我們現在也有了獨立的同分布數據,而不是我們經常得到的有偏差的順序數據(其中數據點的值取決于之前的數據點)。

創新點4:目標網絡

通常,使用神經網絡的Q學習太不穩定,也不容易收斂到最優解,因為更新太敏感/太強大了。

因此,我們使用目標演員和評論家網絡,它們與環境相互作用,在訓練過程中部分但不完全接近真實的演員和評論家((大因子)目標+(小因子)新目標)。

算法運行和代碼

初始化評論家、演員、目標評論家和目標演員、重放緩沖區。

對于視覺,我在任何其他層之前都使用卷積神經網絡(因此算法使用了視覺的最重要特征)。

然后,針對每一個回合(episode),執行如下操作:

  • 觀察狀態,選擇并執行動作mu+噪聲。
  •  獲得獎勵,轉到下一個狀態。
  • 將(s_t,a_t,r_t, s_(t+1))存儲在重放緩沖區中。
  • 從緩沖區中提取小批量樣品。
  • 更新y_i = reward_i + gamma Q(s表示給定θ)。
  • 遞歸計算。
  • 更新critic以最小化L = y_i - Q(s,a|theta)。
  • 使用策略梯度J更新演員,期望遞歸型的Q給定策略。
  • 將目標更新為:大因子*目標+(1-大因子)*實際值。

【參考】github.com源碼倉庫地址:AlmondGod/Knights-of-Papers/src/DDPG/DDPG.py文件。

柔性演員-評論家(SAC)算法

DDPG算法確實存在一些問題。盡管評論家更新算法中包括貝爾曼方程:

Q(s,a)=r+max Q(s'a')

但是,神經網絡作為Q網絡近似器會產生大量噪聲,噪聲的最大值意味著我們高估了,也就是我們對我們的策略過于樂觀,并獎勵了平庸的行為。DPPG算法還需要大量的超參數調整(包括添加噪聲),并且除非其超參數在窄范圍內;否則,不能保證收斂到最優解。

創新點1:最大熵強化學習

現在,演員不再試圖純粹地最大化獎勵,而是最大化獎勵+熵。

那么,為什么要使用熵呢?

熵本質上是我們對某個結果的不確定性(例如,最大熵偏置的硬幣總是有0熵顯示形式)。

通過將熵作為最大化因子,我們鼓勵了廣泛的探索,從而提高了對局部最優解的敏感性,允許對高維空間進行更一致和穩定的探索(這正是比隨機噪聲更好的原因)。對熵的優先級進行加權的alpha參數,進行了自動調整(如何調整呢?)。

創新點2:使用兩個Q函數

這一變化旨在通過獨立訓練兩個Q網絡并在策略改進步驟中使用兩者中的最小值來解決Q函數的貝爾曼高估偏差。

算法運行和代碼

初始化演員、2個Q函數、2個目標Q函數、回放緩沖區、alpha

重復執行下面操作直到收斂,對于每個環境步驟執行:

  • 從策略中取樣行動,觀察下一個狀態并獎勵
  • 將(s_t,a_t,r_t,s_t+1)存儲在重放緩沖區中

在每個更新步驟中,執行:

  • 抽樣批次
  • 更新Qs:
  • 計算目標y=獎勵+策略的最小Q+阿爾法熵
  • 最小化Q預測-y
  • 更新策略以最大化策略Q+阿爾法獎勵
  • 更新alpha以滿足目標熵
  • 更新目標Q網絡(柔性更新目標為:大因子*目標+(1-大因子)*實際值)

【參考】github.com源碼倉庫地址:AlmondGod/Knights-of-Papers/src/SAC/SAC.py文件。

I2A算法與PPO算法

這里有兩種算法(額外的alg層可以在任何算法之上工作)。

近端策略優化(PPO)算法

使用與DDPG和SAC不同的方法,我們的目標是一種可擴展、數據高效、魯棒性強的收斂算法(對超參數的定義不敏感)。

創新點1:代理目標函數

代理目標允許進行非策略性訓練,因此我們可以使用更廣泛的數據(特別有利于存在大量預先存在的數據集的現實世界場景)。

在我們討論代理目標之前,理解優勢(Advantage)的概念至關重要。優勢的定義是:采取s策略后,s的預期回報與s的預期回報之間的差異。本質上,它量化了一個行動在多大程度上比“平均”行動更好或更差。

我們估計它的表達式是:A=Q(A,s)-V(A)。其中,Q是動作值(動作A后的預期回報),V是狀態值(當前狀態的預期回報);兩者都可以學習。

現在,代理目標的計算公式是:

其中:

J(θ)表示代理目標;

ê_t[…]表示有限批樣品的經驗平均值;

r_t(θ)=π_θ(a_t|s_t)/π_θ_old(a_t| s_t),即:新策略中行動的可能性/舊策略中的可能性;

?_t代表時間步長t的估計優勢。

這相當于量化新策略在多大程度上提高了更高回報行動的可能性,并降低了更低回報行動的可能。

創新點2:剪切目標函數

這是解決超大策略更新問題以實現更穩定學習的另一種方法。

L_CLIP(θ)=E[min(r(θ)*A,CLIP(r(σ),1-ε,1+ε)*A)]

在此,剪切目標是真實代理和代理的最小值,其中比率被截斷在1-epsilon和1+epsilon之間(基本上是未修改比率的信任區域)。Epsilon通常為~0.1/0.2。

它本質上選擇了更保守的剪切比和正態比。

PPO的實際目標函數是:

其中,

1. L^{VF}(θ)=(V_θ(s_t)-V^{target}_t)2

2. Sπ_θ代表狀態S_t的策略π_θ的熵

從本質上講,我們優先考慮更高的熵、更低的值函數和更高的削波優勢。

此外,PPO算法還使用小批量和交替數據訓練。

算法運行和代碼

針對每次迭代,執行如下操作;對于N個演員中的每一個演員執行如下操作:

  • 運行T時間步策略
  • 計算優勢
  • 針對K個迭代周期和最小批處理大小M<NT的策略優化代理函數
  • 更新策略

【參考】github.com源碼倉庫地址:AlmondGod/Knights-of-Papers/src/I2A-PPO/gpuI2APPO.py文件。

增強想象智能體算法

我們的目標是為任何其他算法創建一個額外的嵌入向量輸入,以提供關鍵的有價值信息,并作為環境的“思維模型”。

創新點:想象向量

想象向量允許我們在智能體的觀察中添加一個額外的嵌入向量,以便對多個“想象的未來運行”的動作和對其獎勵的評估進行編碼(目標是“看到未來”和“行動前思考”)。

那么,我們是如何計算想象向量的呢?我們的方法是使用一個學習環境近似函數,它試圖對環境進行模擬(這被稱為基于模型的學習,因為我們試圖學習一個環境的模型)。我們將其與推出策略(rollout policy)相結合,這是一種非常簡單且快速執行的策略(通常是隨機的),用于決定“探索未來”的行動。

通過在推出策略上運行環境近似器,我們可以探索未來的行動及其回報,然后找到一種方法將所有這些想象中的未來行動和回報通過一個向量來描述。但是,這里也存在一個值得注意的缺點:正如你所料,它增加了大量的訓練,因此這樣的訓練就更依賴于必要的大量數據。

組合I2A算法和PPO算法的運行與代碼

  • 每次我們收集PPO的觀察結果:
  • 初始化環境模型與推出策略。

然后,對于多個“想象的跑動”循環執行如下操作:

  • 從當前狀態開始運行環境模型,并決定推出策略,直到產生一個想象軌跡的地平線(s、a、r序列)。
  • 想象編碼器:將多個想象的軌跡轉化為實際決策網絡的單個輸入嵌入。

決策轉換器

我們的目標是利用轉換器架構的優勢進行強化學習。借助決策轉換器(Decision Transformer,簡稱“DT”),我們可以在稀疏/分散的獎勵中識別重要的獎勵,享受更廣泛的分布建模以實現更大的泛化和知識轉移,并從預先獲得的次優的有限數據中學習(稱為離線學習)。

對于決策轉換器,我們本質上將強化學習視為序列建模問題。

創新點1:轉換器

如果你想真正了解轉換器的話,我推薦您觀看李飛飛高徒、被譽為AI“網紅”的Karpathy發布的“從零開始構建GPT2”的有關視頻。以下是適用于DT的有關轉換器技術的一個快速回顧:

假設我們已經有一些表示狀態、動作、回報(預期收到的未來獎勵的總和)和時間步長的令牌序列。我們現在的目標是接收一系列令牌并預測下一步行動:這將作為我們的策略。

這些令牌都有鍵、值和查詢,我們將使用復雜的網絡將它們組合在一起,以表達每個元素之間的關系。然后,我們將這些關系組合成一個“嵌入”向量,該向量對輸入之間的關系進行編碼。這個過程被稱為注意力。

請注意,“因果自注意力掩碼”能夠確保嵌入只能與序列中出現在它們之前的嵌入相關,因此我們不能使用未來來預測未來,而是使用過去的信息來預測未來(因為我們的目標是預測下一個動作)。

一旦我們有了這個嵌入向量,我們就可以把它傳遞到神經網絡層(大牛Karpathy使用的類比是,在這種情況下,我們“推理”令牌之間的關系)。

這兩個組合(用注意力查找令牌之間的關系,用神經網絡層推理關系)是轉換器的一個頭部,我們多次堆疊它。在這些頭部的最后,我們使用一個學習的神經網絡層將輸出轉換為我們的動作空間大小和要求。

在推理時,我們預先定義了回報,作為我們最終想要的總獎勵。

算法運行和代碼

對于數據加載器中的(R,s,a,t)執行如下操作:

  • 預測行動
  • 模型將obs、vision(帶卷積神經網絡的層)、rtg和timestep轉換為唯一的嵌入,并將timestep嵌入添加到其他嵌入中
  • 所有另外三個用作轉換器層的輸入參數最終使用動作嵌入
  • 計算MSE損失(a_pred-a)*2
  • 使用具有該損耗的梯度參數wrt在決策轉換器模型上執行SGD計算

【參考】github.com源碼倉庫地址:Knights-of-Papers/src/Decision-Transformer/DecisionTransformer.py。

結果評析

為了訓練所有上述這些模型,我選擇在NVIDIA RTX 4090 GPU計算機上運行了這些算法,以便利用這些算法中新加入的在GPU加速方面的支持。在此,非常感謝GPU共享市場vast.ai!以下給出各算法對應的損失曲線:

DDPG算法損失(2000回合)

使用Matplotlib表示的損失圖表(本人繪制)

I2APPO算法損失(3500回合)

使用Matplotlib表示的損失圖表(本人繪制)

SAC算法損失(5000集)

使用Matplotlib表示的損失圖表(本人繪制)

決策轉換器算法損失(1600回合,每40個回合記錄一次損失)

使用Matplotlib表示的損失圖表(本人繪制)

通過比較以上各種算法的運行結果(我自主地按訓練時間進行了加權),我發現策略轉換器的表現最好!考慮到DT是專門為利用GPU而構建的,這是有道理的。最后,有興趣的讀者可以觀看我制作的視頻(https://www.youtube.com/watch?v=kpDfXqX7h1U),它將有助于你更細致地了解這些算法的實際性能。最后的比賽結果是,這些機器人模型都在不同程度上學會了爬行和防止摔倒;但是,要想成為專業的拳擊手還有很長的一段路要走。

有待改進的方面

我了解到訓練人形機器人是非常困難的。本實驗中,我們是在高維輸入空間(視覺RGB和執行器位置/速度)和令人難以置信的高維輸出空間(27維連續空間)中進行的操作。

從一開始,我所希望的最好的結果就是他們能夠彼此爬到一起,并相互決斗,盡管這也是一個挑戰。然而,大多數的訓練結果甚至都沒有體驗到將劍觸碰對手的高回報,因為獨自行走太難了。

總結一下的話,需要改進的主要方面也就是增加訓練時間和使用的計算量。正如我們在現代人工智能革命中所看到的那樣,這些增加的計算和數據趨勢似乎沒有上限!

最重要的是,我學到了很多!下一次,我會使用NVIDIA的技能嵌入或終身學習,讓機器人在學會戰斗之前學會走路!

最后,如果您要觀看我制作的視頻,了解創建這個項目的完整過程,并觀看機器人的戰斗場景,請觀看下面的視頻(https://youtu.be/kpDfXqX7h1U):

我試著用新的強化學習論文中的算法讓模擬機器人進行打斗(本人自制圖片)

譯者介紹

朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標題:The Tournament of Reinforcement Learning: DDPG, SAC, PPO, I2A, Decision Transformer,作者:Anand Majmudar

責任編輯:姜華 來源: 51CTO內容精選
相關推薦

2025-11-20 08:00:00

AIPython人形機器人

2025-03-27 09:19:57

機器人訓練AI

2022-11-02 16:28:03

人工智能機器人

2023-09-21 10:29:01

AI模型

2024-12-25 10:58:29

2023-11-01 19:17:05

特斯拉機器人Optimus

2025-02-05 10:37:27

2022-07-24 19:24:32

機器學習預訓練模型機器人

2025-04-15 09:15:00

AI機器人訓練

2025-09-04 14:26:55

機器人Figure識別

2025-05-28 02:25:00

2025-02-25 10:32:10

2024-10-29 15:20:00

強化學習模型

2025-10-08 11:10:28

2023-10-09 12:36:25

AI模型

2024-04-15 08:20:00

機器人技能

2024-12-17 13:00:00

訓練代碼機器人

2020-09-02 10:36:52

機器人人工智能系統

2022-08-16 13:37:36

機器人制造業自動化
點贊
收藏

51CTO技術棧公眾號

亚洲高清一区二| 亚洲免费av高清| 国产精品美女av| 欧美性x x x| 成人高潮视频| 欧美私模裸体表演在线观看| 日本高清视频免费在线观看| 日本成人一区| 激情久久五月天| 奇米影视亚洲狠狠色| av最新在线观看| 婷婷成人影院| 欧美电影免费提供在线观看| 欧美伦理视频在线观看| 51漫画成人app入口| 国产精品免费av| 鲁丝片一区二区三区| 国产富婆一级全黄大片| 日韩不卡一区二区| 97av在线播放| 精品无码久久久久久久| 99re66热这里只有精品8| 日韩毛片在线观看| 国产性猛交96| 欧美日韩国产一区二区在线观看| 欧美性色综合网| 国产肥臀一区二区福利视频| 色a资源在线| 中文字幕亚洲在| 热re99久久精品国99热蜜月| 黄色三级网站在线观看| 国精产品一区一区三区mba视频| 国产va免费精品高清在线观看| 免费观看一级视频| 午夜久久一区| 欧美另类69精品久久久久9999| 林心如三级全黄裸体| 久久最新网址| 亚洲人成在线观| 中国黄色a级片| 欧洲亚洲视频| 亚洲精品久久久久中文字幕欢迎你| 欧美国产日韩在线视频| 色综合一区二区日本韩国亚洲| 欧美视频在线不卡| 亚洲男人天堂色| 电影久久久久久| 在线视频一区二区三| 男女av免费观看| 大胆人体一区| 欧美亚洲一区二区在线观看| 亚洲性生活网站| 51一区二区三区| 欧美亚洲国产一区在线观看网站| 成人精品小视频| yw.尤物在线精品视频| 在线区一区二视频| 奇米影音第四色| 国产精品99久久免费| 欧美一区二区日韩| 国产成人精品一区二区在线小狼| 精品91福利视频| 欧美一区午夜视频在线观看| 免费看三级黄色片| 国产主播性色av福利精品一区| 亚洲成人激情图| brazzers精品成人一区| 欧美一级精品片在线看| www.久久久久| 欧美成人精品欧美一| 亚洲人www| 欧美中文字幕精品| ,一级淫片a看免费| 国产精品 日产精品 欧美精品| 成人在线观看av| 高清一区二区三区四区| 久久色.com| 亚洲欧美国产精品桃花| 天堂av最新在线| 欧美日韩一区二区免费在线观看| 成人免费无码av| av国产精品| 亚洲国产精品va在线看黑人| 伊人网伊人影院| 欧美91视频| 人妖精品videosex性欧美| 伊人精品在线视频| 成人av免费在线观看| 欧美在线一区二区三区四区| 日本不卡三区| 欧美日韩亚洲国产一区| 亚洲免费999| 欧美日日夜夜| 久久综合电影一区| 国产一级一级片| 蜜臀va亚洲va欧美va天堂| 国产精品久久久久久久免费大片| 精品乱码一区二区三四区视频| 亚洲日本在线看| 超碰网在线观看| 日韩第一区第二区| 国产一区二区三区在线免费观看| 免费在线观看黄色av| 日本成人中文字幕在线视频| 国产精品国产亚洲精品看不卡15| 第三区美女视频在线| 亚洲国产成人av网| 在线免费黄色网| 国产伦一区二区三区| 色综合天天综合网国产成人网 | 全球成人中文在线| 精品国自产在线观看| 国产午夜精品久久久久久久 | 桃色av一区二区| 91精品免费在线| 中文字幕被公侵犯的漂亮人妻| 欧美69视频| 国产欧亚日韩视频| h网站在线免费观看| 精品国产91久久久| 最好看的中文字幕| 五月精品视频| 国产精品久久久久久婷婷天堂| 日韩在线视频第一页| 亚洲免费在线视频一区 二区| 日韩福利视频在线| 日韩美女毛片| 97香蕉久久超级碰碰高清版 | 青青在线精品| 中文字幕9999| 成人免费视频国产免费| 91在线视频网址| 全黄性性激高免费视频| 视频成人永久免费视频| 久久婷婷国产麻豆91天堂| 无码久久精品国产亚洲av影片| 久久综合丝袜日本网| 丁香六月激情网| 91精品啪在线观看国产爱臀| 另类图片亚洲另类| 国产免费黄色大片| 亚洲欧美在线视频观看| 成人不卡免费视频| 国产国产精品| 亚洲一区二区三区四区视频| 黄色免费在线看| 在线综合+亚洲+欧美中文字幕| 午夜激情福利电影| 狠狠色综合播放一区二区| 在线观看亚洲视频啊啊啊啊| 激情中国色综合| 久久激情视频久久| 99热这里只有精品5| 亚洲欧洲中文日韩久久av乱码| 一二三av在线| 欧美日韩国产在线一区| 国产成人精品自拍| 成人黄色动漫| 国产亚洲欧美日韩精品| 中文在线免费看视频| 欧美激情在线一区二区| 中文久久久久久| 99久久.com| 国产精品久久久久久久久久直播 | 精品美女视频在线观看免费软件| 欧美小视频在线观看| 亚洲一区视频在线播放| 麻豆传媒一区二区三区| 免费观看国产视频在线| 亚洲一区二区三区中文字幕在线观看 | 久久免费电影| 亚洲人成电影网站色| 亚洲图片视频小说| 亚洲免费观看高清完整版在线观看| 成人区人妻精品一区二| 免费在线亚洲欧美| 在线视频精品一区| 国产精品视屏| 国产精品一二三在线| 午夜在线激情影院| 亚洲久久久久久久久久| 一区二区的视频| 亚洲成在线观看| 亚洲一二三四视频| 成人免费视频播放| 九一精品在线观看| 影音先锋久久久| 视频一区亚洲| 精品少妇一区| 国产日韩欧美在线播放| heyzo高清国产精品| 最近2019中文字幕第三页视频 | 欧美在线观看视频免费| 国产成人一区二区三区影院| 亚洲影院色无极综合| 韩国成人动漫| 欧美激情按摩在线| av影片在线看| 亚洲国产精品久久久久秋霞不卡| 中文字幕在线观看你懂的| 亚洲高清不卡在线观看| 五月天免费网站| 久久亚洲精品小早川怜子| 国产精品二区视频| 另类中文字幕网| 日韩av在线综合| 亚洲激情二区| 中文字幕の友人北条麻妃| 精品一区不卡| 鲁鲁狠狠狠7777一区二区| 中文字幕亚洲在线观看| 国产啪精品视频| 欧美日韩五区| 浅井舞香一区二区| 极品视频在线| 久久久久久久久国产精品| 国产精品久久久久久福利| 亚洲视频axxx| 噜噜噜噜噜在线视频| 亚洲精品91美女久久久久久久| 国产成人精品一区二区无码呦| 欧美性videosxxxxx| 欧美国产成人精品一区二区三区| 亚洲一区二区三区在线看| 日韩激情小视频| 国产精品国产自产拍在线| 白白色免费视频| 久久午夜色播影院免费高清| 捆绑裸体绳奴bdsm亚洲| 成人午夜大片免费观看| 亚洲天堂小视频| 久久超碰97中文字幕| 亚洲国产成人va在线观看麻豆| 天堂va蜜桃一区二区三区漫画版| 97国产精东麻豆人妻电影| 亚洲黄色天堂| www国产黄色| 久久一区精品| 九九九在线观看视频| 日韩av一区二区在线影视| av免费网站观看| 日韩中文欧美在线| www.激情小说.com| 久久精品国产99国产| 97超碰成人在线| 激情六月婷婷久久| 久久国产免费视频| 成人一区二区三区| a视频免费观看| 久久久精品tv| 最新日韩免费视频| 亚洲乱码中文字幕综合| 一级黄色录像视频| 亚洲二区在线观看| 黑人一级大毛片| 一本一道久久a久久精品| 成人免费一级片| 欧美人妇做爰xxxⅹ性高电影 | 亚洲国产小视频在线观看| 四虎精品成人影院观看地址| 亚洲欧美日韩图片| 香蕉视频网站在线观看| 久久综合伊人77777| 欧美aaaxxxx做受视频| 97国产在线视频| 亚洲精品一区| 国产日韩精品在线| 中文字幕亚洲在线观看| 欧美日韩在线播放一区二区| 日韩欧美自拍| 青青草综合在线| 亚洲欧美日韩国产一区二区| 性生交免费视频| 国产成人综合在线播放| 三级男人添奶爽爽爽视频| 国产片一区二区三区| 国产精品精品软件男同| 欧美日韩国产黄| 夜夜骚av一区二区三区| 精品国产一区二区在线观看| 欧美女子与性| 久久夜色精品国产| 伊人久久国产| 亚洲已满18点击进入在线看片| 亚洲品质自拍| 浴室偷拍美女洗澡456在线| 国产美女一区| 青娱乐精品在线| 久久久国产精品午夜一区ai换脸| www.av视频| 色婷婷综合视频在线观看| 国产色片在线观看| 国产亚洲精品日韩| aaa在线播放视频| 91麻豆桃色免费看| 国产欧美日韩一区二区三区四区| 欧美日韩激情四射| 免费精品视频在线| 黄色片视频免费观看| 亚洲精品一二三区| 最新国产中文字幕| 亚洲激情成人网| 午夜小视频福利在线观看| 国产精品91久久| 久久久久高潮毛片免费全部播放| 中文字幕成人一区| 日韩国产一区二| 成人无码www在线看免费| 亚洲人成网站色在线观看| 亚洲国产精品无码久久久| 精品国产三级电影在线观看| 久久久久久久久免费视频| 国产91色在线|| 国内毛片久久| 男人添女荫道口女人有什么感觉| 精品一区二区三区免费视频| 国产高潮呻吟久久| 欧美色欧美亚洲高清在线视频| 成人福利小视频| 久久久精品国产亚洲| av成人免费| 色狠狠久久av五月综合|| 国产精品日本欧美一区二区三区| 99riav国产精品视频| 亚洲精品中文字幕乱码三区| 一级黄色大片免费| 正在播放欧美视频| 欧美成人精品三级网站| 久久婷婷人人澡人人喊人人爽| 激情婷婷欧美| 国产一卡二卡三卡四卡| 夜夜嗨av一区二区三区中文字幕 | 不卡的看片网站| 国产精品99精品| 精品国产乱码久久久久久免费| 欧美大胆的人体xxxx| 成人免费看片网站| 国产在线日韩| 男人的天堂影院| 精品国产31久久久久久| 亚洲三级中文字幕| 日本精品视频在线| 国产欧美日韩视频在线| 538在线视频观看| 国产精品久久久久久久久快鸭 | 国产免费www| 这里只有精品在线播放| 欧美视频精品| 中文字幕乱码免费| 国产福利精品导航| 日本学生初尝黑人巨免费视频| 亚洲成人在线网| 韩日成人影院| 亚洲精品二区| 国内欧美视频一区二区| 九九热国产精品视频| 精品国精品国产| 亚洲一级少妇| 亚洲国产日韩欧美| 国产一区在线不卡| 久久精品国产亚洲AV无码麻豆| 日韩电影中文字幕一区| 日韩欧美一区二区三区免费观看 | 一本色道婷婷久久欧美| 国产一区二区在线观看免费| 黄色一级片在线| 亚洲精品mp4| 成人免费视频观看| 精品无码av无码免费专区| 不卡一区二区中文字幕| 波多野结衣一区二区在线| 久久视频免费观看| 久久99国产精品久久99大师| 那种视频在线观看| 亚洲欧美日韩在线| 日韩欧美电影在线观看| 国产成人在线一区二区| 在线观看国产精品入口| 欧美大片免费播放器| 欧美日韩中文另类| 暧暧视频在线免费观看| 日韩偷拍一区二区| 国产成人精品亚洲午夜麻豆| av大片免费观看| 久久精品视频中文字幕| 青青一区二区| 一级淫片在线观看| 色综合久久综合网欧美综合网| 麻豆av在线免费看| 麻豆传媒一区二区| 国产成人久久精品77777最新版本| av大片免费观看| 欧美精品在线观看91| 精品视频久久| 奇米777第四色| 这里只有精品视频在线观看| 毛片电影在线| 国产小视频免费| 中文字幕综合网| 国内精品在线视频|