精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM成功不可或缺的基石:RLHF及其替代技術

人工智能 新聞
關于訓練大模型常用的 RLHF 技術,這篇文章幫你逐步解讀了其工作過程,還總結了一些其他替代方法。

在討論 LLM 時,我們總是會涉及一個名為「使用人類反饋的強化學習(RLHF)」的過程。RLHF 是現代 LLM 訓練流程中不可或缺的一部分,因為它可以將人類偏好整合到優化圖景中,從而提升模型的有用性和安全性。

在這篇文章中,機器學習和 AI 研究者 Sebastian Raschka 將逐步解讀 RLHF 的工作過程,以幫助讀者理解其核心思想和重要性。這篇文章也會比較 ChatGPT 和 Llama 2 執行 RLHF 的方式。

文章最后還將簡單介紹一些最近出現的可替代 RLHF 的技術。

本文的目錄如下:

  • 使用人類反饋的強化學習(RLHF)
  • Llama 2 中的 RLHF
  • RLHF 的替代技術

典型的 LLM 訓練流程

ChatGPT 或 Llama 2 等基于 transformer 的現代 LLM 的訓練流程一般分為三大步驟:

  • 預訓練;
  • 監督式微調;
  • 對齊。

在最初的預訓練階段,模型會從海量的無標簽文本數據集中吸收知識。后續的監督式微調階段會對這些模型進行微調,使之能更好地遵守特定指令。最后的對齊階段則是對 LLM 進行打磨,使之在響應用戶 prompt 時能給出更有用且更安全的結果。

請注意,這個訓練流程基于 OpenAI 的 InstructGPT 論文《Training language models to follow instructions with human feedback》,該論文詳述了 GPT-3 的訓練過程。人們普遍認為 ChatGPT 的訓練也使用了此種方法。后面我們還會比較一下該方法與 Meta 最新的 Llama 2 所采用的方法。

首先從最初的預訓練步驟開始吧,如下圖所示。

LLM 的預訓練步驟

預訓練通常需要使用一個超大型的文本語料庫,其中包含數十億乃至數萬億 token。預訓練階段的訓練任務很簡單直接,就是根據前文預測下一個詞。

值得強調的一點是,這種類型的預訓練讓我們可以利用大型的無標注數據集。只要我們能夠在不侵犯版權或無視創作者偏好的情況下使用數據,我們就可以使用大型數據集,而無需人來手動標記。事實上,在這個預訓練步驟中,其「標簽」就是文本中的后一個詞,而這本身就已經是數據集的一部分了(因此,這種預訓練方法通常被稱為自監督學習)。

接下來的步驟是監督式微調,其過程如下圖所示。

根據指令數據對預訓練后的模型進行微調

監督式微調階段涉及到另一輪對下一 token 的預測。但是,不同于之前的預訓練階段,模型現在處理的是成對的「指令 - 輸出」,如上圖所示。在這里,指令是指提供給模型的輸入(根據任務的不同,指令中有時候會帶有可選的輸入文本)。輸出則是模型給出的接近我們期望的響應。

這里給出一個具體示例,對于下面這一對「指令 - 輸出」:

指令:"Write a limerick about a pelican."

輸出:"There once was a pelican so fine..."

模型將指令文本(Write a limerick about a pelican)作為輸入,執行下一 token 預測獲得輸出文本(There once was a pelican so fine...)。

盡管預測下一 token 這個訓練目標是相似的,但監督式微調使用的數據集通常比預訓練所用的小得多。這是因為它需要的是指令 - 輸出對,而不只是原始文本。為了構建這樣一個數據集,必需有一個人類(或另一個高質量 LLM)來根據給定指令寫出所需輸出 —— 創建這樣一個數據集非常費力。

在這個監督式微調階段之后,還有另一個微調階段,該階段通常被稱為「對齊」步驟,其主要目標是將 LLM 與人類偏好對齊。這就是 RLHF 的用武之地。

對齊,右側圖表來自 InstructGPT 論文

下一節將深入介紹基于 RLHF 的對齊步驟。但是,如果你想對比一下其與預訓練的基礎模型和步驟 2 的監督式微調,可以看看來自 InstructGPT 論文的上圖。

上圖比較了經過監督式微調后的以及使用其它方法的 GPT-3 模型(1750 億參數)。圖中最下方是基礎 GPT-3 模型。

可以看到,如果采用 prompt 工程設計方法,即多次查詢并選取其中的最佳響應(GPT-3 + prompting),則能獲得比基礎模型更好的表現,這符合我們的預期。

而如果將監督式微調用于 GPT-3 基礎模型,則還能取得甚至更優的表現(GPT-3 + supervised finetuning)。

但是,這里表現最佳的還是使用了監督式微調及 RLHF 的 GPT-3 模型(GPT-3 + supervised finetuning + RLHF)—— 即圖中最上面的兩條線。(注意,這里之所以有兩條線,是因為研究者實驗了兩種不同的采樣方法。)

下面將更詳細地介紹 RLHF 步驟。

使用人類反饋的強化學習(RLHF)

前一節討論了 ChatGPT 和 Llama-2-chat 等現代 LLM 背后的三步式訓練流程。這一節將更為詳細地描述微調階段,并重點關注 RLHF 部分。

RLHF 工作流程是通過一種監督式的方式來對預訓練模型進行微調(前一節的第 2 步),然后再通過近端策略優化(PPO)來對齊它(前一節的第 3 步)。

為了簡單起見,我們可將 RLHF 工作流程再分為三步:

  • RLHF 第 1 步:對預訓練模型進行監督式微調;
  • RLHF 第 2 步:創建一個獎勵模型;
  • RLHF 第 3 步:通過近端策略優化進行微調。

如下所示,RLHF 第 1 步是監督式微調步驟,目的是創建用于進一步 RLHF 微調的基礎模型。

RLHF 第 1 步,圖片來自 InstructGPT 論文

在 RLHF 第 1 步,我們創建或采樣 prompt(比如從一個數據庫中采樣),然后讓人類編寫質量優良的響應。然后使用這個數據集通過一種監督式方式來微調預訓練模型。

要注意,RLHF 第 1 步類似于前一節的第 2 步,即「典型的 LLM 訓練流程」。這里再次列出它,因為這是 RLHF 不可或缺的一部分。

然后在 RLHF 第 2 步,使用經過監督式微調的模型創建一個獎勵模型,如下所示。

RLHF 第 2 步,圖片來自 InstructGPT 論文

如上圖所示,用上一步中創建的已微調 LLM 為每個 prompt 生成 4-9 個響應。然后再讓人基于自己的偏好對這些響應進行排名。盡管這個排名過程非常耗時,但相比于創建用于監督式微調的數據集,其勞動力密集程度可能要低一些。這是因為對響應進行排名多半比編寫響應更簡單。

然后基于使用這些排名構建的數據集,我們可以設計一個獎勵模型,其輸出的是用于 RLHF 第 3 步后續優化階段的獎勵分數。這個獎勵模型通常源自之前的監督式微調步驟創建的 LLM。下面將獎勵模型簡稱為 RM,將經過監督式微調后的 LLM 簡稱為 SFT。為了將 RLHF 第 1 步的模型變成獎勵模型,需要將其輸出層(下一 token 分類層)替換成一個回歸層,其具有單個輸出節點。

RLHF 工作流程的第 3 步是使用這個獎勵模型(RM)來微調之前監督式微調的模型(SFT),如下圖所示。

RLHF 第 3 步,圖片來自 InstructGPT 論文

在 RLHF 第 3 步,這也是最后一步,需要根據 RLHF 第 2 步創建的 RM 的獎勵分數,使用近端策略優化(PPO)來更新 SFT 模型。

有關 PPO 的更多細節超出了本文的范圍,但感興趣的讀者可以在 InstructGPT 論文之前的這四篇論文中找到相關數學細節:

(1) 《Asynchronous Methods for Deep Reinforcement Learning》引入了策略梯度方法來替代基于深度學習的強化學習中的 Q 學習。

(2) 《Proximal Policy Optimization Algorithms》提出了一種基于修改版近端策略的強化學習流程,其數據效率和可擴展性均優于上面的基礎版策略優化算法。

(3) 《Fine-Tuning Language Models from Human Preferences》闡釋了 PPO 的概念以及對預訓練語言模型的獎勵學習,包括 KL 正則化,以防止策略偏離自然語言太遠。

(4) 《Learning to Summarize from Human Feedback》引入了現在常用的 RLHF 三步流程,后來的 InstructGPT 論文也使用了該流程。

Llama 2 中的 RLHF

上一節介紹了 OpenAI 的 InstructGPT 論文中描述的 RLHF 流程。人們也普遍相信 ChatGPT 的開發中也使用了該流程。但它與 Meta AI 最新的 Llama 2 模型相比如何呢?

Meta AI 在創造 Llama-2-chat 模型時也使用了 RLHF。盡管如此,這兩種方法之間還是有些差異,如下圖所示。

兩種 RLHF 的差異,圖片改編自 Llama-2 論文

總結起來,Llama-2-chat 遵循與 InstructGPT 的 RLHF 第 1 步相同的基于指令數據的監督式微調步驟。然而,在 RLHF 第 2 步,Llama-2-chat 是創建兩個獎勵模型,而不是一個。此外,Llama-2-chat 模型會經歷多個演進階段,獎勵模型也會根據 Llama-2-chat 中涌現的錯誤而獲得更新。它還有一個額外的拒絕采樣步驟。

邊際損失

還有另一個區別未在上圖中給出,其涉及到生成獎勵模型時對模型響應排序的方式。在之前討論的 InstructGPT 所用的標準 RLHF PPO 中,研究者會根據自己創建的「k 選 2」比較方法來收集排名 4-9 的輸出響應。

舉個例子,如果一位人類標注者要對 4 個響應(A-D)進行排名,比如 A < C < D < B,這會有「4 選 2」=6 次比較。

  • A < C
  • A < D
  • A < B
  • C < D
  • C < B
  • D < B

類似地,Llama 2 的數據集基于對響應的二元比較,例如 A < B。然而,每位人類標記者在每輪標記時僅會比較 2 個響應(而不是 4-9 個響應)。

此外,Llama 2 方法的另一個不同之處是在每次二元排名時會收集一個「邊際」標簽(范圍從「優勢顯著」到「優勢可忽略」),這可以通過一個附加的邊際參數被用于二元排名損失(可選)以計算兩個響應之間的差距。

在訓練獎勵模型方面,InstructGPT 使用的是以下基于交叉熵的排名損失:

Llama 2 則添加了一個邊際量 m (r) 作為偏好評級的離散函數,如下所示:

其中:

  • r_θ(x,y) 是對于 prompt x 和生成的響應 y 的標量分數輸出;
  • θ 是模型權重;
  • σ 是 logistic sigmoid 函數,作用是把層輸出轉換為 0 到 1 之間的分數;
  • y_c 是人類標注者選擇的偏好響應;
  • y_r 是人類標注者選擇的被拒響應。

舉個例子,通過 m (r) 返回一個更高的邊際量會讓偏好響應和被拒響應的獎勵之差更小,這會讓損失更大,又進一步導致梯度更大,最終導致模型在策略梯度更新過程中發生變化。

兩個獎勵模型

如前所述,Llama 2 中有兩個獎勵模型,而不是一個。一個獎勵模型基于有用性,另一個則是基于安全性。而用于模型優化的最終獎勵函數是這兩個分數的一種線性組合。

Llama 2 的排名方法和獎勵模型創建,改編自 InstructGPT 論文的圖片

拒絕采樣

此外,Llama 2 的作者還采用了一種可以迭代式產生多個 RLHF 模型(從 RLHF-V1 到 RLHF-V5)的訓練流程。他們沒有僅僅依賴于之前討論的使用 PPO 方法的 RLHF,而是使用了兩種用于 RLHF 微調的算法:PPO 和拒絕采樣(rejection sampling。

在拒絕采樣中,會先抽取 K 個輸出,然后在優化步驟選取其中獎勵最高那個用于梯度更新,如下圖所示。

Llama 2 的拒絕采樣步驟,即創建多個響應然后選取其中獎勵最高的那個,改編自 InstructGPT 論文的圖片

拒絕采樣的作用是在每次迭代中選取獎勵分數高的樣本。由此造成的結果是,模型可以使用獎勵更高的樣本進行微調,相比之下,PPO 每次只能基于一個樣本進行更新。

在經過監督式微調的最初階段后,再專門使用拒絕采樣訓練模型,之后再將拒絕采樣和 PPO 組合起來。

研究者繪出了隨 RLHF 各階段的模型性能變化情況,可以看到經過 RLHF 微調的模型在安全性和有用性方面都有提升。

RLHF 確實有效,改編自 Llama 2 論文的圖片

請注意,研究者在最后一步中使用了 PPO,之前則是用拒絕采樣更新過的模型。對比圖中 RLHF-v5 (with PPO) 和 RLHF-v5 (no PPO) 的位置可以看到,如果在拒絕采樣之后的最后階段使用 PPO,模型的表現會更好一些。

RLHF 的替代技術

現在我們已經討論并定義了 RLHF 過程,這個過程相當復雜,人們可能會問這么麻煩是否值得。前文中來自 InstructGPT 和 Llama 2 論文的圖表(下面再次給出)證明 RLHF 值得這樣麻煩。

但是,有很多研究關注的重點是開發更高效的替代技術。其中最有趣的方法總結如下。

論文 1:《Constitutional AI: Harmlessness from AI Feedback》

論文地址:https://arxiv.org/abs/2212.08073

在這篇 Constitutional AI 論文中,作者提出了一種自訓練機制,其基于人類提供的規則列表。類似于之前提到的 InstructGPT 論文,這里提出的方法也使用了一種強化學習。

來自 Constitutional AI 論文

上圖中的「red teaming(紅隊)」這一術語指的是一種源于冷戰軍事演習的測試方法,原本是指扮演蘇聯角色的演習隊伍,用于測試美國的戰略和防御能力。

在 AI 研究的網絡安全語境中,紅隊現在描述的是這樣一個過程:外部或內部的專家模仿潛在的對手,通過模仿真實世界打擊者的戰術、技術和工作流程來挑戰、測試并最終提升給定的相關系統。

論文 2:《The Wisdom of Hindsight Makes Language Models Better Instruction Followers》

圖片

論文地址:https://arxiv.org/abs/2302.05206

這篇論文用于 LLM 微調的監督式方法實際上可以發揮出很好的效果。這里,研究者提出了一種基于重新標注的監督式微調方法,其在 12 個 BigBench 任務上的表現優于 RLHF。

這種新提出的 HIR(Hindsight Instruction Labeling)是如何工作的?簡單來說,HIR 方法包含兩個步驟:采樣和訓練。在采樣步驟,prompt 和指令被輸入到 LLM 中以收集響應。然后基于對齊分數,在訓練階段適當的地方對指令進行重新標注。然后,使用經過重新標注的指令和原始 prompt 對 LLM 進行微調。使用這種重新標注方法,研究者可以有效地將失敗案例(LLM 的輸出與原始指令不匹配的情況)轉變成對監督學習有用的訓練數據。

圖片

來自上述論文的方法及實驗結果比較

注意這項研究不能直接與 InstructGPT 中的 RLHF 工作進行比較,因為它似乎使用啟發式方法(「但是,由于大多數人類反饋數據都難以收集,所以我們采用了一個腳本化的反饋函數……」)不過 HIR 的事后高見方法的結果依然非常引人注目。

論文 3:《Direct Preference Optimization:Your Language Model is Secretly a Reward Model》


圖片

論文地址:https://arxiv.org/abs/2305.18290

直接偏好優化(DPO)是一種「使用 PPO 的 RLHF」的替代技術,作者在論文中表明在 RLHF 用于擬合獎勵模型的交叉熵損失也可用于直接微調 LLM。根據他們的基準測試,使用 DPO 的效率更高,而且在響應質量方面也通常優于 RLHF/PPO。

圖片

來自對應論文的 DPO 及其效果展示

有關這項研究的更多介紹可參看機器之心報道《RLHF 中的「RL」是必需的嗎?有人用二進制交叉熵直接微調 LLM,效果更好》。

論文 4:《Reinforced Self-Training (ReST) for Language Modeling》 

論文地址:https://arxiv.org/abs/2308.08998

ReST 也是 RLHF 的一種替代方法,其能用于對齊 LLM 與人類偏好。ReST 使用一種采樣方法來創建一個改進版數據集,然后在質量越來越高的子集上不斷迭代訓練,從而實現對獎勵函數的微調。據作者描述,ReST 的效率高于標準的在線 RLHF 方法(比如使用 PPO 的 RLHF),因為其能以離線方式生成訓練數據集,但他們并未全面地比較這種方法與 InstructGPT 和 Llama 2 等中使用的標準 RLHF PPO 方法。

圖片

ReST 方法圖示

有關這項研究的更多介紹可參看機器之心報道《DeepMind 新研究:ReST 讓大模型與人類偏好對齊,比在線 RLHF 更有效》。

論文 5:《RLAIF:Scaling Reinforcement Learning from Human Feedback with AI Feedback》

圖片

論文地址:https://arxiv.org/abs/2309.00267

近期的根據人工智能反饋的強化學習(RLAIF)研究表明,在 RLHF 中用于訓練獎勵模型的評分并不一定非要由人類提供,也可以使用 LLM(這里是 PaLM 2)生成。在人類評估者看來,用傳統 RLHF 方法和 RLAIF 方法訓練的模型得到的結果都差不多。

另一個有趣的發現是:RLHF 和 RLAIF 模型都顯著優于單純使用監督式指令微調訓練的模型。

圖片

RLHF 和 RLAIF 方法以及它們的勝率比較

這項研究的結果非常有用而且很有意思,因為這基本上意味著我們可以讓 RLHF 訓練更加高效并且成本更低。但是,在有關信息內容的安全性和可信性(人類偏好研究只能部分地體現)的定性研究中,這些 RLAIF 模型究竟表現如何還有待觀察。

有關這項研究的更多介紹可參看機器之心報道《RLHF vs RL「AI」F,谷歌實證:大模型訓練中人類反饋可被 AI 替代》。

結語

這些替代技術是否值得投入應用實踐?這個問題還有待解答,因為目前 Llama 2 和未使用 RLHF 訓練的 Code Llama 系列模型都還沒有真正的競爭者。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2019-08-05 10:00:13

LinuxBash命令

2017-03-27 17:53:45

Linux

2013-01-04 09:53:32

大數據技術大數據

2013-07-30 14:27:14

IT領導

2020-05-07 18:20:52

Git腳本Linux開源

2013-09-18 09:40:32

企業BYOD企業應用商店

2021-11-30 05:51:46

React開發工具

2020-11-09 06:51:46

開源工具開源

2024-12-03 10:55:56

微服務架構注冊中心

2012-12-04 18:11:46

LanSecS堡壘主機堡壘機

2011-02-22 08:55:42

Chrome企業瀏覽器

2012-04-18 17:06:41

PhoneGap

2014-01-09 14:25:19

MacOS X工具

2015-05-07 13:38:15

2024-01-10 08:02:03

分布式技術令牌,

2010-06-05 22:52:33

UML

2009-07-08 14:24:43

Java日志系統跟蹤調試

2024-10-17 16:01:02

2023-05-04 12:37:24

2014-03-03 11:02:35

開放網絡SDN博科
點贊
收藏

51CTO技術棧公眾號

欧美激情综合| 国产一区二区高清在线| 久久久精品一品道一区| 国产女人18毛片水18精品| 色哟哟一一国产精品| 一区二区三区欧洲区| 欧美日韩亚洲一区二| 亚洲乱码一区二区三区三上悠亚| 999精品国产| 免费在线欧美黄色| 精品国偷自产在线| 久久人人妻人人人人妻性色av| 成人不卡视频| 亚洲成av人片| 最新av网址在线观看| 日本天堂影院在线视频| 国产一区二区毛片| 国产va免费精品高清在线观看| 日本妇女毛茸茸| 啪啪亚洲精品| 亚洲国产精品久久久久秋霞蜜臀| 天堂社区在线视频| 看黄在线观看| 一区二区三区.www| 亚洲精品一区二| 三级在线视频| eeuss国产一区二区三区| 国产日本欧美在线观看| 超碰中文字幕在线| 欧美日韩国产欧| 日韩中文字幕在线观看| 中文字幕一区二区久久人妻网站 | 免费av网站观看| 麻豆成人av在线| 日本久久91av| 久久久久久少妇| 最新日韩在线| 欧美激情乱人伦一区| 日本黄色片免费观看| 加勒比久久综合| 日韩精品丝袜在线| 97精品人妻一区二区三区蜜桃| 亚洲ww精品| 欧美午夜不卡视频| 日本精品久久久久中文字幕| 日产福利视频在线观看| 亚洲福中文字幕伊人影院| 伊人再见免费在线观看高清版| jyzzz在线观看视频| 久久久精品影视| 日本精品免费| 东热在线免费视频| 国产日韩欧美不卡在线| 欧美乱偷一区二区三区在线| 天堂av在线资源| 久久综合视频网| 国产美女精品在线观看| 亚洲精品一区二区三区四区| 国产高清亚洲一区| 国产99在线播放| 日本高清视频网站| 99久久精品情趣| 欧美精品二区三区四区免费看视频| 国产精品国产高清国产| 久久久五月婷婷| 日本一区免费看| av在线1区2区| 中文字幕日韩av资源站| 天天综合中文字幕| 污污视频在线| 午夜精品久久久久久久久久| 黄色免费福利视频| 欧美xxxx做受欧美护士| 欧美日本不卡视频| 黑人巨大猛交丰满少妇| 99香蕉久久| 亚洲精品一区中文字幕乱码| 神马久久久久久久久久久 | 艳母动漫在线观看| 三级资源在线| 日本久久一区二区| av中文字幕网址| 亚洲视频国产| 国产视频一区在线| 国产极品视频在线观看| 亚洲人metart人体| 7777免费精品视频| 在线播放一级片| 国产高清久久久| 久久伦理网站| 国产在线高潮| 午夜精品一区二区三区三上悠亚| 日韩有码免费视频| 中文字幕久久精品一区二区| 日韩精品视频在线| 日本爱爱小视频| 在线看片欧美| 国产精品一区二区久久精品 | 国产激情一区二区三区| 国内精品久久国产| 欧美日韩在线看片| 精品成人在线视频| 三级性生活视频| 亚洲电影男人天堂| 欧美成人中文字幕在线| 日韩免费视频一区二区视频在线观看| 久久精品二区亚洲w码| 国严精品久久久久久亚洲影视| 国产黄色在线| 午夜日韩在线观看| 一级淫片在线观看| 美女久久久久| 欧美精品video| 91亚洲国产成人久久精品麻豆| 99久久精品国产精品久久| 亚洲欧美日韩不卡一区二区三区| 国产经典三级在线| 91麻豆精品国产自产在线| 亚洲av无码一区二区三区人| 欧美午夜一区| 成人日韩av在线| av在线播放网| 日韩欧美精品网址| 欧美熟妇精品一区二区蜜桃视频| 久久久精品久久久久久96| 日韩女在线观看| 污视频在线免费| 一卡二卡欧美日韩| 亚洲男人天堂2021| 精品久久中文| 国产极品jizzhd欧美| 日本亚洲欧美| 欧美日韩亚洲精品内裤| 欧美一级片黄色| 国产精品草草| 91免费在线观看网站| 黄色片网站在线| 欧美日韩国产经典色站一区二区三区| 久久精品成人av| 国产精品久久国产愉拍| 精品国产乱码久久久久久88av| 91黄色在线| 欧美mv和日韩mv的网站| 九九免费精品视频| 国产精品一区三区| 欧美精品在欧美一区二区| 韩国三级成人在线| 久久天天躁狠狠躁夜夜躁| 一级特黄aaa大片| 国产精品女上位| 老司机午夜性大片| 国产精品99在线观看| 成人高清视频观看www| 日本精品一区二区三区在线播放| 欧美日韩视频第一区| 色www亚洲国产阿娇yao| 久久国产精品72免费观看| 一区二区欧美日韩| 96sao精品免费视频观看| 久久视频在线视频| 国产又大又粗又长| 亚洲激情六月丁香| 亚洲精品乱码久久久久久蜜桃图片| 亚洲激精日韩激精欧美精品| 久久国产精品一区二区三区| 欧美少妇精品| 在线观看视频亚洲| 中文字幕欧美人妻精品一区蜜臀| 18欧美乱大交hd1984| 亚洲制服中文字幕| 一区在线视频| 日韩国产伦理| 91成人福利社区| 欧美精品www在线观看| 视频在线观看你懂的| 欧美色偷偷大香| 极品颜值美女露脸啪啪| 91天堂素人约啪| 我要看一级黄色大片| 综合激情婷婷| 久久久99爱| 成人激情五月天| 亚洲欧洲二区| 久久久久久久成人| 青草久久伊人| 日韩一区二区免费在线观看| 日韩精品视频播放| 国产精品免费视频一区| 亚洲欧洲国产视频| 日本欧美一区二区在线观看| 欧美交换配乱吟粗大25p| 亚欧日韩另类中文欧美| 91免费版网站入口| 黄色成人免费网| 久久国内精品一国内精品| 性xxxx18| 日韩视频在线永久播放| 波多野结衣视频在线观看| 亚洲欧美日韩一区二区| 黄色正能量网站| 国产乱子伦一区二区三区国色天香| 国产精品无码av在线播放| 午夜av一区| 日本一区二区三区视频免费看| 国产亚洲久久| 国产精品网红直播| 人狥杂交一区欧美二区| 久久九九亚洲综合| 国产一二在线观看| 亚洲国产精品字幕| 国产精品欧美亚洲| 在线观看日产精品| 你懂的国产视频| 亚洲精品免费电影| 国产精品综合激情| 91看片淫黄大片一级在线观看| 黄色一级片免费播放| 日韩电影一二三区| 男人添女人下面高潮视频| 一区二区三区在线| 亚洲伊人婷婷| 成人羞羞动漫| 欧美中文娱乐网| 天堂av一区二区三区在线播放| 91免费观看| 国产精品99久久免费| 国产精品久久久久高潮| 成人欧美大片| 欧美专区第一页| 国产调教在线| 国模精品视频一区二区三区| 在线免费观看a视频| 久久久黄色av| 成人在线免费看片| 久久精品视频在线观看| 日韩在线资源| 日韩一区二区三区在线播放| 1区2区3区在线观看| 亚洲男人的天堂网站| 污视频在线免费| 精品视频一区在线视频| 天天摸天天碰天天爽天天弄| 亚洲福利视频久久| 六月婷婷综合网| 亚洲国产精品va| 无码国产精品96久久久久| 亚洲福利在线观看| 天天操天天干天天爱| 亚洲国产成人精品女人久久久| 蜜桃91麻豆精品一二三区| 精品久久人人做人人爽| www.com在线观看| 亚洲成人免费网站| 天天插天天干天天操| 日韩精品在线第一页| 国产一区精品| 久久精品久久精品亚洲人| av官网在线播放| 久久久久久亚洲精品中文字幕| 丁香花在线影院| 欧美夜福利tv在线| 澳门av一区二区三区| 国产日韩在线播放| 中文字幕区一区二区三| 久久艳妇乳肉豪妇荡乳av| 精品国产乱码久久久久久蜜坠欲下 | 国产欧美一区二区精品性色| 青青青视频在线免费观看| 亚洲图片激情小说| 国产小视频在线观看免费| 欧美日韩色婷婷| 亚洲成熟少妇视频在线观看| 欧美日韩一区二区电影| 精品人妻久久久久一区二区三区 | 懂色av中文在线| 久久成人免费视频| 草草在线观看| 国产精品专区h在线观看| 在线观看视频一区二区三区| 久久青青草原| 婷婷综合社区| 国产乱子伦农村叉叉叉| 美女久久久精品| 无码国产精品久久一区免费| 久久亚洲影视婷婷| 国产性生活大片| 欧美日韩精品国产| 一级日韩一级欧美| 日韩激情第一页| 午夜伦理在线| 久久人人爽国产| 九七电影院97理论片久久tvb| 国产精品视频免费观看| 欧美日韩一二| 日韩中字在线观看| 蜜臀av一级做a爰片久久| 中文字幕1区2区| 欧美国产亚洲另类动漫| 91精品国产高潮对白| 欧美精三区欧美精三区| 青青草免费观看免费视频在线| 久久九九亚洲综合| 日韩经典一区| 精品无人区一区二区三区| 99视频精品视频高清免费| 欧美 日韩 国产一区| 国产乱码字幕精品高清av| 亚洲精品国产一区黑色丝袜| 亚洲午夜在线电影| 亚洲一区中文字幕在线| 亚洲天堂av电影| 国产伦子伦对白在线播放观看| 亚洲一区二区少妇| 成人精品亚洲| 虎白女粉嫩尤物福利视频| 高清视频一区二区| 99成人在线观看| 日本久久一区二区| 三级毛片在线免费看| 国外色69视频在线观看| 国产一区二区三区免费在线 | 免费毛片视频网站| 亚洲va国产va欧美va观看| av综合在线观看| 久久韩国免费视频| 免费日韩成人| 亚洲v国产v在线观看| 首页亚洲欧美制服丝腿| 三级电影在线看| 婷婷开心久久网| 婷婷五月综合激情| 欧美精品激情视频| 少妇精品在线| 看一级黄色录像| 精品一区二区三区欧美| 久久精品在线观看视频| 欧美性猛片aaaaaaa做受| 国产51人人成人人人人爽色哟哟 | 成人在线啊v| 五月天色婷婷综合| 国内国产精品久久| 午夜激情视频在线播放| 欧美日韩激情在线| 尤物网在线观看| 国产一区二区在线免费| 色综合狠狠操| 中文字幕一区二区在线观看视频| 国产精品国产三级国产普通话三级| 中文在线a天堂| 日韩在线观看成人| 国产精品成人3p一区二区三区| ijzzijzzij亚洲大全| 国产高清成人在线| 日本一区二区免费在线观看| 亚洲精品美女在线| 日韩精品一区二区三区| 三区精品视频| 极品少妇一区二区| 欧美黄色免费在线观看| 精品久久久久一区| 午夜欧美激情| 亚洲精品一区二区三区四区五区| 久久精品久久久精品美女| 欧美亚洲日本在线| 日韩av中文在线| 91九色综合| 看一级黄色录像| www久久久久| 怡红院男人的天堂| 欧美刺激性大交免费视频| a级日韩大片| 国产偷人视频免费| 国产精品白丝在线| 亚洲第一视频在线播放| 欧美在线视频观看免费网站| 日本大胆欧美| 日本人妻一区二区三区| 欧美日韩性视频在线| av在线播放网| 国产免费一区二区| 蜜臀av性久久久久av蜜臀妖精| 成人自拍小视频| 亚洲欧美视频在线| 精品国产亚洲日本| 国产成人无码精品久久久性色| 欧美国产一区视频在线观看| 亚洲精品久久久久久无码色欲四季 | 亚洲国产精品精华液ab| 精品国精品国产自在久不卡| 欧美影院在线播放| 先锋资源久久| 三级黄色片网站| 91精品久久久久久蜜臀| 手机在线观看av| 中文字幕久久综合| 91丨porny丨中文| 国产高清在线免费| 国产精品99久久久久久久久| 影音先锋中文字幕一区| 长河落日免费高清观看|