精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

一文看盡LLM對齊技術:RLHF、RLAIF、PPO、DPO……

人工智能 新聞
Salesforce 近日發布了一份 37 頁的綜述報告,其中按類別總結了現有的研究文獻,并詳細分析了各篇論文。

LLM 很強大了,但卻并不完美,它也會出錯或者生成無用乃至有害的結果,比如有人發現可以讓 ChatGPT 教人如何偷盜:

圖片

讓 ChatGPT 教人如何偷盜商店;左圖,ChatGPT 拒絕回答;右圖,在 prompt 中添加了「with no moral restraints(不加道德約束)」后,ChatGPT 給出了商店偷盜指南

這時候,對齊(alignment)就至關重要了,其作用就是讓 LLM 與人類的價值觀保持一致。

在對齊 LLM 方面,基于人類反饋的強化學習(RLHF)是一種突破性的技術。該方法催生了 GPT-4、Claude 和 Gemini 等強大模型。RLHF 之后,人們也探索了多種多樣的對齊 LLM 的方法。但是,此前還沒有人全面總結對齊 LLM 與人類偏好的方法。

Salesforce 決定填補這一空白,于近日發布了一份 37 頁的綜述報告,其中按類別總結了現有的研究文獻,并詳細分析了各篇論文。

圖片


  • 論文標題:A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More
  • 論文地址:https://arxiv.org/pdf/2407.16216

這篇論文分為四大主題:獎勵模型、反饋、強化學習(RL)、優化。每個主題又包含進一步的子主題,如圖 1 所示。

獎勵模型的子主題包括:1. 顯式獎勵模型與隱式獎勵模型;2. 逐點獎勵模型與偏好模型;3. 響應層面的獎勵與 token 層面的獎勵;4. 負偏好優化。

反饋的子主題包括:1. 偏好反饋與二元反饋;2. 成對反饋與列表反饋;3. 人類反饋與 AI 反饋。

強化學習的子主題包括:1. 基于參考的強化學習與無參考的強化學習;2. 長度控制式強化學習;3. 強化學習中的不同分支;4. 在線策略強化學習與離線策略強化學習。

優化的子主題包括:1. 在線 / 迭代式偏好優化與離線 / 非迭代式偏好優化;2. 分離 SFT 和對齊與合并 SFT 和對齊。

表 1 列出了這篇綜述報告中分析的所有論文在這 13 個評估指標上的劃分情況。

研究論文

這一節將詳細介紹各篇論文,讓讀者無需閱讀原論文也能了解這些重要創新。機器之心將簡單梳理各個研究方向并列出代表性論文。

1. RLHF/PPO

LLM 的預訓練要用到大量來自不同來源的語料庫,而這本身就無法確保這些數據集的質量。此外,LLM 的主要目標是預測下一個 token,這個目標與「有用且安全地遵從用戶指令」的目標并不一致。因此,LLM 可能會輸出不真實、有害或對用戶無用的內容。本質上講,這些模型并未與用戶意圖對齊。RLHF/PPO 的主要目標是在各種任務上對齊語言模型與用戶意圖,其做法是使用人類反饋來微調模型。有關這個主題的研究有很多。

InstructGPT

InstructGPT 來自 OpenAI,這是訓練 ChatGPT 和 GPT-4 等模型的基礎,參閱《GPT-4 技術報告》以及機器之心的報道《GPT-4 震撼發布:多模態大模型,直接升級 ChatGPT、必應,開放 API,游戲終結了?》《跟李沐學 ChatGPT 背后技術:67 分鐘讀透 InstructGPT 論文》。

通過納入人類偏好,評估 LLM 生成的響應的難題得到了解決。BLEU、ROUGE 和 BERTScore 等用于評估 LLM 的傳統評估指標無法保證與人類偏好的一致性。為了解決這個問題,研究者直接將人類偏好整合進了 LLM 以增強其性能。這個過程通常涉及兩個主要步驟:獎勵模型學習和強化學習策略訓練。

在獎勵模型學習階段,會使用 prompt 和配對的響應訓練一個顯式的逐點獎勵函數。

之后,開始強化學習策略訓練階段;在這個階段,LLM 和預訓練獎勵模型分別作為一個強化學習框架中的智能體和環境。

為了訓練 InstructGPT,要用到三個數據集:1.SFT 數據集:包含用于訓練 SFT 模型的標注者演示。2.RM(獎勵模型)數據集:由人類標注者對模型輸出的排名構成,用于訓練獎勵模型。3.PPO 數據集:由用作 RLHF 微調輸入的 prompt 構成。

訓練后的 InstructGPT 會在三個方面得到評估:有用性、可信度、有害性。

從結果上看,人類評估表明「相比于 175B 的 GPT-3,人們 更偏好 1.3B 參數版本的 InstructGPT 模型的輸出,盡管后者的參數量少 100 多倍。」值得注意的是,InstructGPT 在有用性和毒性任務上的表現均優于 GPT-3,這于對齊而言至關重要。

Anthropic 的 RLHF

Anthropic 也研究過同一主題,論文為《Training a helpful and harmless assistant with reinforcement learning from human feedback》。

OpenAI 發現 RLHF 有助于對齊,但也可能導致模型在某些 NLP 基準上的性能下降,這個現象被稱為「對齊稅(alignment tax)」。其開發的 InstructGPT 模型有 1.3B 參數。相反,Anthropic 的研究者評估了大小在 13M 到 52B 之間的 7 種不同模型,這些模型的大小按 4 倍的幾何級數增長。

他們得出結論說,對較小的模型來說,對齊會產生「稅」,但對較大模型來說,對齊只有好處,尤其是參數量在 13B 到 52B 之間的模型。

考慮到對齊的這種優勢,他們還實驗了用編程技術數據集來提升 LLM 的能力。OpenAI 的 RLHF 方法包含 PPO 和 PPO-ptx,其中 PPO-ptx 的設計目標就是為了降低在 NLP 基準上的對齊稅。而 Anthropic 的 RLHF 研究發現,只要模型夠大,PPO 本身就能在 NLP 下游任務上帶來對齊的好處。他們還確定了強化學習策略訓練中 KL 散度的最優參數為 β = 0.001。

在線 / 迭代式 RLHF

傳統上,對齊 LLM 的 RLHF 技術都是離線方法。但這類方法有些缺點,比如所得結果難以應對分布外數據。

為此,需要對 LLM 進行持續的微調,進行迭代式 / 在線學習,即使用中間策略為 prompt 生成響應,再使用預言機(oracle)為這樣的成對數據給出偏好反饋,再將這些反饋饋送給策略。在實踐中,迭代式學習分為兩個部分:偏好預言機學習和迭代式策略優化。參閱論文《RLHF workflow: From reward modeling to online RLHF》。

2. RLAIF

獲取人類偏好數據集的成本不低,因此基于人工智能反饋的強化學習(RLAIF)誕生了。此外,隨著 LLM 的能力不斷進步,所能收集到的 AI 偏好數據集的質量也不斷提高,由此可提升 LLM 的對齊效果。

Anthropic 的 RLAIF

Anthropic 基于 RLHF 的基礎研究工作,提出了一種名為 RLAIF 的全新方法。參閱論文《Constitutional ai: Harmlessness from ai feedback》。

該方法主要包含兩個階段:1. 通過 Critiques(批評)和 Revisions(修訂)進行監督學習,這由一個章程引導。2. RLAIF。

谷歌的 RLAIF

基于 Anthropic 的 RLAIF 研究成果,谷歌一個研究團隊認為之前的研究無法直接比較人類反饋與 AI 反饋的效果,值得進一步研究。在收集 AI 反饋的過程中,要創建一個結構化的 prompt,其構成包括:導言、少樣本示例(可選)、要標注的樣本、結尾。

為了生成 AI 反饋,需要執行一個兩步式評估:首先,使用指令中的 4 個組件加上 CoT,讓 LLM 生成響應。在下一步中,這個 LLM 響應再附帶上「preferred summary=」這樣的結尾被發送回 LLM,從而生成「summary 1=0.6, summary 2=0.4」這樣的偏好概率。為了減少位置偏差,需要交替放置這兩個響應的序列,并計算其平均分數。

RLAIF 過程采用了兩個策略:1.「蒸餾 RLAIF」,其遵循傳統的 RLHF 方法,即使用偏好訓練一個獎勵模型,然后再將其用于訓練 LLM 策略;2. 「直接 RLAIF」,其直接將 LLM 反饋用作 prompt 來輸出評估分數,再將該分數用作強化學習策略訓練的信號。

最后,其評估過程會使用三個關鍵指標:1.AI - 標注者對齊度:AI 與人類標注者的一致程度。2. 勝率:人類標注者比較兩個候選項并選擇其中某一個的可能性。3. 無害率:人類評估者認為無害的響應的占比。

更多詳情請參閱論文《RLAIF: Scaling reinforcement learning from human feedback with AI feedback》。

直接人類偏好優化

傳統 RLHF 方法通常涉及到優化源自人類偏好的獎勵函數。該方法雖有效,但也可能帶來一些難題,比如增大計算復雜度以及在估計和優化獎勵時需要考慮偏置 - 方差權衡。參閱論文《High-dimensional continuous control using generalized advantage estimation》。

近期有研究探索了其它一些旨在根據人類偏好(無需依賴某個標量的獎勵信號)來直接優化 LLM 策略的方法。

這些方法的目標是通過更直接地使用偏好數據來簡化對齊流程、降低計算開銷以及實現更穩健的優化。通過將該問題描述為一個偏好優化問題,而不是獎勵估計和最大化問題,這些方法能提供一種將語言模型與人類判斷對齊的不同視角:

  • SliC-HF,使用人類反饋進行序列似然校準,參閱論文《SliC-HF: Sequence likelihood calibration with human feedback》。
  • RSO,拒絕采樣優化,參閱論文《Statistical rejection sampling improves preference optimization》。
  • DPO,直接偏好優化,參閱論文《Direct preference optimization: Your language model is secretly a reward model》。
  • DPOP,DPO-positive,參閱論文《Smaug: Fixing failure modes of preference optimisation with DPO-positive》。
  • β-DPO,參閱論文《β-DPO: Direct preference optimization with dynamic β》。
  • IPO,身份偏好優化,參閱論文《A general theoretical paradigm to understand learning from human preferences》。
  • sDPO,逐步 DPO,參閱論文《sDPO: Don’t use your data all at once》。
  • GPO,廣義偏好優化,參閱論文《Generalized preference optimization: A unified approach to offline alignment》。

token 級 DPO

使用 DPO 時,獎勵會被一起分配給 prompt 和響應。相反,使用 MDP 時,獎勵會被分配給各個動作。后續的兩篇論文在 token 層面闡述了 DPO 并將其應用擴展到了 token 級的分析。

  • DPO 可以執行 token 級信用分配的研究,參閱論文《From r to Q?: Your language model is secretly a Q-function》,報道《這就是 OpenAI 神秘的 Q*?斯坦福:語言模型就是 Q 函數》。
  • TDPO,token 級 DPO,參閱論文《Token-level direct preference optimization》。

迭代式 / 在線 DPO

使用 DPO 時,會使用所有可用的偏好數據集來對齊 LLM。為了持續提升 LLM,應當實現迭代式 / 在線 DPO。這就引出了一個有趣的問題:如何高效地收集新的偏好數據集。下面兩篇論文深入探討了這一主題。

  • 自我獎勵式語言模型,參閱論文《Self-rewarding language models》。
  • CRINGE,參閱論文《The cringe loss: Learning what language not to model》。

二元反饋

事實證明,收集偏好反饋比收集二元反饋(比如點贊或點踩)的難度大,因此后者可促進對齊過程的擴展。KTO 和 DRO 這兩項研究關注的便是使用二元反饋來對齊 LLM。

  • KTO,Kahneman-Tversky 優化,參閱論文《KTO: Model alignment as prospect theoretic optimization》。
  • DRO,直接獎勵優化,參閱論文《Offline regularised reinforcement learning for large language models alignment》。

融合 SFT 和對齊

之前的研究主要還是按順序執行 SFT 和對齊,但事實證明這種方法很費力,并會導致災難性遺忘。后續的研究有兩個方向:一是將這兩個過程整合成單一步驟;二是并行地微調兩個模型,最終再進行融合。

  • ORPO,比值比偏好優化,參閱論文《ORPO: Monolithic preference optimization without reference model》。
  • PAFT,并行微調,參閱論文《PAFT: A parallel training paradigm for effective llm fine-tuning》。

長度控制式 DPO 和無參考 DPO

之前有研究表明,LLM 的輸出往往過于冗長。為了解決這個問題,R-DPO 和 SimPO 的關注重心是在不影響生成性能的前提下實現對響應長度的控制。

此外,DPO 必需參考策略來確保已對齊模型不會與參考模型有太大偏差。相較之下,SimPO 和 RLOO 提出了一些方法,可以在不影響 LLM 效果的情況下消除對參考模型的需求。

  • R-DPO,正則化 DPO,參閱論文《Disentangling length from quality in direct preference optimization》。
  • SimPO,簡單偏好優化,參閱論文《SimPO: Simple preference optimization with a reference-free reward》,報道《全面超越 DPO:陳丹琦團隊提出簡單偏好優化 SimPO,還煉出最強 8B 開源模型》。
  • RLOO,REINFORCE Leave-One-Out,參閱論文《Back to basics: Revisiting reinforce style optimization for learning from human feedback in LLMs》。

逐列表的偏好優化

之前在 PPO 和 DPO 方面的研究關注的是成對偏好,而 RLHF 方面的研究則是收集逐列表的偏好來加速數據收集過程,之后再將它們轉換成成對偏好。盡管如此,為了提升 LLM 的性能,直接使用逐列表的數據集來執行偏好優化是可行的。以下三篇論文專門討論了這種方法。

  • LiPO,逐列表偏好優化,參閱論文《LIPO: Listwise preference optimization through learning-to-rank》。
  • RRHF,參閱論文《RRHF: Rank responses to align language models with human feedback without tears》。
  • PRO,偏好排名優化,參閱論文《Preference ranking optimization for human alignment》。

負偏好優化

這些研究有一個共同前提:當前這一代 LLM 已經在翻譯和總結等任務上超越了人類性能。因此,可以將 LLM 的輸出視為期望響應,而無需依靠將人類標注的數據視為偏好響應;這樣做是有好處的。反過來,不期望得到的響應依然也可被用于對齊 LLM,這個過程就是所謂的負偏好優化(NPO)。

  • NN,否定負例方法,參閱論文《Negating negatives: Alignment without human positive samples via distributional dispreference optimization》。
  • NPO,負例偏好優化,參閱論文《Negative preference optimization: From catastrophic collapse to effective unlearning》。
  • CPO,對比偏好優化,參閱論文《Contrastive preference optimization: Pushing the boundaries of llm performance in machine translation》。

納什學習

之前的研究通常是使用逐點獎勵和 BT 模型來得到成對偏好。但是,這種方法比不上直接成對偏好建模并且無法解決成對偏好中的不一致問題。為了克服這些局限,一些研究提出了納什學習方法。

  • 根據人類反饋的納什學習,參閱論文《Nash learning from human feedback》。
  • SPPO,自博弈偏好優化,參閱論文《A minimaximalist approach to reinforcement learning from human feedback》。
  • DNO,直接納什優化,參閱論文《Direct nash optimization: Teaching language models to self-improve with general preferences》。

不同方法的比較

一些研究則是為了比較這些不同方法。這類研究可以闡釋每種方法各自的優缺點。

  • 評估 DPO 及其變體

論文《Insights into alignment: Evaluating dpo and its variants across multiple tasks》在推理、數學問題求解、可信度、問答和多任務理解等多種任務上全面評估了隱式獎勵模型,即無強化學習算法,包括 DPO、KTO、IPO 和 CPO。這些評估涉及三個不同場景:1) 微調監督式微調(SFT)模型、2) 微調預訓練模型、3) 微調指令模型。

該研究發現,在大多數基準上,KTO 比其它對齊方法更優。此外,研究表明,對齊并不會顯著提升模型的推理和問答性能,但確實能大幅提升模型的數學問題求解能力。該研究還注意到了數據量的重要性,對齊方法在較小的數據子集上的性能最佳。此外,研究發現 KTO 和 CPO 能有效繞過 SFT 階段,在不影響性能的前提下直接進入對齊階段。相比之下,當繞過 SFT 階段,直接進入對齊階段時,DPO 和 IPO 會表現出明顯的性能下降。

  • DPO 是比 PPO 更好的 LLM 對齊方法嗎?

論文《Is DPO superior to PPO for LLM alignment? A comprehensive study》表明,DPO 可能存在固有局限,可能會產生有偏差的解答,并可能由于分布變化而導致性能下降,

他們發現,DPO 訓練出的策略傾向于未曾見過的響應,尤其是分布外的樣本。而迭代式 / 在線 DPO 則能緩解這個問題,其做法是廣泛探索響應空間并不斷更新參考模型。相較之下,RLHF/PPO 則是通過優勢歸一化、大批量大小以及對參考模型使用指數移動平均來解決這些挑戰。最終,這些發現表明 PPO 優于迭代式 / 在線 DPO,而這又進一步優于標準 DPO。

更多詳情可參閱機器之心專欄文章《ICML 2024 Oral | DPO 是否比 PPO 更適合 LLM,清華吳翼團隊最新揭秘》。

未來方向

通過分析過往論文,該團隊確定了一些有待進一步探索的研究問題。

用于對齊評估的一般任務

不同論文使用了不同的任務來評估這些方法的性能。但是,GSM8K 等一些任務更關注推理,可能并不適合用于評估對齊性能。相反,TruthfulQA 等任務或那些關注毒性的任務應當優先考慮,以評估已微調 LLM 的毒性。應當想辦法將這些任務組合起來,創建一個用于評估對齊的統一排行榜。

將隱式獎勵模型、逐列表偏好和納什學習用于更大規模的語言模型

目前,使用隱式獎勵模型的最大模型的參數量也不過 70B。如果能將這些方法擴展用于更大的模型,比如 GPT-4 和 Claude-3 大小的模型,那應該能幫助我們更好地理解它們與 RLHF/PPO 的相對效果。

類似地,逐列表偏好模型也值得進一步研究。使用 RLHF 時,要使用逐列表偏好收集偏好數據集,之后再將其轉換成多對成對偏好數據。大規模應用逐列表偏好模型的潛在問題依然有待解決。

最后,納什學習可以解決人類標注者之間的不一致問題。如果能將納什學習模型集成到更大規模的 LLM 中,就可以證明其捕獲人性復雜性的能力。

有關二元反饋的實驗

KTO 和 DRO 都采用了「點贊」和「點踩」這樣的二元反饋機制,而不是成對偏好。這些二元反饋來自偏好數據集,其中將期望響應標記成正例,將不期望響應標記成負例。我們還需要對現實的二元數據集進行進一步研究。此外,相比于偏好數據,二元數據集更容易收集,因此有望使用更大規模的二元反饋數據集來進行對齊。但是,二元反饋中的噪聲可能比偏好數據集中的噪聲更加明顯,因此如何有效濾除有噪聲數據也是一個非常有趣的研究方向。

實驗研究有用的 AI 反饋

目前的 AI 反饋主要包括 RLAIF 中的無害反饋和迭代式 DPO 中的反饋排名。但是,使用 RLAIF 時,有用反饋依然是由人類標注者提供。這種方法是合理的,因為生成有用響應的難度比識別有害反饋明顯大得多。一個有趣的未來研究方向是使用 LLM 來生成有用的反饋,由此讓 LLM 可以自我提升。

加速納什學習

納什學習方法可以有效建模成對偏好并解決人類標注之間的不一致問題。但是,它必需多次迭代才能收斂到最優策略。盡管其作者沒有明說對齊所需的時間,但可猜測其會比 DPO 等隱式獎勵模型慢得多。因此,提升納什學習過程的速度也是一個值得關注的研究方向。

迭代 / 在線學習的終止

在使用迭代 / 在線訓練時,確定終止迭代的時間很關鍵。之前有研究發現,迭代式學習有時會降低 LLM 在某些任務上的性能,這可能是過擬合的跡象。但是,目前還沒有研究者探索如何確定終止迭代的合理 epoch。

簡化 SFT + 對齊

當前的方法通常是以一種連續方式實現 SFT 和對齊。但是,這種方法往往會導致災難性遺忘,并讓整個訓練過程變得更加費力。PAFT 方法減輕災難性遺忘的方式是先分別微調 SFT 和對齊然后再將它們融合到一起,但這也會提升復雜性。相較之下,ORPO 技術是同時整合這兩個過程,但卻會導致性能下降。那么,該如何有效地將 SFT 和對齊組合起來實現高性能同時又維持高效率呢?這還是一個有待解決的挑戰。

更多細節參見原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-01-30 10:30:32

AI 數據人工智能

2021-01-04 14:59:50

AIAI技術機器學習

2020-01-07 14:24:18

人工智能機器學習技術

2024-10-09 16:00:00

AI模型數據

2024-09-19 09:12:50

RAG系統技術

2024-01-15 05:55:33

2024-07-22 08:22:00

2024-05-27 00:45:00

2024-06-24 08:25:00

2020-12-23 16:40:09

AI 數據人工智能

2025-08-11 09:10:00

2019-08-29 10:10:52

神經網絡激活函數人工智能

2024-02-04 16:40:11

LLM人工智能AI

2021-06-01 11:44:54

數博會

2018-10-30 11:10:05

Flink數據集計算

2023-11-20 14:58:30

人工智能AI Agents

2024-06-04 12:59:41

2023-03-06 21:29:41

mmap技術操作系統

2023-02-01 07:34:41

讀寫分離數據庫

2022-09-27 13:34:49

splice零拷貝原理
點贊
收藏

51CTO技術棧公眾號

国产男人精品视频| 亚洲精品中文字幕有码专区| 亚洲午夜精品久久| 中文字幕av久久爽| 黄色成人精品网站| 亚洲欧美日韩网| 日日干日日操日日射| 欧美xxxx免费虐| www精品美女久久久tv| 国产裸体写真av一区二区| 九九久久免费视频| 精品国产一区二区三区久久久蜜臀 | 欧美日韩在线视频免费观看| 久久精品人人爽人人爽| 91精品国自产在线观看| 亚洲 日本 欧美 中文幕| 欧美黄色免费| 色婷婷综合久久久久中文字幕1| 人妖粗暴刺激videos呻吟| 日韩av电影资源网| 亚洲第一在线综合网站| 一区二区精品免费视频| 五月天婷婷激情网| 国产精品亚洲а∨天堂免在线| 日韩av免费在线观看| 国产亚洲精久久久久久无码77777| 欧美久久综合网| 精品91自产拍在线观看一区| 日本美女视频一区| 婷婷激情一区| 午夜成人免费视频| 人妻av无码专区| yellow91字幕网在线| 国产清纯白嫩初高生在线观看91 | 亚洲欧美区自拍先锋| 欧美最大成人综合网| 韩国av在线免费观看| 精品制服美女丁香| 国产精品pans私拍| 国产69精品久久久久久久久久| 午夜亚洲福利| 久热精品在线视频| 久久国产波多野结衣| 欧美一区二区三| 亚洲人成网站999久久久综合| 丰满岳乱妇一区二区| www.成人网| 日韩欧美国产综合一区 | 欧美日本三级| 欧美一区二区私人影院日本| 9l视频白拍9色9l视频| 向日葵视频成人app网址| 欧美三级免费观看| 色婷婷综合久久久久中文字幕| 亚洲天堂av影院| 欧美日韩在线第一页| 激情五月宗合网| 欧美aa在线| 色综合视频一区二区三区高清| 91专区在线观看| a一区二区三区| 日韩欧美国产骚| 国产日韩一区二区在线观看| 周于希免费高清在线观看 | 欧美高清电影在线看| 久久久久久免费观看| 亚洲小说欧美另类社区| 97精品国产97久久久久久春色| 国产一级做a爱片久久毛片a| 久久精品欧洲| 国产日韩在线一区| 国产女人18毛片水18精| 国产**成人网毛片九色| 韩国精品一区二区三区六区色诱| 四虎在线观看| 国产欧美一区二区三区在线看蜜臀 | 久久精品高清| 欧美大成色www永久网站婷| 久久亚洲AV无码| 在线亚洲自拍| 国产精品大片wwwwww| 一本大道伊人av久久综合| 国产精品夜夜爽| 久久www免费人成精品| 成年人在线看| 亚洲午夜日本在线观看| 亚洲熟妇av一区二区三区| 九九九精品视频| 日韩久久精品一区| v8888av| 91成人看片| 久久久久久久久久久久av| 欧产日产国产69| 黄色日韩网站视频| 国产精品裸体一区二区三区| 国产裸舞福利在线视频合集| 一区二区三区四区中文字幕| 50路60路老熟妇啪啪| 色噜噜成人av在线| 亚洲国产日韩欧美在线图片| 久久丫精品忘忧草西安产品| 欧美激情亚洲| 日本一区二区三区在线播放 | 日韩电影免费在线观看中文字幕| 色www亚洲国产阿娇yao| 在线日韩av| 国产女同一区二区| 天天干天天干天天干| 国产精品毛片大码女人| 欧美日韩成人免费视频| 国产精品xnxxcom| 国产亚洲欧美日韩美女| 国产午夜精品一区二区理论影院| 麻豆国产91在线播放| 精品一区二区久久久久久久网站| 免费a级人成a大片在线观看| 日韩欧美国产视频| 中文字幕无码毛片免费看| 免费精品国产| 性日韩欧美在线视频| 国产又粗又大又爽视频| 国产亚洲欧美激情| 国产精品无码人妻一区二区在线| 清纯唯美激情亚洲| 最近2019中文免费高清视频观看www99| 久久免费视频精品| 久久99精品国产.久久久久| 久热国产精品视频一区二区三区| 性爱视频在线播放| 91麻豆精品国产91久久久久久久久 | jazzjazz国产精品麻豆| 欧美久久精品午夜青青大伊人| 日本欧美www| 久久综合五月天婷婷伊人| 日产精品久久久久久久蜜臀| av日韩久久| 久久精品91久久久久久再现| 中文字幕欧美人妻精品一区蜜臀 | 欧美成人精品3d动漫h| 少妇视频一区二区| 日韩成人av影视| 日韩国产美国| 欧洲一级精品| 亚洲天堂网在线观看| 日韩精品一区二区亚洲av| a在线播放不卡| 免费av手机在线观看| 蜜桃久久久久| 97**国产露脸精品国产| 天天操天天干天天干| 精品久久久久久久久久ntr影视| 污污污www精品国产网站| 伊人精品成人久久综合软件| 国产精品国产精品国产专区蜜臀ah | 青青操综合网| 91av在线视频观看| 五月婷婷六月激情| 欧美日在线观看| 免费福利视频网站| 麻豆精品一区二区三区| 中文视频一区视频二区视频三区| 99精品在线免费观看| 欧美日本啪啪无遮挡网站| 丰满人妻一区二区三区无码av | 精品区在线观看| 亚洲影视在线观看| 国产伦精品一区二区三区精品| 国产精品综合| 日韩欧美精品在线不卡| 欧美啪啪网站| 久久久久久91香蕉国产| 你懂的在线视频| 欧美日韩亚洲综合在线 欧美亚洲特黄一级| fc2ppv在线播放| 国产精品资源网站| 免费无遮挡无码永久视频| 国产一区二区三区四区二区 | 青青青国产在线视频| 欧美电影《睫毛膏》| 99re国产| 免费观看成人性生生活片| zzjj国产精品一区二区| 蜜臀av中文字幕| 91成人免费在线| 91在线播放观看| 91啪亚洲精品| 污视频在线观看免费网站| 亚洲国产免费看| 亚洲三区四区| 国产美女撒尿一区二区| 国产精品美女久久久久av超清| 91蜜桃在线视频| 亚洲精品小视频| www.97av| 欧美色播在线播放| 免费一级片在线观看| 久久蜜桃av一区二区天堂 | 国产真人无遮挡作爱免费视频| 综合久久久久久| 中文字幕乱视频| 麻豆一区二区三| 欧美牲交a欧美牲交| 91精品国产视频| 麻豆传媒一区二区| 日本精品在线播放| 国产精品久久久久久久久免费看| sm在线观看| 久久人人爽人人爽爽久久| 日韩有码电影| 日韩欧美亚洲国产精品字幕久久久| 69亚洲精品久久久蜜桃小说| 亚洲国产精品人人做人人爽| 一本一本久久a久久| 91麻豆福利精品推荐| 五月六月丁香婷婷| 日本不卡123| 成人综合视频在线| 欧美精品一级| 99精品视频网站| 日韩精品欧美| 日韩精彩视频| 亚洲制服一区| 久久精品国产美女| 99re91这里只有精品| 亚洲精品日产aⅴ| 国产精品99久久久久久董美香| 青青草国产精品一区二区| 国产精品国精产品一二| 欧美xxxx18性欧美| 午夜在线播放| 在线视频一区二区| 韩国中文免费在线视频| 亚洲美女视频网站| 国产又爽又黄网站亚洲视频123| 精品区一区二区| www.超碰在线.com| 91精品国产入口| 国产老妇伦国产熟女老妇视频| 欧美日精品一区视频| 在线观看中文字幕网站| 欧美在线一区二区| 中文字幕一区二区在线视频| 在线观看精品一区| 亚洲永久精品一区| 欧美亚洲动漫精品| 日本一本在线观看| 欧洲视频一区二区| 中文字幕精品无码亚| 欧美日韩一区二区三区在线| 曰批又黄又爽免费视频| 欧美欧美欧美欧美首页| 国产又大又黄又爽| 日韩午夜精品视频| 午夜老司机福利| 亚洲第一精品夜夜躁人人爽| 日韩精品视频在线观看一区二区三区| 精品视频久久久久久久| 国产在线视频网| 日韩最新免费不卡| a在线免费观看| 韩国欧美亚洲国产| av在线播放资源| 国产成人精品久久二区二区| 欧美高清影院| 99电影在线观看| 欧美美女黄色| 日韩av一区二区三区美女毛片| 97精品国产福利一区二区三区| 7777在线视频| 一本色道久久综合| 熟妇人妻va精品中文字幕| 久久精品国产999大香线蕉| 奇米777在线| 99视频有精品| 老司机深夜福利网站| 亚洲影院久久精品| 无码人妻熟妇av又粗又大| 777欧美精品| 天天操天天插天天射| 色狠狠av一区二区三区香蕉蜜桃| 日韩伦理av| 国产高清在线不卡| 日韩不卡在线视频| 久久久久久草| 91成人超碰| 日韩 欧美 高清| 国产精品一色哟哟哟| 亚洲永久精品ww.7491进入| 亚洲色图第一区| 久久精品一二区| 91精品黄色片免费大全| 天堂视频中文在线| 久久艹在线视频| 在线免费看h| 亚洲japanese制服美女| 欧美巨大xxxx| 一本大道东京热无码aⅴ| 水野朝阳av一区二区三区| 曰本三级日本三级日本三级| 国产欧美一区二区精品性色| 国产精品第108页| 欧美人与z0zoxxxx视频| 婷婷视频在线观看| 欧美精品在线网站| 欧美日韩尤物久久| 精品日本一区二区三区在线观看| 一级毛片免费高清中文字幕久久网| 国产免费黄色av| 从欧美一区二区三区| 黄色裸体一级片| 91国产免费看| 无码国产精品高潮久久99| 久久久成人av| 97久久网站| 日本精品国语自产拍在线观看| 国产一区日韩一区| 激情五月婷婷基地| 国产视频911| 日本一区二区三区精品| 亚洲精品一区二区精华| 黄页视频在线播放| 91精品久久久久久久久| 精品国产乱码久久久久久1区2匹| 国产91在线免费| 风流少妇一区二区| 麻豆亚洲av成人无码久久精品| 3d动漫精品啪啪1区2区免费| 在线免费看黄网站| 国产ts一区二区| 视频福利一区| 18禁免费无码无遮挡不卡网站 | www.99热| 在线精品视频一区二区三四| 视频福利在线| 奇米4444一区二区三区| 嗯用力啊快一点好舒服小柔久久| www.国产在线播放| 国产传媒久久文化传媒| 欧美在线视频第一页| 欧美一区二区三区播放老司机| 黄色一级片在线观看| 亚洲一区二区三区视频| 91精品一区二区三区综合在线爱| 色婷婷激情视频| 亚洲另类在线视频| 国产精品亚洲lv粉色| 久久av资源网站| 在线综合色站| 欧美,日韩,国产在线| 91麻豆免费在线观看| 欧美亚洲另类小说| 中文字幕无线精品亚洲乱码一区| 欧美天堂一区二区| 国产日韩视频在线播放| 国产成人免费视| 日韩乱码一区二区| 亚洲欧美日韩国产中文专区| 日本美女一区| 亚洲精品美女久久7777777| 久久精品免费看| 欧美日韩精品在线观看视频 | 亚洲精品欧美日韩| 国内自拍一区| 亚洲综合网在线观看| 欧美色视频在线观看| gogo在线高清视频| 超碰97人人人人人蜜桃| 一本色道88久久加勒比精品| 黄色aaa视频| 欧美精品丝袜中出| 女同一区二区免费aⅴ| 精品无人区一区二区三区| 久久午夜av| 99久久99久久精品国产| 精品日韩一区二区三区免费视频| 成人影院入口| 日本一区二区免费高清视频| 成人午夜激情视频| 亚洲精品毛片一区二区三区| 久久国产精品影视| 欧洲在线一区| 久久成年人网站| 婷婷一区二区三区| 99免在线观看免费视频高清| 国产精品亚洲综合| 青青草视频一区| 精品无码av在线| 一区二区三区视频在线| caoporn成人免费视频在线| 九一精品在线观看| 一区二区三区日韩欧美精品| 国产在线一在线二| 91精品黄色| 蜜桃免费网站一区二区三区| 日本午夜精品理论片a级app发布| 一区二区三区天堂av| 97品白浆高清久久久久久| 天天操天天爱天天爽| 亚洲成人动漫一区| free性欧美hd另类精品|