精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

深挖RLHF潛力,復旦語言和視覺團隊創新獎勵模型優化,讓大模型更對齊

人工智能 新聞
現在,復旦團隊進一步挖掘 RLHF 的潛力,重點關注獎勵模型(Reward Model)在面對實際應用挑戰時的表現和優化途徑。

圖片


繼第一份大模型對齊技術報告(Secrets of RLHF in Large Language Models Part I)獲 NeurIPS 2023 workshop best paper 后,第二份報告強勢歸來,復旦語言和視覺團隊聯合推出的第二份報告將進入這一領域更深層的探索和優化之旅。在首份報告中,復旦團隊揭示了 RLHF 在大語言模型中的基本框架,并深入分析了 PPO 算法的內部機制,特別是 PPO-max 的高級版本在策略模型訓練穩定性中的關鍵作用。

現在,復旦團隊進一步挖掘 RLHF 的潛力,重點關注獎勵模型(Reward Model)在面對實際應用挑戰時的表現和優化途徑。

圖片


復旦團隊究竟做了什么?

隨著 ChatGPT、GPT-4 等大型語言模型的技術創新和廣泛應用,這些模型已成為當下的技術熱點,革新了我們與機器互動的方式,為各行各業提供了前所未有的模型支持。這些模型在解決復雜問題、自動生成內容和理解復雜指令方面展現出巨大價值。然而這些模型在在對齊人類價值觀和偏好方面,仍有所局限。OpenAI、Anthropic 等研究團隊對此的應對策略是深入研究基于人類反饋的強化學習(RLHF),目標是使 AI 系統在價值觀上與人類更加一致。

OpenAI 的超級對齊、過程監督和 Anthropic 的憲法式 AI 等最新研究,都進一步強調了 AI 對齊的重要性。這些概念不僅關注于如何讓 AI 回答更加符合人類的文化和審美標準,而且還關注于如何讓 AI 在更廣泛的倫理和價值觀層面與人類保持一致。這些進展不僅展示了科學上的挑戰,也體現了哲學上的探索。它們在確保 AI 的目標與人類社會真正對齊的過程中起到了關鍵作用,對未來人類文明的發展至關重要。

為了使大模型與人類的偏好對齊,RLHF 通過獎勵模型(reward model)學習人類的偏好。好的獎勵模型能夠反映人類的偏好和價值目標,指引大模型充分發揮自身的能力造福社會;反之,壞的獎勵模型則歪曲誤解人類的偏好,誤導大模型滑向不被人類理解和接納的深淵。因此,獎勵模型的設計和實施對于大型語言模型的發展至關重要。

在研究過程中復旦團隊曾發現一個有趣的現象,如果按照特定方式選擇 hh-rlhf 數據集(Anthropic 公開的有用和無害的人類偏好數據集)中的 70% 數據用于訓練獎勵模型,這個獎勵模型用于 PPO 階段訓練將導致模型無論輸入任何內容都只會回復 「免責聲明」:

圖片

這種現象是 hh-rlhf 數據集中存在大量沖突、模糊數據的結果,這樣的沖突會導致獎勵模型無法準確反映人類的偏好,語言模型無法捕捉到一致的獎懲,便采用這種萬金油策略來應對獎勵模型。而復旦團隊所做的第一個工作便是揭露了 hh-rlhf 數據集中存在大量噪音數據的現象。通過去除數據集中的噪音,可以使得模型更加貼合人類的喜好。正如下述例子中所看到的:

圖片

除了構造出對于訓練 RM 來說更加優質的數據,還可以從 RM 本身出發, 適當改變 RM 的選擇策略等,使得 RM 變的更好,進而使得 LLM 能夠更貼切人類的喜好,這便是復旦團隊所做的第二個工作。團隊提出了使用對比學習、元學習的方式,很大程度提高了 RM 對于數據好壞的甄別的能力,RM 的改進直接使得 LLM 變得更加符合人類的需求。

通過對比學習后的 RM 能夠指導 LLM 回答問題更加精確,更符合人類價值觀偏好。比如在遇到有害問題時,優化前的 LLM 只會拒絕回答問題,但是優化后的 RM 能夠更具體的回答有害的地方,給出更符合人類價值觀的回答,正如下述例子所看到的:

圖片

上述例子中優化前的 LLM 沒有按照用戶的指示回答問題,而是說它不能理解或回答問題,這是不準確的,因為作為人工智能,它能夠理解并根據輸入生成語言。這個回答不能解決用戶的問題,也沒有幫助。另一方面,對比學習優化后的 LLM 選擇不提供表示笨的詞語,相反,它通過強調支持孩子的重要性并認識到他們獨特的優勢和劣勢,提供了一種建設性的方法。這種回應是有幫助的,因為它將對話轉向了一種積極和支持兒童發展的方法,這比提供負面標簽更有益,危害更小,更符合人類價值觀的對齊。

同時復旦團隊的研究進一步提升了語言模型在面對不同數據分布的同一任務時的表現,確保了模型能夠在相同任務不同數據分布的情況下,也能準確把握和遵循人類價值觀,提高了語言模型的泛化能力。

通過 RLHF 的應用,我們可以對模型的輸出進行細致的調整,引導模型以更符合人類喜好和期望的方式作出反應。例如,未經 RLHF 優化的模型可能提供的回答簡單直接,可能缺乏文藝氣息;而經過 RLHF 優化的模型則能提供更加典雅、有文學感的回答。正如下述對比的例子所看到的那樣,第一條回答略顯生硬,更談不上「信達雅」,第二條回答卻明顯更文學氣息,更耐人尋味。通過 RLHF,大模型從從生硬的 「機言」跨越到多情的「人語」。

圖片


圖片

深化 RLHF:獎勵模型在大語言模型中的關鍵作用與挑戰

在復旦團隊的技術報告中,他們深入探索了 Reinforcement learning from human feedback(RLHF)這一技術。此技術對于使語言模型更好地與人類價值觀和意圖對齊,產生更有幫助和更無害的回應具有重要意義。同時報告指出了在實際應用中獎勵模型所面臨的挑戰,包括數據集中固有的不正確和模糊的偏好數據,以及獎勵模型在特定數據分布上訓練時的泛化困難。

為了應對這些挑戰,復旦團隊從數據和算法兩個角度進行了深入研究。在數據方面,通過多個獎勵模型的一致性結果來量化偏好的強度,并分析了不同強度偏好數據獎勵模型性能的影響。在算法方面,團隊探索了如何學習泛化特征以區分選擇和拒絕的回應,并利用元學習來促進獎勵模型對于超出分布(OOD)數據的泛化能力,以及迭代 RLHF 優化。獎勵模型被訓練成為人類偏好的代理,但在準確反映人類偏好方面面臨著諸多挑戰。

此外,復旦團隊還開源了包含偏好強度注釋的 anthropic-hh 數據集,并使用 GPT-4 標記了驗證集。本技術報告所使用的訓練代碼在項目網站提供。這些研究和開發不僅為 AI 技術樹立了新的里程碑,也為未來的研究和應用開辟了新的道路,進一步提升了語言模型的響應質量和適應性。通過這些工作,團隊更加深化了對 RLHF 的理解,并為大語言模型的優化開創了新篇章。

項目地址:https://github.com/OpenLMLab/MOSS-RLHF

數據影響力:塑造人類偏好模型的關鍵因素

復旦團隊探索了人類偏好數據的固有噪聲問題,并重點研究了偏好強度對獎勵模型表現的影響。通過分析不同強度偏好數據對模型性能的影響,團隊提出了新的獎勵模型方法,以更準確地建模偏好。實驗顯示,通過這種方法,能夠更有效地辨別正確和錯誤的偏好標注,并提升模型的整體性能。

在這部分中,報告深入探討了數據如何影響對人類偏好的建模。

圖片

通過隨機初始化若干獎勵模型,訓練后在數據集上評估得到對數據集中比較對的細粒度打分,研究團隊量化了每個比較對的偏好強度,并分析了不同強度偏好數據對獎勵模型性能的影響。上圖中展示的是測試集上偏好強度的分布情況,注意到數據集中大約 25% 的數據的偏好強度小于零,并且有很多數據的偏好強度在 0 附近,意味著可能存在不正確的數據偏好標注和低差異的數據。從數據集中抽取了一些真實存在的樣本如下:

數據示例一:標簽錯誤(harmful)

圖片

chosen 標簽對應的回復包含了剝奪人類睡眠的方法,而 rejected 標簽對應的回復拒絕了這種對人類有害的回答。從無害性角度來說,rejected 的回復是更安全、更符合人類偏好的。而模型評估 chosen 與 rejected 的平均得分差異(即偏好強度)為 - 6.23,表示更偏好 rejected 回復,這與人類價值偏好一致

數據示例一:標簽錯誤(helpful)

圖片

chosen 拒絕回復,rejected 給出了比較詳細的解釋。從有用性的角度來說,rejected 標簽對應的回答是我們更希望看到的。而模型評估 chosen 與 rejected 的平均得分差異為 - 5.85,表現出對 rejected 數據的偏好,與人類價值偏好一致

數據示例二:低差異

圖片

對于上述 chosen 和 rejected 對應的回復,差異不大。模型評估 chosen 與 rejected 的平均得分差異為 - 0.0007,表示模型認為這兩個回復差別不大,符合人類價值判斷

在復旦團隊的技術報告中提供了一個關于偏好強度的細致分析(如下左圖所示)。

將數據集按照偏好強度從小到大排序,等分成若干組分別計算組內數據的統計信息。可以看出,偏好差異的均值在不同數據組中表現出顯著的差異。這反映了數據中存在的不同偏好強度,從幾乎無差異到顯著差異的偏好都有所體現。同時,偏好差異的標準差顯示出一種 U 形模式,這意味著在偏好非常明顯或非常不明顯的情況下,模型在評估偏好時的不確定性增加。

此外,團隊使用 GPT-4 對測試集進行標注,衡量提出的偏好強度量化指標與 GPT4 評估的一致性。

團隊發現平均偏好差異與 GPT-4 一致性很高(如下右圖所示)。這說明偏好強度指標一定程度上反映了真實世界的人類價值偏好。

圖片

這一發現為我們提供了深入理解獎勵模型處理不同類型偏好數據的能力,并指出了優化模型時需要考慮的關鍵方面。通過對偏好差異的這種細致分析,我們能更好地調整獎勵模型,以提高其在處理復雜偏好情境時的準確性和魯棒性。

圖片

復旦團隊進一步考慮在獎勵模型訓練過程中對于不同類型的偏好數據施加不同的處理,以及如何通過調整方法來優化模型性能。例如,團隊深入分析了不同類型數據對獎勵模型的影響,通過識別噪音數據并進行矯正操作(如:標簽反轉等),發現對偏好強度最低的 10% 樣本單獨訓練,其在測試集上的正確率低于 35%,但是如果將其標簽反轉,正確率可以接近 65%。

實驗表明,對數據集中特定部分進行細致處理,可以顯著提高獎勵模型在理解復雜人類偏好方面的性能。

在研究中,復旦團隊探索了四種去噪方法(flip、margin、soft label 等)來提升獎勵模型的性能,它們在實際測試中都顯示出了相對于原始方法的改進。團隊構造了三個測試集,分別是原始測試集、GPT4 清洗后的測試集以及 GPT4 與原始測試集保持一致的測試子集。這些方法的訓練過程如下圖中所示。實驗顯示,原始方法在訓練過程中在會有明顯的精度下滑,表明了原始數據集存在噪聲,會導致訓練過擬合。而相比較來說,四種去噪方法在所有測試集上能夠保持穩定的精度,表現出比原始方法整體更好的性能。

圖片

復旦團隊使用 PPO 方法,利用上述四種方法和原始方法訓練得到的獎勵模型微調 SFT 模型,下圖反映了 PPO 訓練過程中各項指標的變化情況,注意到 KL 散度和 PPL 指標顯示去噪方法能夠提供更穩定的 PPO 訓練過程。

圖片

復旦團隊利用 GPT-4-turbo 評估了不同方法經過 PPO 訓練得到的語言模型相比較于原始方法的輸出質量,特別是在有害提示下的表現,復旦團隊的方法顯示出了顯著的改善。這可能歸因于處理有害提示相關的偏好數據中的噪聲數據時去噪的有效性。

圖片

這些實驗成果為如何更好地建模人類偏好提供了新的視角,并指出了未來研究的方向。

對比學習:獎勵模型的新視角

圖片

在傳統的獎勵建模中,一個重大挑戰是模型通常在「chosen」和「rejected」樣本之間表現出高度的特征相似性,如上圖所示,通過 t-SNE 獲得的特征分布顯示,在基線模型中,「chosen」和「rejected」樣本特征分布有顯著的重疊。這表明模型無法捕捉固有的細微差異 以及數據上的區別。缺乏這樣的辨別能力可能會導致表現不佳,因為模型可能很難有效地了解是什么使特定行為或結果變得更好或不更好。

相比之下,對比學習有一些先天的優勢:1)有效的特征提取:對比學習通過比較相似和不相似的樣本來訓練模型,這有助于模型更有效地學習數據中的獨特特征。2)強大的泛化能力:通過學習區分不同的樣本,使用對比學習訓練的模型通常表現出更好的泛化能力,使它們能夠更有效地處理新的、看不見的數據。

在 RLHF 的背景下,將對比學習整合到偏好建模中需要仔細對比數據的構造。常有的兩種方法則是:① 「chosen」數據 和「rejected」數據的差異對比 ②「chosen」 數據 和 「rejected」數據的直接對比

這兩種方法都有其優點和局限性。如果目標是使模型能夠更精確地識別和獎勵表現明顯優于壞數據的好數據,那么第一種方法可能更合適,它允許模型學習區分喜歡和不喜歡。然而,如果目標是增強模型的泛化能力并使其能夠有效地區分各種數據,那么第二種方法可能更理想,它使模型能夠通過區分選擇和拒絕的反應來推斷偏好。在實踐中,還可以考慮將這兩種方法結合起來以獲得更好的建模結果。

復旦團隊基于已有的兩種對比學習方法來探究對比學習在獎勵模型中能否區分出數據的差異性。

首先是 SwAV(Swapping Assignments between Views):SwAV 是一種創新的無監督視覺特征學習方法,與傳統的對比學習方法不同,它在同時對數據進行聚類的同時,確保了對同一圖像不同增強(或「視圖」)的聚類分配的一致性。該方法包括創建圖像的多個視圖,預測每個視圖的聚類分配,然后使用交換機制來匹配一個視圖的聚類分配與另一個視圖的預測。這種方法提高了學習效率,避免了比較每一對可能的圖像,從而降低了計算成本。

其次是 SimCSE(Simple Contrastive Learning of Sentence Embeddings):SimCSE 是一種利用對比學習來學習句子嵌入的技術。它通過使用相同的句子作為正樣本,將它們輸入到基于 Transformer 的模型(如 BERT)中以生成嵌入。關鍵之處在于,相同的句子在不同的 dropout 掩碼下進行建模,從而產生了嵌入的變化。負樣本則來自不同的句子,使得能夠高效而有效地學習句子表示,而無需復雜的數據增強或外部標記數據。

圖片

如上圖所示,當在獎勵模型中引入 SimCSE 后,通過 t-SNE 獲得的特征分布顯示,選擇和拒絕響應之間的特征分布重疊減少了。

復旦團隊還利用 GPT-4-turbo 評估了不同方法相比較于基線模型 (普通 PPO 和 SFT 模型) 的輸出質量,如下圖所示,在有用性和無害性上,模型性能都有一定的提升,表明對比學習確實可以通過讓獎勵模型增強區分數據之間的差異性的能力來改善模型的能力。

圖片

MetaRM:引領獎勵模型的未來 

復旦團隊所提出的目標是,當策略模型的分布隨著 PPO 訓練而變化時,獎勵模型仍應保持對從新分布中采樣的響應的區分度。

在本節中,復旦團隊提出了 MetaRM,一種通過元學習將原始偏好數據與移位分布對齊的方法。MetaRM 的關鍵思想是:獎勵模型的訓練階段應該最小化原始偏好數據的損失,同時最大化從轉移的策略分布中采樣的響應之間的差異。

圖片

MetaRM 的實現依靠四個關鍵步驟:首先,計算差異損失來評估策略變化后響應的差異;其次,根據梯度上升方向調整獎勵模型參數;接著,使用更新后的參數計算原始偏好對的普通損失;最后,優化原始參數,以沿著梯度下降方向進行調整。總體來說,MetaRM 通過元學習過程調整獎勵模型,確保模型在面對策略分布的演變時,仍能夠識別和獎勵高質量的響應。

總之,MetaRM 的方法是使用元學習訓練獎勵模型,即使在策略模型的分布發生變化時,也能夠識別出質量響應,確保響應仍與原始偏好對齊。

Main Results:實驗結果深度剖析 RLHF

內部任務評估

圖片

在上表中,展示了與 SFT 模型響應相比,復旦團隊所提出方法的獲勝、平局和失敗比例。回合數代表相應回合的模型生成的響應。

圖片

此外,為了更全面地展示復旦團隊所提出方法的優越性,表格 3 中展示了與其它基線(包括普通 PPO)對比的最佳性能,還提供了對 GPT-4 和人類評估的評估結果。

外部任務評估

圖片

如圖所示,即使在 OOD 情景下,復旦團隊所提出的方法仍然優于基線。這表明該方法可以在新領域實現對齊,而無需昂貴的偏好標記一組查詢,從而顯著降低了 RM 培訓的培訓成本。此外,團隊觀察到與內部分布評估結果相比,他們所提出的方法在獲勝率上略有下降。

總結:深度剖析獎勵模型推動 RLHF 新發展

在這篇技術報告中,復旦團隊全面審視了強化學習與人類反饋(RLHF)在大語言模型中的應用,并提出了創新的獎勵模型方法。團隊的研究不僅解決了數據集中存在的不正確和模糊偏好問題,還提高了模型對于新場景的泛化能力。通過復旦團隊所提出的方法,語言模型能夠更準確地理解和符合人類的意圖和價值觀,從而產生更有幫助和更安全的回應。復旦團隊的工作不僅推動了 RLHF 技術的發展,也為未來的研究者和開發者提供了新的思路和工具。

彩蛋

Easter Egg 1—Alignment with Translation Preference 

幾千年來,語言一直是連接人類文明的紐帶。每一種語言都是一個獨特的文化世界,充滿著細膩的情感和深厚的歷史。在這個數字時代,我們試圖通過機器翻譯來跨越語言障礙,但僅僅依靠字面意思的翻譯往往無法傳達語言的真正魅力。就像生活在一個五彩斑斕的世界里,卻只能看到黑白的世界。幸運的是,RLHF 在模擬人類偏好方面不僅限于安全和道德;它還可以用來滿足人們對高質量翻譯的偏好。為了實現這一目標,復旦團隊監督微調 LLaMA-7b 模型,賦予其基本翻譯功能,然后利用獎勵模型來學習人類翻譯偏好。最后,復旦團隊通過 PPO 算法優化翻譯模型,使其生成更符合忠實、表達、優雅偏好的翻譯。

圖片


圖片


圖片

以上三個英漢翻譯的例子生動地說明了翻譯不僅僅是語言的轉換,更是文化和情感的傳遞。在復旦團隊技術報告的下一部分中,將努力探索如何將人類偏好和文化理解有效地融入到機器翻譯系統中。通過實驗和數據分析,期望開發出一種不僅精確而且富有情感深度和文化敏感性的翻譯模型。這樣的模式不僅可以提高翻譯的準確性,而且可以促進不同文化之間的理解和交流。

Easter Egg 2—Alignment Using Compiler Feedback

“Everybody should learn to program a computer, because it teaches you how to think.” 

— Steve Jobs 

人工智能代理生成代碼的過程比最初看起來更加復雜。編程是一門與自然語言的復雜性和可變性相似的學科,提供了多種可能性。然而,如此廣泛的選擇范圍,與稀疏獎勵信號的問題并列時,極大地限制了智能體的探索能力。因此,關鍵的挑戰在于在復雜任務的背景下制定穩健有效的探索策略,這是當前研究中尚未解決的問題。未來,復旦團隊將進一步闡述人工智能代理如何充分探索代碼合成任務。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-08-22 13:21:07

AI算法

2023-03-03 13:06:34

大腦分層預測

2024-12-06 09:00:00

2025-08-12 09:23:34

2025-03-03 07:15:00

模型訓練AI

2024-06-06 19:14:27

2023-04-28 15:24:06

模型研究

2023-10-28 13:29:27

2025-07-02 09:17:13

2024-05-07 13:44:57

2025-09-08 09:02:00

2025-11-11 09:03:30

2024-11-02 10:28:03

2024-06-24 08:25:00

2023-07-11 15:38:51

模型方案

2025-05-30 02:00:00

獎勵模型RRMAI

2025-07-10 14:51:29

人工智能AI模型

2024-07-31 15:38:00

2024-11-05 14:25:00

AI模型

2025-03-17 10:25:28

點贊
收藏

51CTO技術棧公眾號

成人开心激情| 国产精品女人久久久| 国产96在线亚洲| 天天免费综合色| 国产在线一区二区三区四区| 中文字幕免费观看| 亚洲国产精品成人| 亚洲大胆人体视频| 欧美日韩大尺度| 国产黄在线观看| 国产麻豆精品在线观看| 午夜精品久久久久久久男人的天堂 | 日韩国产综合| 日韩女优av电影| 欧美激情国产精品日韩| 国精产品一区| 91免费视频网址| 成人午夜高潮视频| www.国产com| 一区二区三区在线| 亚洲乱码一区二区| 亚洲国产欧美91| 国产成人精品亚洲日本在线观看| 一区二区三区在线视频免费观看| 久久99精品久久久久久久青青日本| 中文字幕观看视频| 99在线|亚洲一区二区| 日韩亚洲精品视频| 中文字幕5566| 中文字幕区一区二区三| 欧美在线观看视频一区二区| 岛国大片在线播放| 精品51国产黑色丝袜高跟鞋| 久久亚洲一区二区三区明星换脸 | 麻豆国产一区| 欧美午夜理伦三级在线观看| 国产白丝袜美女久久久久| 精品自拍一区| 中文字幕免费一区| 欧美18视频| 黄色三级网站在线观看| 国产精品一区二区三区乱码| 国产精品吴梦梦| 国产精品suv一区| 中文在线一区| 久久久欧美一区二区| 特一级黄色录像| 日本一区二区在线看| 亚洲色图50p| 中文精品在线观看| 青青视频一区二区| 精品国产a毛片| 91亚洲一区二区| 精品国产一级| 欧美一区二区三区思思人| 亚洲一区在线不卡| 99久久精品一区二区成人| 亚洲成av人影院在线观看网| 久久99久久99精品| av影视在线看| 五月天中文字幕一区二区| 国产夫妻自拍一区| 国产盗摄一区二区| 亚洲a一区二区| 国产精品无码一区二区在线| 美女搞黄视频在线观看| 精品久久久免费| av免费播放网址| 日本高清不卡一区二区三区视频 | 亚洲视频久久久| 蜜臀91精品一区二区三区| 国产精品欧美久久久| 中文字幕视频二区| 国内成人自拍视频| 99精彩视频在线观看免费| 狠狠躁夜夜躁av无码中文幕| 成人污视频在线观看| 精品久久久久久亚洲| 欧美xxx.com| 欧美国产日韩精品免费观看| 午夜视频久久久| √天堂8在线网| 亚洲成av人片在线| 蜜臀av午夜一区二区三区| 日韩三区免费| 91超碰这里只有精品国产| 欧美专区第二页| 精品国内亚洲2022精品成人| 日韩电影中文字幕| 美国黑人一级大黄| 欧美精品不卡| 欧美精品videosex极品1| 欧美三级一区二区三区| 日韩电影在线观看电影| 91在线看www| 午夜在线视频观看| 国产精品女上位| 久久男人资源站| 国产精品粉嫩| 欧美精品乱人伦久久久久久| 中国免费黄色片| 欧美色就是色| 国模精品视频一区二区| 性色av一区二区三区四区| 国产精品一卡二卡| 欧美三级网色| 91三级在线| 91国内精品野花午夜精品| 欧美精品 - 色网| 亚洲精华一区二区三区| 久久香蕉国产线看观看av| 日本在线播放视频| 韩国精品久久久| 欧美日产一区二区三区在线观看| 在线观看中文字幕的网站| 在线看日韩精品电影| 四虎精品一区二区| 99久久这里只有精品| 欧美综合在线观看| 亚洲av综合色区无码一区爱av | 精品美女一区二区| 极品久久久久久久| 日韩午夜激情| 99高清视频有精品视频| 国产乱色在线观看| 欧美影片第一页| 一女三黑人理论片在线| 欧美特黄a级高清免费大片a级| 国产精品国产亚洲伊人久久 | 中文字幕亚洲欧美日韩2019| 日韩少妇高潮抽搐| 懂色av噜噜一区二区三区av| 国产精品无码乱伦| 久久三级毛片| 伊人青青综合网站| 欧美啪啪小视频| av一区二区三区在线| 亚洲精品天堂成人片av在线播放 | 欧美又大又粗又长| 国产原创中文av| 久久久精品中文字幕麻豆发布| av动漫在线免费观看| 日韩电影免费观| 亚洲成人精品在线| 国产女片a归国片aa| 蜜臀av一级做a爰片久久| 女女同性女同一区二区三区91| 麻豆av在线免费看| 欧美另类久久久品| 国产调教在线观看| 免费看亚洲片| 裸模一区二区三区免费| 不卡的av影片| 欧美精品自拍偷拍动漫精品| 黄色片网站免费| 嫩草成人www欧美| 狠狠色综合网站久久久久久久| av毛片在线看| 在线观看视频一区二区欧美日韩| 人妻少妇一区二区| 亚洲欧美成人| 久久综合福利| 自拍一区在线观看| 日韩精品视频免费在线观看| 日本一区二区网站| 成人听书哪个软件好| 国产夫妻自拍一区| 嗯用力啊快一点好舒服小柔久久| 91国内在线视频| 婷婷亚洲一区二区三区| 天天综合色天天综合色h| 中文在线永久免费观看| 亚洲久久一区| 久久精品国产第一区二区三区最新章节| 黄色在线网站噜噜噜| 日韩精品中文字| 日本一区二区免费电影| 久久久久久久久蜜桃| 中文字幕无码不卡免费视频| 日韩免费一区| 91亚洲精品久久久| 最新日本在线观看| 精品国产91九色蝌蚪| 日韩伦理在线视频| 欧美激情综合在线| 女同激情久久av久久| 欧美在线三级| 国产精品美女久久久久av福利| 亚洲天堂资源| 夜夜嗨av一区二区三区免费区| 青青艹在线观看| 中文字幕一区二区三区在线不卡 | 日本天堂中文字幕| 成人午夜电影网站| 97成人在线观看视频| 日韩美女一区二区三区在线观看| 成人做爽爽免费视频| 激情av在线播放| 日韩精品视频在线观看网址| 日本欧美www| 亚洲一区在线播放| 亚洲av无码一区二区三区人| 国产精品18久久久| 黄在线观看网站| 欧美丰满日韩| 国产一区二区不卡视频在线观看 | 欧美在线日韩| 欧美精品一区二区三区在线四季| 中文字幕av一区二区三区佐山爱| 免费91在线视频| 香蕉视频成人在线| 欧美欧美欧美欧美| 日韩精品成人一区| 国产精品电影一区二区三区| 无码人妻一区二区三区一| 久久久久国产精品一区二区| 亚洲色图都市激情| 沈樵精品国产成av片| 亚洲mm色国产网站| 在线日韩影院| 欧美日本亚洲视频| 蜜桃av在线免费观看| 亚洲精品一区中文| 国产激情视频在线播放| 91精品办公室少妇高潮对白| 国产性70yerg老太| 一区二区三区四区五区视频在线观看| 亚洲乱码国产乱码精品精大量| 国产一区欧美日韩| 999在线免费视频| 亚洲视频一二| www国产免费| 日韩中文字幕高清在线观看| 久久波多野结衣| 我要色综合中文字幕| 91久久在线观看| 亚州一区二区三区| 欧美亚洲国产日本| 精品麻豆一区二区三区| 一本色道久久88精品综合| 亚洲区小说区图片区| 欧美一区二区三区在线观看视频| 亚洲av无码不卡| 岛国精品视频在线播放| 青青草免费av| 中文字幕在线一区二区三区| 无码人中文字幕| 国产日韩欧美不卡在线| 日韩 中文字幕| 成人性生交大片免费看中文| 国产免费视频传媒| 日本中文一区二区三区| 黄色a级片免费| 国产欧美二区| 日本十八禁视频无遮挡| 午夜在线精品| 欧美 国产 综合| 99热在线精品观看| 欧美老熟妇喷水| 在线播放不卡| 国产精品欧美激情在线观看| 亚洲欧美视频| 那种视频在线观看| 天堂va蜜桃一区二区三区 | 亚洲色图在线播放| 欧美色图亚洲天堂| 亚洲一本大道在线| 久久久久久久福利| 亚洲国产一区二区a毛片| 丁香花五月激情| 亚洲成人精品在线观看| 日韩av电影网| 欧美日韩国产一区中文午夜| 国产精品视频123| 欧美日韩一区二区在线观看| 亚洲资源在线播放| 欧美一区二区在线免费播放| 99久久国产热无码精品免费| 亚洲国产成人av在线| 日本一区视频| 国产亚洲成精品久久| 欧美日韩视频在线播放| 国产综合在线看| 色婷婷综合久久久中字幕精品久久| 国产激情久久久久| 婷婷丁香久久| 国产精品日日摸夜夜添夜夜av| 国产区一区二| 国产精品视频一区二区三区经| 牛牛影视久久网| 茄子视频成人在线观看 | 亚洲欧洲视频在线| 在线视频1区2区| 九九热这里只有精品6| 天堂√中文最新版在线| 国产精品大片wwwwww| 国产一区二区三区亚洲综合 | 精品淫伦v久久水蜜桃| 欧美日韩高清在线一区| 天天插综合网| 日本国产在线播放| 日本成人中文字幕| 美女久久久久久久久| 久久免费午夜影院| 91日韩中文字幕| 韩曰欧美视频免费观看| 国产精品传媒在线观看| 日韩一区二区三区四区五区六区| 污视频网站在线播放| 中文字幕亚洲综合久久筱田步美| 成年网站在线视频网站| 国产福利精品av综合导导航| 国产高清精品二区| 久久久久久亚洲精品不卡4k岛国| 精品国产一区二区三区久久久樱花 | 久久99国产成人小视频| 加勒比海盗1在线观看免费国语版| 日韩av中文字幕一区二区| 日韩精品xxx| 日本一区二区三级电影在线观看| 久久精品国产亚洲AV无码麻豆| 欧美精品日韩一本| 国产在线超碰| 97精品在线观看| 2020国产精品小视频| 神马一区二区影院| 亚洲视频二区| 久久人妻少妇嫩草av蜜桃| 国产精品麻豆99久久久久久| 日韩三级一区二区三区| 欧美一区二区三区喷汁尤物| 国产天堂在线| 欧美一级免费视频| 亚洲精品观看| 手机成人av在线| 久热精品在线| 日韩精品视频一区二区| 亚洲伦理在线精品| 中文字幕视频在线播放| 亚洲人高潮女人毛茸茸| xx欧美xxx| 国产精品入口免费| 欧美精选一区| 又色又爽又黄视频| 亚洲欧美综合另类在线卡通| 国产精华7777777| 亚洲欧美日韩一区二区三区在线| 亚洲搞黄视频| 国产综合视频在线观看| 欧美日韩在线网站| 久久精品免费一区二区| 久久嫩草精品久久久久| 天堂在线免费观看视频| 亚洲精品国产suv| aa视频在线观看| 蜜桃免费一区二区三区| 亚洲久久成人| 极品白嫩丰满美女无套| 亚洲国产精品麻豆| 国产又爽又黄网站亚洲视频123| 久久久久久久91| youjizz亚洲| 免费看的黄色大片| 久久影院午夜论| 日韩手机在线视频| 亚洲丁香婷深爱综合| 国产在线精彩视频| 精品视频一区二区三区四区| 一区二区高清| 少妇无套高潮一二三区| 欧美午夜影院一区| 日本中文字幕一区二区有码在线 | 在线午夜精品| 天天躁日日躁狠狠躁av麻豆男男| 狠狠色噜噜狠狠狠狠97| 免费观看成年在线视频网站| 国产脚交av在线一区二区| 日韩中文在线电影| 国产精品中文久久久久久| 一区二区在线观看不卡| 99热这里只有精品3| 97国产真实伦对白精彩视频8| 日韩av网站在线免费观看| 免费在线观看的毛片| 亚洲欧洲www| 亚洲成熟女性毛茸茸| 久久免费视频网站| 欧美一级做性受免费大片免费| 久久国内精品一国内精品| 国产深夜视频在线观看| 精品久久精品久久| 一区二区三区韩国免费中文网站| 久久综合九色综合88i| 欧美国产亚洲另类动漫| 免费又黄又爽又猛大片午夜| 欧美超级免费视 在线| 日韩av网址大全| 久久这里只精品| 亚洲成人免费视频| 91啦中文在线|