精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

RLHF vs RL「AI」F,谷歌實證:大模型訓練中人類反饋可被AI替代

人工智能 新聞
眾所周知,RLHF 是 ChatGPT 和 Bard 等 LLM 成功路上不可或缺的重要一環(huán),而現(xiàn)在谷歌的一項研究表明可以把 RLHF 中的 H(人類)替換成 AI,而且新提出的根據(jù)人工智能反饋的強化學習(RLAIF)在實驗中的表現(xiàn)大體上與 RLHF 接近。可以預見,如果這項技術的有效性得到進一步驗證,人類離 LLM 的訓練流程又會更遠一步,同時 AI 訓練 AI 的構想也會更接近現(xiàn)實。

根據(jù)人類反饋的強化學習(RLHF)是一種對齊語言模型與人類偏好的有效技術,而且其被認為是 ChatGPT 和 Bard 等現(xiàn)代對話語言模型的成功的關鍵驅(qū)動因素之一。通過使用強化學習(RL)進行訓練,語言模型可以優(yōu)化用于復雜的序列級目標 —— 使用傳統(tǒng)的監(jiān)督式微調(diào)時,這些目標不是輕易可微的。

在擴展 RLHF 方面,對高質(zhì)量人類標簽的需求是一大障礙;而且人們很自然地會問:生成的標簽是否也能得到可媲美的結果?

一些研究表明大型語言模型(LLM)能與人類判斷高度對齊 —— 在某些任務上甚至優(yōu)于人類。

2022 年,Bai et al. 的論文《Constitutional AI: Harmlessness from AI Feedback》最早提出使用 AI 偏好來訓練用于強化學習微調(diào)的獎勵模型,該技術被稱為根據(jù)人工智能反饋的強化學習(RLAIF)。這項研究表明,通過混合使用人類與 AI 偏好,并組合 Constitutional AI 自我修正技術,可讓 LLM 的表現(xiàn)超越使用監(jiān)督式微調(diào)的方法。不過他們的研究并未直接對比使用人類反饋和 AI 反饋時的效果,于是能否使用 RLAIF 適當?shù)靥娲?RLHF 就仍舊是一個有待解答的問題。

Google Research 決定填補這一空白,憑借強大的實驗資源,他們直接比較了 RLAIF 和 RLHF 方法在摘要任務上的表現(xiàn)。

論文:https://arxiv.org/pdf/2309.00267.pdf

給定一段文本和兩個候選響應,研究者使用現(xiàn)有的 LLM 為其分配一個偏好標簽。然后再基于該 LLM 偏好,使用對比損失訓練一個獎勵模型(RM)。最后,他們使用該 RM 來提供獎勵,通過強化學習方法微調(diào)得到一個策略模型。

結果表明,RLAIF 能與 RLHF 媲美,這體現(xiàn)在兩個方面:

圖片

一、谷歌觀察到,RLAIF 和 RLHF 策略分別在 71% 和 73% 的時間里比監(jiān)督式微調(diào)(SFT)基準更受人類青睞,而這兩個勝率在統(tǒng)計學意義上沒有顯著差別。

二、當被要求直接比較 RLAIF 與 RLHF 的結果時,人類對兩者的偏好大致相同(即 50% 勝率)。這些結果表明 RLAIF 可以替代 RLHF,其不依賴于人類標注,并且具有良好的擴展性。

此外,該團隊還研究了能盡可能使 AI 生成的偏好與人類偏好對齊的技術。他們發(fā)現(xiàn),通過 prompt 為 LLM 提供詳細的指示并借助思維鏈推理能提升對齊效果。

他們觀察到了出乎意料的現(xiàn)象:少樣本上下文學習和自我一致性(采樣多個思維鏈原理并對最終偏好進行平均的過程)都不能提升準確度,甚至會導致準確度下降。

他們還進行了縮放實驗,以量化打標簽 LLM 的大小與偏好示例數(shù)量之間的權衡。

這項研究的主要貢獻包括:

  • 基于摘要任務表明 RLAIF 能取得與 RLHF 相當?shù)谋憩F(xiàn)。
  • 比較了多種用于生成 AI 標簽的技術,并為 RLAIF 實踐者確定了最優(yōu)設置。

RLAIF 方法

這一節(jié)將描述使用 LLM 生成偏好標簽的技術、執(zhí)行強化學習的方法以及評估指標。

圖片

使用 LLM 標記偏好

谷歌在實驗中的做法是使用一個現(xiàn)成可用的 LLM 來在成對的候選項中標記偏好。給定一段文本和兩個候選摘要,LLM 的任務是評判哪個摘要更好。LLM 的輸入的結構如下(表 1 給出了一個示例):

圖片

  1. 序言 —— 描述當前任務的介紹和指示
  2. 少樣本示例(可選)—— 一段示例文本、兩個摘要、一個思維鏈原理(如果可用)和一個偏好判斷
  3. 所要標注的樣本 —— 一段文本和一對要標記的摘要
  4. 結尾 —— 一段用于提示 LLM 的結束字符串(如 Preferred Summary=)

通過為 LLM 提供輸入而得到的偏好結果 1 和 2,可以得到生成 1 和 2 的對數(shù)概率,然后計算 softmax,得到偏好分布。

從 LLM 獲取偏好標簽的方法有很多,比如從模型中解碼自由形式的響應并以啟發(fā)式方法提取偏好(比如輸出 =「第一個偏好更好」)或?qū)⑵梅植急硎境梢粋€單樣本表征。但是,谷歌這個團隊并未實驗這些方法,因為他們的方法已能得到較高的準確度。

對于序言,研究者實驗了兩種類型:

  • 基本型:就是簡單地問:「哪個摘要更好?」
  • OpenAI 型:模仿了給人類偏好標注者的評級指令,該指令生成了 OpenAI TL;DR 偏好數(shù)據(jù)集并且包含有關組成優(yōu)良摘要的內(nèi)容的詳細信息。完整序言見下表。

圖片

研究者還實驗了上下文學習,即在 prompt 中添加少樣本示例,其中的示例是人工選取的以覆蓋不同的主題。

解決位置偏見

眾所周知,LLM 有位置偏見,也就是候選項在輸入中的位置會影響 LLM 給出的評估結果。

為了緩解偏好標注中的位置偏見,這個研究團隊采用的做法是為每一對候選項做兩次推理 —— 兩次中候選項在輸入中的位置相互調(diào)換。然后再對兩次推理的結果做平均,得到最終的偏好分布。

思維鏈推理

他們也使用了思維鏈(CoT)推理來提升與人類偏好的對齊程度。為此,他們將結尾的標準 prompt 替換成了「Consider the coherence, accuracy, coverage, and overall quality of each summary and explain which one is better. Rationale:」然后解碼 LLM 給出的響應。最后,再將原始 prompt、響應和原始結尾字符串「Preferred Summary=」連接到一起,按照前述的評分流程得到一個偏好分布。圖 3 給出了圖示說明。

自我一致性

對于思維鏈 prompt,研究者也實驗了自我一致性 —— 這項技術是通過采樣多個推理路徑并聚合每個路徑末尾產(chǎn)生的最終答案來改進思維鏈推理。研究者使用非零解碼溫度對多個思想鏈原理進行采樣,然后得到每個思維鏈的 LLM 偏好分布。然后對結果進行平均,以得到最終的偏好分布。

根據(jù)人工智能反饋的強化學習

使用 LLM 標記好偏好之后,就可以用這些數(shù)據(jù)來訓練一個預測偏好的獎勵模型(RM)。由于這里的方法是得到軟標簽(如 preferences_i = [0.6, 0.4] ),因此他們對 RM 生成的獎勵分數(shù)的 softmax 使用了交叉熵損失。softmax 會將 RM 的下限分數(shù)轉(zhuǎn)換成一個概率分布。

在 AI 標簽數(shù)據(jù)集上訓練 RM 可以被視為一種模型蒸餾,尤其是因為打標簽的 AI 往往比 RM 強大得多。另一種方法是不用 RM,而是直接把 AI 反饋用作強化學習的獎勵信號,不過這種方法計算成本要高得多,因為打標簽的 AI 比 RM 大。

使用訓練得到的 RM 就能執(zhí)行強化學習了,這里研究者使用了一種針對語言建模領域修改過的 Advantage Actor Critic (A2C) 算法。

評估

這項研究使用了三個評估指標:打標簽 AI 對齊度、配對準確度和勝率。

打標簽 AI 對齊度衡量的是 AI 標注的偏好與人類偏好對齊的程度。對于各個示例,其計算方式是將軟性的 AI 標記的偏好轉(zhuǎn)換成二元表征(如 preferences_i = [0.6, 0.4] → [1, 0]);如果 AI 給出的標簽與目標人類偏好一致,則分配 1,否則分配 0。其可以表示為:

圖片

其中 p_ai 和 p_h 分別是 AI 和人類偏好的二元表征,x 是索引,D 是數(shù)據(jù)集。

配對準確度衡量的是訓練好的獎勵模型相對于一個保留的人類偏好集的準確度如何。給定共享的上下文和一對候選響應,如果 RM 給人類偏好的候選項的分數(shù)高于人類不偏好的候選項,那么配對準確度為 1。否則其值為 0。將多個示例的該值平均之后,可以衡量 RM 的總準確度。

勝率則是通過人類更喜歡兩個策略中哪個策略來端到端地評估策略的質(zhì)量。給定一個輸入和兩個生成結果,讓人類標注者標記自己更喜歡的那一個。在所有實例中,相比于來自策略 B 的結果,人類標注者更偏好來自策略 A 的結果的百分比稱為「A 對 B 的勝率」。

實驗

結果表明 RLAIF 與 RLHF 的表現(xiàn)相當,如圖 1 所示。相比于基礎 SFT 策略,人類標注者在 71% 的情況下都更偏愛 RLAIF。

研究者實驗了三種類型的 prompt 設計方案 —— 序言具體指定、思維鏈推理、和少樣本上下文學習,結果見表 2。

圖片

總體而言,研究者觀察到,最優(yōu)配置為:采用詳細的序言、思維鏈推理、不采用上下文學習(OpenAI + COT 0-shot)。這一組合的打標簽 AI 對齊度為 78.0%,比使用最基礎的 prompt 時高 1.9%。

在自我一致性方面,研究者實驗了 4 和 16 個樣本的情況,而解碼溫度設置為 1。

圖片

結果發(fā)現(xiàn),相比于不使用自我一致性,這兩種情況下對齊度都下降了 5% 以上。研究者以人工方式檢查了思維鏈原理,但未能揭示出自我一致性導致準確度更低的常見模式。

他們也實驗了不同模型大小的標注偏好,并觀察到對齊度與模型大小之間存在緊密關聯(lián)。

圖片

研究者也通過實驗觀察了獎勵模型(RM)準確度隨訓練樣本數(shù)量的變化模式。結果如圖 5 所示。

圖片

定性分析

為了更好地理解 RLAIF 和 RLHF 孰優(yōu)孰劣,研究者讓人類評估了這兩個策略生成的摘要。很多時候,這兩個策略得到的摘要很相近,這也反映在它們相近的勝率上。但是,研究者也找到了兩種它們會出現(xiàn)差異的模式。

其中一個模式是 RLAIF 似乎比 RLHF 更不容易出現(xiàn)幻覺。RLHF 中的幻覺往往看似合理,但又與原文本不一致。

另一個模式是:相比于 RLHF,RLAIF 有時候會生成更不連貫和更不符合語法的摘要。

總體而言,盡管這兩個策略各自有一定的傾向性,但卻能產(chǎn)生相當接近的高質(zhì)量摘要。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-09-05 19:43:05

模型RLHFAI

2025-11-20 12:54:43

2023-09-05 12:59:33

模型數(shù)據(jù)

2025-04-01 09:54:09

AI算法大模型AI

2023-02-27 14:55:54

技術研究

2024-01-23 10:35:09

ChatGPT人工智能

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2025-01-09 08:01:10

2023-07-14 11:47:08

AI醫(yī)生

2023-12-26 12:07:14

模型訓練

2023-09-18 13:13:00

人工智能訓練

2023-08-30 13:09:43

AI數(shù)據(jù)

2023-05-22 09:19:19

2024-12-25 08:02:17

人工智能AI運維

2024-03-12 10:36:17

AI大模型人工智能

2025-05-28 02:25:00

2024-05-13 13:37:10

模型數(shù)據(jù)

2024-06-20 07:23:29

2023-12-12 10:57:05

AI谷歌
點贊
收藏

51CTO技術棧公眾號

久久久久久久久久影院| 国产精品久久久久久久久电影网| 麻豆成人免费视频| 日韩av二区| 欧美一级电影网站| 91免费视频网站在线观看| www.久久热.com| 国产91丝袜在线播放九色| 欧美一级免费视频| 日韩a级片在线观看| 亚洲人成亚洲精品| 日韩欧美黄色影院| 性欧美极品xxxx欧美一区二区| 国产精品va在线观看视色| 91丨九色porny丨蝌蚪| 国产精品视频久| 亚州国产精品视频| 亚洲成av人片一区二区密柚| 日韩精品高清在线| 两女双腿交缠激烈磨豆腐| 北岛玲heyzo一区二区| 亚洲人成在线观看一区二区| 久久综合九九| 亚洲精华国产精华精华液网站| 日韩和欧美的一区| 91超碰caoporn97人人| 性欧美疯狂猛交69hd| 欧美精美视频| 亚洲精品国产精品国产自| 日本高清免费在线视频| 日韩欧美一区二区三区在线观看| 亚洲1区2区3区4区| 国产精品186在线观看在线播放| 国产亚洲精品v| 久久中文字幕一区| 潮喷失禁大喷水aⅴ无码| 日韩av三区| 精品欧美乱码久久久久久1区2区| 91丨九色丨蝌蚪| 自拍偷自拍亚洲精品被多人伦好爽| 亚洲自拍偷拍欧美| 可以在线看黄的网站| 91网页在线观看| 欧美韩国日本综合| 日韩美女一区| 男人的天堂在线视频| gogo大胆日本视频一区| 成人av电影免费| www天堂在线| 国产精品一区在线观看你懂的| 91精品国产综合久久香蕉| 亚洲 日本 欧美 中文幕| 国产精品女主播一区二区三区 | 粉嫩小泬无遮挡久久久久久| 激情综合色综合久久综合| 91精品久久久久久久| 亚洲最新av网站| 激情综合色播五月| 91久久精品美女高潮| 国产剧情精品在线| 国产成人精品在线看| 高清视频一区| 四季av日韩精品一区| 91影院在线观看| 欧美成人dvd在线视频| 免费人成在线观看网站| 国产日韩欧美亚洲| 国产免费色视频| 天堂av中文在线| 亚洲国产精品久久久久婷婷884| 六月婷婷激情综合| 午夜影院在线播放| 在线视频你懂得一区| gogogo高清免费观看在线视频| 日韩一区二区三区四区五区| 欧美一区二区三区成人| 精品人妻一区二区免费| 妖精视频一区二区三区| 伊人伊成久久人综合网小说| 精品国产国产综合精品| 亚洲午夜精品久久久久久app| 97视频免费在线观看| 亚洲第一网站在线观看| 狠狠色丁香久久婷婷综合_中 | 五月综合久久| 在线观看欧美日韩| 日本妇女毛茸茸| 亚洲制服少妇| 成人免费淫片视频软件| 亚洲乱码在线观看| 欧美激情一区在线观看| 99久久免费观看| 欧洲av一区二区| 日韩欧美国产小视频| 色噜噜在线观看| 91精品国产自产在线观看永久∴| 久久久久久国产精品| 国产天堂第一区| 福利一区福利二区| 日韩妆和欧美的一区二区| 怡红院红怡院欧美aⅴ怡春院| 日韩欧美在线字幕| www.欧美com| 国内精品久久久久久99蜜桃| 九九精品视频在线| 久久久久亚洲视频| 成人ar影院免费观看视频| 亚洲一区二区精品在线观看| 97超碰免费在线| 在线综合视频播放| 精品国产成人亚洲午夜福利| 欧美亚洲不卡| 91精品久久久久久久久久| 在线观看xxx| 亚洲精品国产a| 艹b视频在线观看| 美女福利一区| 色综合视频一区中文字幕| 中文字幕有码视频| 91免费国产视频网站| www.亚洲视频.com| 成人免费91| 色播久久人人爽人人爽人人片视av| 日韩手机在线观看| 成人国产一区二区三区精品| 黄色www在线观看| 99欧美精品| 亚洲欧美综合图区| 国产精品美女久久久久av爽| 国产成人在线视频网址| 一区二区三区一级片| 97精品国产综合久久久动漫日韩 | 日本高清中文字幕在线| 色av一区二区| 久久久无码人妻精品一区| 在线看片欧美| 成人激情直播| 一色桃子av在线| 91精品国产91久久久久久一区二区| 极品蜜桃臀肥臀-x88av| 老牛国产精品一区的观看方式| 精品无人区一区二区三区| 欧美78videosex性欧美| 日韩欧美一二区| h色网站在线观看| 国产综合色在线| 国产911在线观看| 亚洲一区二区三区久久久| 色婷婷**av毛片一区| 精品一区二三区| 国产精品乱人伦| 天堂一区在线观看| 五月开心六月丁香综合色啪| 91视频-88av| 欧美极品少妇videossex| 欧美tk丨vk视频| 一级片免费网址| 91性感美女视频| av免费中文字幕| 国产日产一区 | 狠狠一区二区三区| 91精品国产高清| 青青草免费观看免费视频在线| 欧美性猛交xxxx偷拍洗澡| 妺妺窝人体色WWW精品| 日韩av网站在线观看| 在线精品日韩| 亚洲经典视频| 欧美一级免费视频| 成人在线免费看| 日韩一级大片在线观看| 日本少妇性高潮| 久久精品亚洲精品国产欧美| 污视频网站观看| 国产专区一区| 日韩成人在线资源| 另类视频一区二区三区| 国内偷自视频区视频综合| 精品乱码一区二区三四区视频| 欧美日韩午夜在线视频| av一区二区高清| 亚洲社区在线观看| 一区二区国产欧美| 亚洲午夜精品一区二区三区他趣| 青青草成人免费视频| 美女视频一区在线观看| a级免费在线观看| 自拍视频一区| 91在线中文字幕| 国产污视频在线播放| 亚洲色图综合久久| 亚洲AV无码精品国产| 在线观看av一区| 国产精品 欧美 日韩| 国产日韩精品一区二区浪潮av| 三日本三级少妇三级99| 老鸭窝毛片一区二区三区 | 欧美理论在线观看| 91麻豆精品国产综合久久久久久| 欧美一二三区视频| 亚洲人成网站精品片在线观看| 国产精品无码午夜福利| 国产精品99精品久久免费| 欧美视频第一区| 欧美日本中文| 亚洲一二三区在线| 免费欧美激情| 国产精品免费一区二区三区观看| 99欧美精品| 欧美壮男野外gaytube| 50度灰在线| 视频一区视频二区国产精品 | 天天干天天操天天爱| 亚洲欧美日韩国产综合| 极品人妻videosss人妻| 91视频在线观看免费| 91精品啪在线观看国产| 国产主播一区二区| 天堂中文视频在线| 欧美亚洲自偷自偷| 成人免费播放器| 一区二区中文字| 中文精品一区二区三区| 欧美伦理在线视频| 美女视频久久| 一区二区三区日本久久久| 国产精品亚洲一区| 国产一区二区三区免费在线 | 国产精品毛片大码女人| 欧美老熟妇乱大交xxxxx| 成人91在线观看| 99久久久无码国产精品性波多| 激情五月激情综合网| 一本一道久久a久久综合蜜桃| 三级在线观看一区二区| 男人天堂网视频| 男女av一区三区二区色多| 国产视频一视频二| 国产精品日韩欧美一区| 免费一级特黄特色毛片久久看| 亚洲国产二区| 国产人妻777人伦精品hd| 亚洲午夜久久久久久尤物| 国产精品久久久久久久久电影网| 欧美网站在线| 国产美女主播在线| 99精品免费| 日本a级片免费观看| 亚洲一区不卡| 黄色av免费在线播放| 日本欧美在线观看| 国产无遮挡猛进猛出免费软件| 裸体一区二区三区| www.com污| 国产成人精品综合在线观看| 无码国产精品一区二区免费式直播 | 美州a亚洲一视本频v色道| 亚洲欧美综合v| 亚洲麻豆精品| 欧美精品一区二区免费| 伦理av在线| 26uuu另类亚洲欧美日本一| 英国三级经典在线观看| 国产成人免费av电影| 农村妇女一区二区| 成人自拍爱视频| 欧美激情99| 日韩在线电影一区| 午夜久久黄色| 久久久999视频| 麻豆视频一区二区| 麻豆tv在线观看| 91老师国产黑色丝袜在线| 成人性生交大片免费看无遮挡aⅴ| 中文字幕一区二区三中文字幕| 欧美日韩一级在线观看| 五月天一区二区三区| 免费黄色一级大片| 日韩欧美电影一区| 久久精品a一级国产免视看成人| 最近2019中文字幕mv免费看| 色爱综合区网| 国产不卡av在线| 欧美一级片网址| 免费中文日韩| 亚洲色图网站| 国产男女无遮挡| 国产在线观看一区二区| yy1111111| 国产精品精品国产色婷婷| 国产大片aaa| 8x8x8国产精品| 欧洲免费在线视频| 欧美成人精品激情在线观看| www.精品| 国产精品免费看一区二区三区| 欧美久久综合网| 国产精品999视频| 久草中文综合在线| 亚欧洲乱码视频| 一区二区三区在线视频免费观看| 亚洲成人av影片| 欧美大片拔萝卜| 日本中文字幕在线2020| 欧美有码在线观看视频| 精品久久国产一区| 亚洲精美视频| 精品精品国产高清a毛片牛牛| 欧美激情国内自拍| 91视频精品在这里| 日本aⅴ在线观看| 欧美影视一区二区三区| 人妻一区二区三区四区| 色七七影院综合| 日本韩国欧美| 极品尤物一区二区三区| 欧美成人日韩| 污污视频网站在线| 高清全集视频免费在线| 日韩**中文字幕毛片| 97se亚洲国产一区二区三区| 一区二区三区欧美在线| 成人h动漫精品一区| 中文字幕成人网| 无码人妻久久一区二区三区| 亚洲风情亚aⅴ在线发布| 2024最新电影免费在线观看| 国产色视频一区| 日韩国产一区二区| 激情视频综合网| 91亚洲精品久久久蜜桃| 日韩精品乱码久久久久久| 精品国内二区三区| 黄色美女视频在线观看| 999在线免费观看视频| 你懂的网址国产 欧美| 亚洲高清在线不卡| 成人欧美一区二区三区黑人麻豆| 中文字幕在线一| 中文字幕av一区二区| 黑人一区二区三区| 影音先锋亚洲视频| 精东粉嫩av免费一区二区三区| 国内毛片毛片毛片毛片毛片| 欧美绝品在线观看成人午夜影视 | 亚洲精品国精品久久99热一| h片在线观看下载| 国产一区二区三区四区hd| 99亚洲视频| av女人的天堂| 欧美亚州韩日在线看免费版国语版| 精品99又大又爽又硬少妇毛片| 国产成人精品视| 欧美一区电影| 久国产精品视频| 一区二区三区免费网站| 成人无码一区二区三区| 午夜剧场成人观在线视频免费观看 | 欧美性猛交一区二区三区精品| 91在线视频| 99久久伊人精品影院| 一本色道久久精品| 91网站免费视频| 3751色影院一区二区三区| 色婷婷av在线| 蜜桃视频成人| 韩国av一区二区三区四区| 久久久国产精品黄毛片| 日韩av在线看| 久久久加勒比| 国产片侵犯亲女视频播放| 久久亚洲欧美国产精品乐播| 亚洲 小说区 图片区| 欧美男插女视频| 久久综合亚洲| 视频区 图片区 小说区| 午夜精品久久久久久久| 国产日本在线观看| 18成人在线| 视频精品一区二区| 久久99久久98精品免观看软件 | 性欧美丰满熟妇xxxx性久久久| 色偷偷成人一区二区三区91 | 亚洲伦理在线精品| 天天操天天干天天干| 国产精品视频一区国模私拍| 欧美日韩亚洲一区三区| 久久只有这里有精品| 欧美不卡一区二区| 成人精品三级| 欧美久久久久久久久久久久久 | 五月天亚洲综合| 国产成人日日夜夜| 91porny九色| 久久久久久久97| 久久亚洲国产| 粉嫩av蜜桃av蜜臀av| 日韩欧美色电影| 精品123区| 欧美性大战久久久久xxx|