精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

執行推理時能對齊語言模型嗎?谷歌InfAlign帶來一種對齊新思路

人工智能 新聞
為了解決以下定義 5 中的語言模型對齊問題,該團隊提出了一個通用框架。

在根據某個獎勵微調生成式語言模型時,使用 KL 正則化的強化學習(KL-RL)來對齊生成式語言模型是一種常用框架。而 KL-RL 通常需要訓練一個獎勵模型,然后使用一個強化學習求解器。其它方法還包括直接偏好優化、獎勵模型蒸餾、best-of-N  蒸餾的不同變體版本。

在度量 KL-RL 框架的效果時,常用的指標是已對齊模型相較于參照模型在給定任務上的勝率。

但是,在推理時間很少會使用已對齊的模型,而是會通過一個推理時間流程來完成任務,比如 best-of-N 采樣、best-of-N 越獄、思維鏈推理、自我一致性。這樣一來,推理時間解碼過程與訓練 KL-RL 目標之間就不匹配了。

于是,問題來了:給定一個已知的推理時間流程,我們可以對齊模型,從而優化相對于參照模型的推理時間勝率嗎?其中,為了求取推理時間勝率,需要通過該推理時間流程獲取每個模型的響應并統計每個模型的樣本獲勝次數。

Google DeepMind 和 Google Research 近日的一篇論文嘗試解答了這個問題。他們發現,盡管很難直接優化推理時間勝率,但可通過一組優化目標來獲取其最優解。該團隊將這個框架稱為 inference-aware alignment (InfAlign),即推理感知型對齊。

圖片

  • 論文標題:InfAlign: Inference-aware language model alignment
  • 論文地址:https://arxiv.org/abs/2412.19792

他們還進一步證明,對于被 δ 限定的語言模型(其中隨著 δ → 0,所有輸出都被 δ 限定了上限),可通過對獎勵使用一個特定的變換來求解 KL-RL,從而得到這個最優解。

如此一來,針對推理時間勝率進行優化的難題就可以這樣解決了:設計一個適合特定推理時間流程的獎勵變換,然后使用 PPO 等已有的優化算法來求解 KL-RL。

使用獎勵變換實現強化學習

為了解決以下定義 5 中的語言模型對齊問題,該團隊提出了一個通用框架。

定義 5:令 T 為一個給定的推理時間流程,且 β > 0。那么,最大化推理時間勝率的優化問題就可以表述成

圖片

他們提出的新方法的基礎是:基于獎勵模型 r、推理時間流程 T、基礎策略 π_ref 設計一個新的獎勵函數 R;這樣一來,解決帶有已變換獎勵 R 的 KL 正則化強化學習問題就基本上能得到一個最優解。更確切地說,已對齊策略就是以下優化問題的解:

圖片

其中 R 是變換后的獎勵函數。大致看的話,可能不太容易理解為什么 (6) 式可幫助求解 (5) 中的問題。但該團隊會證明,對于任意給定的推理時間流程 T ,都存在一個可解決 (5) 的變換后獎勵 R。

定理 1(InfAlign 解決方案的特征)假設 T 使得對于所有 x、y_1、y_2 都存在 ?T (π)(y1 | x)/?π(y_2 | x),則就得到了最優轉換獎勵 R,并且 (5) 式中的最優策略 π? 必須滿足以下耦合方程:?x, y

圖片

其中 圖片是該推理時間轉換策略下已校準的獎勵。

對該定理的證明請訪問原論文。而基于該定理,可以自然地得到一個迭代 EM 式算法,其可以根據 (7) 式使用固定的 R 更新 π,并可以根據 (9) 式使用固定的 π 來更新 R,直到收斂。

然而,這種算法有兩個缺點:首先,對于一般的語言模型,難以評估方程 (9) 或者評估效率很低,因為這需要在巨大甚至無限的輸出空間上評估策略;其次,尚不清楚這種算法是否能得到最優解。

為了更高效地設計獎勵變換,該團隊研究了不執行推理時間流程的情況。在這種情況下,在這種情況下,T (π) = π 且 圖片

(9) 式便可簡化為 R (x, y) = C_{r,π_ref} (x, y),即 π_ref 下的 CDF 或已校準獎勵。

因此,定理 1 可以看作是這些結果與一般推理時間流程的泛化。這一觀察促使該團隊考慮基于此已校準獎勵的一系列獎勵變換,如下一節所述。我們將看到,對于這類已校準推理時間流程(定義 6),可以通過一個實驗性語言模型有效地評估此系列中的不同變換,從而找到優良甚至最佳的變換。

解決 InfAlign

使用已校準獎勵實現 KL-RL

對已校準獎勵 C_{r,π_ref} 的性質的討論請訪問原論文。接下來看如何在 KL 正則化的強化學習中使用這個已校準獎勵。

根據其性質,校準之后,基礎策略的輸出的獎勵分布獨立于獎勵模型與基礎策略本身。這樣一來,便可以設計一個僅關注推理時間流程 T 的變換函數 Φ,并將其用于已校準獎勵函數。

更確切地說,令 Φ : [0, 1] → ? 為一個變換函數,該團隊提出了以下獎勵函數:

圖片

而我們希望已對齊策略是 KL-RL 問題的解。

圖片

推理感知型獎勵變換。對于給定的推理時間流程 T ,目標是推導或設計一個合適的變換 Φ,使得該解能在推理時間勝率 W^T 和與基礎策略的 KL 散度之間實現良好甚至最佳的權衡。

標準勝率(無推理時間流程)。當不使用推理時間流程時(即 T 是恒等映射),W^T 會約簡為標準勝率。將 Φ 設置為恒等變換能得到最佳的勝率與 KL 權衡曲線,注意 圖片

該團隊考慮了一系列僅依賴于輸出的已校準獎勵的推理時間流程,這被稱為已校準流程(calibrated procedures)。然后他們探討了如何為這一系列變換設計合適的 Φ。下面先定義已校準流程。

圖片

接下來的結果表明,對于已校準推理時間流程,求解 (13) 式的已對齊策略的勝率和 KL 散度獨立于基礎策略和獎勵函數。

圖片

基于上述定理,便可以通過關注易于計算和模擬的簡單連續語言模型來對變換 Φ 進行評估。下面,該團隊使用了兩個常用的推理時間流程 best-of-N 和 worst-of-N 為示例,展示了該定理可以如何有效地評估不同 Φ 函數的推理時間勝率與 KL 散度權衡曲線,這可用于在實際場景中找到合適的變換 Φ。

為 BoN 和 WoN 尋找更好的變換

這一節將主要關注以下兩種推理時間流程:

  • best-of-N 推理時間流程 (BoN)
  • worst-of-N 推理時間流程 (WoN)

定理 3 描述了 BoN 和 WoN 的性質。

通過調整式 (13) 中的 β,可以得到一條對齊曲線,該曲線繪制了不同對齊策略的推理時間勝率和 KL 散度偏差。這樣,便能比較不同變換函數 Φ 的性能。

該團隊還研究了不同的變換類型,并分析性地計算了使用定理 3 時通過調整 β 而得到的對齊曲線,即不同 β 下 圖片 的圖。具體涉及的變換包括標準勝率的最優變換、指數函數和基于優化的變換。對這些變換的詳細描述請參閱原論文。結果則見圖 1。

圖片

以上結果證明了在執行對齊時考慮推理時間過程的重要性。

該團隊發現具有不同 t 的指數變換適用于不同的推理時間流程,這將是該團隊在實驗中的重點。接下來,該團隊將研究在理想化的連續語言模型上找到的好變換是否可以泛化用于現實世界場景。

但在繼續進行實驗之前,還必需一種實用的算法來解決推理時間 KL-RL 優化問題。

CTRL:校準和變換式強化學習

該團隊還提出了 Calibrate-and-Transform Reinforcement Learning(CTRL),即校準和變換式強化學習。這是一種用于推理時間勝率優化問題的求解器。

回想一下,新提出的解決方案可以分成三個階段:獎勵校準獎勵變換標準的 KL-RL 求解器。前面已經重點介紹了獎勵變換,下面將關注近似經驗校準。再將其與獎勵變換相結合,可得到最終的 CTRL 算法,見算法 1。

圖片

經驗校準是這樣的,首先對于強化學習訓練數據中的每個提示詞 x,從參照模型 π_ref 采樣 K 個樣本 z_1, z_2, ..., z_K。然后將所有響應的獎勵 {r (x, z_1), r (x, z_2), ...r (x, z_K)} 排序,然后將 RLHF 訓練期間提示詞與響應對 (x, y) 的經驗式已校準獎勵分數配置為:

圖片

理想情況下,當 K → ∞ 時,經驗的已校準獎勵將收斂到真正的已校準獎勵,并且可以通過 PPO 用于強化學習訓練目標。但是,其成本可能很高,因為精確計算這個已校準獎勵需要在 KL-RL 求解器中對每個提示詞和每個 roll-out 進行采樣并存儲 K 個獎勵分數。

于是,該團隊提出了一種更為實用的方法,即通過在對數域中使用逐步函數來擴展校準曲線,進而近似求取該曲線。具體做法是,選取 p 個錨點 q_1, q_2, ...,其中在每個分位數 q_i ∈ (0, 1) 處都取得零校準誤差。算法 2 給出了簡單情況(p = 1,中位數)的算法。更復雜的情況請訪問原論文算法 3。

圖片

實驗結果

這里略過具體的實驗配置和過程,僅關注實驗結果。

獎勵模型通常沒有正確校準

該團隊首先測量了在 Anthropic helpfulness preference 數據集上訓練的獎勵模型的校準錯誤情況,具體做法是計算訓練分割的數據中 10 個隨機提示詞的 100 個參照 - 策略響應的分數。

然后,該團隊對這些分數進行排序,計算每個響應對應的排名,并將這些值繪制為散點圖,如圖 2(左)所示。如果模型經過完美校準,則每個提示詞的點都將位于 y = x 線上。但是,請注意,對于大多數提示詞,散點圖與 y = x 線有顯著偏差,并且這種偏差的程度因提示詞而異。

圖片

然后,該團隊測量了獎勵分數與其對應排名之間的絕對誤差(AE),并在圖 2(右)中繪制各種校準近似的 AE 的累積分布函數(CDF)。如果模型經過良好校準,則 AE 始終為零,因此 CDF 在零 AE 時達到一。

該團隊發現獎勵分數(identity)沒有校準(平均 AE:0.22),并且使用固定獎勵多項式變換函數(如平方根、立方、平方)不會降低校準誤差(平均 AE > 0.15)。但是,使用基于分位數的獎勵校準(quantile)可顯著降低校準誤差(平均 AE:0.02)。

已校準獎勵可提升標準勝率

從圖 3 的結果可以看到,相比于 IPO 和 BoNBoN,已校準獎勵優化可以實現更好的勝率 - KL 權衡。

圖片

該團隊將此增益歸因于使用來自基礎模型的 m 個樣本能更高效地計算訓練數據的勝率,而不是依賴 KL-RL 期間現有的成對比較數據。

CTRL 可提升 BoN

對于 Anthropic 對話數據集中的有用性目標,該團隊的目標是通過已校準獎勵的指數變換來優化已對齊模型的 Best-of-N 性能。

該團隊測量了相對于基礎策略模型的 Best-of-N(N =4)的勝率,見圖 4。

圖片

可以看到,與未在有用性目標上校準的模型相比,基于每個提示詞的中位數獎勵的校準實現了高 8-12% 的 Best-of-N 勝率。已校準獎勵的指數變換優于其他。該團隊發現,指數因子 t = 10 的效果最佳。此外,該團隊表明 N 值不同時,也存在這些增益。

CTRL 可提升 WoN(BoN 越獄)

對于 Anthropic 對話數據集中的無害性目標,該團隊的目標是提高已對齊策略模型的最差 Worst-of-N 性能,以提高面對對抗攻擊的安全性。

在這里,該團隊使用負指數變換 t < 0。從圖 4 可以看到,與未校準的模型相比,基于每個提示詞的中位數獎勵的校準實現了高 4-9% 的 Worst-of-N 勝率。已校準獎勵的負變換優于其它,其中 t = ?10 表現最佳。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-05-09 08:20:29

AC架構數據庫冗余存儲

2024-04-26 08:58:54

if-else代碼JavaSpring

2024-04-30 08:12:05

CRUD方法JavaAC架構

2013-08-08 10:06:07

CA TechnoloCA Expo

2022-08-05 23:16:29

元宇宙科技虛擬交互

2022-06-23 07:05:46

跳板機服務器PAM

2015-08-31 09:27:21

語言界面UI

2015-08-03 09:36:01

賽迪翻譯

2017-11-15 19:00:49

深度學習SoftmaxRNN語言模型

2025-10-20 08:35:00

AI大模型視覺

2023-09-17 23:16:46

緩存數據庫

2016-10-26 09:12:58

2018-04-18 07:34:58

2013-08-12 09:31:39

Windows操作系統

2016-05-15 11:51:15

博科/vADC

2020-06-12 10:46:18

C語言棧內存結構體

2025-03-23 22:01:30

2017-09-19 14:21:37

AI

2025-09-28 09:00:00

2025-05-22 04:00:00

PARSCALE大型語言模型LLM
點贊
收藏

51CTO技術棧公眾號

婷婷激情5月天| 亚洲影视一区| 亚洲高清资源| 亚洲日本在线a| 国产精品第10页| 狠狠97人人婷婷五月| 亚洲一线在线观看| 国产精品一区二区av日韩在线| 亚洲一卡二卡三卡四卡| 92福利视频午夜1000合集在线观看| 欧美日韩国产综合新一区| 国产精品久久久久久久9999| 一级黄色录像视频| 超碰国产精品一区二页| 99精品1区2区| 97在线观看免费| 国产精品无码专区| 91制片在线观看| 亚洲第一天堂| 777色狠狠一区二区三区| 亚洲春色在线视频| 中文字幕在线观看你懂的| 不卡在线一区| 欧美日韩视频在线第一区| 日韩福利影院| 伊人免费在线观看| 亚洲精品乱码| 久久6精品影院| 国产在线a视频| 麻豆av在线播放| gogo大胆日本视频一区| 91国内精品久久| 精品人妻少妇嫩草av无码| 成人免费无遮挡| 日本一区二区三区国色天香 | 在线成人h网| 日韩中文字幕不卡视频| 欧美视频在线播放一区| 伊人222成人综合网| 成人午夜视频福利| 久久久久中文字幕2018| bl动漫在线观看| 久久夜夜操妹子| 精品欧美日韩精品| 91精品日本| 亚洲一区二区三区中文字幕| 亚洲男人天堂网站| 亚洲国产91精品在线观看| 警花观音坐莲激情销魂小说| 午夜精品短视频| 日本一区二区三区免费视频| 欧美1区2区3区4区| 在线日韩一区二区| 中国一级黄色录像| 午夜小视频在线| 国产成人99久久亚洲综合精品| 欧美大片大片在线播放| 成人免费小视频| 日韩成人网免费视频| 国产深夜男女无套内射| 极品美乳网红视频免费在线观看 | 日本在线视频中文字幕| 2019中文字幕在线电影免费 | 日本japanese极品少妇| avav免费在线观看| 国产成人免费网站| 国产97免费视| 一起操在线播放| 天天色综合天天色| yellow91字幕网在线| www.激情成人| 黄色小网站91| 国产精品国产一区二区三区四区 | 日韩在线观看免费全| 免费看的黄色录像| 日韩1区在线| 欧美国产精品专区| 114国产精品久久免费观看| 国产精品v欧美精品v日韩| 日韩欧美99| 日本韩国一区| 国产一区二区三区免费看| 久久久中文字幕| 国产情侣在线视频| 影视亚洲一区二区三区| 欧美韩国理论所午夜片917电影| 欧美日韩中文视频| 99国内精品久久久久久久| 日韩精品极品视频免费观看| 在线免费看黄视频| 国产精品毛片视频| 欧美一区午夜视频在线观看| 九一精品在线观看| 午夜欧美巨大性欧美巨大 | 毛片在线网站| 精品91在线| 97视频免费在线看| 亚洲视屏在线观看| 99热精品在线| 欧美另类xxx| 国产一级做a爱免费视频| 久久九九99| 国语自产偷拍精品视频偷| 特级毛片www| 亚洲精品国产日韩| 国产精品扒开腿做爽爽爽男男| 国产男女猛烈无遮挡| 奇米在线7777在线精品| 日本亚洲精品在线观看| 亚洲中文字幕一区二区| 成人99免费视频| 国产精品10p综合二区| 天天影院图片亚洲| 99亚偷拍自图区亚洲| 亚洲春色在线视频| 精品三级久久| 同产精品九九九| 久久综合色视频| 日韩av懂色| 91精选在线观看| 国产黄色网址在线观看| 欧美激情1区2区3区| 欧美激情精品久久久久久免费印度| 欧美性猛交bbbbb精品| 国产成人亚洲综合a∨猫咪| 天天综合狠狠精品| 小视频免费在线观看| 日韩欧美福利视频| 九九爱精品视频| 天堂av中文在线观看| 日韩欧美国产综合在线一区二区三区 | 国产成人极品视频| 无码人中文字幕| 一本久道久久综合狠狠爱| 亚洲a在线播放| 日本亚洲精品| 在线观看一区二区视频| 久久久久久久久免费看无码 | 亚洲色欲综合一区二区三区| 日韩欧美精品一区二区三区| 欧美一级片在线观看| 欧洲熟妇的性久久久久久| 国产精品自在线拍| 欧美大片网站在线观看 | 黄色小说综合网站| 97久久超碰国产精品| 久久99九九| 欧洲综合视频| 欧美日韩国产专区| 成年人在线观看av| 美女精品一区| 欧美性bbwbbwbbwhd| 黄网站免费在线播放| 亚洲国产一区视频| www激情五月| 任你弄精品视频免费观看| 九九久久久久久久久激情| 99热这里只有精品5| va亚洲va日韩不卡在线观看| 日韩黄色片在线| av老司机免费在线| 最近中文字幕在线观看| 欧美高清在线一区| 天天操狠狠操夜夜操| 精品视频自拍| 日韩亚洲国产中文字幕| 一区二区三区精| 99久久精品免费| www一区二区www免费| 91精品网站在线观看| 色青青草原桃花久久综合| 6080午夜不卡| 成人性生活毛片| 久久精品高清| 久久久久久com| 波多野结衣电车痴汉| 国产盗摄一区二区三区| 黄色特一级视频| jizzyou欧美16| 亚洲激情视频网站| 欧美日韩偷拍视频| 99精品欧美一区二区蜜桃免费| 国产精品wwwww| 久久久精品国产**网站| 东方aⅴ免费观看久久av| 欧美人与性动交| 少妇av一区二区| 国产精品麻豆一区二区| 免费一级特黄特色毛片久久看| 一本色道久久综合狠狠躁的番外| 欧美激情第99页| 日韩av高清在线| 这里只有精品99re| 在线观看国产亚洲| 欧美videossex极品| 99精品视频中文字幕| 正在播放一区| 国产免费不卡| 俺也去精品视频在线观看| 欧美少妇bbw| 亚洲综合免费观看高清完整版在线 | 91精品人妻一区二区三区四区| 日本欧美肥老太交大片| y111111国产精品久久婷婷| 久草资源在线| 亚洲国模精品私拍| 国产美女www爽爽爽视频| 欧美视频中文字幕在线| 欧美黄色免费看| 国产精品18久久久久久久久| 国产xxxxx在线观看| 午夜精品久久99蜜桃的功能介绍| 欧美色图亚洲自拍| 成人av动漫| 欧美激情在线观看| aiai在线| 国产亚洲美女久久| 中文资源在线播放| 无吗不卡中文字幕| 五月婷婷一区二区| 中文字幕日韩一区| 欧美另类z0zx974| 久久精品国产一区二区| 正在播放一区二区三区| 嫩草影视亚洲| 国产精品一区=区| 久草中文在线观看| 国产一区二区三区在线视频| 一女二男一黄一片| 色8久久人人97超碰香蕉987| 在线观看天堂av| 国内精品第一页| 99热手机在线| 视频一区二区不卡| 美国av在线播放| 韩国精品福利一区二区三区| 91在线观看免费高清完整版在线观看| 视频在线这里都是精品| 亚洲国产小视频在线观看| 国产婷婷一区二区三区久久| 欧美日韩国产综合一区二区| 美女福利视频在线观看| 国产精品美日韩| 欧美88888| 一区精品在线播放| chinese全程对白| 成人激情av网| 伦理片一区二区| 日本不卡高清视频| 亚洲天堂av线| 免费观看日韩电影| 男女日批视频在线观看| 黄色成人在线网址| 日韩av在线一区二区三区| 蜜桃国内精品久久久久软件9| 精品亚洲欧美日韩| 亚洲国产合集| 日本一区二区三区视频在线观看| japansex久久高清精品| 国产精品一二三视频| avtt久久| 国产精品国产精品国产专区不卡| 99re66热这里只有精品4| 欧美国产中文字幕| 国产精品论坛| 国产97在线|亚洲| 四虎影视国产精品| 成人黄色片视频网站| 激情视频极品美女日韩| 欧美日本韩国在线| 四季av一区二区凹凸精品| 黑人巨大国产9丨视频| 亚洲国产一区二区精品专区| 免费大片在线观看| 韩国精品在线观看| yy6080午夜| 国产精品嫩草影院av蜜臀| 国精品无码一区二区三区| 亚洲高清一区二区三区| 黄视频网站免费看| 亚洲一区二区精品视频| 男人天堂2024| 午夜亚洲国产au精品一区二区| 亚洲精品一区二区三区在线播放| 亚洲色图欧洲色图| 一级片免费网址| 欧美探花视频资源| 天天操天天干天天摸| 欧美理论电影在线| 中文字幕一区二区三区四区视频| 欧美久久一二区| 天天操天天干天天插| 色婷婷久久一区二区| 超碰成人av| 成人性生交xxxxx网站| 成人在线视频观看| 99re在线观看| 日韩国产综合| 国产妇女馒头高清泬20p多| 日韩成人dvd| 国产wwwxx| 国产91丝袜在线播放| xxxxx99| 日韩欧亚中文在线| 久久青青草原亚洲av无码麻豆| 欧美日韩国产天堂| 你懂得网站在线| 国产一区二区激情| 青草在线视频在线观看| 国产精品久久一区| 精品乱码一区二区三区四区| 国产精品国内视频| 久久99精品久久久久久欧洲站| 亚洲精品中字| 久久精品一区二区国产| 日本精品一二三区| 亚洲人精品一区| 久久久久久av无码免费看大片| 亚洲国产精品久久| 午夜羞羞小视频在线观看| 国产玖玖精品视频| www.桃色.com| 国产伦精品一区二区三区在线观看| 成年人视频大全| 欧美三级在线| 久艹在线免费观看| 精久久久久久久久久久| 欧美偷拍一区二区三区| 亚洲国产成人私人影院tom| 日韩和一区二区| 精品成人一区二区三区| 五月婷婷六月激情| 亚洲一级片在线看| 国产直播在线| 国产伦精品一区二区| 欧美激情综合色综合啪啪| 亚洲网中文字幕| 综合精品久久久| 97人妻精品一区二区三区动漫| 一个色综合导航| 素人一区二区三区| 日韩欧美亚洲v片| 日韩电影在线免费| xxxxx在线观看| 色综合久久综合网欧美综合网| 国产精品国产高清国产| 亚洲18私人小影院| 欧美日日夜夜| 欧美三级一级片| 久久久影院官网| 国产精品三级在线观看无码| 精品国产乱码久久久久久天美| 黄色一级大片在线免费看国产| 影院欧美亚洲| 中文字幕在线视频精品| 中文字幕中文字幕中文字幕亚洲无线 | 亚洲福利视频三区| 精品人妻aV中文字幕乱码色欲 | 五月天激情婷婷| 欧美一区二区视频97| 9.1麻豆精品| 欧美另类videos| 成人小视频在线观看| 久久久久久久久久免费视频 | 欧美视频一区在线| 午夜在线视频| 97免费高清电视剧观看| 伊人天天综合| 精品国产av无码| 欧美精品日韩一本| 国产区美女在线| 成人激情视频在线| 欧美激情第10页| 午夜久久久久久久| 精品视频在线免费看| 91精品久久久久久粉嫩| 精品福利影视| 秋霞午夜av一区二区三区| 极品盗摄国产盗摄合集| 亚洲精品久久久久久久久久久| 欧美影视资讯| 欧美黄色免费网址| 久久精品日产第一区二区三区高清版 | 你懂的在线观看| 国产日本欧美一区| 久操成人av| 天堂av在线8| 亚洲mv大片欧洲mv大片精品| 四虎影院在线域名免费观看| 国产欧美日韩免费| 欧美大片一区| 亚洲资源av| 在线观看18视频网站| 亚洲春色h网| 色18美女社区| 色综合久久中文综合久久97| 九义人在线观看完整免费版电视剧| 激情一区二区三区| 紧缚捆绑精品一区二区| 亚洲精品1区2区3区|