精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

知識(shí)儲(chǔ)備≠模型能力!DeepMind強(qiáng)化學(xué)習(xí)微調(diào):大幅縮小「知行差距」

人工智能 新聞
大語言模型(LLMs)在決策場(chǎng)景中常因貪婪性、頻率偏差和知行差距表現(xiàn)欠佳。研究者提出強(qiáng)化學(xué)習(xí)微調(diào)(RLFT),通過自我生成的推理鏈(CoT)優(yōu)化模型,提升決策能力。實(shí)驗(yàn)表明,RLFT可增加模型探索性,縮小知行差距,但探索策略仍有改進(jìn)空間。

大語言模型的知識(shí)儲(chǔ)備要遠(yuǎn)遠(yuǎn)超越任何一個(gè)人類,在各種領(lǐng)域、應(yīng)用場(chǎng)景下都展現(xiàn)出了驚人的「世界知識(shí)」。

最近興起的智能體,就是要求模型利用自身知識(shí),在沒有大量與環(huán)境互動(dòng)的情況下生成更優(yōu)的行動(dòng)預(yù)測(cè),比如思維鏈(CoT)就能讓模型能夠?qū)τ^察到的歷史和自己的行動(dòng)進(jìn)行推理,提升與環(huán)境互動(dòng)的表現(xiàn)。

不過,在決策(decision-making)場(chǎng)景中,「知識(shí)儲(chǔ)備」和「推理優(yōu)勢(shì)」并沒有提升大模型的能力,反而可能導(dǎo)致探索力不足,使得決策結(jié)果不夠理想。

有研究結(jié)果顯示,即便在「狀態(tài)空間有限」的應(yīng)用中,比如網(wǎng)格世界或是Atari游戲,大模型的決策能力也有待提升。

這種缺陷可能來自大模型的「知行差距」(knowing-doing gap),即模型可能知道任務(wù)的相關(guān)知識(shí),或者能夠描述自己行動(dòng)的后果(知道該做什么),但在行動(dòng)時(shí)卻無法將這些知識(shí)付諸實(shí)踐(無法做到)。

最近,Google DeepMind和約翰·開普勒林茨大學(xué)(JKU Linz)的研究人員系統(tǒng)地研究了中小規(guī)模LLMs中常見的三種失敗模式:貪婪性、頻率偏差和知行差距。

分析結(jié)果表明,大模型的最終表現(xiàn)不夠理想的原因,主要是因?yàn)長(zhǎng)LMs過早地選擇了貪婪的行動(dòng)策略,導(dǎo)致行動(dòng)覆蓋停滯不前,高達(dá)55%的行動(dòng)空間都沒有被探索到。

圖片

論文鏈接:https://arxiv.org/pdf/2504.16078

小規(guī)模的LLMs(20億參數(shù))在不同獎(jiǎng)勵(lì)機(jī)制下,都表現(xiàn)出模仿上下文中最頻繁的行動(dòng),以以犧牲探索空間為代價(jià),表現(xiàn)出貪婪搜索性。

研究人員對(duì)知行差距進(jìn)行了量化,發(fā)現(xiàn)LLMs通常知道如何解決任務(wù)(87%的正確推理),但在行動(dòng)時(shí)卻無法利用這些知識(shí),主要因?yàn)閮?yōu)先選擇貪婪的行動(dòng),在推理正確的情況下,64%的行動(dòng)是貪婪的。

為了克服這些缺陷,研究人員提出了基于自我生成的推理過程(CoT)的強(qiáng)化學(xué)習(xí)微調(diào)(RLFT),在多臂老虎機(jī)(MAB)、上下文老虎機(jī)(CB)和文字版井字棋任務(wù)中,使用三種規(guī)模(20億、90億和270億參數(shù))的Gemma2模型進(jìn)行效果研究。

結(jié)果發(fā)現(xiàn),RLFT通過增加探索性并縮小「知行差距」來增強(qiáng)LMs的決策能力,盡管RLFT對(duì)LLM智能體的探索性產(chǎn)生了積極影響,但其探索策略仍然不夠理想。

因此,研究人員對(duì)強(qiáng)化學(xué)習(xí)中常用的「經(jīng)典」探索機(jī)制(如?-貪婪算法)以及LLM中特有的方法(如自我修正和自我一致性)進(jìn)行了實(shí)證評(píng)估,以實(shí)現(xiàn)更有效的決策場(chǎng)景微調(diào)。

強(qiáng)化學(xué)習(xí)微調(diào)(RLFT)

強(qiáng)化學(xué)習(xí)和RLHF

簡(jiǎn)單來說,強(qiáng)化學(xué)習(xí)就是教模型在不同的場(chǎng)景(狀態(tài)空間S)下,決策出做不同的動(dòng)作(行動(dòng)空間A),每次做完動(dòng)作,都會(huì)根據(jù)表現(xiàn)獲得獎(jiǎng)勵(lì)(獎(jiǎng)勵(lì)函數(shù)R)以學(xué)習(xí)。

學(xué)習(xí)過程是一個(gè)馬爾可夫決策過程,用一個(gè)四元組(S,A,P,R)來表示,其中P表示狀態(tài)轉(zhuǎn)移,在做完動(dòng)作后,以不同概率進(jìn)入新的狀態(tài)。

強(qiáng)化學(xué)習(xí)的目標(biāo)就是讓模型找到一個(gè)最好的策略(πθ),以在不同場(chǎng)景下選擇獎(jiǎng)勵(lì)最多的行動(dòng)。

圖片

基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)就是引導(dǎo)模型學(xué)習(xí)人類偏好的動(dòng)作,偏好數(shù)據(jù)由人類標(biāo)注獲得,記錄在獎(jiǎng)勵(lì)模型(rφ)中。

RLHF學(xué)習(xí)過程中,會(huì)用一個(gè)參考策略(π_ref)作為參考,模型在之參考策略進(jìn)行調(diào)整,還會(huì)用一個(gè)權(quán)重項(xiàng)(β)來平衡學(xué)習(xí)的速度和方向,以及一個(gè)基線(b)來減少學(xué)習(xí)過程中的波動(dòng),讓學(xué)習(xí)更加穩(wěn)定。

RLFT

強(qiáng)化學(xué)習(xí)微調(diào)(RLFT)方法主要是通過與環(huán)境互動(dòng)獲得的獎(jiǎng)勵(lì)來對(duì)模型生成的推理鏈(CoT)進(jìn)行優(yōu)化。

在這個(gè)過程中,模型會(huì)逐步改進(jìn)自己的推理方式,更傾向于選擇那些能帶來更高獎(jiǎng)勵(lì)的推理模式和行動(dòng)。

圖片

上下文表征

在步驟t時(shí),輸入到模型的token包括輸入指令、輸出指令以及最近的互動(dòng)歷史,其中歷史表征包含了C個(gè)最近的狀態(tài)、行動(dòng)和獎(jiǎng)勵(lì)的軌跡。

圖片

研究人員選擇使用針對(duì)具體任務(wù)的指令,以便為智能體提供觀察到的信息、可能的行動(dòng)及其目標(biāo)的信息。

行動(dòng)token的分解

在每次互動(dòng)步驟t時(shí),模型會(huì)生成包含CoT推理token和要在環(huán)境中執(zhí)行的行動(dòng)token,研究人員使用一個(gè)基于正則表達(dá)式的提取函數(shù),從推理token中提取出行動(dòng)。

如果未找到有效行動(dòng),則執(zhí)行隨機(jī)行動(dòng)。

為有效行動(dòng)進(jìn)行獎(jiǎng)勵(lì)塑形

除了環(huán)境獎(jiǎng)勵(lì)外,研究人員還使用了一個(gè)獎(jiǎng)勵(lì)塑形項(xiàng)(reward shaping),促使模型遵循輸出模板。

即,如果提取函數(shù)無法提取出有效行動(dòng),使用-5的獎(jiǎng)勵(lì)值進(jìn)行懲罰,同時(shí)為了確保獎(jiǎng)勵(lì)懲罰不會(huì)過度影響優(yōu)化,需要對(duì)環(huán)境獎(jiǎng)勵(lì)進(jìn)行歸一化處理。

微調(diào)目標(biāo)

研究人員使用了clipping目標(biāo)進(jìn)行微調(diào),并增加了一個(gè)針對(duì)參考策略的KL約束。

圖片

為了在具有固定episode長(zhǎng)度的環(huán)境中進(jìn)行內(nèi)存高效的微調(diào),使用蒙特卡洛基線來估計(jì)狀態(tài)A_adv

對(duì)于具有可變episode長(zhǎng)度的環(huán)境,研究人員在LLM表示的最后一層學(xué)習(xí)了一個(gè)單獨(dú)的狀態(tài)價(jià)值頭,并使用了泛化優(yōu)勢(shì)估計(jì)(generalized advantage estimation)。

實(shí)驗(yàn)結(jié)果

多臂老虎機(jī)和上下文強(qiáng)盜(Context Bandit)

多臂老虎機(jī)(MAB)是一個(gè)經(jīng)典的強(qiáng)化學(xué)習(xí)問題,模型需要在「探索新選項(xiàng)」和「利用已知好選項(xiàng)」之間做出平衡。

圖片

研究人員重點(diǎn)關(guān)注了連續(xù)型和按鈕型這兩種變體,測(cè)試了5、10或20個(gè)拉桿的老虎機(jī),每個(gè)拉桿的回報(bào)值呈高斯分布或伯努利分布,交互步數(shù)限制在50步以內(nèi)。

還設(shè)置了三種不同的隨機(jī)性水平(低/中/高),這決定了高斯老虎機(jī)或伯努利老虎機(jī)的標(biāo)準(zhǔn)差或回報(bào)值差距。

對(duì)比的基線模型為上置信界限(UCB,性能的上限)和隨機(jī)智能體(性能下限)。

基于文本的井字棋環(huán)境具有合理的狀態(tài)轉(zhuǎn)換,并且前沿模型在這個(gè)環(huán)境中很難取得良好表現(xiàn),甚至只能勉強(qiáng)戰(zhàn)勝隨機(jī)對(duì)手。

貪婪性

這是最普遍的失敗模式,其特點(diǎn)是LLM過度偏愛在已見過的少數(shù)行動(dòng)中表現(xiàn)最好的行動(dòng)。

為了說明這種失敗模式,研究人員測(cè)量了Gemma2 2B、9B和27B模型在有無因果推理(CoT)的情況下,在64個(gè)擁有10個(gè)或20個(gè)拉桿的MAB中,經(jīng)過50步交互后平均覆蓋的行動(dòng)數(shù)量。

圖片

對(duì)于10個(gè)拉桿的情況,平均在64個(gè)并行環(huán)境中,Gemma2 2B覆蓋了40%的所有行動(dòng),而9B和27B覆蓋了65%(即6.5個(gè)行動(dòng)),意味著仍有相當(dāng)一部分行動(dòng)空間未被探索。

圖片

沒有CoT時(shí),模型在10個(gè)拉桿的設(shè)置中僅探索了25%的行動(dòng),次優(yōu)的覆蓋是由于模型過度偏愛高回報(bào)行動(dòng),模型過早地承諾了一種貪婪策略,導(dǎo)致在超過10步后行動(dòng)覆蓋停滯不前。

增加拉桿數(shù)量會(huì)使貪婪性更加明顯,最大的模型也只覆蓋了45%的所有行動(dòng)。

頻率偏差

其特點(diǎn)是即使某個(gè)行動(dòng)的回報(bào)很低,模型也會(huì)反復(fù)選擇在上下文中出現(xiàn)頻率最高的行動(dòng)。

為了了解模型的行動(dòng)如何受到行動(dòng)頻率的影響,研究人員使用隨機(jī)策略構(gòu)建前綴歷史記錄,改變上下文歷史中最后一個(gè)行動(dòng)的重復(fù)次數(shù)(0到100次),并記錄所有行動(dòng)的熵。

圖片

為了量化頻率偏差,研究人員根據(jù)行動(dòng)的出現(xiàn)次數(shù),將行動(dòng)分類為頻繁行動(dòng)、貪婪行動(dòng)和其他行動(dòng),以10%的概率為最優(yōu)。

可以看到,Gemma2 2B嚴(yán)重受到重復(fù)行動(dòng)的影響,隨著重復(fù)次數(shù)的增加,熵逐漸降低,而27B則擺脫了頻率偏差(14%),并且隨著重復(fù)次數(shù)的增加,對(duì)自己的行動(dòng)預(yù)測(cè)變得不那么確定。

2B和27B在0-10次、45-55次和90-100次重復(fù)情況下的分段比例中可以看到,2B隨著重復(fù)次數(shù)的增加而持續(xù)增加,而27B雖然擺脫了頻率偏差,但卻嚴(yán)重受到貪婪性的影響。

結(jié)果表明頻率偏差是監(jiān)督預(yù)訓(xùn)練的產(chǎn)物,并促使人們使用強(qiáng)化學(xué)習(xí)作為一種對(duì)策。

知行差距

圖片

研究人員讓Gemma2 27B與環(huán)境(64個(gè)實(shí)例)進(jìn)行50個(gè)時(shí)間步的交互,每步的計(jì)算量為2048個(gè)token,并從推理過程中提取UCB數(shù)值。

為了量化「知道」,研究人員將模型計(jì)算的UCB值與真實(shí)的UCB值進(jìn)行比較,并認(rèn)為如果模型選擇的拉桿與具有最高UCB值的拉桿一致,則認(rèn)為其推理過程是正確的。

為了量化「做」,研究人員將生成的行動(dòng)分類為:如果模型選擇了具有最高UCB值的行動(dòng),則為最優(yōu)行動(dòng);如果選擇了到目前為止嘗試過的具有最高UCB值的行動(dòng),則為貪婪行動(dòng);如果行動(dòng)既不是最優(yōu)也不是貪婪,則歸為其他類別。

圖片

隨后,研究人員計(jì)算了貪婪/最優(yōu)/其他行動(dòng)的百分比。

智能體顯然知道如何解決任務(wù),因?yàn)?7%的推理過程都是正確的,然而,即使對(duì)于正確計(jì)算的推理過程,模型也經(jīng)常選擇貪婪行動(dòng)(58%)而不是最優(yōu)行動(dòng)(21%)。

這種差異突出了大型語言模型在「知道」算法的情況下,仍然在「行動(dòng)」上存在不足。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-09-11 06:57:11

2024-09-23 08:30:00

AI模型

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2025-04-18 12:25:34

2025-11-07 08:51:41

2020-02-21 15:33:44

人工智能機(jī)器學(xué)習(xí)技術(shù)

2021-09-10 16:31:56

人工智能機(jī)器學(xué)習(xí)技術(shù)

2025-06-09 09:32:35

2025-05-30 04:00:00

IBMRLVRGRPO

2023-09-21 10:29:01

AI模型

2023-08-28 06:52:29

2023-07-21 14:58:05

智能開發(fā)

2024-12-06 09:00:00

2022-10-08 09:53:17

AI算法

2020-05-12 07:00:00

深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)人工智能

2020-01-16 15:57:36

AI 數(shù)據(jù)人工智能

2023-04-06 16:29:18

模型AI

2022-09-04 14:38:00

世界模型建模IRIS

2017-08-17 09:15:23

強(qiáng)化學(xué)習(xí)KerasOpenAI

2024-01-26 08:31:49

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国产又粗又黄又爽| 免费成人深夜夜行网站| 黄色精品视频| 成人欧美一区二区三区在线播放| 99热最新在线| 欧美精品一二三四区| 欧美国产偷国产精品三区| 精品国产91乱码一区二区三区| 日本精品免费在线观看| 国产三级在线播放| 久久综合久久综合亚洲| 91丨九色丨国产在线| 六月丁香在线视频| 亚洲一区二区三区| 亚洲天堂久久av| 亚洲av无码专区在线播放中文| 久久久人成影片一区二区三区在哪下载 | 亚洲影院理伦片| 亚洲欧美日韩在线综合| 五月天婷婷激情网| 国产剧情一区二区| 麻豆精品视频在线观看视频| 一区二区三区国产在线观看| 日批视频免费看| 狠狠久久伊人中文字幕| 精品国产乱码久久久久久虫虫漫画| 一区二区三区偷拍| 国产h在线观看| 99在线视频精品| 99在线观看| 国产av无码专区亚洲a∨毛片| 天堂午夜影视日韩欧美一区二区| 欧美韩国理论所午夜片917电影| 国产又粗又长免费视频| 国内精品久久久久久久久电影网 | 亚洲av电影一区| 国产 日韩 欧美大片| 91久久精品久久国产性色也91| 国产又粗又猛又爽又| 欧美一级久久| 欧美在线视频观看| 精品成人免费视频| 国产亚洲精品bv在线观看| 久久久久久国产精品久久| a级片在线观看免费| 亚洲色图88| 久久国产精品电影| jizz亚洲少妇| 国产精品va| 欧美成人在线免费视频| 中文字幕影音先锋| 伊人成人在线视频| 97免费中文视频在线观看| 日本三级理论片| 99精品国产福利在线观看免费| 久久久久久伊人| 日韩男人的天堂| 9久re热视频在线精品| 91国内精品久久| 亚洲欧美偷拍视频| 日本sm残虐另类| 成人激情视频免费在线| 国产视频一区二区三| 国产91丝袜在线18| 久久综合久久久| 成人一区二区不卡免费| 国产精品免费免费| 只有这里有精品| heyzo在线欧美播放| 日韩欧美成人区| 免费看污污网站| 国内不卡的一区二区三区中文字幕| 91视频免费网址| 免费在线视频欧美| 亚洲美女在线国产| 欧美中日韩在线| 夜鲁夜鲁夜鲁视频在线播放| 懂色av一区二区三区| 成人久久久久久久久| 日韩网站中文字幕| 欧美一区午夜视频在线观看| 国模大尺度视频| 欧美18xxxx| 中文字幕亚洲综合久久筱田步美| 秋霞欧美一区二区三区视频免费| 你懂的亚洲视频| 91爱视频在线| 91tv国产成人福利| av一区二区不卡| 神马影院一区二区三区| 四季久久免费一区二区三区四区| 第一福利永久视频精品| 天堂av8在线| 免费萌白酱国产一区二区三区| 一区二区三区视频在线| 欧美被狂躁喷白浆精品| 丝袜脚交一区二区| 99在线看视频| 色多多视频在线观看| 亚洲国产精品人人做人人爽| 国产又猛又黄的视频| 1313精品午夜理伦电影| 中文字幕国产精品久久| www.国产成人| 国产一区啦啦啦在线观看| 精品综合久久久| 草莓福利社区在线| 91黄视频在线| 日本一卡二卡在线| 91精品综合| 国产精品xxx视频| 天天干视频在线| 亚洲人成在线观看一区二区| 日韩视频在线免费看| 亚洲国产aⅴ精品一区二区| 国产一区二区日韩精品欧美精品| 国产午夜福利精品| 国产精品99久久久| 亚洲午夜激情| 日韩精品三区| 亚洲欧美国产高清va在线播| 日韩精品123区| 日本午夜一区二区| 日本不卡在线播放| 忘忧草在线影院两性视频| 日韩午夜中文字幕| 麻豆天美蜜桃91| 久久国产三级精品| 午夜精品一区二区在线观看| 澳门成人av网| 国产丝袜精品视频| 一区二区三区视频在线| 国产一区二区视频在线观看免费| 毛片av中文字幕一区二区| 精品久久久久久一区二区里番| 成人77777| 在线亚洲精品福利网址导航| www.久久国产| 亚洲免费网址| 欧美午夜精品久久久久久蜜| 国产资源在线观看入口av| 欧美va亚洲va国产综合| 欧美国产在线看| 懂色一区二区三区免费观看| 少妇久久久久久被弄到高潮| 国产一区 二区| 久久在线视频在线| 国产女人高潮时对白| 亚洲免费观看高清完整版在线观看熊| 久久人人爽av| 欧美日韩爆操| 国产一区在线免费| 26uuu亚洲电影| 一本色道久久88亚洲综合88| 中文字幕观看在线| 专区另类欧美日韩| 韩国三级在线看| 中文亚洲免费| 视频在线精品一区| 99热这里有精品| 色综合久久精品亚洲国产| 亚洲春色一区二区三区| 黄色一区二区在线| 中文字幕人妻一区二区三区在线视频| 日韩黄色免费网站| 中文字幕中文字幕在线中一区高清 | 91av视频在线观看| 国内在线免费高清视频| 欧美人妖巨大在线| 国产精品久久久久久久精| 成人成人成人在线视频| 亚洲乱码中文字幕久久孕妇黑人| 精品国产一区二区三区四区| 国产在线视频不卡| 白白色在线观看| 一色桃子一区二区| 精品人妻一区二区三区含羞草| 五月天激情综合| 天天操天天舔天天射| 国产精品资源站在线| 国产91美女视频| 99精品在线免费在线观看| 国产传媒一区| 97成人超碰| 久久99久久亚洲国产| 青青草在线播放| 制服丝袜一区二区三区| 国产成人精品片| 中文字幕一区不卡| 欧美大喷水吹潮合集在线观看| 青娱乐精品在线视频| 日本一级黄视频| 精品久久久亚洲| 国产精品制服诱惑| 精品乱码一区二区三区四区| 奇米4444一区二区三区| 50一60岁老妇女毛片| 日韩中文字幕91| 免费特级黄色片| 国产在线观看91一区二区三区 | 亚洲中文字幕无码一区二区三区| 小说区图片区色综合区| 91啪国产在线| 激情开心成人网| 久久久久国产精品免费网站| 最新av网站在线观看| 日韩av综合网站| 国产成人三级一区二区在线观看一| 日韩欧美在线播放| 精品在线视频免费| 亚洲视频在线一区观看| 久久午夜福利电影| 99久久精品国产精品久久| 一级做a爱视频| 日本成人在线不卡视频| 日韩欧美亚洲天堂| 亚洲一级特黄| 亚洲成人动漫在线| 日韩理论在线| 日韩片电影在线免费观看| 精品欧美午夜寂寞影院| 亚洲xxxx做受欧美| 色综合久久久| 国产精品视频一| 色成人免费网站| 日本免费久久高清视频| 91美女精品| 久久69精品久久久久久久电影好| 日本在线观看| 久久精品福利视频| av播放在线| 中文字幕亚洲欧美日韩2019| 波多野结衣一区二区| 亚洲欧洲视频在线| 麻豆app在线观看| 精品视频中文字幕| 天堂网在线观看视频| 亚洲第一精品夜夜躁人人爽 | 日韩精品在线观看av| 女主播福利一区| 99久久久精品视频| 在线免费高清一区二区三区| www插插插无码免费视频网站| 国产精品久久久久久久久久10秀 | caoporn视频在线| 992tv成人免费视频| 涩涩涩视频在线观看| 欧美中文在线观看国产| 欧美日韩大片| 国产日本欧美在线观看| 成人永久在线| 国产高清在线一区| 日韩一级电影| 深田咏美在线x99av| 怡红院一区二区| 久久av老司机精品网站导航| 97超碰青青草| 日韩**一区毛片| www.久久久久久久久久久| 国产乱码精品一品二品| 男人的天堂免费| 91在线一区二区| 97人妻人人揉人人躁人人| 国产精品高潮呻吟| 久久亚洲成人av| 欧美性xxxx极品hd满灌| 中文字幕av资源| 欧美变态tickling挠脚心| 蜜臀av午夜精品| 亚洲色图校园春色| 岛国中文字幕在线| 97久久久久久| 青青青国产精品| 成人久久18免费网站漫画| 日本欧美三级| 中文精品一区二区三区| 国内揄拍国内精品久久| 国产真实乱子伦| 国产美女精品人人做人人爽| 欧类av怡春院| 国产精品久久久久久久浪潮网站| 精品在线视频观看| 欧美艳星brazzers| 亚洲精品一区二区三区新线路| 亚洲视频在线观看网站| av免费在线观| 国产精品18久久久久久麻辣| 日韩08精品| 日韩精品久久久毛片一区二区| 亚洲欧美亚洲| 欧美日韩怡红院| 99精品视频一区| 18岁成人毛片| 欧美日韩中文国产| 污视频软件在线观看| 久久亚洲精品视频| 三级成人在线| 精品乱子伦一区二区三区| 99久精品视频在线观看视频| 成人av一级片| 粉嫩嫩av羞羞动漫久久久| 五月婷六月丁香| 偷拍日韩校园综合在线| 99久久精品国产一区二区成人| 亚洲男女自偷自拍图片另类| 色屁屁www国产馆在线观看| 国产精品精品一区二区三区午夜版 | 国产高清久久久久| 日本免费www| 色综合天天综合给合国产| 精品人妻少妇嫩草av无码专区| 国产一区二区三区视频免费| 美女91在线看| 国产精品亚洲综合| 你懂的成人av| 免费成人黄色大片| 国产精品区一区二区三区| 女人十八岁毛片| 精品福利在线导航| 在线观看av免费| 亚洲va国产va天堂va久久| 日本一区二区在线看| 免费大片在线观看| 久久久青草青青国产亚洲免观| 日本一二三区不卡| 亚洲精品一线二线三线无人区| av文字幕在线观看| 成人免费午夜电影| 香蕉久久网站| 午夜一级免费视频| 亚洲视频免费在线观看| 亚洲影视一区二区| 日韩中文字幕在线播放| 青青在线精品| 黄色一级片网址| 国产在线视频一区二区三区| 亚洲欧美综合7777色婷婷| 欧美日韩在线三级| 天堂中文8资源在线8| 国产在线视频欧美| 亚洲精品国产偷自在线观看| 欧美国产日韩另类| 综合久久久久久久| 国产高清第一页| 久久久久久久久国产精品| 风间由美中文字幕在线看视频国产欧美 | 成人伊人精品色xxxx视频| 91精品国偷自产在线电影 | 18禁免费无码无遮挡不卡网站| 99久久免费精品| 手机看片久久久| 尤物yw午夜国产精品视频| 国产一区精品福利| 中文字幕超清在线免费观看| 国产福利视频一区二区三区| 久久国产露脸精品国产| 亚洲第一区中文字幕| 亚洲免费福利| 亚洲精品高清视频| 国产老妇另类xxxxx| 日产亚洲一区二区三区| 亚洲免费小视频| 久久人人视频| 毛片av在线播放| 久久久精品人体av艺术| 在线视频 91| 欧美精品久久久久久久| 亚洲精华一区二区三区| 日本肉体xxxx裸体xxx免费| 亚洲欧美日韩一区二区三区在线观看| 亚洲精品无amm毛片| 国产成人福利网站| 亚洲不卡av不卡一区二区| 色综合久久五月| 欧美日韩亚洲另类| av中文字幕电影在线看| 欧美一二三区| 国产精品综合视频| 日韩中文字幕在线观看视频| 日韩在线观看视频免费| 国产精品tv| 美女少妇一区二区| 午夜精品久久久久久| h网站视频在线观看| 官网99热精品| 热久久国产精品| 久久精品亚洲无码| 在线播放日韩欧美| 狠狠一区二区三区| 91女神在线观看| 欧美午夜性色大片在线观看| 欧美日韩xx| 欧美日本亚洲| 成人午夜在线免费| 91激情在线观看| 欧洲成人免费aa| 黄色成人精品网站| 天天爽天天爽天天爽| 日韩精品一区二区视频| 国产精久久一区二区|