精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

眾包新玩法!LLM競(jìng)技場(chǎng)誕生基準(zhǔn)測(cè)試,嚴(yán)格分離學(xué)渣學(xué)霸

人工智能
最公平的大模型基準(zhǔn)測(cè)試誕生了!來自LLM競(jìng)技場(chǎng),最接近人類偏好,數(shù)據(jù)新鮮、速度快、成本低,嚴(yán)格分離學(xué)渣和學(xué)霸。

大模型排行榜哪家強(qiáng)?還看LLM競(jìng)技場(chǎng)~

截至此刻,已有共計(jì)90名LLM加入戰(zhàn)斗,用戶總投票數(shù)超過了77萬。

圖片圖片

然而,在網(wǎng)友們吃瓜調(diào)侃新模型沖榜、老模型喪失尊嚴(yán)的同時(shí),

人家競(jìng)技場(chǎng)背后的組織LMSYS,已經(jīng)悄悄完成了成果轉(zhuǎn)化:從實(shí)戰(zhàn)中誕生的最有說服力的基準(zhǔn)測(cè)試——Arena-Hard。

圖片圖片

而Arena-Hard所展現(xiàn)出的四項(xiàng)優(yōu)勢(shì),也正是當(dāng)前的LLM基準(zhǔn)測(cè)試最需要的:

-可分離性(87.4%)明顯優(yōu)于MT-bench(22.6%);

-與Chatbot Arena的排名最相近,達(dá)到89.1%;

-運(yùn)行速度快,價(jià)格便宜(25美元)

-頻繁更新實(shí)時(shí)數(shù)據(jù)

中譯中一下就是,首先這個(gè)大模型的考試要有區(qū)分度,不能讓學(xué)渣也考到90分;

其次,考試的題目應(yīng)該更貼合實(shí)際,并且打分的時(shí)候要嚴(yán)格對(duì)齊人類偏好;

最后一定不能泄題,所以測(cè)試數(shù)據(jù)要經(jīng)常更新,保證考試的公平;

——后兩項(xiàng)要求對(duì)于LLM競(jìng)技場(chǎng)來說,簡(jiǎn)直像是量身定做。

我們來看一下新基準(zhǔn)測(cè)試的效果:

圖片圖片

上圖中將Arena Hard v0.1,與之前的SOTA基準(zhǔn)測(cè)試MT Bench進(jìn)行了比較。

我們可以發(fā)現(xiàn),Arena Hard v0.1與MT Bench相比,具有更強(qiáng)的可分離性(從22.6%飆升到了87.4%),并且置信區(qū)間也更窄。

另外,看下這個(gè)排名,與下面最新的LLM競(jìng)技場(chǎng)排行榜是基本一致的:

圖片圖片

這說明Arena Hard的評(píng)測(cè)非常接近人類的偏好(89.1%)。

——Arena Hard也算是開辟了眾包的新玩法:

網(wǎng)友獲得了免費(fèi)的體驗(yàn),官方平臺(tái)獲得了最有影響力的排行榜,以及新鮮的、高質(zhì)量的數(shù)據(jù)——沒有人受傷的世界完成了。

圖片

給大模型出題

下面看下如何構(gòu)建這個(gè)基準(zhǔn)測(cè)試。

簡(jiǎn)單來說,就是怎么從競(jìng)技場(chǎng)的20萬個(gè)用戶提示(問題)中,挑出來一些比較好的。

這個(gè)「好」體現(xiàn)在兩方面:多樣性和復(fù)雜性。下圖展示了Arena-Hard的工作流:

圖片圖片

總結(jié)一波:首先對(duì)所有提示進(jìn)行分類(這里分了4000多個(gè)主題),然后人為制定一些標(biāo)準(zhǔn),對(duì)每個(gè)提示進(jìn)行打分,同一類別的提示算平均分。

得分高的類別可以認(rèn)為復(fù)雜性(或者質(zhì)量)高——也就是Arena-Hard中「Hard」的含義。

選取前250個(gè)得分最高的類別(250保證了多樣性),每個(gè)類別隨機(jī)抽2位幸運(yùn)提示,組成最終的基準(zhǔn)測(cè)試集(500 prompts)。

下面詳細(xì)展開:

多樣性

研究人員首先使用OpenAI的text-embedding-3-small轉(zhuǎn)換每個(gè)提示,使用UMAP減少維度,并使用基于分層的聚類算法(HDBSCAN)來識(shí)別聚類,然后使用GPT-4-turbo進(jìn)行匯總。

圖片

復(fù)雜性

通過下表的七個(gè)關(guān)鍵標(biāo)準(zhǔn)來選擇高質(zhì)量的用戶查詢:

圖片圖片

1.提示是否要求提供特定的輸出?

2.是否涵蓋一個(gè)或多個(gè)特定領(lǐng)域?

3.是否具有多個(gè)級(jí)別的推理、組件或變量?

4.是否直接讓AI展示解決問題的能力?

5.是否涉及一定程度的創(chuàng)造力?

6.是否要求響應(yīng)的技術(shù)準(zhǔn)確性?

7.是否與實(shí)際應(yīng)用相關(guān)?

對(duì)于每個(gè)提示,使用LLM(GPT-3.5-Turbo、GPT-4-Turbo)標(biāo)注其滿足了多少個(gè)標(biāo)準(zhǔn)(打分0到7),然后,計(jì)算每組提示(聚類)的平均分?jǐn)?shù)。

下圖展示了部分聚類的平均分排序:

圖片圖片

我們可以觀察到,得分較高的聚類通常是比較有挑戰(zhàn)性的主題(比如游戲開發(fā)、數(shù)學(xué)證明),而分?jǐn)?shù)較低的聚類則屬于瑣碎或模棱兩可的問題。

有了這個(gè)復(fù)雜性,就可以拉開學(xué)霸與學(xué)渣之間的差距,我們看下面的實(shí)驗(yàn)結(jié)果:

圖片圖片

在上面的3個(gè)比較中,假設(shè)GPT-4比Llama2-70b強(qiáng)、Claude的大杯比中杯強(qiáng),Mistral-Large比Mixtral強(qiáng),

我們可以看到,隨著(復(fù)雜性)分?jǐn)?shù)的增加,更強(qiáng)的模型的勝率也在提高——學(xué)霸獲得區(qū)分、學(xué)渣獲得過濾。

因?yàn)榉謹(jǐn)?shù)越好高(問題越復(fù)雜),區(qū)分度越好,所以最終選取了250 個(gè)平均得分>=6分(滿分7分)的高質(zhì)量分類。

然后,隨機(jī)抽取每個(gè)類別的2個(gè)提示,形成了這版基準(zhǔn)測(cè)試—— Arena-Hard-v0.1。

判卷老師靠譜嗎?

試卷出完了,誰來判卷是個(gè)問題。

人工當(dāng)然是最準(zhǔn)的,而且因?yàn)檫@是「Hard模式」,很多涉及領(lǐng)域知識(shí)的問題還需要專家前來評(píng)估——這顯然不行。

那么退而求其次,選擇目前公認(rèn)的最聰明的模型GPT-4來當(dāng)判卷老師。

比如上面的那些圖表中,涉及打分的環(huán)節(jié),都是交給GPT-4來做的。另外,研究人員使用CoT提示LLM,在做出判決之前先生成答案。

GPT-4 判出的結(jié)果

下面使用gpt-4-1106-preview作為判斷模型,用于比較的基線采用gpt-4-0314。

圖片圖片

上表中比較并計(jì)算了每個(gè)模型的Bradley-Terry系數(shù),并轉(zhuǎn)換為相對(duì)于基線的勝率作為最終分?jǐn)?shù)。95%置信區(qū)間是通過100輪引導(dǎo)計(jì)算得出的。

克勞德表示不服

——我Claude-3 Opus也是排行榜并列第一啊,憑啥讓GPT當(dāng)判卷老師?

于是,研究人員比較GPT-4-1106-Preview和Claude-3 Opus作為判卷老師的表現(xiàn)。

一句話總結(jié):GPT-4是嚴(yán)父,Claude-3是慈母。

圖片圖片

當(dāng)使用GPT-4打分時(shí),跨模型的可分離性更高(范圍從23.0到78.0)。

而當(dāng)使用Claude-3時(shí),模型的得分大多都提高了不少:自家的模型肯定要照顧,開源模型也很喜歡(Mixtral、Yi、Starling),gpt-4-0125-preview也確實(shí)比我更好。

Claude-3甚至愛gpt-3.5-0613勝過gpt-4-0613。

下表使用可分離性和一致性指標(biāo)進(jìn)一步比較了GPT-4和Claude-3:

圖片圖片

從結(jié)果數(shù)據(jù)來看,GPT-4在所有指標(biāo)上都明顯更好。

通過手動(dòng)比較了GPT-4和Claude-3之間的不同判斷示例,可以發(fā)現(xiàn),當(dāng)兩位LLM意見不一致時(shí),通常可以分為兩大類:

保守評(píng)分,以及對(duì)用戶提示的不同看法。

Claude-3-Opus在給分時(shí)比較寬容,給出苛刻分?jǐn)?shù)的可能性要小得多——它特別猶豫是否要宣稱一個(gè)回答比另一個(gè)回答「好得多」。

相比之下,GPT-4-Turbo會(huì)識(shí)別模型響應(yīng)中的錯(cuò)誤,并以明顯較低的分?jǐn)?shù)懲罰模型。

另一方面,Claude-3-Opus有時(shí)會(huì)忽略較小的錯(cuò)誤。即使Claude-3-Opus確實(shí)發(fā)現(xiàn)了這些錯(cuò)誤,它也傾向于將它們視為小問題,并在評(píng)分過程中非常寬容。

即使是在編碼和數(shù)學(xué)問題中,小錯(cuò)誤實(shí)際上會(huì)完全破壞最終答案,但Claude-3-Opus仍然對(duì)這些錯(cuò)誤給予寬大處理,GPT-4-Turbo則不然。

圖片圖片

對(duì)于另外一小部分提示,Claude-3-Opus和GPT-4-Turbo以根本不同的角度進(jìn)行判斷。

例如,給定一個(gè)編碼問題,Claude-3-Opus傾向于不依賴外部庫的簡(jiǎn)單結(jié)構(gòu),這樣可以為用戶提供最大教育價(jià)值的響應(yīng)。

而GPT-4-Turbo可能會(huì)優(yōu)先考慮提供最實(shí)用答案的響應(yīng),而不管它對(duì)用戶的教育價(jià)值如何。

雖然這兩種解釋都是有效的判斷標(biāo)準(zhǔn),但GPT-4-Turbo的觀點(diǎn)可能與普通用戶更接近。

有關(guān)不同判斷的具體例子,參見下圖,其中許多都表現(xiàn)出這種現(xiàn)象。

圖片圖片

局限性測(cè)試

LLM喜歡更長(zhǎng)的回答嗎?

下面繪制了在MT-Bench和Arena-Hard-v0.1上,每個(gè)模型的平均token長(zhǎng)度和分?jǐn)?shù)。從視覺上看,分?jǐn)?shù)和長(zhǎng)度之間沒有很強(qiáng)的相關(guān)性。

圖片圖片

為了進(jìn)一步檢查潛在的冗長(zhǎng)偏差,研究人員使用GPT-3.5-Turbo對(duì)三種不同的系統(tǒng)提示(原始、健談、詳細(xì))進(jìn)行了消融。

結(jié)果表明,GPT-4-Turbo和Claude-3-Opus的判斷都可能受到更長(zhǎng)輸出的影響,而Claude受到的影響更大(因?yàn)镚PT-3.5-Turbo對(duì)GPT-4-0314的勝率超過40%)。

有趣的是,「健談」對(duì)兩位裁判的勝率影響不大,這表明輸出長(zhǎng)度不是唯一的因素,更詳細(xì)的答案也可能受到LLM評(píng)委的青睞。

圖片圖片

實(shí)驗(yàn)使用的提示:

detailed: You are a helpful assistant who thoroughly explains things with as much detail as possible.

chatty: You are a helpful assistant who is chatty.

GPT-4 判斷的方差

研究人員發(fā)現(xiàn),即使溫度=0,GPT-4-Turbo仍可能產(chǎn)生略有不同的判斷。

下面對(duì)gpt-3.5-turbo-0125的判斷重復(fù)三次并計(jì)算方差。

圖片圖片

由于預(yù)算有限,這里只對(duì)所有模型進(jìn)行一次評(píng)估。不過作者建議使用置信區(qū)間來確定模型分離。

參考資料:https://lmsys.org/blog/2024-04-19-arena-hard/

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2012-05-31 14:20:14

2024-02-19 00:29:15

2025-03-05 09:32:00

2025-02-28 08:40:00

2024-04-22 08:40:00

LLM模型開源

2013-09-12 11:17:02

2024-05-31 14:23:15

2024-10-29 14:25:00

模型訓(xùn)練

2014-10-31 15:43:02

華為智慧

2025-02-18 15:09:07

2022-04-12 18:35:03

元宇宙

2013-03-22 14:08:14

智能手表IT巨頭競(jìng)技場(chǎng)

2024-09-29 14:33:30

數(shù)據(jù)飛輪數(shù)據(jù)中臺(tái)數(shù)字化轉(zhuǎn)型

2024-04-23 07:00:00

2025-06-06 14:23:48

谷歌模型AI

2025-02-17 12:24:43

2025-07-03 14:57:51

DeepSeek模型AI

2024-08-08 13:03:46

2025-11-18 09:13:55

2025-04-08 08:50:00

AI模型測(cè)試
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

久久久久无码精品| 精品国产一区二区三区日日嗨| 免费一级特黄3大片视频| 91视频亚洲| 亚洲电影一区二区| 日本午夜精品一区二区| 国产视频在线免费观看| 亚洲深夜av| 久久久精品日本| 人人妻人人澡人人爽人人精品| 日韩成人在线电影| 欧美视频一区二区三区…| 99精品一区二区三区的区别| 亚洲欧美自偷自拍| 国产精品综合久久| 国产成人涩涩涩视频在线观看| 日本少妇高清视频| 日本a级不卡| 精品亚洲一区二区三区| 国产精品久久久久野外| 欧美成人福利| 黑人狂躁日本妞一区二区三区| 大片在线观看网站免费收看| 国产福利在线观看| 91丨九色丨蝌蚪丨老版| 岛国视频一区免费观看| 国产又粗又大又爽视频| 三级精品在线观看| 欧美在线视频导航| 国产精品不卡av| 欧美日韩影院| 久色乳综合思思在线视频| 日本欧美一区二区三区不卡视频| 日本亚洲不卡| 亚洲第一页自拍| 中文字幕无码毛片免费看| 四虎国产精品免费久久5151| 色噜噜夜夜夜综合网| 黑人糟蹋人妻hd中文字幕| 99在线视频影院| 国产精品久久久爽爽爽麻豆色哟哟| 青青草久久网络| 欧美日本网站| 99精品国产热久久91蜜凸| 国产精品二区二区三区| 国产精品久久久久久久久久久久久久久久 | 激情欧美日韩一区二区| 一本色道久久88综合亚洲精品ⅰ| 女同性恋一区二区| www国产一区| 激情亚洲综合在线| 亚洲欧洲日韩国产| 亚洲妇熟xx妇色黄蜜桃| 你懂的在线视频| 久久99国产精品免费网站| 国产精品久久久久久久久久久新郎 | 中文字幕在线视频第一页| 国产精品久久久久9999高清| 欧美日本免费一区二区三区| 日本熟妇人妻xxxxx| 欧美a级在线观看| 蜜臀av一区二区| 欧美最猛性xxxxx免费| 免费看日本毛片| 亚洲资源一区| 18视频免费网址在线观看| 国产+成+人+亚洲欧洲在线 | 欧美一区二区三区思思人| 国产日韩av网站| 97精品人妻一区二区三区| a篇片在线观看网站| 国产在线精彩视频| 成人高潮视频| 韩国一区二区三区| 免费97视频在线精品国自产拍| 欧美成人免费看| 伊人久久大香线蕉综合热线| 日产精品99久久久久久| 亚洲视频一区二区三区四区| 国产精品996| 久久99蜜桃综合影院免费观看| 美女做暖暖视频免费在线观看全部网址91 | 日本精品免费| 欧美日韩高清在线一区| 91亚洲永久免费精品| 久久久久久久国产视频| 雨宫琴音一区二区在线| 欧美在线播放视频| 亚洲特级黄色片| 国产成人精品1024| 欧美亚洲另类在线一区二区三区| 欧美日韩在线资源| 一区二区三区 在线观看视频| 男人日女人bb视频| **国产精品| 日韩激情在线视频| 91精品一区二区三区蜜桃| 香蕉久久夜色精品国产| 成人午夜在线视频一区| 日韩欧美电影在线观看| 亚洲色图丝袜美腿| 日本一本二本在线观看| 国产精品1区| 亚洲一级片在线看| 国产一级一片免费播放放a| 日本大胆欧美人术艺术动态| 精品国产一区二区三区久久| 亚洲美女屁股眼交3| 欧美亚洲高清| 欧美日韩亚洲丝袜制服| 黑森林av导航| 欧美xxxx中国| 日产精品久久久一区二区福利| jizz中国少妇| 国产精品美女久久久久久久网站| 欧美午夜小视频| 欧美日韩卡一| 亚洲女人天堂av| 久久久美女视频| 久久国产精品露脸对白| 欧美日本韩国一区二区三区| 黄色的视频在线观看| 欧美人妇做爰xxxⅹ性高电影| 免费看黄色aaaaaa 片| 国产精品多人| 97在线资源站| av免费在线免费观看| 欧美三区免费完整视频在线观看| 亚洲 欧美 日韩在线| 欧美日韩免费观看一区=区三区| 色综合色综合色综合| 大陆极品少妇内射aaaaa| 亚洲图色一区二区三区| 超碰日本道色综合久久综合| 中文字幕永久免费视频| 国产亚洲精品aa午夜观看| 农民人伦一区二区三区| 日韩精品一区二区三区中文在线| 色99之美女主播在线视频| 69视频免费在线观看| av欧美精品.com| 91午夜在线观看| 视频二区欧美毛片免费观看| 欧美成年人视频网站| 91丨九色丨丰满| 一色桃子久久精品亚洲| 91 视频免费观看| 亚洲乱码电影| 91在线视频导航| www免费在线观看| 欧美一卡二卡在线| 欧美精品色哟哟| 国产成人av电影在线观看| 在线观看一区二区三区三州| 亚洲香蕉久久| 九九精品在线视频| 国产刺激高潮av| 精品国产乱码久久久久久天美| 国产熟女高潮一区二区三区| 亚洲视频大全| 日韩免费中文专区| 欧美成人家庭影院| 欧美成人免费网| 韩国中文字幕hd久久精品| 欧美日韩亚洲成人| 亚洲欧美色图视频| 男男成人高潮片免费网站| 在线精品日韩| aiss精品大尺度系列| 97在线精品国自产拍中文| 日本中文字幕电影在线观看 | 国产成人aaa| 欧美不卡在线播放| 欧美午夜精彩| av一本久道久久波多野结衣| 蜜桃视频在线观看播放| 中文字幕欧美精品日韩中文字幕| 亚洲天堂中文网| 亚洲午夜电影在线| av网站免费在线看| 狠狠色丁香久久婷婷综合丁香| av日韩在线看| 欧美日韩黑人| 国产精品乱码一区二区三区| 韩日精品一区二区| 久久艳片www.17c.com| 蜜臀久久99精品久久久| 欧美性受极品xxxx喷水| 欧美色图一区二区| 久久精品一区二区三区不卡牛牛| 国产一区二区在线观看免费视频| 在线成人h网| 亚洲午夜精品福利| 国产精品白浆| 成人福利在线观看| 麻豆mv在线观看| 久久午夜a级毛片| 色视频免费在线观看| 欧美精品777| 精品久久久久久久久久久久久久久久| 亚洲免费观看高清完整版在线观看| 久久精品综合视频| 韩日欧美一区二区三区| 日韩欧美xxxx| 亚洲精品日韩久久| 99热都是精品| 成人系列视频| 精品综合久久| 91麻豆精品激情在线观看最新| 国产精品成人一区二区| jizzjizz中国精品麻豆| 久久九九亚洲综合| 国产大学生校花援交在线播放| 精品国产123| 国产欧美久久久| 欧洲一区二区av| 特级毛片www| 亚洲国产精品综合小说图片区| 亚洲AV成人无码网站天堂久久| 91丨porny丨蝌蚪视频| 国产a级片视频| 国产精品综合视频| 91av视频免费观看| 喷水一区二区三区| 免费激情视频在线观看| 国产九九精品| 91国视频在线| 亚洲神马久久| 内射国产内射夫妻免费频道| 韩日视频一区| 国产 欧美 日韩 一区| 亚洲一区二区日韩| 裸体裸乳免费看| 亚洲一级淫片| 青青草综合在线| 欧美淫片网站| 久久久久久久免费视频| 外国成人免费视频| 桥本有菜av在线| 中文字幕日韩一区二区不卡 | 日韩欧美国产一二三区| 国产精品福利电影| 91麻豆精品国产综合久久久久久| 这里只有精品9| 5月丁香婷婷综合| 99热在线只有精品| 欧美一区二区三区视频免费播放| 97免费观看视频| 日韩美女视频在线| 亚洲欧美激情国产综合久久久| 精品电影一区二区三区| 香蕉久久一区二区三区| 日韩高清免费在线| 黄色小视频在线免费观看| 一本色道久久88综合日韩精品| h视频网站在线观看| www国产精品视频| 1区2区3区在线视频| 欧美激情在线观看| 91av久久| 国产精品成av人在线视午夜片 | 99一区二区三区| 成人在线超碰| 久久精品99久久| 红桃成人av在线播放| 亚洲一区二区在| 中文字幕一区二区三区乱码图片| 成年人看的毛片| 免费在线亚洲欧美| 亚洲色图 在线视频| 国产精品一区免费视频| 污污污www精品国产网站| 久久只精品国产| 久久嫩草捆绑紧缚| 亚洲va韩国va欧美va精品| 国产精品第5页| 欧美剧情片在线观看| 日本国产在线观看| 一区二区亚洲精品国产| 羞羞污视频在线观看| 91爱视频在线| 国产亚洲人成a在线v网站| 亚洲一区二区在线播放| 丝袜美腿一区二区三区动态图 | 国产精品hd| 国产成人a亚洲精v品无码| 久久精品999| 制服丝袜在线第一页| 国产女主播一区| 久久久久99精品成人片毛片| 在线亚洲高清视频| 亚洲国产999| 在线免费观看羞羞视频一区二区| av网站在线免费看推荐| 国产suv精品一区二区三区88区| 91精品一区| 蜜桃av久久久亚洲精品| 一区二区三区毛片免费| aa在线免费观看| 丁香六月久久综合狠狠色| 亚洲a∨无码无在线观看| 亚洲高清免费观看 | 97成人超碰| 精品蜜桃一区二区三区| 在线精品国产| 欧美三级理论片| 99精品一区二区| 波多野结衣亚洲色图| 欧美三级在线看| 青青青草原在线| 久久久久久午夜| 国产精品亚洲四区在线观看| 欧美色欧美亚洲另类七区| 在线播放精品| 日本wwwwwww| 亚洲精品老司机| 一区二区美女视频| 亚洲视频在线观看| 97人人在线视频| 豆国产97在线| 你懂的一区二区| 超碰在线资源站| 亚洲国产岛国毛片在线| 99精品在线播放| 日韩av中文字幕在线播放| 黄页网站在线| 成人资源av| 亚洲午夜精品一区二区国产| 欧美wwwwwww| 欧美激情一区二区三区全黄| 日本视频免费观看| 亚洲精品中文字幕av| 天堂中文在线播放| 精品国产乱码久久久久软件| 伊人久久综合| 国产又黄又粗又猛又爽的视频| 亚洲五月六月丁香激情| 丁香花免费高清完整在线播放 | 久久精品视频久久| 日韩欧美在线1卡| 在线欧美三级| 97人人干人人| 今天的高清视频免费播放成人| 国产无套精品一区二区三区| 亚洲蜜臀av乱码久久精品| 国产精品高潮呻吟AV无码| 欧美精品在线看| 永久免费精品视频| 国产精品成人久久电影| 91麻豆国产福利在线观看| caoporn国产| 在线亚洲午夜片av大片| 图片一区二区| 日本国产中文字幕| 91性感美女视频| 日本黄色一级视频| 色狠狠av一区二区三区香蕉蜜桃| 涩涩涩久久久成人精品| 女女同性女同一区二区三区按摩| 高清国产一区二区| 美日韩一二三区| 伊人久久免费视频| 国产成年精品| 三上悠亚久久精品| 久久久无码精品亚洲日韩按摩| 天天干天天插天天射| 久久天天躁狠狠躁老女人| 911精品国产| 欧美牲交a欧美牲交aⅴ免费真 | 亚洲自拍的二区三区| 国产精品一区二区视频| 日韩人妻无码一区二区三区99 | 日本亚洲免费观看| 日本黄色录像视频| 精品免费一区二区三区| www.成人爱| 国产成人三级视频| wwwwww.欧美系列| 国产一区二区三区视频免费观看| 欧美日韩成人网| 国产亚洲一区二区三区不卡| 国产永久免费网站| 日韩欧美中文免费| 日本在线观看网站| 久久久久久a亚洲欧洲aⅴ| 毛片不卡一区二区| 亚洲国产精一区二区三区性色| 亚洲香蕉成人av网站在线观看 | 激情五月激情综合网| 日本网站在线免费观看| 中文字幕欧美日韩va免费视频| 97青娱国产盛宴精品视频| 久久久国产欧美| 亚洲成在线观看| 暖暖日本在线观看| 老司机精品福利在线观看| 国产在线精品国自产拍免费| 日韩一级片中文字幕| 欧美国产日韩一区二区在线观看| 精品国产一区二区三区香蕉沈先生|