精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4o數(shù)學(xué)能力跑分直掉50%,上海AI Lab開始給大模型重新出題了

人工智能 新聞
為了真實(shí)檢驗(yàn)?zāi)P蛿?shù)學(xué)推理能力,上海人工智能實(shí)驗(yàn)室司南OpenCompass團(tuán)隊(duì)放大招了。

新模型在MATH上(以數(shù)學(xué)競(jìng)賽為主)動(dòng)輒跑分80%甚至90%以上,卻一用就廢。

這合理嗎??

為了真實(shí)檢驗(yàn)?zāi)P蛿?shù)學(xué)推理能力,上海人工智能實(shí)驗(yàn)室司南OpenCompass團(tuán)隊(duì)放大招了。

推出新的復(fù)雜數(shù)學(xué)評(píng)測(cè)集LiveMathBench,以全新性能指標(biāo)G-Pass@16??來連續(xù)評(píng)估模型的性能潛力和穩(wěn)定性。

圖片

好家伙!團(tuán)隊(duì)在模擬真實(shí)用戶使用采樣策略、重復(fù)多次評(píng)測(cè)大模型的數(shù)學(xué)推理能力時(shí)發(fā)現(xiàn):

大部分的模型平均會(huì)有五成以上的性能下降,即使是最強(qiáng)推理模型o1-mini也會(huì)下降3成6,更有模型直接下降九成。

圖片

具體咋回事兒下面接著看。

全新評(píng)價(jià)指標(biāo): G-Pass@k

研究團(tuán)隊(duì)重新思考了大模型評(píng)測(cè)常用的技術(shù)指標(biāo),如傳統(tǒng)經(jīng)常采用的Pass@k, Best-of-N, Majority Voting,這些指標(biāo)主要關(guān)注模型的性能潛力,缺少對(duì)模型的魯棒性的評(píng)測(cè)。

而真實(shí)場(chǎng)景中,為了提高回復(fù)的多樣性,模型往往使用采樣解碼的方式進(jìn)行推理,這也會(huì)帶來大量的隨機(jī)性。在復(fù)雜推理任務(wù)中,這種隨機(jī)性會(huì)嚴(yán)重影響模型的性能,而用戶更預(yù)期在真實(shí)問題中,模型能又穩(wěn)又好。

Pass@k指標(biāo)回顧

經(jīng)典的Pass@k指標(biāo)關(guān)注模型在多次生成中至少給出一次正確答案的概率。假設(shè)模型生成次數(shù)為??,正確答案數(shù)為??,c表示其中正確解的數(shù)量,那么Pass@k的計(jì)算方式如下:

圖片

兼顧性能潛力與穩(wěn)定性的評(píng)測(cè)指標(biāo)G-Pass@K

Pass@k體現(xiàn)了模型的性能潛力,卻不能體現(xiàn)模型的穩(wěn)定性,基于這一目的團(tuán)隊(duì)將Pass@k推廣為Generalized Pass@k(以下簡(jiǎn)稱G-Pass@k??)。

通過引入閾值??,該工作關(guān)注模型在??次生成中至少給出 ? ?? · ?? ?次正確答案的概率。

一般來說,認(rèn)為模型的每次生成是i.i.d.(Independent and Identically Distributed)的,那么模型給出的正確答案數(shù)服從二項(xiàng)分布,這可以通過超幾何分布逼近二項(xiàng)分布。基于此,可以得出G-Pass@k??的定義:

圖片

在??較小時(shí),G-Pass@k??衡量模型的性能潛力;??較大時(shí),G-Pass@k??衡量模型的穩(wěn)定性,或者說模型對(duì)于問題的掌握程度,因此研究者可以通過G-Pass@k??連續(xù)地觀察模型的性能潛力與穩(wěn)定性。

進(jìn)?步地,研究團(tuán)隊(duì)還定義了mG-Pass@k用于對(duì)模型的性能進(jìn)行整體觀測(cè)。

具體來說,mG-Pass@k是 ??—G-Pass@k??曲線下的面積,為了更好地模擬真實(shí)場(chǎng)景,團(tuán)隊(duì)重點(diǎn)考慮???[0.5,0.1 ]的情況,即:

圖片

G-Pass@K是Pass@K是泛化形式

當(dāng)? ?? · ?? ?=1時(shí),Pass@K是G-Pass@k??等價(jià),這意味著Pass@K是G-Pass@k??的特例,讀者可以參考論文附錄提供的證明。

研究團(tuán)隊(duì)給出了兩者關(guān)系的對(duì)比分析,如下圖所示:

圖片

圖中展示了不同的??和c下Pass@K和G-Pass@k??的值,可以看出在??較小時(shí),兩者反映的是模型的潛力,然而這種分?jǐn)?shù)可能是偏高的,在24/80的整體通過率下,Pass@K指標(biāo)的值可以接近80%。

但當(dāng)關(guān)注較高的??時(shí),更能夠觀察到模型在實(shí)際生成時(shí)的真實(shí)性能。

LiveMathBench:避免數(shù)據(jù)污染的復(fù)雜數(shù)學(xué)評(píng)測(cè)集

研究團(tuán)隊(duì)構(gòu)建了一個(gè)新的benchmark LiveMathBench用于驗(yàn)證實(shí)驗(yàn)。

具體來說,他們收集了最近發(fā)布的中國(guó)數(shù)學(xué)奧林匹克,中國(guó)高考最新模擬題,美國(guó)數(shù)學(xué)競(jìng)賽和美國(guó)普特南數(shù)學(xué)競(jìng)賽中最新的題目,盡量減少數(shù)據(jù)污染的可能性。

整個(gè)LiveMathBench(202412版本)包括238道題目,每個(gè)題目提供中文/英文兩個(gè)版本的題目,覆蓋不同的難度。研究團(tuán)隊(duì)計(jì)劃后續(xù)持續(xù)更新LiveMathBench中的題目,來持續(xù)觀測(cè)LLM的真實(shí)數(shù)學(xué)水平。

另外,研究團(tuán)隊(duì)還在兩個(gè)公開Benchmark MATH500和AIME2024上進(jìn)行了實(shí)驗(yàn)。

對(duì)于MAH500,研究團(tuán)隊(duì)選擇了難度為L(zhǎng)5的題目,命名為MATH500-L5;對(duì)于AIME2024,研究團(tuán)隊(duì)使用了Part1和Part2兩個(gè)部分全部45道題目,命名為AIME2024-45。

實(shí)驗(yàn)

在實(shí)驗(yàn)設(shè)置方面,對(duì)于每道題目,進(jìn)行了16*3=48次生成并報(bào)告G-Pass@16??分?jǐn)?shù)。研究團(tuán)隊(duì)在通用模型、數(shù)學(xué)模型和類o1模型三種不同類型的大模型中選擇了具有代表性的大模型進(jìn)行實(shí)驗(yàn)。

LiveMathBench性能對(duì)比如下:

圖片

根據(jù)實(shí)驗(yàn)結(jié)果,可以看到:

  • 大部分閉源模型和開源模型在G-Pass@161.0指標(biāo)上也都不超過30分。
  • 最強(qiáng)的o1-mini模型在G-Pass@161.0獲得了最高分42分,相對(duì)性能下降比例也是所有模型中最低的(36.9%),雖體現(xiàn)出相對(duì)較高的穩(wěn)定性,但仍然難以忽視。

Math-500-L5/AIME2024-45性能對(duì)比如下。

圖片

對(duì)于開源數(shù)據(jù)集:

  • 在常用的高中競(jìng)賽級(jí)別題目MATH500-L5上,多數(shù)模型不管是貪婪解碼的表現(xiàn)還是穩(wěn)定性G-Pass@161.0的表現(xiàn)都相比LiveMathBench都有所提升,而AIME2024則相反,大多數(shù)模型的G-Pass@161.0分?jǐn)?shù)都只有個(gè)位數(shù),甚至部分模型接近0分;
  • 對(duì)于難度頗高的AIME2024,雖然o1-min和QwQ-32B-Preview在貪婪解碼下表現(xiàn)突出,但面對(duì)高難度題目下的穩(wěn)定性還是難以保證,如QwQ-32B-Preview甚至跌到了不到原來的1/5,而其在MATH500-L5中卻比較穩(wěn)定,達(dá)到了原分?jǐn)?shù)的3/5,這也說明了最新的高難度數(shù)學(xué)題目對(duì)模型的穩(wěn)定性帶來了更大的壓力。

最后,模型在不同難度題目上的能力分析如下 

下表展示了關(guān)鍵模型在LiveMathBench兩個(gè)子集上的性能表現(xiàn)。

其中CCEE代表中國(guó)高考題目,主要涉及到基礎(chǔ)的高中數(shù)據(jù)知識(shí);而WLPMC代表來自普特南(Putnam)競(jìng)賽的題目,普特南競(jìng)賽是久負(fù)盛名的美國(guó)大學(xué)生數(shù)學(xué)競(jìng)賽,其題目難度要高于高考題目。

圖片

由實(shí)驗(yàn)結(jié)果可以看出,先進(jìn)的推理模型,例如DeepSeek-V2.5, Qwen2.5-72B-Instruct, QwQ等在Pass@16指標(biāo)下在兩個(gè)子集上都有較好的性能,但大部分模型在WLPMC上的穩(wěn)定性下降更為嚴(yán)重。

因此可以有如下猜想,推理模型容易學(xué)習(xí)到訓(xùn)練數(shù)據(jù)中的平凡解,導(dǎo)致Pass@k等指標(biāo)的上升,然而在困難的問題上,這種提升并不與模型真實(shí)推理性能提升相關(guān)。在強(qiáng)基座模型的訓(xùn)練中,更應(yīng)該關(guān)注推理穩(wěn)定性的表現(xiàn),以提升其真實(shí)推理能力。

重要觀測(cè)

觀察一:閉源和開源模型均不能穩(wěn)定地進(jìn)行復(fù)雜推理

研究人員對(duì)當(dāng)前主流的約20個(gè)模型進(jìn)行了測(cè)試,發(fā)現(xiàn)盡管多數(shù)模型在貪婪解碼的準(zhǔn)確率Greedy Accuracy和Pass@16上表現(xiàn)相對(duì)較好,但當(dāng)使用G-Pass@K指標(biāo)進(jìn)?評(píng)估時(shí),性能卻顯著下降。

當(dāng)??設(shè)置為1.0時(shí),即要求模型在所有16次采樣中都提供正確答案, 幾乎所有模型的表現(xiàn)都急劇下降。

例如,在對(duì)LiveMathBench的測(cè)評(píng)中,Llama-3.1-8B-Instruct模型的準(zhǔn)確率從18.1%下降到0.8%(G-Pass@16??=1.0),降幅高達(dá)95.7%。即使是較大的模型,如NuminaMath-72B-CoT,其準(zhǔn)確率也從34.45%下降到3.7%,減少了89.3%。

在大約20個(gè)測(cè)試模型中,平均性能下降了60%。即便是表現(xiàn)最為穩(wěn)定的OpenAI o1-mini,其準(zhǔn)確率也從66.5%下降到42.0%,降幅為36.9%。

即使將??放寬到0.5,即只要求一半的樣本正確即可通過,通用模型、數(shù)學(xué)推理模型和o1-like模型仍分別經(jīng)歷了14.0%、22.5%和4.8%的平均性能下降。

這表明,在復(fù)雜條件下,多數(shù)模型難以在多次采樣中保持一致的推理能力。

不過目前的評(píng)估指標(biāo)通常依賴單次貪婪解碼,可能無法充分反映這些模型在實(shí)際應(yīng)用中的魯棒性和穩(wěn)定性。

因此,研究團(tuán)隊(duì)指出,需要對(duì)模型的推理能力進(jìn)行更嚴(yán)格的評(píng)估,尤其是在那些需要在多次采樣中保持一致性和可靠性的重要應(yīng)用中。

觀察二:增大模型規(guī)模對(duì)推理能力的提升有限

研究人員觀察到,以同系列模型Qwen2.5-32B-Instruct與Qwen2.5-72B-Instruct為例,雖然它們的模型規(guī)模相差一倍以上,但無論指標(biāo)采用G-Pass@K還是Greedy Accuracy,無論評(píng)測(cè)數(shù)據(jù)集是最新的LiveMathBench還是現(xiàn)有開源數(shù)據(jù)集,兩者的表現(xiàn)均相似

另外,在更大體量的模型Mistral-Large-Instruct-2411(123B)上,盡管模型規(guī)模繼續(xù)增大,但其性能和穩(wěn)定性相比 Qwen2.5-72B-Instruct 卻出現(xiàn)下滑。

這表明,對(duì)于需要深度理解和邏輯推理的任務(wù),簡(jiǎn)單增大參數(shù)并不能顯著提升性能或穩(wěn)定性。

這可能是因?yàn)檫@些任務(wù)不僅需要模型具備記憶和模式識(shí)別能力,更需要強(qiáng)大的推理和上下文理解能力。

觀察三:模型的性能潛力和實(shí)際表現(xiàn)之間的巨大差距

研究團(tuán)隊(duì)在評(píng)估模型性能時(shí)發(fā)現(xiàn),理論最大能力G-Pass@16??→0、實(shí)際表現(xiàn)能力Greedy Accuracy和多次采樣下的穩(wěn)定能力G-Pass@16??=1.0之間存在顯著差距

盡管模型在理論上具備相當(dāng)高的潛在性能,但在實(shí)際應(yīng)用中未能充分展現(xiàn)這一水平,尤其是在輸出穩(wěn)定性方面。一些模型在單次貪婪解碼中表現(xiàn)出高準(zhǔn)確率,顯示出處理特定任務(wù)的潛力,但在保持一致高準(zhǔn)確率方面卻不穩(wěn)定,遠(yuǎn)未達(dá)到最佳性能。

這反映了現(xiàn)有模型在推理穩(wěn)定性和一致性上的不足,這在訓(xùn)練和評(píng)估中常被忽略

模型在單次推理表現(xiàn)中易受輸入數(shù)據(jù)變化、初始化狀態(tài)或隨機(jī)采樣的影響,導(dǎo)致不同采樣解碼的結(jié)果不一致。

研究人員指出,在高可靠性和一致性要求的實(shí)際應(yīng)用中,如何在保持接近最佳性能的同時(shí)確保輸出的穩(wěn)定性,是一個(gè)亟待解決的問題。

總結(jié)

本研究深入分析了當(dāng)前大型模型的數(shù)學(xué)推理能力,提出了全新的性能指標(biāo)G-Pass@16?? ,用于連續(xù)評(píng)估模型的性能潛力和穩(wěn)定性。

此外,還設(shè)計(jì)了避免數(shù)據(jù)污染的LiveMathBench數(shù)據(jù)集。

實(shí)驗(yàn)結(jié)果顯示,目前的大型模型在推理性能方面未達(dá)到預(yù)期,尤其在多次重復(fù)采樣時(shí),性能出現(xiàn)顯著下降。研究團(tuán)隊(duì)期望學(xué)術(shù)界和工業(yè)界能夠在推理能力的魯棒性研究上持續(xù)探索與推進(jìn)。

論文鏈接:https://arxiv.org/abs/2412.13147
項(xiàng)目地址:https://github.com/open-compass/GPassK

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-06-05 13:09:26

2024-11-28 15:51:19

GPT-4o微軟

2025-08-07 14:05:40

OpenAI大模型開源

2025-04-01 09:25:00

2025-02-18 12:30:00

2024-05-14 11:29:15

2025-05-26 09:05:00

2024-08-09 12:50:02

2025-04-15 09:19:00

模型AI數(shù)據(jù)

2024-05-30 12:50:05

2024-09-06 13:31:31

2024-06-17 18:04:38

2024-08-14 09:13:28

2024-09-06 13:00:29

2025-04-07 02:33:00

GPT-4.5GPT-4oAI

2024-05-21 12:23:17

2024-12-30 15:15:07

2024-12-18 13:24:30

谷歌AI大語(yǔ)言模型

2025-05-14 09:15:00

2024-06-05 08:29:35

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

日韩av片免费观看| 成年人黄色在线观看| 91视频免费网址| jizzjizz欧美69巨大| 精品视频色一区| 国产专区在线视频| 日韩精品一二| 国产精品自产自拍| 日韩免费黄色av| 永久免费看黄网站| 国产精品一区二区av交换| 91精品国产色综合久久不卡电影 | 天天躁日日躁狠狠躁av麻豆男男| 国产精品蜜臀| 中文欧美字幕免费| 国产精品免费视频一区二区| 天堂免费在线视频| 亚洲精品乱码| www.久久撸.com| 欧美精品黑人猛交高潮| 外国成人毛片| 日韩欧美国产激情| av无码久久久久久不卡网站| 成人精品一区二区三区校园激情| 成人午夜视频免费看| 国产精品入口夜色视频大尺度| 久久99久久久| 色综合天天爱| 亚洲欧美国产一区二区三区| 制服.丝袜.亚洲.中文.综合懂| 78精品国产综合久久香蕉| 偷拍日韩校园综合在线| 日本一本草久p| 国产在线视频福利| 91在线一区二区| 不卡视频一区| 精品国产18久久久久久| 视频一区中文字幕国产| 欧美在线观看网站| 国产网址在线观看| 韩国久久久久| 欧美劲爆第一页| 色欲人妻综合网| 日韩激情免费| 日韩性生活视频| 国产真人真事毛片视频| 国产伦精品一区二区三区千人斩 | 欧美 亚欧 日韩视频在线 | 亚洲一二三四视频| 窝窝社区一区二区| 亚洲韩国日本中文字幕| 91精品人妻一区二区三区蜜桃2| 久久亚洲资源中文字| 欧美伊人久久大香线蕉综合69| 欧美视频在线观看网站| av影院在线| 精品国产91久久久久久老师| 欧美日韩福利在线| 91福利在线尤物| 亚洲国产精品久久人人爱| 9色porny| 麻豆蜜桃在线观看| 日韩欧美成人免费视频| 久久精品香蕉视频| 99欧美精品| 欧美精品xxxxbbbb| 精品国产午夜福利在线观看| 国产专区精品| 精品国产第一区二区三区观看体验 | 免费在线成人网| 国产精品吹潮在线观看| 91青青草视频| 另类专区欧美蜜桃臀第一页| 国产美女高潮久久白浆| 一级黄色免费看| 国产精品一区二区三区99 | 爽爽窝窝午夜精品一区二区| 日韩精品欧美国产精品忘忧草 | 悠悠色在线精品| 成年人看的毛片| 桃色一区二区| 777精品伊人久久久久大香线蕉| 在线视频日韩欧美| 国产亚洲精品美女久久| 亚洲欧美在线一区二区| 国产精品suv一区二区88| 伊人情人综合网| 97精品伊人久久久大香线蕉| 91视频久久久| 国产精品一区二区无线| 免费在线观看91| 欧美18hd| 欧美日韩国产中文字幕 | 高清在线成人网| 欧美日本国产精品| 国产在线观看免费麻豆| 婷婷综合另类小说色区| 黄色手机在线视频| 开心激情综合| 深夜成人在线观看| 日韩 欧美 中文| 精品伊人久久久久7777人| av在线亚洲男人的天堂| 黄色软件在线| 亚洲国产精品人人做人人爽| 自拍偷拍21p| 激情小说亚洲色图| 久久精品国产精品亚洲| 欧美亚洲精品天堂| 国产麻豆午夜三级精品| 欧美一区二区视频17c| 在线观看免费视频你懂的| 色婷婷亚洲综合| 色哟哟网站在线观看| 成人久久电影| 欧美亚洲国产成人精品| aaa一区二区三区| 国产欧美精品在线观看| 成人一区二区免费视频| 国产免费区一区二区三视频免费| 亚洲男女自偷自拍图片另类| 久草网在线观看| 极品销魂美女一区二区三区| 欧美日韩国产高清视频| av在线不卡免费| 欧美一级艳片视频免费观看| 国产精品1区2区3区4区| 久久久久久黄| 久久久久网址| segui88久久综合9999| 日韩一区二区免费电影| 成人免费视频入口| 人妖欧美一区二区| 欧美一区二区在线| 涩涩视频在线| 亚洲精品成a人在线观看| 久久国产露脸精品国产| 精品在线亚洲视频| 一区二区三区四区视频在线观看| 日韩欧美精品电影| 亚洲一级黄色av| 超碰在线观看91| 久久色.com| 777米奇影视第四色| 久久精品国产亚洲5555| 久久久女女女女999久久| 精品欧美一区二区精品少妇| 亚洲精品高清视频在线观看| 久久久精品视频国产| 亚洲第一天堂| 91亚洲人电影| 精精国产xxxx视频在线中文版| 91精品国产91综合久久蜜臀| www日韩在线| 国产中文一区二区三区| 激情视频小说图片| 91蝌蚪精品视频| 欧美激情手机在线视频| 亚洲精品无遮挡| 五月天一区二区| 中文字幕一二三四区| 日日夜夜免费精品视频| 婷婷精品国产一区二区三区日韩| 精品国模一区二区三区| 色综合影院在线| 国产丰满果冻videossex| 一区二区三区中文字幕在线观看| 少妇丰满尤物大尺度写真| 亚洲一级黄色| 久久综合一区二区三区| 成人av免费电影网站| 国产亚洲成av人片在线观看桃| 少妇又紧又色又爽又刺激视频 | 日韩av在线影院| 成人午夜视频在线播放| 中文字幕欧美三区| 久久久久无码精品| 亚洲一级在线| 一区二区不卡在线| 2020国产精品极品色在线观看| 97精品久久久| 欧美成人视屏| 亚洲高清久久网| 波多野结衣一区二区三区在线 | 成人av资源在线观看| 欧美网站免费观看| 日韩理论电影大全| 成人自拍视频网站| 欧美aaa视频| 欧美国产视频一区二区| 你懂的好爽在线观看| 欧美丰满高潮xxxx喷水动漫| 久久视频免费在线观看| 国产欧美一区二区精品忘忧草| 男插女视频网站| 秋霞av亚洲一区二区三| 97中文字幕在线| 日韩欧美精品| 久久超碰亚洲| 国产日韩一区二区三免费高清| 91国产视频在线播放| 秋霞成人影院| 亚洲欧美中文日韩在线| 精品国精品国产自在久不卡| 色哟哟精品一区| 国产一级片视频| 国产精品美女久久久久久久| 国产十八熟妇av成人一区| 久久精品999| 欧美激情成人网| 欧美日韩天堂| 中日韩在线视频| 亚洲自拍电影| 国产91色在线|亚洲| 欧美在线一级| 国产精品96久久久久久| а√在线中文网新版地址在线| www.久久久久| 91高清在线| 亚洲欧美日韩中文在线| 免费av网站观看| 日韩一区二区三区av| 天天爱天天做天天爽| 亚洲成精国产精品女| 男女羞羞免费视频| 国产精品白丝在线| 国产综合精品在线| ww久久中文字幕| 玖玖爱在线精品视频| 国产成人在线免费观看| 国产美女18xxxx免费视频| 日韩精品一卡二卡三卡四卡无卡| 97超碰人人澡| 精品9999| 精品无码国产一区二区三区av| 欧美国产激情| 久久久久久久久久久综合| 亚洲一区二区三区无吗| 中文字幕一区二区三区四区五区| 精品久久美女| 日韩免费三级| 青青草成人影院| 亚洲高清在线播放| 大片网站久久| 亚洲欧洲精品在线观看| 91青青国产在线观看精品| 亚洲国产欧美不卡在线观看| 国产尤物久久久| 日韩av高清在线播放| 国产影视精品一区二区三区| 色视频一区二区三区| 成人综合久久| 国产精品h视频| 你懂的视频一区二区| 女同性恋一区二区| 欧美激情日韩| 免费看黄在线看| 国产情侣一区| 日韩欧美xxxx| 久久精品国产99久久6| 深爱五月综合网| 福利电影一区二区| av无码一区二区三区| www国产成人| 国产又黄又粗的视频| 国产精品嫩草影院av蜜臀| 欧美另类videoxo高潮| 亚洲精品国产a久久久久久| 中文在线观看免费网站| 狠狠色噜噜狠狠狠狠97| 最近中文字幕免费在线观看| 欧美性受xxxx黑人xyx| 国产精品自拍电影| 亚洲精品一区在线观看| 三级毛片在线免费看| 亚洲香蕉在线观看| 中文字幕中文字幕在线中高清免费版 | 夜夜爽av福利精品导航| 欧美污视频网站| 精品亚洲免费视频| 日韩精品人妻中文字幕有码| 国产欧美一区二区三区鸳鸯浴| 国产一二三四区| 精品日韩中文字幕| 亚洲天堂一二三| 精品少妇一区二区三区在线播放| 青青九九免费视频在线| 色偷偷av一区二区三区| 6699嫩草久久久精品影院| 日韩av免费看网站| 在线精品视频一区| 日韩久久在线| 一区在线视频观看| 天天干天天玩天天操| 不卡区在线中文字幕| 丁香激情五月少妇| 亚洲午夜影视影院在线观看| 国产主播第一页| 精品国产电影一区二区| 高清国产福利在线观看| 欧美激情视频在线免费观看 欧美视频免费一| 韩国美女久久| 成人永久免费| 偷拍欧美精品| 美女喷白浆视频| 成人h动漫精品一区二| 国产喷水在线观看| 欧美性开放视频| 亚洲h视频在线观看| 中日韩美女免费视频网站在线观看| 深夜国产在线播放| 国产精品亚洲自拍| 综合伊思人在钱三区| 中文字幕日韩精品无码内射| 日韩经典中文字幕一区| 四季av综合网站| 亚洲综合精品久久| 91成人在线免费| 亚洲日本欧美日韩高观看| 精精国产xxxx视频在线中文版| 91久久嫩草影院一区二区| 国产一区二区三区四区| 欧美日韩黄色一级片| 国产精品影音先锋| 美国黄色片视频| 欧美亚洲免费在线一区| 免费在线稳定资源站| 欧美日本中文字幕| www欧美在线观看| 亚洲一区二区三区乱码 | 日韩免费精品视频| 欧美黑人做爰爽爽爽| 欧美亚洲黄色片| 粉嫩aⅴ一区二区三区四区五区| 国精产品久拍自产在线网站| 欧洲精品中文字幕| 国产一区二区三区福利| 日本亚洲精品在线观看| 欧美中文一区| 男人操女人逼免费视频| 成人18精品视频| 国产精品suv一区二区| 精品国产污污免费网站入口| 欧美男男video| 粉嫩av一区二区三区免费观看| 亚洲综合自拍| 久久久精品人妻一区二区三区| **网站欧美大片在线观看| 一卡二卡三卡在线| 久久精品电影网站| 欧美一区一区| 青春草国产视频| 成人18视频在线播放| 国产无人区码熟妇毛片多| 亚洲精品国精品久久99热| 中文日产幕无线码一区二区| 欧美日韩另类丝袜其他| 日韩国产一区二| 国产精品麻豆免费版现看视频| 欧美日韩国产bt| www红色一片_亚洲成a人片在线观看_| 91免费欧美精品| 国产一区二区三区四区老人| 亚洲av成人精品一区二区三区| 天涯成人国产亚洲精品一区av| 青青草视频免费在线观看| 国产精品久久久一区| 国产韩日影视精品| www.四虎精品| 日韩欧美一区二区在线| 69av在线| 高清国产在线一区| 午夜在线播放视频欧美| 欧美 日韩 成人| 欧美一级在线视频| 碰碰在线视频| 一卡二卡3卡四卡高清精品视频| 韩国av一区二区三区在线观看| 国产一卡二卡在线播放| 亚洲欧美国产视频| 国内不卡的一区二区三区中文字幕| 丰满的少妇愉情hd高清果冻传媒| 2023国产精品视频| 91禁在线观看| 91精品国产高清| 99re6这里只有精品| 天堂www中文在线资源| 欧美亚洲国产一区在线观看网站| 成人免费看片| 欧美国产二区| 国产激情91久久精品导航| 91在线视频在线观看| 久久天天躁狠狠躁夜夜爽蜜月| 鲁大师精品99久久久| 尤物国产在线观看| 天天操天天综合网| 麻豆91在线| 欧美在线视频一区二区三区| 国产老妇另类xxxxx| 性色av免费观看|