精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

3B模型性能小鋼炮,“AI下半場應(yīng)該訓(xùn)練+驗(yàn)證兩條腿跑步”丨上海AI Lab&澳門大學(xué)

人工智能 新聞
上海AI Lab和澳門大學(xué)聯(lián)合發(fā)布通用答案驗(yàn)證模型CompassVerifier與評測集VerifierBench。填補(bǔ)了Verifier領(lǐng)域沒有建立驗(yàn)證->提升->驗(yàn)證的循環(huán)迭代體系的空白。

當(dāng)大模型把人類曾經(jīng)的終極考題變成日常練習(xí),AI的奔跑卻悄悄瘸了腿——

訓(xùn)練能力突飛猛進(jìn),驗(yàn)證答案的本事卻成了拖后腿的短板。

為此,上海AI Lab和澳門大學(xué)聯(lián)合發(fā)布通用答案驗(yàn)證模型CompassVerifier與評測集VerifierBench。填補(bǔ)了Verifier領(lǐng)域沒有建立驗(yàn)證->提升->驗(yàn)證的循環(huán)迭代體系的空白。

圖片

讓AI在下半場中終于能邁開訓(xùn)練與驗(yàn)證的兩條腿往前沖。

AI的下半場應(yīng)該兩條腿跑步

隨著OpenAI o系列,DeepSeek R1以及馬斯克新發(fā)的Grok-4等模型慢慢讓“人類最后的考試”變成 “大模型的上一次考試”,RL在推理模型上的勝利貌似為AGI的道路添加了一塊厚厚的基石。

強(qiáng)推理模型在人類頂級水平競賽上大殺四方,屢次超過人類頂級專家的現(xiàn)在,我們不禁要思考,AI的上半場是不是已經(jīng)結(jié)束了,下半場的游戲又將如何開始。

圖片

△圖片來自O(shè)penai前研究員Jason Wei,高難度數(shù)據(jù)集正在迅速被模型們“吞噬殆盡”

最近,來自清華姚班的姚順雨提出了他對AI下半場的思考:

那么接下來會發(fā)生什么?人工智能的“下半場”——從現(xiàn)在開始——將從解決問題轉(zhuǎn)向定義問題。在這個新時代,評估變得比訓(xùn)練更重要。我們不再只是問“我們能訓(xùn)練一個模型來解決X問題嗎?”,而是問“我們應(yīng)該訓(xùn)練人工智能做什么?我們?nèi)绾魏饬空嬲倪M(jìn)展?”為了在“下半場”蓬勃發(fā)展,我們需要及時轉(zhuǎn)變思維方式和技能,或許更接近產(chǎn)品經(jīng)理的水平。

OpenAI的前研究員Jason Wei也在他最新的Blog中提出驗(yàn)證者定律,他發(fā)現(xiàn)幾乎任何可測量的事物都可以被優(yōu)化。

用強(qiáng)化學(xué)習(xí)(RL)的術(shù)語來說,驗(yàn)證解決方案的能力等同于創(chuàng)建強(qiáng)化學(xué)習(xí)環(huán)境的能力。因此,我們有:

訓(xùn)練AI解決某個任務(wù)的難易程度與該任務(wù)的可驗(yàn)證性成正比。所有可解決且易于驗(yàn)證的任務(wù),都將被AI解決

我們可以把AI開發(fā)想象成一場射擊比賽。

過去,我們癡迷于優(yōu)化射手(模型)的射擊技巧(訓(xùn)練算法)。但現(xiàn)在我們發(fā)現(xiàn),真正決定勝負(fù)的,首先是“定義靶心”(定義問題),其次是擁有一套清晰的計分規(guī)則(評估體系)。

從根本上說,這位射手的進(jìn)步速度,不可能超過他看清自己射擊結(jié)果的速度。同理,AI的進(jìn)化邊界,被“結(jié)果驗(yàn)證”的速度和客觀性牢牢鎖定了。

這解釋了為何AI在規(guī)則明確、結(jié)果清晰的游戲中能超越人類,但在需要復(fù)雜、主觀鑒賞的領(lǐng)域卻進(jìn)展緩慢。

圖片

△通過引入額外信息來解決模型驗(yàn)證中不確定性

那么如何讓驗(yàn)證更加容易,從而推進(jìn)模型能力在多領(lǐng)域問題上的訓(xùn)練與提升呢?

在大語言模型(LLM)飛速發(fā)展的今天,從數(shù)學(xué)推理到知識問答,模型的能力邊界不斷拓展,模型的訓(xùn)練數(shù)據(jù)與范式日益繁雜。

然而,如何客觀、高效地驗(yàn)證這些模型輸出的正確性,始終沒有獲得足夠且深入的探索。

如果說模型在奔向 AGI 的道路中,一條腿是訓(xùn)練,那另一條腿必然是驗(yàn)證,目前的訓(xùn)練范式下,大模型卻往往是在跛著腳前進(jìn)。

圖片

△驗(yàn)證與訓(xùn)練間的不平衡現(xiàn)象

為了幫助大模型快步跑進(jìn)AI下半場,來自上海AI Lab和澳門大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn),目前大模型驗(yàn)證領(lǐng)域缺乏合理的迭代體系,很長一段時間以來社區(qū)的目光過于集中在大模型的推理能力提升上,但卻忽視了大模型對答案正確性的驗(yàn)證能力也是大模型能力的一環(huán)。

具體的,首先是缺乏性能強(qiáng)的,具有跨領(lǐng)域答案驗(yàn)證能力的驗(yàn)證模型,其次模型的答案驗(yàn)證能力無法被有效評估。

驗(yàn)證->提升->驗(yàn)證的循環(huán)迭代體系還沒有在Verifier領(lǐng)域被建立。

為了填補(bǔ)這一空白,團(tuán)隊(duì)基于OpenCompass這一強(qiáng)大的開源評測體系,推出了通用答案驗(yàn)證模型 CompassVerifier以及答案驗(yàn)證評測集VerifierBench。

CompassVerifier:助力大語言模型訓(xùn)練測評“兩條腿跑步”

當(dāng)前LLM的答案驗(yàn)證方法深陷雙重困境:

第一,規(guī)則依賴的脆弱性:傳統(tǒng)方法依賴人工定制正則匹配規(guī)則,例如提取”The answer is”后的內(nèi)容進(jìn)行比對,或用專用工具校驗(yàn)數(shù)學(xué)公式。

但面對多步驟問題、復(fù)雜公式、序列答案等形式,這些規(guī)則稍遇格式變化就可能會失效。另外,基于規(guī)則的方式難以擴(kuò)展,如基于數(shù)學(xué)領(lǐng)域的規(guī)則驗(yàn)證器無法簡單遷移到化學(xué)領(lǐng)域,手動適配費(fèi)時費(fèi)力。

其次,通用模型的不可靠性:用GPT-4o、DeepSeek-V3等大模型作為驗(yàn)證器時,需要為不同任務(wù)反復(fù)調(diào)整提示詞,且模型容易陷入”幻覺”——例如將語義等價的不同公式判定為錯誤,或因推理鏈中的細(xì)微偏差否定正確答案。

另外,哪怕使用強(qiáng)推理模型用同樣的Prompt進(jìn)行驗(yàn)證,也會存在不同模型的偏好而導(dǎo)致判罰尺度不同而導(dǎo)致完全不同的驗(yàn)證結(jié)果(如近似答案是否正確,遺漏了非關(guān)鍵內(nèi)容,如數(shù)值單位是否正確)。

最后,大多數(shù)研究者只能使用小尺寸的開源模型進(jìn)行答案驗(yàn)證,這也在一定程度上限制了驗(yàn)證的性能。

圖片

△CompassVerifier&VerifierBench構(gòu)建pipeline

在初期對通用模型的驗(yàn)證能力調(diào)研中,以Qwen2.5-32B對MATH數(shù)據(jù)集的驗(yàn)證為例,研究人員發(fā)現(xiàn)總有大約 3%~5%的樣例模型會重復(fù)判斷錯誤,而這些疑難Case可能就是導(dǎo)致通用模型驗(yàn)證能力不穩(wěn)定的根本因素。

為了全面篩選出這些疑難Case,研究團(tuán)隊(duì)基于OpenCompass框架,從50多個大語言模型在15個數(shù)據(jù)集上的一百余萬份回復(fù)中,通過一個大規(guī)模、多階段的篩選流程精選數(shù)據(jù):

  • 流程初始階段采用多模型投票機(jī)制,利用多個中小型開源模型及特定領(lǐng)域的規(guī)則驗(yàn)證器進(jìn)行初步判斷。此階段的目標(biāo)是識別并排除各模型能達(dá)成共識的簡單樣本,從而聚焦于更具區(qū)分度的案例。
  • 隨后,存有爭議的樣本進(jìn)入多提示詞驗(yàn)證階段。該階段借助DeepSeek-V3模型,通過多樣化的思維鏈(CoT)推理路徑進(jìn)行深入分析,篩選出的共識樣本被納入訓(xùn)練數(shù)據(jù)池。針對特定數(shù)據(jù)集,還引入了領(lǐng)域優(yōu)化的提示詞以提升驗(yàn)證精度。
  • 最終,剩余的疑難樣本由人類專家進(jìn)行終審分析。專家將其中高價值的案例遴選至測試集,并嚴(yán)格排除了證明題、開放題等難以進(jìn)行二元判斷的問題,以保證評測的客觀性與準(zhǔn)確性。此外,標(biāo)注過程還對錯誤原因進(jìn)行了歸納,形成了元錯誤模板庫。

借助以上流程,研究人員訓(xùn)練收集得到了通用答案驗(yàn)證模型CompassVerifier以及答案驗(yàn)證評測集VerifierBench。

CompassVerifier是一個多域通用、高魯棒性的答案驗(yàn)證器,其核心設(shè)計理念是輕量而強(qiáng)大——它基于Qwen系列模型優(yōu)化,參數(shù)規(guī)模從3B到32B不等,卻能在數(shù)學(xué)、知識、科學(xué)推理等多領(lǐng)域?qū)崿F(xiàn)超越通用大模型的驗(yàn)證精度。

研究團(tuán)隊(duì)使用了三種方式進(jìn)行數(shù)據(jù)增強(qiáng)與數(shù)據(jù)合成,進(jìn)一步提升答案驗(yàn)證能力。

1、錯誤驅(qū)動的對抗性增強(qiáng):直擊驗(yàn)證盲區(qū)

研究團(tuán)隊(duì)通過人工分析5000余個驗(yàn)證失敗案例,總結(jié)出20余種高頻錯誤模式(如公式等價性誤判、格式嚴(yán)苛性偏差等),并據(jù)此針對性的合成多領(lǐng)域的訓(xùn)練數(shù)據(jù)。

例如,對于標(biāo)準(zhǔn)答案為”A. 北京”的選擇題,當(dāng)模型常將”A. 上海”判定為等價時,增強(qiáng)數(shù)據(jù)會刻意納入此類選項(xiàng)正確但內(nèi)容錯誤的樣例,糾正模型對于選擇題的答案驗(yàn)證。

2、復(fù)雜公式增強(qiáng):破解數(shù)學(xué)驗(yàn)證難題

針對公式驗(yàn)證這一難點(diǎn),CompassVerifier借助強(qiáng)推理模型對常見科學(xué)學(xué)科生成大量等價公式變體(如符號重排、精度轉(zhuǎn)換、整數(shù)與分?jǐn)?shù)互轉(zhuǎn)等),并進(jìn)一步通過自驗(yàn)證判斷公式的的數(shù)學(xué)等價性,最終構(gòu)建為增強(qiáng)訓(xùn)練數(shù)據(jù)。

這使得模型能輕松識別x2+2x+1(x+1)2的等價關(guān)系,即使表達(dá)方式截然不同。

3、泛化性增強(qiáng):跨域跨格式的“適應(yīng)力”

通過整合20余種任務(wù)類型的提示詞變體(如零樣本/少樣本提示、不同語言風(fēng)格指令),同時在訓(xùn)練數(shù)據(jù)中整合了不同的Prompt和推理路徑。

CompassVerifier可以實(shí)現(xiàn)直接答案驗(yàn)證和帶簡短推理過程的答案驗(yàn)證,擺脫了對特定提示格式的依賴,讓用戶可以了解到其打分的具體原因。

無論是中文問答、英文數(shù)學(xué)題,還是混合格式的多步驟問題,使用不同的提示詞輸入它都能保持穩(wěn)定的驗(yàn)證性能。

同時,研究團(tuán)隊(duì)也專門針對Large Reasoning Model (LRM)的模型回復(fù)進(jìn)行了增強(qiáng),對同一大模型回復(fù)通過截斷不同比例的思考過程、去除思考過程、替換思考標(biāo)簽等方式,使用同一驗(yàn)證輸出,迫使模型只關(guān)注最終的結(jié)論和答案部分,忽略思考過程的任何偏差和波動。

圖片

△CompassVerifier 針對性數(shù)據(jù)增強(qiáng)

VerifierBench:針對驗(yàn)證模型的多領(lǐng)域、高難度基準(zhǔn)

社區(qū)一直缺乏一個針對可驗(yàn)證答案、標(biāo)準(zhǔn)化、高難度的基準(zhǔn)來衡量不同驗(yàn)證方法的驗(yàn)證能力,無法衡量不同模型的性能。

這使得研究者在使用通用LLM模型進(jìn)行答案驗(yàn)證時,只能根據(jù)經(jīng)驗(yàn)或者是模型的尺寸來選擇模型。

為了系統(tǒng)評估驗(yàn)證器的能力,研究團(tuán)隊(duì)構(gòu)建了包含2817個經(jīng)由人類專家標(biāo)注的高質(zhì)量的 VerifierBench基準(zhǔn)。該數(shù)據(jù)集覆蓋三大特點(diǎn):

  • 多域覆蓋:包含數(shù)學(xué)推理(如GSM8K、AIME)、知識問答(如MMLU-Pro)、科學(xué)推理(如GPQA、HLE)等數(shù)據(jù)和場景;
  • 復(fù)雜答案類型:涵蓋選擇題、公式、多子問題、序列答案等7類形式,其中序列答案和多子問題等答案類型因需要逐元素比對,使其更高難度和更具挑戰(zhàn)性。
  • 無效樣本標(biāo)注:首次明確標(biāo)注”無效響應(yīng)”(如截斷輸出、重復(fù)文本、模型拒答),填補(bǔ)了答案驗(yàn)證中對異常情況評估的空白。

多領(lǐng)域、高精準(zhǔn)、魯棒的答案驗(yàn)證能力

在VerifierBench上,CompassVerifier-32B(Based Qwen2.5) 的平均準(zhǔn)確率達(dá)到90.8%,F(xiàn)1分?jǐn)?shù)87.7%,超過DeepSeek-V3和GPT-4等大尺寸模型。

即使是3B的輕量版本,也能超越大規(guī)模的通用模型,展現(xiàn)出極高的參數(shù)效率。

圖片

△VerifierBench 效果對比

在同期公開的VerifyBench基準(zhǔn)測試中,CompassVerifier同樣展現(xiàn)出全面領(lǐng)先的性能,其表現(xiàn)不僅超越了不同參數(shù)規(guī)模的通用大模型,也優(yōu)于其他專用答案驗(yàn)證模型,充分彰顯了該模型在領(lǐng)域外場景的強(qiáng)大泛化能力與穩(wěn)健性。

值得注意的是,即便面對未經(jīng)訓(xùn)練的全新指令,CompassVerifier仍能保持高性能水平,進(jìn)一步印證了其在復(fù)雜驗(yàn)證場景中的可靠性。

圖片

△VerifyBench 效果對比

從Evaluation到RLVR:驗(yàn)證器的“雙重身份”

CompassVerifier的價值遠(yuǎn)不止于評估環(huán)節(jié),它更能直接作為強(qiáng)化學(xué)習(xí)(RL)的獎勵模型,為大語言模型的迭代優(yōu)化提供精準(zhǔn)反饋。

在數(shù)學(xué)推理任務(wù)中,研究團(tuán)隊(duì)采用GRPO算法進(jìn)行訓(xùn)練時,以CompassVerifier作為獎勵模型,使Qwen3-4B-Base模型在AIME24數(shù)據(jù)集上的性能提升18.5 分。

在MATH500數(shù)據(jù)集上提升49.2分,其提升幅度遠(yuǎn)超基于規(guī)則的Math-Verify工具及通用大模型作為獎勵模型時的效果。

圖片

△采用不同 Verifier 模型 GRPO 效果對比

這一顯著優(yōu)勢源于CompassVerifier所能提供的獎勵信號具備更高的精準(zhǔn)度與魯棒性。

它不僅能直接判定答案的正誤,也可以精準(zhǔn)識別無效響應(yīng)(如截斷輸出、重復(fù)文本等)并施加更嚴(yán)厲的懲罰,有效避免模型在訓(xùn)練中通過 “走捷徑” 規(guī)避復(fù)雜推理。

可以說,CompassVerifier為數(shù)學(xué)、知識問答、科學(xué)推理等具有明確標(biāo)準(zhǔn)答案的多領(lǐng)域強(qiáng)化學(xué)習(xí)訓(xùn)練, 也提供了更為強(qiáng)大的技術(shù)支撐。

隨著AI下半場的開始,AI大模型的進(jìn)步方式可能慢慢會超出人類所理解的學(xué)習(xí)范式。

在不遠(yuǎn)的將來,模型可能完全根據(jù)自己的理解來進(jìn)行自我Verify而非借助人類給予的“Golden”標(biāo)簽,模型可能會完成高效且高質(zhì)量的Self-verify -> Self-improve -> Self-verify …

就像人類跑步時的左腳右腳一樣,以實(shí)現(xiàn)真正的AGI,完成AI自己的馬拉松。

論文地址:https://arxiv.org/abs/2508.03686

項(xiàng)目主頁:https://open-compass.github.io/CompassVerifier

Github:https://github.com/open-compass/CompassVerifier

Model & Dataset:https://huggingface.co/collections/opencompass/compassverifier-686e5a25e8672e603b17c666

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-10-28 15:40:01

AI模型訓(xùn)練

2025-07-29 09:05:00

2016-12-21 16:53:51

大數(shù)據(jù)互聯(lián)網(wǎng)阿里

2020-12-30 14:25:08

人工智能云異構(gòu)

2025-04-18 09:04:00

2025-05-21 09:14:38

2025-07-21 08:47:00

AI框架模型

2024-10-17 18:52:41

2024-03-27 09:09:57

模型AI開源

2009-06-19 15:25:13

ITSMNSM運(yùn)維管理

2018-04-25 09:37:41

AI

2018-11-22 09:07:45

NFV網(wǎng)絡(luò)功能虛擬化網(wǎng)絡(luò)

2019-03-21 10:57:58

技術(shù)開源數(shù)據(jù)

2024-06-17 18:04:38

2024-01-17 12:08:32

模型訓(xùn)練

2024-06-04 14:09:00

2025-07-10 09:03:27

2018-10-29 13:50:40

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

日韩精品水蜜桃| 人人鲁人人莫人人爱精品| 成人污污视频在线观看| 57pao成人国产永久免费| 国产精品av久久久久久无| www.久久久.com| 天天影视涩香欲综合网| 亚洲高清精品中出| 少妇人妻精品一区二区三区| 免费人成网站在线观看欧美高清| 久久99久久亚洲国产| 国产成人无码精品久久二区三| 欧美高清影院| 欧美天堂在线观看| 日本黄色播放器| 能在线看的av| 高清不卡在线观看av| 国产精品激情自拍| 日韩特黄一级片| 婷婷伊人综合| 亚洲色图欧美制服丝袜另类第一页| 被黑人猛躁10次高潮视频| 日本一道高清亚洲日美韩| 亚洲成人综合视频| 四虎精品欧美一区二区免费| 国产一区电影| 26uuu国产日韩综合| 高清视频一区二区三区| 国产草草影院ccyycom| 男女男精品视频网| 日韩69视频在线观看| 日韩久久精品视频| 黄色成人91| 美女扒开尿口让男人操亚洲视频网站| 成人在线手机视频| 免费一区二区| 亚洲精品自在久久| 精品人妻一区二区三区香蕉| 精品福利一区| 亚洲精品在线免费播放| 91在线第一页| 蜜桃在线一区| 欧美丰满美乳xxx高潮www| 久久99爱视频| 国精品产品一区| 欧美艳星brazzers| 日韩爱爱小视频| 免费污视频在线一区| 日本高清视频一区二区| 久久精品网站视频| 成人免费网站www网站高清| 狠狠色狠色综合曰曰| 国产最新免费视频| 美女网站在线看| 精品二区三区线观看| 一区二区传媒有限公司| 色老头在线一区二区三区| 福利一区视频在线观看| 亚洲乱码国产一区三区| 高清欧美日韩| 欧美高清dvd| 中文字幕一二三区| caoporn成人| 亚洲精品自产拍| 久久丫精品忘忧草西安产品| 欧美大人香蕉在线| 免费91在线视频| 国产在线欧美在线| 亚洲专区欧美专区| 国产九九精品视频| 亚洲AV无码乱码国产精品牛牛| 国产成人av福利| 久久精品国产一区二区三区不卡| 免费在线超碰| 国产精品第13页| 97av中文字幕| 美女在线视频免费| 欧美日韩国产综合草草| 色婷婷狠狠18禁久久| 网曝91综合精品门事件在线| 国产一区二区av| 男的操女的网站| 亚洲美女色禁图| 国产精品嫩草影院久久久| 国产免费高清av| 99re8在线精品视频免费播放| 日韩精品一区二区三区外面 | 欧美中日韩在线| 激情国产在线| 欧美日韩精品免费观看视频 | 中文字幕在线观看视频一区| 国产精品系列在线观看| 鲁鲁狠狠狠7777一区二区| 91精彩在线视频| 午夜精品成人在线视频| 福利片一区二区三区| 久久精品色综合| 日韩在线免费av| 你懂的国产在线| 国产在线精品免费| 青青成人在线| 国产乱妇乱子在线播视频播放网站| 色悠久久久久综合欧美99| 国产精品熟女一区二区不卡| 五月天久久久久久| 日本91福利区| 97国产超碰| 粉嫩一区二区三区国产精品| 一区二区三区四区精品在线视频| 粉嫩虎白女毛片人体| 伊人精品久久| 久久精品人人爽| 精品人妻无码一区二区性色| 国产成人精品1024| 亚洲欧洲日韩综合二区| 亚洲黄色网址| 亚洲国语精品自产拍在线观看| 麻豆一区在线观看| 久久国产日本精品| 狠狠久久综合婷婷不卡| www在线观看播放免费视频日本| 一本到不卡免费一区二区| 日本wwwwwww| 亚洲人metart人体| 国产有码一区二区| yourporn在线观看视频| 色综合激情五月| 熟妇高潮精品一区二区三区| 激情偷拍久久| 丁香婷婷久久久综合精品国产| 欧美高清视频| 欧美日韩大陆一区二区| 五月婷婷婷婷婷| 天堂久久久久va久久久久| 久久精品中文字幕一区二区三区 | 蜜桃成人av| 97色在线视频观看| 日韩在线一区二区三区四区| 亚洲综合丁香婷婷六月香| 国产黑丝在线视频| 欧美福利网址| 91网免费观看| 人人超在线公开视频| 欧美成人性福生活免费看| 69av视频在线| 国产成人精品免费| 给我免费播放片在线观看| 都市激情亚洲欧美| 国内免费久久久久久久久久久| 精品国产一级片| 亚洲在线成人精品| 日韩精品人妻中文字幕有码| 亚洲九九精品| 蜜桃成人在线| 91精品影视| 色噜噜狠狠狠综合曰曰曰88av | 三妻四妾完整版在线观看电视剧 | 国产一区在线观| 天堂av在线| 亚洲视频在线播放| 亚洲无码久久久久| 亚洲精品乱码久久久久久| 美女伦理水蜜桃4| 国产欧美日韩综合一区在线播放| 另类小说综合网| 日本午夜精品久久久久| 色综合久久悠悠| 午夜成人免费影院| 欧洲视频一区二区| 婷婷激情四射网| 不卡一卡二卡三乱码免费网站| 亚洲午夜无码av毛片久久| 精品一区av| 亚洲最大av网| 欧美极品videos大乳护士| 在线视频中文亚洲| 精品人妻一区二区三区含羞草 | 天堂网在线免费观看| 91成人影院| 久久精品国产综合精品| 日本中文字幕视频一区| 欧美激情精品在线| 川上优的av在线一区二区| 制服丝袜在线91| av大片在线免费观看| 国产精品乱人伦| 日本黄色动态图| 久久精品国产一区二区三区免费看| 日本美女爱爱视频| 亚洲黄页在线观看| 亚洲精品免费在线视频| 神马午夜在线视频| 久久久久www| 国模吧精品人体gogo| 日韩午夜小视频| 国产精品xxxxxx| 一区二区三区精品视频在线| 欧洲性xxxx| 99视频在线精品| 五月六月丁香婷婷| 日韩高清在线不卡| 免费拍拍拍网站| 国产高清一区| 日本一区视频在线播放| 99这里只有精品视频| 国产精品一区二区三区免费视频| 2020国产在线| 九九热这里只有精品免费看| 国产高清免费av在线| 亚洲黄色www| 99热这里是精品| 欧美三电影在线| 精品人妻无码一区二区性色| 亚洲v日本v欧美v久久精品| 国产人与禽zoz0性伦| 久久久久国产精品厨房| 女女调教被c哭捆绑喷水百合| 久久电影网站中文字幕 | 精品一区免费观看| 亚洲欧美综合另类在线卡通| 性猛交娇小69hd| 久久嫩草精品久久久精品| 亚洲熟女乱综合一区二区| 久久国产夜色精品鲁鲁99| 国产女女做受ⅹxx高潮| 亚洲精品日韩久久| 欧美中日韩在线| 欧美日韩精品免费观看视频完整| 一区精品在线| 日韩理论电影大全| 性欧美大战久久久久久久免费观看| 亚洲三级精品| 欧美日韩中文国产一区发布| 日本午夜精品| 久久偷看各类wc女厕嘘嘘偷窃 | 国产奶水涨喷在线播放| 亚洲一区二区欧美日韩| 国产一级黄色av| 亚洲一区中文日韩| 免费在线观看国产精品| 亚洲永久免费视频| 日本免费在线播放| 亚洲福利一二三区| 日本在线视频中文字幕| 亚洲成av人片在www色猫咪| 国产精品18p| 午夜精品久久一牛影视| 欧美不卡视频在线观看| 精品久久久久久中文字幕一区奶水| 日韩三级一区二区三区| 欧美性色xo影院| 在线免费观看国产精品| 91福利视频在线| 最新黄色网址在线观看| 欧美乱妇15p| 精品国产伦一区二区三区| 欧美成人a∨高清免费观看| 人妻少妇一区二区三区| 亚洲精品久久久久中文字幕欢迎你 | 成人免费高清在线观看| 99久久免费看精品国产一区 | 精品第一国产综合精品aⅴ| 蜜桃av鲁一鲁一鲁一鲁俄罗斯的 | 亚洲做受高潮无遮挡| 中文字幕免费不卡在线| www深夜成人a√在线| 一区二区免费视频| 午夜婷婷在线观看| 欧美日韩视频一区二区| 精品久久无码中文字幕| 亚洲精品www久久久久久广东| 精品乱码一区二区三四区视频 | 一二区成人影院电影网| 国产综合久久久久| 97超碰成人| 欧美激情国产日韩| 中文字幕日韩欧美精品高清在线| 999一区二区三区| 久久久久久久波多野高潮日日| 天天综合网久久| 不卡的av电影在线观看| 亚洲色图第四色| 一区二区三区欧美在线观看| 男人日女人网站| 911精品国产一区二区在线| 欧美综合视频在线| 少妇高潮 亚洲精品| heyzo一区| 国产精品稀缺呦系列在线 | 欧洲精品在线一区| 正在播放日韩欧美一页| 国产三区在线视频| 乱精品一区字幕二区| 精品极品在线| 国产精品爱啪在线线免费观看| av日韩久久| 久久一区免费| 中文在线播放一区二区| 黑鬼大战白妞高潮喷白浆| 国产精品影视在线| 一级片手机在线观看| 一区二区三区不卡视频| 黄色大全在线观看| 亚洲国产小视频| 性xxxxfjsxxxxx欧美| 国产精品免费久久久久影院| 欧美男男freegayvideosroom| 97超碰免费观看| 日本人妖一区二区| 香蕉网在线播放| 亚洲成人综合视频| 国产黄色片免费观看| 永久免费看mv网站入口亚洲| 国内精彩免费自拍视频在线观看网址| 成人性教育视频在线观看| 精品久久视频| 国产熟女高潮视频| va亚洲va日韩不卡在线观看| 欧美在线视频第一页| 欧美日韩一区二区三区高清| 毛片免费在线观看| 欧美一区二区三区精品电影| 97人人澡人人爽91综合色| 激情视频小说图片| 韩国毛片一区二区三区| 少妇高潮惨叫久久久久| 在线日韩av片| 国产三级在线免费观看| 日韩av电影手机在线| 性欧美lx╳lx╳| 国产亚洲欧美在线视频| 99久久99久久精品免费看蜜桃| 久一视频在线观看| 欧美大片一区二区| 韩国成人免费视频| 国产精品亚洲一区| 精品福利电影| 中文字幕在线播放一区| 午夜伊人狠狠久久| 视频二区在线观看| 午夜精品久久久久久久久久久久 | 欧美无砖砖区免费| 成人午夜电影在线观看| 国产精品丝袜白浆摸在线| 欧美少妇性xxxx| 亚洲精品www.| 亚洲三级在线观看| 午夜精品久久久久久久99热黄桃 | 26uuu精品一区二区| 久久久蜜桃一区二区| 在线精品91av| 国产美女精品视频免费播放软件| 久久精品在线免费视频| 国产suv精品一区二区883| 国产一级一片免费播放放a| 亚洲精品720p| xx欧美xxx| 亚洲人成人77777线观看| 狠狠网亚洲精品| 免费一级片视频| 日韩精品中文字幕在线播放| 成人片免费看| 在线观看成人av电影| 国产一区二区三区国产| 国产亚洲精品码| 亚洲片av在线| 四虎影视精品永久在线观看| 国产一线二线三线女| 91麻豆精东视频| 一级视频在线播放| 欧美肥臀大乳一区二区免费视频| 巨人精品**| 冲田杏梨av在线| 一区二区三区丝袜| 欧美日韩免费做爰大片| 91精品美女在线| 国产欧美大片| 欧美色视频一区二区三区在线观看| 精品日韩欧美在线| 欧美aa视频| 男女裸体影院高潮| 久久综合九色综合欧美98| 国产精品人人妻人人爽| 午夜精品一区二区三区在线视频| 日产午夜精品一线二线三线| 91精品国产高清91久久久久久| 91黄色免费版| 日本乱理伦在线| 日韩精品无码一区二区三区| 丰满白嫩尤物一区二区| 亚洲视屏在线观看| 久久久久久尹人网香蕉| 99re久久最新地址获取| 亚洲蜜桃精久久久久久久久久久久| 欧美日韩国产在线播放网站| 国产激情在线播放| 超碰10000| 亚洲国产精品ⅴa在线观看| 免费观看黄色一级视频| 成人黄色激情网|