精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Claude 3.5首戰(zhàn)復(fù)現(xiàn)21%頂會(huì)論文,人類博士無法取代!OpenAI:AI全是草臺(tái)班子

人工智能 新聞
AI若能自主復(fù)現(xiàn)頂尖科研論文,未來科研將被掀翻天。OpenAI最新框架PaperBench正為此生,讓AI智能體從頭開始復(fù)現(xiàn)ICML 2024 20篇優(yōu)秀論文,只有Claude 3.5 Sonnet拔得頭籌,但仍無法超越ML博士水平。

AI智能體,能否復(fù)現(xiàn)頂會(huì)中重磅的AI研究?

今天,OpenAI團(tuán)隊(duì)發(fā)布了全新框架PaperBench,便可評(píng)估AI智能體復(fù)現(xiàn)頂尖研究的基礎(chǔ)能力。

圖片

論文地址:https://openai.com/index/paperbench/

要求是,AI智能體需從0開始復(fù)現(xiàn)20篇ICML 2024 Spotlight和Oral論文,包括理解論文核心文獻(xiàn)、開發(fā)可運(yùn)行代碼庫,以及執(zhí)行實(shí)驗(yàn)并驗(yàn)證結(jié)果。

為了客觀評(píng)估AI成果,OpenAI聯(lián)手每篇ICML論文作者開發(fā)了「評(píng)估標(biāo)準(zhǔn)」,將每個(gè)復(fù)制任務(wù)層次化分解為具有明確評(píng)分標(biāo)準(zhǔn)的較小子任務(wù)。

總共,PaperBench包含8,316個(gè)可單獨(dú)評(píng)分的任務(wù)。

圖片

結(jié)果發(fā)現(xiàn),只有Claude 3.5 Sonnet(New)拿下了最高分21.0%,o1-high得分13.2%,DeepSeek-R1是6%,GPT-4o是4.1%。

遺憾的是,即便是最領(lǐng)先的LLM,仍無法超越機(jī)器學(xué)習(xí)博士。

圖片

目前,OpenAI將PaperBench的所有代碼開源。

圖片

GitHub地址:https://github.com/openai/preparedness

AI挑戰(zhàn)復(fù)現(xiàn)ICML 2024大作

PaperBench的目標(biāo),直指AI智能體的科研潛力。

若要完整復(fù)現(xiàn)ICML 2024 20篇優(yōu)秀的論文,意味著AI不僅需要理解論文核心思想,還得自主開發(fā)代碼庫、運(yùn)行實(shí)驗(yàn),甚至是排除故障。

要知道,這是一項(xiàng)連人類研究員需要好幾天,才能完成的高難度任務(wù)。

圖片

這項(xiàng)研究的主要貢獻(xiàn)包括:

  • PaperBench:一個(gè)包含20篇ML研究論文和經(jīng)作者批準(zhǔn)的評(píng)分標(biāo)準(zhǔn)的基準(zhǔn)測(cè)試,以及使用基于LLM評(píng)估的自動(dòng)評(píng)分工作流程。
  • PaperBench Code-Dev:基準(zhǔn)測(cè)試的一個(gè)更輕量級(jí)的變體,放寬了PaperBench的一些要求,使設(shè)置和評(píng)估對(duì)更廣泛的社區(qū)更易于使用。
  • JudgeEval:一個(gè)包含人類評(píng)分提交結(jié)果的數(shù)據(jù)集,可用作開發(fā)和評(píng)估自動(dòng)評(píng)估的輔助工具。
  • 在PaperBench上對(duì)SOTA模型的評(píng)估:對(duì)幾個(gè)前沿AI智能體執(zhí)行長(zhǎng)周期任務(wù)和機(jī)器學(xué)習(xí)研發(fā)能力的綜合評(píng)估。

更重要的是,PaperBench不僅是一個(gè)學(xué)術(shù)實(shí)驗(yàn),它還與其他AI安全框架緊密關(guān)聯(lián)。

它可用作OpenAI的準(zhǔn)備框架中的模型自主性度量、Anthropic負(fù)責(zé)任擴(kuò)展政策中的自主能力指標(biāo),以及Google DeepMind的前沿安全框架中的機(jī)器學(xué)習(xí)研發(fā)評(píng)估工具。

PaperBench:20篇論文,8316個(gè)任務(wù)

如上所述,PaperBench選取了來自ICML 2024中20篇 Spotlight和Oral論文,主要覆蓋了12個(gè)主題。

其中包括,深度強(qiáng)化學(xué)習(xí)、魯棒性和概率方法。

而且,每篇論文都配備了詳細(xì)的評(píng)分標(biāo)準(zhǔn),總計(jì)8,316個(gè)可單獨(dú)評(píng)估的評(píng)分項(xiàng)目。

這些標(biāo)準(zhǔn)均是由每篇論文原作者與OpenAI共同制定,確保評(píng)估過程中的準(zhǔn)確性和權(quán)威性。

評(píng)分標(biāo)準(zhǔn)采用層次結(jié)構(gòu),將復(fù)雜的復(fù)現(xiàn)目標(biāo)分解為細(xì)粒度子任務(wù)。

任務(wù)+復(fù)現(xiàn)

對(duì)于PaperBench中的每個(gè)樣本,AI智能體會(huì)收到論文和論文澄清說明的附錄。

候選智能體必須提交一個(gè)包含復(fù)現(xiàn)論文實(shí)證結(jié)果所需的所有代碼的代碼庫,而且代碼庫根目錄必須包含一個(gè)reproduce.sh文件,作為執(zhí)行所有必要代碼以復(fù)現(xiàn)論文結(jié)果的入口點(diǎn)。

當(dāng)提交的reproduce.sh能夠在全新環(huán)境中成功復(fù)現(xiàn)論文中報(bào)告的實(shí)證結(jié)果時(shí),AI智能體便成功完成復(fù)現(xiàn)任務(wù)。

樹級(jí)評(píng)分

在基準(zhǔn)測(cè)試中,每篇論文都配有一個(gè)評(píng)分標(biāo)準(zhǔn),明確規(guī)定了完整論文復(fù)制的評(píng)估要求。

評(píng)分標(biāo)準(zhǔn)被設(shè)置為一個(gè)要求層級(jí)結(jié)構(gòu),每個(gè)葉節(jié)點(diǎn)(leaf node)指定一個(gè)明確的通過/失敗標(biāo)準(zhǔn)(見圖2),且每個(gè)節(jié)點(diǎn)都根據(jù)其相對(duì)于同級(jí)節(jié)點(diǎn)的重要性被手動(dòng)賦予了權(quán)重。

對(duì)于一個(gè)葉節(jié)點(diǎn)標(biāo)準(zhǔn),評(píng)估者會(huì)判斷提交內(nèi)容是否滿足其要求,如果滿足則給予1分,否則給0分。

當(dāng)所有葉節(jié)點(diǎn)都被評(píng)分后,父節(jié)點(diǎn)(parent node)的分?jǐn)?shù)將等于其所有子節(jié)點(diǎn)分?jǐn)?shù)的加權(quán)平均值。

這一計(jì)分過程會(huì)一直向上傳遞到樹的根節(jié)點(diǎn)(root),根節(jié)點(diǎn)的分?jǐn)?shù)即被視為該提交的最終復(fù)制分?jǐn)?shù)(Replication Score)。

換句話說,每個(gè)提交的評(píng)分是基于所有滿足的評(píng)分標(biāo)準(zhǔn)要求的權(quán)重調(diào)整后的比例,其中100%表示完美復(fù)制,即滿足了所有葉節(jié)點(diǎn)的要求。

目前,論文中主要評(píng)估指標(biāo)是所有論文的平均復(fù)制分?jǐn)?shù)。

圖片

每個(gè)葉節(jié)點(diǎn)具有三種可能的需求類型之一,這決定了其評(píng)分方式。

  • 結(jié)果匹配(Result Match)葉節(jié)點(diǎn)評(píng)估已執(zhí)行的提交是否包含復(fù)制論文中特定結(jié)果的證據(jù)。
  • 執(zhí)行(Execution)葉節(jié)點(diǎn)評(píng)估運(yùn)行reproduce.sh腳本時(shí)是否產(chǎn)生了某些特定的執(zhí)行結(jié)果。
  • 代碼開發(fā)(Code Development)葉節(jié)點(diǎn)評(píng)估候選者的源代碼是否包含某些需求的正確實(shí)現(xiàn)。

可以上網(wǎng),但不能查看原作者代碼庫

PaperBench設(shè)計(jì)為與智能體支持框架(agent scaffolds)無關(guān),因此研究團(tuán)隊(duì)對(duì)智能體的運(yùn)行環(huán)境沒有特定要求。然而,基準(zhǔn)測(cè)試確實(shí)制定了一些規(guī)則來確保公平比較:

  • 智能體可以瀏覽互聯(lián)網(wǎng),但不得使用OpenAI提供的每篇論文黑名單中網(wǎng)站的資源。每篇論文的黑名單包括作者自己的代碼庫和任何其他在線復(fù)制實(shí)現(xiàn)。
  • 智能體可使用的資源,如運(yùn)行時(shí)間和計(jì)算能力,不受任何限制。
  • 開發(fā)者應(yīng)為智能體提供必要的在線服務(wù)API密鑰(例如,用于下載數(shù)據(jù)集的HuggingFace憑證)。

對(duì)于實(shí)驗(yàn),OpenAI還構(gòu)建了一個(gè)簡(jiǎn)單的后處理監(jiān)控工具,用于檢查智能體日志中是否出現(xiàn)黑名單URL,發(fā)現(xiàn)可疑情況后會(huì)提交給人工審核,以取消使用黑名單資源的任何提交資格。

LLM評(píng)判成本降至10美金,比專家更高效

面對(duì)如此復(fù)雜的任務(wù),人工評(píng)分顯然不現(xiàn)實(shí)。

一篇論文的復(fù)現(xiàn)嘗試,通常需要人類專家數(shù)十小時(shí)來評(píng)估。

為此,OpenAI團(tuán)隊(duì)開發(fā)了一個(gè)基于大模型自動(dòng)評(píng)判系統(tǒng),并推出了輔助工具JudgeEval,用來驗(yàn)證自動(dòng)評(píng)判者的表現(xiàn)。

對(duì)于給定的提交內(nèi)容,評(píng)判系統(tǒng)SimpleJudge會(huì)獨(dú)立地對(duì)評(píng)分標(biāo)準(zhǔn)中的每個(gè)葉節(jié)點(diǎn)進(jìn)行評(píng)分。

針對(duì)特定葉節(jié)點(diǎn),評(píng)判系統(tǒng)會(huì)接收論文的Markdown格式文本、完整的評(píng)分標(biāo)準(zhǔn)JSON文件、葉節(jié)點(diǎn)的具體要求和提交內(nèi)容作為提示詞。

如下圖5所示,對(duì)于PaperBench Code-Dev,每篇論文的成本降至約10美元,證明了比聘請(qǐng)專家進(jìn)行人工評(píng)分更加經(jīng)濟(jì)且高效。

圖片

Claude 3.5 Sonnet得分最高

實(shí)驗(yàn)中,研究人員對(duì)GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet(New)和Gemini 2.0 Flash在所有20篇論文上進(jìn)行了評(píng)估,每篇論文進(jìn)行了3次運(yùn)行。

而且,他們每個(gè)智能體設(shè)置了最長(zhǎng)12小時(shí)的運(yùn)行時(shí)限。

如下表4所示,展示了各模型的平均復(fù)現(xiàn)得分。

其中,Claude 3.5 Sonnet表現(xiàn)最出色,得分達(dá)到21.0%。OpenAI o1表現(xiàn)較弱,得分為13.2%,其他模型表現(xiàn)不佳,得分均低于10%。

圖片

為了更好地理解智能體性能,研究人員手動(dòng)檢查了幾個(gè)智能體的運(yùn)行日志。

他們發(fā)現(xiàn),除了Claude 3.5 Sonnet外,所有模型都經(jīng)常提前結(jié)束任務(wù),聲稱它們要么已完成整個(gè)復(fù)現(xiàn)工作,要么遇到了無法解決的問題。

所有智能體都未能制定有效策略,考慮如何在有限時(shí)間內(nèi)最優(yōu)地復(fù)現(xiàn)論文。我們還觀察到o3-mini在工具使用方面經(jīng)常遇到困難。

這些失敗模式表明當(dāng)前模型在執(zhí)行長(zhǎng)期規(guī)劃任務(wù)方面存在弱點(diǎn):盡管在制定和編寫多步驟計(jì)劃方面表現(xiàn)出充分的能力,但模型未能實(shí)際采取一系列行動(dòng)來執(zhí)行這些計(jì)劃。

迭代智能體

鑒于模型往往無法充分利用可用的全部時(shí)間,研究人員還測(cè)試了BasicAgent的一個(gè)變體。

這個(gè)變體通過移除智能體提前結(jié)束任務(wù)的能力,強(qiáng)制其在全部可用時(shí)間內(nèi)持續(xù)運(yùn)行,并使用經(jīng)過優(yōu)化的提示詞來鼓勵(lì)模型以逐步方式工作。

他們將這個(gè)智能體稱為IterativeAgent。

研究人員使用IterativeAgent對(duì)o1、o3-mini和Claude 3.5 Sonnet進(jìn)行了測(cè)試,如下表5所示。

他們發(fā)現(xiàn)使用IterativeAgent后,o1和o3-mini的得分顯著提升。

值得注意的是,在使用BasicAgent時(shí),Claude 3.5 Sonnet的表現(xiàn)優(yōu)于o1,但在使用IterativeAgent時(shí),其表現(xiàn)卻不如o1。這表明為IterativeAgent優(yōu)化的提示詞,對(duì)OpenAI o系列模型有著不同程度的適用性。

圖片

研究人員推斷,如果對(duì)BasicAgent進(jìn)行類似修改,同樣防止其提前結(jié)束任務(wù),可能會(huì)使Claude 3.5 Sonnet的表現(xiàn)超過使用IterativeAgent的o1。

人類拿下41.4%

此外,研究人員還招募了8名目前正在攻讀/已完成ML博士學(xué)位的參與者來挑戰(zhàn)3篇論文的子集。

這里,他們采用了AI智能體類似的條件下評(píng)估參與者。

參與者會(huì)拿到PDF和Markdown格式的論文,以及論文的附錄和盡可能接近用于AI智能體的指令,并可使用單個(gè)英偉達(dá)A10 GPU。

參與者兼職工作,有四周的時(shí)間窗口來取得盡可能多的進(jìn)展。

圖片

另外,團(tuán)隊(duì)對(duì)使用IterativeAgent的o1進(jìn)行了36小時(shí)的延長(zhǎng)運(yùn)行,每小時(shí)保存快照,并對(duì)1、3、6、12和36小時(shí)時(shí)拍攝的快照進(jìn)行評(píng)分。

如圖3所示,比較了o1的這次36小時(shí)延長(zhǎng)運(yùn)行與人類隨時(shí)間的表現(xiàn)。

研究觀察到,o1在復(fù)現(xiàn)嘗試的早期階段最初優(yōu)于人類基準(zhǔn),但在24小時(shí)后,人類開始超過AI智能體。智能體最初優(yōu)于人類但在更長(zhǎng)時(shí)間跨度內(nèi)落后的趨勢(shì)與先前結(jié)果一致。

ML博士在48小時(shí)內(nèi)(3次嘗試取最佳)拿下了41.4%高分,而統(tǒng)一子集上,o1僅為26.6%分。

這表明,與人類專家相比,AI盡管進(jìn)步顯著但仍有差距。

此外,研究人員還推出了一個(gè)輕量級(jí)變體PaperBench Code-Dev,在這個(gè)版本中,o1的得分飆升至43.4%,顯示出AI在簡(jiǎn)化任務(wù)上的潛力。

圖片

結(jié)論

21%得分或許只是一個(gè)開始。

PaperBench不僅揭示了AI智能體在科研中的潛力,也暴露它們?cè)陂L(zhǎng)期規(guī)劃任務(wù)中的局限性。下一步,隨著模型能力提升,它們能夠接近甚至超越41.4%人類基準(zhǔn)?

參考資料:

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-11-03 09:07:00

2025-05-30 09:15:00

2024-06-24 07:00:00

2025-03-17 08:40:00

開源智能體框架

2022-01-04 11:00:15

AI 數(shù)據(jù)人工智能

2021-12-26 23:04:34

機(jī)器人人工智能技術(shù)

2025-09-08 09:15:00

2024-01-02 11:36:32

AI人工成本

2025-09-01 17:09:21

AI論文模型

2023-12-16 09:45:56

論文GPT-4AI

2019-07-03 09:01:29

博士生頂會(huì)計(jì)算機(jī)

2025-02-11 13:00:00

2025-02-19 09:34:01

2025-02-24 09:55:47

2024-10-21 15:14:54

2020-10-04 13:24:12

人工智能機(jī)器人技術(shù)

2021-07-19 15:02:48

機(jī)器人人工智能算法

2021-09-02 10:15:50

計(jì)算平臺(tái)MaxCompute 阿里云

2025-06-04 13:50:25

AI 編程Claude 模型人工智能

2023-10-10 14:46:13

AI人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

欧美在线1区| 国产丝袜在线| 99在线精品视频在线观看| 亚洲国产精彩中文乱码av| 日韩伦理在线免费观看| 香蕉视频黄色片| 美女网站在线免费欧美精品| 欧美黑人视频一区| 99久久久久久久久久| 中文.日本.精品| 亚洲美女视频在线| 国产精品有限公司| 无码任你躁久久久久久久| 欧美限制电影| 精品99999| 亚洲精品综合在线观看| 白浆视频在线观看| 亚洲欧洲美洲综合色网| 激情久久av| 亚洲一区二区三区高清视频| 国产一区观看| 久久视频在线视频| 日韩一区二区a片免费观看| 国产一区二区高清在线| 岛国视频午夜一区免费在线观看| 日本免费在线视频观看| 五月天丁香视频| 国产在线播放一区| 国产精品电影在线观看| 日本在线视频中文字幕| 国产电影一区二区在线观看| 日韩精品极品在线观看播放免费视频 | 日韩欧美不卡在线| 日本在线观看www| www国产精品av| 成人在线免费观看一区| 国产视频在线观看免费 | 一级黄色在线播放| 自拍偷自拍亚洲精品被多人伦好爽| 亚洲午夜一区二区三区| 亚洲中文字幕无码一区二区三区| 3p在线观看| 国产欧美精品一区二区色综合朱莉| 国产精品果冻传媒潘| www.午夜激情| 国产精品99精品久久免费| 国产在线久久久| 姑娘第5集在线观看免费好剧| 亚洲一区自拍| 668精品在线视频| 日韩 国产 在线| 最新亚洲激情| 久久久久久亚洲精品| 欧美精品乱码视频一二专区| 性xxxx欧美老肥妇牲乱| 日韩亚洲一区二区| 中文乱码字幕高清一区二区| 成人羞羞视频播放网站| 一本一本久久a久久精品综合小说 一本一本久久a久久精品牛牛影视 | 98在线视频| 国产精品嫩草久久久久| 亚洲精品一区二区三| 91社区在线高清| 国产精品沙发午睡系列990531| 亚洲成色最大综合在线| 日本视频在线免费观看| 亚洲人成小说网站色在线| 日本久久高清视频| 欧美xxxx视频| 亚洲一区二区三区四区在线| 久久久久久久久久网| 国产v日韩v欧美v| 色综合咪咪久久| 中文字幕国内自拍| 91精品福利观看| 日韩久久免费av| 黄色激情在线观看| 亚洲影院天堂中文av色| 中文字幕亚洲第一| 中文字幕另类日韩欧美亚洲嫩草| 欧美欧美天天天天操| 91av在线免费观看| 日本视频www色| 国产精品一区不卡| 久久99精品国产99久久| www.亚洲视频| 自拍偷拍欧美激情| 九一国产精品视频| 国产极品一区| 精品99999| 国产白丝一区二区三区| 精久久久久久| 国产精品黄视频| www.狠狠干| 久久久亚洲高清| 成人手机在线播放| 伊人久久国产| 日韩一区和二区| 一级性生活毛片| 女生裸体视频一区二区三区| 欧洲成人在线观看| a级片在线免费看| 久久婷婷久久一区二区三区| 久久99国产精品一区| 小草在线视频免费播放| 欧美一区二区播放| 亚洲AV无码成人精品区明星换面| 欧美99在线视频观看| 国产成人在线播放| 农村少妇久久久久久久| 国产精品免费aⅴ片在线观看| 日韩日韩日韩日韩日韩| 日本一区二区三区中文字幕| 亚洲精品国产综合久久| 欧美又粗又大又长| 日韩不卡免费视频| 精品视频在线观看| 99在线视频观看| 欧美日韩在线不卡| 30一40一50老女人毛片| 好看不卡的中文字幕| 成人国产精品日本在线| 毛片免费在线播放| 亚洲曰韩产成在线| 激情在线观看视频| 91蜜臀精品国产自偷在线| 青草青草久热精品视频在线网站 | 久久久成人精品一区二区三区| 偷拍中文亚洲欧美动漫| 亚洲国产日韩精品在线| 久久久国产精品黄毛片| 久久99久久精品欧美| 日韩av电影免费在线| 制服丝袜专区在线| 亚洲成av人乱码色午夜| 久久精品视频免费在线观看| 精品一区免费av| 视频三区二区一区| 日韩电影免费观看高清完整版| 亚洲国产精品久久| 国产奶水涨喷在线播放| 成人久久18免费网站麻豆 | 国产一二三在线| 亚洲国产精品va在线| 久久精品国产亚洲AV无码男同| 国产综合一区二区| 手机福利在线视频| aa亚洲一区一区三区| www.日韩欧美| 国产美女精品视频国产| 亚洲欧洲国产专区| 男女污污视频网站| 亚洲精品午夜av福利久久蜜桃| 成人免费午夜电影| 91在线中字| 日韩欧美国产1| 三级黄色在线视频| www欧美成人18+| 最新中文字幕免费视频| 99久久综合| www.久久久| √8天堂资源地址中文在线| 日韩的一区二区| 青青草免费观看视频| 国产亚洲成av人在线观看导航| 天天操天天摸天天爽| 四虎国产精品免费观看| 成人免费视频网址| 波多一区二区| 亚洲精品日韩在线| 中文字幕精品无码亚| 日韩久久一区二区| 精品人妻一区二区免费| 国产亚洲激情| 亚洲春色在线视频| 77成人影视| 日韩av大片在线| 欧美日韩在线资源| 精品国产91乱码一区二区三区 | 午夜亚洲伦理| 亚洲国产午夜伦理片大全在线观看网站| 日本免费成人| 91精品国产91久久久久久| 国产有码在线| 欧美成人乱码一区二区三区| 可以免费看的av毛片| 国产精品久久久久久久久免费丝袜 | 亚洲福利影片在线| 中文字幕一区二区人妻视频| 综合在线观看色| 少妇一级淫片免费放播放| 日韩电影在线看| av动漫在线播放| 久久99蜜桃| 99re在线| 国产精成人品2018| 69久久夜色精品国产69| 91官网在线| 亚洲激情视频在线| 一本色道久久综合无码人妻| 亚洲成人中文在线| 国产在线免费看| 91亚洲大成网污www| 久久久九九九热| 老司机精品视频网站| 精品无码av无码免费专区| 国产一区二区三区天码| 成人黄动漫网站免费| 国产精品第一国产精品| 97色在线视频| 性欧美猛交videos| 少妇高潮久久77777| 欧美一区二区在线观看视频| 欧美日本一区二区在线观看| 免费观看成人毛片| 亚洲综合色婷婷| 国产喷水在线观看| 国产婷婷一区二区| 搡老熟女老女人一区二区| 国产高清不卡一区| 不卡的在线视频| 久久亚洲色图| 日本www在线视频| 欧美激情无毛| 在线不卡日本| 日韩精品影视| 日本视频一区二区不卡| 视频小说一区二区| 国产伦精品一区二区三区照片| 99视频这里有精品| 成人性教育视频在线观看| 少妇精品视频一区二区免费看| 久久久人成影片一区二区三区| 黄色免费网站在线观看| 中文字幕日韩免费视频| 黄上黄在线观看| 国产午夜精品全部视频播放 | 国产欧美视频一区二区| 国产精品无码专区| 成人激情黄色小说| 伊人av在线播放| 国产高清无密码一区二区三区| 一级黄色大片儿| 国产一区二区三区av电影| www.久久av.com| 精品一区二区日韩| 三级性生活视频| 激情六月婷婷久久| 婷婷激情综合五月天| 国产呦萝稀缺另类资源| 欧美日韩久久婷婷| 国产成人aaa| 一级黄色片毛片| 91影院在线免费观看| 极品粉嫩小仙女高潮喷水久久| 99久久夜色精品国产网站| 亚洲激情 欧美| 久久日一线二线三线suv| 亚洲精品国产91| 国产精品久久久久久久久免费樱桃 | 国产免费中文字幕| 国产一区二区久久| 91精品国产高清91久久久久久| 风间由美性色一区二区三区 | 一区二区三区欧美在线观看| 国产亚洲欧美久久久久| 天天亚洲美女在线视频| 五月天婷婷激情| 欧美视频一区二区三区四区| 国产又黄又粗又猛又爽| 日韩女优视频免费观看| 深夜福利在线观看直播| 亚洲色图国产精品| 免费在线看黄| 久久久久久网址| 成人精品电影在线| 成人写真福利网| 欧美调教视频| 中国一区二区三区| 在线看片一区| 国产理论在线播放| 国产精品一区二区在线看| 国产成人av无码精品| 亚洲国产高清不卡| 久久精品99久久久久久| 欧美丝袜一区二区| 91亚洲欧美激情| 亚洲福利视频网站| 日本高清视频在线观看| 久久久久久亚洲精品中文字幕| 性欧美18一19sex性欧美| 96国产粉嫩美女| 色婷婷狠狠五月综合天色拍 | 男人天堂av电影| 亚洲欧美国产三级| 日本视频在线观看免费| 91精品国产色综合久久不卡蜜臀| 亚洲 另类 春色 国产| 久热精品在线视频| 欧美日韩美女| 高清国语自产拍免费一区二区三区| 免费看日本一区二区| 狠狠干视频网站| 热久久一区二区| 国产伦精品一区三区精东| 国产精品成人一区二区三区夜夜夜| 国产精品theporn动漫| 欧美日韩一级黄| 美州a亚洲一视本频v色道| 欧美精品久久一区二区| 久久99国产精品二区高清软件| 激情小说综合网| 欧美日本一区二区视频在线观看| 欧美一级特黄a| 91丨porny丨在线| 国产一级黄色av| 91精品久久久久久久91蜜桃| 久香视频在线观看| 78色国产精品| 99精品在免费线中文字幕网站一区 | 免费av在线电影| 2019av中文字幕| www.爱久久| 99re6这里有精品热视频| 激情综合网最新| 欧美日韩生活片| 欧美午夜在线观看| 精品美女视频在线观看免费软件 | 国产情侣自拍av| 精品国产第一区二区三区观看体验| www久久日com| 亚洲一区二区三区四区视频| 日韩在线高清| av污在线观看| 日本一区二区三区久久久久久久久不| 日本天堂网在线| 日韩精品亚洲元码| sm捆绑调教国产免费网站在线观看| 91九色露脸| 欧美三区美女| 国产精品偷伦视频免费观看了| 亚洲美女视频在线观看| 精品国产99久久久久久宅男i| www高清在线视频日韩欧美| 国产日本久久| 中文字幕欧美日韩一区二区三区 | 91精品国产综合久久香蕉| 日韩免费特黄一二三区| 亚洲激情在线观看视频| 中文无字幕一区二区三区| 亚洲最大成人在线视频| 日韩专区中文字幕| 超碰国产精品一区二页| 大地资源第二页在线观看高清版| 韩日av一区二区| 欧美国产日韩在线观看成人| 精品区一区二区| 成人免费图片免费观看| 麻豆一区区三区四区产品精品蜜桃| 亚洲综合国产| 日本xxxxxxxxx18| 欧美日韩国产成人在线91| 里番在线观看网站| 91精品久久久久久蜜桃| 国产一级久久| 蜜臀久久99精品久久久久久| 欧美日韩在线电影| 免费在线看电影| 国产日韩二区| 日韩精品色哟哟| 五月天av网站| 日韩精品久久久久| 欧美男女视频| 国产精品久久国产| 久久久青草青青国产亚洲免观| 在线观看日韩一区二区| 色综合久久悠悠| 九九精品在线| 欧美国产日韩另类| 五月婷婷综合在线| 国产福利免费在线观看| 91视频最新| 久久影院亚洲| 欧美日韩亚洲国产另类| 日韩精品视频在线播放| 欧洲亚洲精品| 欧美激情 国产精品| 国产精品污www在线观看| 性猛交富婆╳xxx乱大交天津| 2019亚洲日韩新视频| 91亚洲人成网污www| a天堂视频在线观看| 欧美高清视频不卡网| 午夜欧美激情| 国产乱人伦精品一区二区三区| 久久久久88色偷偷免费| 亚洲va久久久噜噜噜无码久久| 国产成人综合一区二区三区| 欧美国产精品| 国产精品理论在线|