精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

<tfoot id="yyysi"><input id="yyysi"></input></tfoot>

<fieldset id="yyysi"></fieldset>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

蘋果發(fā)布新基準(zhǔn)，重新定義大模型強(qiáng)弱！原創(chuàng)

51CTO技術(shù)棧

發(fā)布于 2024-8-14 14:05

瀏覽

0收藏

現(xiàn)在的大模型基準(zhǔn)評測，蘋果要重新定義了！

近日，蘋果公司的研究人員推出了ToolSandbox，這是一種全新的基準(zhǔn)，旨在比以往更全面地評估人工智能助手的實(shí)際能力。這項(xiàng)研究發(fā)表在 arXiv 上，解決了使用外部工具完成任務(wù)的大型語言模型 (LLM) 的現(xiàn)有評估方法中的關(guān)鍵缺陷。

01、現(xiàn)有評估基準(zhǔn)有哪些關(guān)鍵缺陷？

現(xiàn)在大模型評估基準(zhǔn)，更多還是從大模型本身的基本功出發(fā)，諸如多語言理解、問答推理、數(shù)學(xué)邏輯等“文理科考試”，像MMLU、GSM8K、ARC、HumanEval、Math、BBH，這些都是大模型的通用能力的基準(zhǔn)測試，除此之外，還有行業(yè)能力的基準(zhǔn)測試，比如FinEval、PubMedQA、JEC-QA等。

但這些數(shù)據(jù)集存在一個(gè)很大的問題，即評估方式非?！白脏恕?，忽略了現(xiàn)在AI產(chǎn)品/應(yīng)用，已經(jīng)不能單單靠大模型來完成了，大模型還需要具備調(diào)用大量的外在工具才能完成真正的應(yīng)用。

像智能體這樣的應(yīng)用，需要大模型去按照用戶預(yù)定義的本體去完成復(fù)雜的任務(wù)，就需要調(diào)用N多工具。

難點(diǎn)就在于，用戶表述問題的方式雖然變得更加簡化，但面向任務(wù)的對話仍然具有狀態(tài)性、會話性和交互性，這為系統(tǒng)且準(zhǔn)確地評估使用工具的大型語言模型帶來了重大挑戰(zhàn)

應(yīng)用方面，當(dāng)然也有。智能客服、數(shù)據(jù)分析、辦公助手、代碼助手、智能代理等方面，則有測評數(shù)據(jù)集GAIA、APPS、AgentBench等。

蘋果發(fā)布新基準(zhǔn)，重新定義大模型強(qiáng)弱！-AI.x社區(qū)

TOOLSANDBOX 提供了一個(gè)有狀態(tài)的、對話式的和交互式的評估基準(zhǔn)，用于評估大型語言模型（LLM）的工具使用能力。通過有狀態(tài)和狀態(tài)依賴的工具、模擬的用戶以及具有里程碑和雷區(qū)的靈活評估方式，它展示了開源模型和專有模型之間顯著的性能差距，并揭示了即使是對于最先進(jìn)的模型（包括狀態(tài)依賴、規(guī)范化和信息不足等場景）也極具挑戰(zhàn)性的情況，為理解工具使用能力帶來了新的見解。

ToolSandbox 包含其他基準(zhǔn)測試中經(jīng)常缺少的三個(gè)關(guān)鍵元素：狀態(tài)交互、對話能力和動態(tài)評估。主要作者 Jiarui Lu 解釋說：“ToolSandbox 包括狀態(tài)工具執(zhí)行、工具之間的隱式狀態(tài)依賴關(guān)系、支持策略對話評估和動態(tài)評估策略的內(nèi)置用戶模擬器?！?/p>

這項(xiàng)新基準(zhǔn)旨在更貼近真實(shí)場景。例如，它可以測試人工智能助手是否理解在發(fā)送短信之前需要啟用設(shè)備的蜂窩服務(wù)——這項(xiàng)任務(wù)需要推理系統(tǒng)的當(dāng)前狀態(tài)并做出適當(dāng)?shù)母摹?/p>

蘋果發(fā)布新基準(zhǔn)，重新定義大模型強(qiáng)弱！-AI.x社區(qū)

TOOLSANDBOX評估軌跡示例

那么，TOOLSANDBOX究竟是怎么評估的呢？不妨來看論文中的示例?？梢钥闯鲈u估軌跡分為消息總線（Message Bus）、世界狀態(tài)（World State）、里程碑（Milestones）三個(gè)關(guān)鍵要素。

其中，消息總線表示用戶、智能體和執(zhí)行環(huán)境之間的完整對話歷史。世界狀態(tài)表示在給定回合中可變數(shù)據(jù)庫的快照。里程碑表示在此軌跡中需要發(fā)生的預(yù)定義關(guān)鍵事件。

示例中，用戶打算發(fā)送消息，但蜂窩服務(wù)已關(guān)閉。智能體應(yīng)首先理解用戶的意圖，并向用戶提示必要的參數(shù)。在借助search_contacts工具收集所有參數(shù)后，智能體嘗試發(fā)送消息，在失敗后意識到需要啟用蜂窩服務(wù)，并重新嘗試。為了評估此軌跡，研發(fā)團(tuán)隊(duì)在每個(gè)回合中，在保持拓?fù)漤樞虻耐瑫r(shí)，在消息總線和世界狀態(tài)中找到與所有里程碑的最佳匹配。

蘋果發(fā)布新基準(zhǔn)，重新定義大模型強(qiáng)弱！-AI.x社區(qū)

據(jù)介紹，TOOLSANDBOX的核心是一個(gè)Python原生的大型語言模型（LLM）測試環(huán)境，它以執(zhí)行上下文作為世界狀態(tài)的抽象，并以Python函數(shù)作為工具。在這個(gè)環(huán)境中，用戶、智能體和執(zhí)行環(huán)境通過消息總線相互通信以完成任務(wù)，該任務(wù)會根據(jù)預(yù)定義的里程碑和雷區(qū)進(jìn)行評估。如圖2所示，一個(gè)典型的測試用例從用戶與智能體對話開始。之后，被呼叫的角色將進(jìn)行下一步對話，直到達(dá)到最終狀態(tài)。

在收到用戶請求后，智能體可以選擇回應(yīng)用戶以獲取更多信息，或者通知執(zhí)行環(huán)境執(zhí)行一個(gè)工具，并提供所需的工具名稱和參數(shù)。執(zhí)行環(huán)境在InteractiveConsole（Foundation, 2024）中執(zhí)行工具，這取決于工具會修改存儲在執(zhí)行上下文中的世界狀態(tài)，并向智能體做出響應(yīng)。

一旦用戶決定任務(wù)已完成，它會通知執(zhí)行環(huán)境執(zhí)行end_conversation工具，使系統(tǒng)進(jìn)入最終狀態(tài)，準(zhǔn)備根據(jù)對話與里程碑和雷區(qū)的相似度進(jìn)行評估。本節(jié)的其余部分將更詳細(xì)地介紹每個(gè)組件的功能。

02、開源模型依舊落后

研究人員使用 ToolSandbox 測試了一系列 AI 模型，發(fā)現(xiàn)專有模型和開源模型之間存在顯著的性能差距。

研究發(fā)現(xiàn)，在工具調(diào)用層面，專有模型和開源模型之間存在顯著的性能差距，即便是表現(xiàn)最好的開源模型Hermes，也依舊落后于倒數(shù)第二的專有模型Claude-3-Haiku Anthropic（2024）20多分。

蘋果發(fā)布新基準(zhǔn)，重新定義大模型強(qiáng)弱！-AI.x社區(qū)

據(jù)論文介紹，這部分原因是Gorilla、Command-R等模型根本無法處理工具響應(yīng)。

蘋果發(fā)布新基準(zhǔn)，重新定義大模型強(qiáng)弱！-AI.x社區(qū)

例如，Mistral經(jīng)常將工具使用場景誤認(rèn)為是代碼生成任務(wù)。這些模型的次優(yōu)性能出乎意料地導(dǎo)致它們在“信息不足”類別中獲得了更高的評級，該類別獎(jiǎng)勵(lì)模型在提供的工具不足以完成任務(wù)時(shí)，沒有產(chǎn)生引起幻覺的工具調(diào)用或參數(shù)。論文中表示，這應(yīng)該被視為一種副作用，而不是積極的結(jié)果。

蘋果發(fā)布新基準(zhǔn)，重新定義大模型強(qiáng)弱！-AI.x社區(qū)

而在專有模型方面，GPT-4o、Claude3-Opus依舊強(qiáng)悍。具體來講，GPT-4o獲得了最高的相似度評分，緊隨其后的是Claude-3-Opus。這兩個(gè)模型各有優(yōu)勢。雖然GPT-4o獲得了更高的評分，但如附錄D.2所示，Claude-3-Opus保持了較低的平均回合數(shù)，以更高的效率實(shí)現(xiàn)了用戶目標(biāo)。

蘋果發(fā)布新基準(zhǔn)，重新定義大模型強(qiáng)弱！-AI.x社區(qū)

這一發(fā)現(xiàn)挑戰(zhàn)了最近的報(bào)告，這些報(bào)告表明開源人工智能正在迅速趕上專有系統(tǒng)。就在上個(gè)月，初創(chuàng)公司Galileo 發(fā)布了一項(xiàng)基準(zhǔn)測試，顯示開源模型正在縮小與專有系統(tǒng)領(lǐng)導(dǎo)者的差距，而Meta和Mistral則宣布了他們聲稱可以與頂級專有系統(tǒng)相媲美的開源模型。

然而，蘋果的研究發(fā)現(xiàn)，即使是最先進(jìn)的人工智能助手，在處理涉及狀態(tài)依賴、規(guī)范化（將用戶輸入轉(zhuǎn)換為標(biāo)準(zhǔn)化格式）和信息不足的場景等復(fù)雜任務(wù)時(shí)，也會遇到困難。

作者在論文中指出：“我們表明，開源模型和專有模型在性能上存在顯著差距，而 ToolSandbox 中定義的狀態(tài)依賴、規(guī)范化和信息不足等復(fù)雜任務(wù)甚至對最強(qiáng)大的 SOTA LLM 也提出了挑戰(zhàn)，從而為工具使用 LLM 功能提供了全新的見解?！?/p>

參數(shù)規(guī)模不代表一切

有趣的是，在新基準(zhǔn)之下，原始模型的參數(shù)即使再大，也并不總是能夠在復(fù)雜現(xiàn)實(shí)任務(wù)取得更好的性能。

在比較GPT、Claude和Gemini系列中最大和最小的模型時(shí)，多工具調(diào)用和多用戶回合類別的表現(xiàn)“惡化”速度遠(yuǎn)快于單工具調(diào)用和單用戶回合類別，這表明對于復(fù)雜的工具調(diào)用序列和模糊的用戶請求進(jìn)行推理，需要更多的模型容量。

也就是說，在某些情況下，較大的模型有時(shí)表現(xiàn)得比較小的模型更差，尤其是涉及狀態(tài)依賴性的模型。這表明，原始模型大小并不總是與復(fù)雜的現(xiàn)實(shí)任務(wù)中更好的性能相關(guān)。

04、在最后

蘋果的研究提醒我們，創(chuàng)建能夠處理復(fù)雜的現(xiàn)實(shí)任務(wù)的人工智能系統(tǒng)仍然存在重大挑戰(zhàn)。

隨著該領(lǐng)域的持續(xù)快速發(fā)展，像 ToolSandbox 這樣的嚴(yán)格基準(zhǔn)對于區(qū)分炒作與現(xiàn)實(shí)以及指導(dǎo)真正有能力的人工智能助手的開發(fā)至關(guān)重要。

ToolSandbox 的推出可能對 AI 助手、Agent等AI應(yīng)用的開發(fā)和評估產(chǎn)生深遠(yuǎn)影響。通過提供更真實(shí)的測試環(huán)境，它可以幫助研究人員識別和解決當(dāng)前 AI 系統(tǒng)中的關(guān)鍵限制，最終為用戶提供更強(qiáng)大、更可靠的 AI 應(yīng)用。

隨著人工智能不斷深入融入我們的日常生活，像 ToolSandbox 這樣的基準(zhǔn)測試將在確保這些系統(tǒng)能夠處理現(xiàn)實(shí)世界交互的復(fù)雜性和細(xì)微差別方面發(fā)揮關(guān)鍵作用。

對于開發(fā)者，好消息是，ToolSandbox評估框架即將在Github上發(fā)布，邀請更廣泛的AI社區(qū)共同構(gòu)建和完善這一重要工作。

上鏈接：

??https://github.com/apple/ToolSandbox??

?

本文轉(zhuǎn)載自??51CTO技術(shù)棧??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

OpenAI前研究科學(xué)家開源面向未來的提示工程庫 ell，重新定義提示工程

Syrupup ? 4071瀏覽 ? 0回復(fù)
AI界的"小而美"：Mistral AI的最新力作如何重新定義邊緣計(jì)算 | 多智能體協(xié)作讓大語言模型訓(xùn)練效率暴增

sbf_2000 ? 3772瀏覽 ? 0回復(fù)
重新定義AI的可能性！

kede96 ? 5635瀏覽 ? 0回復(fù)
從 Cursor 看面向聊天編程（CHOP）：如何重新定義開發(fā)者與代碼的關(guān)系

凝固的雨_1 ? 3975瀏覽 ? 0回復(fù)
Deepseek 671B + Milvus 重新定義知識庫搭建！

玄姐聊AGI ? 7498瀏覽 ? 0回復(fù)
五分鐘讀懂Manus平替：深度解析OpenManus 如何重新定義Multi Agent?

AI博物院 ? 8181瀏覽 ? 0回復(fù)
有望重新定義語言生成技術(shù)的擴(kuò)散模型——LLaDA?

51CTO內(nèi)容精選 ? 3668瀏覽 ? 0回復(fù)
從詞語到概念：大概念模型如何重新定義語言理解與生成

51CTO內(nèi)容精選 ? 2520瀏覽 ? 0回復(fù)
忘掉 Manus 模型上下文協(xié)議MCP 正在重新定義智能體的未來

數(shù)智飛輪 ? 3328瀏覽 ? 0回復(fù)
當(dāng)AI邂逅向量數(shù)據(jù)庫：重新定義智能時(shí)代的數(shù)據(jù)檢索

51CTO內(nèi)容精選 ? 2075瀏覽 ? 0回復(fù)
Zhipu AI剛剛發(fā)布了GLM-4.5系列：重新定義帶有混合推理的開源代理AI

Halo咯咯 ? 5971瀏覽 ? 0回復(fù)
谷歌重新定義Deep Researcher能力：測試時(shí)擴(kuò)散能力增強(qiáng)深度研究智能體

十一月雨_55 ? 2036瀏覽 ? 0回復(fù)
提速30倍，Meta重新定義了新一代RAG！

PaperAgent ? 1820瀏覽 ? 0回復(fù)
重新定義 RAG 新架構(gòu)設(shè)計(jì)，10倍提升長文本處理慢問題

玄姐聊AGI ? 2020瀏覽 ? 0回復(fù)
國產(chǎn)AI模型GLM-4.6硬剛Claude Sonnet 4！200K上下文窗口+工具增強(qiáng)推理，重新定義多任務(wù)AI代理

AIGCStudio ? 2642瀏覽 ? 0回復(fù)
少即是多：LIMI 用 78 個(gè)樣本，重新定義智能體訓(xùn)練效率

Halo咯咯 ? 2847瀏覽 ? 0回復(fù)
Nanonets OCR2 八大核心能力，重新定義OCR技術(shù)

CourseAI ? 1065瀏覽 ? 0回復(fù)
小模型，大能量：阿里巴巴 Qwen3-VL 4B/8B，重新定義多模態(tài)輕量化邊界

Halo咯咯 ? 4077瀏覽 ? 0回復(fù)
重新定義Agent開發(fā)：agno如何用3.75KiB內(nèi)存實(shí)現(xiàn)多模態(tài)工具調(diào)用？

AI博物院 ? 832瀏覽 ? 0回復(fù)

51CTO技術(shù)棧

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

8%價(jià)格，2倍速度！國產(chǎn)MiniMax M2暴打Claude Sonnet 4.5？我們實(shí)測后發(fā)現(xiàn)堪稱性價(jià)比之王！ 0回復(fù)

馬斯克新模型屠榜，包攬前二！馬斯克：已經(jīng)沒有真正能考AI的測試題了，終極測試是現(xiàn)實(shí)世界 0回復(fù)

昨晚，黃仁勛宣布了三件大事！10億美元收購諾基亞股份、AI原生6G、造量子GPU，件件驚天 0回復(fù)

Gemini 3 為什么厲害？項(xiàng)目負(fù)責(zé)人自曝：改進(jìn)了預(yù)訓(xùn)練和后訓(xùn)練！實(shí)測體驗(yàn)：徹底抹平多模態(tài)開發(fā)門檻 0回復(fù)

李飛飛深度好文：空間智能是人類認(rèn)知的腳手架！未來十年，致力于打造真正具備空間智能的AI！ 0回復(fù)

上一篇： Devin退位！這家公司宣布打造了世界上最強(qiáng)編程 Agents：Genie！能模擬人類工程師思考和行動

下一篇：谷歌Phone的AI全家桶上線了，給所有安卓手機(jī)打了個(gè)樣

社區(qū)精華內(nèi)容

目錄

国产小视频在线播放| 国产成人精品网| 亚洲精品在线国产| 黄网站色欧美视频| 亚洲精品成人自拍| www.黄色av| 久久久精品午夜少妇| 久久精品99久久香蕉国产色戒| 韩国三级在线看| 二吊插入一穴一区二区| 一区二区三区国产精品| 欧美日韩国产综合在线| 国产白浆在线观看| 视频一区视频二区中文| 欧美成人在线免费| 91视频免费观看网站| 高清不卡一区| 91精品办公室少妇高潮对白| 真人抽搐一进一出视频| 免费在线观看黄| 久久免费电影网| 9a蜜桃久久久久久免费| 中文字幕日本视频| 亚洲欧洲一区二区天堂久久| 蜜臀久久99精品久久久久久宅男| 91久久免费视频| 精品亚洲精品| 日韩美女视频在线| 欧美激情第3页| 欧美最新精品| 欧美视频在线免费看| 佐佐木明希av| 秋霞午夜在线观看| 国产精品少妇自拍| 日韩电影大全在线观看| 香蕉视频911| 成人午夜在线播放| 91久久久一线二线三线品牌| 国产精品一区二区人人爽| 日韩激情视频网站| 青青草精品毛片| 天天爽夜夜爽夜夜爽精品| 黄色精品一区| 欧美国产日韩一区二区| 五月天丁香激情| 亚洲最大av| 久久伊人精品天天| 777777国产7777777| 久久中文字幕二区| 中文字幕日韩高清| 国产探花视频在线播放| av中文一区| 色吧影院999| 国产jizz18女人高潮| 日韩精品中文字幕第1页| 国产午夜精品视频免费不卡69堂| 妺妺窝人体色WWW精品| 精品免费视频| 丝袜美腿亚洲一区二区| 欧美风情第一页| 欧美黄色aaaa| 久久久久久国产精品美女| 久久久久国产精品夜夜夜夜夜| 韩国欧美一区| 777午夜精品福利在线观看| 中日韩黄色大片| 久久综合影视| 国产一区在线播放| 国产手机av在线| 成人精品小蝌蚪| 久久久一本精品99久久精品| 精品亚洲成a人片在线观看| 国产日韩精品一区二区三区在线| 一本久道久久综合狠狠爱亚洲精品 | 亚洲mv大片欧洲mv大片| 久久亚洲影音av资源网 | 国产精品专区h在线观看| 在线观看av大片| 国产成人在线免费观看| 九九九九精品| 网友自拍视频在线| 亚洲综合av网| 欧美日韩亚洲一二三| 四虎视频在线精品免费网址| 欧美mv日韩mv亚洲| 新91视频在线观看| 亚洲国产成人精品女人| 国产91精品久| 国产老妇伦国产熟女老妇视频| 高清不卡在线观看av| 久久av免费一区| 自拍视频在线网| 亚洲国产综合人成综合网站| 久久精品网站视频| 中文无码日韩欧| 伊人久久免费视频| 久久久全国免费视频| 日韩国产高清影视| av成人综合网| 91在线播放网站| 午夜精品福利一区二区蜜股av| 四季av一区二区| 国产三级精品三级在线观看国产| 国产一区二区三区在线观看网站| 亚洲国产成人精品综合99| 乱码第一页成人| 国产福利一区二区三区在线观看| av中文字幕在线| 香蕉影视欧美成人| 婷婷激情小说网| 亚洲精华一区二区三区| 欧美久久精品一级黑人c片| 国产一区二区视频免费| 国产成人av一区二区三区在线| 日本在线播放不卡| 黄色激情在线播放| 日韩一区二区免费电影| 国产又粗又黄又猛| 国产精品毛片| 国产免费一区| 日韩免费影院| 91精品国产一区二区三区| 久久久久久国产免费a片| 欧美二区视频| 亚洲一区二区三区视频| 日韩在线资源| 欧美性xxxx在线播放| 妖精视频一区二区| 国产精品videossex久久发布| 国产区精品在线观看| 国产天堂在线| 色婷婷综合在线| 精品人妻一区二区三区日产乱码卜| 欧美激情在线| 91青青草免费在线看| 成人免费网站在线观看视频| 9191成人精品久久| 久久精品一区二区三区四区五区 | 热久久这里只有精品| 亚洲精品国偷拍自产在线观看蜜桃| 亚洲欧美日韩国产手机在线| 57pao国产成永久免费视频| 成人免费在线观看av| 国产精品久久久久影院日本| 国产原创av在线| 在线免费不卡电影| 国产人妻大战黑人20p| 视频精品一区二区| 日韩精品极品视频在线观看免费| 视频二区不卡| 国产亚洲欧洲高清| 中文无码av一区二区三区| 中文一区二区在线观看| 欧美美女一级片| 伊人青青综合网| 99r国产精品视频| av电影院在线看| 精品亚洲一区二区三区在线播放 | 91精品视频网| 男女性高潮免费网站| 国产成人精品亚洲777人妖 | 久草在线新免费首页资源站| 欧美va日韩va| 天天做天天爱夜夜爽| 久久久国产综合精品女国产盗摄| 97公开免费视频| 99久久夜色精品国产亚洲狼 | 蜜乳av综合| 国产精品美女www爽爽爽视频| 亚乱亚乱亚洲乱妇| 91精品国产综合久久香蕉的特点 | eeuss影院在线观看| 欧美伦理视频网站| 久久午夜鲁丝片午夜精品| av亚洲精华国产精华精| 波多野结衣天堂| 亚洲精品极品少妇16p| 国产精品国产精品国产专区蜜臀ah | 18性欧美xxxⅹ性满足| 九色蝌蚪在线| 欧美一区二区三区爱爱| 在线观看精品国产| 国产精品每日更新| 在线中文字日产幕| 天堂久久久久va久久久久| 中文字幕在线亚洲三区| 成人爽a毛片| 国产精品吴梦梦| jizz一区二区三区| 中文字幕一区二区精品| 你懂的网站在线| 欧美午夜精品一区二区蜜桃| 91成人福利视频| 久久久精品欧美丰满| 日本成人在线免费| 日韩电影免费在线| 精品人妻少妇一区二区| 日韩一区欧美| 免费看国产精品一二区视频| 精品国产鲁一鲁****| 日本一区二区不卡| 欧美大胆的人体xxxx| 尤物九九久久国产精品的分类 | 精品亚洲va在线va天堂资源站| 国产又爽又黄免费软件| 色综合天天在线| 久久久综合久久| 亚洲视频一区在线| 日韩人妻无码精品综合区| 成人国产精品免费观看| 色18美女社区| 日本少妇一区二区| 一女被多男玩喷潮视频| 国内综合精品午夜久久资源| 亚洲欧洲一区二区| 亚洲a级精品| 国产在线精品一区| 色妞ww精品视频7777| 国产美女扒开尿口久久久| 欧美成人性网| 欧美一级片一区| av免费不卡| 欧美国产日韩一区二区| 国产成人午夜| 久久精品免费电影| 在线免费av电影| 在线观看免费高清视频97| 你懂的在线观看| 日韩精品视频在线播放| 欧美一级在线免费观看| 欧美成人一区二区三区片免费| 中文字幕一区2区3区| 在线精品观看国产| 五月天激情四射| 欧美午夜www高清视频| 免费日韩一级片| 精品福利在线看| av大片免费在线观看| 亚洲国产cao| 黄色片视频网站| 午夜精品久久久久久久久久| 精品无码av在线| 亚洲国产精品欧美一二99| 久久精品国产亚洲av麻豆色欲| 依依成人精品视频| 国产性70yerg老太| 亚洲成在人线在线播放| 日本网站在线免费观看| 午夜国产不卡在线观看视频| 91久久国产视频| 欧美视频在线免费看| 久久久蜜桃一区二区| 欧美性一级生活| 国产一区二区在线播放视频| 欧美丰满一区二区免费视频| a毛片在线免费观看| 欧美www视频| 头脑特工队2免费完整版在线观看| 亚洲国产精品一区二区三区| 青青久在线视频免费观看| 亚洲人成在线一二| 91精彩在线视频| 超碰91人人草人人干| 欧美人与禽猛交乱配| 97在线看福利| 亚洲www免费| 91久久久久久久久久久久久| 亚洲第一二区| 久久一区免费| 99久久九九| 97视频久久久| 日韩电影一区二区三区四区| www.51色.com| 91亚洲精华国产精华精华液| 麻豆精品免费视频| 亚洲欧美一区二区三区久本道91| 国产一级免费观看| 色狠狠色狠狠综合| 中文字幕在线日亚洲9| 日韩美女一区二区三区| 黄色的视频在线免费观看| 色吧影院999| 玖玖在线播放| 91精品视频在线播放| 久久夜色电影| 亚洲精品成人a8198a| 亚洲婷婷免费| 天天色综合天天色| 成人美女视频在线看| 国产又粗又长免费视频| 亚洲国产精品久久久久婷婷884| 波多野结衣黄色| 欧美大片在线观看一区二区| 国内精品在线视频| 欧美肥臀大乳一区二区免费视频| 欧美成人免费电影| www日韩av| 日韩激情在线| 亚洲中文字幕无码中文字| 国内精品视频一区二区三区八戒| 三级男人添奶爽爽爽视频| 亚洲欧美综合在线精品| 五月天综合激情网| 日韩欧美一二三| caoporn国产精品免费视频| 91精品国产亚洲| 日韩欧美另类中文字幕| 日韩高清专区| 一区二区福利| 好吊操视频这里只有精品| 国产精品视频九色porn| 狠狠人妻久久久久久综合| 精品美女在线播放| 麻豆免费在线观看| 国产精品爽爽爽| 国产精品三级| 国产在线青青草| 成人午夜电影网站| 亚洲色图综合区| 欧美嫩在线观看| av中文字幕在线| 国产精品18久久久久久首页狼| 欧美一性一交| 无码制服丝袜国产另类| 韩国精品在线观看| 99久久99久久精品免费| 色狠狠桃花综合| 国家队第一季免费高清在线观看| 77777亚洲午夜久久多人| 久久午夜影院| 成人性免费视频| 99视频在线精品| 99免费在线观看| 亚洲国内精品在线| 国产资源在线观看入口av| 国产精品视频福利| 在线播放日韩| 人妻在线日韩免费视频| 精品福利在线视频| 天天摸天天干天天操| 久久久亚洲影院| 欧美人体视频| 91传媒久久久| 久久蜜桃一区二区| 区一区二在线观看| 国产一区二区三区欧美| 久久人人视频| 小说区视频区图片区| 国产在线一区观看| 欧美爱爱小视频| 亚洲成人黄色在线| 精品人人视频| 欧美裸体网站| 青娱乐精品在线视频| 人与动物性xxxx| 日韩欧美一区二区三区在线| 黄色成人在线网| 欧美成人综合一区| 日本美女视频一区二区| 成年人网站在线观看视频| 欧美一区二视频| heyzo一区| 欧美日韩在线不卡一区| 久久99精品国产.久久久久 | 亚洲国产二区| 蜜桃传媒一区二区亚洲av | 亚洲一区二区三区四区五区xx| 国产精品视频yy9299一区| 国产黄色片网站| 欧美亚洲免费电影| 日韩av在线播放网址| 中文字幕一区二区三区四| 亚洲成av人片在www色猫咪| 免费a在线观看| 成人在线小视频| 亚洲激情影院| 黑人と日本人の交わりビデオ| 欧美一级理论性理论a| 狼人综合视频| 一本久道久久综合狠狠爱亚洲精品| 国产99精品国产| 国产视频1区2区| 久久成人亚洲精品| 亚洲动漫精品| 国产大学生av| 欧美自拍丝袜亚洲| 51漫画成人app入口| 性刺激综合网| www.亚洲免费av| 国产精品毛片一区视频播 | 久久精视频免费在线久久完整在线看| 国产极品模特精品一二| 超碰在线公开97| 午夜激情综合网| 国产黄a三级三级三级av在线看| 精品久久久久久亚洲| 国产在线观看免费一区| 日本免费精品视频| 久久久久久亚洲精品不卡| 日韩精品首页|

<del id="e2wuc"></del>