精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

智能體的能力坐標系:一覽復旦、清華、港大、上海 AI 實驗室聯合發布的OS-MAP的評估邏輯與實驗洞察

發布于 2025-7-31 07:21
瀏覽
0收藏

在AI應用不斷深入現實世界場景的當下,一個新問題開始浮出水面:計算機使用智能體,到底能為我們承擔多少真正的工作?面對日益復雜的桌面應用操作、人機協同任務,以及跨應用的使用習慣,傳統AI評估范式已顯力不從心。

過去,AI智能體多集中于網頁操作、自然語言生成或靜態任務執行,然而隨著VLM(視覺語言模型)與多模態技術的進步,系統開始具備理解界面元素、執行復合操作的能力。這類“計算機使用智能體”正在成為下一代人機協作工具的關鍵構件,應用范圍從辦公自動化到個人助手,再到RPA與低代碼開發,甚至擴展至教育、創意和安全領域。

然而,現有評測基準存在明顯短板。大多數基準要么過于抽象,無法反映真實操作難度;要么局限于特定平臺或單一任務類型,難以評估模型泛化能力與任務協同水平。更重要的是,它們缺乏對“自動化層級”的系統建模,無法揭示智能體在真實桌面場景中逐步接管任務所面臨的復雜挑戰。

7 月 28 日,復旦大學、上海AI實驗室、清華大學和香港大學的聯合研發團隊提出了一個看似簡單卻結構精妙的關鍵問題:智能體,能在“廣度”(不同任務和應用)與“深度”(自動化層級)上走多遠?這是一個兼顧擴展性與精細度的評估范式。

為回答這一問題,研究團隊構建了OS-MAP框架——一個兩維度的評估體系。第一維是自動化層級,從簡單的原子執行(L1)到復雜編排(L4),清晰刻畫任務結構與人機分工的演進過程;第二維是泛化范圍,評估模型在應用之間、任務類別之間的適應能力與穩健性。研究者將這一框架具體化為一套完整基準:涵蓋15款真實桌面應用、416項任務,涵蓋從文件管理到系統設置等典型用戶場景。

智能體的能力坐標系:一覽復旦、清華、港大、上海 AI 實驗室聯合發布的OS-MAP的評估邏輯與實驗洞察-AI.x社區

圖1:OS-MAP定性評估矩陣,總結了不同類型的代理在兩個維度上的表現。通用模型顯示出很強的泛化能力,而場景專家擅長特定任務。主流計算機使用代理旨在平衡兩者,但仍面臨重大挑戰。

在這一廣泛覆蓋之下,團隊不僅執行了系統性的基線模型評估,還對失敗案例進行了深入分析,包括指令誤讀、目標識別錯位、回退策略缺失、工具使用能力不足等。這些分析不僅揭示了當前VLM模型在感知、邏輯推理和多步執行方面的結構性瓶頸,也為未來模型設計與任務分解機制的改進提供了寶貴洞察。

這項研發工作由來自中國大陸和香港的頂尖AI機構聯合完成。包括復旦大學、上海AI實驗室、清華大學和香港大學的多位研究者攜手合作,他們是Xuetian Chen, Yinghao Chen, Xinfeng Yuan, Zhuo Peng, Lu Chen, Yuekeng Li, Zhoujia Zhang, Yingqian Huang, Leyan Huang, Jiaqing Liang, Tianbao Xie, Zhiyong Wu, Qiushi Sun, Biqing Qi, Bowen Zhou,團隊成員橫跨視覺理解、語言建模、人機交互等多個領域。在開源精神的驅動下,他們還將全部代碼、數據集、實驗環境和任務腳本發布至GitHub(OS-Copilot/OS-Map),為學術界和產業界進一步推動桌面智能體發展提供了堅實基礎。

論文鏈接:https://arxiv.org/pdf/2507.19132

項目地址:https://github.com/OS-Copilot/OS-Map

1.評估框架設計?

智能體的能力坐標系:一覽復旦、清華、港大、上海 AI 實驗室聯合發布的OS-MAP的評估邏輯與實驗洞察-AI.x社區

圖2:OS-MAP構建在為日常計算機任務設計的可執行桌面環境上,集成了一套應用程序和工具。它通過處理任務初始化和成功驗證為可靠評估提供了基礎設施。代理通過GUI操作自主交互,由指令和屏幕截圖感知引導。

從淺到深:自動化層級的刻度尺

OS-MAP 所提出的自動化分級,是一次真正“貼近人類操作邏輯”的建模努力。它將所有智能體執行的任務操作劃分為四個層級,每一層的挑戰都愈加嚴峻。

L1 原子執行: 這是最基本的層級,涉及單步 GUI 操作,比如點擊按鈕、輸入文本、關閉窗口等。這一層主要考驗的是模型對界面元素的感知與動作映射能力。雖簡單,卻是構建更高層執行能力的地基。

L2 簡單規劃: 這里模型需要具備基本的任務規劃能力——能夠將多步操作串聯起來完成一個目標,但不會遇到動態條件或分支。例如,打開文件、復制內容、粘貼至新窗口。這一層開始引入邏輯鏈條,但仍在靜態路徑中活動。

L3 干擾適應: 現實世界里操作界面并不總是“干凈利落”,彈窗、全屏狀態、失效路徑等干擾接踵而至。此時模型需具備彈性執行能力,例如提前關閉彈窗、回退路徑、處理意外跳轉。這是對感知、判斷與回退策略的第一次綜合考驗。

L4 復雜編排: 這是一切高階桌面操作的“試煉場”。任務不僅跨應用,還需進行任務分解、依賴管理與工具協同。例如,打開郵件查找信息后,再填寫表單并進行數據計算。如果說前三層是“手、眼、腳”的協調練習,L4 則是“意識”的登場,它要求智能體能進行真正意義上的上下文融合與策略性操作。

從 L1 到 L4,構成了一條清晰、逐級遞進的能力曲線。而真正棘手的是,大多數現有智能體,在 L3 和 L4 上幾乎全軍覆沒。這不只是功能缺失,更暴露出智能架構在復雜任務結構下的系統性缺陷。

泛化范圍:能力的廣闊邊界

除了縱深的自動化層級,OS-MAP 還從“橫向廣度”進行能力建模,評估智能體在泛化上的適應能力。

應用內泛化關注同一桌面應用中不同任務的處理能力——例如,在 Chrome 中既要搜索信息,又要清理瀏覽記錄。而跨應用泛化則引入應用間的語境轉換,如從瀏覽器跳轉到文件管理器再完成上傳任務。這一維度對應的是“習慣遷移”和“語境切換”的能力。

同時,OS-MAP 涵蓋了極為多樣的任務類型,從系統設置、文件操作、網頁瀏覽、表單填寫到郵箱收發,真實反映了現代桌面使用的日常圖譜。這種“任務分布廣度”的設置不僅檢驗模型的知識能力,更考察其語義理解和界面感知的通用性。

OS-MAP 的兩維構架——縱向層級+橫向泛化,構成了覆蓋“深度”和“廣度”的能力雷達,也正是這個框架讓其成為對計算機使用智能體的最具實踐意義的評估基準。

智能體的能力坐標系:一覽復旦、清華、港大、上海 AI 實驗室聯合發布的OS-MAP的評估邏輯與實驗洞察-AI.x社區

圖3:特定任務的自動化級別演示:每天旋轉壁紙。從用戶的角度來看,隨著自動化水平的提高,實現同樣的目標需要增加代理責任并減少用戶參與。任務執行變得更長、更復雜,反映了人類和智能體之間分工的轉變。

2.OS-MAP 基準構建

設計框架只是一部分,更關鍵的是如何將它落地成具備可執行性的評測系統。這就是 OS-MAP 基準的工程之美。

首先任務來源并非虛構,而是抽象自真實桌面使用場景,最終構建了416項明確可復現的任務,覆蓋15款常見應用,確保覆蓋面既廣又細。任務分類涵蓋瀏覽、文件管理、系統控制、文檔編輯等,是寫字樓和居家場景的真實縮影。

其次,實驗環境采用了動態桌面仿真系統,能精確模擬操作界面與行為反饋。每項任務配備原子動作接口,允許模型基于鼠標點擊、鍵盤輸入等基本操作完成流程,配合評測腳本實現標準化記錄與對比分析。

評估機制方面,研究者引入了明確的成功率定義——即任務是否按照目標完成,而不僅僅是是否做了某些動作。這點至關重要,因為它明確將“行為”與“結果”區分開來。此外,系統還記錄了失敗案例的分類與原因,這為后續的結構性改進提供了寶貴素材。

OS-MAP 不只是一個任務集合,更是一個具備高度復現性、擴展性和診斷能力的評測平臺。它打通了從場景抽象、動作建模到能力分析的全鏈條,為構建真正“能用、可控、有反饋”的智能體提供了可操作范式。

智能體的能力坐標系:一覽復旦、清華、港大、上海 AI 實驗室聯合發布的OS-MAP的評估邏輯與實驗洞察-AI.x社區

圖4:OS-MAP基準測試中需求層次結構上的任務分配。

3.實驗設置與基線模型

各路智能體“集結上場”

研究團隊一共測試了三類智能體架構。

通用大模型如 GPT-4o、Gemini-2.5-Pro、Claude-3.7-Sonnet,它們擁有強大的語言理解和多模態能力,訓練數據廣泛,但往往不熟悉桌面操作的“肌肉記憶”。

GUI 專用模型比如 UI-TARS-72B 和 GUI-Actor-7B,則是為桌面交互而生——優化了感知與點擊路徑,有更高的視覺對齊精度和界面定位能力,但也容易在跨任務邏輯上“迷路”。

混合型架構(如 OS-ATLAS、UGround、Aguvis)采用了“規劃-執行”的分工,前端用 GPT-4o 等模型做任務規劃,后端 GUI agent 執行。這種設計在任務合理性上有所提升,但依然受到原始視覺模型執行力的約束。

怎么評?從成功率到人類對照組

評估指標分為兩個主維度。

自動化層級成功率:每個模型在 L1 到 L4 的任務上完成率

整體任務成功率:對 416 項任務的平均完成率

人類參考線:作為“頂配智能體”的對照標準,人類完成率為 71.9%,遠高于現有模型

這種設定不僅檢驗模型的局部能力,還對其在完整任務流程中的“持續表現”打分,相當于把 AI 拉到辦公室現場比拼——到底誰才是稱職的虛擬助理?

在實際運行中,研究者還需面對多種挑戰:

  • 部分任務需要高分辨率 GUI 截圖和原子操作控制,帶來計算資源的壓力
  • 模型 prompt 設計要針對每個任務進行微調,避免不合規指令和幻覺行為
  • 為了實現可復現性,任務環境需嚴格設定初始狀態與反饋機制

這是一場高保真、全鏈條的操作實測,而不是簡單的文本問答。

4.主要實驗結果

成績單來了,誰表現最好?

整體來看,智能體的“戰績”并不樂觀。

? GPT-4o 作為通用語言模型,在 L1 執行任務的成功率只有 12.0%,整體僅 1.9%

? Claude 和 InternVL 等模型更為低迷,有些在關鍵任務上幾乎顆粒無收

? Gemini-2.5-Pro 雖表現稍強,在 L2 達到 10.6%,但在 L4 編排任務上仍幾乎“熄火”

? 最亮眼的是 GUI-Actor-7B 和 UI-TARS-72B,在 L1 GUI 執行任務上接近人類表現(40–48%),但在 L3 和 L4 依然難以突破瓶頸

這也揭示出一個核心問題:當前智能體在表層執行力上已有成效,但缺乏真正的任務理解力與上下文協同能力。

智能體的能力坐標系:一覽復旦、清華、港大、上海 AI 實驗室聯合發布的OS-MAP的評估邏輯與實驗洞察-AI.x社區

表:OS-MAP上計算機使用代理的成功率。我們展示了每個代理骨干在不同自動化級別的任務上的性能。專有VLM和開源VLM以顏色區分。在規劃接地設置中,GPT-4o用作規劃模型。

究竟“卡”在哪兒?

研究者對每個自動化層級都進行了失敗剖析。

L1 vs. L2 的落差:很多模型能執行單步點擊,但一旦涉及多步組合和路徑規劃,錯誤率陡升,說明短程邏輯的拼接尚未成熟

L3 適應性缺失:模型無法識別彈窗、全屏等環境干擾,也不具備回退機制。例如無法退出劇場模式導致控件無法訪問

L4 是終極難關:任務依賴關系錯亂,先填表后查郵件、跳過錢包余額直接交易等“反人類”操作頻頻發生。更甚者,模型還拒絕使用外部工具,選擇憑空計算數學問題——你沒看錯,是在瀏覽器里“內心演算”微積分!

最后這一組對比尤其醒目——在人類能完成 71.9% 的桌面任務的前提下,當前最佳模型也只能達到 11.5% 的成功率。這不僅是數量差距,更是能力斷層。

5.失敗案例深入分析

智能體的失敗表征

許多失敗,源自智能體無法像人類那樣“順手”完成操作。但更關鍵的是,它們錯的方式非常有代表性,幾乎可以歸結為兩個維度的通病。

首先,是通用性能力缺失。

有些模型完全忽略了操作指令的格式和范圍。例如,Claude 竟然嘗試執行 OPEN_FILE_EXPLORER 命令,而任務接口只接受原子鼠標鍵盤操作。這種行為像是把語言模型的直覺硬套到物理操作上——直覺雖強,規則卻不合。

另一個典型通病是幻覺現象:模型“相信”之前的步驟成功執行了,于是在錯誤狀態下繼續進行,甚至將系統窗口誤認為是網頁瀏覽器,并試圖搜索內容?;糜X不是簡單的識別錯誤,更像是“主觀編劇”,使整個任務流程誤入歧途。

智能體的能力坐標系:一覽復旦、清華、港大、上海 AI 實驗室聯合發布的OS-MAP的評估邏輯與實驗洞察-AI.x社區

圖5-10:每個自動化級別的故障案例,反映了核心能力的瓶頸。

每個層級的“卡點”在哪里?

在 OS-MAP 中,每個自動化層級都有其專屬挑戰。

L1 層級:GUI 定位問題頻發 表面上看,執行一個按鈕點擊并不難。但研究發現,模型在識別非文本 UI 元素時很容易“翻車”。比如找不到圖標、拖拽區域不明確、按鈕位置錯亂……這都暴露了模型在 GUI 視覺 grounding 上的短板。

L2 層級:規劃有思路,卻?!芭芷?模型能制定計劃,卻容易陷入“相似迷宮”。比如,任務要求搜索 Taylor Swift 的所有專輯,但模型卻只搜索了其中一張專輯。此外,對于任務特定約束也常常忽略,比如只清除 YouTube 記錄,結果刪掉了全部瀏覽歷史。

L3 層級:適應力不足,回退機制缺失 這一層最大的問題在于抗干擾。模型面對彈窗時可能不知所措,面對全屏模式時無法退出以訪問菜單,甚至會在劇場模式下隱藏控制條導致任務無法繼續。更嚴重的是,對當前上下文狀態缺乏判斷,經常在錯誤窗口中執行無關操作。

L4 層級:邏輯結構松散,工具調用失敗 復雜任務如填寫表單前查看郵件、進行交易前查余額等,本應是流程規劃的高光時刻。但模型要么順序錯誤,要么不調用輔助工具,甚至用內部語言模型“頭腦算術”替代實際的網頁計算器——可以說是“拼湊式完成任務”,遠談不上策略性執行。

這些失敗,不是技術細節,而是能力架構的問題。它們揭示的是現有模型還沒有構建起對桌面環境的“動態心智”。

放在整個研究生態中,OS-MAP 有何獨特之處?

為了理解 OS-MAP 的位置,我們需要橫向看看業界已有的基準。

過去的桌面交互評測,多集中在靜態任務如網頁操作、命令行執行等。但 OS-MAP 提出了一個前所未有的完整視角:基于真實桌面環境、細致分級的自動化層次,并結合任務廣度,從操作“顆粒度”到任務“組織方式”,均有系統設計。這種兩維框架,前所未見。

更進一步,OS-MAP 還與當前智能體感知與規劃技術接軌。例如,它涵蓋了多模態識別(GUI視覺)、語言建模、上下文記憶、環境適應、層級規劃等多個子系統,這恰是新一代“agentic AI”的核心能力框架。

至于能力分級,本研究參考了自動駕駛的分級方法,融合了 AGI 能力廣度評估體系,最終構建出一個可量化、可對照、可復現的任務等級標準。這種方法論,使 OS-MAP 成為評估“通用桌面助手”性能的行業標桿。

6.未來方向

真實桌面世界,不是虛構的沙盒

盡管 OS-MAP 已覆蓋 416 項任務、15 款應用,其任務設計依然面臨一大挑戰,即如何持續擴展任務數量與類型,同時保持評測的科學性與可控性?

這類任務往往需要精準設定初始狀態,比如文件目錄結構、窗口排列、菜單位置等。要完成這樣的任務設計,研究團隊不得不進行大量“反向工程”,將真實任務轉化為仿真環境。這就像把復雜的辦公桌面一刀刀切割成實驗用場景——耗時耗力,也難以快速擴展。

其次,評測環境的現實感依舊受限。雖然當前 OS-MAP 環境支持模擬界面、操作反饋等元素,但真實桌面世界是高度個性化的——每位用戶有不同的賬戶信息、瀏覽習慣、內容定制?,F有的評測體系難以捕捉這種“人機共生”的復雜動態,也無法直接應用于如“文件命名習慣”或“多賬戶跳轉”等真實任務中。

還有一個不容忽視的問題:個性化場景的隱私性與可復制性沖突。許多高價值任務(例如微信文件共享、公司系統登錄)都牽涉用戶隱私,難以被廣泛收錄為開放基準。如何在安全、可復現的框架下設計“貼近現實”的任務,依然是一道技術與倫理的雙重考題。

讓智能體“更像人類助手”

突破以上限制,研究者提出了幾個未來的發展重點。

首先是引入強化學習與環境獎勵機制。現階段的智能體多依賴監督學習,但面對“彈窗干擾”“路徑失敗”等動態挑戰時,強化學習可以成為抗干擾與恢復策略的訓練利器。如果模型能根據環境反饋調整行為,那么它的適應性將更上一層樓。

其次是層級規劃機制的深入。OS-MAP 已在任務結構上實現分層評估,但智能體內部的規劃機制仍偏扁平。未來設計中,可以考慮類似任務樹、依賴圖等結構,讓智能體能像人類一樣“計劃并審查”自己每一步任務路徑。

最后,是多智能體系統的協同潛力。想象一個智能桌面助手由多個模塊組成:一個感知模塊識別界面元素,一個執行模塊負責點擊,一個策略模塊管理任務進度……如此“分工協作”將比單模型執行更高效、更穩健,也是大規模應用時的可擴展方案。(END)

參考資料:https://arxiv.org/pdf/2507.19132

本文轉載自???波動智能???,作者:FlerkenS

收藏
回復
舉報
回復
相關推薦
99re在线视频观看| 亚洲精品福利视频| av不卡在线免费观看| 99久久久久久久| 亚洲视频一二| 国产亚洲免费的视频看| 超碰中文字幕在线观看| 美女的胸无遮挡在线观看| 国产欧美一区二区精品忘忧草| 成人乱色短篇合集| 国产成人无码一区二区三区在线| 精品国产一区二区三区| 欧美成人r级一区二区三区| 免费在线激情视频| a视频在线播放| 91麻豆成人久久精品二区三区| 成人免费视频网址| www.日本精品| 国产精品精品| 亚洲欧美综合另类中字| 日本中文字幕有码| 美女视频一区| 日韩欧美在线视频免费观看| 激情成人开心网| shkd中文字幕久久在线观看| 99国产精品一区| 91精品久久香蕉国产线看观看| 国产又粗又猛又爽又| 韩日精品视频| 久久国产精品久久久| 手机看片福利视频| 亚洲春色h网| 精品卡一卡二卡三卡四在线| 日韩av加勒比| 精品国产黄a∨片高清在线| 欧美日韩国产限制| 人人妻人人做人人爽| а√中文在线8| 国产精品福利一区二区三区| 欧美亚洲丝袜| 欧洲综合视频| 91网站黄www| 国产一区二区高清不卡| 欧美熟妇乱码在线一区| 床上的激情91.| 亚洲伊人久久综合| 国产片高清在线观看| 久草这里只有精品视频| 国产日韩欧美自拍| 一区二区视频网站| 日本va欧美va欧美va精品| 日韩免费在线视频| 香蕉影院在线观看| 久久国产精品99国产| 韩剧1988免费观看全集| 国产乡下妇女做爰视频| 日韩视频一区二区三区在线播放免费观看| 欧美超级免费视 在线| 欧美视频www| 亚洲一级淫片| 欧美大片免费观看| 日韩三级免费看| 亚洲视频观看| 欧美重口另类videos人妖| 国产尤物在线视频| 久久在线精品| 国产精品最新在线观看| 国产精品自产拍| 国产一区二区调教| 波多野结衣久草一区| 粉嫩小泬无遮挡久久久久久| 99久久婷婷国产综合精品| 久久av一区二区三区亚洲| 青青久在线视频免费观看| 久久精品视频一区二区三区| 亚洲精品影院| 97caopor国产在线视频| 亚洲午夜羞羞片| 日韩网址在线观看| 成人综合网站| 欧美成人一区二区三区在线观看| 中文字幕一区二区人妻电影丶| 亚洲资源网站| 色爱精品视频一区| 国产小视频在线看| 性色一区二区| 91中文精品字幕在线视频| 亚洲国产成人一区二区| 久久婷婷国产综合精品青草| 亚洲精品一区二区三区蜜桃久| 亚洲精品一线| 色婷婷激情久久| 在线不卡一区二区三区| 精品精品国产毛片在线看| 亚洲无线码在线一区观看| 麻豆明星ai换脸视频| 亚洲精品人人| 国产日韩精品入口| 天天操天天干天天| 国产精品视频麻豆| 91精品国产91久久久久麻豆 主演| 日韩欧美看国产| 欧美一区二区三区日韩视频| 久久精品国产亚洲av麻豆| 中文字幕亚洲综合久久五月天色无吗''| 久久久综合免费视频| 中文字幕欧美人妻精品| www.日本不卡| 三级网在线观看| 性欧美hd调教| 亚洲成色777777在线观看影院| 少妇人妻好深好紧精品无码| 伊人天天综合| 92看片淫黄大片欧美看国产片| 激情在线视频| 亚洲第一久久影院| 成人高清在线观看视频| 精品一级毛片| 2019最新中文字幕| 亚洲av无码乱码在线观看性色| 日本一区二区免费在线| 欧美大片在线播放| 婷婷综合国产| 久久综合伊人77777尤物| 怡红院av久久久久久久| av日韩在线网站| www.男人天堂网| 欧美性生活一级| 亚洲图片欧美午夜| 麻豆成人免费视频| 99久久精品费精品国产一区二区| 国产免费xxx| 99国内精品久久久久| 在线观看国产成人av片| 乱子伦一区二区三区| 久久久噜噜噜久久人人看| 欧美日韩dvd| 日韩精品成人| 欧美日韩第一视频| 国产三级伦理片| 亚洲日本在线视频观看| www.国产福利| 在线一区免费| 91麻豆国产精品| 国产视频中文字幕在线观看| 欧美色图天堂网| 久久午夜精品视频| 日本一不卡视频| 天天爽天天狠久久久| 向日葵视频成人app网址| 亚洲欧美日韩国产成人| 久久国产视频精品| 久久久亚洲综合| 国产男女激情视频| av一区二区在线播放| 国产精品精品国产| 婷婷激情在线| 717成人午夜免费福利电影| www.99re6| 激情综合五月婷婷| 糖心vlog在线免费观看| 99re8这里有精品热视频免费| 欧美国产乱视频| 亚洲av成人精品一区二区三区在线播放 | 日韩精品欧美大片| 欧美亚洲伦理www| 国产一区精品| 欧美日韩一区小说| 高h视频免费观看| 成人h动漫精品| 国产日韩一区二区在线观看| 成人嘿咻视频免费看| 成人h猎奇视频网站| 伊人影院在线视频| 日韩成人在线网站| 最近中文字幕免费观看| 中文字幕一区二区三区蜜月| 人妻巨大乳一二三区| 日韩午夜av在线| 日本福利一区二区三区| av在线播放一区二区| 欧美激情精品久久久久久| 丝袜+亚洲+另类+欧美+变态| 欧美性大战久久久久久久蜜臀 | 国产剧情日韩欧美| 日韩av毛片| 国产丝袜一区二区三区免费视频| 中文字幕精品一区二区精| 伊人夜夜躁av伊人久久| 久久久久久国产精品无码| 国产在线乱码一区二区三区| 久久久性生活视频| 成人在线免费观看网站| 成人在线看片| 日韩精品免费观看视频| 色综合久综合久久综合久鬼88| 美女欧美视频在线观看免费 | 久久精品一区二区不卡| 精品一区二区国产| 日韩国产一二三区| 8x拔播拔播x8国产精品| 含羞草www国产在线视频| 日韩精品极品视频| 国产乱淫av片免费| 欧美日韩国产页| 日本老熟俱乐部h0930| 国产日韩欧美精品综合| 亚洲 欧美 日韩在线| 久久国产精品露脸对白| 能在线观看的av| 国产精品分类| 日韩免费电影一区二区| 成人自拍在线| 91久久精品美女| 日本成人伦理电影| 97av视频在线| 天天色天天射天天综合网| www.亚洲免费视频| 国产黄在线观看免费观看不卡| 亚洲福利视频网| 国产不卡av在线播放| 欧美性一区二区| 日韩欧美成人一区二区三区| 亚洲一区二区美女| 国产中文av在线| 国产精品久久久久三级| 国产成人精品无码免费看夜聊软件| 国产成人高清在线| 污污视频网站在线| 久久99精品国产.久久久久| 午夜视频在线瓜伦| 久久都是精品| 免费午夜视频在线观看| 国产精品五区| 午夜精品久久久久久久无码 | 久久久之久亚州精品露出| 亚洲制服国产| 欧美大奶子在线| 污视频在线免费观看网站| 另类色图亚洲色图| 国产网友自拍视频导航网站在线观看| 在线视频精品一| av在线电影免费观看| 一本色道久久88综合日韩精品| 激情综合闲人网| 中文字幕欧美日韩va免费视频| av在线电影网| 久久精品视频在线播放| 国产精品剧情一区二区在线观看 | 日本精品一区二区三区不卡无字幕 | 91精品国产综合久久久久久久久久| 中文字幕永久在线观看| 欧美撒尿777hd撒尿| 91极品身材尤物theporn| 欧美伦理视频网站| jlzzjlzz亚洲女人18| 精品精品欲导航| 深爱五月激情五月| 亚洲欧洲午夜一线一品| 在线免费av电影| 久久躁狠狠躁夜夜爽| 在线观看男女av免费网址| 国产69精品久久久久9| 校园春色亚洲| 国产精品久久久久久久app| 亚洲免费资源| 国产精品福利视频| 一区二区导航| 色中文字幕在线观看| 欧美另类综合| av网站在线观看不卡| 免费成人在线网站| 97免费公开视频| 91麻豆蜜桃一区二区三区| 成人黄色短视频| 亚洲午夜三级在线| 天天干,天天干| 日韩一区二区在线观看视频| 午夜一区在线观看| 最近中文字幕2019免费| 日本性爱视频在线观看| 欧美有码在线观看视频| 欧美成人家庭影院| 国产一区二区高清不卡| 不卡一区2区| 91网站在线观看免费| 久久美女性网| 日韩精品aaa| 91在线小视频| 午夜国产小视频| 亚洲成av人片一区二区梦乃| 国产一级精品毛片| 精品欧美一区二区在线观看| 韩国福利在线| 久久久久久久久网站| 国产极品一区| 久久亚裔精品欧美| 888久久久| 日本老熟妇毛茸茸| 成人福利视频在线看| 激情高潮到大叫狂喷水| 五月天网站亚洲| 国产精品探花视频| 亚洲人成在线一二| 成人国产电影在线观看| 国产女人18毛片水18精品| 国产一区二区三区不卡av| 曰韩不卡视频| 日韩一区欧美二区| 欧美无人区码suv| 亚洲欧美国产高清| 亚洲av综合一区| 亚洲精品一区久久久久久| 亚洲卡一卡二| 91亚洲精华国产精华| 成人aaaa| www黄色在线| 91老师片黄在线观看| 久久人人爽人人爽人人| 在线成人免费视频| 成年人视频在线看| 欧美在线视频观看免费网站| jizz性欧美2| 喜爱夜蒲2在线| 韩国女主播成人在线观看| 亚洲最大成人综合网| 一本色道久久综合亚洲91| 天堂中文网在线| 午夜精品久久久久久久白皮肤| 九色精品蝌蚪| 午夜久久久久久久久久久| 极品少妇一区二区| 日本黄区免费视频观看| 色婷婷久久久亚洲一区二区三区| 亚洲欧美日本在线观看| 午夜精品福利电影| 国产精品chinese在线观看| 大荫蒂性生交片| 丁香六月综合激情| 麻豆一区二区三区精品视频| 欧美大肚乱孕交hd孕妇| 污污网站在线看| 岛国一区二区三区高清视频| 欧美精品色网| 日本美女视频网站| 亚洲夂夂婷婷色拍ww47| 丰满熟女一区二区三区| 欧美极度另类性三渗透| 精品亚洲自拍| 国产精品97在线| 国产色一区二区| 18国产免费视频| 日韩在线免费高清视频| 亚洲国产aⅴ精品一区二区三区| 一区二区三区av在线| 国产在线精品一区二区 | 欧美性猛交xxxx乱大交极品| 三级在线播放| 国产精品三级在线| 国产精品久久久久久麻豆一区软件| 粉色视频免费看| 亚洲六月丁香色婷婷综合久久| 精品人妻无码一区二区色欲产成人 | 国产原创精品| 免费在线观看成人av| av手机在线播放| 日韩一级大片在线观看| 国产探花在线观看| 久久国产精品一区二区三区| 日韩精品91亚洲二区在线观看| 性生交大片免费全黄| 欧美成人r级一区二区三区| 免费成人在线电影| 视频一区二区综合| 国产真实乱子伦精品视频| 香蕉视频一区二区| 亚洲视频日韩精品| 2020国产精品小视频| 亚洲国产精品无码观看久久| 久久亚洲一级片| 国产男男gay网站| 性色av一区二区三区在线观看| 欧美日韩在线网站| 日本成人在线免费| 欧洲中文字幕精品| 青草影视电视剧免费播放在线观看| 精品伊人久久大线蕉色首页| 免费日本视频一区| 伊人365影院| 日韩最新免费不卡| 精品三级av在线导航| 中文字幕在线观看第三页| 一区二区三区四区在线| 激情小视频在线观看| 国产精品免费在线| 日本午夜精品视频在线观看| 久久久久久久久久久久久久久久久 | 国产精品香蕉在线观看| 亚洲三级电影在线观看| 国产小视频你懂的|