精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

集成500+多模態現實任務!全新MEGA-Bench評測套件:CoT對開源模型反而有害?

人工智能 新聞
MEGA-Bench是一個包含500多個真實世界任務的多模態評測套件,為全面評估AI模型提供了高效工具。研究人員發現,盡管頂級AI模型在多個任務中表現出色,但在復雜推理和跨模態理解方面仍有提升空間。

隨著人工智能技術的進步,多模態大模型正逐漸應用于多個領域,極大地提升了機器在視覺、文本等多種信息模式下的理解和生成能力。這些模型不僅用于對話、圖片標注、視頻分析等較常見的任務,還被廣泛應用在復雜場景中,如程序編寫、醫療影像診斷、自動駕駛、虛擬助手中的多模態交互,甚至用于游戲策略分析與操作應用程序。

然而,全面、系統地評測多模態大模型的能力需要投入大量的資源。

最近,加拿大滑鐵盧大學TIGER Lab的MEGA-Bench團隊的研究人員提出了一個全新的評測套件,集成了500多種任務,涵蓋廣泛的多模態任務場景,支持多種輸入和輸出格式,以一個相對較低的測試成本為模型產生詳盡的多維度分析報告,旨在為多模態模型的全面能力評估提供一個更加高效且不失全面性的工具。

圖片

項目主頁:https://tiger-ai-lab.github.io/MEGA-Bench/

論文鏈接:https://arxiv.org/abs/2410.10563

數據鏈接:https://huggingface.co/datasets/TIGER-Lab/MEGA-Bench·

排行榜:https://huggingface.co/spaces/TIGER-Lab/MEGA-Bench

代碼鏈接:https://github.com/TIGER-AI-Lab/MEGA-Bench

更具體的,MEGA-Bench的505個任務來自8個廣義的任務大類(如信息提取、數學、規劃、感知、代碼等,詳見圖1),如圖2所示,這些任務涵蓋7種常見的視覺輸入類型(包括了單圖,多圖,以及視頻),6種不同的輸出格式,以及10種多模態核心能力;還根據任務的具體需求,定制了40余種測試metrics

圖片

研究人員在MEGA-Bench上評估了前沿的多模態大模型并得到了一些有趣的發現:

1. 頭部商用模型中,GPT-4o與新版Claude 3.5 Sonnet獲得了幾乎一樣的總分,且多維度分析顯示,新版Claude 3.5 Sonnet與舊版相比,在規劃任務以及處理圖形界面、信息圖表類視覺輸入上性能提升明顯,與Anthropics推廣的「computer use」的應用場景相符。

2. 在開源模型中,Qwen2-VL在各維度上的性能都有明顯的領先優勢,其總分相比其他開源模型有超過10分的優勢。

3. 「思維鏈提示」(Chain-of-Thought prompting)普遍對商用模型的效果有明顯提升,卻對大部分開源模型帶來負面的效果。

圖片

三大局限

現有的評測體系在三個方面仍存在明顯局限:

1. 輸出格式的真實性與多樣性

由于早期多模態大模型的指令跟隨能力有限,模型在回答問題時未必能按照規定格式輸出,這使得自動評估回答的準確性變得困難。為簡化評測過程,許多現有的多模態基準測試(如MMBench、MMMU)采用了選擇題形式,方便系統直接判斷回答是否正確。

然而在實際應用中,人們與模型的交互方式很少是選擇題形式,且隨著模型理解和生成能力的快速提升,這種設計顯得不夠真實。因此,評測體系需要支持更豐富且貼近實際的輸出格式,以更好地反映模型在真實場景中的表現。

2. 多模態任務的覆蓋廣度

大部分多模態數據集往往集中在單一類型的任務上,缺乏對多模態任務的廣泛覆蓋。

例如,MMMU的任務來自大學以上難度的各種不同學科的考題,MMBench、MMT-Bench主要集中于傳統視覺任務及其變種,MathVista、MathVision著重考察數學相關任務,等等。

這種局限性導致了評測時需要使用多個數據集才能涵蓋不同多模態任務,而無法通過一個統一評測集來全面且便捷地衡量模型的各方面能力。

3. 較高的測試成本

使用多個數據集進行測試不僅費時,還帶來了較高的成本。例如,不同數據集中重復性較高的樣本導致資源浪費。

類比考試測試,高考不需要對每個學科出1000道題的試卷來評估學生在這個學科的能力,只需選擇具有代表性的題目組成一份考卷,即可在有限時間內準確區分不同學生的水平。多模態模型的評測也應朝著高效與全面的方向發展,以減少冗余并優化資源利用。

Benchmark具體介紹

Benchmark構建過程

圖片

MEGA-Bench的構建過程始于任務分類樹的設計。首先定義了一個初步的分類樹,將任務按照大類劃分為“感知”、“規劃”和“推理”等頂層類別,每個大類下再細分為更具體的子類,如“文檔理解”、“應用理解”和“邏輯推理”等。這種自上而下的分類框架確保了任務覆蓋的廣度,并減少了重復任務的可能性。

接下來,MEGA-Bench團隊分配了不同的分類節點給標注專家進行具體任務的設計和創建。團隊的16位標注專家來自計算機科學、電子工程、生物統計等多個領域,負責在其分配的領域內精細化任務分類樹并添加具體任務。

每個標注專家可以對分類樹進行微調,例如新增或刪除任務節點,以保證任務的獨特性和多樣性。

為簡化標注過程,研究人員開發了一系列輔助工具,包括:

1. 交互式標注工具:該工具幫助標注人員定義任務格式,并自動生成標準化的JSON文件,從而確保所有任務的格式一致性。

2. 任務提交與審核平臺:通過GitHub平臺管理任務的提交、審核和討論流程,類似于NLP的BIG-bench的收集流程。標注人員可以通過提交拉取請求(Pull Request)的方式更新任務,核心貢獻者則負責審核并提供反饋。

3. 可視化工具:標注專家可以實時查看模型在各個任務上的表現,這不僅幫助他們理解任務的難度,還可以根據模型反饋改進任務質量。

整個標注過程分為兩個階段:

在第一階段中,每位標注專家被要求設計20個任務,確保數據源的多樣性并提供至少15個實例。團隊對提交的任務進行了初步審核,模型的表現結果也通過可視化平臺提供給標注人員,幫助他們調整任務的難度。

在第二階段中,團隊集體回顧了第一階段創建的任務,找出任務分布的偏差以指導后續的標注、平衡任務覆蓋,最終構建出505個高質量任務和約8,200個實例。

為了確保任務的標注質量,需要隨著新任務的增加,周期性的對最先進的多模態模型(如GPT-4o和Claude 3.5 Sonnet)進行評測,以便標注人員可以直觀了解每個任務的難度并適當調整。

例如,對于評分接近滿分的任務,要求標注人員增加任務的難度,以避免評測時無法區分模型能力的情況;對于平均評分幾乎為零分的任務,作者手動檢查是否存在標注錯誤或者不清晰的任務指令,并將這類標注樣本刪除。

經過多輪優化,MEGA-Bench最終成為一個涵蓋全面且高效的多模態評測套件,為研究人員提供了精確且豐富的模型能力分析。

多樣化的輸出格式評估指標

為了適應不同的輸出格式,MEGA-Bench開發了豐富的評估指標。主要包括:

1. 基于規則的評分:適用于單一答案或能夠通過規則驗證正確性的任務,包括選擇題,各種帶條件的文本匹配,代碼執行結果比較,等等。

2. LLM輔助評分:對于開放式任務,使用大型語言模型(LLM)輔助對模型生成的回答進行評分,以評估生成的準確性和流暢性。這種LLM-as-a-judge的評測方式在較新的大模型評測中已相當常見。

這種評估體系使MEGA-Bench能夠靈活應對多種輸出類型,并提高了評測的準確性和靈活性。所有任務被分成兩個子集,核心集(Core set)用基于規則的評分進行評測,開放集(Open-ended set)用LLM輔助評分。

下圖給出了一些任務輸出的例子以及對應的評測指標。在標注過程中,評測指標根據新增任務的需求而「按需實現」。

圖片

其他測評集的對比

圖片

MEGA-Bench包含505個真實任務,總計8,186個標注樣本。如上表所示,與現有多模態基準相比,其在數據源、輸入輸出格式、評估指標的多樣性和任務數量上都具備顯著優勢。

這種設計使得可以通過較小的成本得到詳盡的多維度模型分析報告,不僅提升了評測范圍的廣度,也讓模型評測更加經濟高效,為多模態模型的全面分析提供了可靠便捷的工具。

評測結果與分析

圖片

主要結果與多維度關鍵詞分析

在MEGA-Bench上,研究人員對22種多模態大模型進行了廣泛的評估,包括大型旗艦模型(Flagship models)和高效版模型(Efficienty models),深入分析了它們在不同任務和維度上的表現。以下是主要的評測結果和發現:

圖片

旗艦模型的表現

在旗艦級別的大模型中,新版的Claude 3.5 Sonnet和GPT-4o表現最為優異,兩者在多個任務中展現了極強的能力。

具體來說:

1. Claude 3.5 Sonnet在規劃、數學推理等任務中表現出色,尤其在規劃相關任務(如路徑規劃、邏輯推理)上略有優勢。

2. GPT-4o在信息提取和知識密集型任務中表現更好,展現了優異的自然語言理解和信息提取能力。總的來說,新版Claude 3.5 Sonnet和GPT-4o在整體評分上接近,差異小于0.1%

開源模型的競爭力

在開源模型中,Qwen2-VL的表現尤為突出。與部分閉源旗艦模型相比,Qwen2-VL在感知任務和信息提取方面的表現相當,甚至在信息提取類任務中超越了Gemini 1.5 Pro等部分閉源模型。

此外,Qwen2-VL在整體評分上領先其他開源模型約10%,成為當前開源多模態模型中的領先者。

高效版模型的表現

在參數較小的高效版模型中,Gemini 1.5 Flash總體表現最佳,尤其在科學和度量任務上取得了出色的分數。度量類任務包括對生成式AI結果質量的評分等,通常需要深層的多模態推理和常識判斷。

然而,Gemini 1.5 Flash在用戶界面相關的輸入和信息提取任務上的表現落后于GPT-4o mini。

盡管高效模型的性能不及旗艦級模型,但其較低的計算資源需求和高性價比使其在特定應用場景中具有重要應用價值。

思維鏈提示(CoT)的效果

評測顯示,思維鏈提示(Chain-of-Thought, CoT)對旗艦級閉源模型的推理能力有較顯著的提升。

具體而言,加入思維鏈提示后,Claude 3.5 Sonnet和GPT-4o等模型能夠生成更為詳盡的推理過程,從而提高了任務的完成質量。

然而,大部分開源模型在加入CoT提示后未能表現出明顯的改進,甚至在部分任務中因生成推理過程而影響了輸出格式的準確性。

總體上,CoT提示對閉源旗艦模型效果顯著,但對開源模型的幫助有限。

更多分析

圖片

任務樣本數量的影響

為了平衡評測的覆蓋廣度、標注成本,以及評測時的計算成本,MEGA-Bench在每個任務中平均包含約15個樣本,這一設置旨在優化評估效率,但是存在導致評測結果方差較大的可能性,作者對此進行更詳細的分析(上圖左)。

通過對任務樣本數量的實驗,可以發現隨著每個任務樣本數量的增加,模型評分的方差逐漸縮小。起初的下降速遞非常快,當樣本數量達到7個以上時,方差的下降幅度明顯減緩。

從11增加到15個樣本的過程中,方差減小已不明顯。這表明在現有樣本數量下,模型評分已具備較好的穩定性。

因此,MEGA-Bench通過增加任務的廣度而非單一任務的樣本數,在覆蓋范圍和評估成本之間找到了平衡,而且沒有因此影響到評測分數的穩定性。

錯誤分析

為了深入理解當前多模態模型的不足之處,作者手動對GPT-4o在255個任務的結果進行了詳細的錯誤分析。

上圖(右)的分析結果顯示,推理能力的缺失是模型在MEGA-Bench任務上失敗的主要原因。具體來說,模型在符號推理、空間和時間推理等復雜任務上表現較弱。

此外,模型還在感知任務中出現了較高比例的錯誤,這些任務通常涉及對視覺信息的精確理解和解析。并且,還可以觀察到模型在某些任務中未能遵循指令或缺乏知識背景,這些因素導致了錯誤的回答。

GPT-4o的錯誤分布揭示了當前的頂級多模態模型在復雜推理和跨模態理解方面的不足,為未來模型的改進提供了方向。

總結

MEGA-Bench是一個覆蓋廣泛、結構嚴謹的多模態評測套件,為全面評估多模態大模型的能力設立了新的標準。

通過多樣化的任務設計和多維度的評估指標,MEGA-Bench揭示了各類模型在實際應用中的優勢和不足。作者提供了交互式的可視化工具,便于研究者深入探索模型的表現。

此外,項目主頁提供了交互式可視化工具幫助分析,Hugging Face Space中的排行榜提供了最新的各模型詳細評分。


責任編輯:張燕妮 來源: 新智元
相關推薦

2009-05-11 15:53:39

開源LinuxUbuntu

2025-10-15 14:02:29

AI模型自動駕駛

2025-05-14 08:51:00

2025-05-28 11:55:56

模型開源框架

2025-07-31 02:00:15

谷歌測試AI模型

2025-11-11 13:50:17

2025-03-19 09:30:00

2024-10-14 14:10:00

大模型AI開源

2025-09-10 07:00:00

AIGenAI人工智能

2025-01-08 08:21:16

2025-06-16 14:39:56

模型開源框架

2015-04-23 16:28:06

開發項目編程習慣

2014-10-13 11:00:14

編程習慣不良開發項目

2014-09-24 10:18:29

開發者開發習慣

2023-12-04 13:40:09

AI訓練

2025-11-11 08:45:00

2024-01-22 13:59:00

模型訓練

2024-09-10 12:11:18

2024-08-30 15:19:22

2025-01-02 11:01:45

點贊
收藏

51CTO技術棧公眾號

国产精品毛片久久久| 大地资源网3页在线观看| 久久久久99| 日韩一区二区三区xxxx| 久久久久久国产精品日本| 久久青青色综合| 久久久久久久久久久电影| 国产精品中文久久久久久久| 九九视频免费看| 蜜桃精品wwwmitaows| 5月丁香婷婷综合| 国产原创popny丨九色| 国产在线观看免费网站| 国产福利一区二区三区| 国产97色在线| 国产极品美女高潮无套嗷嗷叫酒店| 国产传媒欧美日韩成人精品大片| 91精品欧美福利在线观看| 日日碰狠狠添天天爽超碰97| 老司机在线看片网av| 91色porny| 91成人在线看| 一级全黄少妇性色生活片| 国产欧美大片| 欧美日韩国产成人| 日韩精品久久久久久久的张开腿让| 欧美黄色网视频| 欧美一区二区三区喷汁尤物| 国产精品人人爽人人爽| 天堂8中文在线最新版在线| 亚洲美女精品一区| 一本色道久久综合亚洲二区三区| 日本一级在线观看| 不卡视频在线看| 91精品国产综合久久久久久丝袜 | 欧美性极品少妇精品网站| 蜜臀av性久久久久蜜臀av| 成人午夜电影在线观看| www激情久久| 国产综合动作在线观看| 亚洲精品视频91| 国产精品影视网| 成人在线视频福利| 中文字幕在线观看国产| 日日摸夜夜添夜夜添精品视频| 性色av一区二区咪爱| 精品无码久久久久久久久| 综合色一区二区| 久久视频这里只有精品| frxxee中国xxx麻豆hd| 色综合久久一区二区三区| 在线播放亚洲激情| 天堂在线中文视频| 日韩综合一区| 日韩有码视频在线| www欧美com| 欧美大片一区| 色综合久久悠悠| 国产亚洲精品女人久久久久久| 午夜国产一区| 国模精品视频一区二区| 全部毛片永久免费看| 亚洲国产导航| 日本午夜精品理论片a级appf发布| 国产精品久久久久久久久久久久久久久久久| 在线欧美一区| 欧美亚洲视频一区二区| 国产第一页在线观看| 日本女优在线视频一区二区 | 一区二区三区四区高清视频| 欧美va亚洲va香蕉在线| 六十路息与子猛烈交尾| 日韩三级av| 在线不卡国产精品| 波多野结衣不卡视频| 在线观看一区视频| 欧洲亚洲免费在线| 在线观看毛片av| 国产精品一区二区x88av| 国产精品久久久久av福利动漫| 天天射天天操天天干| 国产日韩av一区二区| 亚洲 欧洲 日韩| xxx.xxx欧美| 欧美色videos| 91亚洲精品久久久蜜桃借种| 在线精品自拍| 亚洲精品中文字幕av| 永久av免费网站| 亚洲伦理精品| 成人国产精品av| 天堂网av2014| 国产精品久久久久久久久久久免费看| 日韩中文在线字幕| 午夜影视一区二区三区| 5858s免费视频成人| 欧美做受喷浆在线观看| 天天综合久久| 日本久久亚洲电影| 性猛交富婆╳xxx乱大交天津| 久久亚洲免费视频| 久久www视频| 日韩av首页| 精品国产免费久久| 午夜国产福利视频| 久久午夜精品| 国产 高清 精品 在线 a | 九九精品视频在线观看| 91视频久久久| 成人永久aaa| 亚洲日本一区二区三区在线不卡| 久久男人av资源站| 欧美一二三区在线观看| 特级西西www444人体聚色 | 日本人视频jizz页码69| 中文字幕视频精品一区二区三区| 在线视频国产日韩| 欧美videossex极品| 国产成人精品一区二区三区网站观看| 日韩影院一区| 偷拍中文亚洲欧美动漫| 亚洲国产婷婷香蕉久久久久久| 日本黄色片免费观看| 日韩电影在线观看电影| 久久久久久久久一区| 欧美78videosex性欧美| 884aa四虎影成人精品一区| 69精品无码成人久久久久久| 性色一区二区| 精品一区二区三区自拍图片区| 欧美亚洲系列| 日韩欧美一级特黄在线播放| 日本中文在线视频| 黄页视频在线91| 在线视频不卡一区二区三区| 三上悠亚激情av一区二区三区| 亚洲精品成人免费| 日韩免费一二三区| 国产在线更新| 深夜福利亚洲| 这里只有精品电影| 亚洲不卡的av| 麻豆免费精品视频| 婷婷精品国产一区二区三区日韩| 欧美xxx性| 亚洲四色影视在线观看| 99久久久无码国产精品免费蜜柚| 久久久久久久久久电影| 国产日韩一区二区在线观看| 亚洲欧美校园春色| 日本乱人伦a精品| 国产中文字幕在线观看| 欧美视频一区二区三区四区 | 亚欧洲精品视频在线观看| 国产+人+亚洲| 天天干在线观看| 色婷婷亚洲精品| 国产主播av在线| 国产做a爰片久久毛片| 大片在线观看网站免费收看| 日本免费精品| 国产精品一区二区无线| 一本色道久久综合精品竹菊| 精品人妻无码中文字幕18禁| 欧美精品麻豆| 国产欧美一区二区三区另类精品 | 人妻一区二区三区| 无码av免费一区二区三区试看 | 丰满人妻一区二区三区大胸| 欧美日韩理论| 黄色99视频| 综合在线影院| 日韩视频免费大全中文字幕| 91精品视频免费在线观看| 亚洲人成网站影音先锋播放| 成年人小视频在线观看| 久久久久久一区二区| 亚洲人成网站在线观看播放 | 欧美成人一区二区三区在线观看| 伊人国产在线观看| 国产农村妇女毛片精品久久麻豆 | 国产精品毛片高清在线完整版| 国产三级精品三级在线| 欧美黄色一区| 日本不卡一区二区三区视频| 亚洲aⅴ网站| 97在线视频免费观看| 9色在线视频| 精品美女在线观看| 日韩精品在线一区二区三区| 亚洲精品ww久久久久久p站| 变态另类丨国产精品| 精品亚洲成a人在线观看| 免费国产黄色网址| 国产精品99在线观看| 久久这里精品国产99丫e6| 日韩成人一区| 26uuu久久噜噜噜噜| 精品黄色免费中文电影在线播放| 亚洲国产成人久久| 国产精品久久久久久在线| 天天亚洲美女在线视频| 国产美女久久久久久| 久久午夜羞羞影院免费观看| 俄罗斯女人裸体性做爰| 麻豆精品一区二区综合av| 日本a视频在线观看| 图片区亚洲欧美小说区| 欧洲在线视频一区| 成人在线超碰| 91美女片黄在线观看游戏| 日韩不卡免费高清视频| 韩国19禁主播vip福利视频| 日本高清中文字幕在线| 亚洲网站视频福利| 四虎免费在线观看| 日韩一级精品视频在线观看| 亚洲视频一区在线播放| 色素色在线综合| 日韩大片免费在线观看| 亚洲精品videosex极品| 在线观看亚洲网站| 国产精品久久久久久户外露出| 噜噜噜在线视频| 成人一区二区三区在线观看| 黄色a级三级三级三级| 免费在线欧美视频| 成人黄色一区二区| 免费视频一区二区三区在线观看| www.好吊操| 欧美人成在线| 色哺乳xxxxhd奶水米仓惠香| 色呦哟—国产精品| 亚洲自拍三区| 全球成人免费直播| 日韩一区二区三区资源| 欧美日韩有码| 少妇免费毛片久久久久久久久 | 粉嫩一区二区三区在线看| 亚洲综合伊人久久| 国产综合久久久久久鬼色 | 91动漫在线看| 一区二区亚洲| 国产二区视频在线| 1024日韩| 日韩人妻精品无码一区二区三区| 中文亚洲字幕| 国产中文字幕免费观看| 久久成人国产| 日本熟妇人妻中出| 日韩精品乱码免费| 欧美婷婷精品激情| 久久er99热精品一区二区| 奇米视频888| 国产真实乱子伦精品视频| 国产999免费视频| 国产福利一区二区| 男男做爰猛烈叫床爽爽小说| 26uuu精品一区二区| 精品欧美一区二区久久久| 日本一区二区在线不卡| 免费看一级黄色| 亚洲乱码国产乱码精品精的特点| 久久久久亚洲av无码专区| 午夜视频一区在线观看| 国产成人无码av| 欧美挠脚心视频网站| 亚洲av综合色区无码一二三区| 日韩av一区在线| 浮生影视网在线观看免费| 久久精品国产综合| av伦理在线| 国产成人一区二区三区小说| 国产精品99久久免费| 国产伦精品一区二区三区四区视频| 亚洲国产精品嫩草影院久久av| 亚洲7777| 在线不卡亚洲| 色国产在线视频| 风间由美性色一区二区三区| 波多野吉衣中文字幕| 亚洲欧美在线视频| 日韩字幕在线观看| 欧美日韩视频在线第一区| www.热久久| 亚洲视频一区二区三区| 2024最新电影免费在线观看| 青草青草久热精品视频在线网站| 婷婷成人av| 精品日本一区二区三区在线观看| 日本一区二区在线看| 日韩视频在线视频| 久久精品99国产精品| 国产黑丝一区二区| 亚洲视频在线一区二区| 日日噜噜噜噜人人爽亚洲精品| 欧美精品xxxxbbbb| 日韩av资源站| 欧美国产亚洲精品久久久8v| 国产精品亚洲一区二区三区在线观看| 99精品欧美一区二区三区| 凹凸成人精品亚洲精品密奴| 91午夜在线观看| 国产真实乱子伦精品视频| 熟女俱乐部一区二区视频在线| 国产精品久久久久久久岛一牛影视| 亚洲 欧美 视频| 日韩女同互慰一区二区| av在线电影观看| 欧美在线视频在线播放完整版免费观看| 国产一区一区| 亚洲蜜桃在线| 久久人人超碰| 国产亚洲无码精品| 亚洲一区在线视频观看| 国产又黄又粗又长| 国产一区二区三区丝袜| 久久男人天堂| 国产精品视频免费观看| 欧美在线亚洲综合一区| 午夜精品久久久久久久99热影院| 国产丝袜欧美中文另类| 毛片毛片女人毛片毛片| 亚洲国产一区二区三区四区| 国产美女一区视频| 99re在线国产| 亚洲综合小说| caoporm在线视频| 国产精品成人免费精品自在线观看| 丰满人妻老熟妇伦人精品| 精品视频www| 丝袜老师在线| 九色91在线视频| 亚洲精品激情| 麻豆精品国产传媒av| 亚洲国产精品影院| 成人毛片视频免费看| 欧美激情二区三区| 红杏aⅴ成人免费视频| 国产一区二区三区乱码| 国产成人日日夜夜| 久久久99精品| 精品国产污网站| 538在线视频| 国产精品swag| 99av国产精品欲麻豆| 国产又粗又猛又色| 精品欧美aⅴ在线网站| 日韩大片b站免费观看直播| 日本高清视频一区| 国产一区二区三区四区五区| 欧美亚洲日本在线观看| 国产精品乱码妇女bbbb| 国产精品久久影视| 久久99视频精品| 红杏视频成人| 欧美少妇性生活视频| 中文字幕欧美三区| 一级片一区二区三区| 欧美另类交人妖| 第一区第二区在线| 国产男女在线观看| 国产精品五月天| 亚洲成人77777| 91精品国产91久久久久久最新 | 丝袜人妻一区二区三区| 99精品国产热久久91蜜凸| 老熟妇仑乱一区二区av| 日韩一区二区三区在线播放| 亚洲三级av| 精品中文字幕av| 中文欧美字幕免费| www.黄色国产| 情事1991在线| 亚洲综合激情在线| 少妇精品一区二区三区| 欧美乱妇15p| h片在线观看视频免费免费| 色综合视频二区偷拍在线| 国产不卡免费视频| 无码人妻精品一区二区蜜桃色欲| 久久综合电影一区| 欧美激情极品| 性欧美在线视频| 精品福利免费观看| 好吊日视频在线观看| 精品午夜一区二区| 久久99国产精品麻豆| 国产一级做a爱片久久毛片a| 中文字幕亚洲色图| 大桥未久女教师av一区二区| 牛夜精品久久久久久久| 亚洲一区在线看| 欧美日韩欧美| 免费在线成人av| 国产精品123| 国产九色91回来了| 性欧美亚洲xxxx乳在线观看| 91一区二区| 免费观看av网站|