精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet

發(fā)布于 2024-9-24 10:19
瀏覽
0收藏

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2409.12191
Github鏈接:https://github.com/QwenLM/Qwen2-VL

亮點直擊
本文介紹了Qwen系列大型視覺語言模型的最新成員:Qwen2-VL系列,該系列包括三款開放權(quán)重模型,總參數(shù)量分別為20億、80億和720億。如圖1所示,Qwen2-VL的關(guān)鍵進展包括:

  • 在各種分辨率和寬高比上的最先進理解能力:Qwen2-VL在視覺基準測試中表現(xiàn)出色,包括DocVQA、InfoVQA、RealWorldQA、MTVQA、MathVista等。
  • 對長時間視頻(超過20分鐘)的理解能力:Qwen2-VL能夠理解超過20分鐘的視頻,增強了其進行高質(zhì)量視頻問答、對話、內(nèi)容創(chuàng)作等的能力。
  • 強大的設(shè)備操作代理能力:憑借先進的推理和決策能力,Qwen2-VL可以與手機、機器人等設(shè)備集成,實現(xiàn)基于視覺輸入和文本指令的自主操作。
  • 多語言支持:為了服務(wù)全球受眾,Qwen2-VL不僅支持英語和中文,還支持包括大多數(shù)歐洲語言、日語、韓語、阿拉伯語、越南語等在內(nèi)的多語言上下文理解。

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

效果展示

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

總結(jié)速覽

解決的問題

Qwen2-VL系列旨在重新定義傳統(tǒng)的固定分辨率視覺處理方法,解決了在處理不同分辨率圖像時的效率和準確性問題。

提出的方案

引入了“Naive Dynamic Resolution”機制,使模型能夠動態(tài)處理不同分辨率的圖像,并生成不同數(shù)量的視覺tokens,從而提升視覺表示的效率和準確性。

應(yīng)用的技術(shù)

  1. Naive Dynamic Resolution機制:動態(tài)處理圖像分辨率。
  2. Multimodal rotary position embedding (M-RoPE):有效融合文本、圖像和視頻的位置信息。
  3. 統(tǒng)一處理范式:同時處理圖像和視頻,增強視覺感知能力。
  4. 擴展規(guī)律:探索大規(guī)模視覺語言模型(LVLM)的擴展規(guī)律,通過模型大小(2B、8B和72B參數(shù))和訓練數(shù)據(jù)的增加來提升性能。

達到的效果

Qwen2-VL系列在各類多模態(tài)基準測試中表現(xiàn)出色,特別是Qwen2-VL-72B模型,其性能與領(lǐng)先模型如GPT-4o和Claude3.5-Sonnet相當,超越了其他通用模型。

方法

Qwen2-VL系列由三種大小的模型組成,分別為Qwen2-VL-2B、Qwen2-VL-7B和Qwen2-VL-72B。下表1列出了超參數(shù)和重要信息。Qwen2-VL在各種規(guī)模的LLM中采用了675M參數(shù)的Vison Transformer(ViT),確保了ViT的計算負載在不同規(guī)模的LLM中保持恒定。

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

模型架構(gòu)

下圖2展示了Qwen2-VL的全面結(jié)構(gòu)。保留了Qwen-VL框架,該框架集成了視覺編碼器和語言模型。

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

針對不同的規(guī)模適配,實現(xiàn)了一種具有大約675百萬參數(shù)的ViT,能夠處理圖像和視頻輸入。在語言處理方面,選擇了更強大的Qwen2語言模型系列。為了進一步增強模型有效感知和理解視頻中的視覺信息的能力,引入了幾個關(guān)鍵升級:


簡單動態(tài)分辨率:Qwen2-VL的一項關(guān)鍵架構(gòu)改進是引入了簡單動態(tài)分辨率支持。與其前身不同,Qwen2-VL現(xiàn)在可以處理任意分辨率的圖像,動態(tài)將其轉(zhuǎn)換為可變數(shù)量的視覺tokens。為支持此功能,修改了ViT,去除了原始的絕對位置嵌入,并引入了2D-RoPE,以捕捉圖像的二維位置信息。


在推理階段,不同分辨率的圖像被打包成一個單一序列,打包長度受到控制,以限制GPU內(nèi)存使用。此外,為減少每幅圖像的視覺tokens,在ViT后采用了一個簡單的多層感知器(MLP)層,將相鄰的2×2 token壓縮為一個token,并在壓縮的視覺tokens的開頭和結(jié)尾放置特殊的<|vision_start|>和<|vision_end|> tokens。因此,分辨率為224×224的圖像在使用patch_size=14的ViT編碼后,將在進入LLM之前壓縮為66個tokens。


Multimodal rotary position embedding (M-RoPE) 另一個關(guān)鍵架構(gòu)增強是Multimodal Rotary Position Embedding(M-RoPE)的創(chuàng)新。與傳統(tǒng)的1D-RoPE(用于LLM)僅能編碼一維位置信息不同,M-RoPE有效地建模了多模態(tài)輸入的位置信息。這通過將原始旋轉(zhuǎn)embedding分解為三個組成部分:時間、高度和寬度實現(xiàn)。對于文本輸入,這些組件使用相同的位置ID,使得M-RoPE在功能上等同于1D-RoPE。

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

在處理圖像時,每個視覺token的時間ID保持不變,而高度和寬度組件則根據(jù)token在圖像中的位置分配不同的ID。對于視頻,視為一系列幀,每幀的時間ID遞增,而高度和寬度組件遵循與圖像相同的ID分配模式。在輸入包含多種模態(tài)的情況下,每種模態(tài)的位置編號通過將前一模態(tài)的最大位置ID加一來初始化。M-RoPE不僅增強了位置信息的建模,還減少了圖像和視頻的位置ID值,使模型在推理時能夠推斷更長的序列。


統(tǒng)一的圖像與視頻理解 Qwen2-VL采用混合訓練方案,結(jié)合圖像和視頻數(shù)據(jù),確保在圖像理解和視頻理解方面的熟練度。為了盡可能完整地保留視頻信息,以每秒兩幀的頻率采樣每個視頻。此外,將3D卷積與深度為二的卷積結(jié)合,以處理視頻輸入,使模型能夠處理3D pipeline 而非2D塊,從而在不增加序列長度的情況下處理更多視頻幀。


為了保持一致性,每幅圖像被視為兩個相同的幀。為了平衡長視頻處理的計算需求與整體訓練效率,動態(tài)調(diào)整每個視頻幀的分辨率,將每個視頻的總tokens數(shù)限制為16384。該訓練方法在模型理解長視頻的能力與訓練效率之間取得了平衡。

訓練

遵循Qwen-VL,采用三階段訓練方法。在第一階段,專注于訓練ViT組件,利用大量圖像-文本對提升大型語言模型(LLM)的語義理解。在第二階段,解凍所有參數(shù),使用更廣泛的數(shù)據(jù)進行更全面的學習。最后階段,鎖定ViT參數(shù),專注于使用指令數(shù)據(jù)集進行LLM的微調(diào)。


模型在多樣化的數(shù)據(jù)集上進行預訓練,包括圖像-文本對、光學字符識別(OCR)數(shù)據(jù)、交錯的圖像-文本文章、視覺問答數(shù)據(jù)集、視頻對話和圖像知識數(shù)據(jù)集。數(shù)據(jù)源主要來自清理過的網(wǎng)頁、開源數(shù)據(jù)集和合成數(shù)據(jù),數(shù)據(jù)截止日期為2023年6月。這種多樣的數(shù)據(jù)組成對發(fā)展強大的多模態(tài)理解能力至關(guān)重要。


在初始預訓練階段,Qwen2-VL接觸到約6000億個tokens。Qwen2-VL的LLM組件使用Qwen2中的參數(shù)初始化,而視覺編碼器則基于DFN的ViT初始化。原DFN ViT中的固定位置embedding被RoPE-2D替代。此階段主要學習圖像-文本關(guān)系、通過OCR進行文本內(nèi)容識別以及圖像分類任務(wù),為模型建立視覺-文本關(guān)聯(lián)的扎實基礎(chǔ)。


第二階段的預訓練標志著重要進展,涉及額外的8000億個與圖像相關(guān)的數(shù)據(jù)。此階段引入了更多混合圖像-文本內(nèi)容,促進了對視覺和文本信息之間相互作用的更細致理解。視覺問答數(shù)據(jù)集的納入提升了模型對圖像相關(guān)查詢的響應(yīng)能力,同時,多任務(wù)數(shù)據(jù)集的引入對模型同時處理多種任務(wù)的能力至關(guān)重要,這在處理復雜的現(xiàn)實世界數(shù)據(jù)集時尤為重要。純文本數(shù)據(jù)繼續(xù)在維持和提高模型語言能力方面發(fā)揮關(guān)鍵作用。


在整個預訓練階段,Qwen2-VL處理了總計1.4萬億個tokens,包括文本tokens和圖像tokens。然而,訓練過程中僅對文本tokens提供監(jiān)督。這種對廣泛而多樣的語言和視覺場景的接觸確保模型深入理解視覺和文本信息之間的復雜關(guān)系,從而為各種多模態(tài)任務(wù)奠定堅實基礎(chǔ)。


在指令微調(diào)階段,采用ChatML格式構(gòu)建指令跟隨數(shù)據(jù)集。該數(shù)據(jù)集不僅包括純文本對話數(shù)據(jù),還包含多模態(tài)對話數(shù)據(jù)。多模態(tài)組件包括圖像問答、文檔解析、多圖像比較、視頻理解、視頻流對話和基于代理的交互。對數(shù)據(jù)構(gòu)建的綜合方法旨在增強模型理解和執(zhí)行各種模態(tài)下廣泛指令的能力。通過納入多樣化的數(shù)據(jù)類型,希望開發(fā)出更具多樣性和魯棒性的語言模型,能夠處理復雜的多模態(tài)任務(wù),以及傳統(tǒng)的基于文本的交互。

數(shù)據(jù)格式

與Qwen-VL一致,Qwen2-VL也使用特殊tokens來區(qū)分視覺和文本輸入。Tokens <|vision_start|>和<|vision_end|>插入在圖像特征序列的開始和結(jié)束,以劃定圖像內(nèi)容。


對話數(shù)據(jù) 在對話格式方面,使用ChatML格式構(gòu)建指令調(diào)優(yōu)數(shù)據(jù)集,每個交互的陳述用兩個特殊tokens(<|im_start|>和<|im_end|>),以便于對話的結(jié)束。藍色tokens的部分表示受監(jiān)督的部分。

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

視覺定位 為了賦予模型視覺定位能力,邊界框坐標被標準化到[0, 1000)范圍內(nèi),并表示為"(, ), (, )"。Tokens <|box_start|>和<|box_end|>用于標記邊界框文本。為了準確地將邊界框與其文本描述聯(lián)系起來,引入了tokens <|object_ref_start|>和<|object_ref_end|>,以指示邊界框所引用的內(nèi)容,從而使模型能夠有效地解釋和生成特定區(qū)域的精確描述。

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

視覺Agent 為了將Qwen2-VL發(fā)展為通用的VL-Agent,將各種代理任務(wù)(如UI操作、機器人控制、游戲和導航)視為順序決策問題,使Qwen2-VL能夠通過多步行動執(zhí)行來完成任務(wù)。對于每個任務(wù),首先定義一組可允許的動作和關(guān)鍵詞模式(下劃線)以供功能調(diào)用。然后,Qwen2-VL分析觀察結(jié)果,進行推理和規(guī)劃,執(zhí)行所選動作,并與環(huán)境互動以獲取新觀察。這一循環(huán)反復進行,直到任務(wù)成功完成。通過整合各種工具并利用大型視覺語言模型(LVLM)的視覺感知能力,Qwen2-VL能夠迭代執(zhí)行涉及現(xiàn)實世界視覺交互的日益復雜的任務(wù)。

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

多模態(tài)模型基礎(chǔ)設(shè)施

Qwen2-VL模型在阿里云的PAI-Lingjun智能計算服務(wù)上進行訓練,利用其可擴展的計算、自動恢復和延遲檢測功能。


存儲 使用阿里云的超高速CPFS(云并行文件存儲)構(gòu)建Qwen2-VL的預訓練和后訓練存儲系統(tǒng)。將文本數(shù)據(jù)和視覺數(shù)據(jù)存儲解耦。文本數(shù)據(jù)簡單地存儲在CPFS上,并使用mmap進行高效訪問。視覺數(shù)據(jù)使用阿里云的OSS(對象存儲服務(wù))進行持久存儲。在訓練過程中,通過OSS的python-client并發(fā)訪問視覺數(shù)據(jù),并調(diào)整并發(fā)和重試參數(shù)以避免達到QPS(每秒查詢次數(shù))限制。視頻數(shù)據(jù)解碼是主要瓶頸,尤其是對于長視頻。在幾次嘗試開源(FFmpeg開發(fā)者)和內(nèi)部軟件失敗后,研究者們選擇了緩存解碼技術(shù)。檢查點保存每個GPU的優(yōu)化器和模型狀態(tài)在CPFS上。


并行性 使用3D并行性,結(jié)合數(shù)據(jù)并行性(DP)、張量并行性(TP)和 pipeline 并行性(PP)來擴展Qwen2-VL模型訓練。還利用DeepSpeed的zero-1冗余優(yōu)化器進行狀態(tài)分片以節(jié)省內(nèi)存。使用選擇性檢查點激活的序列并行性(SP)以減少內(nèi)存使用。當啟用TP訓練時,總是將視覺編碼器和大型語言模型一起分片,但不對視覺合并進行分片,因為其參數(shù)相對較少。我們發(fā)現(xiàn)TP訓練會導致不同的模型共享權(quán)重,這是由于卷積操作的非確定性行為。我們通過對共享權(quán)重進行離線減少解決了這個問題,從而避免了額外的全歸約通信步驟。這種方法對性能的影響非常小。


研究者們利用1F1B PP進行Qwen2-VL 72B的訓練。我們將視覺編碼器、視覺適配器和幾個LLM的解碼器層組合為一個階段,并均勻分割剩余的解碼器層。請注意,視覺和文本序列長度對于每個數(shù)據(jù)點都是動態(tài)的。在啟動1F1B過程之前廣播動態(tài)序列長度,并使用批索引訪問形狀信息。還實現(xiàn)了交錯的1F1B PP,但發(fā)現(xiàn)其速度比標準1F1B設(shè)置慢。


軟件 使用PyTorch版本2.1.2與CUDA 11.8進行訓練。此外,在視覺編碼器和LLM的訓練中利用閃存注意力以提高效率。還利用了融合操作符,如LayerNorm、RMSNorm和Adam。此外,在訓練過程中利用矩陣乘法中的通信與計算重疊。

實驗

與現(xiàn)有技術(shù)的比較

通過各種視覺基準、視頻任務(wù)和基于代理的評估來評估我們模型的視覺能力。Qwen2-VL在相同規(guī)模下表現(xiàn)出高度競爭力,取得了新的最先進(SoTA)結(jié)果。72B模型在大多數(shù)評估指標上始終提供頂尖性能,常常超越閉源模型,如GPT-4o和Claude 3.5-Sonnet。在文檔理解任務(wù)中,它表現(xiàn)出顯著優(yōu)勢。然而,在MMM基準中,本文的模型在處理更復雜和具有挑戰(zhàn)性的問題集時仍然落后于GPT-4o,表明Qwen2-VL-72B還有改進的空間。

定量結(jié)果

對Qwen2-VL系列在多種數(shù)據(jù)集上的廣泛評估進行展示,提供對模型在各方面能力的全面理解。

一般視覺問答

為了嚴格評估本文模型在一般視覺問答任務(wù)中的能力,研究者們在多種最先進的基準上進行了廣泛評估:RealWorldQA、MMStar、MMVet、MMT-Bench、MMBench、MMbench-1.1、MME和HallusionBench。


Qwen2-VL系列在這些基準上表現(xiàn)出色,72B模型始終達到或超過最先進的結(jié)果,而7B和2B變體也表現(xiàn)出強大的能力。在評估真實世界空間理解的RealWorldQA上,Qwen2-VL-72B的得分為77.8,超過了之前的最先進(72.2)和強有力的基線,如GPT-4o(75.4),展示了其對物理環(huán)境的優(yōu)越理解。


在評估真正多模態(tài)能力的MMStar基準中,Qwen2-VL-72B獲得68.3,超越了之前的最佳成績67.1,突顯了其在視覺和文本信息整合方面的能力。在MMVet上,Qwen2-VL-72B在16個復雜多模態(tài)任務(wù)中表現(xiàn)出色,取得了74.0,顯著超過強勁的競爭對手,包括GPT-4V(67.5),展示了其在應(yīng)對多樣化多模態(tài)挑戰(zhàn)中的多功能性。


在評估先進推理和指令跟隨的MMT-Bench中,Qwen2-VL-72B獲得71.7,明顯超過之前的最佳(63.4),展示了其在應(yīng)用專業(yè)知識和執(zhí)行視覺識別、定位、推理及規(guī)劃方面的能力。在評估細粒度能力的MMBench中,Qwen2-VL-72B在英語測試集上獲得86.5,匹配了最先進的水平,而在中文測試集上取得86.6,創(chuàng)下新基準。對于測量14個子任務(wù)中廣泛感知和認知能力的MME,Qwen2-VL-72B獲得累計得分2482.7,顯著超過之前的最佳(2414.7),突顯了其在視覺感知和高級認知任務(wù)中的先進能力。


這些綜合結(jié)果突顯了Qwen2-VL系列在一般視覺問答任務(wù)中的卓越能力。模型在真實世界空間理解、真正多模態(tài)整合、復雜推理、指令跟隨以及廣泛的感知和認知任務(wù)方面展現(xiàn)出先進能力。特別是72B模型在多種基準上持續(xù)表現(xiàn)優(yōu)越,使Qwen2-VL系列成為視覺問答領(lǐng)域的領(lǐng)先解決方案。我們的模型在處理視覺不可或缺的任務(wù)、整合核心視覺-語言能力以及在多樣化多模態(tài)場景中展現(xiàn)專業(yè)知識方面表現(xiàn)出色,涵蓋從基礎(chǔ)感知任務(wù)到復雜推理和規(guī)劃的廣泛能力。這一全面評估強調(diào)了Qwen2-VL系列在應(yīng)對最先進多模態(tài)基準所帶來的多面挑戰(zhàn)中的多功能性和有效性,從而為大型視覺-語言模型設(shè)立了新的標準。

文檔和圖表閱讀

在DocVQA、ChartQA、InfoVQA、TextVQA和AI2D數(shù)據(jù)集上測試了模型的OCR以及文檔和圖表理解能力。DocVQA/InfoVQA/ChartQA數(shù)據(jù)集側(cè)重于模型理解文檔、高分辨率信息圖表和圖表中的文本能力,而TextVQA數(shù)據(jù)集考察了模型理解自然圖像中文本的能力。

OCRBench數(shù)據(jù)集是一個混合任務(wù)的數(shù)據(jù)集,除了基于文本的視覺問答外,還關(guān)注數(shù)學公式解析和信息提取。AI2D數(shù)據(jù)集側(cè)重于科學圖表中包含文本的多項選擇題。還在OCRBench上測試了模型的OCR和公式識別能力,以及在MTVQA數(shù)據(jù)集上測試了模型的多語言O(shè)CR能力。


實驗結(jié)果表明,本文的模型在多個指標上達到了最先進水平,包括DocVQA、InfoVQA、TextVQA和OCRBench,展示了模型對多個領(lǐng)域圖像中文本內(nèi)容的良好理解能力。

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

多語言文本識別與理解

在多語言O(shè)CR方面,本文的模型超越了所有現(xiàn)有的通用LVLM。本文的模型不僅在公開的MTVQA數(shù)據(jù)集上優(yōu)于現(xiàn)有的LVLM(包括諸如GPT-4o、Claude 3.5 Sonnet等專有模型),還在內(nèi)部基準測試中在除阿拉伯語外的所有外語上超越了GPT-4o(見下表3)。

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

數(shù)學推理

在MathVista和MathVision數(shù)據(jù)集上進行了實驗,以評估數(shù)學推理能力。MathVista是一個綜合基準,包含6,141個多樣的數(shù)學和視覺任務(wù)示例。MathVision數(shù)據(jù)集包括3,040個embeddings在實際數(shù)學競賽中的視覺背景下的數(shù)學問題,涵蓋16個數(shù)學學科,并在五個級別上具有不同的難度。這些挑戰(zhàn)強調(diào)了LVLM展現(xiàn)強大視覺理解、深刻數(shù)學理解和良好邏輯推理能力的必要性。Qwen2-VL系列在MathVista上表現(xiàn)出色,取得70.5的成績,超越了其他LVLM。此外,它在MathVision上設(shè)定了新的開源基準,得分為25.9。

參照表達理解

在視覺定位任務(wù)方面,在RefCOCO、RefCOCO+和RefCOCOg數(shù)據(jù)集上評估了Qwen2-VL。結(jié)果如下表6所示,表明Qwen2-VL在通用模型中取得了頂級結(jié)果。得益于更合理的結(jié)構(gòu)設(shè)計,Qwen2-VL能夠感知高分辨率圖像中的細節(jié),從而顯著提高了性能。與通用和專用模型相比,這些模型的優(yōu)越性突顯了它們在推進視覺定位領(lǐng)域和實際任務(wù)中實現(xiàn)精確視覺理解的潛力。

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

視頻理解

在各種視頻理解任務(wù)上也評估了本文的模型,相關(guān)基準覆蓋從幾秒到長達一小時的視頻。下表4展示了Qwen2-VL及基線模型的性能。總體而言,Qwen2-VL在2B、7B和72B尺寸上表現(xiàn)強勁,其中Qwen2-VL-72B在MVBench、PerceptionTest和EgoSchema上取得了最佳性能。這展示了Qwen2-VL在視頻理解任務(wù)中的優(yōu)越能力,并且擴大Qwen2-VL的規(guī)模帶來了顯著的提升。對于具有挑戰(zhàn)性的Video-MME基準,該基準包括最長可達一小時的視頻,值得注意的是,我們在評估過程中將每個視頻提取的最大幀數(shù)限制為768,這可能影響了在較長視頻上的表現(xiàn)。未來的工作將集中在擴展Qwen2-VL以支持更長的序列,從而適應(yīng)更長的視頻。

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

視覺智能體

首先評估Qwen2-VL在通過函數(shù)調(diào)用與環(huán)境互動的能力,然后評估其通過多輪交互完成復雜決策任務(wù)的能力。該實現(xiàn)基于Qwen-Agent框架。


函數(shù)調(diào)用 與LLM中的函數(shù)調(diào)用不同,LVLM中的函數(shù)調(diào)用通常涉及從視覺線索中提取信息。由于缺乏評估LVLM在函數(shù)調(diào)用能力方面的公共基準,我們構(gòu)建了內(nèi)部評估數(shù)據(jù)集。

為構(gòu)建評估數(shù)據(jù)集,進行了以下程序:場景分類、圖像收集、圖像內(nèi)容提取,以及問題/函數(shù)/參數(shù)生成。首先,我們根據(jù)不同的視覺應(yīng)用將場景分類。隨后,從互聯(lián)網(wǎng)上下載并精心選擇每個類別的高質(zhì)量代表性圖像。利用先進的LVLM,分析每張圖像以提取關(guān)鍵視覺元素和文本信息。最后,基于圖像的內(nèi)容信息,使用先進的LLM生成一系列需要特定函數(shù)回答的問題,并指定這些函數(shù)調(diào)用所需的輸入?yún)?shù)。


研究者們設(shè)計了兩種指標來評估函數(shù)選擇的準確性和參數(shù)輸入的正確性:類型匹配(Type Match,TM)和精確匹配(Exact Match,EM)。


下表5所示,Qwen2-VL在Type Match(93.1對90.2)和Exact Match(53.2對50.0)上的表現(xiàn)優(yōu)于GPT-4o,這證明了Qwen2-VL在函數(shù)調(diào)用能力上的有效性,凸顯了其通過外部工具集成擴展應(yīng)用的顯著潛力。評估結(jié)果表明,GPT-4o的表現(xiàn)不佳,主要由于兩個因素:在不確定性場景中,GPT-4o表現(xiàn)出保守的態(tài)度,避免使用外部工具。此外,Qwen2-VL在光學字符識別(OCR)能力方面也優(yōu)于GPT-4o,尤其是在中文字符的處理上。

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

用戶界面操作/游戲/機器人/導航 為了評估Qwen2-VL處理復雜任務(wù)的能力,在多個視覺語言代理任務(wù)上進行了評估,包括移動操作、機器人控制、紙牌游戲和視覺語言導航等。由于這些任務(wù)需要多次行動才能完成,通過Qwen2-VL支持32K上下文長度來保留歷史(觀察、動作),然后在每次行動后附加新的觀察圖像,以實現(xiàn)對后續(xù)步驟的連續(xù)推理。


用戶界面操作使用AITZ任務(wù)評估Qwen2-VL,該任務(wù)構(gòu)建了一個基于AITW的核心干凈測試集。根據(jù)手機的常見操作模式,為Qwen2-VL定義了諸如點擊、輸入和滑動等操作,以便其與屏幕圖標進行交互以完成任務(wù)。例如,當Qwen2-VL被要求通過Google地圖尋找附近的披薩餐廳時,它應(yīng)在搜索框中輸入“pizza”,滑動選擇適當?shù)牟蛷d,并點擊對應(yīng)的鏈接。根據(jù)AITZ設(shè)置,報告了操作類型匹配(點擊、輸入或滑動的正確性)和精確匹配(點擊位置、輸入文本或滑動方向的正確性)。借助于用戶界面的基礎(chǔ)能力,Qwen2-VL超越了GPT-4和之前的最新技術(shù)水平。


機器人控制 在AI2THOR的ALFRED任務(wù)中評估Qwen2-VL。該任務(wù)要求智能體執(zhí)行復雜的家庭任務(wù),例如烤面包和切蘋果以準備餐點。為了在虛擬環(huán)境中工作,定義了高層次的動作(GotoLocation、Pickup、PutDown、Open、Close、Clean、Heat、Cool、Slice)作為動作集。此外,智能體需要定位可操作的物體(例如,只有在識別到蘋果時才能拾取它)。為提高操作準確性,整合了SAM。ALFRED任務(wù)報告任務(wù)成功率(SR)(例如,準備晚餐)和子目標完成率(GC)(例如,面包是否被烤熟或蘋果是否被切)。


紙牌游戲 利用來自RL4VLM的紙牌游戲環(huán)境來評估Qwen2-VL在一系列紙牌游戲中的表現(xiàn):Number Line、BlackJack、EZPoint和Point24。每個游戲提出了不同的挑戰(zhàn):

  1. 通過+1或-1操作達到目標數(shù)字;
  2. 抽取或保留牌與莊家競爭;
  3. 應(yīng)用基本算術(shù)運算達到總數(shù)12;
  4. 使用算術(shù)運算達到總數(shù)24。

報告任務(wù)的成功率,這不僅評估了智能體的能力,還需要強大的OCR技能來識別這些牌并理解游戲進程。Qwen2-VL在所有任務(wù)中表現(xiàn)優(yōu)越。


視覺語言導航 在視覺語言導航(VLN)任務(wù)中評估Qwen2-VL,使用R2R和REVERIE。在VLN中,模型必須根據(jù)指令和當前觀察自主確定下一個位置。我們報告該任務(wù)中到達預定目的地的成功率(SR)。Qwen2-VL的表現(xiàn)與GPT-4o相當,但兩者都顯著落后于當前專門的VLN模型。將這一差距歸因于模型從多個圖像生成的不完整和非結(jié)構(gòu)化的地圖信息。在三維環(huán)境中準確建模地圖和位置仍然是多模態(tài)模型面臨的重大挑戰(zhàn)。

消融研究

本節(jié)展示了關(guān)于圖像動態(tài)分辨率、M-RoPE和模型規(guī)模的消融研究。這些實驗旨在提供這些關(guān)鍵組件對模型性能影響的深入見解。

動態(tài)分辨率

如下表7所示,比較了動態(tài)分辨率與固定分辨率的性能。在固定分辨率下,調(diào)整圖像大小,以確保輸入到模型的圖像tokens數(shù)量保持恒定,而不是調(diào)整到特定的高度和寬度,因為這會扭曲原始寬高比。在動態(tài)分辨率中,我們僅設(shè)置了min_pixels=100 × 28 × 28和max_pixels=16384 × 28 × 28,允許圖像tokens的數(shù)量主要依賴于圖像的原始分辨率。可以觀察到,調(diào)整圖像大小僅導致性能的小幅波動,表明模型對不同圖像大小的魯棒性。此外,動態(tài)分辨率的方法效率更高。我們發(fā)現(xiàn)沒有單一固定分辨率在所有基準測試中都能達到最佳性能。相比之下,動態(tài)分辨率方法在平均消耗更少tokens的情況下,始終實現(xiàn)頂級性能。

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

單純增加圖像大小并不總是導致性能的提升。選擇適當?shù)姆直媛蕦Σ煌瑘D像更為重要。如下圖4所示,將小圖像放大到超過指定的min_pixels閾值。對放大圖像的評估顯示,在InfoVQA、HallusionBench和OCRBench等感知任務(wù)上性能增強。我們將這些增益歸因于增加的計算負載。然而,對于OCRBench,過高的min_pixels值導致嚴重的性能下降。這可能是因為OCRBench包含許多極小的圖像,過度放大會使這些圖像偏離訓練數(shù)據(jù)分布,變成超出分布的樣本。相反,增加min_pixels對MMMU基準的影響微乎其微。我們假設(shè)MMMU的性能瓶頸與模型的推理能力關(guān)系更大,而非圖像分辨率。

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

M-RoPE

本節(jié)展示了M-RoPE的有效性。首先,驗證其在各種下游任務(wù)中的能力。采用Qwen2-1.5B和ViT-L作為基礎(chǔ),并報告預訓練模型的結(jié)果。如下表8所示,與1D-RoPE相比,使用M-RoPE在下游任務(wù)中表現(xiàn)更佳,特別是在視頻基準測試中。

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

此外,在Video-MME中等長度視頻上評估了M-RoPE的長度外推能力。下圖5展示了Qwen2-VL-72B在不同推理長度下的性能。利用M-RoPE,模型在各種推理長度下表現(xiàn)穩(wěn)健。值得注意的是,盡管在訓練期間每個視頻的最大tokens限制為16K,但模型在最大推理長度達到80K tokens時仍表現(xiàn)出色。

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

模型規(guī)模

評估了不同規(guī)模模型在多個能力維度上的表現(xiàn)。具體而言,將這些維度分類為復雜的大學水平問題解決能力、數(shù)學能力、文檔和表格理解、一般場景問答以及視頻理解。通過對與每個維度相關(guān)的不同基準測試的得分進行平均,我們評估了模型的整體能力。


具體來說, 使用MMMU基準來表示大學水平的問題解決能力,同時,MathVista和MathVision的平均得分作為數(shù)學能力的指標。對于一般場景問答,計算RealWorldQA、MMBench-V1.1、MMT-Bench、HallBench、MMVet和MMStar基準的平均得分。

文檔和表格理解能力通過DocVQA、InfoVQA、ChartQA、TextVQA、OCRBench和MTVQA基準的平均得分體現(xiàn)。最后,視頻理解能力通過MVBench、Perception-Test、EgoSchema和Video-MME的平均得分進行測量。


如下圖6(a)所示,隨著模型規(guī)模的增加,性能呈現(xiàn)出一致的提升,特別是在數(shù)學能力方面,這與模型參數(shù)的數(shù)量呈正相關(guān)。另一方面,對于光學字符識別(OCR)相關(guān)任務(wù),即使是小規(guī)模模型的表現(xiàn)也相對強勁。

Qwen2-VL全面解讀!阿里開源多模態(tài)視覺語言模型,多項超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

如上圖6(b)所示,我們可視化了Qwen2-VL-7B在預訓練第二階段中模型性能與訓練tokens數(shù)量之間的關(guān)系。隨著訓練tokens數(shù)量的增加,模型性能有所提升;然而,在視覺問答(VQA)任務(wù)上,性能卻表現(xiàn)出一定波動。相比之下,對于AI2D和InfoVQA等任務(wù),這些任務(wù)涉及理解圖像中的文本和圖形信息,隨著訓練數(shù)據(jù)的增加,模型性能穩(wěn)步提升。

結(jié)論

本文介紹了Qwen2-VL系列,這是多功能的大型視覺語言模型,包括三個開放權(quán)重模型,參數(shù)總量分別為20億、80億和720億。Qwen2-VL在多種多模態(tài)場景中的表現(xiàn)與頂尖模型如GPT-4o和Claude3.5-Sonnet相匹配,超越了所有其他開放權(quán)重的LVLM模型。Qwen2-VL系列引入了簡單的動態(tài)分辨率和Multimodal rotary position embedding (M-RoPE),有效融合跨模態(tài)信息,并能夠理解超過20分鐘長度的視頻。憑借先進的推理和決策能力,Qwen2-VL可以與移動設(shè)備、機器人等設(shè)備集成。此外,Qwen2-VL現(xiàn)已支持理解圖像中的多語言文本,包括大多數(shù)歐洲語言、日語、韓語、阿拉伯語、越南語等。


目前已將Qwen2-VL模型權(quán)重開放獲取,允許研究人員和開發(fā)者在各種應(yīng)用和研究項目中充分利用其潛力。我們致力于推進人工智能技術(shù),增強其對社會的積極影響。


本文轉(zhuǎn)自 AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/YLwhukJ-WbtY8TN6Wtl1oA??

標簽
收藏
回復
舉報
回復
相關(guān)推薦
天堂中文8资源在线8| 波多野结衣高清视频| 狠狠一区二区三区| 欧美日韩亚洲一区二区| 亚洲五月六月| 成人免费视频国产| 老司机精品久久| 久久视频在线播放| 亚洲天堂网一区二区| 精品三级在线| 欧美午夜片欧美片在线观看| 一区二区在线不卡| 少妇高潮一区二区三区99小说 | 国产精品蜜臀在线观看| 91九色极品视频| 无码人妻精品一区二区蜜桃色欲| 欧美一区二区三区久久精品| 亚洲石原莉奈一区二区在线观看| 亚洲AV无码久久精品国产一区| 性爽视频在线| 亚洲自拍另类综合| 亚洲一区二区三区午夜| 亚洲色偷精品一区二区三区| 国产一区二区网址| 国产精品久久久久久久久久久不卡 | 久久久一本二本三本| 免费在线看黄网站| 久久久精品一品道一区| 国产精品一区二区三区在线 | 国语对白一区二区| 久久久久久免费视频| 亚洲欧洲日本专区| 黑丝av在线播放| 日韩亚洲精品在线观看| 欧美日韩1234| 人人爽人人av| 欧美人体一区二区三区| 性久久久久久久久久久久| 中文字幕乱码一区二区三区| 国产大片在线免费观看| 2022国产精品视频| 国产综合18久久久久久| 成人av一区二区三区在线观看| 免费成人美女在线观看.| 日本中文字幕成人| 成年人免费高清视频| 国产在线日韩| 欧美激情亚洲一区| 久久精品波多野结衣| 女生裸体视频一区二区三区| 久久精品99久久香蕉国产色戒| 中文字幕有码在线播放| 九一精品国产| 亚洲男人天堂手机在线| 亚洲成人av免费在线观看| 日本在线中文字幕一区| 亚洲精品久久7777777| 亚洲天堂美女视频| 欧美电影在线观看免费| 日韩av在线资源| 在线观看国产三级| 日韩精品亚洲aⅴ在线影院| 亚洲国产成人久久综合| 天天躁日日躁狠狠躁av| 精品福利一区| 亚洲免费电影一区| 97人妻人人揉人人躁人人| 色无极亚洲影院| 久久久成人的性感天堂| 婷婷久久综合网| 午夜国产精品视频| 欧美激情在线观看视频| 欧美一级视频免费观看| 久久免费国产| 国产日韩欧美在线看| 国产精品一级视频| 国产xxx精品视频大全| 国产综合色一区二区三区| 亚洲欧美日韩动漫| 国产精品毛片久久久久久久| 国产又粗又大又爽的视频| 俺来俺也去www色在线观看| 都市激情亚洲色图| 国产亚洲一区二区三区四区| 五月天精品一区二区三区| 青青青在线视频播放| √8天堂资源地址中文在线| 粉嫩老牛aⅴ一区二区三区| 国产又黄又猛又粗又爽的视频| 日日夜夜亚洲| 亚洲国产精品中文| 天堂久久精品忘忧草| 99久久.com| 992tv在线成人免费观看| 中文字幕第99页| 国产成人在线免费观看| 免费一区二区三区| 黄色动漫在线| 欧美午夜无遮挡| 日韩欧美亚洲另类| 日韩欧美影院| 久久色免费在线视频| 国产日产精品一区二区三区| 看国产成人h片视频| 国产精品一区二区欧美黑人喷潮水| 国产综合在线观看| 一区二区三区鲁丝不卡| 已婚少妇美妙人妻系列| 日韩黄色av| 亚洲偷欧美偷国内偷| 久久久久久久久久久网| 免费国产亚洲视频| 久久精品二区| a级影片在线观看| 欧美性一区二区| 黄色免费视频网站| 91精品1区| 国产成人高潮免费观看精品| 黄色美女一级片| 亚洲欧美色图小说| 天美星空大象mv在线观看视频| 国产精品宾馆| 欧美大秀在线观看| 一区两区小视频| 久久久91精品国产一区二区精品| 欧美大黑帍在线播放| 亚洲成人精品综合在线| 亚洲视频在线播放| 久久久久久久久久久久久av| 国产精品亚洲第一区在线暖暖韩国 | 成人黄色av网址| xxxxx91麻豆| 国产精品无码粉嫩小泬| 91免费国产在线| 国产va亚洲va在线va| 亚洲一区二区小说| 伊人一区二区三区久久精品| 西西44rtwww国产精品| 不卡一区二区三区四区| 日韩精品视频在线观看视频| 精品视频成人| 久久综合久久美利坚合众国| 一区二区三区免费在线视频| 国产午夜一区二区三区| 欧美在线观看视频网站| 怕怕欧美视频免费大全| 日本视频久久久| 嫩草研究院在线观看| 日本精品免费观看高清观看| 国产艳俗歌舞表演hd| 免费日韩av片| 午夜老司机精品| 黄色成人小视频| 久久久精品国产| 亚洲av综合色区无码一区爱av| 亚洲免费色视频| 中文字幕乱码在线人视频| 欧美日韩在线大尺度| 国产超碰91| 蜜桃视频m3u8在线观看| 亚洲天堂av图片| 中文字幕二区三区| 中文字幕一区二| 妖精视频在线观看| 99国产精品视频免费观看一公开| 精品伦理一区二区三区| 欧美黄色网页| 少妇激情综合网| www.久久久久久| 天天操天天干天天综合网| 亚洲熟妇无码av| 另类综合日韩欧美亚洲| www.黄色网址.com| 9l亚洲国产成人精品一区二三| 久久久午夜视频| 免费在线性爱视频| 欧美精品电影在线播放| 日本一级黄色录像| 欧美国产精品一区| 黄色片子免费看| 久久精品女人| 国产免费xxx| 日日狠狠久久偷偷综合色| 国产精品亚洲网站| 黑人极品ⅴideos精品欧美棵| 日韩黄色av网站| 91成年人视频| 精品久久久国产| 青青青视频在线免费观看| 国产成人丝袜美腿| 久久精品视频91| 国产精品啊啊啊| 日本一区二区在线| 亚洲精品v亚洲精品v日韩精品| 7m精品福利视频导航| 黄色网址在线免费| 国产视频精品va久久久久久| 国产免费高清视频| 精品女厕一区二区三区| 中国一级片在线观看| 久久综合久久99| 免费黄频在线观看| 日韩精品一二三区| 97超碰人人澡| 亚洲最大av| 日韩av影视| 免费看久久久| 91日本在线视频| 欧美成人精品三级网站| 欧美激情一区二区三区高清视频| 日日夜夜精品一区| 亚洲午夜av久久乱码| 亚洲黄色在线免费观看| 91麻豆精品国产综合久久久久久| 亚洲乱码国产乱码精品| 亚洲第一福利一区| 少妇被躁爽到高潮无码文| 国产欧美日韩在线| 亚洲熟女乱综合一区二区三区| 国产精品18久久久久| 五月天av在线播放| 日韩国产高清在线| 精品久久久久久久免费人妻| 亚洲国产日本| 91视频 - 88av| 这里只有精品在线| 一本色道久久99精品综合| 久久不见久久见免费视频7| 国产伦精品一区二区三区| 欧美日韩中出| 亚洲精品免费在线视频| 久久国内精品| 国产欧美日韩91| 国产精品99久久久久久董美香| 欧美制服第一页| av日韩亚洲| 日韩美女福利视频| 伊人久久在线| 欧美又大粗又爽又黄大片视频| wwww在线观看免费视频| 色综合久久天天综线观看| 九色porny在线| 久久精品免费电影| 粗大黑人巨茎大战欧美成人| 精品国产一区二区三区四区在线观看 | 天天色天天射综合网| 亚洲v欧美v另类v综合v日韩v| 久久不见久久见免费视频7| 日本一区二区高清视频| 加勒比久久综合| 日韩中文字幕一区二区| 欧美精品色图| 亚洲午夜久久久影院伊人| 嫩草研究院在线| 精品成人私密视频| 老牛影视av牛牛影视av| 亚洲国产日韩欧美在线动漫| 日本美女一级视频| 日韩经典第一页| 欧美拍拍视频| 一道本无吗dⅴd在线播放一区| 国产福利第一视频在线播放| 最新亚洲国产精品| av网站大全在线| 国内精品久久久久久| 中文字幕在线视频网站| 国产精品久久久久久久久久久新郎| 日本在线视频一区二区| 成人欧美一区二区三区在线湿哒哒 | 久操视频在线观看| 欧美国产在线电影| 少妇在线看www| 国产精品自拍网| 天堂久久av| 蜜桃麻豆91| 性xxxx欧美老肥妇牲乱| 国产亚洲黄色片| 久久久精品日韩| www.com久久久| 成人黄色av电影| 在线视频第一页| 伊人一区二区三区| 久草手机在线观看| 欧美日韩视频在线一区二区| 国产999久久久| 亚洲欧美日韩高清| а√天堂官网中文在线| 2019中文字幕在线免费观看| 日日狠狠久久| 免费国产在线精品一区二区三区| 热久久天天拍国产| 国产日韩欧美精品在线观看| 日韩极品在线观看| 中文字幕一二三区| 久久久91精品国产一区二区精品| 91视频免费在线看| 色婷婷综合激情| 亚洲欧美另类综合| 日韩在线视频免费观看高清中文| 国产在线拍揄自揄拍视频| 国产精品永久免费视频| 另类春色校园亚洲| 91精品国产吴梦梦| 日韩中文字幕一区二区三区| 在线xxxxx| 亚洲欧洲性图库| av资源免费观看| 日韩一区二区三区视频在线观看| 牛牛澡牛牛爽一区二区| 欧美高清激情视频| 国产精品久久乐| 久久天天狠狠| 精品福利电影| 国产农村妇女精品久久| 国产日韩精品一区二区浪潮av| 国产乡下妇女做爰视频| 5月丁香婷婷综合| 国产福利在线| 亲子乱一区二区三区电影 | 日本a级片久久久| 亚洲国产日韩欧美一区二区三区| 91亚洲精品久久久蜜桃借种| 国产日韩欧美亚洲| 欧美h在线观看| 亚洲激情久久久| 日本在线视频网址| 91色视频在线导航| 成人写真视频| www日韩在线观看| 2欧美一区二区三区在线观看视频| 国产在线观看你懂的| 日韩美女视频在线| 成人高清免费在线| 91欧美激情另类亚洲| 欧美韩日一区| 亚洲精品久久久久久宅男| 欧美国产精品专区| 中文字幕在线2018| 伊人精品在线观看| 成人精品动漫| 亚洲国产一区二区三区在线| 日韩av电影天堂| 黄色三级生活片| 欧美色涩在线第一页| jyzzz在线观看视频| 国产精品第一页在线| 色棕色天天综合网| 国产又黄又猛又粗又爽的视频| 久久久久久久久岛国免费| 日日夜夜操视频| 最新国产精品亚洲| 高清精品久久| 99热久久这里只有精品| 成人18视频在线播放| 免费看日韩毛片| 亚洲女人天堂成人av在线| 国产高清不卡| 丝袜美腿玉足3d专区一区| 日本成人在线视频网站| 久草福利资源在线| 欧美一区二区三级| 欧美黄色视屏| 裸模一区二区三区免费| 三级在线观看一区二区| 国产黄色片在线| 日韩视频免费观看高清完整版在线观看| 欧洲成人综合网| 麻豆精品传媒视频| 久久精品久久综合| 精品97人妻无码中文永久在线| 亚洲激情在线观看| 写真福利精品福利在线观看| 日产精品高清视频免费| 国产主播一区二区三区| xxxxxx国产| 中文字幕日韩av| 一区二区三区视频播放| 日本少妇高潮喷水视频| 欧美高清在线视频| 亚洲AV无码乱码国产精品牛牛 | 久久综合色之久久综合| 五月激情丁香网| 久久久免费精品视频| 成人羞羞网站入口免费| 性猛交╳xxx乱大交| 色婷婷香蕉在线一区二区| sm国产在线调教视频| 精品福利影视| 久久99精品国产麻豆婷婷| 精品在线视频免费| 中文综合在线观看| 精品综合久久88少妇激情| 欧美三级理论片| 精品久久久久久久中文字幕| 麻豆91在线| 久久精品综合一区| 国产精品1区2区3区在线观看| 日日摸天天添天天添破| 久久电影一区二区| 国产99久久精品一区二区300|