精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

亞馬遜、微軟、谷歌DeepMind 聯合團隊的杰作,POLYMATH 引領MLLMs多模態推理新基準

發布于 2024-10-23 11:42
瀏覽
0收藏

多模態大語言模型(MLLMs)的發展迅速,成為了人工智能研究的一個關鍵領域。這些模型不僅能夠處理文本,還能夠理解并生成視覺信息,使其在許多應用中展現出卓越的潛力。盡管在某些領域取得了顯著進展,但在復雜的視覺和數學推理任務上,MLLMs的表現仍有待提高。為此,來自亞馬遜、微軟、谷歌DeepMind 聯合研究團隊開發了POLYMATH,這是一個具有挑戰性的基準,旨在系統地分析和評估這些模型在視覺復雜場景下的數學推理能力。通過5000個多模態推理問題,涵蓋10個不同類別,POLYMATH為MLLMs的認知能力提供了全面的測試平臺。

此次研究由一支由各領域專家組成的團隊完成。核心團隊成員包括Himanshu Gupta(亞利桑那州立大學,現供職于亞馬遜)、Shreyas Verma(Asurion)、Ujjwala Anantheswaran(亞利桑那州立大學,現供職于微軟)、Kevin Scaria(亞利桑那州立大學,現供職于亞馬遜)、Mihir Parmar(亞利桑那州立大學)、Swaroop Mishra(亞利桑那州立大學,現供職于Google DeepMind)和Chitta Baral(亞利桑那州立大學)。團隊成員均在各自領域有著深厚的專業背景,確保了POLYMATH基準的科學嚴謹性和技術先進性。

該項目的代碼庫可以在GitHub上找到,地址為:https://github.com/kevinscaria/PolyMATH,數據集則托管在Hugging Face上,地址是:???https://huggingface.co/datasets/him1411/polymath??,為研究人員提供了便捷的訪問和使用途徑。

相關工作

MLLMs的核心優勢在于其能夠同時處理文本和視覺信息,具備跨模態理解和生成能力。這些模型不僅在語言理解和生成上表現出色,還能夠處理復雜的視覺任務,為多種應用場景提供了解決方案。

多模態大語言模型的發展得益于大語言模型(LLMs)和大型視覺模型的進步。近年來,OpenAI的GPT系列和Google的Gemini系列等模型在處理多模態任務上取得了顯著成就。例如,GPT-4V不僅能夠生成高質量的文本,還能夠理解復雜的圖像內容,展現了強大的視覺推理能力。這些模型通過結合自然語言處理(NLP)和計算機視覺(CV)技術,能夠在教育、醫療、科學研究等多個領域中提供創新的解決方案。

在數學推理方面,MLLMs同樣展現了巨大的潛力。現有的研究表明,這些模型在解決幾何問題、圖表理解和數學運算等任務中表現出色。盡管如此,MLLMs在處理涉及空間關系和抽象邏輯推理的復雜數學問題時,仍存在一定的局限性。這是因為這些問題不僅需要模型具備良好的視覺理解能力,還需要其能夠進行深層次的邏輯推理和認知過程。

亞馬遜、微軟、谷歌DeepMind 聯合團隊的杰作,POLYMATH 引領MLLMs多模態推理新基準-AI.x社區

圖1:MLLM在面對涉及視覺信息的問題時所采用的推理模式示例。在第一行,模型無法感知相鄰半圓之間的關系;在最后一行,模型無法理解答案圖像中的細節。

在評價MLLMs性能的過程中,研究人員開發了多種基準數據集,其中比較著名的包括GeoQA、VQA和UniGeo。這些基準在推動多模態模型的發展中起到了重要作用,但它們也存在一定的局限性。

GeoQA是一個專注于地理問題的問答數據集,主要評估模型在處理地理信息和地理推理任務上的能力。盡管GeoQA包含了一些復雜的地理問題,但其問題類型相對單一,未能全面覆蓋多種數學和視覺推理任務。

VQA(Visual Question Answering)則是一個視覺問答數據集,旨在評估模型在理解圖像內容和回答相關問題方面的能力。VQA的數據集包含了大量的日常場景和常識性問題,雖然在一定程度上考察了模型的視覺理解能力,但其數學推理任務相對較少,未能充分評估模型在復雜數學問題上的表現。

UniGeo是一個專注于幾何問題的數據集,評估模型在處理幾何圖形和幾何推理任務上的能力。盡管UniGeo在幾何推理方面取得了一定的進展,但其數據集規模較小,問題類型也較為有限,未能全面反映模型在多模態任務中的綜合能力。

為了解決現有基準的局限性,研究團隊提出了POLYMATH這一具有挑戰性的多模態數學推理基準。POLYMATH旨在全面評估MLLMs在復雜視覺場景下的數學推理能力,其數據集包含了5000個高質量的認知文本和視覺挑戰,涵蓋了圖案識別、空間推理等10個類別。通過多樣化的任務設置,POLYMATH能夠全面測試模型的認知推理能力,特別是在處理復雜數學和視覺推理任務時的表現。

亞馬遜、微軟、谷歌DeepMind 聯合團隊的杰作,POLYMATH 引領MLLMs多模態推理新基準-AI.x社區

圖2:POLYMATH的分布和難度概述(a)顯示了數據集中5000個問題的類別劃分,以及該類別的有圖(WD)和無圖(WoD)劃分;(b) 比較各種MLLM的每類別性能。

POLYMATH不僅在數據規模上領先于現有基準,其任務設置也更加多樣化和復雜化,能夠全面評估模型在多模態任務中的綜合表現。研究團隊通過嚴格的數據收集和質量控制流程,確保了POLYMATH數據集的高質量和高可信度。此外,研究團隊還提供了詳細的文本描述和圖像內容,以支持基于文本和視覺的雙重評估。

亞馬遜、微軟、谷歌DeepMind 聯合團隊的杰作,POLYMATH 引領MLLMs多模態推理新基準-AI.x社區

圖3:帶圖和不帶圖問題的示例。除了問題圖像外,POLYMATH還包括上面顯示的元數據。沒有圖表的問題不會出現在測試img中,而這兩種問題都會出現在testmini中。

POLYMATH數據集的整理

為了系統地評估多模態大語言模型(MLLMs)在復雜視覺場景下的數學推理能力,研究團隊開發了POLYMATH這一具有挑戰性的基準。該數據集的整理過程包括精細的數據收集流程、嚴格的質量保證措施以及科學的分類架構,確保數據集的高質量和多樣性。

數據收集是確保POLYMATH數據集高質量的關鍵。研究團隊采用了手動和自動化相結合的方式,經過五個步驟來收集和整理數據:

  • 生成唯一標識符:為每份試卷生成一個唯一標識符(UUID),以便識別并整理從中收集到的所有問題。
  • 手動收集圖像片段:標注人員手動收集每個問題及其相關背景信息的圖像片段,包括可能適用于多個問題的分離片段。
  • 圖像合并:使用圖像合并腳本自動識別并合并被頁面分隔的問題圖像及其相關背景圖像,以保證完整性。
  • 文本轉錄和元數據生成:使用大語言模型(LLM)轉錄問題及其標準答案,并生成包括類別、是否包含圖表、圖像描述等附加元數據。所有元數據都經過人工檢查,確保質量。
  • 生成標注文件:自動創建并填充注釋文件,每行對應一個問題,詳細記錄相關信息。

這一系統化的數據收集流程確保了POLYMATH數據集的高質量和多樣性,為模型評估提供了堅實基礎。

在數據收集和標注過程后,研究團隊進行了全面的質量檢查,以確保數據集的高質量和可信度。

  • 樣本篩選:剔除分辨率低、超出類別范圍或缺少關鍵信息的樣本。
  • 視覺噪聲處理:去除帶有顯著水印或視覺噪聲的樣本,確保樣本清晰可讀。
  • 答案校正:領域專家標注員糾正提取錯誤的標準答案。
  • 類別驗證:確保每個問題都屬于指定類別,糾正觀察到的分類錯誤。

這些質量保證措施確保了數據集的準確性和一致性,使POLYMATH成為評估MLLMs性能的可靠工具。

為全面評估模型的多模態認知推理能力,研究團隊開發了一個分類架構,根據提供的信息和評估的推理技能對問題進行分類。POLYMATH數據集包含以下10個類別,每個類別都有其定義和示例。

  1. 視角轉換(PS):給定一個圖形,要求解決者根據指示(如翻轉、鏡像、旋轉等)進行變換。
  2. 圖形完成(FC):給定一個圖形,要求完成圖形并識別標記位置的缺失元素。
  3. 圖案識別(PR):要求理解并復制一對一關系或圖案,例如根據a和b的關系,確定b和c的對應關系。
  4. 序列完成(SC):給定一系列數字或圖形,要求找到系列中的下一個元素。
  5. 相對推理(RR):包含不同數據點及其相互關系,要求解決者推斷未明確提到的關系。
  6. 數學推理(MR):涉及數學計算,例如解方程。
  7. 數值推理(NR):涉及計數提到的元素數量,元素可能是單一圖形的一部分或符合指定圖案。
  8. 空間推理(SR):要求解決者通過觀察進行推理,以得出答案。
  9. 找出不同(OD):給定一組元素,要求識別與其他不同的元素。
  10. 邏輯推理(LR):涉及簡單的邏輯推理,例如蘊涵和矛盾。

這一分類架構不僅涵蓋了多種推理技能,還確保了數據集的多樣性和復雜性,使其能夠全面評估MLLMs在多模態任務中的表現。通過精細的數據收集流程、嚴格的質量保證措施和科學的分類架構,POLYMATH數據集為評估和提升MLLMs的性能提供了重要工具。

實驗設計

為了深入分析多模態大語言模型(MLLMs)在復雜視覺場景下的數學推理能力,研究團隊在POLYMATH基準上進行了系統的實驗設計。這一實驗設計包含了評估模型的選擇、提示策略的應用以及具體的實驗方法和附加實驗分析。

評估模型的選擇

在評估模型的選擇上,研究團隊綜合考慮了閉源和開源MLLMs,旨在全面了解不同模型在多模態推理任務中的表現。閉源模型包括OpenAI的GPT-4o、OpenAI O1以及Anthropic的Claude-3.5 Sonnet和Gemini-1.5 Pro等。這些模型在處理多模態任務上表現出色,是當前技術前沿的代表。閉源模型的選擇使得實驗可以評估最先進的商業化模型的性能。

與此同時,研究團隊也選擇了多種開源MLLMs,包括LLaVA(如LLaVA-v1.6-Mistral-7B、LLaVA-v1.6-Vicuna-13B)、G-LLaVA(如G-LLaVA-7B)以及ShareGPT4V等。這些模型提供了一個開放的研究平臺,允許學術界和開發者進一步研究和改進多模態推理能力。通過評估開源模型,研究團隊不僅可以比較閉源和開源模型的性能,還可以識別開源模型在具體任務中的優勢和不足。

提示策略的應用

提示策略在多模態推理任務中扮演著重要角色,研究團隊采用了四種不同的提示策略,分別是零樣本推理、少量樣本推理、鏈式思維提示和退一步提示。這些策略旨在測試模型在不同信息量和提示方式下的表現。

  • 零樣本推理:在沒有提供任何示例的情況下,直接對模型進行評估。這種策略測試模型在完全陌生情況下的推理能力。
  • 少量樣本推理:提供少量示例(如2個)后進行評估,測試模型在有少量上下文信息時的表現。
  • 鏈式思維提示:使用鏈式思維提示(Chain-of-Thought),引導模型進行逐步推理,幫助其在復雜任務中保持邏輯連貫性。
  • 退一步提示:使用退一步提示(Step Back),鼓勵模型在解題過程中重新審視和評估其推理步驟,以提高準確性和邏輯性。

通過這些提示策略,研究團隊能夠深入分析模型在不同提示方式下的推理性能,揭示其在復雜任務中的潛在能力和不足。

附加實驗分析

除了主要實驗設置外,研究團隊還進行了三項附加實驗分析,以進一步驗證和擴展實驗結果。

  • test-img子集上的推理測試:test-img子集包含帶有圖表的問題,專注于評估模型的視覺理解能力。研究團隊通過對這些問題進行推理測試,評估模型在處理圖表信息時的表現。
  • 無圖表問題的文本版本測試:將test-img子集中的圖表替換為詳細的文本描述,生成一個文本版本的test-img。通過對文本版本的測試,研究團隊能夠分析模型在文本描述和圖表信息上的依賴程度和表現差異。
  • OpenAI O1模型的無圖表問題評估:評估OpenAI O1模型在不包含圖表問題上的表現,并與人類基準進行比較,以了解其在文本推理任務中的能力。

這些附加實驗提供了進一步的分析視角,有助于全面了解模型在不同場景下的性能和局限。

實驗方法

實驗方法包括嚴格的設置和詳細的操作步驟,以確保實驗結果的可靠性和可重復性。具體方法包括:

  • 實驗數據集:使用POLYMATH基準中的testmini子集,該子集包含1000個經過嚴格篩選的問題,覆蓋了10個不同的推理類別。
  • 提示策略實施:按照各提示策略的要求,對模型進行提示和引導,記錄其推理過程和結果。
  • 結果評估:使用精確匹配進行答案對比,記錄每個模型在不同提示策略下的準確率和錯誤類型。

通過這些實驗方法,研究團隊能夠系統地評估不同模型在多模態數學推理任務中的表現,揭示其在復雜視覺場景下的推理能力和局限性。

結果分析

在這項研究中,研究團隊通過系統的實驗,詳細評估了多種閉源和開源的多模態大語言模型(MLLMs)在POLYMATH基準上的表現。通過比較模型在各類問題中的表現,我們可以深入了解其在復雜推理任務中的能力和局限性。以下是實驗結果的詳細分析。

閉源模型

在閉源模型的評估中,Claude-3.5 Sonnet和GPT-4o表現尤為突出。Claude-3.5 Sonnet在不同的提示策略下展現了強大的推理能力,特別是在Step Back提示策略中,準確率達到了41.90%。這一策略鼓勵模型重新審視和評估其推理步驟,從而提高了準確性和邏輯性。GPT-4o緊隨其后,尤其在零樣本推理和Step Back提示下表現優異,顯示了其強大的適應性和推理能力。

Gemini-1.5 Pro的表現相對中等,在所有類別中表現穩定,但未能在任何特定領域中占據主導地位。相比之下,Claude Haiku作為最小的閉源MLLMs,表現普遍較差,未能在復雜推理任務中展現出足夠的能力。

開源模型

開源模型的評估結果顯示,LLaVA-v1.6-Mistral-7B在整體表現上名列前茅,總體得分為15.2%。特別是在找出不同(OD)、空間推理(SR)、相對推理(RR)和數學推理(MR)類別中表現突出。這表明LLaVA-v1.6-Mistral-7B在生成精確、一致且相關的響應方面表現出色,即使在超出分布的數據樣本中也是如此。

亞馬遜、微軟、谷歌DeepMind 聯合團隊的杰作,POLYMATH 引領MLLMs多模態推理新基準-AI.x社區

圖4:不同問題類別中邏輯缺陷(LF)和空間誤解(SM)錯誤的頻率。我們報告每個模型的數據,以便比較模型的能力。由于這些問題需要大量的邏輯跳躍和視覺推理,它們在OD、PR和SC類問題中最為普遍。

ShareGPT4V(13B)模型在PR、SC、RR、MR、SR和OD類別中的表現也非常優異,總得分為12.8%。其他模型如LLaVA-v1.6-Vicuna-13B、LLaVA-1.5(13B)、G-LLaVA(13B)和LLaVA-v1.6(34B)在不同類別中表現各異,顯示出其在處理多樣推理任務時的個體優勢和不足。

錯誤類型分析

在分析錯誤類型時,研究團隊識別出了七種常見錯誤類型,并詳細分析了其分布。

  • 邏輯缺陷(LF):推理步驟違反了既定的邏輯規則或現實世界的原則,如等式或基數。
  • 空間誤解(SM):模型誤解了空間關系或錯誤地讀取了給定圖像的特定細節。
  • 記憶缺陷(MF):模型忘記了問題或解答過程中提供的信息。
  • 計算錯誤(CE):模型在數學計算中出錯,或在方程中代入了錯誤的值。
  • 誤對齊(MG):模型推理正確,但得出的答案錯誤,如識別了模式但選擇了錯誤的選項。
  • 不完整(IC):模型生成的解決方案不完整,或輸出達到了令牌限制。
  • 其他錯誤:包括其他未分類的錯誤。

研究團隊通過對236個錯誤樣本的手動檢查,發現邏輯缺陷(LF)是最常見的錯誤,接近60%的錯誤樣本中出現。空間誤解(SM)位居第二,占約25%。這些錯誤在找出不同(OD)、圖案識別(PR)和序列完成(SC)類別的問題中尤為常見,因為這些問題要求模型進行不常見的邏輯跳躍和完全理解視覺信息,而這些正是模型的弱點所在。

此外研究還發現,模型在推理過程中常常犯相同的錯誤,例如假設某一模式在每行都適用,而正確的推理應涉及跨列的模式復制。特別是在PR類別中,GPT-4o、Gemini-1.5 Pro和Claude-3.5 Sonnet在近80%的樣本中遵循了相同的錯誤推理結構。這表明盡管模型之間存在差異,但在實踐中它們展示了相同的優勢和不足。

人類評估

為了確認數據集的難度,研究團隊邀請了六名研究生進行人類評估。每位研究生被分配到一個特定的問題類別,以避免從同一類別的其他問題中獲得額外信息。他們只提供最終答案,沒有詳細的推理過程。

人類評估的結果顯示,盡管模型在某些類別中表現優異,但與人類推理能力相比仍有顯著差距。特別是在處理復雜邏輯和空間推理任務時,模型表現明顯遜色。這一結果為未來的研究提供了明確的方向,強調了開發能夠無縫結合數學推理和視覺理解的模型的必要性。

實驗分析

在對多模態大語言模型(MLLMs)進行系統評估的過程中,研究團隊發現了它們在視覺推理方面的依賴性和常見錯誤模式。以下是對模型依賴圖像描述而非圖像的表現差異分析,以及對模型常見錯誤的深入探討。

模型依賴圖像描述而非圖像

通過對test-img子集的實驗分析,研究團隊發現大多數MLLMs在處理帶有圖表的問題時表現出明顯的局限性。具體而言,當模型面對的是直接的圖像時,其表現明顯不如面對詳細文本描述時的表現。為了驗證這一發現,研究團隊將test-img子集中的圖表替換為詳細的文本描述,生成一個文本版本的test-img進行測試。

結果顯示,所有模型在處理文本描述問題時的表現提升了約3-4%。這表明,盡管這些模型在處理文本數據時表現優異,但在視覺推理任務中存在顯著的不足。特別是GPT-4o和Claude-3.5 Sonnet這兩個模型在文本描述中的表現提升尤為明顯。這種現象表明,當前的MLLMs雖然在理解和生成文本方面已經取得了顯著進展,但在處理復雜的視覺信息時,仍然依賴于能夠清晰描述圖像內容的文本信息。

這一發現對未來的研究具有重要啟示:要進一步提高MLLMs在多模態任務中的表現,需要增強其對視覺信息的理解和推理能力,減少對文本描述的依賴。

模型錯誤的深入分析

在對模型錯誤類型的分析中,研究團隊識別出七種常見的錯誤類型,其中邏輯缺陷(LF)和空間誤解(SM)最為常見。以下是對這些錯誤類型及其對模型推理能力影響的深入探討。

邏輯缺陷(LF)

邏輯缺陷是模型在推理過程中違反既定的邏輯規則或現實世界的原則。例如,當模型在解決數學問題時,未能正確應用等式或基數原則。研究發現,邏輯缺陷在接近60%的錯誤樣本中出現,這一比例相當高。特別是在圖案識別(PR)、序列完成(SC)和找出不同(OD)類別的問題中,邏輯缺陷尤為常見。這些問題通常要求模型進行復雜的邏輯跳躍和模式識別,而模型在這方面表現出的不足導致了高頻率的邏輯錯誤。

空間誤解(SM)

空間誤解是指模型在理解圖像的空間關系或特定細節時出現的錯誤。例如,當面對涉及空間布局和相對位置的問題時,模型未能正確理解圖像中的空間信息。研究表明,空間誤解占約25%的錯誤樣本,這一比例僅次于邏輯缺陷。特別是在涉及幾何圖形和空間推理的問題中,模型容易出現空間誤解。這種現象表明,盡管MLLMs在處理文本信息方面有一定的優勢,但在處理需要深入理解空間關系的視覺信息時,仍存在顯著的不足。

通過對邏輯缺陷和空間誤解的深入分析,我們可以看到當前MLLMs在復雜推理任務中的局限性。為了解決這些問題,未來的研究需要專注于增強模型的邏輯推理能力和空間理解能力。例如,可以通過引入更多的空間推理任務和復雜邏輯推理問題來訓練模型,從而提高其在這兩個方面的表現。

總結

通過深入探討模型在視覺推理方面的依賴情況和常見錯誤模式,我們可以更好地理解當前MLLMs在復雜推理任務中的表現和局限。盡管這些模型在文本描述方面表現優異,但在處理復雜的視覺信息時仍存在顯著的不足。未來的研究需要專注于增強模型的視覺理解和邏輯推理能力,從而全面提升其在多模態任務中的表現。通過不斷改進和優化,MLLMs有望在更多應用場景中展現出更加卓越的性能和能力。(END)

參考資料:https://arxiv.org/pdf/2410.14702

本文轉載自??大噬元獸??,作者: FlerkenS ????

收藏
回復
舉報
回復
相關推薦
亚洲国产剧情在线观看| 日本美女bbw| 色资源二区在线视频| xnxx国产精品| 国产日韩欧美在线看| 永久免费看片视频教学| 一区二区三区高清在线观看| 精品久久久久久久久中文字幕| 欧美精品一区二区视频| 国产一区二区在线视频聊天| 在线成人亚洲| 在线精品高清中文字幕| 波多野结衣三级视频| 一区二区三区电影大全| 综合亚洲深深色噜噜狠狠网站| 国产经品一区二区| 中文字幕第三页| 亚洲日本国产| 久久久国产成人精品| 免费的av网站| 136导航精品福利| 在线观看日韩电影| 无码中文字幕色专区| 在线观看黄av| 北条麻妃一区二区三区| 国产精品入口免费视频一| 久艹视频在线观看| 日韩欧美国产精品综合嫩v| 亚洲精品suv精品一区二区| 三上悠亚在线一区| 亚洲www免费| 亚洲成av人片一区二区| 中文字幕第50页| a天堂中文在线88| 91美女片黄在线| 国产精品推荐精品| 99在线无码精品入口| 久久精品国内一区二区三区| 国产91在线播放精品91| 日本少妇性高潮| 综合色一区二区| 日韩一级黄色av| 国产第一页精品| 欧美一区二区三| 亚洲免费人成在线视频观看| 国产精品伦子伦| 国产精品xxxav免费视频| 欧美电影免费观看完整版| √天堂资源在线| 国产精品亚洲四区在线观看 | 日韩 欧美 视频| 2024最新电影免费在线观看| 亚洲免费成人av| 亚洲成人动漫在线| 污视频在线看网站| 一区二区三区在线视频免费| 妞干网在线播放| 欧美xxxx视频| 午夜精品成人在线| 大肉大捧一进一出好爽视频| 黄视频网站在线观看| 亚欧洲乱码视频| 美脚恋feet久草欧美| 一区二区三区在线观看欧美| 黄色www在线观看| aaa在线免费观看| 日本一区二区三区在线不卡| 久久久久综合一区二区三区| 狠狠躁日日躁夜夜躁av| 国产成人免费视频精品含羞草妖精 | 91精品国产91久久久久久密臀| 亚洲美女性生活视频| 无遮挡aaaaa大片免费看| 97一区二区国产好的精华液| 日韩欧美一区二区久久婷婷| 在线免费观看av网| 亚洲成人高清| 欧美日韩免费高清一区色橹橹| 日韩av手机版| 久久亚洲人体| 欧美一区二区精品| 人妻换人妻仑乱| 午夜视频在线观看精品中文| 精品国产免费人成在线观看| 两性午夜免费视频| 秋霞一区二区| 日韩av在线免播放器| 免费a级黄色片| 精品久久网站| 久久五月天综合| 免费在线观看黄视频| 在线日韩中文| 日本成人精品在线| 中文字幕日日夜夜| 情侣黄网站免费看| 日韩欧美中文字幕在线视频| 亚洲成人免费在线视频| 精品无码一区二区三区| 精品久久久久久久久久久aⅴ| 日韩亚洲欧美中文高清在线| 国产女人被狂躁到高潮小说| 一本色道久久综合亚洲精品高清| 538国产精品一区二区免费视频| 国产午夜无码视频在线观看| 久久er99热精品一区二区| 51国产成人精品午夜福中文下载| www.天堂在线| 亚洲国产精品ⅴa在线观看| 中国成人在线视频| av在线视屏| 精品视频一区二区不卡| 免费黄色av网址| av中文一区| 欧美老少做受xxxx高潮| 精品欧美一区二区三区免费观看| 麻豆91精品91久久久的内涵| 97视频中文字幕| 国产三级在线看| 欧美国产一区二区| 日韩精品久久一区二区| 怡红院成人在线| 欧美mv日韩mv| 97人妻人人揉人人躁人人| 午夜天堂精品久久久久| 欧美中文字幕视频| 国产v片在线观看| 久久久激情视频| 女人帮男人橹视频播放| 91精品韩国| 国产偷亚洲偷欧美偷精品 | 亚洲天堂网中文字| 成年人免费在线播放| 欧美成人精品午夜一区二区| 日韩av资源网| 在线观看国产一区二区| 在线观看av免费观看| 国产一区二区三区日韩精品| 欧美激情国内偷拍| 国产又爽又黄又嫩又猛又粗| 久久综合色综合88| 800av在线免费观看| 国产黄色精品| 亚洲社区在线观看| 男女视频免费看| 国产·精品毛片| 亚洲mv在线看| 日韩毛片网站| 中文国产成人精品久久一| 久久久久99精品成人片三人毛片| 国产高清视频一区| 9999在线观看| 日韩成人在线电影| 在线观看日韩av| 加勒比在线一区| 99久久国产综合精品女不卡| 中文字幕日韩精品无码内射| 精品亚洲a∨一区二区三区18| 最近中文字幕2019免费| 日韩精品一区二区亚洲av观看| 99热在这里有精品免费| 精品国产av无码一区二区三区| 日本一区二区三区中文字幕| 久久久极品av| 国产农村老头老太视频| 亚洲美女淫视频| 肉色超薄丝袜脚交| 日本道中文字幕| 成人激情在线| 国产精品免费久久久久久| 欧美zozo| 午夜成人在线视频| 精品国产aaa| 奇米影视7777精品一区二区| 亚洲美女搞黄| 欧美性片在线观看| www.久久久久| 国产三级伦理片| 亚洲免费在线电影| 成人av毛片在线观看| 亚洲免费二区| www.久久久| 97天天综合网| 精品视频在线播放| 天天干天天操天天爱| 中文在线资源观看网站视频免费不卡| xxx国产在线观看| 综合久久久久| 精品一区二区久久久久久久网站| 成人爽a毛片免费啪啪| 亚洲欧美日韩一区二区在线| 欧美视频xxxx| 亚洲视频小说图片| 国产亚洲精品成人a| 午夜综合激情| 亚洲高清在线观看一区| 成人1区2区| 88国产精品欧美一区二区三区| jizzjizz国产精品喷水| 国产激情视频在线看| 日韩精品极品视频| 国产一级精品毛片| 亚洲欧美日韩在线| 国产精品无码一区二区三| 国产日韩欧美一区| 好吊色视频988gao在线观看| 欧美亚洲色图校园春色| 国产不卡av在线免费观看| 在线国产情侣| 亚洲国产精品999| 波多野结衣视频观看| 综合久久久久久| 好男人香蕉影院| 日韩va亚洲va欧美va久久| 男人天堂成人网| 婷婷精品在线观看| 91久久久久久久| 亚洲天堂av在线| 久久精品视频网站| 欧美新色视频| 欧美日韩高清影院| 中文字幕手机在线视频| 一区二区三区在线视频播放| 西西444www无码大胆| 国产九色精品成人porny| 日韩人妻无码精品久久久不卡| 北条麻妃国产九九九精品小说| 国产精品.com| 亚洲狼人在线| 国产精品日韩久久久久| 亚洲精品福利电影| 精品中文字幕在线2019| 91亚洲欧美| 日韩精品视频在线| 亚洲第一黄色片| 欧美精品自拍偷拍| 亚洲熟女乱色一区二区三区久久久| 五月婷婷久久综合| 超碰手机在线观看| 国产精品久久久久三级| 日韩理论片在线观看| 久久久精品毛片| 亚洲一区在线免费观看| 国产亚洲精品熟女国产成人| 久久日韩精品一区二区五区| 国产无套精品一区二区三区| 男女男精品网站| 亚洲色成人一区二区三区小说| 欧美午夜一区二区福利视频| 亚洲一区二区三区乱码| 精品国产精品久久一区免费式| 国产精品亚洲综合| 成人线上播放| 国产精品视频福利| 日韩在线观看中文字幕| 91久久精品美女高潮| 成人国产精品| 国产精品aaaa| 成人做爰视频www网站小优视频| 久久久久国产一区二区三区| av大片在线| 在线免费观看羞羞视频一区二区| 麻豆app在线观看| 欧美精品一区二区三区一线天视频 | 欧美黑人巨大videos精品| 亚洲最大成人在线| 国产区一区二| 91免费福利视频| 国产精品视频一区二区三区综合| 91日本在线视频| 欧美一区=区三区| 99电影网电视剧在线观看| 欧美影院在线| 国产经品一区二区| 久久人人爽人人爽人人片av不| 国产高清在线一区| 国产精品自在| 色99中文字幕| 天天做天天爱天天综合网| 一区二区精品视频| 66视频精品| 亚洲熟妇无码av在线播放| 亚洲性感美女99在线| 真实国产乱子伦对白视频| 99精品99| 熟妇人妻无乱码中文字幕真矢织江| 美女久久网站| 日本在线一二三区| 国产成人精品综合在线观看| 中文字幕乱码一区| 91蝌蚪国产九色| 免费高清在线观看电视| 亚洲午夜在线观看视频在线| 日韩字幕在线观看| 欧美性猛交丰臀xxxxx网站| 伊人久久久久久久久久久久 | 成人福利网站在线观看11| 九色porny自拍视频在线观看 | 欧美日韩三级在线观看 | 四虎精品永久在线| 欧美性色欧美a在线播放| www久久久久久| 日韩精品极品在线观看播放免费视频| 黄色免费在线播放| 精品国产视频在线| 国产直播在线| 国产精品视频地址| 国产精品xxxav免费视频| 视频二区一区| 亚洲一级二级| 午夜国产一区二区三区| 岛国精品在线播放| 91激情视频在线观看| 亚洲精品高清在线| 99久久久久久久久| 欧美成人激情免费网| 你懂的好爽在线观看| 九九热在线精品视频| a一区二区三区| 7777精品久久久大香线蕉小说| jizz国产精品| 黄色一级视频播放| 三级精品在线观看| 蜜桃视频无码区在线观看| 国产三区在线成人av| 久久免费黄色网址| 欧美精品日韩一区| 美女毛片在线看| 91精品国产沙发| 亚洲日本va| 一区二区三区四区欧美| 噜噜噜躁狠狠躁狠狠精品视频| 加勒比在线一区二区三区观看| 精品人妻一区二区三区换脸明星 | 能看的毛片网站| 国产精品自在欧美一区| 中文字幕91视频| 欧美性猛交xxxx乱大交极品| 国产av无码专区亚洲av| 在线观看精品自拍私拍| xxx欧美xxx| 国产精品免费一区二区三区四区 | 久久99精品一区二区三区三区| 亚洲一区二区乱码| 一区二区三区av电影| 国产精品视频无码| 中文字幕精品国产| sis001欧美| 久久久久免费网| 99视频精品| ass精品国模裸体欣赏pics| 亚洲成人你懂的| 亚洲欧美另类一区| 欧美猛少妇色xxxxx| 久久9999免费视频| 四虎永久国产精品| 另类欧美日韩国产在线| 天天操天天干天天操天天干| 欧美性猛交视频| 欧美日韩国产综合视频| 97国产真实伦对白精彩视频8| 色播一区二区| 可以免费看的黄色网址| 国内精品久久久久影院薰衣草| 美国美女黄色片| 欧美色综合天天久久综合精品| 男人天堂综合| 欧美在线一区二区三区四| 嗯用力啊快一点好舒服小柔久久| 国产91在线亚洲| 成人精品免费视频| 九九热在线视频播放| 精品1区2区在线观看| 天堂av在线网| 欧美一区二区三区四区在线观看地址 | 婷婷丁香综合网| 日韩欧美在线1卡| 青草在线视频| 国产98在线|日韩| 99精品视频免费| 日本性高潮视频| 欧美久久久一区| 欧美人与性动交α欧美精品济南到| 国产成人女人毛片视频在线| 99国产精品| 日韩av片在线| 欧美另类久久久品| 特级毛片在线| 久久狠狠久久综合桃花| 日韩精品亚洲一区| 久久精品在线观看视频| 欧美精品一区二区三区很污很色的| 欧美在线极品| 国内一区二区三区在线视频| 久久国产精品99国产| 四虎地址8848| 亚洲国产毛片完整版| 国产精品第一| 国产一线二线三线女| 成人精品视频网站| 色婷婷久久综合中文久久蜜桃av|