精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

OlympicArena:為超級智能AI基準測試多學科認知推理能力

發布于 2024-7-1 12:53
瀏覽
0收藏

OlympicArena:為超級智能AI基準測試多學科認知推理能力-AI.x社區

一、結論寫在前面

下面介紹的論文來自上海交大、上海AI lib。

論文標題:OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI

論文鏈接:??https://arxiv.org/pdf/2406.12753??    

項目鏈接:??https://gair-nlp.github.io/OlympicArena/??



OlympicArena:為超級智能AI基準測試多學科認知推理能力-AI.x社區

            

圖1:AI 從高考[57]現場參與奧運會

OlympicArena:為超級智能AI基準測試多學科認知推理能力-AI.x社區

為了全面評估當前模型在認知推理能力方面的表現,論文引入了OlympicArena,這是一個包含11,163個雙語文本問題的基準,涵蓋純文本和交錯文本-圖像模態。這些挑戰跨越七個領域和62個國際奧林匹克競賽,嚴格審查以防止數據泄露。

論文認為,奧林匹克競賽問題的挑戰非常適合評估AI的認知推理,因為其復雜性和跨學科性質對于解決復雜的科學挑戰和促進發現至關重要。除了使用僅答案標準評估跨不同學科的性能外,論文還從多個角度進行了詳細的實驗和分析。論文深入探討了模型的認知推理能力,它們在不同模態下的表現,以及它們在過程級評估中的結果,這對于需要復雜推理和長解決方案的任務至關重要。

論文的廣泛評估顯示,即使是先進的模型如GPT-4o也僅達到39.97%的整體準確率(數學為28.67%,物理為29.71%),這表明當前AI在復雜推理和多模態整合方面的局限性。通過OlympicArena,論文旨在推動AI向超智能發展,使其能夠應對科學及其他領域中更復雜的挑戰。論文還提供了一套全面的資源來支持AI研究,包括基準數據集、開源標注平臺、詳細的評估工具和一個具有自動提交功能的排行榜。               

?二、論文的簡單介紹

2.1 論文的背景?

現有的基準測試利用跨學科考試題目來評估大型語言模型(LLMs)的問題解決技能,但這些題目主要側重于知識密集型,對于當前的LLMs來說已相對容易。此外,這些基準主要關注純文本模式。盡管一些基準開始針對大學水平的題目并融入多模態評估,它們仍然主要集中在知識密集型任務或簡單的概念應用上(如表1所示)。與論文的工作同時進行的是,He等人[17]引入了一個奧林匹克級別的基準,但它僅限于數學和物理領域。

此外,上述所有基準都缺乏對各種認知推理能力的系統性和細致評估。例如,它們大多僅基于答案進行評估,忽略了推理過程中潛在的錯誤。這強調了需要更全面的評估,不僅要涵蓋更廣泛的學科,還要關注更高層次的認知推理以及細致的評估。

論文介紹了OlympicArena,這是一個全面、極具挑戰性且嚴格篩選的基準測試,具有詳細、細粒度的評估機制,旨在廣泛評估奧林匹克級別挑戰中的高級AI能力(如圖2所示)。論文廣泛挑選、收集并處理了來自七個學科——數學、物理、化學、生物、地理、天文學和計算機科學——涵蓋62個不同奧林匹克級別競賽的問題。這一廣泛收集最終形成了一個包含11,163個問題的基準,分為13種答案類型(例如,表達式、區間)。

重要的是,OlympicArena通過引入過程級評估,嚴格審查AI模型的逐步推理過程,增強了其評估框架。這種方法對于理解超越正確答案的認知推理深度至關重要[29, 53],使論文能夠識別并修正AI推理路徑中的缺口,確保更強大的AI能力。該基準是雙語的,同時包含英語和中文,以提高其可訪問性和全球適用性。此外,它支持兩種模式:純文本和交錯文本與圖像,以適應現代AI系統必須處理的日益復雜的任務。論文還對一些主流模型進行了數據泄露檢測實驗[54],以驗證論文基準的有效性。    

論文在現有的頂級表現的大型多模態模型(LMMs)上進行了一系列實驗,涵蓋了專有模型(例如,GPT-4o [36])和開源模型(例如,LLaVa-NeXT [31])。此外,論文在兩種設置下評估了各種類型的語言模型(例如,GPT-3.5):純文本和圖文結合,并從答案級別和過程級別兩個角度進行了全面的評估。對于答案級別的評估,論文結合了基于規則和基于模型的方法(本文中使用GPT-4V3)來覆蓋更多樣化的答案類型。對于過程級別的評估,論文對模型輸出的每個推理步驟進行評分,這在推理場景中論文認為非常關鍵。此外,論文還對不同類型的認知推理進行了細致的評估和分析,從邏輯和視覺兩個角度來更好地解釋當前AI的能力。

OlympicArena:為超級智能AI基準測試多學科認知推理能力-AI.x社區

2.2 奧林匹克競技場基準

2.2.1 概述

論文介紹了OlympicArena,這是一個奧林匹克級別的跨學科基準,旨在嚴格評估LLMs和LMMs的認知推理能力。論文的基準結合了僅文本和交錯文本-圖像模式,以雙語呈現,以促進可訪問性和包容性。它涵蓋了七個核心學科:數學、物理、化學、生物、地理、天文學和計算機科學,共包含34個專業分支(詳細信息見附錄A 1\,其中涉及近期基本科學領域的實驗)。包含了一個全面的11,163個問題集合,來自62個不同的奧林匹克競賽,結構化地設置了13種答案類型,從客觀題型(如多項選擇和填空)到主觀題型(如簡答題和編程任務),這使其與許多主要關注客觀問題的其他基準測試有所區別。OlympicArena的詳細統計數據描述在表2中。    

表2:基準測試統計數據

OlympicArena:為超級智能AI基準測試多學科認知推理能力-AI.x社區

此外,為了對模型性能進行細致分析,論文將認知推理分為8種類型的邏輯推理能力和5種類型的視覺推理能力。這種全面的分類有助于詳細評估LLMs和LMMs能夠展示的各種復雜推理技能。此外,論文特別研究了所有多模態問題,以比較LMMs與其基于文本的對應物的表現,旨在更好地評估LMMs處理視覺信息的能力。最后,論文評估推理過程的正確性和效率,不僅僅局限于基于答案的評價。

?2.2.2 數據收集

為了確保涵蓋各個學科的奧林匹克級別問題的全面性,論文首先收集了各種競賽的URL,這些競賽中的問題以PDF格式公開提供下載。然后,論文使用Mathpix工具將這些PDF文檔轉換為markdown格式,使其與模型的輸入要求兼容。具體來說,對于計算機科學的編程問題,論文還額外收集了相應的測試用例。論文嚴格遵守版權和許可考慮,確保符合所有相關法規。

2.2.3 數據標注

問題提取與標注。為了從測試試卷的Markdown格式中提取單個問題,論文聘請了約30名具有理工科背景的學生。論文開發了一個用于標注多模態數據的用戶界面,并已發布。為了便于進一步研究和模型的過程級評估,論文標注了如提供的解決方案等元信息。為確保數據質量,論文在初步標注完成后實施了多步驟驗證流程。

收集所有問題后,論文根據模型嵌入在每個競賽內部進行去重,以移除可能在同一年份的多個測試試卷中出現的重復問題。為進一步證明論文的基準更強調認知推理,而非大多數其他基準,論文將問題的難度分為三個級別,并與相關基準進行比較。具體地,論文將所有問題分為:知識回憶、概念應用和認知推理。論文使用GPT-4V作為標注者來分類不同難度級別的問題    

認知推理能力的標注。為了促進更細致的分析,論文從邏輯和視覺兩個角度對認知推理能力進行分類[16, 43]。邏輯推理能力包括演繹推理(DED)、歸納推理(IND)、溯因推理(ABD)、類比推理(ANA)、因果推理(CAE)、批判性思維(CT)、分解推理(DEC)和定量推理(QUA)。同時,視覺推理能力包括模式識別(PR)、空間推理(SPA)、圖表推理(DIA)、符號解釋(SYB)和比較可視化(COM)。論文還使用GPT-4V作為標注者來分類不同的認知能力(詳細定義和具體提示可在附錄B.3中找到)。通過這些標注,論文可以對當前AI的認知推理能力進行更細致的分析。

?2.2.4 數據分割

論文的基準包含11,163個問題,其中548個被指定用于模型評估,稱為OlympicArena-ot。論文跨學科抽樣638個問題來創建OlympicArena-val,用于超參數調整或小規模測試。OlympicArena-val問題具有逐步解決方案,支持如過程級評估等研究。剩余的問題構成了OlympicArena-test,即官方測試集,其答案未公開,用于正式測試。本文中的結果基于整個基準數據集,包括OlympicArena-ot、OlympicArena-val和OlympicArena-test。

2.3 實驗

2.3.1 實驗設置

為了全面評估LLMs和LMMs在不同模態下的能力,論文設計了包括三種不同設置的實驗:多模態、圖像-標題和僅文本。在多模態設置中,論文評估LMMs利用視覺信息的能力,通過交錯文本和圖像,模擬真實世界場景。對于無法處理交錯輸入的模型,論文將多張圖像合并為一個輸入。對于需要必要圖像輸入的LMMs,它們的基于文本的對應物處理僅文本問題。在圖像-標題設置中,論文探討圖像的文本描述是否能增強LLMs的問題解決能力。

使用InternVL-Chat-V1.58 [12],論文根據提示為所有圖像生成標題。這些標題取代了原始的圖像輸入。在僅文本設置中,論文評估LLMs在沒有視覺信息的情況下的表現,作為與多模態和圖像-標題設置比較的基線。所有實驗使用零樣本提示,針對每種答案類型定制,并指定輸出格式以促進答案提取和基于規則的匹配。這也最小化了與少量學習相關的典型偏差。    

2.3.2 評估

答案級評估 論文結合基于規則和基于模型的方法來覆蓋多樣化的評估問題。對于有固定答案的問題,論文提取最終答案并根據答案類型進行基于規則的匹配。對于代碼生成任務,論文使用無偏的pass@k指標[10]來測試所有測試用例。對于答案類型被歸類為“其他”的問題,這些問題的答案難以通過基于規則的匹配進行評估(例如,化學方程式書寫問題),論文采用GPT-4V作為評估者來評價響應。為了確保GPT-4V作為評估者的可靠性,論文手動抽樣并檢查其正確性。

過程級評估 為了進一步探究推理步驟的正確性,確保對模型認知能力進行嚴格的評估,論文進行了過程級評估。論文從OlympicArena中抽樣了96個帶有參考解決方案的問題。論文使用GPT-4將參考解決方案(即黃金解決方案)和模型生成的解決方案轉換為結構化的逐步格式。然后,論文將這些解決方案提供給GPT-4V,并對每一步的正確性進行評分,評分范圍從0到1。為了驗證與人類判斷的一致性,論文獲取了一些樣本進行人類標注。結果表明,論文的基于模型的評估方法非常準確,注釋者間一致性達到83%。

2.3.3 主要結果

表3展示了各種LMMs和LLMs在OlympicArena上的評估結果。論文觀察到以下幾點:

(1) 即使是目前最先進的大型模型,GPT-4o,也僅達到39.97%的整體準確率,而其他開源模型難以達到20%的整體準確率。這種鮮明的對比突顯了論文基準的顯著難度和嚴格性,證明了其在推動當前AI能力邊界方面的有效性。

(2) 此外,與生物學和地理學等學科相比,論文觀察到數學和物理學仍然是兩個最具挑戰性的學科,可能是因為它們依賴于復雜的推理能力。

(3)計算機編程競賽也證明是非常困難的,一些開源模型未能解決任何問題,表明當前模型在設計有效算法以解決復雜問題方面的能力較差。

表3:OlympicArena上的實驗結果,以百分比表示,每個設置中得分最高的用下劃線表示,所有設置中得分最高的用粗體表示。論文使用pass@k指標(公式1)來評估CS問題。在計算整體準確率時,對于代碼生成問題,如果為某個問題生成的任何代碼通過了所有測試用例,則該問題被視為正確    

OlympicArena:為超級智能AI基準測試多學科認知推理能力-AI.x社區

2.3.4 細粒度分析

為了對實驗結果進行更細致的分析,論文基于不同的模態和推理能力進行了進一步的評估。此外,論文還對過程級別的評估進行了分析。主要發現如下:

模型在不同的邏輯和視覺推理能力上表現出不同的性能。如圖3所示,幾乎所有模型在不同的邏輯推理能力上都顯示出相似的性能趨勢。它們在假設推理和因果推理方面表現出色,能夠很好地從提供的信息中識別因果關系。相反,模型在歸納推理和分解推理方面表現不佳。這是由于奧運會級別問題的多樣性和非常規性,需要將復雜問題分解為更小的子問題的能力。在視覺推理能力方面,模型在模式識別和比較可視化方面表現較好。然而,它們在涉及空間和幾何推理以及需要理解抽象符號的任務中遇到困難。完整的結果見附錄D.1。    

大多數LMIMs在利用視覺信息方面仍然不夠熟練。如圖4a所示,只有少數LMMs(如GPT-4o和Qwen-VL-Chat)在有圖像輸入的情況下相比其基于文本的對應模型顯示出顯著的改進。許多LMMs并未顯示出性能的提升。

OlympicArena:為超級智能AI基準測試多學科認知推理能力-AI.x社區

圖3:不同模型在邏輯和視覺推理能力方面的表現。邏輯推理能力包括:演繹推理(DED)、歸納推理(IND)、溯因推理(ABD)、類比推理(ANA)、因果推理(CAE)、批判性思維(CT)、分解推理(DEC)和定量推理(QUA)。視覺推理能力包括:模式識別(PR)、空間推理(SPA)、圖示推理(DIA)、符號解釋(SYB)和比較可視化(COM)

在處理圖像輸入時,一些模型甚至顯示出效果下降。可能的原因包括:(1) 當文本和圖像同時輸入時,多模態模型(LMMs)可能更關注文本,忽視圖像中的信息。這一發現也在其他研究中得到證實[61, 9]。(2) 一些多模態模型在基于其文本模型訓練視覺能力時,可能會喪失一些固有的語言能力(例如推理能力),這在論文的場景中尤為明顯。(3) 論文的問題采用了一種復雜的文本和圖像交織格式,某些模型對此支持不佳,導致處理和理解嵌入在文本中的圖像位置信息時遇到困難。    

OlympicArena:為超級智能AI基準測試多學科認知推理能力-AI.x社區

**                圖 4:(a) 不同LMMs及其對應LLMs在三種不同實驗設置下的比較。關于每個LMM對應的LLM的詳細信息,請參閱附錄C.2。(b) 所有模型在所有采樣問題上的答案級和過程級得分之間的相關性。(c) 錯誤步驟位置的分布,表示為在整個過程中從左到右的步驟比例,覆蓋所有采樣問題

過程級評估結果分析 通過過程級評估(完整結果見表14),論文發現了以下見解:

(1) 過程級評估與答案級評估之間通常存在高度一致性。當模型產生正確答案時,推理過程的質量往往在大多數情況下更高(見圖4b)。

(2) 過程級的準確性通常高于答案級。這表明即使對于非常復雜的問題,模型也能正確執行一些中間步驟。因此,模型可能具有未被充分利用的認知推理潛力,為研究人員開辟了新的探索途徑。論文還發現,在少數學科中,一些在答案級表現良好的模型在過程級落后。論文推測這是因為模型在生成答案時有時傾向于忽略中間步驟的合理性,盡管這些步驟可能對最終結果不是至關重要的。

(3) 此外,論文對錯誤步驟位置分布進行了統計分析(見圖40)。論文發現較高比例的錯誤發生在后期階段。這表明隨著推理的累積,模型更容易出錯,表明在處理長邏輯鏈推斷方面需要改進。

可能遇到了43個基準實例。此外,這自然引發了一個問題:模型能否正確回答這些實例?有趣的是,相應的純文本聊天模型和多模態聊天模型能正確回答的這些實例甚至更少。這些結果表明,論文的基準測試幾乎沒有泄漏,并且具有足夠的挑戰性,因為模型無法正確回答大多數泄漏的實例。    

OlympicArena:為超級智能AI基準測試多學科認知推理能力-AI.x社區

圖5:GPT-4V采樣錯誤問題的錯誤類型分布

錯誤分析 為了進一步具體化模型的性能,論文從GPT-4V中抽樣了錯誤的回答(每個主題16個問題,其中8個純文本,8個多模態),并讓人類評估者分析和標注這些錯誤的原因。如圖5所示,推理錯誤(邏輯和視覺)構成了最大的類別,表明論文的基準有效地突出了當前模型在認知推理能力方面的不足。此外,很大一部分錯誤源于知識缺陷,表明當前模型仍然缺乏專家級別的領域知識和利用這些知識輔助推理的能力。另一類錯誤來自理解偏差,這可以歸因于模型對上下文的誤解以及整合復雜語言結構和多模態信息的困難。更多相關案例見附錄F.1。

2.3.5 數據泄露檢測的努力

鑒于預訓練語料庫規模的不斷擴大,檢測潛在的基準泄漏至關重要。預訓練的透明度往往使這項任務變得困難。為此,論文采用了一種最近提出的實例級泄漏檢測指標,即N-gram預測準確率。該指標為每個實例均勻抽樣幾個起始點,預測每個起始點的下一個n-gram,并檢查所有預測的n-gram是否正確,表明模型可能遇到過該實例。論文將此指標應用于所有可用的基礎或純文本聊天模型。如圖6所示,盡管與完整的基準相比數量微不足道,但令人驚訝且合理的是,這些評估模型背后的一些基礎模型或純文本聊天模型可能遇到了一些基準實例。例如,Qwen1.5-32B-Chat的基礎模型就曾遇到過這些實例。    

OlympicArena:為超級智能AI基準測試多學科認知推理能力-AI.x社區

                圖6:檢測到的泄露樣本數量以及相應的純文本和多模態聊天模型在這些樣本上正確響應的數量

本文轉載自 ??AI帝國??,作者: 無影寺

收藏
回復
舉報
回復
相關推薦
日韩欧美亚洲一区二区三区| 国产又黄又嫩又滑又白| av女优在线| 久久精品国产亚洲一区二区三区| 久久九九全国免费精品观看| 亚洲妇女无套内射精| 日韩伦理在线一区| 国产精品黄色在线观看| 国产精品久久久久久久久久久久午夜片 | 巨胸喷奶水www久久久免费动漫| 国产精品久久久久久亚洲伦| 国产精品国产精品| 中文字幕 人妻熟女| 好看的av在线不卡观看| 神马国产精品影院av| 动漫av在线免费观看| 欧美性片在线观看| 亚洲综合丁香婷婷六月香| 日本成人黄色| 少妇av在线播放| 美国一区二区三区在线播放| 性色av一区二区三区| 黄色av片三级三级三级免费看| 盗摄系列偷拍视频精品tp| 欧美日韩国产精选| 欧美污视频网站| av资源新版天堂在线| 日韩毛片视频在线看| 欧美一区观看| 天堂av在线资源| 国产不卡视频在线观看| 国产精品久久久久久av下载红粉| 日韩精品久久久久久久| 国产精品不卡| 在线观看欧美www| 一起草在线视频| 亚洲天堂中文字幕在线观看| 欧美精品在线一区二区三区| 三级a在线观看| 羞羞影院欧美| 色综合久久综合| 日本在线xxx| 三级网站视频在在线播放| 国产精品成人一区二区三区夜夜夜| 欧美日韩精品一区| 手机福利小视频在线播放| 成人夜色视频网站在线观看| 成人免费观看网站| www.精品视频| 高清国产一区二区| 91九色视频在线观看| 99在线观看精品视频| 激情都市一区二区| 成人黄色生活片| 国产精品探花视频| 久久99精品视频| 成人在线视频网站| 国产精品嫩草影院桃色| 久久精品国产一区二区| 91精品视频免费看| 国产免费黄色片| 国产精品主播直播| 99视频在线免费观看| 91在线视频导航| 免费成人性网站| 97免费在线视频| 日本一级淫片免费放| 欧美天天视频| 午夜精品视频在线| 亚洲免费黄色网址| 丝袜美腿成人在线| 国产精品视频自在线| 91片黄在线观看喷潮| 国模无码大尺度一区二区三区| 91精品久久久久久久| 国产免费黄色录像| 不卡一区在线观看| 欧美日韩国产免费一区二区三区 | 91精品国产经典在线观看| 欧美三级在线播放| 国产亚洲色婷婷久久| 91精品啪在线观看国产手机| 日韩av在线一区| 偷拍夫妻性生活| 99re久久最新地址获取| 欧美高清在线播放| 在线观看亚洲天堂| 麻豆视频一区二区| 国产精品三区在线| 成人亚洲综合天堂| 亚洲女同一区二区| 又粗又黑又大的吊av| 国产成+人+综合+亚洲欧美| 欧美一二三在线| 国产毛片久久久久久久| 亚洲天天综合| 欧美在线性视频| 国产手机精品视频| 91色porny| 一道精品一区二区三区| 色婷婷视频在线观看| 色香色香欲天天天影视综合网| 一级黄色片国产| 日韩精品欧美大片| 欧美成人一二三| 欧产日产国产69| 国产91精品久久久久久久网曝门 | 国产精品亚洲网站| 亚洲欧美激情另类| 亚洲欧洲日产国码二区| 虎白女粉嫩尤物福利视频| 日韩精品中文字幕一区二区 | 91精品在线麻豆| 粉嫩av懂色av蜜臀av分享| 婷婷综合激情| 国产精品91一区| 天天综合天天色| 亚洲精品伦理在线| 一个色综合久久| 精品在线手机视频| 欧美极品少妇xxxxx| 中文字幕在线播放不卡| 久久人人超碰精品| 国产女主播自拍| 精品成人18| 色99之美女主播在线视频| 国产精品久久久久久99| 国产精品自在欧美一区| 中国一区二区三区| 日本一区二区电影| 亚洲欧美日韩中文视频| 日干夜干天天干| 成人动漫中文字幕| 天天综合五月天| 欧美网站免费| 中文国产亚洲喷潮| 国产精品露脸视频| 久久精品欧美一区二区三区不卡| 亚洲国产成人精品无码区99| 亚洲三级av| 欧美日韩999| a视频免费在线观看| 亚洲欧洲国产日本综合| 婷婷六月天在线| 精品免费在线| 国产精品久久久久久久久免费| 精品乱码一区二区三四区视频| 五月天网站亚洲| yy1111111| 亚洲久久视频| 久久99精品久久久久久水蜜桃| av手机免费在线观看| 精品88久久久久88久久久| 久久亚洲国产成人精品性色| 国产精品一区二区在线看| 裸体裸乳免费看| 欧美2区3区4区| 欧美激情一二区| 丝袜视频国产在线播放| 欧美性猛xxx| 手机免费看av| 另类综合日韩欧美亚洲| 91手机视频在线| 97一区二区国产好的精华液| 久久人91精品久久久久久不卡| 日本波多野结衣在线| 欧美日韩激情小视频| 国产全是老熟女太爽了| 日本欧美在线观看| 一区二区三区四区欧美| 日本一区精品视频| 午夜精品久久久久久久99热浪潮| 人成在线免费视频| 91国在线观看| 国产精品 欧美激情| 床上的激情91.| 中文字幕日本最新乱码视频| 日韩三级在线| 成人黄动漫网站免费| 国产无遮挡裸体视频在线观看| 国产午夜精品一区二区三区 | 成人h在线观看| 久久伊人色综合| 少妇人妻一区二区| 欧洲av一区二区嗯嗯嗯啊| 欧美视频www| 91视视频在线观看入口直接观看www| 密臀av一区二区三区| 91久久电影| 久久99久久99精品蜜柚传媒| 国产精品一区二区免费福利视频| 欧美极度另类性三渗透| 美州a亚洲一视本频v色道| 91精品久久久久久久91蜜桃| 香蕉免费毛片视频| 国产精品丝袜在线| 丰满人妻一区二区三区免费视频棣| 久久电影一区| 成人在线观看毛片| 国产a久久精品一区二区三区 | 懂色av一区二区三区四区| 色诱亚洲精品久久久久久| 加勒比婷婷色综合久久| 久久精品日产第一区二区三区高清版 | 亚洲图片都市激情| 国产精品自在| 91精品国产自产在线观看永久| 看黄在线观看| 欧美大片在线看| 1024视频在线| 亚洲毛片在线看| 国精产品一品二品国精品69xx| 在线观看免费成人| 亚洲激情视频一区| 亚洲品质自拍视频网站| 亚洲国产果冻传媒av在线观看| 精品一区二区三区在线播放视频| 国产主播在线看| 国内在线观看一区二区三区| 一区不卡视频| 欧美日韩中文一区二区| 久久精品国产综合精品| 亚洲图色一区二区三区| 91九色视频导航| 日韩三区四区| 国产精品美女久久久久av超清| 麻豆理论在线观看| 久久久久国产精品www| 免费在线看黄色| 在线播放日韩专区| 久草视频视频在线播放| 亚洲国产欧美一区二区丝袜黑人| 国产成人三级一区二区在线观看一| 欧美亚洲国产一区二区三区va| 国产高清中文字幕| 欧美午夜丰满在线18影院| 国产精品50页| 亚洲高清视频的网址| 欧美日韩在线视频免费播放| 最新高清无码专区| 色婷婷粉嫩av| 最新国产精品久久精品| 久久久精品少妇| 亚洲少妇30p| 538精品在线观看| 一区二区三区四区在线播放| 免费在线观看日韩| 一区二区三区在线视频免费| 久久久久久久黄色| 亚洲国产一区二区在线播放| 国产一级在线播放| 亚洲国产精品一区二区尤物区| 久久久久黄色片| 亚洲不卡av一区二区三区| 日韩特黄一级片| 日韩欧美在线视频观看| www.中文字幕在线观看| 日韩欧美国产黄色| 亚洲色成人www永久网站| 在线中文字幕不卡| 一卡二卡三卡在线观看| 91精品啪在线观看国产60岁| 国产ts变态重口人妖hd| 精品国产成人系列| 人成免费电影一二三区在线观看| 亚洲色图偷窥自拍| 日本在线观看| 欧美黑人视频一区| 中文字幕乱码在线播放| 国产精品自拍网| 日韩成人精品| 久久精品国产第一区二区三区最新章节 | 精品免费国产一区二区三区四区| 亚洲第一页综合| 日韩成人小视频| xxxxx日韩| 免费91麻豆精品国产自产在线观看 | 成人97精品毛片免费看| 99九九电视剧免费观看| 色老板在线视频一区二区| 日韩av一级大片| 亚洲天堂免费| 免费在线观看日韩视频| 黑人巨大精品欧美黑白配亚洲| 高清中文字幕mv的电影| 国产欧美日韩久久| 久热精品在线观看| 色婷婷久久久综合中文字幕| 国产精品久久久久久无人区| 精品国产乱码久久久久久蜜臀| 国产精品二线| 久久久久久国产精品三级玉女聊斋| 美女100%一区| 超碰在线97av| 精品视频国产| 男人添女荫道口图片| 奇米色一区二区| 大桥未久恸哭の女教师| 国产精品视频看| 日本va欧美va国产激情| 制服.丝袜.亚洲.另类.中文 | 久久久国际精品| 久久黄色小视频| 在线电影国产精品| 欧美黄色小说| 欧美激情一区二区三区在线视频观看 | 中文精品在线观看| 亚洲精品va在线观看| 极品国产91在线网站| 精品久久久久久久久久久院品网 | 99热这里只有精品在线| 亚洲性av在线| 高潮在线视频| 99re热精品| 亚洲va在线| 一本岛在线视频| 久久色在线观看| 日韩欧美视频在线免费观看| 日韩欧美在线网站| av每日在线更新| 国产精品电影观看| 一道在线中文一区二区三区| 97超碰国产精品| 国产精品综合av一区二区国产馆| 最新日韩免费视频| 91国产免费观看| 欧美精品久久久久久久久久丰满| 性色av一区二区咪爱| 波多野结衣欧美| 欧美一级爱爱视频| 国产一区二区三区香蕉| 国产精品suv一区二区88| 在线视频综合导航| 免费在线黄色网址| 欧美一级片免费在线| 麻豆精品99| 亚洲 自拍 另类小说综合图区| 国产激情一区二区三区| 老湿机69福利| 日韩一区二区高清| 91最新在线视频| www 成人av com| 欧美精品1区| 亚洲精品成人无码毛片| 一区二区三区欧美日韩| 性欧美8khd高清极品| 欧美日韩福利电影| 亚洲精品观看| 黄色一级片在线看| 成a人片国产精品| www.com国产| 亚洲人成网7777777国产| 性感美女一区二区在线观看| 日韩久久精品一区二区三区| 全国精品久久少妇| 可以免费看av的网址| 日韩午夜在线观看| 黄网站在线观| 久久www免费人成精品| 久久精品二区三区| 国产调教在线观看| 欧美日韩aaa| 欧美1234区| 久久国产精品一区二区三区| 久久精品伊人| av最新在线观看| 精品黑人一区二区三区久久| 免费成人在线电影| 亚洲成人精品电影在线观看| 久久99精品国产.久久久久| 妺妺窝人体色www在线下载| 日韩国产欧美精品在线| 日韩在线免费| 日本精品福利视频| 99视频精品在线| 国内av在线播放| 欧美久久久精品| 天堂资源在线亚洲| 九色91popny| 亚洲乱码日产精品bd| 午夜视频免费看| 国产精品视频最多的网站| 欧美日本三区| av小说在线观看| 日韩三区在线观看| 伊人久久视频| www.69av| 国产亚洲综合在线| 亚洲乱码精品久久久久..| 日韩免费精品视频| 欧美黄污视频| 国产免费无遮挡吸奶头视频| 日韩一级欧美一级| 美女写真久久影院| 欧美 日韩 国产精品| 久久精品视频一区二区| www.av导航| 国产精品嫩草影院一区二区| 在线精品观看| 天天看天天摸天天操|