精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

【LLM】CRAG - 綜合性RAG基準測試

發布于 2024-6-17 10:18
瀏覽
0收藏

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

一、結論寫在前面

論文來自Meta Reality Labs、FAR、Meta、HKUST、HKUST (GZ)

論文標題:CRAG -- Comprehensive RAG Benchmark

論文鏈接:??https://arxiv.org/pdf/2406.04744???


檢索增強生成(Retrieval-Augmented Generation ,RAG)最近作為一種有前景的解決方案出現,以緩解大型語言模型(LLM)在知識缺乏方面的不足。然而,現有的RAG數據集并未充分代表真實世界問答(QA)任務的多樣性和動態性。


為了彌合這一差距,論文引入了綜合性RAG基準測試(CRAG),這是一個包含4,409個問答對的事實問答基準,并模擬了網絡和知識圖譜(KG)搜索的API。這包括每個問題最多可從現實世界的搜索引擎——Brave Search API [4]返回的50個完整HTML頁面,以及包含260萬個實體的模擬知識圖譜(KGs)。對于模擬的KGs,論文設置了詳細的實體和關系以模擬真實情況。

CRAG包含來自五個領域(金融、體育、音樂、電影和開放領域)的4,409個問答對。除了簡單事實問題(詢問實體的屬性),CRAG還包含七種類型的復雜問題,以涵蓋真實的用戶查詢:帶有條件的問題、比較問題、聚合問題、多跳問題、集合查詢、后處理繁重的問題和錯誤前提問題。CRAG反映了從流行到長尾的實體多樣性和從秒到年的時間跨度,便于深入洞察。在論文生成問題時,論文參考了智能助手的用例,確保問題現實,通過改寫問題增加表達的多樣性,并手動驗證事實真相以確??煽啃?。    

論文對這一基準的評估突顯了完全可信賴的QA之間的差距。盡管大多數先進的LLMs在CRAG上的準確率低于34%,但簡單地加入RAG僅將準確率提升至44%。業界最先進的RAG解決方案在不產生任何幻覺的情況下僅能回答63%的問題。CRAG還揭示了在回答涉及更高動態性、較低流行度或更高復雜度事實的問題時準確率顯著降低,這為未來的研究方向提供了建議。CRAG基準為2024年KDD Cup挑戰賽奠定了基礎,吸引了數千名參賽者并在比賽的前50天內提交了作品。

二、論文的簡單介紹

2.1 論文的背景

檢索增強生成(Retrieval-Augmented Generation,RAG)最近被視為緩解大型語言模型缺乏知識這一缺陷的有前景解決方案,吸引了來自學術界和工業界的大量關注。給定一個問題,RAG系統會搜索外部資源以檢索相關信息,然后提供有根據的答復。盡管具有潛力,RAG仍然面臨諸多挑戰,例如選擇最相關的信息、減少問答延遲以及綜合信息來回答復雜問題。

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

              圖1:使用LLMs進行QA(a)無RAG與(b)有RAG的對比

目前,為了推動這一領域的持續研究,一個全面的基準尚未建立。傳統的QA基準,如Natural Questions 、TriviaQA和MS MARCO,在過去十年中推動了QA的發展,但并未充分代表RAG面臨的多樣化和動態挑戰。專注于LLM或RAG的新基準,如FreshQA 和RGB ,通常針對LLM的某些能力,并且只包含幾百個查詢。論文工作的目標是建立一個全面的基準,以推動該領域的發展。

表1:CRAG與現有事實問答基準的比較

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

論文的第三個貢獻是對直接的RAG解決方案和行業內最先進的RAG解決方案進行了全面的評估(第5節)。盡管大多數先進的LLMs在CRAG上達到34%的準確率,但以直接方式添加RAG僅將準確率提升至44%。行業內最先進的RAG解決方案在回答問題時僅有63%的準確率,且在處理動態性更高、流行度更低或復雜度更高的事實相關問題時,準確率仍然較低。這些評估具有雙重作用:首先,它們證明了CRAG具有適當的難度水平,并允許從基準所包含的不同維度的多樣性中得出見解;其次,它們突出了實現完全可信賴的QA系統的差距和研究方向。

CRAG基準為KD Cup 2024挑戰奠定了基礎,吸引了數千名參與者并在比賽的前50天內提交了大量作品。論文承諾將持續維護CRAG,以服務于研究社區,推動RAG解決方案和通用QA解決方案的發展。

與現有基準的比較。表1將CRAG與現有的事實問答基準進行了比較,展示了CRAG基準的幾個優勢:全面覆蓋、真實測試與模擬API、動態問題處理、多樣的事實流行度以及廣泛超越維基百科。

這些特點使得CRAG成為一個強大且多功能的基準,用于測試RAG系統和廣泛的QA系統,為評估這些系統如何處理現實世界、動態和多樣化的信息檢索與合成挑戰提供了共享測試平臺,以實現基于可靠LLM的問答。

2.2 問題描述

一個RAG QA系統接收一個問題Q作為輸入,并輸出一個答案A;答案由LLMs根據從外部來源檢索的信息或直接從模型內化的知識生成。答案應提供有用的信息以回答問題,而不添加任何幻覺。    

論文設計了三個任務。它們共享相同的一組(問題,答案)對,但在用于增強QA的可檢索外部數據方面有所不同。在此,論文提供可在QA中利用的內容,以確保公平比較。論文將在第3節中描述數據生成的方式。

任務1:檢索摘要。在任務1中,論文為每個問題提供最多五個網頁。這些網頁可能與問題相關,但不保證一定相關。此任務旨在測試RAG系統的答案生成能力。

任務2:知識圖譜和網絡檢索增強。在任務2中,論文還額外提供了模擬API以訪問底層模擬知識圖譜中的信息。模擬知識圖譜存儲與問題相關的結構化數據;問題的答案可能存在于也可能不存在于模擬知識圖譜中。模擬API接受輸入參數,通常是從問題解析得到的,并從模擬的知識圖譜中提供結構化數據以支持答案生成。此任務測試RAG系統如何有效地查詢結構化數據源以及如何綜合不同來源的信息。

表2:CRAG問題類型的定義

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

任務3:端到端RAG。與任務2類似,任務3也同時提供網絡搜索結果和模擬API作為檢索候選,但提供50個網頁作為候選,而不是5個。更大數量的網頁更可能提供回答問題所需的必要信息,但同時更可能包含噪音。因此,任務3還測試RAG系統如何對更大數量的檢索結果進行排序。

2.3 數據集描述

CRAG包含兩部分數據:問答對和用于檢索的內容。論文現在描述每一部分的數據。

2.3.1 問答對

CRAG涵蓋五個領域:金融、體育、音樂、電影和開放領域,以及八種類型的英語問題。問題類型列于表2中。論文構建的問答對既來自底層知識圖譜(KGs)也來自網頁內容。

來自KGs的問答對。論文通過收集一組基于公開可用數據的實體,并根據選定的實體類型和關系創建了600多個問題模板。接下來,論文按照[2l]從KGs中抽取不同流行度(頭部、軀干和尾部)的實體來填充模板,并生成完整的問題和答案。

來自網頁內容的問答對。論文要求標注者寫下用戶可能提出的問題(例如,“2023年最受歡迎的動作電影”),并從相應的網頁搜索結果中創建問答對。

使用上述方法,論文收集了2,425個Web問題和1,984個KG問題,其中661個、658個和665個KG問題分別包含頭部、軀干和尾部實體。表3和表4總結了問題在不同維度上的分布情況。每個維度切片的大?。ɡ?,快速變化的事實)使論文能夠在大多數情況下獲得小于5%的誤差范圍(置信度為95%)的指標。動態分布大致反映了領域的性質(例如,金融領域的實時問題比其他領域多得多)。

表3:每個動態類別的問題數量和百分比(括號內為百分比),手動確定。金融和體育領域擁有最多的實時和快速變化的問題

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

表4:每個問題類型的問題數量和百分比(括號內為百分比),手動確定。簡單和帶有條件的問題構成所有問題的43%    

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

2.3.2 檢索內容

為了模擬RAG的實際應用場景,論文包含了兩種類型的檢索內容:網頁搜索和知識圖譜(KG)搜索。

網頁搜索結果。對于每個問題,論文使用問題文本作為搜索查詢,并從Brave搜索API [4] 中存儲最多50個HTML頁面。論文采用基于啟發式的方法估算網頁搜索的召回率(50個網頁):首先檢查50個頁面中是否包含標準答案URL;如果不包含,則搜索頁面摘要或內容中是否包含標準答案中的事實。估算的召回率在Web Questions中為84%,在KG Questions中為63%(見附錄A.1.5中的表9),這與論文的直覺一致,即KG問題中的主體和尾部實體可能未包含在返回的50個頁面中。

模擬知識圖譜(Mock KGs)。論文創建了包含公開可用KG數據、隨機選擇的同類型實體以及具有相似名稱的“硬負例”實體(例如,“phantom”對應“phantom of the opera”)的模擬KG。

模擬API。論文創建了具有預定義參數的模擬API,以支持在模擬KG中的結構化搜索。例如,對于詢問股票價格的查詢,一個模擬API的示例形式為get-price history(ticker)。    

2.4 評價指標與評估

2.4.1評價指標

論文采用一種評分方法來評估RAG系統的性能。對于評估集中的每個問題,論文首先根據以下標準將答案標記為完美、可接受、缺失或不正確。

完美。該響應正確回答了用戶的問題,并且沒有包含幻覺內容。

可接受。該響應為用戶的問題提供了一個有用的答案,但可能包含一些不影響答案有用性的輕微錯誤。

缺失。該響應為“不知道?!薄皩Σ黄穑也坏?。”,或者是空白響應,或者是系統請求澄清原始問題。

不正確。該響應提供了錯誤的或與回答用戶問題無關的信息。

然后,論文使用一種評分方法Score,對于完美、可接受、缺失和不正確的答案分別給予1分、0.5分、0分和-1分,其中論文懲罰幻覺答案,并更傾向于缺失答案而不是不正確的答案。對于給定的RAG系統,論文計算評估集中所有示例的平均分數作為最終分數。

2.4.2 評估

與先前的工作[26]類似,論文采用了人類評估(human-eval)和模型自動評估(auto-eval)兩種方法。在前者中,論文使用人工評分來判斷每個答案是完美、可接受、缺失還是不正確。在后者中,論文將完美和可接受合并,稱之為準確,并使用三向評分Scorea,對于準確、不正確和缺失的答案分別給予1分、-1分和0分。

論文設計了一種兩步法來自動評估:如果答案完全匹配標準答案,則視為準確;否則,使用大型語言模型(LLMs)來判斷響應是準確、錯誤還是缺失。為避免自我偏好問題,論文采用兩個LLM評估器:ChatGPT(gpt-3.5-turbo)和Llama 3(1lama-3-70B-instruct),并對每個RAG系統報告這兩個模型的平均準確率、幻覺率、缺失率和得分。論文的離線實驗顯示,這種兩步法相較于人工評估,ChatGPT的平均F1分數為94.7%,Llama 3為98.9%。

測試數據分割。論文將數據隨機分為驗證集、公開測試集和私有測試集,比例為30%、30%和40%,并發布了驗證集和公開測試集供KDD Cup挑戰使用。    

2.5 基準測試

,論文將展示LLMs和RAG系統在CRAG上的性能,證明CRAG具有合理的難度水平,并能幫助在開發RAG技術時提供洞察和方向。

2.5.1 直接的RAG解決方案

實驗設置:論文首先在CRAG公開測試集上運行僅LLM的解決方案,該測試集包含1,335個問題,使用簡單的提示鼓勵簡短答案,并在信心不足時給出“我不知道”的答案。論文采用了Llama 2 Chat(llama-2-7b-chat和llama-2-70b-chat)、Llama 3 Instruct(llama-3-8B-instruct和llama-3-70B-instruct)和GPT-4 Turbo 。論文評估的僅基于網頁的RAG解決方案(任務1)使用固定長度的網頁上下文窗口(Llama 2 Chat為2K token,Llama 3 Instruct和GPT-4 Turbo為4Ktoken);論文按照數據中的原始順序連接網頁片段作為參考文本,直至填滿窗口。

論文的基于知識圖譜(KG)的解決方案(任務2、3)還額外使用固定長度的KG上下文窗口(Llama 2 Chat為1Ktoken,Llama 3 Instruct和GPT-4 Turbo為2Ktoken)以包含Mock API的結果;論文使用llama-3-8B-instruct進行上下文學習來提取相關查詢實體,并連接所有適用的Mock API返回的結果(基于提取的實體),直至填滿窗口。本節論文討論Llama 3 70B Instruct和GPT-4 Turbo的結果。

表5:直接RAG解決方案的性能。所有數字均為百分比。僅LLM解決方案的準確率最高可達34%,直接RAG解決方案的準確率最高可達44%

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

    

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

              圖2展示了僅使用LLM和任務3解決方案在不同領域、動態性、流行度和問題類型下的自動評估得分(以百分比表示)

表5顯示了來自兩個自動評估器(ChatGPT和Llama 3)的平均評估得分,并說明CRAG基準并非易事:

?首先,最佳的LLM-only解決方案(GPT-4 Turbo)僅達到349%的準確率,得分僅為20%,顯示出巨大的改進空間。

?其次,直接的RAG解決方案最高可達44%%的準確率,表明額外的信息確實有助于更可靠地回答更多問題。有趣的是,沒有任何RAG解決方案的得分超過20%%;這是因為所有RAG解決方案都引入了更多由無關檢索結果產生的幻覺,顯示出RAG中的一個重大挑戰——如何審慎地使用檢索結果而不被檢索噪音干擾?

?第三,論文發現任務2的得分高于任務1,表明KG知識有助于提高準確率,且幻覺率相似甚至更低,因為KG知識通常簡潔而精確。遺憾的是,這種改進并不顯著,顯示出RAG中的第二個挑戰——如何最大限度地利用KG數據的力量?最后,任務3的得分也高于任務2,這是由于更好的搜索排名(回想任務1和2提供的是從前10搜索結果中隨機選擇的五頁)和更好的搜索召回。這表明搜索排名在RAG中的重要性。

圖2展示了在領域、動態性、流行度和問題類型維度上的自動評估分數。結果揭示了許多有趣的觀察,并表明CRAG基準允許更深入的結論。    

?首先,它展示了基準中哪些部分更難。例如,論文發現在金融和體育領域,對于實時和快速變化的事實,對于尾部實體,以及對于需要集合答案、后處理和具有錯誤前提的復雜問題的RAG分數顯著較低。

?其次,它顯示了在哪些方面更難利用檢索結果。以流行度切片為例,論文觀察到GPT-4 Turbo的分數從頭部(21%)下降到表6:使用行業最先進的RAG系統對CRAG問題進行基準測試。完美、可接受(Acc.)、幻覺(IHall.)、缺失(Miss.)率和分數n,以百分比表示。最佳系統達到51%的分數,并為高達63%的問題提供完美答案。

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

圖3:SOTA系統在不同維度上的人類評估得分(百分比)    

2.5.2 工業界最先進的解決方案

接下來,論文在CRAG公共測試集上評估了工業界最先進(SOTA)的RAG解決方案。論文選擇了四個基于SOTA LLMs和搜索引擎構建的RAG系統,使用CRAG問題查詢它們,收集了響應,并應用了手動評分。

此外,論文為問題應用了流量權重,以理解實際使用場景中的解決方案。流量權重來自一個真實的QA用例,并按如下方式生成。在每個領域內,論文首先將問題聚類到子領域(例如,當前游戲積分、體育隊伍),然后從反映用戶交互的聚合數據中導出子領域權重。論文將子領域權重應用于每個CRAG問題,以將結果與用戶體驗相對應,并在表6中報告了所有領域的宏觀平均得分(即,給予所有領域相同的權重)。

表6和圖3展示了SOTA系統的整體性能及其在不同維度上的表現。評估結果證實了論文的觀點,即CRAG基準揭示了有趣的見解,并為現有的RAG解決方案提供了改進空間。

?首先,SOTA解決方案的得分遠高于直接解決方案(最高達51%)。然而,加權幻覺率在17%至25%之間,因此答案仍不可靠。需要注意的是,SOTA解決方案與直接解決方案之間的得分不完全可比,因為它們訪問檢索內容的方式不同,前者使用自動評估,而后者使用人工評估;但趨勢是有效的。

?其次,在直接解決方案中觀察到的多數難點對于SOTA解決方案仍然具有挑戰性:實時快速變化的查詢,以及涉及軀干和【LLM】CRAG - 綜合性RAG基準測試-AI.x社區實體的問題,表明系統在依賴檢索結果回答問題時處理檢索噪聲方面需要改進;另一個例子是,對于需要多跳推理或后處理的查詢,得分較低,顯示了問答中推理能力的提升空間

?第三,第三SOTA系統的加權準確率(完美+可接受)略高于第二系統(73%和70%),但幻覺率顯著更高(25.19%和16.6%),表明構建RAG系統時,在無法找到確信答案的情況下明智地回答“我不知道”的必要性。

?最后,在集合和錯誤前提問題上的得分,SOTA解決方案相比直接解決方案有了顯著提升,展示了RAG系統在提供準確完整集合答案和檢測錯誤前提方面的進步。    

最后,論文觀察到非常不同的延遲,范圍從2.5秒到11.6秒,這反映了在延遲和質量之間權衡的不同設計選擇。需要注意的是,延遲結果來自于與Perplexity.ai的API以及與其他系統的網頁界面的交互。

本文轉載自 ??AI帝國??,作者: 無影寺

收藏
回復
舉報
回復
相關推薦
野花国产精品入口| 亚洲欧洲自拍| 成人a免费在线看| 2018国产精品视频| 国产一级伦理片| 在线视频cao| 亚洲婷婷在线视频| 精品国产91亚洲一区二区三区www| youjizz在线视频| 亚洲乱码电影| 亚洲人成亚洲人成在线观看| 国产成人美女视频| 高潮在线视频| 国产精品大尺度| 精品一区二区三区免费毛片| 一本久道久久综合无码中文| 最新成人av网站| 日韩在线www| 色天使在线视频| 精品一级视频| 欧美丝袜丝交足nylons图片| 日韩av新片网| 激情影院在线观看| 久久久久久久久99精品| 国产精品国产精品| 伊人久久一区二区| 欧美综合二区| 久久久亚洲网站| 国产97免费视频| 成人在线免费视频观看| 日韩大片免费观看视频播放| 五月天激情播播| 无人区在线高清完整免费版 一区二| 亚洲精品国产精华液| 亚洲福利av在线| 欧洲天堂在线观看| 99久久久精品| 翡翠波斯猫1977年美国| 一区二区三区日| 欧美a一区二区| 欧美在线欧美在线| 影音先锋亚洲天堂| 激情综合视频| 久久久欧美一区二区| 欧美性猛交xxxxx少妇| 97色伦图片97综合影院| 中文字幕久热精品在线视频| 国产麻豆天美果冻无码视频| 精品三级在线观看视频| 亚洲成人激情在线| 日韩精品无码一区二区| 外国成人直播| 欧美视频一二三| 日韩精品―中文字幕| av免费在线视| 亚洲成人精品影院| 香港三级日本三级a视频| bt在线麻豆视频| 一区二区三区不卡视频在线观看| 国产一级片91| 欧美色图天堂| 亚洲成人第一页| 99精品人妻少妇一区二区| 久草在线资源福利站| 黑人狂躁日本妞一区二区三区 | 欧美一区二区三| 国产亚洲精品综合一区91| 精品无码人妻一区二区免费蜜桃 | 97久久中文字幕| 欧美一区二区成人| 国内精品免费视频| 日本成人7777| 一区二区欧美久久| 免费黄色国产视频| 欧美久久99| 7777免费精品视频| 国产精品免费无遮挡无码永久视频| 视频一区欧美精品| 91精品中文在线| 高潮毛片7777777毛片| 91视频91自| 亚洲午夜激情| 成人免费高清观看| 色婷婷综合久色| 亚洲综合激情视频| 国产精品巨作av| 一个色综合导航| 黄色在线观看免费| 久久精品日产第一区二区| 国产精品视频1区| 成 人片 黄 色 大 片| 26uuu精品一区二区三区四区在线 26uuu精品一区二区在线观看 | 久久亚洲一级片| 三年中文高清在线观看第6集| 毛片网站在线看| 在线一区二区观看| 波多野结衣电影免费观看| 一本久久青青| 欧美精品午夜视频| 波多野结衣毛片| 成人性生交大片| 四虎一区二区| 国产污视频在线播放| 欧美日韩免费观看一区三区| 亚洲色图欧美日韩| 91高清一区| 国产成人av在线播放| 精品区在线观看| 国产视频不卡一区| 美脚丝袜脚交一区二区| 日本在线一区二区| 日韩精品一二三四区| 国产精品国产精品88| 久久久久久久欧美精品| julia一区二区中文久久94| 国产粉嫩一区二区三区在线观看 | 久久影院在线观看| 日韩三级一区二区| www.欧美亚洲| 91传媒免费视频| 日本欧美在线| 尤物精品国产第一福利三区 | 欧美剧情片在线观看| 李宗瑞91在线正在播放| 极品av少妇一区二区| 91夜夜揉人人捏人人添红杏| 黄网在线观看| 欧美日韩精品在线播放| 逼特逼视频在线观看| 在线国产一区| 国产日韩欧美影视| porn视频在线观看| 在线影院国内精品| 中文字幕一区二区三区人妻不卡| 亚洲天堂成人| 国产精品久久国产三级国电话系列 | 91丝袜呻吟高潮美腿白嫩在线观看| 国内外成人激情免费视频| 日韩av黄色| 久久色精品视频| 国产精品久久久久久久久久久久久久久久久久 | 欧美大片欧美激情性色a∨久久| 日韩在线播放中文字幕| 不卡的电视剧免费网站有什么| 国产91在线亚洲| 视频在线观看免费影院欧美meiju| 日韩中文第一页| 伊人久久成人网| 国产精品久久久久一区二区三区| 蜜臀视频一区二区三区| 国产一区国产二区国产三区| 国产不卡av在线| 黄色的视频在线免费观看| 色综合视频在线观看| 公侵犯人妻一区二区三区| 亚洲一区亚洲| 欧美在线视频一区二区三区| 亚洲第一av| 亚洲欧美日韩精品久久亚洲区| 日韩成人高清视频| 91色视频在线| www日韩视频| 成人羞羞视频播放网站| 国产在线999| 伊人春色在线观看| 精品粉嫩超白一线天av| 国产成人在线视频观看| 久久久精品免费免费| 亚洲精品视频导航| 68国产成人综合久久精品| 亚洲自拍偷拍视频| 黄色在线观看视频网站| 日韩精品黄色网| 免费在线不卡av| 综合久久给合久久狠狠狠97色| 中文字幕无码毛片免费看| 在线看片一区| 日本午夜精品电影| 成人永久在线| 亚州av一区二区| 国产乱理伦片a级在线观看| 欧美日韩国产综合草草| 欧美成人三级在线观看| 99国内精品久久| 浓精h攵女乱爱av| 午夜久久久久| 欧美一区2区三区4区公司二百| 久久精品97| 久久久久久久久久久av| 神马电影在线观看| 欧美日韩综合在线免费观看| 欧美成人黄色网| 久久精品亚洲精品国产欧美| 九九久久久久久| 一本色道久久综合亚洲精品不卡| 午夜视频久久久| 好吊妞国产欧美日韩免费观看网站| 国产999精品久久久影片官网| a篇片在线观看网站| 国产视频亚洲视频| 国产人妻精品一区二区三| 黄色成人av网| 国产免费久久久久| 91年精品国产| 一级黄色大片免费看| 日韩专区欧美专区| 国产一区二区片| 三级电影一区| 欧美一区二区在线视频观看| 日韩三级不卡| 国产精品入口免费视| 高潮在线视频| 欧美激情中文字幕乱码免费| 9191在线观看| 亚洲另类激情图| 后入内射欧美99二区视频| 欧美人妇做爰xxxⅹ性高电影| 久久久精品免费看| 一区二区三区加勒比av| 五月天色婷婷丁香| 中文字幕不卡在线观看| 亚洲熟女乱综合一区二区三区| 国产一区二区三区视频在线播放| 色七七在线观看| 国产精品久久久久久久免费软件| 黄色一级大片免费| 91久久国产| 亚洲国产日韩综合一区| 久久最新网址| 蜜桃视频在线观看成人| 国产精品色在线网站| 97人人香蕉| 欧美成年网站| 147欧美人体大胆444| 色8久久久久| 国产欧美一区二区三区在线| 亚洲欧美在线成人| 国产成+人+综合+亚洲欧美丁香花| 极品av在线| 97涩涩爰在线观看亚洲| yellow字幕网在线| 性欧美长视频免费观看不卡| 高清电影在线免费观看| 欧美激情啊啊啊| 久久人妻无码aⅴ毛片a片app| 欧美尿孔扩张虐视频| 91热精品视频| 9999精品免费视频| 成人情趣片在线观看免费| 欧美电影在线观看网站| 国产精品亚洲欧美导航| 97精品国产99久久久久久免费| 国产98色在线| 国产福利一区二区三区在线播放| 欧美中文字幕视频| 日韩影片中文字幕| 国产精品成人久久久久| 91精品影视| 国产精品日韩在线| 高清久久一区| 国产不卡一区二区在线观看| 大香伊人久久精品一区二区| 国内精品视频免费| 免费一区二区| 无码免费一区二区三区免费播放| 欧美日韩在线观看视频小说| 伊人色综合影院| 欧美人成在线| 噜噜噜久久亚洲精品国产品麻豆| 久久夜色精品| 制服丝袜中文字幕第一页 | 国产精品极品美女粉嫩高清在线| 欧美极品免费| 91色视频在线导航| 激情小说一区| 欧美一级二级三级九九九| 97欧美在线视频| 无码粉嫩虎白一线天在线观看| 免费看黄裸体一级大秀欧美| 无需播放器的av| 国产精品18久久久久| 国产亚洲色婷婷久久99精品91| 国产日韩欧美电影| 亚洲色图综合区| 福利视频导航一区| 国产尤物视频在线观看| 精品88久久久久88久久久| 欧美18xxxxx| 久久成人在线视频| 中文字幕人成乱码在线观看| 国产在线999| 秋霞影院一区二区三区| 中文字幕av日韩精品| 亚洲黄色精品| 亚洲一区二区福利视频| 99国产精品久久久久久久久久久| 国产一区二区三区四区在线| 亚洲综合视频网| 中文字幕人妻一区二区三区视频| 精品国产乱码久久久久久影片| 欧美18xxxxx| 欧美精品videossex性护士| 超碰aⅴ人人做人人爽欧美| 亚洲综合小说区| 精品日韩在线| 日本欧美视频在线观看| 精品一区二区三区免费视频| 少妇特黄一区二区三区| 亚洲精品久久嫩草网站秘色| 亚洲图片欧美日韩| 欧美精品一区二区三区在线| 麻豆影院在线| 国产成人精品在线| 精品五月天堂| 日韩一级特黄毛片| 乱一区二区av| 中国女人特级毛片| 欧美日韩国产精品专区| 国产丰满美女做爰| 日韩中文字幕视频在线| 蜜臀国产一区| 精品一区在线播放| 黑丝一区二区| 韩国三级丰满少妇高潮| 国产精品国产三级国产专播品爱网| 伊人久久综合视频| 精品福利一二区| 牛牛精品视频在线| 亚洲综合日韩在线| 一区二区电影| 国内av一区二区| 国产精品夫妻自拍| 亚洲天堂自拍偷拍| 尤物yw午夜国产精品视频明星| 另类图片综合电影| 麻豆91蜜桃| 免费视频一区二区三区在线观看| 在线观看免费视频黄| 亚洲午夜影视影院在线观看| 精品国产18久久久久久| 久久夜精品va视频免费观看| 91麻豆精品国产综合久久久| 亚洲精品视频一区二区三区| 日韩高清在线不卡| 免费在线观看a视频| 欧洲亚洲国产日韩| h视频网站在线观看| 国产精品久久视频| 精品理论电影| 色啦啦av综合| 成人免费在线播放视频| 国产免费久久久| 欧美人成在线视频| 国产精品男女| 黄色片视频在线播放| 久久午夜色播影院免费高清| 黄色一级视频免费看| 一区二区三区高清国产| 国产精品传媒麻豆hd| 一级黄色录像免费看| 国产精品一区2区| 久久免费在线观看视频| 亚洲国产成人久久| gay欧美网站| 一区国产精品| 国产69精品久久99不卡| 日本免费观看视| 亚洲欧美中文日韩v在线观看| 成人黄色图片网站| 色中文字幕在线观看| 国产91丝袜在线播放0| www成人在线| 中文字幕精品一区久久久久| 精品国产第一国产综合精品| 国产欧美日韩小视频| 久久九九国产精品| 97精品人妻一区二区三区在线 | 国产69精品一区二区亚洲孕妇 | 国产精品高颜值在线观看| 欧美黑人xxxxx| 久久成人综合网| 国产无遮挡又黄又爽又色| 亚洲视频欧美视频| 国产亚洲久久| 777米奇影视第四色| 亚洲欧洲精品一区二区精品久久久| 亚洲乱码精品久久久久..| 青青精品视频播放| 伊人成综合网| 久久亚洲AV成人无码国产野外 | 久久久久美女| 亚洲av成人片色在线观看高潮| 欧美性大战xxxxx久久久| 青春草在线视频| 亚洲 国产 欧美一区| 高清不卡在线观看| 一级黄色在线观看| 欧美国产欧美亚洲国产日韩mv天天看完整| 亚洲最好看的视频| www.com日本|