精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

【LLM】CRAG - 綜合性RAG基準測試

發布于 2024-6-17 10:18

瀏覽

0收藏

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

一、結論寫在前面

論文來自Meta Reality Labs、FAR、Meta、HKUST、HKUST (GZ)

論文標題：CRAG -- Comprehensive RAG Benchmark

論文鏈接：??https://arxiv.org/pdf/2406.04744???

檢索增強生成（Retrieval-Augmented Generation ，RAG）最近作為一種有前景的解決方案出現，以緩解大型語言模型（LLM）在知識缺乏方面的不足。然而，現有的RAG數據集并未充分代表真實世界問答（QA）任務的多樣性和動態性。

為了彌合這一差距，論文引入了綜合性RAG基準測試（CRAG），這是一個包含4，409個問答對的事實問答基準，并模擬了網絡和知識圖譜（KG）搜索的API。這包括每個問題最多可從現實世界的搜索引擎——Brave Search API [4]返回的50個完整HTML頁面，以及包含260萬個實體的模擬知識圖譜（KGs）。對于模擬的KGs，論文設置了詳細的實體和關系以模擬真實情況。

CRAG包含來自五個領域（金融、體育、音樂、電影和開放領域）的4，409個問答對。除了簡單事實問題（詢問實體的屬性），CRAG還包含七種類型的復雜問題，以涵蓋真實的用戶查詢：帶有條件的問題、比較問題、聚合問題、多跳問題、集合查詢、后處理繁重的問題和錯誤前提問題。CRAG反映了從流行到長尾的實體多樣性和從秒到年的時間跨度，便于深入洞察。在論文生成問題時，論文參考了智能助手的用例，確保問題現實，通過改寫問題增加表達的多樣性，并手動驗證事實真相以確?？煽啃?。

論文對這一基準的評估突顯了完全可信賴的QA之間的差距。盡管大多數先進的LLMs在CRAG上的準確率低于34%，但簡單地加入RAG僅將準確率提升至44%。業界最先進的RAG解決方案在不產生任何幻覺的情況下僅能回答63%的問題。CRAG還揭示了在回答涉及更高動態性、較低流行度或更高復雜度事實的問題時準確率顯著降低，這為未來的研究方向提供了建議。CRAG基準為2024年KDD Cup挑戰賽奠定了基礎，吸引了數千名參賽者并在比賽的前50天內提交了作品。

二、論文的簡單介紹

2.1 論文的背景

檢索增強生成(Retrieval-Augmented Generation，RAG)最近被視為緩解大型語言模型缺乏知識這一缺陷的有前景解決方案，吸引了來自學術界和工業界的大量關注。給定一個問題，RAG系統會搜索外部資源以檢索相關信息，然后提供有根據的答復。盡管具有潛力，RAG仍然面臨諸多挑戰，例如選擇最相關的信息、減少問答延遲以及綜合信息來回答復雜問題。

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

圖1：使用LLMs進行QA（a）無RAG與（b)有RAG的對比

目前，為了推動這一領域的持續研究，一個全面的基準尚未建立。傳統的QA基準，如Natural Questions 、TriviaQA和MS MARCO，在過去十年中推動了QA的發展，但并未充分代表RAG面臨的多樣化和動態挑戰。專注于LLM或RAG的新基準，如FreshQA 和RGB ，通常針對LLM的某些能力，并且只包含幾百個查詢。論文工作的目標是建立一個全面的基準，以推動該領域的發展。

表1：CRAG與現有事實問答基準的比較

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

論文的第三個貢獻是對直接的RAG解決方案和行業內最先進的RAG解決方案進行了全面的評估（第5節）。盡管大多數先進的LLMs在CRAG上達到34%的準確率，但以直接方式添加RAG僅將準確率提升至44%。行業內最先進的RAG解決方案在回答問題時僅有63%的準確率，且在處理動態性更高、流行度更低或復雜度更高的事實相關問題時，準確率仍然較低。這些評估具有雙重作用：首先，它們證明了CRAG具有適當的難度水平，并允許從基準所包含的不同維度的多樣性中得出見解；其次，它們突出了實現完全可信賴的QA系統的差距和研究方向。

CRAG基準為KD Cup 2024挑戰奠定了基礎，吸引了數千名參與者并在比賽的前50天內提交了大量作品。論文承諾將持續維護CRAG，以服務于研究社區，推動RAG解決方案和通用QA解決方案的發展。

與現有基準的比較。表1將CRAG與現有的事實問答基準進行了比較，展示了CRAG基準的幾個優勢：全面覆蓋、真實測試與模擬API、動態問題處理、多樣的事實流行度以及廣泛超越維基百科。

這些特點使得CRAG成為一個強大且多功能的基準，用于測試RAG系統和廣泛的QA系統，為評估這些系統如何處理現實世界、動態和多樣化的信息檢索與合成挑戰提供了共享測試平臺，以實現基于可靠LLM的問答。

2.2 問題描述

一個RAG QA系統接收一個問題Q作為輸入，并輸出一個答案A；答案由LLMs根據從外部來源檢索的信息或直接從模型內化的知識生成。答案應提供有用的信息以回答問題，而不添加任何幻覺。

論文設計了三個任務。它們共享相同的一組（問題，答案）對，但在用于增強QA的可檢索外部數據方面有所不同。在此，論文提供可在QA中利用的內容，以確保公平比較。論文將在第3節中描述數據生成的方式。

任務1：檢索摘要。在任務1中，論文為每個問題提供最多五個網頁。這些網頁可能與問題相關，但不保證一定相關。此任務旨在測試RAG系統的答案生成能力。

任務2：知識圖譜和網絡檢索增強。在任務2中，論文還額外提供了模擬API以訪問底層模擬知識圖譜中的信息。模擬知識圖譜存儲與問題相關的結構化數據；問題的答案可能存在于也可能不存在于模擬知識圖譜中。模擬API接受輸入參數，通常是從問題解析得到的，并從模擬的知識圖譜中提供結構化數據以支持答案生成。此任務測試RAG系統如何有效地查詢結構化數據源以及如何綜合不同來源的信息。

表2：CRAG問題類型的定義

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

任務3：端到端RAG。與任務2類似，任務3也同時提供網絡搜索結果和模擬API作為檢索候選，但提供50個網頁作為候選，而不是5個。更大數量的網頁更可能提供回答問題所需的必要信息，但同時更可能包含噪音。因此，任務3還測試RAG系統如何對更大數量的檢索結果進行排序。

2.3 數據集描述

CRAG包含兩部分數據：問答對和用于檢索的內容。論文現在描述每一部分的數據。

2.3.1 問答對

CRAG涵蓋五個領域：金融、體育、音樂、電影和開放領域，以及八種類型的英語問題。問題類型列于表2中。論文構建的問答對既來自底層知識圖譜（KGs）也來自網頁內容。

來自KGs的問答對。論文通過收集一組基于公開可用數據的實體，并根據選定的實體類型和關系創建了600多個問題模板。接下來，論文按照[2l]從KGs中抽取不同流行度（頭部、軀干和尾部）的實體來填充模板，并生成完整的問題和答案。

來自網頁內容的問答對。論文要求標注者寫下用戶可能提出的問題（例如，“2023年最受歡迎的動作電影”），并從相應的網頁搜索結果中創建問答對。

使用上述方法，論文收集了2，425個Web問題和1，984個KG問題，其中661個、658個和665個KG問題分別包含頭部、軀干和尾部實體。表3和表4總結了問題在不同維度上的分布情況。每個維度切片的大?。ɡ?，快速變化的事實）使論文能夠在大多數情況下獲得小于5%的誤差范圍（置信度為95%）的指標。動態分布大致反映了領域的性質（例如，金融領域的實時問題比其他領域多得多）。

表3：每個動態類別的問題數量和百分比（括號內為百分比），手動確定。金融和體育領域擁有最多的實時和快速變化的問題

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

表4：每個問題類型的問題數量和百分比（括號內為百分比），手動確定。簡單和帶有條件的問題構成所有問題的43%

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

2.3.2 檢索內容

為了模擬RAG的實際應用場景，論文包含了兩種類型的檢索內容：網頁搜索和知識圖譜（KG）搜索。

網頁搜索結果。對于每個問題，論文使用問題文本作為搜索查詢，并從Brave搜索API [4] 中存儲最多50個HTML頁面。論文采用基于啟發式的方法估算網頁搜索的召回率（50個網頁）：首先檢查50個頁面中是否包含標準答案URL；如果不包含，則搜索頁面摘要或內容中是否包含標準答案中的事實。估算的召回率在Web Questions中為84%，在KG Questions中為63%（見附錄A.1.5中的表9），這與論文的直覺一致，即KG問題中的主體和尾部實體可能未包含在返回的50個頁面中。

模擬知識圖譜（Mock KGs）。論文創建了包含公開可用KG數據、隨機選擇的同類型實體以及具有相似名稱的“硬負例”實體（例如，“phantom”對應“phantom of the opera”）的模擬KG。

模擬API。論文創建了具有預定義參數的模擬API，以支持在模擬KG中的結構化搜索。例如，對于詢問股票價格的查詢，一個模擬API的示例形式為get-price history(ticker)。

2.4 評價指標與評估

2.4.1評價指標

論文采用一種評分方法來評估RAG系統的性能。對于評估集中的每個問題，論文首先根據以下標準將答案標記為完美、可接受、缺失或不正確。

完美。該響應正確回答了用戶的問題，并且沒有包含幻覺內容。

可接受。該響應為用戶的問題提供了一個有用的答案，但可能包含一些不影響答案有用性的輕微錯誤。

缺失。該響應為“不知道?！薄皩Σ黄穑也坏?。”，或者是空白響應，或者是系統請求澄清原始問題。

不正確。該響應提供了錯誤的或與回答用戶問題無關的信息。

然后，論文使用一種評分方法Score，對于完美、可接受、缺失和不正確的答案分別給予1分、0.5分、0分和-1分，其中論文懲罰幻覺答案，并更傾向于缺失答案而不是不正確的答案。對于給定的RAG系統，論文計算評估集中所有示例的平均分數作為最終分數。

2.4.2 評估

與先前的工作[26]類似，論文采用了人類評估（human-eval）和模型自動評估（auto-eval）兩種方法。在前者中，論文使用人工評分來判斷每個答案是完美、可接受、缺失還是不正確。在后者中，論文將完美和可接受合并，稱之為準確，并使用三向評分Scorea，對于準確、不正確和缺失的答案分別給予1分、-1分和0分。

論文設計了一種兩步法來自動評估：如果答案完全匹配標準答案，則視為準確；否則，使用大型語言模型（LLMs）來判斷響應是準確、錯誤還是缺失。為避免自我偏好問題，論文采用兩個LLM評估器：ChatGPT（gpt-3.5-turbo）和Llama 3（1lama-3-70B-instruct），并對每個RAG系統報告這兩個模型的平均準確率、幻覺率、缺失率和得分。論文的離線實驗顯示，這種兩步法相較于人工評估，ChatGPT的平均F1分數為94.7%，Llama 3為98.9%。

測試數據分割。論文將數據隨機分為驗證集、公開測試集和私有測試集，比例為30%、30%和40%，并發布了驗證集和公開測試集供KDD Cup挑戰使用。

2.5 基準測試

，論文將展示LLMs和RAG系統在CRAG上的性能，證明CRAG具有合理的難度水平，并能幫助在開發RAG技術時提供洞察和方向。

2.5.1 直接的RAG解決方案

實驗設置：論文首先在CRAG公開測試集上運行僅LLM的解決方案，該測試集包含1，335個問題，使用簡單的提示鼓勵簡短答案，并在信心不足時給出“我不知道”的答案。論文采用了Llama 2 Chat（llama-2-7b-chat和llama-2-70b-chat）、Llama 3 Instruct（llama-3-8B-instruct和llama-3-70B-instruct）和GPT-4 Turbo 。論文評估的僅基于網頁的RAG解決方案（任務1）使用固定長度的網頁上下文窗口（Llama 2 Chat為2K token，Llama 3 Instruct和GPT-4 Turbo為4Ktoken）；論文按照數據中的原始順序連接網頁片段作為參考文本，直至填滿窗口。

論文的基于知識圖譜（KG）的解決方案（任務2、3）還額外使用固定長度的KG上下文窗口（Llama 2 Chat為1Ktoken，Llama 3 Instruct和GPT-4 Turbo為2Ktoken）以包含Mock API的結果；論文使用llama-3-8B-instruct進行上下文學習來提取相關查詢實體，并連接所有適用的Mock API返回的結果（基于提取的實體），直至填滿窗口。本節論文討論Llama 3 70B Instruct和GPT-4 Turbo的結果。

表5：直接RAG解決方案的性能。所有數字均為百分比。僅LLM解決方案的準確率最高可達34%，直接RAG解決方案的準確率最高可達44%

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

圖2展示了僅使用LLM和任務3解決方案在不同領域、動態性、流行度和問題類型下的自動評估得分（以百分比表示)

表5顯示了來自兩個自動評估器（ChatGPT和Llama 3）的平均評估得分，并說明CRAG基準并非易事:

?首先，最佳的LLM-only解決方案（GPT-4 Turbo）僅達到349%的準確率，得分僅為20%，顯示出巨大的改進空間。

?其次，直接的RAG解決方案最高可達44%%的準確率，表明額外的信息確實有助于更可靠地回答更多問題。有趣的是，沒有任何RAG解決方案的得分超過20%%；這是因為所有RAG解決方案都引入了更多由無關檢索結果產生的幻覺，顯示出RAG中的一個重大挑戰——如何審慎地使用檢索結果而不被檢索噪音干擾？

?第三，論文發現任務2的得分高于任務1，表明KG知識有助于提高準確率，且幻覺率相似甚至更低，因為KG知識通常簡潔而精確。遺憾的是，這種改進并不顯著，顯示出RAG中的第二個挑戰——如何最大限度地利用KG數據的力量？最后，任務3的得分也高于任務2，這是由于更好的搜索排名（回想任務1和2提供的是從前10搜索結果中隨機選擇的五頁）和更好的搜索召回。這表明搜索排名在RAG中的重要性。

圖2展示了在領域、動態性、流行度和問題類型維度上的自動評估分數。結果揭示了許多有趣的觀察，并表明CRAG基準允許更深入的結論。

?首先，它展示了基準中哪些部分更難。例如，論文發現在金融和體育領域，對于實時和快速變化的事實，對于尾部實體，以及對于需要集合答案、后處理和具有錯誤前提的復雜問題的RAG分數顯著較低。

?其次，它顯示了在哪些方面更難利用檢索結果。以流行度切片為例，論文觀察到GPT-4 Turbo的分數從頭部（21%）下降到表6：使用行業最先進的RAG系統對CRAG問題進行基準測試。完美、可接受（Acc.）、幻覺（IHall.）、缺失（Miss.）率和分數n，以百分比表示。最佳系統達到51%的分數，并為高達63%的問題提供完美答案。

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

圖3：SOTA系統在不同維度上的人類評估得分（百分比）

2.5.2 工業界最先進的解決方案

接下來，論文在CRAG公共測試集上評估了工業界最先進（SOTA）的RAG解決方案。論文選擇了四個基于SOTA LLMs和搜索引擎構建的RAG系統，使用CRAG問題查詢它們，收集了響應，并應用了手動評分。

此外，論文為問題應用了流量權重，以理解實際使用場景中的解決方案。流量權重來自一個真實的QA用例，并按如下方式生成。在每個領域內，論文首先將問題聚類到子領域（例如，當前游戲積分、體育隊伍），然后從反映用戶交互的聚合數據中導出子領域權重。論文將子領域權重應用于每個CRAG問題，以將結果與用戶體驗相對應，并在表6中報告了所有領域的宏觀平均得分（即，給予所有領域相同的權重）。

表6和圖3展示了SOTA系統的整體性能及其在不同維度上的表現。評估結果證實了論文的觀點，即CRAG基準揭示了有趣的見解，并為現有的RAG解決方案提供了改進空間。

?首先，SOTA解決方案的得分遠高于直接解決方案（最高達51%）。然而，加權幻覺率在17%至25%之間，因此答案仍不可靠。需要注意的是，SOTA解決方案與直接解決方案之間的得分不完全可比，因為它們訪問檢索內容的方式不同，前者使用自動評估，而后者使用人工評估；但趨勢是有效的。

?其次，在直接解決方案中觀察到的多數難點對于SOTA解決方案仍然具有挑戰性：實時快速變化的查詢，以及涉及軀干和【LLM】CRAG - 綜合性RAG基準測試-AI.x社區實體的問題，表明系統在依賴檢索結果回答問題時處理檢索噪聲方面需要改進；另一個例子是，對于需要多跳推理或后處理的查詢，得分較低，顯示了問答中推理能力的提升空間

?第三，第三SOTA系統的加權準確率（完美+可接受）略高于第二系統（73%和70%），但幻覺率顯著更高（25.19%和16.6%），表明構建RAG系統時，在無法找到確信答案的情況下明智地回答“我不知道”的必要性。

?最后，在集合和錯誤前提問題上的得分，SOTA解決方案相比直接解決方案有了顯著提升，展示了RAG系統在提供準確完整集合答案和檢測錯誤前提方面的進步。

最后，論文觀察到非常不同的延遲，范圍從2.5秒到11.6秒，這反映了在延遲和質量之間權衡的不同設計選擇。需要注意的是，延遲結果來自于與Perplexity.ai的API以及與其他系統的網頁界面的交互。

本文轉載自 ??AI帝國??，作者：無影寺

標簽

贊

收藏

回復

舉報

回復

相關推薦

新測試基準發布，最強開源Llama 3尷尬了

Crystalcxt ? 4551瀏覽 ? 0回復
OlympicArena：為超級智能AI基準測試多學科認知推理能力

sbf_2000 ? 4733瀏覽 ? 0回復
SEED-Bench：基于生成理解的多模態大語言模型基準測試（CVPR2024）

AIRoobt ? 9678瀏覽 ? 0回復
Llama-3：利用微型基準測試（井字游戲）評估大模型

Baihai_IDP ? 4483瀏覽 ? 0回復
MMLU-Pro：新的 LLM 評估基準

amei2000go ? 1.6w瀏覽 ? 0回復
Advanced RAG 10：引入檢索評估、知識精練的 CRAG 技術詳解

Baihai_IDP ? 5118瀏覽 ? 0回復
對 OpenAI 模型進行基準測試以實現自動錯誤解決

51CTO技術棧 ? 3500瀏覽 ? 0回復
對OpenAI模型進行基準測試以實現自動解決錯誤

51CTO內容精選 ? 3274瀏覽 ? 0回復
我們對OpenAI 模型進行了軟件開發基準測試評估

51CTO技術棧 ? 3443瀏覽 ? 0回復
IdentifyMe：一個具有挑戰性的長文本指代消解基準測試

AI論文解讀 ? 4602瀏覽 ? 0回復
ChunkRAG：比CRAG提升10個點準確率

大語言模型論文跟蹤 ? 3676瀏覽 ? 0回復
DB-GPT-Hub:text2sql的微調框架及基準測試套件

大模型自然語言處理 ? 4714瀏覽 ? 0回復
探秘大語言模型數據合成能力：AgoraBench基準測試全解析

十一月雨_55 ? 4044瀏覽 ? 0回復
字節跳動AI研究院發布FullStack Bench和SandboxFusion：用于評估真實編程場景中LLM的綜合基準測試工具

Halo咯咯 ? 5555瀏覽 ? 0回復
DeepSeek-R1-Distill-Qwen-1.5B 在某些基準測試中超越了 GPT-4o

Halo咯咯 ? 1.5w瀏覽 ? 0回復
LLM基準測試過時了嗎？一文讀懂其在AI評估中的現狀與挑戰

Halo咯咯 ? 3949瀏覽 ? 0回復
OpenING：用于評估開放式交錯圖文生成的綜合基準

AIRoobt ? 2700瀏覽 ? 0回復
LLM 應用評估綜合指南（多輪對話系統、RAG、AI Agent）

Baihai_IDP ? 1840瀏覽 ? 0回復
大型語言模型基準測試綜述（2025）

AIRoobt ? 564瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

The Station：AI驅動科學發現的開放世界環境 4天前發布
PAN：通用、可交互、長時程的世界模型 4天前發布

熱門推薦

用 Cognee 構建端到端知識圖譜，實現當前效果最好的AI Agent記憶層 0回復

Spring AI Alibaba：Java 后端接入大模型，終于不用羨慕 Python 了！ 0回復

小模型，大能量：阿里巴巴 Qwen3-VL 4B/8B，重新定義多模態輕量化邊界 0回復

2025 年最強 OCR 大比拼：從識別文本到文檔智能，誰才是終極解法？ 0回復

8%價格，2倍速度！國產MiniMax M2暴打Claude Sonnet 4.5？我們實測后發現堪稱性價比之王！ 0回復

上一篇：【LLM】AgentGym：具有自我演化能力的通用LLM agent

下一篇：【LLM】提升大規模并行訓練效率的方法

社區精華內容

目錄

野花国产精品入口| 亚洲欧洲自拍| 成人a免费在线看| 2018国产精品视频| 国产一级伦理片| 在线视频cao| 亚洲婷婷在线视频| 精品国产91亚洲一区二区三区www| youjizz在线视频| 亚洲乱码电影| 亚洲人成亚洲人成在线观看| 国产成人美女视频| 高潮在线视频| 国产精品大尺度| 精品一区二区三区免费毛片| 一本久道久久综合无码中文| 最新成人av网站| 日韩在线www| 色天使在线视频| 精品一级视频| 欧美丝袜丝交足nylons图片| 日韩av新片网| 激情影院在线观看| 久久久久久久久99精品| 国产精品国产精品| 伊人久久一区二区| 欧美综合二区| 久久久亚洲网站| 国产97免费视频| 成人在线免费视频观看| 日韩大片免费观看视频播放| 五月天激情播播| 无人区在线高清完整免费版一区二| 亚洲精品国产精华液| 亚洲福利av在线| 欧洲天堂在线观看| 99久久久精品| 翡翠波斯猫1977年美国| 一区二区三区日| 欧美a一区二区| 欧美在线欧美在线| 影音先锋亚洲天堂| 激情综合视频| 久久久欧美一区二区| 欧美性猛交xxxxx少妇| 97色伦图片97综合影院| 中文字幕久热精品在线视频| 国产麻豆天美果冻无码视频| 精品三级在线观看视频| 亚洲成人激情在线| 日韩精品无码一区二区| 外国成人直播| 欧美视频一二三| 日韩精品―中文字幕| av免费在线视| 亚洲成人精品影院| 香港三级日本三级a视频| bt在线麻豆视频| 一区二区三区不卡视频在线观看| 国产一级片91| 欧美色图天堂| 亚洲成人第一页| 99精品人妻少妇一区二区| 久草在线资源福利站| 黑人狂躁日本妞一区二区三区 | 欧美一区二区三| 国产亚洲精品综合一区91| 精品无码人妻一区二区免费蜜桃 | 97久久中文字幕| 欧美一区二区成人| 国内精品免费视频| 日本成人7777| 一区二区欧美久久| 免费黄色国产视频| 欧美久久99| 7777免费精品视频| 国产精品免费无遮挡无码永久视频| 视频一区欧美精品| 91精品中文在线| 高潮毛片7777777毛片| 91视频91自| 亚洲午夜激情| 成人免费高清观看| 色婷婷综合久色| 亚洲综合激情视频| 国产精品巨作av| 一个色综合导航| 黄色在线观看免费| 久久精品日产第一区二区| 国产精品视频1区| 成人片黄色大片| 26uuu精品一区二区三区四区在线 26uuu精品一区二区在线观看 | 久久亚洲一级片| 三年中文高清在线观看第6集| 毛片网站在线看| 在线一区二区观看| 波多野结衣电影免费观看| 一本久久青青| 欧美精品午夜视频| 波多野结衣毛片| 成人性生交大片| 四虎一区二区| 国产污视频在线播放| 欧美日韩免费观看一区三区| 亚洲色图欧美日韩| 91高清一区| 国产成人av在线播放| 精品区在线观看| 国产视频不卡一区| 美脚丝袜脚交一区二区| 日本在线一区二区| 日韩精品一二三四区| 国产精品国产精品88| 久久久久久久欧美精品| julia一区二区中文久久94| 国产粉嫩一区二区三区在线观看 | 久久影院在线观看| 日韩三级一区二区| www.欧美亚洲| 91传媒免费视频| 日本欧美在线| 尤物精品国产第一福利三区 | 欧美剧情片在线观看| 李宗瑞91在线正在播放| 极品av少妇一区二区| 91夜夜揉人人捏人人添红杏| 黄网在线观看| 欧美日韩精品在线播放| 逼特逼视频在线观看| 在线国产一区| 国产日韩欧美影视| porn视频在线观看| 在线影院国内精品| 中文字幕一区二区三区人妻不卡| 亚洲天堂成人| 国产精品久久国产三级国电话系列 | 91丝袜呻吟高潮美腿白嫩在线观看| 国内外成人激情免费视频| 日韩av黄色| 久久色精品视频| 国产精品久久久久久久久久久久久久久久久久 | 欧美大片欧美激情性色a∨久久| 日韩在线播放中文字幕| 不卡的电视剧免费网站有什么| 国产91在线亚洲| 视频在线观看免费影院欧美meiju| 日韩中文第一页| 伊人久久成人网| 国产精品久久久久一区二区三区| 蜜臀视频一区二区三区| 国产一区国产二区国产三区| 国产不卡av在线| 黄色的视频在线免费观看| 色综合视频在线观看| 公侵犯人妻一区二区三区| 亚洲一区亚洲| 欧美在线视频一区二区三区| 亚洲第一av| 亚洲欧美日韩精品久久亚洲区| 日韩成人高清视频| 91色视频在线| www日韩视频| 成人羞羞视频播放网站| 国产在线999| 伊人春色在线观看| 精品粉嫩超白一线天av| 国产成人在线视频观看| 久久久精品免费免费| 亚洲精品视频导航| 68国产成人综合久久精品| 亚洲自拍偷拍视频| 黄色在线观看视频网站| 日韩精品黄色网| 免费在线不卡av| 综合久久给合久久狠狠狠97色| 中文字幕无码毛片免费看| 在线看片一区| 日本午夜精品电影| 成人永久在线| 亚州av一区二区| 国产乱理伦片a级在线观看| 欧美日韩国产综合草草| 欧美成人三级在线观看| 99国内精品久久| 浓精h攵女乱爱av| 午夜久久久久| 欧美一区2区三区4区公司二百| 久久精品97| 久久久久久久久久久av| 神马电影在线观看| 欧美日韩综合在线免费观看| 欧美成人黄色网| 久久精品亚洲精品国产欧美| 九九久久久久久| 一本色道久久综合亚洲精品不卡| 午夜视频久久久| 好吊妞国产欧美日韩免费观看网站| 国产999精品久久久影片官网| a篇片在线观看网站| 国产视频亚洲视频| 国产人妻精品一区二区三| 黄色成人av网| 国产免费久久久久| 91年精品国产| 一级黄色大片免费看| 日韩专区欧美专区| 国产一区二区片| 三级电影一区| 欧美一区二区在线视频观看| 日韩三级不卡| 国产精品入口免费视| 高潮在线视频| 欧美激情中文字幕乱码免费| 9191在线观看| 亚洲另类激情图| 后入内射欧美99二区视频| 欧美人妇做爰xxxⅹ性高电影| 久久久精品免费看| 一区二区三区加勒比av| 五月天色婷婷丁香| 中文字幕不卡在线观看| 亚洲熟女乱综合一区二区三区| 国产一区二区三区视频在线播放| 色七七在线观看| 国产精品久久久久久久免费软件| 黄色一级大片免费| 91久久国产| 亚洲国产日韩综合一区| 久久最新网址| 蜜桃视频在线观看成人| 国产精品色在线网站| 97人人香蕉| 欧美成年网站| 147欧美人体大胆444| 色8久久久久| 国产欧美一区二区三区在线| 亚洲欧美在线成人| 国产成+人+综合+亚洲欧美丁香花| 极品av在线| 97涩涩爰在线观看亚洲| yellow字幕网在线| 性欧美长视频免费观看不卡| 高清电影在线免费观看| 欧美激情啊啊啊| 久久人妻无码aⅴ毛片a片app| 欧美尿孔扩张虐视频| 91热精品视频| 9999精品免费视频| 成人情趣片在线观看免费| 欧美电影在线观看网站| 国产精品亚洲欧美导航| 97精品国产99久久久久久免费| 国产98色在线| 国产福利一区二区三区在线播放| 欧美中文字幕视频| 日韩影片中文字幕| 国产精品成人久久久久| 91精品影视| 国产精品日韩在线| 高清久久一区| 国产不卡一区二区在线观看| 大香伊人久久精品一区二区| 国内精品视频免费| 免费一区二区| 无码免费一区二区三区免费播放| 欧美日韩在线观看视频小说| 伊人色综合影院| 欧美人成在线| 噜噜噜久久亚洲精品国产品麻豆| 久久夜色精品| 制服丝袜中文字幕第一页 | 国产精品极品美女粉嫩高清在线| 欧美极品免费| 91色视频在线导航| 激情小说一区| 欧美一级二级三级九九九| 97欧美在线视频| 无码粉嫩虎白一线天在线观看| 免费看黄裸体一级大秀欧美| 无需播放器的av| 国产精品18久久久久| 国产亚洲色婷婷久久99精品91| 国产日韩欧美电影| 亚洲色图综合区| 福利视频导航一区| 国产尤物视频在线观看| 精品88久久久久88久久久| 欧美18xxxxx| 久久成人在线视频| 中文字幕人成乱码在线观看| 国产在线999| 秋霞影院一区二区三区| 中文字幕av日韩精品| 亚洲黄色精品| 亚洲一区二区福利视频| 99国产精品久久久久久久久久久| 国产一区二区三区四区在线| 亚洲综合视频网| 中文字幕人妻一区二区三区视频| 精品国产乱码久久久久久影片| 欧美18xxxxx| 欧美精品videossex性护士| 超碰aⅴ人人做人人爽欧美| 亚洲综合小说区| 精品日韩在线| 日本欧美视频在线观看| 精品一区二区三区免费视频| 少妇特黄一区二区三区| 亚洲精品久久嫩草网站秘色| 亚洲图片欧美日韩| 欧美精品一区二区三区在线| 麻豆影院在线| 国产成人精品在线| 精品五月天堂| 日韩一级特黄毛片| 乱一区二区av| 中国女人特级毛片| 欧美日韩国产精品专区| 国产丰满美女做爰| 日韩中文字幕视频在线| 蜜臀国产一区| 精品一区在线播放| 黑丝一区二区| 韩国三级丰满少妇高潮| 国产精品国产三级国产专播品爱网| 伊人久久综合视频| 精品福利一二区| 牛牛精品视频在线| 亚洲综合日韩在线| 一区二区电影| 国内av一区二区| 国产精品夫妻自拍| 亚洲天堂自拍偷拍| 尤物yw午夜国产精品视频明星| 另类图片综合电影| 麻豆91蜜桃| 免费视频一区二区三区在线观看| 在线观看免费视频黄| 亚洲午夜影视影院在线观看| 精品国产18久久久久久| 久久夜精品va视频免费观看| 91麻豆精品国产综合久久久| 亚洲精品视频一区二区三区| 日韩高清在线不卡| 免费在线观看a视频| 欧洲亚洲国产日韩| h视频网站在线观看| 国产精品久久视频| 精品理论电影| 色啦啦av综合| 成人免费在线播放视频| 国产免费久久久| 欧美人成在线视频| 国产精品男女| 黄色片视频在线播放| 久久午夜色播影院免费高清| 黄色一级视频免费看| 一区二区三区高清国产| 国产精品传媒麻豆hd| 一级黄色录像免费看| 国产精品一区2区| 久久免费在线观看视频| 亚洲国产成人久久| gay欧美网站| 一区国产精品| 国产69精品久久99不卡| 日本免费观看视| 亚洲欧美中文日韩v在线观看| 成人黄色图片网站| 色中文字幕在线观看| 国产91丝袜在线播放0| www成人在线| 中文字幕精品一区久久久久| 精品国产第一国产综合精品| 国产欧美日韩小视频| 久久九九国产精品| 97精品人妻一区二区三区在线 | 国产69精品一区二区亚洲孕妇 | 国产精品高颜值在线观看| 欧美黑人xxxxx| 久久成人综合网| 国产无遮挡又黄又爽又色| 亚洲视频欧美视频| 国产亚洲久久| 777米奇影视第四色| 亚洲欧洲精品一区二区精品久久久| 亚洲乱码精品久久久久..| 青青精品视频播放| 伊人成综合网| 久久亚洲AV成人无码国产野外 | 久久久久美女| 亚洲av成人片色在线观看高潮| 欧美性大战xxxxx久久久| 青春草在线视频| 亚洲国产欧美一区| 高清不卡在线观看| 一级黄色在线观看| 欧美国产欧美亚洲国产日韩mv天天看完整| 亚洲最好看的视频| www.com日本|