精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

史上最嚴“中文真實性評估”:OpenAI o1第1豆包第2,其它全部不及格

人工智能
為了評估現有大語言模型的真實性能力,淘天集團的研究者們提出了第一個中文簡短事實性基準(即中文簡短問答),它包括6個主要主題和99個子主題

新的大語言模型(LLM)評估基準對于跟上大語言模型的快速發展至關重要。

近日,淘寶天貓集團的研究者們提出了中文簡短問答(Chinese SimpleQA),這是首個全面的中文基準,具有“中文、多樣性、高質量、靜態、易于評估”五個特性,用于評估語言模型回答簡短問題的真實性能力。

研究人員表示,中文簡短問答能夠指導開發者更好地理解其模型的中文真實性能力,并促進基礎模型的發展。

論文地址:https://arxiv.org/abs/2411.07140

引言

人工智能發展中的一個重大挑戰是確保語言模型生成的回答在事實上準確無誤。當前前沿模型有時會產生錯誤輸出或缺乏證據支持的答案,這就是所謂的“幻覺”問題,極大地阻礙了通用人工智能技術(如大語言模型)的廣泛應用。此外,評估現有大語言模型的真實性能力也頗具難度。例如,大語言模型通常會生成冗長的回復,包含大量事實性陳述。最近,為解決上述評估問題,OpenAI發布了簡短問答基準(SimpleQA),其中包含4326個簡潔且尋求事實的問題,使得衡量真實性變得簡單可靠。

然而,簡短問答基準主要針對英語,導致對大語言模型在其他語言中的能力了解有限。此外,受近期幾個中文大語言模型基準(如C-Eval、CMMLU)的啟發,為了評估大語言模型在中文語境下的真實性能力,淘天集團的研究人員提出了中文簡短問答基準。該基準由3000個高質量問題組成,涵蓋從人文到科學工程等6個主要主題。具體而言,中文簡短問答的顯著主要特征如下:

  • 中文特性:專注于中文語言,能夠全面評估現有大語言模型在中文語境下的真實性能力。
  • 多樣性:涵蓋6個主題,即“中國文化”“人文”“工程、技術與應用科學”“生活、藝術與文化”“社會”和“自然科學”。這些主題總共包括99個細粒度的子主題,體現了中文簡短問答的多樣性。
  • 高質量:實施了全面且嚴格的質量控制流程,以確保中文簡短問答的質量和準確性。
  • 靜態性:與SimpleQA類似,為保持中文簡短問答的常青特性,所有參考答案不會隨時間改變。
  • 易于評估:與SimpleQA類似,由于問題和答案都非常簡短,通過現有大語言模型(如OpenAI API)進行評分的過程快速便捷。

研究人員在中文簡短問答上對現有大語言模型進行了全面評估和分析,得出了以下一些有洞察力的發現:

  • 中文簡短問答具有挑戰性:只有o1-preview和Doubao-pro-32k達到及格分數(在正確指標上分別為63.8%和61.9%),許多閉源和開源大語言模型仍有很大的改進空間。
  • 模型越大效果越好:基于Qwen2.5系列、InternLM系列、Yi-1.5系列等的結果,作者觀察到模型越大性能越好。
  • 更大的模型更校準:作者觀察到o1-preview比o1-mini更校準,GPT-4o比GPT-4o-mini更校準。
  • 檢索增強生成(RAG)很重要:當將RAG策略引入現有大語言模型時,不同大語言模型之間的性能差距顯著縮小。例如,對于GPT-4o和Qwen2.5-3B,使用RAG后性能差距從42.4%縮小到9.3%。
  • 存在對齊代價:現有的對齊或后訓練策略通常會降低語言模型的真實性。
  • SimpleQA和中文簡短問答的排名不同:幾個專注于中文的大語言模型(Doubao-pro-32k和GLM-4-Plus)的性能接近高性能的o1-preview。特別是在“中國文化”主題上,這些中文社區大語言模型明顯優于GPT或o1系列模型。

中文簡短問答

概述

圖片圖片

中文簡短問答的類別分布,包含六個主要主題,每個主要主題包含多個二級子主題。在表1中,作者將中文簡短問答與幾個主流的大語言模型評估基準進行了比較,這表明中文簡短問答是第一個專注于評估大語言模型中中文知識邊界的基準。

數據收集

圖片圖片

如圖2所示,中文簡短問答的數據收集過程涉及自動構建和人工驗證。自動階段包括:(1)提取和過濾相關知識內容,(2)自動生成問題-答案對,(3)根據預定義標準使用大語言模型驗證這些對,(4)執行檢索增強生成(RAG)驗證,以及(5)進行難度篩選。

具體而言,首先,作者從各種知識領域(如維基百科)收集大量知識豐富的文本內容,并使用質量評估模型過濾掉低質量數據。然后,作者提示大語言模型使用這些高質量知識內容生成問題-答案對。之后,為確保中文簡短問答的質量,作者使用大語言模型去除不符合預定義標準要求的樣本。通過這種方式,可以獲得大量初步篩選后的知識問題-答案對。同時,為了提高答案的質量,部署外部檢索工具(即搜索引擎)來收集更多樣化的信息,這引導大語言模型基于RAG系統評估答案的事實正確性。具體來說,應用LlamaIndex作為檢索方法,以谷歌和必應的搜索結果作為數據源。關于生成和驗證的詳細信息可以在附錄A中找到。此外,作者過濾一些簡單樣本以發現大語言模型的知識邊界并提高中文簡短問答的難度。具體來說,如果一個問題可以被四個大模型正確回答,則認為它是一個簡單問題并將其丟棄。

值得注意的是,問題-答案對的構建基于以下標準:

  • 答案必須客觀且唯一:問題應與客觀世界的事實知識相關,不受個人主觀觀點影響。例如,以“你認為……怎么樣?”或“你如何評價……?”開頭的問題是不合適的。此外,每個問題的答案必須是唯一的,排除多個正確答案的可能性。例如,“朱祁鎮在哪一年登上皇位?”這個問題是不充分的,因為它有兩個可能的答案:1435年和1457年。
  • 答案必須不隨時間變化:答案應始終反映永恒的事實,不受提問時間的影響。例如,“碳的原子序數是多少?”,答案“6”始終不變。相比之下,關于時事的問題,如“某個國家的現任總統是誰?”是不合適的,因為其答案會隨時間變化。
  • 問題必須具有挑戰性:問題不應過于簡單,設計的查詢需要全面評估模型的知識深度。
  • 問題必須截至2023年可回答:每個問題必須在2023年12月31日前可回答,以確保對在此日期后訓練的數據的模型進行公平評估。

2.3質量控制

在自動數據收集之后,采用人工驗證來提高數據集質量。具體來說,每個問題由兩個人工注釋者獨立評估。首先,注釋者確定問題是否符合上述預定義標準。如果任何一個注釋者認為問題不符合要求,則丟棄該樣本。隨后,兩個注釋者都使用搜索引擎檢索相關信息并制定答案。在此階段,注釋者應使用權威來源(如維基百科、百度百科)的內容,并且每個注釋者必須提供至少兩個支持性URL。如果注釋者的答案不一致,則由第三個注釋者審查該樣本。最終注釋由第三個注釋者根據前兩個評估確定。最后,將人工注釋結果與大語言模型生成的回復進行比較,僅保留完全一致的問題-答案對。這個嚴格的人工驗證過程確保了數據集保持高準確性并符合既定標準。

在構建和注釋中文簡短問答的整個過程中,許多低質量的問題-答案對被丟棄。具體來說,最初生成了10000對。經過使用不同模型進行難度評估后,大約保留了6310對,其中約37%的較簡單數據被丟棄。在此之后,經過基于規則的驗證和基于模型的RAG驗證,又刪除了2840個樣本,這意味著僅剩下約35%的原始生成數據。最后,經過徹底和嚴格的人工審查,僅保留了約3000個樣本,約占原始數據集的30%。

2.4數據集統計

圖片圖片

表2展示了中文簡短問答的統計數據。共有3000個樣本,中文簡短問答在六個主要主題上的數據分布相對均衡,這可以有效地評估大語言模型在各個領域的知識邊界。此外,該數據集中問題和參考答案的長度分布都非常短,這是基于知識查詢的特點。值得注意的是,使用中文簡短問答評估模型需要最少的輸入和輸出標記,從而導致非常低的評估計算和時間成本。

2.5評估指標

與SimpleQA類似,中文簡短問答也采用以下五個評估指標:

  • 正確(CO):預測答案完全包含參考答案,且不引入任何矛盾元素。
  • 未嘗試(NA):預測答案未完全給出參考答案,但與參考答案不存在矛盾元素。
  • 不正確(IN):預測答案與參考答案矛盾,即使矛盾可以解決。
  • 嘗試后正確(CGA):該指標是在嘗試回答的問題中準確回答問題的比例。
  • F分數:該指標表示正確和嘗試后正確之間的調和平均值。

3.實驗

3.1基線模型

作者評估了17個閉源大語言模型(即o1-preview、Doubao-pro-32k、GLM-4-Plus、GPT-4o、Qwen-Max、Gemini-1.5-pro、DeepSeek-V2.5、Claude-3.5-Sonnet、Yi-Large、moonshot-v1-8k、GPT-4-turbo、GPT-4、Baichuan3-turbo、o1-mini、Doubao-lite-4k、GPT-4o-mini、GPT-3.5)和24個開源大語言模型(即Qwen2.5系列、InternLM2.5系列、Yi-1.5系列、LLaMA3系列、DeepSeek系列、Baichuan2系列、Mistral系列、ChatGLM3和GLM-4)。

3.2主要結果

圖片圖片

如表3所示,論文提供了不同大語言模型在中文簡短問答上的性能結果。具體來說,與SimpleQA類似,作者提供了五個評估指標的總體結果。

此外,論文還報告了六個主題的F分數,以分析這些大語言模型的細粒度真實性能力。在表3中,有以下有洞察力和有趣的觀察結果:

  • o1-preview表現最佳:o1-preview在中文簡短問答上取得了最佳性能,并且幾個近期專注于中文的閉源大語言模型(Doubao-pro-32k和GLM-4-Plus)的性能結果與o1-preview非常接近。
  •  “mini”系列模型表現較差:很明顯,“mini”系列模型(o1-mini、GPT-4o-mini)的結果比相應的更大模型(o1-preview、GPT-4o)低,這也表明這些“mini”系列模型不注重記憶事實性知識。

圖片圖片

圖片圖片

  • 模型越大性能越好:基于許多模型系列(如GPT、Qwen2.5、InternLM2.5、Yi-1.5),我們可以得出更大的大語言模型會導致更好的性能這一結論。
  • 小模型在“未嘗試”上得分較高:小型大語言模型通常在“未嘗試(NA)”上得分較高。o1-mini、InternLM2.5-1.8B的NA分數分別為20.5和9.3,遠高于相應更大模型的分數(o1-preview為8.1,Qwen2.5-72B為1.8)。
  • 不同子主題性能差異顯著:不同大語言模型在不同子主題上存在顯著的性能差異。值得注意的是,中文社區大語言模型(如Doubao-pro-32k、GLM-4-Plus、Qwen-Max、Deepseek)在“中國文化(CC)”子主題上明顯優于GPT或o1模型。相比之下,o1在與科學相關的子主題(如“工程、技術與應用科學(ETAS)”和“自然科學(NS)”)上具有顯著優勢。

此外,論文還在圖3中提供了六個主題的詳細結果(CO和CGA指標)。

3.3進一步分析

3.3.1校準分析

圖片圖片

對于不同大語言模型的校準,與SimpleQA類似,作者指示模型在回答問題時提供相應的置信水平(從0到100),以衡量模型對其答案的信心(見附錄B中的提示)。我們知道,一個完美校準的模型的置信度(%)應該與其答案的實際準確性相匹配。圖4中的左圖說明了校準性能,這表明GPT-4o比GPT-4o-mini校準得更好,o1-preview比o1-mini校準得更好。對于Qwen2.5系列,校準順序為Qwen2.5-72B>Qwen2.5-32B>Qwen2.5-7B>Qwen2.5-3B,這表明更大的模型尺寸會導致更好的校準。此外,對于所有評估模型,它們在置信度>50的范圍內的置信度低于完美校準線,這意味著它們都高估了其回復的準確性,存在過度自信的情況。

3.3.2測試時間計算分析

論文還評估了不同模型在增加測試時間計算時與回復準確性的關系。具體來說,從中文簡短問答中隨機抽取50個樣本,對于每個樣本,模型被要求獨立回答100次。然后,使用最佳N法隨著推理次數的增加獲得模型的回復準確性。結果如圖4中的右圖所示。作者觀察到,隨著推理次數的增加,所有模型的回復準確性都有所提高,并最終達到一個上限。這對于中文簡短問答來說是合理的,因為它專門用于探測模型知識的邊界。

3.3.3檢索增強生成(RAG)效果分析

圖片圖片

在這項研究中,論文探索了檢索增強生成(RAG)策略在提高大語言模型在中文簡短問答數據集上的事實準確性方面的有效性。具體來說,作者基于LlamaIndex重現了一個RAG系統,并整合了谷歌搜索API。如圖5所示,所有模型在使用RAG后準確性都有顯著提高。例如,Qwen2.5-3B的性能提高了三倍多。值得注意的是,幾乎所有使用RAG的模型都優于原生的GPT-4o模型。同時,RAG的應用也顯著降低了模型之間的性能差距。例如,使用RAG的Qwen2.5-3B與使用RAG的Qwen2.5-72B之間的F分數差異僅為6.9%。這表明RAG大大縮小了模型之間的性能差距,使較小的模型在使用RAG增強時也能實現高性能。總體而言,這表明RAG是提高大語言模型真實性的有效捷徑。

圖片圖片

3.3.4對齊代價分析

最近,先前的研究(OpenAI,2023;Song等人,2023)發現,對齊可能會導致語言模型能力的下降,即所謂的“對齊代價”。為了說明對齊對真實性的影響,作者對預訓練模型和經過監督微調(SFT)或強化學習從人類反饋(RLHF)訓練的對齊模型進行了比較性能分析。如圖6所示,不同模型在訓練后表現出不同的趨勢,但大多數模型都有顯著下降。其中,Baichuan2系列模型下降最為顯著,Baichuan2-7B和Baichuan2-13B的F分數分別降低了47%和28%。這反映出當前大多數大語言模型的對齊訓練在產生知識幻覺方面仍然存在明顯缺陷,這進一步反映了此次數據集的必要性。

3.3.5子主題結果分析

如2.2節所述,該基準涵蓋了總共99個子主題,可以全面檢測模型在各個領域的知識水平。圖7展示了o1模型和七個著名的中文社區模型在幾個常見領域內的性能比較。首先,從整體上看,o1-preview模型在這些領域中表現出最全面的性能,Doubao模型緊隨其后。相比之下,Moonshot模型總體性能最弱。其次,在具體領域方面,中文社區模型和o1模型在計算機科學和醫學等領域存在顯著差距。然而,在教育和經濟等領域,這種差距最小。值得注意的是,在教育領域,一些中文社區模型優于o1-preview,突出了它們在特定垂直領域取得成功的潛力。最后,在具體模型方面,Moonshot模型在數學、法律和娛樂等領域明顯較弱,而Baichuan模型在娛樂領域也表現不佳。Yi-Large模型在教育領域表現出色,o1模型在其他領域保持最強性能。評估模型在基準數據集內不同領域的性能使用戶能夠確定最適合其特定需求的模型。

3.3.6中文簡短問答與SimpleQA的比較

圖片圖片

論文還比較了各種模型在SimpleQA和中文簡短問答上的排名差異。如圖8所示,這些兩個基準上的模型性能存在顯著差異。例如,Doubao-pro-32k在中文簡短問答上的排名顯著提高,從第12位上升到第2位(+10)。相反,GPT-4在中文簡短問答上的性能下降,從第3位下降到第9位(-6)。這些差異強調了在不同語言的數據集上評估模型的重要性,以及研究優化模型在不同語言環境中性能的必要性。值得注意的是,o1-preview在兩個數據集上始終保持領先地位,表明其對不同語言上下文的穩健性和適應性。此外,大多數中文社區開發的模型(如Qwen-Max、GLM-4-Plus、Yi-Large、Doubao-pro-32k)在SimpleQA上的表現優于在簡短問答上的表現,展示了它們在中文任務上的競爭力。

4.相關工作

-大語言模型真實性:大語言模型真實性是指大語言模型產生遵循事實內容的能力,包括常識、世界知識和領域事實,并且這些事實內容可以通過權威來源(如維基百科、教科書)得到證實。最近的作品探索了大語言模型作為事實知識庫的潛力(Yu等人,2023;Pan等人,2023)。具體而言,現有研究主要集中在對大語言模型真實性的定性評估(Lin等人,2022;Chern等人,2023)、對知識存儲機制的研究(Meng等人,2022;Chen等人,2023)以及對知識相關問題的分析(Gou等人,2023)。

-真實性基準:已經提出了許多真實性基準(Hendrycks等人,2021;Zhong等人,2023;Huang等人,2023;Li…等人,2023b;Srivastava等人,2023;Yang等人,2018)。例如,MMLU(Hendrycks等人,2021)用于測量在各種不同任務上的多任務準確性。TruthfulQA(Lin等人,2022)專注于評估語言模型生成答案的真實性。此外,HaluEval(Li等人,2023c)用于檢查大語言模型產生幻覺的傾向。最近,SimpleQA(Wei等人,2024)被提出用于測量大語言模型中的簡短事實性。然而,SimpleQA僅關注英語領域。相比之下,中文簡短問答旨在全面評估中文語境下的真實性。

結論

為了評估現有大語言模型的真實性能力,淘天集團的研究者們提出了第一個中文簡短事實性基準(即中文簡短問答),它包括6個主要主題和99個子主題。此外,中文簡短問答主要具有五個重要特征(即中文、多樣性、高質量、靜態和易于評估)。基于中文簡短問答,研究人員全面評估了現有40多個大語言模型在真實性方面的性能,并提供了詳細分析,以證明中文簡短問答的優勢和必要性。在未來,研究人員將研究提高大語言模型的真實性,并探索將中文簡短問答擴展到多語言和多模態設置。

論文地址:https://arxiv.org/abs/2411.07140

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-04-18 09:13:00

2024-11-07 15:40:00

2024-09-24 11:01:03

2024-11-20 14:00:00

模型測評

2024-10-05 00:00:00

2025-01-23 10:45:52

2024-09-19 18:03:31

2025-02-03 14:17:27

2024-12-05 10:16:14

2024-10-06 13:40:00

AI模型

2024-10-22 18:05:59

2024-11-25 15:50:00

模型訓練

2024-09-25 09:30:16

2024-09-13 10:06:21

2024-12-09 11:06:31

2011-12-14 20:23:31

HTC

2010-04-20 21:48:48

2024-07-16 13:24:38

2024-12-18 18:29:12

2024-11-29 13:57:38

點贊
收藏

51CTO技術棧公眾號

一区二区国产欧美| 2019男人天堂| 精精国产xxxx视频在线播放| 国产日韩av一区二区| 国产日韩欧美在线视频观看| 中文字幕av久久爽av| 窝窝社区一区二区| 欧美精品乱码久久久久久| 精品国偷自产一区二区三区| 男人天堂网在线| 国产一区二区福利| 国产91色在线|| 久久久久久久福利| 日韩欧美网站| 亚洲精品短视频| 男人的天堂最新网址| 国产黄大片在线观看| 最新国产の精品合集bt伙计| 国产成人女人毛片视频在线| 中文字幕福利视频| 亚洲欧美日韩精品一区二区| 久久亚洲私人国产精品va| 法国伦理少妇愉情| 2023国产精华国产精品| 欧美三区在线观看| 18禁男女爽爽爽午夜网站免费 | 国产婷婷成人久久av免费高清 | 成人国产电影网| 国产视频观看一区| 免费黄色小视频在线观看| 激情自拍一区| 久久福利视频网| 日韩一级片在线免费观看| 欧美亚洲色图校园春色| 日韩欧美一级特黄在线播放| 午夜激情av在线| 国产精品亚洲d| 欧美性生活大片免费观看网址| 久久亚洲国产成人精品无码区| 欧美日本一道| 国产精品美日韩| 欧美最大成人综合网| 少妇人妻一区二区| 成人免费高清视频| 国产激情一区二区三区在线观看 | 亚洲成人久久网| 日本一本在线视频| 亚洲图片小说区| 欧美日韩国产片| 亚洲这里只有精品| 在线播放成人| 91精品免费观看| 欧美一级特黄aaa| 国产精品麻豆| 日韩免费一区二区| 欧美熟妇精品一区二区| 视频精品一区| 精品国偷自产国产一区| 手机在线播放av| 一区中文字幕电影| 亚洲精品在线观看网站| www.日本高清| 免费av一区二区三区四区| 亚洲人成电影在线| 日韩中文字幕有码| 欧美gayvideo| 日韩三级成人av网| 国产探花在线播放| 亚洲精品视频啊美女在线直播| 久久久久久久一区二区| 国产又色又爽又黄的| 久久久久久网| 国产日韩欧美日韩| 亚洲精品18p| 91视频.com| 亚洲高清视频一区| 4438x成人网全国最大| 亚洲高清视频的网址| 亚洲精品无码久久久久久| 婷婷六月国产精品久久不卡| 欧美日韩在线观看一区二区| 日本少妇xxx| 天堂av一区二区三区在线播放| 亚洲香蕉成视频在线观看| 国产又色又爽又高潮免费| 欧美人成在线| 国产成人av网址| 国产欧美一级片| 99久久免费国产| 一区二区日本伦理| 97天天综合网| 欧美日本免费一区二区三区| 成人午夜精品无码区| 精品一区不卡| 欧美激情xxxx性bbbb| 天天干天天色综合| 国产成人免费在线视频| 欧美日韩一区二区视频在线| 国产日产一区二区| 欧美日韩亚洲激情| 下面一进一出好爽视频| 国产精品亚洲片在线播放| 久久99精品视频一区97| 最新中文字幕第一页| 不卡的av电影在线观看| 亚洲综合视频一区| 欧美sm一区| 欧美一区二区成人6969| 国产aⅴ激情无码久久久无码| 亚洲a在线视频| 日韩av第一页| 欧美熟妇乱码在线一区 | 久草免费在线观看视频| 日韩国产一区二| 精品视频一区二区三区四区| 八戒八戒神马在线电影| 欧洲av在线精品| 亚洲の无码国产の无码步美| 91tv官网精品成人亚洲| 国产精品麻豆va在线播放| 亚洲人午夜射精精品日韩| 亚洲女同女同女同女同女同69| 国产成人精品无码播放| 亚洲国产精品999| 国产成人久久婷婷精品流白浆| 国产高清视频一区二区| 亚洲天堂免费在线| 91国产丝袜播放在线| 国产福利一区在线| 超碰成人在线免费观看| 深夜视频一区二区| 亚洲色在线视频| 日本一区二区网站| 国产精品影视网| 综合久久国产| 四虎地址8848精品| 在线视频日韩精品| 中文字幕免费视频观看| 久久久久成人黄色影片| 久久亚洲中文字幕无码| 国产精品欧美大片| 欧美激情亚洲综合一区| 亚洲精品视频网| 夜夜亚洲天天久久| 美女被爆操网站| 欧美激情第8页| 99精品国产高清一区二区| 黄色在线视频网站| 欧美伦理视频网站| 亚洲综合久久av一区二区三区| 蜜芽一区二区三区| 亚洲人体一区| 在线观看欧美| 欧美成人精品xxx| 超碰人人人人人人| 一区二区三区在线视频观看58| 在线视频观看一区二区| 亚洲不卡av不卡一区二区| 国产日韩欧美成人| caopon在线免费视频| 日韩欧美三级在线| 五月天综合在线| 久久精品亚洲精品国产欧美kt∨| 日韩av片网站| 亚洲大全视频| 国产麻豆日韩| 欧美性xxx| 丝袜美腿亚洲一区二区| www.av在线.com| 亚洲成av人影院在线观看网| 精品无码人妻一区| 蜜臀av一区二区在线免费观看| 亚洲一区影院| 亚洲精品国产九九九| 欧美在线视频一区| 日本www在线| 亚洲成人av资源网| 欧美男人亚洲天堂| 亚洲男人的天堂一区二区| 精品人妻伦一二三区久| 日日夜夜精品视频免费| 国产盗摄视频在线观看| 日韩理论电影中文字幕| 国产日韩在线看| 丁香花高清在线观看完整版| 亚洲欧美一区二区精品久久久| 国产精品久久久久久久免费| 午夜视频一区在线观看| 亚洲黄色网址大全| 成人午夜电影小说| 看欧美ab黄色大片视频免费| 欧美黄色一区二区| 日韩精品欧美专区| 99国产精品免费网站| 国产精品久久久久99| 污影院在线观看| 亚洲无限av看| 男人天堂综合网| 欧美精品一级二级三级| 久久久国产精品成人免费| 亚洲特黄一级片| 中文字幕一区二区人妻在线不卡| 精品一区二区国语对白| 日韩精品一区二区三区色欲av| 在线中文一区| 视频在线观看成人| 欧美人与动xxxxz0oz| 91精品综合久久久久久五月天| 成人直播视频| 欧美激情在线狂野欧美精品| 午夜看片在线免费| 亚洲色图50p| 搡老岳熟女国产熟妇| 欧美精品1区2区| 精人妻无码一区二区三区| 亚洲一区二区三区四区五区中文 | 精品久久久久久久| 国产综合av一区二区三区| 国产精品一区二区精品视频观看| 国产精品国内视频| 中文字幕在线看片| 久久久久久国产精品美女| 国产高清一区二区三区视频 | 免费视频一区二区| 国产日产欧美视频| 亚洲欧洲综合| 国产免费裸体视频| 欧美欧美全黄| a级网站在线观看| 国产精品久久久久久麻豆一区软件| 欧美一区1区三区3区公司| 欧美一级色片| 久久99精品久久久久久久青青日本 | 影音先锋中文字幕一区| 99中文字幕在线观看| 欧美a级成人淫片免费看| 亚洲精品一区国产精品| 蜜桃成人av| 欧美日本亚洲| 国产一区国产二区国产三区| 欧美日韩亚洲综合一区二区三区激情在线| 日韩精品丝袜美腿| 欧美性xxxx69| 日韩激情免费| 中文字幕一区综合| 亚洲在线久久| 国产精品无码免费专区午夜| 国产精品av一区二区| 妺妺窝人体色777777| 亚洲青涩在线| 日韩精品一区二区三区色欲av| 久热精品在线| 成人免费在线观看视频网站| 免费成人在线观看视频| 五月六月丁香婷婷| 国产大陆a不卡| 日b视频在线观看| 久久蜜桃一区二区| 成年人在线免费看片| 国产精品理伦片| 成年人av电影| 欧美日韩免费在线观看| 中文字幕精品视频在线观看| 色一情一乱一乱一91av| 一本一道人人妻人人妻αv| 欧美精品乱码久久久久久| 精品人妻一区二区三区含羞草 | 国产美女永久免费无遮挡| 国产精品久久久久久久久免费樱桃 | 美女又黄又免费的视频| 成年人网站91| av黄色在线免费观看| 中文字幕在线不卡视频| 精品一区二区三区四| 一本一道久久a久久精品| 亚洲一级av毛片| 精品福利二区三区| 黄色av网站在线| 美日韩在线视频| 厕沟全景美女厕沟精品| 国产在线视频91| 久久夜色精品国产噜噜av小说| 欧美午夜欧美| 欧美精品一线| caoporn超碰97| 国产激情91久久精品导航| 好吊一区二区三区视频| 国产精品久久久久一区二区三区 | 欧美亚洲系列| 国产999精品久久久影片官网| 国产成人视屏| 日本不卡久久| 国产精品扒开腿做爽爽爽软件| 成人一区二区三| 成人精品亚洲人成在线| 国产精品久久久久久久av| 亚洲第一福利视频在线| 中文字幕视频在线播放| 亚洲激情成人网| 国产日产一区二区三区| 国产精品福利在线观看网址| 一区二区三区在线资源| 杨幂一区欧美专区| 美女网站久久| 国产大学生视频| 亚洲图片你懂的| 波多野结衣一二区| 亚洲国产精品久久精品怡红院| 美女免费久久| 国产成人短视频| 亚洲电影男人天堂| 日韩精品在线中文字幕| 激情五月激情综合网| 熟女少妇内射日韩亚洲| 欧美性色19p| 天天射天天色天天干| 久久91超碰青草是什么| 四虎国产精品成人免费影视| 日本一区免费在线观看| 一本色道久久综合亚洲精品高清| 欧美人与性动交α欧美精品| 最新日韩av在线| 国产精品女同一区二区| 色哟哟网站入口亚洲精品| 成人黄色免费短视频| 久久亚洲免费| 一本综合久久| www.免费av| 精品电影在线观看| 欧美 日韩 国产 成人 在线| 欧美丰满少妇xxxxx| 日韩三级久久| 三上悠亚免费在线观看| 精品一区二区三区视频在线观看| аⅴ天堂中文在线网| 色婷婷av一区二区三区之一色屋| 天堂а√在线8种子蜜桃视频| 午夜欧美不卡精品aaaaa| 成功精品影院| 青青草国产免费| 不卡电影免费在线播放一区| 日本一区二区欧美| 亚洲丁香久久久| 波多野结衣视频一区二区| 久久青青草综合| 香蕉久久夜色精品| 久久久精品人妻无码专区| 日韩欧美极品在线观看| 牛牛影视精品影视| 国产精品99久久久久久久久久久久| 国产精品羞羞答答在线观看| 91热这里只有精品| 国产精品伦理在线| 国产精品久久久久毛片| 久久高清视频免费| 国产精品久久久网站| 欧美极品欧美精品欧美图片| 国产亚洲精品久| 中文字幕在线观看欧美| 久久这里有精品| 福利欧美精品在线| 国产美女三级视频| 国产精品久久久久一区二区三区共| 国产精品久久久午夜夜伦鲁鲁| 久久最新资源网| 精品国产一区二区三区不卡蜜臂| 国产成人精品视频免费看| 国产欧美日韩三级| 99精品国产99久久久久久97| 欧美激情一区二区久久久| 精品在线91| 亚洲午夜激情影院| 午夜av一区二区三区| 国产片在线观看| 91九色蝌蚪嫩草| 亚洲欧美成人| 亚洲怡红院在线观看| 精品国产一区二区三区不卡 | 狠狠爱成人网| 亚洲av无码国产精品麻豆天美| 91精品国产91综合久久蜜臀| 91九色porn在线资源| 亚洲精品在线免费| youjizz久久| 国产一区二区三区成人| 97精品一区二区三区| 日韩欧美一区二区三区在线视频 | 色屁屁草草影院ccyycom| 国产成人精品久久亚洲高清不卡| 综合精品久久| 国产成人福利在线| 亚洲爱爱爱爱爱| 六九午夜精品视频| 蜜桃传媒一区二区三区| 国产精品美女久久久久久久久久久| 成人免费公开视频| 国产精品久久久久久久久久久久久| 国产一区亚洲| 日韩精品久久久久久久的张开腿让| 亚洲高清久久网|