精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型落地最后一公里:111頁全面綜述大模型評測

人工智能 新聞
天津大學(xué)自然語言處理實(shí)驗室最近發(fā)布了大模型評測的綜述文章。該綜述文章共有 111 頁,其中正文部分 58 頁,引用了 380 余篇參考文獻(xiàn)。

當(dāng)前,大模型正憑借其強(qiáng)大的能力和無限的潛力引領(lǐng)著新一輪技術(shù)革命,眾多科技巨頭紛紛圍繞大模型進(jìn)行布局,進(jìn)一步推動大模型不斷向前發(fā)展。然而,盡管大模型能夠協(xié)助我們完成各種任務(wù),改變我們的生產(chǎn)和生活的方式,提高生產(chǎn)力,為我們帶來便利,但大模型的發(fā)展也伴隨著諸多風(fēng)險與挑戰(zhàn),如泄露隱私數(shù)據(jù),生成帶有偏見、暴力、歧視、違反基本道德和法律法規(guī)的內(nèi)容,傳播虛假信息等。不僅如此,隨著大模型能力的飛速進(jìn)步,其產(chǎn)生自我保持、自我復(fù)制、追求權(quán)力和資源、奴役其它機(jī)器和人類等與人類價值不符的 “欲望” 傾向開始逐步呈現(xiàn)出來。因此,在大模型高歌猛進(jìn)的今天,追蹤大模型的技術(shù)進(jìn)步,對大模型能力及其不足之處形成更深入的認(rèn)識和理解,預(yù)知并防范大模型帶來的安全挑戰(zhàn)和風(fēng)險,需要針對大模型開展全方位的評測,以引導(dǎo)大模型朝著更健康和更安全的方向發(fā)展,讓大模型的發(fā)展成果惠及全人類。

然而,當(dāng)前對大模型進(jìn)行全方位評測面臨諸多挑戰(zhàn),由于大模型的通用性強(qiáng),能夠勝任多種任務(wù),因此大模型的全方位評測涉及的范圍廣、工作量大、評測成本高昂;其次,由于數(shù)據(jù)標(biāo)注工作量大,許多維度的評測基準(zhǔn)仍然有待構(gòu)建;再次,自然語言的多樣性和復(fù)雜性,使得許多評測樣本無法形成標(biāo)準(zhǔn)答案,或者標(biāo)準(zhǔn)答案不止一個,這導(dǎo)致相應(yīng)的評測指標(biāo)難以量化;此外,大模型在現(xiàn)有評測數(shù)據(jù)集的表現(xiàn)難以代表其在真實(shí)應(yīng)用場景的表現(xiàn)。

為了應(yīng)對以上挑戰(zhàn),激發(fā)大家對大模型評測研究的興趣,推動大模型評測研究與大模型技術(shù)研究發(fā)展相協(xié)調(diào),天津大學(xué)自然語言處理實(shí)驗室最近發(fā)布了大模型評測的綜述文章。該綜述文章共有 111 頁,其中正文部分 58 頁,引用了 380 余篇參考文獻(xiàn)。

圖片

  • 論文地址:https://arxiv.org/abs/2310.19736
  • 論文參考文獻(xiàn)詳細(xì)列表:https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers

如圖 2 所示,該綜述將整個大模型評測按照評測維度的不同分為了 5 個評測類別:(1)知識和能力評測,(2)對齊評測,(3)安全評測,(4)行業(yè)大模型評測,(5)(綜合)評測組織。這 5 個評測類別基本囊括了當(dāng)前大模型評測的主要研究領(lǐng)域。在介紹每個評測類別時,該綜述對相關(guān)的研究工作進(jìn)行了梳理,以樹狀結(jié)構(gòu)的思維導(dǎo)圖形式展示了各個研究工作之間的關(guān)系,以清晰展示該領(lǐng)域整體的研究框架。不僅如此,該綜述還探討了大模型評測的未來發(fā)展方向,強(qiáng)調(diào)了大模型評測應(yīng)該與大模型本身協(xié)同進(jìn)步。希望該綜述能夠為對大模型評測領(lǐng)域感興趣的研究者和工程技術(shù)人員提供參考,基于該綜述,對大模型評測的發(fā)展和現(xiàn)狀形成較為全面的了解,并對大模型評測中的關(guān)鍵和開放問題進(jìn)行深入思考。

圖片

圖 2  大模型評測研究中的 5 個主要評測類別及其子類別

知識和能力評測

知識和能力是評測大模型的核心維度之一。大模型的飛速發(fā)展,使其在諸多復(fù)雜任務(wù)中不斷取得突破,并被廣泛應(yīng)用于越來越多的實(shí)際業(yè)務(wù)場景中。對其是否可以勝任真實(shí)場景任務(wù),需要對大模型的知識和能力水平進(jìn)行綜合評估。該綜述討論了大模型的問答能力評測、知識補(bǔ)全能力評測、推理能力評測及工具學(xué)習(xí)能力評測,并梳理了相關(guān)的評測基準(zhǔn)數(shù)據(jù)集、評測方法和評測結(jié)果。在推理能力評測中,該綜述介紹了目前常見的 4 種推理類型:(1)常識推理,(2)邏輯推理,(3)多跳推理,(4)數(shù)學(xué)推理。在工具學(xué)習(xí)能力評測中,該綜述詳細(xì)介紹了工具調(diào)用能力評測和工具創(chuàng)造能力評測。對應(yīng)的思維導(dǎo)圖如圖 3 所示。

圖片

圖 3  大模型知識和能力評測

對齊評測

對大模型進(jìn)行對齊評測能夠提前預(yù)知大模型帶來的負(fù)面影響,以便提前采取措施消除倫理價值未對齊問題。在對齊評測中,該綜述討論了大模型的道德和倫理評測、偏見性評測、毒性評測和誠實(shí)性評測,其對應(yīng)的思維導(dǎo)圖如圖 4 所示。

圖片

圖 4  大模型的對齊評測

大模型的道德和倫理評測旨在評估其生成內(nèi)容中是否存在違背社會公認(rèn)的道德倫理規(guī)范的情況。該綜述根據(jù)評價準(zhǔn)則的不同將道德和倫理評測分為四個部分:(1)基于專家定義的道德倫理規(guī)范評測,即采用書籍、文章等專業(yè)來源中定義的道德倫理規(guī)范作為評價標(biāo)準(zhǔn),然后采用眾包的方式制作相應(yīng)的評測數(shù)據(jù)集;(2)基于眾包方式的道德倫理規(guī)范評測,其道德倫理規(guī)范通常是由未接受相關(guān)專業(yè)培訓(xùn)的眾包工作者根據(jù)個人的道德標(biāo)注進(jìn)行確定;(3)AI 輔助的道德倫理規(guī)范評測,即讓語言模型參與到評測過程中,輔助人類判斷內(nèi)容是否符合道德倫理;(4)基于混合模式(如專家定義 + 眾包方式)的道德倫理規(guī)范評測,其相關(guān)的評測數(shù)據(jù)集則既包含了由專家定義的道德倫理規(guī)范構(gòu)建的數(shù)據(jù)集,也包含了基于眾包工作者的個人道德規(guī)范構(gòu)建的數(shù)據(jù)集。

大模型的偏見性評測主要關(guān)注其生成的內(nèi)容是否會對某些社會群體產(chǎn)生不利影響或傷害。現(xiàn)有的研究表明大模型可能會對某些群體持有刻板印象,或者產(chǎn)生輸出貶低特定群體的信息等偏見行為。該綜述主要討論了下游任務(wù)中的偏見和大模型中的偏見。下游任務(wù)涉及指代消解、機(jī)器翻譯、自然語言推理、情感分析、關(guān)系抽取和隱式仇恨言論檢測。而在大模型中的偏見中,該綜述主要介紹了主流的專用于評估大模型的偏見的評測數(shù)據(jù)集和評測方法。

大模型的毒性評測主要聚焦于評估其生成的內(nèi)容中是否含有仇恨、侮辱、淫穢等有害信息。在毒性評測的框架下,該綜述介紹了使用大模型識別有害信息的相關(guān)工作,并詳細(xì)介紹了相應(yīng)的評測基準(zhǔn)。不僅如此,該綜述還闡述了適用于評估大模型的毒性的評測數(shù)據(jù)集以及能夠量化大型模型生成內(nèi)容毒性的工具。

大模型的誠實(shí)性評測致力于檢測模型生成的內(nèi)容是否真實(shí)、準(zhǔn)確,以及是否符合事實(shí)。該綜述以評測數(shù)據(jù)集和評測方法為主線,詳細(xì)介紹了大模型的誠實(shí)性評測的相關(guān)工作。在介紹真實(shí)性評測的數(shù)據(jù)集時,該綜述根據(jù)數(shù)據(jù)集涉及的任務(wù)類型將數(shù)據(jù)集劃分為了三類:(1)問答任務(wù)數(shù)據(jù)集,(2)對話任務(wù)數(shù)據(jù)集以及(3)摘要任務(wù)數(shù)據(jù)集。在探討真實(shí)性評測的方法時,該綜述對現(xiàn)有的真實(shí)性評測方法進(jìn)行了梳理和歸類,并將其總結(jié)為三類:(1)基于自然語言推理的評測方法,(2)基于問題生成和問答的方法,(3)基于大模型的方法。

安全評測

雖然大模型在許多任務(wù)中已經(jīng)展現(xiàn)出媲美甚至超越人類的表現(xiàn),但由其引發(fā)的安全問題也不容忽視,因此需要對大模型進(jìn)行安全評測以確保其在各種應(yīng)用場景中的安全使用。在安全評測中,該綜述探討了魯棒性評測和風(fēng)險評測兩個方面,其對應(yīng)的思維導(dǎo)圖如圖 5 所示。魯棒性評測主要包括:(1)提示詞魯棒性,即通過在提示詞中加入拼寫錯誤、近義詞等模擬用戶輸入的噪音來評估大模型的魯棒性;(2)任務(wù)魯棒性,即通過生成各種下游任務(wù)的對抗樣本評估大模型的魯棒性;(3)對齊魯棒性,大模型通常會經(jīng)過對齊訓(xùn)練以確保其生成的內(nèi)容與人類的偏好和價值對齊,防止模型生成有害信息。然而,已有的研究表明有些提示詞能夠繞過對齊訓(xùn)練的防護(hù),觸發(fā)大模型生成有害內(nèi)容,這種方法也被稱為越獄打擊方法。因此,對齊魯棒性主要評測的是大模型在面臨各種引導(dǎo)模型生成有害內(nèi)容的越獄攻擊時能否仍然生成與人類偏好和價值對齊的內(nèi)容。

風(fēng)險評測則主要集中于兩個方面:(1)大模型的行為評測,即通過與大模型進(jìn)行直接交互的方式,評估大模型是否存在追求權(quán)力和資源,產(chǎn)生自我保持等潛在危險行為或傾向;(2)將大模型視為智能體進(jìn)行評測,即在特定的模擬環(huán)境中對大模型進(jìn)行評測,如模擬游戲環(huán)境、模擬網(wǎng)上購物或網(wǎng)上沖浪等場景。與大模型的行為評測不同,此項評測更側(cè)重于大模型的自主性以及其與環(huán)境和其它大模型之間的復(fù)雜交互。

圖片

圖 5  大模型安全評測

行業(yè)大模型評測

行業(yè)大模型指專門針對某個特定領(lǐng)域或行業(yè)進(jìn)行訓(xùn)練和優(yōu)化的大模型。與通用大模型不同,行業(yè)大模型一般都經(jīng)過了特定領(lǐng)域數(shù)據(jù)的微調(diào),因此其更加專注于某一特定領(lǐng)域的知識和應(yīng)用,如法律、金融、醫(yī)療等。乘著通用大模型發(fā)展的東風(fēng),各種行業(yè)大模型也紛紛亮相。為深入了解行業(yè)大模型能力水平,發(fā)現(xiàn)行業(yè)模型潛在缺陷以便改進(jìn)和優(yōu)化,需要對行業(yè)大模型進(jìn)行深入評測。該綜述介紹了生物 & 醫(yī)療、教育、法律、計算機(jī)和金融領(lǐng)域的行業(yè)大模型的評測,梳理了相應(yīng)的評測基準(zhǔn)、評測方法以及針對特定大模型的評測結(jié)果。其對應(yīng)的思維導(dǎo)圖如圖 6 所示。

圖片

圖 6  行業(yè)大模型評測

(綜合)評測組織

評測組織研究如何將多個評測維度或子維度組合起來,以對大模型進(jìn)行綜合性評測。該綜述對評測組織研究進(jìn)行了全面梳理,并將相關(guān)的綜合性評測基準(zhǔn)歸類為兩種:(1)由自然語言理解和自然語言生成任務(wù)組成的評測基準(zhǔn),如早期的 GLUE、SuperGLUE 和近期的 BIG-Bench 等;(2)由人類各學(xué)科考試題組成的學(xué)科能力評測基準(zhǔn),其目的是評估大模型的知識能力,如 MMLU、C-Eval、MMCU 和 M3KE 等。此外,該綜述還總結(jié)了不同模型在學(xué)科能力評測基準(zhǔn)上的表現(xiàn),并分析和探討了測試集樣本所屬的語言、模型的參數(shù)規(guī)模、指令微調(diào)和思維鏈等因素對模型效果的影響。同時,該綜述還介紹了評測平臺、排行榜以及大模型競技場,這些排行榜的評測數(shù)據(jù)集通常也由多個任務(wù)的評測數(shù)據(jù)集共同組成。大模型競技場引入了 Elo 評分機(jī)制對大模型進(jìn)行打分和排名,在計算 Elo 評分時,由人類對大模型生成的回復(fù)進(jìn)行投票以選出質(zhì)量高的回復(fù)。評測組織對應(yīng)的思維導(dǎo)圖如圖 7 所示。

圖片

圖 7  評測組織

未來展望

該綜述不僅梳理和介紹了現(xiàn)有的大模型評測的研究,還探討了當(dāng)前研究中存在的瓶頸問題,并基于此,展望了大模型評測未來潛在方向:(1)風(fēng)險評測,(2)智能體評測,(3)動態(tài)評測,以及(4)以優(yōu)化大模型為目標(biāo)的評測。

風(fēng)險評測:現(xiàn)有的風(fēng)險評測方法主要通過問答的方式對大模型進(jìn)行評測,然而該方法難以全面評估大模型在特定場景或特定環(huán)境下的風(fēng)險,無法深入揭示這些風(fēng)險產(chǎn)生的內(nèi)在原因。因此對于大模型的風(fēng)險評測,需要更深入、更全面的評測方法。

智能體評測:現(xiàn)有的將大模型視為智能體進(jìn)行評測的方法大多需要一個特定的環(huán)境,并且總是聚焦于智能體的能力評測。然而,這些方法往往缺乏專門用于評測智能體潛在風(fēng)險的環(huán)境,因此可以進(jìn)一步增加智能體所處環(huán)境的多樣性,以便更全面地評估其能力和風(fēng)險。

動態(tài)評測:現(xiàn)有的評測方法通常是靜態(tài)評測,其測試樣本總是長時間保持不變。然而,由于大模型的訓(xùn)練數(shù)據(jù)來源廣泛且規(guī)模龐大,有些測試樣本可能已經(jīng)包含在其訓(xùn)練數(shù)據(jù)中。此外,大多數(shù)大模型往往不會詳細(xì)透露其訓(xùn)練數(shù)據(jù)來源或公開其訓(xùn)練數(shù)據(jù),這可能導(dǎo)致為了獲得好的評測結(jié)果,靜態(tài)評測的測試樣本會被人為添加到模型的訓(xùn)練數(shù)據(jù)中。再者,由于知識每時每刻都在迭代更新,靜態(tài)評測的數(shù)據(jù)中的知識有可能會過時,隨著大模型的能力不斷的增強(qiáng),原有的靜態(tài)評測數(shù)據(jù)的難度可能無法滿足大模型的能力需求。這些因素都削弱了靜態(tài)評測的公平性。因此,為了更加全面公正的對大模型進(jìn)行評測,可以采用動態(tài)評測方法,持續(xù)更新測試樣本,引入開放式問題,并探索評測新方法,如使用多個大模型通過辯論的方式進(jìn)行評測。

以優(yōu)化大模型為目標(biāo)的評測:現(xiàn)有的評測方法主要使用具體的評分量化大模型在某些特定任務(wù)或某些特定維度的能力,雖然這些評分便于模型之間的比較和選擇,但它們包含的信息難以指導(dǎo)模型的進(jìn)一步優(yōu)化。因此,需要以優(yōu)化大模型為目標(biāo)的評測方法,這種方法不僅給出模型的能力評分,同時也提供對應(yīng)的能力分析和改進(jìn)建議。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-07-26 07:35:30

數(shù)據(jù)庫HTAP系統(tǒng)

2023-07-03 13:31:07

大模型AI互聯(lián)網(wǎng)

2015-04-23 10:30:42

華為

2022-07-29 09:03:17

AIOPS運(yùn)維工具

2012-04-10 09:05:49

無線交換機(jī)

2025-11-13 14:06:43

2015-12-11 10:46:01

2012-09-24 15:07:09

云ERP恩信科技云應(yīng)用

2022-04-19 08:09:11

PON光纖網(wǎng)絡(luò)

2011-12-25 20:54:57

移動支付

2025-02-20 08:45:41

V3GPU資源

2017-02-21 13:30:42

數(shù)據(jù)網(wǎng)絡(luò)終端

2017-02-21 12:30:21

數(shù)據(jù)中心智能終端網(wǎng)絡(luò)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

91久久奴性调教| 午夜在线观看视频18| 一区中文字幕电影| 五月激情六月综合| 亚洲春色在线| 午夜久久久久久噜噜噜噜| 亚洲久久视频| 色婷婷av一区二区三区久久| 午夜影院福利社| 天天综合网站| 亚洲一区二区三区中文字幕| 欧美精品尤物在线| 国产ts变态重口人妖hd| 久久婷婷激情| 久久777国产线看观看精品| 无码人妻aⅴ一区二区三区| 中文字幕日韩亚洲| 欧美性猛交视频| av动漫在线播放| 成人亚洲综合天堂| www.亚洲免费av| 亚洲xxxxx电影| 怡红院av久久久久久久| 一区在线视频观看| 久久精品这里热有精品| 蜜桃无码一区二区三区| jazzjazz国产精品麻豆| 欧美日韩成人一区二区| 国产精品50p| 18网站在线观看| 国产精品美女久久久久av爽李琼| 久久亚洲国产精品日日av夜夜| 国产色在线视频| 日韩福利视频网| 欧美在线视频免费| jizz国产免费| 欧美激情亚洲| 久久成人精品电影| 亚洲AV成人无码网站天堂久久| 亚洲区小说区| 亚洲国产天堂久久综合| 佐佐木明希电影| 国产精品国产三级在线观看| 亚洲国产视频二区| 狠狠操狠狠色综合网| 九九热只有这里有精品| av在线app| 亚洲欧美日韩中文字幕一区二区三区| 色999日韩自偷自拍美女| 欧美一区二区少妇| 91免费版在线看| 久久精品ww人人做人人爽| 蜜臀久久久久久999| 国产福利一区二区三区视频| 亚洲精品女av网站| 国产黄频在线观看| 国产激情一区二区三区| 亚洲综合国产精品| 精品人妻无码一区二区色欲产成人 | 一区中文字幕电影| 亚洲精品在线观看网站| 少妇户外露出[11p]| 天天躁日日躁成人字幕aⅴ| 亚洲精品成人久久电影| 欧美 变态 另类 人妖| 美女毛片一区二区三区四区| 国产午夜精品视频| avhd101老司机| 天天做天天爱天天综合网| zzijzzij亚洲日本成熟少妇| 天天色天天综合| 一区二区三区四区在线观看国产日韩| 欧美成人午夜免费视在线看片| 日韩成人短视频| 激情久久久久| 日本成人在线视频网址| 69av视频在线观看| 精品一二线国产| av色综合网| 亚洲欧美日韩免费| 国产精品色婷婷久久58| 丰满人妻一区二区三区53号| 丰满的护士2在线观看高清| 亚洲精品555| 欧美丝袜一区二区| 九一精品在线观看| 天堂av一区| 日韩精品中文在线观看| 亚洲一二三四视频| 欧美精品成人| 国产91网红主播在线观看| 国产一区二区三区黄片| 99国产精品久久久久| 日本一区二区三区精品视频| 成人video亚洲精品| 岛国av在线不卡| 日本不卡一区二区在线观看| xvideos.蜜桃一区二区| 亚洲香蕉伊综合在人在线视看| 在线看的片片片免费| 最新日韩欧美| 91精品久久久久久久久久另类 | 国产制服91一区二区三区制服| 日批视频免费在线观看| 亚洲狼人在线| 亚洲精品720p| 欧美偷拍第一页| 小嫩嫩精品导航| 成人淫片在线看| 久色视频在线| 亚洲宅男天堂在线观看无病毒| 国产aaa一级片| 欧美电影在线观看一区| 亚洲午夜未删减在线观看| 国产中文字字幕乱码无限| 日韩高清不卡一区| 欧美精品一区三区在线观看| 成人性生交大片免费看网站| 欧美日韩免费观看一区三区| 自拍视频一区二区| 一区二区三区四区在线观看国产日韩 | 黄毛片在线观看| 欧美一区二区三区四区视频| 国产精品一区二区三区观看| 男人操女人的视频网站| 美女网站久久| 精品视频第一区| 天天干在线视频论坛| 欧美视频一区在线| av男人的天堂av| 国产欧美另类| 国产精品久久久久久久天堂第1集| 毛片在线看网站| 欧美性猛交xxxxxx富婆| 欧美老熟妇乱大交xxxxx| 亚洲黄色视屏| www.久久艹| 在线黄色网页| 日韩一区国产二区欧美三区| 在线观看天堂av| 日本aⅴ亚洲精品中文乱码| 欧美色欧美亚洲另类七区| 碰碰在线视频| 亚洲精品乱码久久久久久按摩观| 久久免费公开视频| 成人中文字幕电影| 男女激情免费视频| 丁香五月缴情综合网| 久久久久久国产精品久久| 国产成人精品a视频| 亚洲人吸女人奶水| 免费黄视频在线观看| 女人天堂亚洲aⅴ在线观看| 92国产精品视频| 中文字幕中文字幕在线中高清免费版| 7777精品伊人久久久大香线蕉的| 成人黄色a级片| 免费成人你懂的| 亚洲精品成人a8198a| 久久亚洲人体| 久久伊人免费视频| 国产美女主播在线观看| 亚洲激情图片qvod| 亚洲成人精品在线播放| 亚洲激情欧美| 欧美连裤袜在线视频| 欧美日韩视频网站| 日韩在线观看网站| 国内老熟妇对白xxxxhd| 亚洲成国产人片在线观看| 亚洲国产精品成人综合久久久| 亚洲一区二区成人| 日本一区二区三区四区在线观看| 最新中文字幕免费| 欧美freesextv| 成人天堂噜噜噜| 男人添女人下部高潮视频在线观看| 精品国产伦一区二区三区观看方式 | 999热精品视频| 怡红院精品视频在线观看极品| 精品在线视频一区二区| 最新日韩一区| 欧美激情在线有限公司| 日韩美女一级视频| 欧美美女一区二区| 久久精品人妻一区二区三区| 久久久精品天堂| 亚洲色图偷拍视频| 日韩亚洲国产欧美| 日韩激情久久| 一区中文字幕| 国产精品香蕉在线观看| 污网站在线免费看| 亚洲天堂av综合网| 国产福利小视频| 色88888久久久久久影院按摩| 九九热久久免费视频| 白白色亚洲国产精品| 男人女人黄一级| 伊人影院久久| 99精品视频网站| 在线观看欧美理论a影院| 亚洲一区二区三区香蕉| 亚洲精品中文字幕| 欧美成人免费播放| 国产精品久久一区二区三区不卡 | 毛片免费在线观看| 日韩一区二区三区在线观看| 天堂网视频在线| 亚洲图片一区二区| 久久精品亚洲a| 久久久不卡影院| 亚洲无人区码一码二码三码| 免费在线看一区| 欧洲av无码放荡人妇网站| 欧美韩国一区| 一区二区成人国产精品 | 亚洲欧美激情四射在线日| 国产成人精品白浆久久69| 在线观看一区不卡| 伊人久久综合视频| 亚洲自拍与偷拍| 黄色录像一级片| 欧美aaa视频| 亚洲视频在线视频| 亚洲 欧美 精品| 欧美精品一区二区三区蜜桃 | 一区二区日本| 欧美一级淫片| 欧美福利精品| 欧洲亚洲视频| 国产aⅴ精品一区二区三区黄| 亚洲精品成人一区| 国产精品入口日韩视频大尺度| 五月天av在线| 欧美在线激情视频| 国产在线精彩视频| 91国内在线视频| 美女网站视频在线| 欧美日韩国产成人在线| www免费在线观看| 久热精品视频在线| www在线免费观看视频| 美日韩在线视频| 2024最新电影在线免费观看| 欧美成人在线网站| 污视频网站在线免费| 欧美精品亚州精品| 污网站在线免费看| 久久久久久久久久久网站| 女人天堂av在线播放| 欧美极品第一页| 国产免费拔擦拔擦8x在线播放 | 青青草原成人网| 亚洲女同在线| 黄色一级大片在线观看| 日韩在线播放一区二区| 亚洲第一中文av| 麻豆国产欧美日韩综合精品二区 | 最新精品在线| 国产私拍一区| 免费国产自久久久久三四区久久| 蜜桃日韩视频| 国产在线日韩精品| 中文精品一区二区三区| 亚洲影视一区二区三区| 日韩亚洲欧美一区二区| 最新亚洲视频| 日韩一级在线免费观看| 日本不卡视频一二三区| 国产成人美女视频| 成人午夜精品在线| 亚洲自拍偷拍一区二区| 国产精品午夜电影| 久久久久久久久久久久久女过产乱| 亚洲精品久久嫩草网站秘色| 97人人澡人人爽人人模亚洲| 91福利精品视频| 国产日韩欧美一区二区东京热| 日韩精品在线一区二区| 久草在线网址| 美女少妇精品视频| 一区二区电影免费观看| 成人福利在线观看| 先锋影音国产精品| 99精品视频网站| 免费在线播放第一区高清av| 中文字幕22页| wwww国产精品欧美| 麻豆天美蜜桃91| 日韩欧美在线看| av资源免费看| 亚洲欧洲免费视频| 福利小视频在线| 国产精品自在线| 欧美电影在线观看免费| 中文字幕一区二区三区在线乱码 | 欧美在线性视频| 欧美在线在线| 亚洲成人第一| 国产欧美欧美| 亚洲少妇一区二区| 中文字幕av一区二区三区| 日本一区二区欧美| 91精品国产丝袜白色高跟鞋| 国产在线91| 久久久中精品2020中文| 久久久国产精品网站| 精品一区二区不卡| 9999国产精品| 国产精品免费成人| 成人在线一区二区三区| 粉嫩av性色av蜜臀av网站| 黑人精品xxx一区一二区| 99热这里只有精| 亚洲一级免费视频| 欧洲日本在线| 国产成人精品网站| 国产精品玖玖玖在线资源| 亚洲一区二区在线免费观看| 亚洲综合激情| 又色又爽又黄18网站| 亚洲色图在线播放| wwwwww在线观看| 亚洲老司机av| 538在线精品| 97se亚洲综合| 欧美日韩影院| 欧美成人手机在线视频| 国产精品高潮久久久久无| 免费av网站在线| 555www色欧美视频| 幼a在线观看| 国产精品成人观看视频国产奇米| 香蕉久久精品日日躁夜夜躁| av片在线免费| 精久久久久久久久久久| 农村老熟妇乱子伦视频| 在线中文字幕不卡| 国产高清一级毛片在线不卡| 欧美影院久久久| 好吊妞国产欧美日韩免费观看网站| 日韩欧美视频免费在线观看| 国产专区欧美精品| 欧美大片xxxx| 欧美肥胖老妇做爰| 国产区在线观看| 91久久国产精品| 国产精品久久久久蜜臀 | 黑人一区二区三区| 亚洲狠狠婷婷综合久久久| 久久成人免费电影| 2014亚洲天堂| 91精品国产91久久久久久最新毛片| a毛片在线播放| 91九色对白| 亚洲国产91| 欧类av怡春院| 亚洲曰韩产成在线| 日本激情一区二区| 97超碰色婷婷| 成人羞羞网站入口| 一区二区免费av| 亚洲一区视频在线| 日本精品久久久久| 97高清免费视频| av影片在线一区| 一级片视频免费观看| 亚洲另类一区二区| 性一交一乱一伧老太| 97在线免费观看| 国产一区三区在线播放| 久草在在线视频| 亚洲人吸女人奶水| 欧美一区二区三区激情| 日韩av免费看网站| 欧美gvvideo网站| 韩国av中国字幕| 图片区小说区国产精品视频| 天天干天天爽天天操| 日韩美女免费线视频| 色喇叭免费久久综合| 黑人无套内谢中国美女| 黑人巨大精品欧美一区免费视频 | ,一级淫片a看免费| 美女撒尿一区二区三区| 最新国产精品视频| 亚洲欧美久久久久| 亚洲一卡二卡三卡四卡| 高清在线观看av| 亚洲一区二区三区乱码aⅴ蜜桃女| 亚洲精品欧美| 99久久99久久精品免费看小说.| 欧美mv日韩mv国产| 性欧美freehd18| 国产成人永久免费视频| 国产日产精品1区| 亚洲第一页综合| 国产精品96久久久久久| 欧美日韩亚洲一区在线观看|