精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM評估綜述論文問世,分三方面全面總結,還帶資料庫

人工智能 新聞
這是一篇關于評估大型語言模型的研究,文中參考了許多重要文獻,值得一讀。

大型語言模型(LLM)已經得到了學術界和產業界的廣泛關注,而為了開發出好用的 LLM,適當的評估方法必不可少。現在,一篇有關 LLM 評估的綜述論文終于來了!其中分三方面對 LLM 評估的相關研究工作進行了全面的總結,可幫助相關研究者索引和參考。

不僅如此,該論文作者還創建了一個開源資料庫,讓用戶可以方便地添加和共享相關的新研究:https://github.com/MLGroupJLU/LLM-eval-survey

圖片

對科學家來說,理解智能的本質以及確定機器是否能具有智能是極具吸引力的課題。人們普遍認為,人類之所以有能力執行推理、檢驗假設以及為未來做準備,就是因為我們具有真正的智能。人工智能研究者關注的是開發基于機器的智能。正確的度量方式有助于理解智能。舉個例子,為了測試人類的智能水平 / 智力,常常會用到 IQ 測試。

而在 AI 領域,AI 開發的一個長期目標是讓 AI 通過圖靈測試(Turing Test),這需要一個能被廣泛認可的測試集,通過辨別 AI 和人類對其的響應來評估 AI 的智能水平。研究者普遍相信,如果計算機能成功通過圖靈測試,那么就可以認為它具有智能。因此,從更廣泛的視角看,AI 的編年史可描述為智能模型和算法的創造和評估的時間線。每當出現一個新的 AI 模型或算法,研究者都會使用有難度的特定任務來仔細評估其在真實世界場景中的能力。

舉個例子,曾在上世紀 50 年代被吹捧為通用人工智能(AGI)方法的感知器算法之后被證明名不符實,因為其難以求解 XOR(異或)問題。之后興起并得到應用的支持向量機(SVM)和深度學習都是 AI 發展圖景中的重大里程碑,但它們也都各有短板。

過去的研究歷程向我們揭示了評估的重要性。評估是一種重要工具,能幫助我們識別當前系統的局限性并讓我們獲得設計更強模型的信息。

目前而言,學術界和產業界最感興趣的技術方法是大型語言模型(LLM)。已有的研究表明:LLM 表現優異,已經成為 AGI 的有力候選。相比于之前受限于特定任務的模型,LLM 有能力解決多種不同任務。由于 LLM 既能應對一般性自然語言任務,又能處理特定領域的任務,因此越來越受有特定信息需求的人的歡迎,比如學生和病人。

評估對于 LLM 的成功來說至關重要,原因如下。

首先,評估 LLM 有助于我們更好地了解 LLM 的優勢和劣勢。舉個例子,PromptBench 基準測試表明,當前的 LLM 對對抗性 prompt 很敏感,因此為了更好的性能,必需仔細設計 prompt。

第二,更好的評估可以為人類與 LLM 的交互提供更好的指引,這能為未來的交互設計和實現提供思路。

第三,LLM 由于廣泛適用于多種任務,因此確保其安全性和可靠性就至關重要了,尤其是在金融和醫療等行業。

最后,隨著 LLM 能力增多,其也在越來越大,因此現有的評估方法可能不足以評估它們的能力和潛在風險。這就引出了這篇綜述論文的目標:讓 AI 社區認識到 LLM 評估的重要性并指引有關 LLM 評估協議的未來新研究。

隨著 ChatGPT 和 GPT-4 的推出,已經出現了一些旨在從不同方面評估 ChatGPT 和其它 LLM 的研究工作(圖 2),其中涵蓋很多因素,包括自然語言任務、推理、穩健性、可信度、醫學應用和道德考量。盡管如此,仍然缺乏一篇涵蓋整個評估圖景的全面綜述。此外,LLM 的持續演進還會引入需要評估的新方面,這會給現有評估帶來困難,并由此更加需要徹底的和多方面的評估技術。盡管有一些研究工作宣傳 GPT-4 可以被視為 AGI 的星星之火,但另一些人則反對這個說法,因為 GPT-4 的評估方法本質上還是啟發式的。

這篇來自吉林大學、微軟亞洲研究院和卡內基?梅隆大學等機構論文對大型語言模型評估進行了全面綜述。如圖 1 所示,作者從三個維度對現有研究工作進行了探索:1) 評估什么,2) 何處評估,3) 如何評估。

圖片

論文地址:https://arxiv.org/pdf/2307.03109.pdf

具體來說,「評估什么」涵蓋 LLM 現有的評估任務,「何處評估」涉及對所用的數據集和基準的適當選擇,「如何評估」關注的是給定任務和數據集下的評估過程。這三個維度是 LLM 評估不可或缺的一部分。之后,作者還會討論 LLM 評估領域潛在的未來挑戰。

圖 1:論文的結構


圖 2:LLM 評估論文隨時間的趨勢,從 2020 年到 2023 年 6 月(6 月數據包含 7

圖 2:LLM 評估論文隨時間的趨勢,從 2020 年到 2023 年 6 月(6 月數據包含 7 月的部分論文)

本文的主要貢獻包括:

  1. 本文從三方面全面地概述了 LLM 評估:評估什么、何處評估、如何評估。其中采用的分類方法是普適的并且涵蓋 LLM 評估的整個生命周期。
  2. 在「評估什么」方面,本文總結了多個領域的現有任務,并得到了有關 LLM 的成功和失敗案例的富有洞見的結論。
  3. 在「何處評估」方面,本文對評估指標、數據集和基準進行了總結,可幫助讀者透徹地理解 LLM 評估的當前圖景。在「如何評估」方面,本文探索了當前協議并總結了新的評估方法。
  4. 本文還進一步討論了評估 LLM 方面的未來挑戰。為了促進構建一個有關 LLM 評估的合作社區,作者還維護著一個 LLM 評估相關材料的資源庫并已開源:https://github.com/MLGroupJLU/LLM-eval-survey

背景

大型語言模型(LLM)

GPT-3、InstructGPT 和 GPT-4 等許多 LLM 背后的核心模塊是 Transformer 中的自注意力模塊,Transformer 則是語言建模任務的基本構建模塊。Transformer 已經為 NLP 領域帶來了變革,因為其能高效處理序列數據、支持并行化并能捕獲文本中的長程依賴關系。

LLM 的一大關鍵特性是上下文學習,即模型可被訓練基于給定的上下文或 prompt 生成文本。這讓 LLM 可以生成更為連貫且更長上下文相關的響應,從而讓它們更適用于交互式和會話應用。

根據人類反饋的強化學習(RLHF)是 LLM 的另一重要方面。該技術是使用人類生成的響應作為獎勵對模型進行微調,從而讓模型可以學習自身的錯誤并隨時間提升性能。

圖片

表 1:對比傳統機器學習、深度學習和 LLM

AI 模型評估

AI 模型評估是評估模型性能的重要步驟。目前已有一些標準模型評估協議,包括 K-fold 交叉驗證、Holdout 驗證、Leave One Out 交叉驗證(LOOCV)、Bootstrap 和 Reduced Set。

圖片

圖 3:AI 模型的評估過程

隨著 LLM 應用增多,其可解釋性卻越來越差,因此現有的評估協議可能不足以徹底評估 LLM 的真實能力。

評估什么

開發語言模型(尤其是大型語言模型)的最初目標是提升 AI 在自然語言處理任務上的性能,其中包含理解任務和生成任務。正因為此,大多數評估研究關注的也主要是自然語言任務。

自然語言處理任務

圖片

表 2:基于自然語言處理任務的評估概況:NLU(自然語言理解,包括 SA(情感分析)、TC(文本分類)、NLI(自然語言推理)和其它 NLU 任務)、Rng.(推理)、NLG(自然語言生成,包括 Summ.(摘要)、Dlg.(對話)、Tran.(翻譯)、QA(問答)和其它 NLG 任務)和 Mul.(多語言任務)

穩健性、道德、偏見和可信度

LLM 的評估涵蓋穩健性、道德、偏見和可信度等關鍵方面。為了全面評估 LLM 的表現,這些因素的重要性正在提升。 

圖片

表 3:在穩健性、道德、偏見和可信度方面的 LLM 評估研究概況

社會科學

社會科學研究的是人類社會和個人行為,包括經濟學、社會學、政治學、法學等學科。評估 LLM 在社會科學領域的表現對于學術研究、政策制定和社會問題解決而言具有重要意義。這些評估有助于推進模型在社會科學領域的應用并改善模型的質量,提升對人類社會的理解以及推動社會進步。

自然科學和工程學

評估 LLM 在自然科學和工程學領域的表現有助于引導科學研究的應用和發展、技術開發以及工程研究。

圖片

表 4:在自然科學和工程學任務方面的評估研究概況,其中涉及三個方面:數學、科學和工程學

醫學應用

LLM 在醫學領域的應用最近引起了極大的關注。這里從四個方面介紹 LLM 在醫學領域的應用:醫學問答、醫學檢查、醫學評估和醫學教育。

圖片

表 5:LLM 的醫學應用方面的評估研究概況,其中涉及四個方面:Med. Exam.(醫學檢查)、Med. Ass.(醫學評估)、Med. QA(醫學問答)和 Med. Edu.(醫學教育)

智能體應用

LLM 不僅專注于一般語言任務,而是可以用作一種強大工具,應對不同領域的任務。通過為 LLM 配備外部工具,可以極大擴展模型能力。

其它應用

除了上述分類,LLM 還能用于其它一些不同領域,包括教育、搜索和推薦、性格測試以及特定領域的應用。

圖片

表 6:LLM 的其它應用方面的評估研究概況,其中涉及四個方面:Edu.(教育)、Sea. & Rec. (搜索和推薦)、Pers. Test.(性格測試)和 Specific applications(特定領域的應用)

何處評估:數據集和基準

LLM 評估數據集的作用是測試和比較不同語言模型在各種任務上的性能。GLUE 和 SuperGLUE 等數據集的目標是模擬真實世界的語言處理場景,其中涵蓋多種不同任務,如文本分類、機器翻譯、閱讀理解和對話生成。這里不關注用于語言模型的任何單個評估數據集,關注的則是用于評估 LLM 的基準。

由于 LLM 在不斷演進,因此基準也會變化,這里列出了 13 個常用的基準。每個基準側重于不同的方面和評估指標,都為各自領域提供了寶貴的貢獻。為了更好地進行總結,這里將基準分為兩類:通用語言任務基準和特定下游任務基準。

圖片

表 7:LLM 評估基準概況 

如何評估

常用的評估方法分為兩大類:自動評估和人類評估。顧名思義,這里就不多介紹了。

總結

任務:LLM 的成功和失敗案例 

現在總結一下 LLM 在不同任務中的成功和失敗案例。注意,以下結論都是基于現有評估工作得出的,結果可能取決于具體的數據集。 

LLM 擅長做什么? 

  • LLM 熟練掌握了文本生成,能生成流暢和精確的語言表達。 
  • LLM 能出色地應對涉及語言理解的任務,比如情感分析和文本分類。 
  • LLM 展現出了穩健的上下文理解能力,讓它們能生成與給定輸入相符的連貫響應。 
  • LLM 在多種自然語言處理任務上的表現都值得稱贊,包括機器翻譯、文本生成和問答。 

LLM 不擅長做什么? 

  • LLM 可能會在生成過程中展現出偏見和不準確的問題,從而得到帶偏見的輸出。 
  • LLM 在理解復雜邏輯和推理任務方面的能力有限,經常在復雜的上下文中發生混淆或犯錯。 
  • LLM 處理大范圍數據集和長時記憶的能力有限,這可能使其難以應對很長的文本和涉及長期依賴的任務。
  • LLM 整合實時和動態信息的能力有限,這讓它們不太適合用于需要最新知識或快速適應變化環境的任務。 
  • LLM 對 prompt 很敏感,尤其是對抗性 prompt,這會激勵研究者開發新的評估方法和算法,以提升 LLM 的穩健性。 
  • 在文本摘要領域,人們觀察到大型模型可能在特定評估指標上表現不佳,原因可能在于這些特定指標的固有局限性和不足之處。

基準和評估協議

隨著 LLM 的快速發展和廣泛使用,在實際應用和研究中評估它們的重要性變得至關重要。這個評估過程不僅應該包括任務層面的評估,還應該包括它們在社會方面的潛在風險。表 8 總結了現有的基準和評估協議。

圖片

表 8:新型 LLM 評估協議概況

巨大挑戰

最后來看看 LLM 評估研究方面面臨的挑戰。作者認為,為了推動 LLM 和其它 AI 模型的成功發展,應當將評估當作一門關鍵性學科來對待。現有的協議不足以透徹地評估 LLM,還有許多挑戰有待攻克,下面將簡單羅列出這些挑戰,但它們也是 LLM 評估方面的未來研究的新機會。

  • 設計 AGI 評估基準
  • 對完整行為進行評估
  • 穩健性評估
  • 動態和演化評估
  • 有原則且值得信任的評估
  • 支持所有 LLM 任務的統一評估
  • 超越評估:LLM 強化
責任編輯:張燕妮 來源: 機器之心
相關推薦

2010-09-08 19:35:12

2013-09-13 10:19:27

iOS 7IT

2010-04-28 17:39:26

網絡負載均衡

2010-02-24 14:24:35

.NET 4.0

2015-12-01 17:09:11

金融轉型華為

2009-11-03 16:04:29

2010-06-24 13:30:36

FTP協議

2010-04-12 09:41:01

2018-03-12 12:38:30

混合云私有云云計算

2017-08-25 10:50:13

運行多云模式

2011-03-24 09:59:01

VMware vSphXenDesktop

2017-11-17 08:27:21

2014-08-12 10:52:16

大數據

2010-11-17 13:23:12

2011-05-18 09:56:15

2022-03-01 10:25:20

算法大數據殺熟

2014-08-12 10:41:50

大數據

2020-09-23 16:48:36

人臉識別技術交通

2012-03-19 09:54:39

工信部互聯網移動互聯網

2015-04-30 09:35:31

程序員心態飲食
點贊
收藏

51CTO技術棧公眾號

91精品国产入口| 奇米精品一区二区三区在线观看| 欧美一级片免费看| 少妇高潮大叫好爽喷水| 殴美一级特黄aaaaaa| 久久一二三区| 久久99精品视频一区97| 中文视频在线观看| 国产69精品久久| 尤物av一区二区| 蜜桃成人在线| 国产xxxx孕妇| 久久国产66| 久久成人精品电影| 精品人妻少妇嫩草av无码| 99亚洲男女激情在线观看| 天天综合网 天天综合色| 亚洲mv在线看| 色综合免费视频| 麻豆成人av在线| 性欧美视频videos6一9| 国产黄色小视频网站| 爽爽窝窝午夜精品一区二区| 51久久夜色精品国产麻豆| 六月丁香激情网| 成人免费视屏| 亚洲国产精品高清| 久久99九九| www.精品久久| 久久99热99| 日本中文字幕久久看| 久久久精品视频在线| 国产最新精品| 日韩成人在线观看| 亚洲 自拍 另类 欧美 丝袜| 99riav视频一区二区| 精品成人国产在线观看男人呻吟| 午夜啪啪免费视频| 久久99久久| 91免费看片在线观看| 91福利视频导航| 中文字幕一二区| 免费一区视频| 欧美另类第一页| 欧美日韩国产一二三区| 国产一区不卡| 精品一区二区亚洲| 精品人妻在线视频| 99精品国产高清一区二区麻豆| 欧美日韩久久久| 浓精h攵女乱爱av| 午夜无码国产理论在线| 欧美性色19p| 18岁网站在线观看| 成人福利电影| 亚洲国产成人av好男人在线观看| 国产免费内射又粗又爽密桃视频| 免费黄色在线观看| 中文字幕日韩欧美一区二区三区| 亚洲精品久久区二区三区蜜桃臀| 欧美人体大胆444www| xnxx国产精品| 欧美亚洲爱爱另类综合| 免费在线稳定资源站| 国产午夜精品在线观看| 日韩一区不卡| 1024视频在线| 亚洲视频免费看| 一级性生活视频| 欧美78videosex性欧美| 亚洲一区二区三区四区五区黄 | 亚洲丁香日韩| 亚洲精品天天看| 国产精品国产三级国产专业不 | 一级特黄妇女高潮| 91高清在线观看视频| 亚洲永久精品大片| 日韩a∨精品日韩在线观看| 亚洲色图官网| 欧美色视频在线观看| 亚洲综合在线一区二区| 中文字幕一区二区三区中文字幕| 亚洲国产免费av| brazzers精品成人一区| 97久久视频| 欧美高清videos高潮hd| 国产无遮挡呻吟娇喘视频| 日韩黄色片在线观看| 成人福利在线视频| 高清国产mv在线观看| 久久免费看少妇高潮| 一区二区高清视频| h片精品在线观看| 色成人在线视频| 午夜一级免费视频| 久久香蕉网站| 日韩一级黄色av| 日韩精品视频免费播放| 日韩高清一区二区| 97超碰人人模人人爽人人看| 三区在线观看| 亚洲免费在线视频| 人人妻人人添人人爽欧美一区| 日韩欧美一区二区三区免费观看 | 一区二区三区入口| 日韩在线视频一区二区三区| 亚洲精品综合精品自拍| 波多野结衣久久久久| 99热在线精品观看| 成人精品视频99在线观看免费| 天堂在线免费av| 1024精品合集| 五月婷婷激情综合网| 国产精品久久久久久久天堂第1集| 天天干天天做天天操| 国产精品美女久久久久久久| 久久久久久www| 日本午夜免费一区二区| 亚洲美女久久久| 久久久夜色精品| 九一久久久久久| 欧美日韩一区在线播放| 美女尤物在线视频| 欧美乱妇20p| 美女久久久久久久久久| 狠久久av成人天堂| 国产有码一区二区| 国产毛片av在线| 黑人巨大精品欧美一区二区一视频| 欧洲美女亚洲激情| 欧美肉体xxxx裸体137大胆| 97在线视频免费| 国产黄色片免费观看| 国产精品三级视频| www.涩涩涩| 欧美美女视频| 日本中文字幕成人| 欧美日韩激情视频一区二区三区| 午夜精品影院在线观看| 亚洲精品久久久久久| 天天综合亚洲| 国产精品日韩欧美| 成年网站在线| 欧美午夜精品免费| 国产在线观看h| 奶水喷射视频一区| 久久精品国产第一区二区三区最新章节| 日韩另类在线| 欧美一级xxx| 天天天天天天天天操| 六月丁香婷婷久久| 亚洲欧美成人一区| 国产一区一一区高清不卡| 亚洲免费伊人电影在线观看av| 日韩欧美一区二区一幕| www..com久久爱| 少妇人妻在线视频| 日韩美女毛片| 日本高清不卡的在线| 精品999视频| 91成人在线精品| 亚洲精品成人无码| 日韩电影在线一区二区| 亚洲成人网上| 国产一区影院| 免费97视频在线精品国自产拍| 国产露脸国语对白在线| 亚洲男人的天堂一区二区| 麻豆tv在线观看| 激情久久五月| 蜜桃91精品入口| 亚洲wwww| 久久人人爽人人爽爽久久| av手机免费看| 激情av一区二区| 欧美深性狂猛ⅹxxx深喉| 免费视频一区二区三区在线观看| 日韩精品欧美专区| 精品人妻少妇嫩草av无码专区| 日韩不卡一区| 亚洲资源在线看| 嗯~啊~轻一点视频日本在线观看| 日韩电影中文字幕一区| 国产午夜无码视频在线观看 | 午夜在线视频一区二区区别| 青青成人在线| 亚洲影视资源| 国精产品一区一区三区有限在线| 精品一二三区视频| 欧美精品自拍偷拍| 久久久久亚洲av成人片| 久久精品人人爽人人爽| www.日本一区| 影音先锋一区| 夜夜爽99久久国产综合精品女不卡| 欧美视频二区欧美影视| 欧美孕妇孕交黑巨大网站| 麻豆视频在线观看免费| 日韩av在线网| 国产女同91疯狂高潮互磨| 午夜精品视频一区| 久久99久久99精品免费看小说| 不卡视频一二三四| 超碰在线公开97| 亚洲日本欧美| 亚洲日本一区二区三区在线不卡| 国产精品色呦| 成人免费激情视频| 成人性生交大片免费观看网站| 久久精品国产免费观看| 你懂的免费在线观看视频网站| 91精品国产综合久久小美女| 亚洲婷婷综合网| 一区二区久久久久久| 亚洲天堂岛国片| 成人国产视频在线观看| 手机在线国产视频| 久久久噜噜噜久久狠狠50岁| 欧美一级中文字幕| 日本久久精品| 日本不卡久久| 麻豆一区二区| 97av自拍| 欧美精品三级在线| 91九色国产社区在线观看| 日韩不卡免费高清视频| 91精品国产色综合久久不卡98口 | 亚洲午夜免费福利视频| 成年人免费视频播放| 久久综合久久鬼色中文字| 亚洲精品第二页| 国产乱码精品一品二品| 可以看污的网站| 美女在线视频一区| 国产熟人av一二三区| 国产欧美高清| 成人在线观看你懂的| 午夜日韩在线| 强开小嫩苞一区二区三区网站| 成人精品影视| 日韩福利视频| jiujiure精品视频播放| 欧美一区二区在线视频观看| 综合亚洲色图| 欧美精品久久久| 婷婷精品在线| 欧美精彩一区二区三区| 国产精品免费大片| 热re99久久精品国99热蜜月| 国产一区日韩| 日韩三级电影免费观看| 国产欧美一区二区三区精品观看| 欧美日韩国产不卡在线看| 久久成人高清| 奇米视频888战线精品播放| 久久av导航| 亚洲毛片aa| 亚洲精彩视频| 草草草视频在线观看| 国产精品99一区二区| 久久手机在线视频| 亚洲国内精品| 动漫av网站免费观看| 亚洲在线网站| 狠狠热免费视频| 久久99精品久久久久久久久久久久| 97人人爽人人| 国产99久久久国产精品潘金| 四虎精品一区二区| 久久女同精品一区二区| 国产jizz18女人高潮| 最新久久zyz资源站| 国产一级久久久| 欧美午夜久久久| 中文字幕永久在线观看| 欧美精品乱人伦久久久久久| 亚洲第一成人av| 亚洲欧美国产一区二区三区| 在线免费看av| 欧美激情在线一区| 625成人欧美午夜电影| 国产精品美女免费视频| 久久丁香四色| 免费在线国产精品| 国产精品7m凸凹视频分类| www.18av.com| 天堂va蜜桃一区二区三区| 国产原创精品在线| 懂色av中文一区二区三区| 蜜桃精品一区二区| 中文字幕一区二区三区在线不卡 | 亚洲视频一二| 国产福利视频在线播放| 国精产品一区一区三区mba桃花 | 亚洲欧美另类视频| 亚洲另类图片色| 超碰免费在线播放| 97免费中文视频在线观看| 色成人综合网| 久久久一本精品99久久精品| 久久久久免费av| 免费黄色福利视频| 国产一区二区福利| caopeng视频| 亚洲成人午夜影院| 一道本在线视频| 日韩精品在线影院| 主播国产精品| 国产精品久久久久久久久男| 99久久香蕉| 在线视频精品一区| 久久精品女人| 黄色性视频网站| 中文字幕制服丝袜成人av | 国产欧美一区二区三区国产幕精品| 国产小视频精品| www成人在线观看| 免费一级a毛片夜夜看| 欧美视频一区二区三区在线观看| 天堂在线观看视频| 久久影视电视剧免费网站| 欧洲av一区二区| 久久精品欧美| 亚洲国产mv| 香蕉视频在线观看黄| 一区免费观看视频| 伊人久久久久久久久久久久| 亚洲精品国产精品自产a区红杏吧| 直接在线观看的三级网址| 国产日韩欧美影视| 美女呻吟一区| 亚洲熟妇无码一区二区三区| 国产乱国产乱300精品| 神马午夜精品91| 欧美剧在线免费观看网站 | 三级小说欧洲区亚洲区| a级片一区二区| 国产老女人精品毛片久久| 波多野结衣久久久久| 777午夜精品视频在线播放| 国产中文在线观看| 日本不卡高字幕在线2019| 免费福利视频一区| 3d动漫一区二区三区| 成人avav在线| 99精品视频99| 日韩经典一区二区三区| 丝袜诱惑一区二区| 精品国产一二| 羞羞视频在线观看欧美| www在线观看免费视频| 色综合久久天天综合网| 青青久在线视频| 国产精品xxxxx| 成人黄色av| 两性午夜免费视频| 亚洲蜜臀av乱码久久精品| hs视频在线观看| 欧美成人免费网| a级日韩大片| 精品久久久久久久久久中文字幕| www成人在线观看| 99成人精品视频| 日韩一中文字幕| 日韩成人在线观看视频| 中文字幕日韩精品无码内射| 成人黄色小视频在线观看| 一级免费在线观看| 国产一区二区三区在线观看视频| 不卡亚洲精品| 佐佐木明希av| 91视频.com| 中国黄色一级视频| 美女撒尿一区二区三区| 国产成人福利av| 37pao成人国产永久免费视频| 欧美国产一区二区在线观看| 91av国产精品| 国自产精品手机在线观看视频| 欧美美女在线观看| 亚洲va在线va天堂va偷拍| 亚洲夂夂婷婷色拍ww47 | 日韩最新中文字幕电影免费看| 国产成人久久精品一区二区三区| 日韩一级片免费视频| 久久影院午夜片一区| 一级特黄色大片| 性色av一区二区三区| 日韩成人免费| 男男做爰猛烈叫床爽爽小说| 欧美丝袜丝交足nylons图片| 欧美激情成人动漫| 欧洲一区二区在线| 国产成都精品91一区二区三| 中文字幕精品无码一区二区| 久久电影一区二区| 亚洲丝袜美腿一区| 亚洲av综合色区无码另类小说| 日本韩国一区二区三区视频| 97影院秋霞午夜在线观看|