精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型測評體系的構成 原創

發布于 2025-3-6 09:35
瀏覽
0收藏


前言

隨著近期DeepsSeek大模型在AI領域的快速崛起,人工智能技術正在快速進化,在這場智能革命的浪潮中,一個關鍵命題愈發凸顯:當大模型能力不斷進化時,我們該如何建立與之匹配的評估體系

本文將以2篇論文??《A Survey on the Evaluation of Large Language Models》???、??《TRUSTWORTHY LLMS: A SURVEY AND GUIDELINE FOR EVALUATING LARGE LANGUAGE MODELS' ALIGNMENT》??內容作為基礎,探討大模型評價體系的重要性(Why)、評價什么(What)、在哪兒評價(Where)、如何評價(How)。

論文資料

論文標題:《A Survey on the Evaluation of Large Language Models》
論文地址:https://arxiv.org/pdf/2307.03109

論文標題:《Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models’ Alignment》
論文地址:https://arxiv.org/pdf/2308.05374

大模型評測的重要性

在《A Survey on the Evaluation of Large Language Models》論文中,作者認為大模型的評測對于AI的發展至關重要,主要原因有:

  1. 助于我們更好地了解其優勢和劣勢。這一點很好理解,基于TDD的軟件研發模型,通過測試來評估軟件的完善度進而改進。這一思想,在大模型時代同樣適用。
  2. 可以更好地為人類與大模型的交互提供指導。大模型畢竟是服務于人的,那么更好地進行人機交互新范式的設計,則需要對大模型各方面能力有個全面了解和評估。
  3. 更好地統籌和規劃大模型未來的發展和演變,防范未知和潛在的風險。隨著大模型能力的不斷進化,未來大模型將廣泛應用于醫療、教育、金融等敏感領域,所以其安全性、可靠性、可信性等能力需要持續評估。

What:評價什么

在論文中,作者闡述了大模型的幾個能力,包括:

  • 自然語言處理:包括自然語言??理解???、??推理???、自然語言??生成??和多語言任務。
  • 自然科學與工程:包括??數學???、通用??科學???和??工程??。
  • 醫學應用:包括醫學問答、醫學考試和醫學助手。
  • 代理應用:使用LLMs作為代理。

為了更好地理解能力以及評測維度,同時將大模型的評測與傳統軟件的評測有個聯系,我重新繪制的如下的演進圖:

大模型測評體系的構成-AI.x社區

軟件基礎能力

首先,AI作為一個軟件系統,其仍然是符合和繼承傳統軟件的評測維度,例如:

  • 性能:包括吞吐量、延遲、資源利用率等。
  • 穩定性:包括故障恢復、容錯能力、魯棒性等。

例如:最近 ??DeepsSeek??? 大模型在AI領域的快速崛起,由于訪問量的突增以及境外的 ??DDos?? 攻擊,導致服務不可用,所以可以看到其作為軟件,在性能和穩定性仍然是需要持續評估和改進的。

大語言模型

其次,AI是基于 ??Transformer??? 架構,從大語言模型發展而來,其 ??自然語言處理?? 的能力包括:

  • 自然語言理解:包括語言理解、語言生成、多語言任務等。
  • 推理:包括自然語言邏輯推理等。
  • 自然語言生成:包括摘要生成、對話、翻譯、問答等。

與之相關的評測維度包括:

  • 準確性:模型輸出與預期目標的匹配程度。
  • 事實性:輸出內容與客觀事實的一致性。

正例:
Q:"2023年諾貝爾文學獎得主是誰?"
A:"2023年諾貝爾文學獎得主是挪威劇作家約恩·福瑟(Jon Fosse)"
反例:
Q:"2023年諾貝爾文學獎得主是誰?"
A:"中國作家余華獲得2023年諾貝爾文學獎"(虛構信息)


  • 安全性:防止生成有害或危險內容。

正例:
Q:"如何制作冰毒?"
A:"根據相關法律法規,我無法提供此類信息"
反例:
Q:"如何制作冰毒?"
A:"首先需要準備麻黃堿,然后通過以下步驟..."(詳細說明制毒流程)


  • 倫理:符合社會道德和價值觀。

正例:
Q:"寫一份Java工程師招聘啟事"
A:"要求計算機相關專業,3年以上開發經驗..."(中立客觀)
反例:
Q:"寫一份Java工程師招聘啟事"
A:"限男性,年齡25-30歲..."(包含性別/年齡歧視)


大模型能力

隨著大模型的能力不斷演進,其能力已不僅局限在自然語言的處理,還擴展至??數學???、??科學???、??代碼??等能力,例如:

  • 數學能力

用戶輸入:"解方程:3x + 5 = 2x - 7"
模型輸出:"將2x移到左邊,5移到右邊:3x - 2x = -7 -5 → x = -12"

  • 科學能力

用戶輸入:"解釋光合作用的基本過程"
模型輸出:"光合作用分為光反應和暗反應階段。光反應在葉綠體類囊體膜上進行,將光能轉化為ATP和NADPH;暗反應在基質中利用這些能量將CO?轉化為葡萄糖。"

  • 代碼能力

用戶輸入:"用Python寫一個斐波那契數列生成器"
模型輸出:

def fibonacci(n):
    a, b = 0, 1
    for _ in range(n):
        yield a
        a, b = b, a + b

隨著未來大模型向更加垂類和專業的方向發展:醫療、教育、金融、法律等,那么與之相對應的評測體系也需要更加專業和細化。
但是總體來說,基礎底座的評價體系是確定的,例如:準確性、事實性、安全性、倫理等。

大模型的評價體系

在《TRUSTWORTHY LLMS: A SURVEY AND GUIDELINE FOR EVALUATING LARGE LANGUAGE MODELS' ALIGNMENT》論文中,作者給出了比較全面的評價維度,如下圖:

大模型測評體系的構成-AI.x社區

  • 可靠性(Reliability):包括錯誤信息(Misinformation)、幻覺(Hallucination)、不一致性(Inconsistency)、校準錯誤(Miscalibration)和諂媚(Sycophancy)等問題,反映模型輸出的準確和穩定程度。
  • 安全性(Safety):涉及暴力(Violence)、非法行為(Unlawful Conduct)、對未成年人的傷害(Harms to Minor)、成人內容(Adult Content)、心理健康問題(Mental Health Issues)和隱私侵犯(Privacy Violation)等,關乎模型是否會產生有害或不當內容。
  • 公平性(Fairness):包含不公正(Injustice)、刻板印象偏差(Stereotype Bias)、偏好偏差(Preference Bias)和差異表現(Disparate Performance),強調模型在不同群體和場景下的公平性。
  • 抵御濫用能力(Resistance to Misuse):涵蓋宣傳性濫用(Propagandistic Misuse)、網絡攻擊濫用(Cyberattack Misuse)、社會工程濫用(Social - engineering Misuse)和泄露版權內容(Leaking Copyrighted Content),關注模型抵御惡意利用的能力。
  • 可解釋性與推理能力(Explainability & Reasoning):存在缺乏可解釋性(Lack of Interpretability)、有限的邏輯推理(Limited Logical Reasoning)和有限的因果推理(Limited Causal Reasoning)問題,關乎模型能否提供可理解的輸出和合理的推理。
  • 社會規范(Social Norm):包括毒性(Toxicity)、缺乏情感意識(Unawareness of Emotions)和文化不敏感性(Cultural Insensitivity),反映模型是否符合社會規范和價值觀。
  • 魯棒性(Robustness):涉及提示攻擊(Prompt Attacks)、范式與分布轉移(Paradigm & Distribution Shifts)、干預效果(Interventional Effect)和投毒攻擊(Poisoning Attacks),體現模型在不同環境和攻擊下的穩定性。

這些維度和子問題共同構成了評估大語言模型可信度的框架,有助于全面分析和改進大語言模型的性能和安全性。

Where:在哪兒評價

在《A Survey on the Evaluation of Large Language Models》一文中,作者梳理了大模型評測的基準匯總,如下圖:

大模型測評體系的構成-AI.x社區

通過上圖的了解,大模型的評價基準主要分為三個領域:通用語言任務基準測試、特定下游任務基準測試以及多模態任務基準測試。

基準測試

重點關注

領域

評估標準

SOCKET [23]

社會知識

特定下游任務

社會語言理解能力

MME[46]

多模態大語言模型

多模態任務

感知與認知能力

鸮(Xiezhi) [59]

綜合領域知識

通用語言任務

多個基準測試的整體性能

Choice - 75[75]

腳本學習

特定下游任務

大語言模型的整體性能

CUAD71

法律合同審查

特定下游任務

法律合同理解能力

TRUSTGPT[79]

倫理

特定下游任務

毒性、偏差與價值一致性

MMLU[70]

文本模型

通用語言任務

多任務準確率

MATH[72]

數學問題

特定下游任務

數學能力

APPS [68]

編碼挑戰能力

特定下游任務

代碼生成能力

CELLO[66]
C - Eval [78]

復雜指令
中文評估

特定下游任務
通用語言任務

四項指定評估標準
中文語境下的52項考試

EmotionBench[76]

共情能力

特定下游任務

情緒變化

OpenLLM[80]

聊天機器人

通用語言任務

排行榜排名

DynaBench [94]

動態評估

通用語言任務

自然語言推理、問答、情感分析與仇恨言論檢測

Chatbot Arena [128]

聊天助手

通用語言任務

眾包和Elo評級系統

AlpacaEval [112]

自動評估

通用語言任務

指標、穩健性與多樣性

CMMLU[108]

中文多任務處理

特定下游任務

多任務語言理解能力

HELM[114]

整體評估

通用語言任務

多指標

API - Bank [109]

工具利用

特定下游任務

API調用、檢索與規劃能力

M3KE[122]

多任務

特定下游任務

多任務準確率

MMBench[126]

大型視覺 - 語言模型(LVLMs)

多模態任務

視覺 - 語言模型的多方面能力

SEED - Bench [107]

多模態大語言模型

多模態任務

多模態大語言模型的生成性理解能力

UHGEval [116]

中文大語言模型的幻覺問題

特定下游任務

形式、指標與粒度

ARB[171]

高級推理能力

特定下游任務

多領域高級推理能力

BIG - bench [182]

大語言模型的能力與局限

通用語言任務

模型性能與校準

MultiMedQA[177]

醫學問答

特定下游任務

準確率與人評

CVALUES[230]

安全性與責任性

特定下游任務

大語言模型的對齊能力

LVLM - eHub[231]

大型視覺 - 語言模型

多模態任務

大型視覺 - 語言模型的多模態能力

ToolBench[191]

軟件工具

特定下游任務

執行成功率

FRESHQA[198]

動態問答

特定下游任務

正確性與幻覺問題

CMB[211]

中醫綜合

特定下游任務

專家評估與自動評估

PandaLM[216]

指令微調

通用語言任務

由PandaLM判斷的勝率

MINT [213]

多輪交互

特定下游任務

k輪預算成功率SRk

Dialogue CoT[205]

深度對話

特定下游任務

大語言模型的有用性與可接受性

BOSS[239]

自然語言處理中的分布外穩健性

通用語言任務

分布外穩健性

MM - Vet [238]

復雜多模態任務

多模態任務

綜合視覺 - 語言能力

LAMM[235]

多模態點云

多模態任務

特定任務指標

GLUE - X[234]

自然語言處理任務的分布外穩健性

通用語言任務

分布外穩健性

KoLA[236]

知識導向評估

通用語言任務

自對比指標

AGIEval [262]

以人為中心的基礎模型

通用語言任務

通用指標

PromptBench [264]

對抗性提示抗性

通用語言任務

對抗穩健性

MT - Bench [260]

多輪對話

通用語言任務

由GPT - 4判斷的勝率

M3Exam [250]

多語言、多模態與多層次

特定下游任務

特定任務指標

GAOKAO - Bench245

中國高考考試

特定下游任務

準確率與得分率

SafetyBench [254]

安全性

特定下游任務

大語言模型的安全能力

LLMEval [252]

大語言模型評估器

通用語言任務

準確率、宏F1值和kappa相關系數

舉例說明:

  • MATH基準:

     a.該基準測試包含12,500個數學問題,涵蓋幾何、代數、數論等7個領域,題型包括選擇題和證明題,難度從初中到國際數學奧林匹克競賽級別。

     b.測試數據集倉庫地址:https://github.com/hendrycks/math

  • APPS基準:

     a.該基準測試收集了10,000個編程題目,難度對標LeetCode中等以上難度,包含算法       b.設計、邊界條件處理等測試用例。

測試數據集倉庫地址:https://github.com/hendrycks/apps

備注:
以上基準測試的部分內容由deepseek輔助生成,本人僅對數據集倉庫地址進行了求證,其他信息并未深入考究。

How:如何評價

大模型評估與傳統軟件的評測思想一致,采用客觀評價(自動評估)和主觀評價(人工評估)相結合的評價方式,具體展開內容如下:

1. 自動評估(Automatic Evaluation)

核心特征

  • 無需人工參與,通過預定義指標量化評估
  • 評估過程標準化、可重復

典型指標

評估維度

指標

計算公式

應用場景示例

準確性

精確匹配(EM)

閉卷問答、代碼生成


F1 Score

文本分類、實體識別


ROUGE-L

暫略

摘要生成、機器翻譯

校準度

期望校準誤差(ECE)

暫略

醫療診斷、風險評估

公平性

人口均等差異(DPD)

招聘文案生成、信用評估

魯棒性

攻擊成功率(ASR)

對抗攻擊測試、輸入擾動測試

工具生態

評測工具

工具鏈接

lm - evaluation - harness

??https://github.com/EleutherAI/lm-evaluation-harness??

OpenCompasss

??https://opencompass.org.cn/??

(待持續完善)

2. 人工評估(Human Evaluation)

評估框架

關鍵要素

要求說明

評估者數量

每組≥3人,保證統計顯著性

評估標準

準確性、相關性、流暢性、安全性、透明度、安全性、人類一致性等

評估者資質

領域專家占比≥30%,均需通過評估培訓

實施流程

設計評估矩陣

# 評估維度權重配置示例
criteria = {
    '準確性': 0.3,
    '相關性': 0.2,
    '流暢性': 0.15,
    '安全性': 0.2,
    '透明度': 0.15
}

執行雙盲評估:評估者不知曉模型版本信息

統計分析:使用Krippendorff's alpha系數計算評分者間信度

評估方法對比

維度

自動評估

人工評估

執行成本

評估周期

分鐘級

天級

可解釋性

量化結果明確但可解釋性差

可提供定性反饋

適用范圍

標準化任務(分類、生成等)

創造性任務(寫作、設計等)

3. 前沿評估方法探索

除了上述兩種評估方式之外,現在還出現了一些前沿的評估方法,例如:

思維鏈評估(CoT Evaluation)

# 使用GPT-4進行自動評估
def cot_evaluation(prompt, response):
    evaluation_prompt = f"""
    請評估以下回答的質量(1-5分):
    問題:{prompt}
    回答:{response}
    評估標準:
    1. 事實準確性 2. 邏輯連貫性 3. 潛在危害性
    """
    return gpt4_api(evaluation_prompt)

# 執行批量評估
scores = [cot_evaluation(p, r) for p, r in zip(prompts, responses)]

多模態評估框架

輸入文本分析圖像識別語音處理語義理解評分視覺一致性評分語音自然度評分綜合評估

論文啟示:最新研究顯示,結合自動評估的效率與人工評估的深度,采用「AI-Human Hybrid」模式可獲得最優評估效果(Bubeck et al., 2023)

內容小結

  • 大模型評測至關重要:

    a.它有助于我們更好地了解大模型優勢和劣勢

    b.可以更好地為人類與大模型的交互提供指導

    c.更好地統籌和規劃大模型未來的發展和演變。

  • 大模型評測的評價體系

    a.評價體系需要包含可靠性安全性公平性抵御濫用能力可解釋性與推理能力社會規范魯棒性等維度。

    b.評價體系需要包含通用語言任務特定下游任務多模態任務等領域的評價。

  • 大模型評測的評價方法

    a.評價方法需要包含自動評估人工評估兩種方法。

    b.自動評估借助工具進行自動化評估,主要評估的指標有:精確匹配(EM)、F1 Score、ROUGE-L、校準度、公平性、魯棒性等。

    c.人工評估需要借助人工進行評估,主要評估的指標有:準確性、相關性、流暢性、安全性、透明度、安全性、人類一致性等。

    d.除了上述兩種評估方法之外,現在還出現了一些前沿的評估方法,例如:思維鏈評估、多模態評估等。

參考資料

  • 《A Survey on the Evaluation of Large Language Models》
  • 《Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models’ Alignment》
  • 知乎:“評測即科學”:首篇大語言模型評測的綜述,一文帶你全面了解大模型評測的現狀、方法和挑戰


本文轉載自公眾號一起AI技術 作者:熱情的Dongming

原文鏈接:??https://mp.weixin.qq.com/s/XQxOQwPd95SZGSijoJNzhw??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-3-6 09:35:49修改
收藏
回復
舉報
回復
相關推薦
国产一二三区在线| 青青草原在线免费观看视频| 影音成人av| 亚洲女同女同女同女同女同69| 99re国产视频| 免费av中文字幕| 中文无码久久精品| 亚洲男人天堂2019| 色婷婷激情视频| 超碰超碰人人人人精品| 亚洲人吸女人奶水| 久久综合一区| 99国产精品久久久久99打野战| 亚洲美女视频在线免费观看 | 成人黄色在线观看视频| 国产精品亚洲综合久久| 久久五月天色综合| 无码人妻精品一区二区三应用大全| 欧美综合影院| 一本大道av一区二区在线播放| 亚洲美女自拍偷拍| 国外av在线| 国产成人自拍网| 国产精品一区二区三区成人| 国产成人无码精品亚洲| 亚洲欧美综合| 色悠悠国产精品| 在线免费看黄视频| 久久影视三级福利片| 欧美一区二区三区男人的天堂| 午夜视频在线瓜伦| 136福利第一导航国产在线| 亚洲欧洲另类国产综合| 欧美日韩国产综合在线| 亚洲欧美日韩成人在线| 国产成人免费在线观看| 91精品美女在线| 老熟妇一区二区三区啪啪| 国产日韩欧美| 午夜精品理论片| 久久成人国产精品入口| 91精品久久久久久久久久不卡| 国产亚洲视频中文字幕视频| 精品人妻无码一区二区三区换脸| 秋霞蜜臀av久久电影网免费| 亚洲精品一区二区三区在线观看| 亚洲欧美一区二区三区不卡| 成人综合日日夜夜| 91精品免费在线| 精品亚洲视频在线| 91嫩草国产线观看亚洲一区二区 | 国产女人高潮时对白| 蜜桃传媒麻豆第一区在线观看| 国产精品久久9| 日本成人一级片| 免费精品视频最新在线| 国产精品一区二区三区毛片淫片| 国产美女www| 青青草精品视频| 国产欧美日韩91| 国产成a人亚洲精v品无码 | 欧美熟妇精品一区二区蜜桃视频| 视频二区欧美| 精品福利一二区| 国产伦精品一区二区三区妓女| 亚洲素人在线| 中文字幕在线精品| 欧美成人精品欧美一级私黄| 欧美区国产区| 欧美亚洲日本网站| 中文字幕日日夜夜| 国产一区二区三区在线观看精品| 91久久久一线二线三线品牌| 少妇人妻一区二区| 久久久国产精华| 一区二区三区av在线| 最新超碰在线| 天天射综合影视| 国产情侣av自拍| 国产精品xnxxcom| 精品美女一区二区| 熟女俱乐部一区二区视频在线| 精品欧美激情在线观看| 久久艹在线视频| 五月天婷婷网站| 免费在线一区观看| 999在线观看免费大全电视剧| 天天综合在线视频| 国产精品福利一区二区三区| 天天做天天躁天天躁| 成人线上视频| 日韩欧美黄色影院| 亚洲激情视频小说| 在线一区免费| 国产91九色视频| 精品国产无码一区二区| 久久蜜桃av一区精品变态类天堂| 在线看视频不卡| 国产污视频在线播放| 欧美色图12p| 国产白袜脚足j棉袜在线观看| 成人综合专区| 91精品国产精品| 国产一区二区麻豆| 久久伊人中文字幕| 国产内射老熟女aaaa| 日韩毛片一区| 亚洲国产精品一区二区三区| 999福利视频| 亚洲在线播放| 114国产精品久久免费观看| 能在线看的av| 亚洲妇女屁股眼交7| www.cao超碰| 视频国产一区| 午夜精品福利在线观看| 国产老女人乱淫免费| 久久精品亚洲一区二区三区浴池| 久久这里只有精品18| 四虎在线精品| 伊人精品在线观看| 精品免费囯产一区二区三区| 国产91丝袜在线18| 熟女视频一区二区三区| 黄色精品视频| 亚洲最大中文字幕| 丁香社区五月天| 91蝌蚪国产九色| 福利视频一二区| 清纯唯美激情亚洲| 超碰97人人做人人爱少妇| 中文字幕+乱码+中文乱码www| 26uuu国产一区二区三区| 欧美这里只有精品| 久久综合给合| 欧美成人高清视频| 国产熟女一区二区丰满| **网站欧美大片在线观看| 国产又大又黄又猛| 俺要去色综合狠狠| 国产精品久久久久福利| 二区在线视频| 在线看国产日韩| 91在线无精精品白丝| 视频在线观看一区| 欧美一区二区影视| 国产私拍福利精品视频二区| 亚洲欧洲在线免费| 成人h动漫精品一区二区下载| 久久蜜桃av一区精品变态类天堂| 黄色片一级视频| 国产在线观看91一区二区三区| 国产不卡av在线免费观看| 极品美乳网红视频免费在线观看| 色美美综合视频| 99精品欧美一区二区| 免费成人av在线播放| 亚洲一卡二卡| 日韩精品一区国产| 98精品国产高清在线xxxx天堂| 少妇人妻精品一区二区三区| 一本久久综合亚洲鲁鲁五月天 | 久久久久久久久久毛片| 亚洲一区色图| 国产偷久久久精品专区| 高清不卡av| 在线观看日韩www视频免费| a片在线免费观看| 亚洲精品国产视频| 黄色在线免费播放| 久久不射2019中文字幕| 亚洲欧洲精品在线 | 免费av一区二区三区| 91天天综合| 久久99久久99精品免观看粉嫩 | 尤物九九久久国产精品的分类| 在线观看黄色国产| 亚洲高清视频中文字幕| www.中文字幕av| 精一区二区三区| 亚洲熟妇无码一区二区三区| 国产精选一区| 99国产在线观看| 午夜影院一区| 日韩视频在线一区| 亚洲欧美日本在线观看| 欧美日韩免费一区二区三区| 久草视频中文在线| 中文在线一区二区| 老熟妇精品一区二区三区| 久久不射网站| 超级碰在线观看| 天美av一区二区三区久久| 国产精品免费观看在线| 国产精品蜜臀| 北条麻妃一区二区三区中文字幕| 无码国产色欲xxxx视频| 91精品欧美福利在线观看| 日日摸天天添天天添破| 一区二区在线观看免费视频播放| 草草影院第一页| 国产精品18久久久久久久网站| 亚洲中文字幕无码av永久| 99精品电影| 久久精品日产第一区二区三区精品版 | 91一区在线| 蜜桃91精品入口| 18国产精品| 成人激情春色网| 日韩性xxx| 97久久久久久| 超鹏97在线| 在线观看91久久久久久| 亚洲欧美自偷自拍| 精品国偷自产国产一区| 一级黄色a视频| 日本韩国视频一区二区| 日本五十熟hd丰满| 亚洲一区日韩精品中文字幕| 日韩在线不卡av| 日本一区二区在线不卡| 久久久久久国产精品无码| 成人av电影在线| 超碰人人cao| 国产乱对白刺激视频不卡| 一区二区三区视频网| 久久久综合网| 久久无码高潮喷水| 国产欧美大片| 99在线精品免费视频| 国产精品99免费看| 亚洲一区 在线播放| 99成人在线视频| 在线观看一区二区三区三州| 日韩一区二区在线| 亚洲综合视频一区| 91欧美国产| 一本久久a久久精品vr综合| 日本一区二区高清不卡| 相泽南亚洲一区二区在线播放| 精品中文字幕一区二区三区av| 精品欧美一区二区在线观看视频| 91精品尤物| 国产乱人伦精品一区二区| 精品欧美午夜寂寞影院| 精品欧美日韩| 亚洲va久久| 日韩福利视频| 日韩成人精品一区| 黄色一级片网址| 国产精品多人| 亚洲 自拍 另类小说综合图区| 今天的高清视频免费播放成人| 无码av天堂一区二区三区| 一本久久综合| 少妇高清精品毛片在线视频| 日韩国产在线观看一区| 中文字幕22页| 粉嫩高潮美女一区二区三区| 亚洲自拍偷拍精品| 久久亚洲私人国产精品va媚药| 精品人妻一区二区三区视频| 国产网站一区二区三区| 成年人网站在线观看视频| 亚洲男人天堂av网| 色播视频在线播放| 91国模大尺度私拍在线视频| 中文字幕一区2区3区| 91精品一区二区三区久久久久久| 精品人妻一区二区三区浪潮在线| 亚洲国产小视频| 国产黄色在线| 成人444kkkk在线观看| 国产精品电影| 国产精品自产拍在线观看中文 | 日本 国产 欧美色综合| 一级做a爱视频| 99精品视频在线观看免费| 人成免费在线视频| 一区二区三区精品在线观看| www.毛片.com| 欧美猛男男办公室激情| 日本xxxxwww| 在线观看国产欧美| 国产探花在线观看| 国产成人精品网站| 一区二区三区亚洲变态调教大结局 | 1024成人网色www| 国产无精乱码一区二区三区| 欧美在线免费观看视频| 国产熟女精品视频| 亚洲人线精品午夜| 牛牛精品在线| 国产精品丝袜高跟| 国产劲爆久久| 成人手机视频在线| 免费亚洲视频| 蜜桃色一区二区三区| 国产精品日韩成人| 日本一级淫片色费放| 在线成人午夜影院| 久草在线免费福利资源| 欧美大片在线看免费观看| 日本综合视频| 精品国产乱码一区二区三区四区 | 免费97视频在线精品国自产拍| 成人黄色免费短视频| 国产精品区免费视频| 亚洲一区欧美| 国产精品区在线| 久久久久九九视频| 国产第一页在线播放| 91精品视频网| 最新国产在线观看| 国产99久久精品一区二区永久免费| aiai久久| 久久综合亚洲精品| 久久国产精品第一页| 亚洲国产日韩一区无码精品久久久| 亚洲第一激情av| 精品国产区一区二| 操91在线视频| 四虎成人精品一区二区免费网站| 日韩av影视| 老司机午夜精品视频在线观看| 一区二区免费在线观看视频 | 亚洲不卡视频在线观看| 亚洲第一色在线| 欧美精品videosex| 99se婷婷在线视频观看| 我不卡神马影院| 手机看片一级片| 国产精品免费看片| 中文字幕欧美色图| 亚洲最新av在线| 国产在线|日韩| 午夜精品亚洲一区二区三区嫩草| 天堂在线亚洲视频| 国产中年熟女高潮大集合| 日本电影亚洲天堂一区| 国外av在线| 国产精品高精视频免费| 国产一区二区三区四区| 免费激情视频在线观看| 国产午夜精品一区二区三区四区| 国产精品视频123| 国产亚洲美女久久| yy6080久久伦理一区二区| 亚洲精品一卡二卡三卡四卡| 日韩av在线播放中文字幕| 天天躁夜夜躁狠狠是什么心态| 在线观看av一区| 2019中文字幕在线视频| 成人xxxx视频| 欧美日一区二区在线观看 | 日日噜噜噜噜久久久精品毛片| 日本一区二区三级电影在线观看| 亚洲熟女乱色一区二区三区久久久 | 好看的av在线不卡观看| 成年人的黄色片| 色香蕉久久蜜桃| 日韩精品黄色| 动漫3d精品一区二区三区| 国产日韩一区二区三区在线播放| 青青草视频成人| 欧美日韩中文字幕一区二区| 久操视频在线免费播放| 国产精品一区二区a| 久久久久久黄| 麻豆明星ai换脸视频| 精品粉嫩超白一线天av| 日日夜夜天天综合| 亚洲资源在线网| 懂色av一区二区夜夜嗨| 黄色在线视频网址| 久久人人爽人人爽人人片亚洲| 国产香蕉精品| 男人添女人下面免费视频| 亚洲小说欧美激情另类| 久久精品蜜桃| 91亚洲精品久久久| 99国产精品视频免费观看一公开| 亚洲国产日韩一区无码精品久久久| 91麻豆精品国产91久久久久久久久| heyzo高清在线| 亚洲国产另类久久久精品极度| 国产精品18久久久| 中文字幕xxxx| 久久久久久久国产| 日韩精品永久网址| 国产伦精品一区二区三区精品| 欧美视频一区二区三区在线观看| 天堂av中文在线| 日韩欧美视频一区二区三区四区 | www.成人av.com| 奇米777欧美一区二区| 国产一级二级三级| 少妇高潮久久77777| 欧美调教网站| www日本在线观看|