精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

OpenAI 論文:為什么 AI 寧可胡說也不說“我不知道”?

人工智能
幻覺并非神秘故障,而是統計學習下的必然錯誤。本文揭示:語言模型的“胡說”,源于密度估計目標與二元評測體系的雙重驅動。理解此根源,方能構建真正可信的AI。

大家好,我是肆〇柒。看到一篇來自OpenAI和Georgia Tech的聯合研究——《Why Language Models Hallucinate》。這篇論文沒有停留在現象描述,而是用統計學習理論揭開了“幻覺”的底牌:它是一場由預訓練目標與后訓練評測共同導演的“理性悲劇”。接下來,讓我們一起看看這份研究說了啥。

雖然大語言模型技術飛速發展,但一個令人尷尬的現象始終如影隨形:即使是最先進的模型,也時常會自信滿滿地編造出看似合理實則錯誤的信息。這種被業界稱為"幻覺"的現象,已成為阻礙大語言模型在關鍵領域應用的主要障礙。

當被問及"亞當·陶曼·卡萊的生日是什么?"時,即使是頂尖開源模型DeepSeek-V3也連續三次給出了錯誤答案:"03-07"、"15-06"和"01-01",而正確答案實際在秋季。更令人深思的是,模型被明確要求"如果知道,只需回答DD-MM格式",卻依然選擇編造答案而非承認無知。

字母計數、拼寫檢查與生日事實的IIV分類難度示意圖

上圖揭示了語言模型錯誤的三種本質來源:

  • 頂部(拼寫錯誤):這類錯誤有明確模式(如"Greatings" vs "Greetings"),模型通過預訓練已能精準識別,錯誤率極低。
  • 中部(字母計數):這類錯誤源于模型的"能力缺陷"。盡管"How many Ds are in DEEPSEEK?"是一個基于提示本身的確定性問題,但模型仍可能因內部表示(如tokenization為D/EEP/SEE/K)而誤判。
  • 底部(生日事實):這才是幻覺的核心。當事實本身在數據中沒有規律可循(如某人的生日僅出現一次),任何看似合理的答案都只是統計上的"猜測"。

這三類錯誤,恰好對應了論文提出的統一分析框架——"Is-It-Valid "二分類問題。接下來,我們將展示,正是這個看似簡單的分類任務,決定了生成式幻覺的統計命運。

幻覺的根源:從生成到分類的歸約視角

想象你是一個正在學習人類語言的學生。你的任務不是回答問題,而是學會判斷一句話是否"聽起來像人話"。

現在,有人給你一堆句子,一半是真實的對話(如"你好!"、"今天天氣不錯。"),另一半是隨機拼湊的錯誤(如"Greatings."、"How kan eye help?")。你的目標是學會區分它們——這就是一個標準的二分類問題

但語言模型的任務是生成,不是分類。這兩者有何關系?

論文給出了一個洞察:每一次生成,都是無數次隱式的分類決策。當你生成"Adam Tauman Kalai's birthday is 03-07"時,你其實是在對成千上萬個可能的日期字符串進行概率排序,并最終選擇了那個你覺得"最像有效輸出"的。

研究者構造了一個名為"Is-It-Valid "的監督學習問題,其訓練集由50%的真實響應和50%的均勻錯誤構成。關鍵在于,任何語言模型都可以被直接用作這個IIV分類器:只需設定一個閾值——當模型對某個字符串的預測概率高于1/|E|(即隨機錯誤的基準概率)時,就判定為"有效"。

這一"歸約"(reduction)的威力在于,它將玄妙的"生成幻覺"問題,轉化為了可量化的"分類錯誤率"問題。由此,論文推導出核心不等式:

這個公式告訴我們,即使訓練數據完美無瑕,只要IIV分類器無法做到完美(erriiv > 0),生成錯誤就不可避免。更值得注意的是,該關系適用于任意提示-響應結構,揭示了生成錯誤的統計必然性。

特別值得關注的是"校準性"概念。論文對校準性的數學刻畫非常巧妙。它定義δ為模型分布與真實分布在特定集合A上的概率偏差,其中集合A定義為所有滿足模型概率(x) > 1/|E|的樣本。關鍵洞見在于,這個偏差δ恰好等于交叉熵損失關于一個縮放參數s的導數在s=1處的絕對值。

考慮對模型概率進行如下縮放:對于所有x ∈ A,將其概率乘以s,然后對整個分布進行歸一化,得到新分布:

通過簡單的微積分可以證明:

這一等式揭示了校準性與優化目標的深刻聯系:如果δ ≠ 0,意味著我們可以通過調整s來降低損失,說明當前模型并未達到局部最優。因此,在標準的交叉熵目標下,經過充分訓練的模型,其δ值必然趨近于零,即模型是良好校準的。這解釋了下圖中預訓練模型為何呈現完美的對角線——這不是偶然,而是目標函數的必然結果。

GPT-4校準直方圖在強化學習前后的變化

上圖的對比極具說服力:預訓練模型的預測置信度與實際準確率高度吻合,呈現完美的對角線;而經過強化學習后訓練的模型則出現了明顯的過自信偏差。這印證了論文的核心觀點:后訓練階段的優化目標與預訓練的校準目標發生了錯位。

這一發現揭示了幻覺產生的核心機制:正因為要"忠于語言分布",模型必須在所有看似合理的字符串上分配概率,包括那些低概率但看似合理的錯誤陳述,否則就是未校準的。交叉熵目標與校準性是一枚硬幣的兩面——追求校準性的同時,也必然導致某些錯誤生成。

在"任意事實"這類典型場景中,論文進一步證明了幻覺率的下界等于"單例率"——訓練數據中僅出現一次的事實比例。相關定理表明:若20%的生日事實在預訓練數據中僅出現一次,則基礎模型對這些事實的幻覺率至少為20%。

該定理的證明靈感直接來源于阿蘭·圖靈提出的"古德-圖靈估計量"。在統計學中,當我們從一個未知分布中抽取樣本時,如何估計那些"從未在樣本中出現過"的事件的總概率?圖靈的天才解答是:用樣本中只出現過一次的事件的比例來估計。直覺上,單例就像是"即將消失"的事件,它們的數量可以很好地指示還有多少新事件等待被發現。

論文將這一思想完美嫁接到語言模型上。在"任意事實"場景中,一個在訓練數據中只出現過一次的事實(單例),就如同一個"稀有事件"。模型在面對一個從未見過的查詢時,其最優策略就是從訓練數據中見過的、格式相同的事實中隨機抽取一個作為答案。因此,模型的幻覺率下界,就等于訓練數據中這類"單例事實"的比例。如果20%的人名-生日對在數據中僅出現一次,那么模型對這類查詢的幻覺率至少為20%。這一結論不僅深刻,而且極具操作性,為評估模型的知識邊界提供了量化工具。

這一理論結果與實際觀察高度吻合。在Adam Tauman Kalai的案例中,模型對他的生日、博士論文題目等冷門事實給出了各種錯誤答案(表1),這正是因為這些事實在訓練數據中很可能只出現過一次或極少次數。

主流語言模型對亞當·卡萊論文題目的錯誤回答

上表展示了這一問題的典型表現:GPT-4o聲稱其博士論文題為《Boosting, Online Algorithms, and Other Topics in Machine Learning》,完成于2002年;DeepSeek則稱其為《Algebraic Methods in Interactive Machine Learning》,完成于2005年;而Llama給出的答案是《Efficient Algorithms for Learning and Playing Games》,完成于2007年。無一正確。

此外,論文還分析了"Poor Models"(模型能力不足)導致的錯誤。以字母計數為例,當被問及"DEEPSEEK中有幾個D?"時,DeepSeek-V3在十次嘗試中給出了"2"或"3"的錯誤答案,而Meta AI和Claude 3.7 Sonnet表現也類似,甚至給出了"6"和"7"這樣離譜的答案。

這種錯誤與模型的內部表示方式密切相關。現代語言模型將提示表示為token(如D/EEP/SEE/K),而非單個字符,這使得簡單的字母計數任務變得困難。相比之下,DeepSeek-R1推理模型通過生成377步的思維鏈("D-E-E-P-S-E-E-K. First letter: D — that's one D...")能夠正確計數。這表明,當模型具備推理能力時,這類"Poor Models"導致的錯誤可以顯著減少。

幻覺的固化:后訓練階段的"評估霸權"

預訓練階段奠定了幻覺的統計基礎,但為何這些幻覺在后訓練階段依然難以消除?論文給出了一個令人深思的答案:主流評估基準的"二元評分"機制實際上獎勵模型"猜答案"而非"承認無知"。假設我們有一個完美的模型A:它知識淵博,但從不編造。當不確定時,它會誠實地說"我不知道"。

再假設另一個模型B:它的知識庫和A幾乎一樣,但它被訓練得"永不沉默"。每當遇到難題,它就會從記憶中挑一個最像正確的答案猜上去。

在真實世界的應用中,我們顯然更信任模型A。但在今天的AI排行榜上,模型B一定會贏。

為什么?因為從GPQA、MMLU-Pro到SWE-bench,幾乎所有主流評測都采用"二元評分":答對得1分,答錯或空白得0分。在這種規則下,猜對了賺1分,猜錯了虧0分,而說"我不知道"也虧0分。理性選擇永遠是"猜"。

主流語言模型評估基準對不確定性回答的處理方式

上表揭示了這一"評估霸權"的普遍性。讓我們詳細分析這張表格:

  • GPQA:采用多選題準確率評分,明確要求選擇一個答案,對"我不知道"響應不給予任何分數。
  • MMLU-Pro:同樣是多選題準確率評分,沒有為不確定性表達提供空間。
  • IFEval:通過程序化指令驗證評分,將多個二元評分子標準聚合為綜合分數,但所有子標準都要求模型提供具體響應。
  • Omni-MATH:采用等價性評分(檢查1.5是否等于3/2),但對"我不知道"響應不給予分數。
  • WildBench:雖然采用1-10分制,但其評分標準明確指出:"我不知道"類響應因"未能有意義地幫助用戶解決問題",通常只能獲得3-4分("Poor"),而包含事實錯誤但結構完整的"一般"響應卻能獲得5-6分("Fair")。
  • BBH:采用多選題/精確匹配評分,對"我不知道"響應不給予分數。
  • MATH (L5 split):采用等價性評分,同樣對"我不知道"響應不給予分數。
  • MuSR:多步軟推理評估,以準確率為核心指標。
  • SWE-bench:以單元測試通過率為核心指標,對"我不知道"響應不給予分數。
  • HLE:人類最后的考試,采用多選題/等價性評分,對"我不知道"響應不給予分數。

更值得注意的是,許多評測使用語言模型作為裁判來判斷答案的對錯。然而,裁判(Judger)模型自身也可能出錯,可能將一個精心編造的幻覺誤判為正確答案。這形成了一個潛在的惡性循環:模型被鼓勵去生成能"騙過"裁判模型的、看似合理的錯誤答案,而非追求事實本身。

論文通過一個簡潔而有力的觀察證明了這一現象的必然性:

:設c為一個提示。對于任何關于二元評分者的分布ρc,最優響應不是放棄作答,即:

這一觀察的證明極為簡潔:假設gc(r) = 0對所有r ∈ Ac成立,且每個二元評分者gc在Rc\Ac中至少有一個值使得gc(r) = 1。由于X被假定為有限的,必須存在某個r使得Prgc~ρc[gc(r) = 1] > 0。因此,所有r ∈ Ac在期望得分方面都是嚴格次優的。

這一數學事實揭示了一個殘酷的現實:在當前的評估體系下,模型的最佳策略永遠是猜測,而非誠實表達不確定性。這解釋了為何即使經過專門針對幻覺的后訓練(如RLHF、RLAIF、DPO等),模型仍然傾向于編造答案。

在主流評估中嵌入置信懲罰機制

面對這一困境,論文提出了一個簡潔而有力的解決方案:我們不需要發明新的幻覺評測,而是要修改現有的、已被廣泛采納的基準的評分規則。

研究者建議在每個問題的提示中添加顯式置信目標:

"只有在你置信度大于t時才作答,因為錯誤答案將被扣t/(1-t)分,而正確答案得1分,回答'我不知道'得0分。"

這一機制引入了對錯誤答案的顯式懲罰,自然閾值包括:t=0.5(懲罰1分)、t=0.75(懲罰2分)、t=0.9(懲罰9分)。當模型對答案的置信度低于閾值t時,最優策略是選擇"我不知道"而非冒險猜測。

在這種評分機制下,模型的最優策略是"行為校準"——只在自身置信度超過閾值t時才作答。不同于要求模型輸出精確的概率值(如"我有1/365的把握"),“行為校準"關注最終行為的實用性,避免了不自然的表述。

論文提出的"行為校準"是一個實用主義的解決方案。它不要求模型輸出精確的概率值,而是關注模型的最終行為:只在自身置信度超過閾值t時才作答。這是一種更高層次的、面向用戶價值的校準。

審計一個模型是否達到行為校準非常直接:通過設置一系列不同的置信閾值(如t=0.5, 0.75, 0.9),觀察模型在不同閾值下的準確率(Precision)和作答率(Recall)。一個行為校準的模型,其準確率應隨閾值t的升高而單調遞增,因為模型只在更有把握時才開口。通過繪制"準確率-作答率"曲線,可以直觀地評估模型的行為校準水平。這比要求模型輸出內部概率要自然得多,也避免了"有1/365把握說3月7日"這類不切實際的表述。

這一改進不僅能有效抑制幻覺,還能推動模型發展更實用的不確定性表達能力。通過比較不同閾值下的準確率和錯誤率,可以審計模型是否達到行為校準,為評估提供新維度。

值得注意的是,以下兩點關鍵創新:

1. 明確的置信閾值:與以往工作不同,論文建議在提示中明確說明置信閾值,而非隱含在評估中。這確保了模型和評估者對"什么算作合理猜測"有共同的理解。

2. 嵌入主流評估:論文主張將置信懲罰機制嵌入現有主流評估(如SWE-bench),而非創建新的邊緣評測。這是因為邊緣評測無法撼動主導榜單的激勵結構——"a small fraction of hallucination evaluations won't suffice"。

這一方法的可行性已得到初步驗證。引入"風險提示"(risk-informing prompts),通過顯式懲罰機制顯著改善了模型的行為校準性。研究表明,當模型明確知道錯誤答案將被懲罰時,它會自然地學會在不確定時保持沉默。

從統計理解到可信AI

語言模型的幻覺并非神秘現象,而是統計學習理論框架下可解釋、可量化的自然產物。其根源在于預訓練目標(密度估計)和后訓練評估體系(二元評分)的共同作用。理解這一本質,我們才能設計出更值得信賴的AI系統,而非簡單地將其人格化或污名化。

當然,這一框架也有其邊界與局限。它假設提示和響應可完全決定真假,未涵蓋語境歧義問題;未處理開放生成中的"部分幻覺";"正確/錯誤/我不知道"構成一種"虛假三元論",但比二元分類更貼近實用。此外,當評估本身依賴語言模型判斷時,可能錯誤地將幻覺評為正確,形成惡性循環。

更嚴峻的挑戰來自評估本身。當前許多評測依賴其他語言模型作為裁判來判斷答案的對錯。然而,裁判模型自身也可能出錯,可能將一個精心編造的幻覺誤判為正確答案。這形成了一個潛在的惡性循環:模型被鼓勵去生成能"騙過"裁判模型的、看似合理的錯誤答案,而非追求事實本身。

未來通過對主流基準引入顯式置信門檻,引導模型發展"行為校準"策略。在此統計基礎之上,結合檢索增強、交互驗證等手段,逐步逼近更穩健的知識表達機制。但關鍵挑戰在于這是一個"社會-技術"問題。

所以,幻覺不是模型"有意欺騙",而是統計學習壓力下的自然產物。當我們理解這一本質,便能超越簡單指責,轉而構建更符合實際需求的評估體系和訓練目標。在通往真正智能的道路上,承認"我不知道"的勇氣,或許比盲目自信的"全知全能"更為珍貴。理解幻覺的統計根源,不是為了給錯誤開脫,而是為了更有智慧地構建未來。當AI學會說"我不知道"時,或許才是它真正走向可信的第一步。

責任編輯:龐桂玉 來源: 覺察流
相關推薦

2021-07-14 11:25:12

CSSPosition定位

2025-02-13 11:02:12

2020-02-25 15:29:04

程序員35歲以后怎么辦

2020-09-07 06:59:44

Kafka分布式場景

2020-06-12 09:20:33

前端Blob字符串

2020-07-28 08:26:34

WebSocket瀏覽器

2020-04-13 13:56:07

AI 論文開源

2019-12-13 19:52:29

人工智能AI

2020-09-08 17:47:36

人工智能自然語言處理

2021-10-22 07:57:12

路由器網絡卡頓網絡建設

2024-11-06 08:32:02

JavaScriptTypeScript數據結構

2024-03-27 12:35:12

2020-12-21 09:00:04

MySQL緩存SQL

2009-12-10 09:37:43

2011-09-15 17:10:41

2021-02-01 23:23:39

FiddlerCharlesWeb

2022-10-13 11:48:37

Web共享機制操作系統

2010-08-23 09:56:09

Java性能監控

2021-10-22 09:41:26

橋接模式設計

2018-06-28 08:40:23

Raid機械硬盤
點贊
收藏

51CTO技術棧公眾號

亚洲欧美一区二区三区久久| 亚洲色图在线播放| 欧美一二三视频| 第一次破处视频| 欧洲精品99毛片免费高清观看| 亚洲综合一二区| 欧美日韩精品久久| 国产露脸国语对白在线| 国产视频一区三区| 色天天综合狠狠色| 先锋资源av在线| 欧美美女被草| 色偷偷久久人人79超碰人人澡| 在线视频一区观看| 成人网中文字幕| 精品国产视频在线观看| 欧美日韩夜夜| 欧美一级欧美一级在线播放| 欧美成人精品欧美一级乱| 韩国av网站在线| 久久久777精品电影网影网| 99热在线国产| 国产熟女一区二区三区四区| 日韩国产欧美一区二区三区| 97视频在线观看播放| 国产中文av在线| 国产一区二区三区四区五区传媒| 日韩色在线观看| 亚洲欧美日韩三级| 日本黄色一区| 在线亚洲人成电影网站色www| 日韩a级在线观看| 欧美私人网站| 黄色片网站在线观看| 国产精品日韩精品欧美精品| 成年无码av片在线| 免费黄色在线网址| 国内亚洲精品| 亚洲美女在线观看| 亚洲国产果冻传媒av在线观看| 天堂va在线高清一区| 欧美丰满美乳xxx高潮www| 天天操天天爱天天爽| 在线日韩影院| 一本大道久久精品懂色aⅴ| 老太脱裤子让老头玩xxxxx| 天堂8中文在线| 一区二区三区在线观看国产| 日韩国产精品毛片| 激情在线小视频| 国产精品久久久久一区二区三区共| 欧美另类网站| 黄色片视频在线观看| 黑人精品视频| 国产99久久精品| 成人免费视频网站| 二区三区在线视频| 成人国产在线观看| 精品欧美国产一区二区三区不卡| 日本精品999| 99国产精品久久久久久久久久| 精品乱色一区二区中文字幕| 日本a一级在线免费播放| 91麻豆蜜桃一区二区三区| 久久久精品有限公司| 巨骚激情综合| 国产精品伦理一区二区| 青青草原网站在线观看| 欧美黑人xx片| 丁香五六月婷婷久久激情| 超碰影院在线观看| 热久久久久久| 精品久久人人做人人爽| 成年人网站免费在线观看| 被黑人猛躁10次高潮视频| 国产福利电影在线播放| 天天色综合天天| 欧美精品成人网| avtt久久| 日韩成人在线视频| 国产真实乱人偷精品人妻| 色135综合网| 欧美国产精品日韩| 亚洲熟妇无码乱子av电影| 日本成人超碰在线观看| 91免费版黄色| 日本又骚又刺激的视频在线观看| 欧美激情在线一区二区| 日日噜噜夜夜狠狠久久丁香五月| 黄色污网站在线观看| 在线观看视频一区二区欧美日韩| 中文字幕一区二区在线观看视频| 国产亚洲成av人片在线观黄桃| 亚洲人成电影网站色xx| 精品无码久久久久成人漫画| 久久免费视频精品| 国产精品三级| 欧美黑人xxxx| 日韩精品在线一区二区三区| 国产精品18久久久久久久网站| 久久久一本精品99久久精品66| 尤物网址在线观看| 亚洲国产精品精华液网站| 国产一区二区在线免费播放| 成人爽a毛片| 久久精品中文字幕| 免费黄色小视频在线观看| 国产成人免费在线| 亚洲精品在线视频观看| 爱啪视频在线观看视频免费| 777a∨成人精品桃花网| 精品黑人一区二区三区观看时间| 亚洲国产一区二区三区在线播放| 国产999在线| 懂色av蜜臀av粉嫩av分享吧| 亚洲人成电影网站色mp4| 久久久久日韩精品久久久男男| 懂色av一区二区三区四区五区| 国产网站在线免费观看| 一本一道久久a久久精品| 国产精品偷伦视频免费观看了| 欧美日韩水蜜桃| 97香蕉超级碰碰久久免费软件| av一区二区三| 中文字幕中文乱码欧美一区二区| 国产原创popny丨九色 | 亚洲综合偷拍欧美一区色| www.日日操| 久久精品国产亚洲5555| 欧美乱人伦中文字幕在线| 在线播放一级片| 久久久99精品久久| www黄色在线| 天堂网av成人| 国产91精品久久久久| 老牛影视av牛牛影视av| 亚洲乱码一区二区三区在线观看| 国产成人精品综合久久久| 爱福利视频一区二区| 日韩精品一级毛片在线播放| 国产亚洲一级高清| 乱子伦一区二区三区| 国产日韩欧美麻豆| 黄色av免费在线播放| 精品毛片免费观看| 国产精品老牛影院在线观看| 成人在线观看黄色| 欧美三级日韩在线| 日日操免费视频| 极品销魂美女一区二区三区| 中文字幕综合在线观看| 亚洲ww精品| 久久国产精品久久精品| 精品黑人一区二区三区在线观看| 有码一区二区三区| 精品1卡二卡三卡四卡老狼| 亚洲狠狠婷婷| 美女被啪啪一区二区| 男人最爱成人网| 中文字幕在线视频日韩| 日本成人在线免费| 日韩一级在线视频| 国产综合色在线视频区| 影音先锋成人资源网站| 亚洲专区**| 欧美一级黄色网| 国产二区视频在线观看| 欧美日韩成人综合天天影院| 九九精品视频免费| 高清国产一区二区| 日本三级免费观看| 欧美成人激情| av色综合网| 在线天堂中文资源最新版| 在线播放国产一区中文字幕剧情欧美 | 色乱码一区二区三区88| 免费黄色激情视频| 国产成人午夜片在线观看高清观看| 亚洲不卡中文字幕无码| 欧美理论电影大全| 日韩精品不卡一区二区| 欧美日韩999| 欧美日韩在线精品一区二区三区激情综| 在线观看一区二区精品视频| 男女性高潮免费网站| 99视频一区二区| 人人干人人干人人| 国产精品分类| 四虎一区二区| 综合成人在线| 国产精品久久久久久久久久久久久久| 综合久久2019| 国产亚洲xxx| 亚洲国产精彩视频| 欧美图区在线视频| 日韩黄色a级片| 国产精品美女久久久久av爽李琼| 韩国三级视频在线观看| 免费久久精品视频| 18禁免费观看网站| 天天色综合色| 日本高清不卡一区二区三| 日韩三级不卡| 国产精品揄拍500视频| 亚洲一区视频在线播放| 国产精品99精品一区二区三区∴| 欧美疯狂xxxx大交乱88av| 国产福利电影在线| 精品国产乱码久久久久久蜜臀| 中文字幕一区二区三区四区视频| 天天爽夜夜爽夜夜爽精品视频 | 亚洲午夜久久久久久久久电影院 | 国产欧美精品日韩精品| 看黄在线观看| 久久久久久91香蕉国产| 欧美69xxxx| 国产一区二区三区在线视频| 天堂在线视频网站| 日韩片之四级片| 97在线视频人妻无码| 色婷婷一区二区| 天堂在线免费观看视频| 亚洲国产日韩a在线播放| 日韩影院一区二区| 亚洲啪啪综合av一区二区三区| 成年人在线免费看片| 91女神在线视频| 日韩欧美视频一区| 日韩免费一级片| 一区二区三区高清在线| 婷婷激情四射网| 国产精品久久久久永久免费观看| 亚洲精品国产一区黑色丝袜| 久久噜噜亚洲综合| 久久久久久久久久久国产精品| 成人av资源在线| 色哟哟视频在线| 高清成人免费视频| 中文写幕一区二区三区免费观成熟| 国产美女视频一区| 亚洲第一天堂久久| 国内一区二区视频| 亚洲欧美日韩网站| 国产精品自在在线| 午夜精品免费看| 国精产品一区一区三区mba桃花 | 国产丝袜欧美中文另类| 久久久久久久久久久久| 国产欧美一区二区三区网站| 无码人妻丰满熟妇啪啪欧美| 国产精品久久99| 日韩精品在线看片z| 国产免费av一区| 色先锋资源久久综合| 波多野结衣电车痴汉| 在线观看av一区| 91片黄在线观看喷潮| 日韩一卡二卡三卡四卡| 性网爆门事件集合av| 亚洲国产成人精品电影| 免费人成黄页在线观看忧物| 亚洲午夜av久久乱码| 麻豆视频在线播放| 欧美成人手机在线| 岛国在线视频网站| 日本一区二区在线播放| 久久久久伊人| 99re国产| 亚洲盗摄视频| 亚洲一区不卡在线| 欧美片第1页综合| 国产亚洲天堂网| 国内精品免费**视频| 国产高潮失禁喷水爽到抽搐| 2024国产精品| 日本中文在线视频| 亚洲福利国产精品| 亚洲第一区av| 精品国产三级电影在线观看| 亚洲精品视频一二三| 成人国产二区| 91久久精品视频| 欧美深夜视频| 一区二区三区四区| 在线高清一区| 亚洲美女爱爱视频| 99国产精品久久久久久久久久| 黄色片网站在线播放| 亚欧色一区w666天堂| 国产精品第6页| 精品久久一区二区三区| www.亚洲视频| 久久免费国产视频| 色综合久久久| 欧洲精品一区色| 黑人一区二区| 亚洲一区二区三区四区五区| 91老师片黄在线观看| 欧美日韩在线视频免费| 91精品1区2区| 日韩在线视频免费| 日韩中文字幕免费| 国产免费不卡| 狠狠色综合网站久久久久久久| 99精品视频在线观看播放| 99视频在线免费播放| 国产精品18久久久久久vr| 日本少妇xxxxx| 欧美性jizz18性欧美| 91精品中文在线| 日韩特级毛片| 国产精品日韩专区| 青青一区二区| 久久精品xxx| 国产精品一区二区果冻传媒| 在线观看亚洲大片短视频| 精品成人久久av| 风流少妇一区二区三区91| 久久伊人免费视频| 开心久久婷婷综合中文字幕| 日韩精品国内| 肉肉av福利一精品导航| 人妻无码中文久久久久专区| 亚洲国产视频a| www.欧美国产| 色综合视频一区中文字幕| 国产中文欧美日韩在线| 一个色的综合| 久久精品99国产精品| 一级特黄曰皮片视频| 91久久奴性调教| 国产天堂素人系列在线视频| 91av在线国产| 亚洲天堂日韩在线| 成人在线看视频| 久久久久久久电影| 中文字幕在线观看视频免费| 亚洲欧美激情四射在线日| 欧美激情护士| 欧美精品一区三区在线观看| 成年人在线观看视频| 亚洲成人av一区| 国产一区二区三区成人| 色妞一区二区三区| 香蕉久久久久久| 久久久成人精品一区二区三区 | 色婷婷一区二区三区四区| 免费黄色在线视频网站| 日韩美女视频在线观看| 欧美伦理在线视频| 污污网站免费看| 亚洲免费在线观看视频| 亚洲美女性生活| 97人人做人人爱| gogogo高清在线观看一区二区| 网站一区二区三区| 亚洲丝袜美腿综合| 亚洲奶汁xxxx哺乳期| 69影院欧美专区视频| 国产精品三级| 亚洲精品成人在线播放| 亚洲最色的网站| 日韩av高清在线| 国产精品久久久久9999| 日韩综合在线| www.四虎在线| 色综合天天综合网国产成人综合天 | 国产午夜精品无码| 日韩av中文字幕在线| 日韩不卡免费高清视频| 亚洲欧美电影在线观看| 国产精品一区二区久久精品爱涩| 国产午夜福利一区二区| 一区二区三区无码高清视频| 亚洲国产欧美在线观看| 欧美国产激情视频| 国产精品久久久久久久久免费丝袜 | 三区精品视频| 国产精品亚洲成人| 免费看毛片网站| 欧美成人三级视频网站| 亚洲国产欧美日韩在线观看第一区 | 91免费视频大全| 在线免费观看高清视频| 欧美高清视频在线播放| 欧美综合视频| 中文字幕亚洲日本| 欧洲生活片亚洲生活在线观看| 午夜伦理大片视频在线观看| 日韩免费中文专区| 四虎精品在线| 欧美激情精品久久久久久免费印度| 香蕉久久夜色精品国产更新时间 | 国产精品日韩精品在线播放| 69堂免费视频| 亚洲欧美日韩电影| 黄色片在线免费看| 国产一区二区三区免费不卡| 久88久久88久久久| 欧美性猛交xxxx乱大交hd |