精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

終于有人調查了小模型過擬合:三分之二都有數據污染,微軟Phi-3、Mixtral 8x22B被點名

人工智能 新聞
提高大型語言模型的推理能力是當前研究的最重要方向之一,而在這類任務中,近期發布的很多小模型看起來表現不錯,比如微軟 Phi-3、Mistral 8x22B 等等。

當前最火的大模型,竟然三分之二都存在過擬合問題?

剛剛出爐的一項研究,讓領域內的許多研究者有點意外。

提高大型語言模型的推理能力是當前研究的最重要方向之一,而在這類任務中,近期發布的很多小模型看起來表現不錯,比如微軟 Phi-3、Mistral 8x22B 等等。

但隨后,研究者們指出當前大模型研究領域存在一個關鍵問題:很多研究未能正確地對現有 LLM 的能力進行基準測試。

這是因為目前的大多數研究都采用 GSM8k、MATH、MBPP、HumanEval、SWEBench 等測試集作為基準。由于模型是基于從互聯網抓取的大量數據集進行訓練的,訓練數據集可能無意中包含了與基準測試中的問題高度相似的樣本。

這種污染可能導致模型的推理能力被錯誤評估 —— 它們可能僅僅是在訓練過程中蒙到題了,正好背出了正確答案。

剛剛,Scale AI 的一篇論文對當前最熱門的大模型進行了深度調查,包括 OpenAI 的 GPT-4、Gemini、Claude、Mistral、Llama、Phi、Abdin 等系列下參數量不同的模型。

測試結果證實了一個廣泛的疑慮:許多模型受到了基準數據的污染。


  • 論文標題:A Careful Examination of Large Language Model Performance on Grade School Arithmetic
  • 論文鏈接:https://arxiv.org/pdf/2405.00332

為了避免數據污染問題,來自 Scale AI 的研究者們未使用任何 LLM 或其他合成數據來源,完全依靠人工注釋創建了 GSM1k 數據集。與 GSM8k 相似,GSM1k 內含有 1250 道小學級數學題。為了保證基準測試公平,研究者們盡力確保了 GSM1k 在難度分布上與 GSM8k 是相似的。在 GSM1k 上,研究者對一系列領先的開源和閉源大型語言模型進行了基準測試,結果發現表現最差的模型在 GSM1k 上的性能比在 GSM8k 上低 13%。

尤其是以量小質優聞名的 Mistral 和 Phi 模型系列,根據 GSM1k 的測試結果顯示,幾乎其中的所有版本都顯示出了過擬合的一致證據。

通過進一步分析發現,模型生成 GSM8k 樣本的概率與其在 GSM8k 和 GSM1k 之間的表現差距之間存在正相關關系(相關系數 r^2 = 0.32)。這強烈表明,過擬合的主要原因是模型部分背出了 GSM8k 中的樣本。不過,Gemini、GPT、Claude 以及 Llama2 系列過顯示出的擬合跡象非常少。此外,包括最過擬合的模型在內,所有模型仍能夠成功地泛化到新的小學數學問題,雖然有時的成功率低于其基準數據所示。

Scale AI 目前不打算公開發布 GSM1k,以防未來發生類似的數據污染問題。他們計劃定期對所有主要的開源和閉源 LLM 持續進行評估,還將開源評估代碼,以便后續研究復現論文中的結果。

GSM1k 數據集

GSM1k 內包含 1250 道小學數學題。這些問題只需基本的數學推理即可解決。Scale AI 向每位人工注釋者展示 3 個 GSM8k 的樣本問題,并要求他們提出難度相似的新問題,得到了 GSM1k 數據集。研究者們要求人工注釋者們不使用任何高級數學概念,只能使用基本算術(加法、減法、乘法和除法)來出題。與 GSM8k 一樣,所有題的解都是正整數。在構建 GSM1k 數據集的過程中,也沒有使用任何語言模型。

為了避免 GSM1k 數據集的數據污染問題,Scale AI 目前不會公開發布該數據集,但將開源 GSM1k 評估框架,該框架基于 EleutherAI 的 LM Evaluation Harness。

但 Scale AI 承諾,在以下兩個條件中先達成某一項后,將在 MIT 許可證下發布完整的 GSM1k 數據集:(1) 有三個基于不同預訓練基礎模型譜系的開源模型在 GSM1k 上達到 95% 的準確率;(2) 至 2025 年底。屆時,小學數學很可能不再足以作為評估 LLM 性能的有效基準。

為了評估專有模型,研究者將通過 API 的方式發布數據集。之所以采取這種發布方式,是論文作者們認為,LLM 供應商通常不會使用 API 數據點來訓練模型模型。盡管如此,如果 GSM1k 數據通過 API 泄露了,論文作者還保留了未出現在最終 GSM1k 數據集中的數據點,這些備用數據點將在以上條件達成時隨 GSM1k 一并發布。

他們希望未來的基準測試發布時也能遵循類似的模式 —— 先不公開發布,預先承諾在未來某個日期或滿足某個條件時發布,以防被操縱。

此外,盡管 Scale AI 盡力確保了 GSM8k 和 GSM1k 之間在最大程度上一致。但 GSM8k 的測試集已經公開發布并廣泛地用于模型測試,因此 GSM1k 和 GSM8k 僅是在理想情況下的近似。以下評估結果是 GSM8k 和 GSM1k 的分布并非完全相同的情況下得出的。

評估結果

為了對模型進行評估,研究者使用了 EleutherAI 的 LM Evaluation Harness 分支,并使用了默認設置。GSM8k 和 GSM1k 問題的運行 prompt 相同,都是從 GSM8k 訓練集中隨機抽取 5 個樣本,這也是該領域的標準配置(完整的 prompt 信息見附錄 B)。

所有開源模型都在溫度為 0 時進行評估,以保證可重復性。LM 評估工具包提取響應中的最后一個數字答案,并將其與正確答案進行比較。因此,以與樣本不符的格式生成「正確」答案的模型響應將被標記為不正確。

對于開源模型,如果模型與庫兼容,會使用 vLLM 來加速模型推斷,否則默認使用標準 HuggingFace 庫進行推理。閉源模型通過 LiteLLM 庫進行查詢,該庫統一了所有已評估專有模型的 API 調用格式。所有 API 模型結果均來自 2024 年 4 月 16 日至 4 月 28 日期間的查詢,并使用默認設置。

在評估的模型方面,研究者是根據受歡迎程度選擇的,此外還評估了幾個在 OpenLLMLeaderboard 上排名靠前但鮮為人知的模型。

有趣的是,研究者在這個過程中發現了古德哈特定律(Goodhart's law)的證據:許多模型在 GSM1k 上的表現比 GSM8k 差很多,這表明它們主要是在迎合 GSM8k 基準,而不是在真正提高模型推理能力。所有模型的性能見下圖附錄 D。

為了進行公平對比,研究者按照模型在 GSM8k 上的表現對它們進行了劃分,并與其他表現類似的模型進行了對比(圖 5、圖 6、圖 7)。

圖片

得出了哪些結論?

盡管研究者提供了多個模型的客觀評估結果,但同時表示,解釋評估結果就像對夢境的解釋一樣,往往是一項非常主觀的工作。在論文的最后一部分,他們以更主觀的方式闡述了上述評估的四個啟示:

結論 1: 一些模型系列是系統性過擬合

雖然通常很難從單一數據點或模型版本中得出結論,但檢查模型系列并觀察過擬合模式,可以做出更明確的陳述。一些模型系列,包括 Phi 和 Mistral,幾乎每一個模型版本和規模都顯示出在 GSM8k 上比 GSM1k 表現更強的系統趨勢。還有其他模型系列,如 Yi、Xwin、Gemma 和 CodeLlama 也在較小程度上顯示出這種模式。

結論 2: 其他模型,尤其是前沿模型,沒有表現出過擬合的跡象

許多模型在所有性能區域都顯示出很小的過擬合跡象,特別是包括專有 Mistral Large 在內的所有前沿或接近前沿的模型,在 GSM8k 和 GSM1k 上的表現似乎相似。對此,研究者提出了兩個可能的假設:1)前沿模型具有足夠先進的推理能力,因此即使它們的訓練集中已經出現過 GSM8k 問題,它們也能泛化到新的問題上;2)前沿模型的構建者可能對數據污染更為謹慎。

雖然不能查看每個模型的訓練集,也無法確定這些假設,但支持前者的一個證據是,Mistral Large 是 Mistral 系列中唯一沒有過擬合跡象的模型。Mistral 只確保其最大模型不受數據污染的假設似乎不太可能,因此研究者傾向于足夠強大的 LLM 也會在訓練過程中學習基本的推理能力。如果一個模型學會了足夠強的推理能力來解決給定難度的問題,那么即使 GSM8k 出現在其訓練集中,它也能夠泛化到新的問題上。

結論 3: 過擬合的模型仍然具有推理能力

很多研究者對模型過擬合的一種擔心是,模型無法進行推理,而只是記憶訓練數據中的答案,但本論文的結果并不支持這一假設。模型過擬合的事實并不意味著它的推理能力很差,而僅僅意味著它沒有基準所顯示的那么好。事實上,研究者發現許多過擬合模型仍然能夠推理和解決新問題。例如,Phi-3 在 GSM8k 和 GSM1k 之間的準確率幾乎下降了 10%,但它仍能正確解決 68% 以上的 GSM1k 問題 —— 這些問題肯定沒有出現在它的訓練分布中。這一表現與 dbrx-instruct 等更大型的模型相似,而后者包含的參數數量幾乎是它們的 35 倍。同樣地,即使考慮到過度擬合的因素,Mistral 模型仍然是最強的開源模型之一。這為本文結論提供了更多證據,即足夠強大的模型可以學習基本推理,即使基準數據意外泄漏到訓練分布中,大多數過擬合模型也可能出現這種情況。

結論 4: 數據污染可能不是過擬合的完整解釋

一個先驗的、自然的假設是,造成過擬合的主要原因是數據污染,例如,在創建模型的預訓練或指令微調部分,測試集被泄露了。以往的研究表明,模型會對其在訓練過程中見過的數據賦予更高的對數似然性(Carlini et al. [2023])。研究者通過測量模型從 GSM8k 測試集中生成樣本的概率,并將其與 GSM8k 和 GSM1k 相比的過擬合程度進行比較,來驗證數據污染是造成過擬合的原因這一假設。

研究者表示,數據污染可能并不是全部原因。他們通過幾個異常值觀察到了這一點。仔細研究這些異常值可以發現,每個字符對數似然值最低的模型(Mixtral-8x22b)和每個字符對數似然值最高的模型(Mixtral-8x22b-Instruct)不僅是同一模型的變體,而且具有相似的過擬合程度。更有趣的是,過擬合程度最高的模型(Math-Shepherd-Mistral-7B-RL (Yu et al. [2023]))的每個字符對數似然值相對較低(Math Shepherd 使用合成數據在流程級數據上訓練獎勵模型)。

因此,研究者假設獎勵建模過程可能泄露了有關 GSM8k 的正確推理鏈的信息,即使這些問題本身從未出現在數據集中。最后他們發現, Llema 模型具有高對數似然和最小過擬合。由于這些模型是開源的,其訓練數據也是已知的,因此正如 Llema 論文中所述,訓練語料庫中出現了幾個 GSM8k 問題實例。不過,作者發現這幾個實例并沒有導致嚴重的過擬合。這些異常值的存在表明,GSM8k 上的過擬合并非純粹是由于數據污染造成的,而可能是通過其他間接方式造成的,例如模型構建者收集了與基準性質相似的數據作為訓練數據,或者根據基準上的表現選擇最終模型檢查點,即使模型本身可能在訓練的任何時候都沒有看到過 GSM8k 數據集。反之亦然:少量的數據污染并不一定會導致過擬合。

更多研究細節,可參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2009-10-10 09:24:32

行為瞄準behavioral 被追蹤

2018-10-15 16:17:23

2020-10-09 08:46:23

零信任網絡安全網絡攻擊

2014-03-17 09:13:04

Windows XPATM機

2024-03-22 15:04:29

2014-01-21 16:44:01

DNS網絡安全

2024-06-03 08:25:00

2010-04-09 16:56:30

IPv6中國電信

2022-01-12 15:34:45

云應用惡意軟件應用程序

2021-10-09 09:18:21

密碼重用密碼數據安全

2025-05-26 07:10:00

GenAIAI人工智能

2019-03-05 10:22:00

CIOERP

2013-11-01 14:39:51

2022-04-26 11:16:49

安全漏洞

2012-06-04 17:16:27

云計算

2013-09-24 10:53:39

Gartner大數據項目

2025-02-19 09:20:30

2023-08-31 14:32:14

點贊
收藏

51CTO技術棧公眾號

国产极品嫩模在线观看91精品| 日韩美女主播视频| 97se亚洲综合| 免费一级黄色录像| 四虎影院在线域名免费观看| 免费看日产一区二区三区| 国产日韩欧美综合在线| 18性欧美xxxⅹ性满足| 97中文字幕在线观看| 黄色在线论坛| 久久精品国产一区二区| 亚洲日本成人女熟在线观看| 777777av| 熟妇高潮一区二区高潮| 欧美日韩国产高清| 制服丝袜国产精品| 中文字幕一区二区中文字幕| 亚洲午夜在线播放| 欧美日韩国产一区二区三区不卡| 欧美日韩国产精品一区二区不卡中文| 国产精品青青草| 精品午夜福利在线观看| 亚洲一二三区视频| 亚洲国产cao| 国产精品亚洲综合| 中文字幕黄色av| 日韩一区二区三区免费播放| 欧美在线制服丝袜| 亚洲看片网站| 国产精品国产精品国产专区| 91九色精品国产一区二区| 在线播放日韩导航| 国内外成人激情视频| 久青青在线观看视频国产| 久久一区精品| 一本一本久久a久久精品牛牛影视| 成年人观看网站| 在线āv视频| 99久久婷婷国产| 国产成人精品一区二区三区| 手机看片日韩av| 欧美freesex8一10精品| 日本韩国一区二区| 自拍偷拍一区二区三区| 青青免费在线视频| 久久国产综合精品| 国产精品久久电影观看| 日本精品在线免费观看| jizz国产精品| 色婷婷精品久久二区二区蜜臂av| 亚洲激情电影在线| 韩国中文免费在线视频| 精品一区二区三区免费观看| 欧美高跟鞋交xxxxxhd| 国产草草浮力影院| 97人人做人人爽香蕉精品| 天天综合天天做天天综合| 日本精品二区| 亚洲AV无码精品国产| 亚洲一区二区伦理| 色av中文字幕一区| 欧美夫妇交换xxx| 日本亚洲视频| 欧洲精品中文字幕| 国产三级三级三级看三级| 操你啦视频在线| 99riav久久精品riav| 国产一区二区视频在线观看| 日本熟妇毛茸茸丰满| 久久蜜桃av| 亚洲欧美激情另类校园| 91香蕉国产线在线观看| 日韩毛片免费观看| 亚洲成人久久影院| 午夜精品久久久久久久无码| 男人和女人做事情在线视频网站免费观看| 成+人+亚洲+综合天堂| 成人久久一区二区| 精人妻无码一区二区三区| 欧美日韩国产精品一区二区亚洲| 欧美国产日韩一区二区| 国产精品9191| 欧美国产日本| 久久久精品久久久| 中文字幕人妻一区二区三区在线视频| 日韩大陆欧美高清视频区| 国产精品人成电影在线观看| 久久一二三四区| 亚洲国产午夜| 欧美美女18p| 极品久久久久久久| 亚洲影视一区| 社区色欧美激情 | 色老板免费视频| 亚洲国产日韩在线| 国产精品专区一| 国产精品免费精品一区| 亚洲视频一区| 九九热这里只有在线精品视 | 国产精品亲子伦av一区二区三区| 亚洲一区二区三区自拍| 热这里只有精品| av在线播放网| 国产a级毛片一区| 成人a免费视频| 狠狠综合久久av一区二区| 国产在线不卡一区| 96pao国产成视频永久免费| 中文字幕欧美人妻精品一区蜜臀| 国产一区二区精品在线观看| 久久大片网站| 五月婷婷久久久| 成人免费av资源| 高清不卡日本v二区在线| 亚洲av综合色区无码一二三区 | 国产熟女一区二区| 精品福利电影| 欧美极品xxxx| 国产第100页| 青青草伊人久久| 国产主播欧美精品| 奇米影视888狠狠狠777不卡| 亚洲激情校园春色| 欧美狂野激情性xxxx在线观| 污污在线观看| 香港成人在线视频| 人妻熟女一二三区夜夜爱| 奇米777日韩| 亚洲国产成人久久| 天堂久久精品忘忧草| 欧美伦理在线视频| 国产91精品久久久久久| 91视频久久久| 91麻豆国产福利在线观看| 日本午夜精品一区二区| 美女高潮在线观看| 在线观看视频一区| 亚洲调教欧美在线| 精品理论电影| 欧美性做爰毛片| 内射后入在线观看一区| 久久男人中文字幕资源站| 少妇免费毛片久久久久久久久| 久草中文在线观看| 欧美少妇一区二区| 337p日本欧洲亚洲大胆张筱雨 | 农村寡妇一区二区三区| av电影在线网| 91激情在线视频| 中文字幕人妻一区二区| 国产精品videosex性欧美| 国产精品福利在线观看网址| 伦理片一区二区三区| 色综合天天综合| 一本色道久久综合亚洲精品图片| 成人激情电影在线| 久久久久久久国产精品视频| 精品国产av鲁一鲁一区| 久久影院视频免费| 乱子伦视频在线看| 亚洲高清999| 色综合色综合久久综合频道88| www日本高清视频| 亚洲一区电影777| 亚洲综合自拍网| 久久国产精品久久w女人spa| 91精品在线观| 欧美18xxxxx| 欧美最新大片在线看| 亚洲毛片亚洲毛片亚洲毛片| 亚洲国产专区| 欧美精品亚洲精品| 波多野结依一区| 欧美日本在线观看| 97人妻精品一区二区免费| 模特精品在线| 亚洲欧洲一区二区| 日韩精品一区二区三区免费视频| 欧美精品九九久久| 你懂的在线播放| 欧美日韩国产一级片| 欧美黄色一区二区三区| 蜜桃91丨九色丨蝌蚪91桃色| 免费成人在线观看av| 视频在线日韩| 日韩国产精品一区| 中文字幕激情视频| 亚洲一区二区三区三| 一本色道久久综合亚洲精品图片 | 亚洲国产你懂的| 久久久久久国产精品无码| 精品一区二区三区影院在线午夜 | 色欲狠狠躁天天躁无码中文字幕| 精品亚洲国产成人av制服丝袜| 久久精品国产99精品国产亚洲性色| 蜜桃精品在线| 欧美猛交ⅹxxx乱大交视频| 三级国产在线观看| 日韩免费高清视频| 中文字幕在线观看成人| 精品一区二区三区视频| 欧美一级视频免费看| 波多野结衣欧美| 国产成人精品免费视频| 日本在线观看高清完整版| 亚洲色图偷窥自拍| 国产成人自拍一区| 欧美视频在线一区二区三区| 日韩欧美黄色网址| 成人爱爱电影网址| 中文字幕视频三区| 亚洲精品网址| 91久色国产| 日本国产欧美| 日韩在线播放av| 国产日韩免费视频| 亚洲综合免费观看高清在线观看| 超级砰砰砰97免费观看最新一期 | 欧美成年网站| 国产精品日韩av| 欧美xxxxxx| 97久久精品国产| 天天综合天天色| 91精品国产高清一区二区三区蜜臀 | 亚洲日本中文字幕免费在线不卡| 超碰在线播放97| 欧美日韩精品一区二区三区蜜桃| 日韩色图在线观看| 国产偷国产偷亚洲高清人白洁| 国产精品偷伦视频免费观看了| 久久电影网电视剧免费观看| 免费午夜视频在线观看| 最新日韩在线| 国产精品第157页| 欧美jizzhd精品欧美巨大免费| 亚洲精品一区二区三区樱花| 美女毛片一区二区三区四区| 国产精品一区二区三区免费视频| 中文字幕乱码在线播放| 最近2019免费中文字幕视频三| 日本不卡免费播放| 精品视频久久久久久| 中文字幕一二区| 欧洲国内综合视频| 日本丰满少妇做爰爽爽| 91国产福利在线| 免费又黄又爽又猛大片午夜| 色综合久久99| 亚洲无码精品一区二区三区| 一本一本久久a久久精品综合麻豆| 国产成人精品片| 国产精品欧美久久久久一区二区| 久久久久国产免费| 国产91丝袜在线播放0| 性xxxxxxxxx| 成人在线综合网站| 天天躁日日躁狠狠躁av麻豆男男| 日日摸夜夜添夜夜添亚洲女人| 波多野结衣三级在线| 国产精品二区不卡| 91国在线高清视频| 精品国产精品| 先锋影音网一区| 国产精品99久久精品| 亚洲欧美一二三| 欧美午夜不卡影院在线观看完整版免费| avove在线观看| 国产成人精品999在线观看| 亚洲自拍高清视频网站| 成人动态视频| 欧美福利一区二区三区| 女优一区二区三区| 一区二区三区在线视频111| 91精品91| 免费在线a视频| 免费不卡在线视频| 日韩大尺度视频| 久久综合九色综合欧美亚洲| 国产三级黄色片| 亚洲黄色免费网站| 久久精品视频7| 在线播放中文字幕一区| 人妻无码一区二区三区久久99| 亚洲人午夜精品免费| 18网站在线观看| 欧美一级电影免费在线观看| 日本欧美在线| 国产精品嫩草影院久久久| www.久久99| 国产色视频一区| 国产精品xxx在线观看| 91视频在线免费观看| 色愁久久久久久| 精品国产_亚洲人成在线| 66精品视频在线观看| 欧美男人的天堂| 欧美成人精品| 日日躁夜夜躁aaaabbbb| 日本美女视频一区二区| 可以看的av网址| 久久久久久久久久久久久女国产乱| jizz日本免费| 久久亚洲私人国产精品va媚药| 亚洲黄色网址大全| 五月婷婷综合网| 国产av无码专区亚洲av| 91精品国产免费久久综合| 欧美在线一卡| 久久久久久久国产精品| 91精品视频一区二区| 欧美一区二区三区在线免费观看| 欧美日本久久| 五月天激情播播| 欧美激情一区二区三区蜜桃视频 | 精品国产乱子伦一区二区| 高清视频一区| 午夜精品久久久久久久四虎美女版| jizzjizz国产精品喷水| 国产福利不卡视频| 800av在线播放| 亚洲精品v日韩精品| 亚洲天堂狠狠干| 欧美一区三区四区| gogogo高清在线观看免费完整版| 91精品国产高清久久久久久| 麻豆久久一区| 在线国产伦理一区| 丝袜亚洲另类欧美综合| 国产熟女高潮一区二区三区| 夜夜嗨av一区二区三区中文字幕 | 91福利精品在线观看| 久久99精品久久久久久久青青日本| 国产精品theporn| 又黄又爽又色的视频| 最近日韩中文字幕| 国产精品2020| 亚洲成人av在线| 黑人极品ⅴideos精品欧美棵| 亚洲va电影大全| 综合视频在线| 亚洲精品中文字幕乱码无线| 不卡在线观看av| 日本网站在线免费观看| 精品国产123| www 日韩| 国产精品福利网| 欧美亚洲激情| 无需播放器的av| 国产精品视频在线看| 久久久久久久九九九九| 日韩片之四级片| 黄色美女网站在线观看| 欧美制服第一页| 成人免费91| 蜜桃精品久久久久久久免费影院 | 欧美极品少妇xxxxⅹ裸体艺术 | 免费成人美女在线观看| wwwww黄色| 91精品国产美女浴室洗澡无遮挡| 污污网站在线观看| 精品一区二区视频| 三级欧美在线一区| 国产精品视频看看| 精品福利樱桃av导航| 色视频在线观看免费| 国产91免费看片| 99久久99久久精品国产片桃花 | 日本丰满大乳奶| 成人小视频在线| 中文字幕免费高清网站| 日韩中文字幕在线观看| 亚洲网一区二区三区| 日韩av综合在线观看| 久久精品水蜜桃av综合天堂| 在线观看中文字幕码| 欧美巨乳在线观看| 婷婷综合电影| 亚洲一区二区在线视频观看| 成人久久18免费网站麻豆| 草久久免费视频| 精品日韩av一区二区| 九义人在线观看完整免费版电视剧| 91色琪琪电影亚洲精品久久| 欧美色图麻豆| 波多野结衣一本| 欧美日韩国产色站一区二区三区| 性国产高清在线观看| 欧美精品v日韩精品v国产精品| 免费观看久久久4p| 国产亚洲成人精品| 国产亚洲一区精品| 久久sese| 欧美一区二区三区在线免费观看| 久久精品国产网站| 男人天堂中文字幕| 一区二区三区亚洲| www.亚洲一二| 日本黄色的视频| 日韩欧美成人精品| 无码国产精品一区二区免费16|