精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

警惕大型語言模型評估中的不可靠數據——基于Flan-T5的提示選擇案例研究

譯文 精選
人工智能
本文通過基于谷歌Flan-T5大型語言模型的提示選擇案例研究指出,在大型語言模型評估中存在不可靠數據;除非清潔測試數據,否則可能會為大型語言模型選擇次優提示方案(或通過模型評估做出其他次優選擇)。

譯者 | 朱先忠

審校 | 重樓

引言

可靠的模型評估是MLOP和LLMops的核心,負責指導關鍵決策,如部署哪個模型或提示符(以及是否部署)。在本文中,我們使用各種提示關鍵詞來提示Google Research的FLAN-T5大型語言模型,試圖將文本分類為禮貌或不禮貌兩個類型

在提示候選中,我們發現,根據觀察到的測試準確性,看起來表現最好的提示實際上往往比其他提示候選詞還差。對測試數據的仔細審查表明,這是由于不可靠的注釋造成的。因此,在現實世界的應用程序中,您可能會為大型語言模型選擇次優提示(或在模型評估的指導下做出其他次優選擇),除非您清理測試數據以確保其可靠

選擇好的提示詞對于確保大型語言模型的準確響應至關重要選擇好的提示詞對于確保大型語言模型的準確響應至關重要

雖然噪聲注釋的危害在訓練數據中得到了很好的表征,但本文在測試數據中展示了它們經常被忽視的后果。

我目前的職務是Cleanlab的數據科學家,我很高興能與大家分享高質量測試數據的重要性,以確保最佳大型語言模型的提示選擇。

概述

你可以在鏈接處下載本文有關測試數據。

本文研究了斯坦福禮貌數據集二元分類變體(在CC BY許可證v4.0下使用),其中的文本短語被標記為禮貌或不禮貌兩種類型。我們使用包含700個短語的固定測試數據集來評估模型。

顯示文本和基本事實禮貌標簽的數據集快照顯示文本和基本事實禮貌標簽的數據集快照

標準做法是通過對照給定標簽來評估分類模型的“好”的程度,例如模型在訓練過程中沒有看到的例子,通常被稱為“測試”、“評估”或“驗證”數據。這提供了一個數字指標來衡量模型A與模型B的優劣——如果模型A顯示出更高的測試精度,我們估計它是更好的模型,并會選擇將其部署在模型B之上。除了模型選擇之外,相同的決策框架還可以應用于其他選擇,如是否使用:超參數設置A或B、提示A或B,特征集A或B等。

真實世界測試數據中的一個常見問題是,一些例子的標簽是不正確的,無論是由于人為注釋錯誤、數據處理錯誤還是由于傳感器噪聲等因素導致。在這種情況下,測試準確性成為模型A和模型B之間相對性能的不太可靠的指標。讓我們用一個非常簡單的例子來說明這一點。想象一下,你的測試數據集中存在兩個不禮貌的文本示例,但在不知不覺中,它們被(錯誤地)標記為禮貌”類型。例如,在我們的斯坦福禮貌數據集中,我們看到一個真正的人類注釋者錯誤地將“你現在瘋了嗎?!到底發生了什么?”Are you crazy down here?! What the heck is going on?這段文字標記為禮貌”(polite)類型,而語言表達顯然很激動

現在,您的工作是選擇最佳模型來對這些示例進行分類。模型A指出兩個實例都是不禮貌的,模型B指出兩個實例都是禮貌的。基于這些(不正確的)標簽,模型A得分為0%,而模型B得分為100%——你選擇模型B進行部署!但請稍一下再想想:到底哪種模型實際上更強一些呢

盡管上述類似影響微不足道,而且許多人都意識到現實世界的數據充滿了標簽錯誤,但人們往往只關注訓練數據中的噪聲標簽,忘記了仔細策劃測試數據——即使當其指導了關鍵決策的時候。本文使用真實數據說明了高質量測試數據在指導大型語言模型提示選擇方面的重要性,并展示了一種通過算法技術輕松提高數據質量的方法。

觀察測試精度與清潔測試精度

在這里,我們考慮由同一組文本示例構建的兩個可能的測試集,它們只在某些(~30%)標簽上有所不同。代表你用來評估準確性的典型數據,一個版本的標簽來源于每個例子的單個注釋(人工評分器),我們將在此版本上計算的模型預測的準確性報告為觀察測試準確性Observed Test Accuracy。同一測試集的第二個更干凈的版本具有高質量的標簽,這些標簽是通過每個示例的許多一致注釋(源自多個人工評分者)之間的共識建立的。我們將在清潔版本上測量的精度報告為清潔測試精度Clean Test Accuracy。因此,清潔測試精度更緊密地反映了您所關心的內容(實際模型部署性能),但在大多數應用程序中,觀察測試準確性是您所能觀察到的全部內容,除非您首先清潔測試數據!

下面是兩個測試示例,其中單個人工注釋器錯誤地標記了示例,但由許多人工注釋器組成的小組同意正確的標記。

需要說明的是,從單個注釋器收集的橙色注釋收集起來更便宜,但通常是不正確的。藍色注釋是從多個注釋器中收集的,這些注釋器更昂貴,但通常更準確。

在現實世界的項目中,你通常無法使用這種“清潔”(clean)的標簽,所以你只能測量觀察測試準確性。如果您正在根據此指標做出關鍵決策,例如使用哪種大型語言模型或提示,請確保首先驗證標簽是高質量的否則,我們發現您可能會做出錯誤的決定,如接下來所展示的在選擇禮貌分類提示時出現的情況

噪聲評估數據的影響

作為一種對文本禮貌進行分類的預測模型,使用預先訓練的大型語言模型(LLM)是很自然的。在這里,我們特別使用了數據科學家最喜歡的大型語言模型——開源的FLAN-T5模型。為了讓大型語言模型準確地預測文本的禮貌屬性,我們必須給它提供正確的提示。提示工程可以非常敏感,微小的變化會極大地影響準確性!

下面顯示的提示A和B(突出顯示的文本)是思維鏈提示的兩個不同示例,它們可以附加在任何文本樣本前面,以便大型語言模型對其禮貌屬性進行分類。這些提示結合了一些鏡頭和指令提示(稍后詳細介紹),提供了示例、正確的響應和鼓勵大型語言模型解釋其推理的理由。這兩個提示之間的唯一區別是高亮顯示的文本實際上是從大型語言模型中獲得響應。少數鏡頭的例子和推理保持不變。

思維鏈提示為模型提供了推理,說明為什么給出的每個文本示例的答案都是正確的。

決定哪種提示更好的自然方法是基于他們觀察到的測試準確性。當用于提示FLAN-T5大型語言模型時,我們在下面看到,提示A產生的分類在原始測試集上的觀察測試精度高于提示B產生的分類。所以很明顯,我們應該使用提示A部署我們的大型語言模型,對吧?回答是:不要那么快速作出決定

當我們評估每個提示的清潔測試準確性時,我們發現提示B實際上比提示A好得多(提高了4.5個百分點)。由于清潔測試精度更能反映我們真正關心的真實性能,如果我們僅僅依賴原始測試數據而不檢查其標簽質量,我們就會做出錯誤的決定!

使用觀察到的準確性,您可以更好地選擇提示A。但是,當在清潔過的測試集上進行評估時,提示B實際上是更好的提示

這只是統計波動嗎?

McNemar檢驗是評估ML準確性差異的統計學顯著性的推薦方法。當我們應用該測試來評估700個文本示例中提示A與提示B之間4.5%的清潔測試準確性差異時,該差異具有高度統計學意義(p值=0.007,X2=7.086)。因此,所有證據都表明提示B是一個有意義的更好選擇——我們不應該沒有通過仔細審核原始測試數據來選擇它!

這是不是這兩個提示碰巧出現的僥幸結果?

讓我們也看看其他類型的提示,看看我們的兩個思維鏈提示的結果是否只是巧合。

指令提示

這種類型的提示只是向大型語言模型提供一條指令,說明它需要如何處理給定的文本示例。考慮以下兩個提示,我們可能希望在其中進行選擇。

少量訓練(Few-Shot)提示

這種類型的提示使用兩個指令,一個前綴和一個后綴,還包括來自文本語料庫的兩個(預先選擇的)示例,以便向大型語言模型提供所需輸入輸出映射的清晰演示。考慮以下兩個提示,我們可能希望在其中進行選擇。

模板化提示

這種類型的提示除了選擇題格式外,還使用了兩條指令,一個可選前綴和一個后綴,這樣模型就可以作為選擇題答案進行分類,而不是直接用預測類進行響應。考慮以下兩個提示,我們可能希望在其中進行選擇。

各種類型提示的結果對比

除此之外,我們還評估了具有這三種額外類型提示的同一FLAN-T5大型語言模型的分類性能。通過繪制以下所有提示實現的觀察測試精度與清潔測試精度,我們看到許多提示對都存在相同的上述問題,依賴觀察到的檢測精度會導致選擇實際上更差的提示。

作為一名使用可用測試數據的提示工程師,您可以選擇左上角的灰色A提示(最高觀測精度),但最佳提示實際上是右上角的灰度B提示(最高清潔精度)。

僅根據觀察到的測試準確性,您將傾向于在每種類型的提示中選擇“A”提示而不是“B”提示。然而,每種提示類型的更好提示實際上是提示B(它具有更高的清潔測試精度)。這些提示對中的每一個都強調了驗證測試數據質量的必要性,否則,由于數據問題(如嘈雜的注釋),您可能會做出次優決策。

由于存在較高的觀察準確性,所有A提示似乎都更好,但當根據實際測試數據進行評估時,所有B提示在客觀上都更好。

您還可以在該圖中看到,所有A提示觀察到的精度都是如何圈出的,這意味著它們的精度高于B提示。類似地,所有B提示的清潔準確度都被圈出,這意味著它們的準確度高于B提示的準確度。就像本文開頭的簡單示例一樣,您傾向于選擇所有的A提示,而實際上B提示做得更好。

改進可用的測試數據以實現更可靠的評估

希望高質量評價數據的重要性是顯而易見的。讓我們來看看修復可用測試數據的幾種方法。

手動校正

確保測試數據質量的最簡單方法就是簡單地手工審核!確保仔細查看每個示例,以驗證其標記是否正確。根據測試集的大小,這可能可行,也可能不可行。如果你的測試集相對較小(大約100個例子),你可以仔細查看它們,并做出任何必要的更正。如果你的測試集很大(1000多個例子),那么手工完成這項工作將過于耗時和耗費精力。我們的測試集相當大,所以我們不會使用這種方法!

算法校正

評估可用(可能有噪聲)測試集的另一種方法是使用以數據為中心的人工智能算法來診斷可以解決的問題,以獲得同一數據集的更可靠版本(而不必收集許多額外的人工注釋)。在這里,我們使用Confident Learning算法(通過開源的cleanlab軟件包)來檢查我們的測試數據,這些數據會自動估計哪些示例被錯誤標記。然后,我們只檢查這些自動檢測到的標簽問題,并根據需要修復它們的標簽,以生成更高質量的測試數據集版本。我們將在這個版本的測試數據集上進行的模型精度測量稱為CL測試精度。

所有B提示的CL測試精度都更高。使用CL,我們更正了原始測試數據,現在可以信任我們的模型并及時做出決定。

使用這個新的CL校正測試集進行模型評估,我們看到以前的所有B提示現在都正確地顯示出比A提示更高的準確性。這意味著我們可以相信,基于CL校正測試集做出的決策比基于有噪聲的原始測試數據做出的決策更可靠。

當然,自信學習不能神奇地識別任何數據集中的所有錯誤。該算法檢測標記錯誤的效果將取決于基線ML模型的合理預測,即使如此,某些類型的系統引入的錯誤仍將無法檢測(例如,如果我們完全交換兩類的定義)。

關于可以證明自信學習有效的數學假設的精確列表,請參閱Northcutt等人的原始論文。對于許多真實世界的文本/圖像/音頻/表格數據集,該算法似乎至少提供了一種有效的方法,可以將有限的數據審查資源集中在大型數據集中最可疑的例子上。

因此,你并不總是需要花費時間/資源來策劃一個“完美”的評估集——使用Confident Learning等算法來診斷和糾正可用測試集中可能存在的問題,可以提供高質量的數據,以確保最佳的提示和模型選擇。

最后,除非另有說明,否則本文中所有圖片均由作者本人提供。

譯者介紹

朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標題:Beware of Unreliable Data in Model Evaluation: A LLM Prompt Selection case study with Flan-T5,作者:Chris Mauck

責任編輯:華軒 來源: 51CTO
相關推薦

2010-06-12 15:30:57

UDP協議

2022-06-15 07:42:00

谷歌T5模型

2025-08-05 03:22:00

LLM系統語言模型

2010-04-16 17:16:34

2015-03-20 09:45:17

IP協議

2025-01-09 10:48:36

2012-03-12 14:17:10

2021-04-07 14:29:05

開發技能代碼

2023-04-28 17:39:01

2021-07-27 12:27:21

工業物聯網IIOT物聯網

2011-11-29 09:48:43

2021-09-07 09:40:39

漏洞網絡安全代碼

2013-07-24 10:26:40

華為數據存儲華為存儲華為

2023-12-11 07:26:14

云原生業務可觀測性

2025-06-30 04:30:00

2022-11-16 14:33:45

工業物聯網物聯網安全

2016-12-16 11:56:56

大數據數據科學

2013-09-26 10:38:14

VDI企業桌面

2021-10-25 16:25:07

模型人工智能計算

2021-04-23 23:29:20

比特幣加密貨幣匿名幣
點贊
收藏

51CTO技術棧公眾號

各处沟厕大尺度偷拍女厕嘘嘘 | 国产精品原创视频| 国产欧美一区二区三区鸳鸯浴 | 在线免费看av的网站| 综合视频在线| 亚洲人午夜色婷婷| a级大片免费看| sis001欧美| 一区二区三区**美女毛片| 欧美成人在线免费观看| 99精品国产99久久久久久97| 国产日韩高清一区二区三区在线| 在线亚洲欧美视频| av网站有哪些| 日韩一二三区| 欧美午夜精品电影| 男人日女人逼逼| 美女羞羞视频在线观看| 成人黄色大片在线观看| 成人www视频在线观看| 三级视频在线观看| 亚洲视频狠狠| 久久中文久久字幕| 少妇视频在线播放| 亚洲福利天堂| 精品va天堂亚洲国产| 911福利视频| 欧美日韩大片| 欧美性猛交99久久久久99按摩| 老汉色影院首页| h视频在线播放| 久久久噜噜噜久久中文字幕色伊伊| 高清视频一区二区三区| 国产又粗又猛又爽又黄91| 日韩av午夜在线观看| 91av视频在线免费观看| 国产无遮挡免费视频| 国产综合久久| 欧美第一黄色网| tube国产麻豆| 中文字幕人成人乱码| 日韩最新中文字幕电影免费看| 亚欧洲乱码视频| 免费久久精品| 亚洲性生活视频| 人妻少妇无码精品视频区| 国产精品对白| 日韩成人小视频| 国产精品一区二区入口九绯色| 久久黄色影视| 日韩高清a**址| 30一40一50老女人毛片| 亚洲+变态+欧美+另类+精品| 精品一区二区三区四区| av无码av天天av天天爽| 日韩精选在线| 亚洲男人天堂网站| 天天躁夜夜躁狠狠是什么心态 | 在线免费观看成人网| jizzjizz在线观看| 一区精品在线播放| 蜜臀av.com| 18video性欧美19sex高清| 五月天久久比比资源色| 黄色片久久久久| 成人高清一区| 91精品国产综合久久久蜜臀图片| 佐山爱在线视频| 大桥未久女教师av一区二区| 亚洲国内高清视频| 在线免费看黄视频| 999久久久免费精品国产| 免费99精品国产自在在线| 久久久精品人妻一区二区三区四| 狠狠88综合久久久久综合网| 97视频在线看| 亚洲天堂网视频| 国产精品1区二区.| 久久精品ww人人做人人爽| 国模吧精品人体gogo| 亚洲天堂免费在线观看视频| 韩国无码av片在线观看网站| 中文字幕21页在线看| 欧美日韩亚洲另类| 91超薄肉色丝袜交足高跟凉鞋| 欧美调教视频| 色综合亚洲精品激情狠狠| 欧美日韩大片在线观看| 久久久久国内| 亚洲资源在线看| 飘雪影院手机免费高清版在线观看 | 成人在线视频网站| 日本精品一二区| 国产精品少妇自拍| 国产 日韩 欧美在线| 最新日韩一区| 精品日韩99亚洲| 东方伊人免费在线观看| 国产精品红桃| 国产欧美日韩免费| 天堂成人在线| 一区二区三区色| 黄色国产小视频| 久久狠狠久久| 久久亚洲影音av资源网| 中文字字幕在线中文| 国内精品伊人久久久久av一坑| 久久av一区二区| 黄色免费在线观看| 在线欧美一区二区| 久久久久久婷婷| 天天超碰亚洲| 国产mv免费观看入口亚洲| 亚洲大尺度网站| 国产精品色哟哟| 久久久久久久久久久视频| 国产一区二区三区精品在线观看| 国产一区二区三区精品久久久| 日韩成年人视频| 国产九九视频一区二区三区| 日韩欧美一区二区视频在线播放| av在线资源| 精品国产伦一区二区三区观看方式| a级黄色免费视频| 日韩黄色免费网站| 免费久久久一本精品久久区| caoporn-草棚在线视频最| 欧美一级精品大片| 尤物在线免费视频| 久久精品国产亚洲aⅴ| 日本精品一区二区| 中文字幕在线官网| 亚洲国产精品久久久| 麻豆视频在线观看| 国产精品资源在线观看| 亚洲天堂av免费在线观看| 欧美视频免费看| 视频一区视频二区国产精品| 69视频免费看| 久久九九久久九九| 少妇高清精品毛片在线视频| 四虎影视精品| 欧美有码在线观看| 深夜福利免费在线观看| 疯狂做受xxxx欧美肥白少妇 | 91精东传媒理伦片在线观看| 国产日韩精品久久久| 成人免费无码av| 国产一区二区三区网| 国产精品盗摄久久久| 福利成人在线观看| 欧美日韩国产综合视频在线观看| 中文天堂资源在线| 久久99蜜桃精品| 法国空姐在线观看免费| 试看120秒一区二区三区| 欧美激情精品久久久久久大尺度| 国产 欧美 自拍| 婷婷中文字幕一区三区| 欧美图片一区二区| 日韩1区2区日韩1区2区| 亚洲精品9999| 国产精品高清一区二区| 久久免费高清视频| 免费人成在线观看网站| 欧美怡红院视频| 亚洲欧美精品aaaaaa片| 成人午夜大片免费观看| 国产午夜福利视频在线观看| 精品午夜久久| 91久久偷偷做嫩草影院| www.youjizz.com在线| 亚洲天堂av网| 国产女人18毛片18精品| 亚洲地区一二三色| 级毛片内射视频| 国产乱码精品1区2区3区| www.爱色av.com| 欧美独立站高清久久| 成人免费在线看片| 午夜久久中文| 久久国产色av| 欧美777四色影视在线| 欧美日韩国产首页| 日韩乱码人妻无码中文字幕| 国产亚洲一区二区三区在线观看| 国产福利精品一区二区三区| 亚洲日本成人| 在线国产伦理一区| 在线成人动漫av| 91视频99| 777午夜精品电影免费看| 色综合五月天导航| 电影av一区| 亚洲精品v欧美精品v日韩精品 | 日韩一区二区三区视频| 日韩精品久久久久久免费| 亚洲精品免费在线观看| aaaaa级少妇高潮大片免费看| 国产一区二区伦理| 激情综合网俺也去| 妖精视频成人观看www| 黄频视频在线观看| 伊人久久大香线蕉综合网站| 91精品国产91久久久久青草| 成人精品国产| 欧美中文字幕视频在线观看| 在线看三级电影| 色伦专区97中文字幕| 你懂的免费在线观看视频网站| 日韩无一区二区| 艳妇乳肉豪妇荡乳av| 日韩欧美aaa| 日韩欧美性视频| 一区二区三区蜜桃网| 青娱乐国产视频| 久久午夜羞羞影院免费观看| 国产白袜脚足j棉袜在线观看| 激情图区综合网| 少妇一级淫免费放| 99精品欧美| 精品国产av无码一区二区三区| 亚洲国产精品日韩专区av有中文 | a√资源在线| 亚洲美女在线视频| 色哟哟在线观看| 亚洲精品黄网在线观看| 亚洲第一页视频| 欧美一区永久视频免费观看| 91福利免费视频| 欧美日韩国产首页| 91精品人妻一区二区三区果冻| 在线观看欧美黄色| 国产又粗又猛又黄视频| 一本色道a无线码一区v| 国产精品久免费的黄网站| 精品久久中文字幕久久av| 国产成人自拍视频在线| 午夜精品免费在线| 青青国产在线观看| 天涯成人国产亚洲精品一区av| 日韩激情在线播放| 五月天中文字幕一区二区| 国产无遮挡又黄又爽在线观看| 亚洲国产综合人成综合网站| 日韩av电影网址| 狠狠躁夜夜躁人人爽超碰91| 日韩欧美成人一区二区三区| 一本色道久久综合亚洲aⅴ蜜桃 | 亚洲成人蜜桃| 99成人在线视频| aaa免费在线观看| 亚洲欧美一区在线| 国产毛片视频网站| 久久国产99| 黄色在线视频网| 激情久久久久久久久久久久久久久久| 中文av字幕在线观看| 国产精品18久久久久久久久| 欧美熟妇精品一区二区| 成人av第一页| 精品无码一区二区三区| 国产精品天天看| 欧美性猛交xxxxx少妇| 亚洲国产视频直播| 日韩三级一区二区| 欧美浪妇xxxx高跟鞋交| 亚洲老妇色熟女老太| 日韩国产欧美精品在线 | 欧美国产一区二区在线观看| 一级性生活免费视频| 亚洲综合偷拍欧美一区色| 国产精品一区二区6| 欧美性xxxxxxxx| www.黄色av| 亚洲美女av网站| 国产原厂视频在线观看| 97视频在线观看播放| av成人亚洲| 国产精品区一区| 精品国产欧美日韩| 欧美少妇在线观看| 久热国产精品| 中文字幕1区2区| 国产欧美日韩久久| 久久久精品99| 欧美日韩在线直播| 黄色一级大片在线免费看国产一| 亚洲欧美精品一区二区| 五月婷婷视频在线观看| 国产成人久久久| 国产精品天天看天天狠| 亚洲精品国产精品国自产| 日韩视频在线一区二区三区| 午夜免费看毛片| 99久久久国产精品免费蜜臀| 国产免费一区二区三区四区| 日韩欧美极品在线观看| 99热这里只有精品在线| 中文日韩电影网站| av影院在线免费观看| 91老司机在线| 精品免费视频| 男人用嘴添女人下身免费视频| 久久99久久精品| 国产熟妇久久777777| 亚洲最大成人网4388xx| 中文字幕一区二区免费| 亚洲精品久久久久久久久久久久久 | 亚洲老妇色熟女老太| 日韩中文字幕国产精品| 亚洲女同av| 狠狠久久综合婷婷不卡| 欧美大片专区| 亚洲精品手机在线观看| 久久久久久**毛片大全| 日本最新中文字幕| 日韩你懂的在线播放| 久久国产精品一区| 国产精品久久久久久久久免费看 | 自拍偷拍欧美亚洲| 欧美成人乱码一区二区三区| 国产写真视频在线观看| 国产一区玩具在线观看| 欧美精品一区二区久久| 茄子视频成人免费观看| 北岛玲一区二区三区四区| 九九热国产在线| 日韩精品一区二区三区swag | 欧美又大又硬又粗bbbbb| 都市激情亚洲| 妞干网视频在线观看| 国产成人av电影在线观看| 538精品在线视频| 91精品国产综合久久久蜜臀图片| 免费黄网站在线播放| 国产男女猛烈无遮挡91| 色欧美自拍视频| 日本黄大片一区二区三区| 欧美激情一区在线| 中文字幕第99页| 日韩亚洲欧美中文高清在线| 日本一区二区中文字幕| 亚洲7777| 麻豆传媒一区二区三区| 手机av在线看| 日韩欧美国产午夜精品| 欧美亚洲天堂| 国产一区二区无遮挡| 国产精品色网| 国产又粗又猛又爽又黄av| 欧美日韩一区二区在线观看| 999国产在线视频| 成人精品一区二区三区电影免费| 亚洲二区三区不卡| av av在线| 一本在线高清不卡dvd| h视频在线观看免费| 91久久国产综合久久91精品网站| 在线观看免费一区二区| 久久免费精品国产| 一本一本大道香蕉久在线精品| 超碰免费在线观看| 91中文字幕一区| 1000部精品久久久久久久久| 国产精品无码一区二区三区| 欧美在线观看一二区| 老司机免费在线视频| 99se婷婷在线视频观看| 亚洲在线播放| 国产黄色片在线| 欧美mv和日韩mv国产网站| 色在线视频观看| 特级毛片在线免费观看| 丁香激情综合五月| 国产午夜麻豆影院在线观看| www.色综合| 欧美亚视频在线中文字幕免费| 久久久久国产精品熟女影院| 亚洲图片欧美激情| 婷婷综合激情网| 国产免费一区二区三区在线观看| 国内精品久久久久久久影视麻豆| 少妇光屁股影院| 欧美一区二区三区四区五区 | 欧美特级限制片免费在线观看| av免费在线观看网站| 欧洲一区二区日韩在线视频观看免费 | 快射av在线播放一区| 国产在线精品一区二区三区| 男人的j进女人的j一区| 国产第100页| 精品精品国产国产自在线| 日韩有码av| 99热这里只有精品2| 日本乱人伦aⅴ精品| 在线视频国产区| 亚洲第一在线综合在线| 99亚偷拍自图区亚洲| 99久久久久成人国产免费|