精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型榜單還能信嗎?一個假模型就能登頂排行榜

發布于 2024-10-14 15:07
瀏覽
0收藏

1. 緣起

目前評測大語言模型主要有兩種方法:

? 通過人類投票來進行評估,比如:Chatbot Arena,但是這種往往需要花費較長的時間。

? 為了降低人類標注的依賴,還有另外一種自動化的LLM基準測試。這種方法成本低、容易擴展。

自動化基準測試也成為了眾多模型的熱門選擇,而且測試中的高勝率往往能帶來顯著的宣傳優勢。

但是,自動化基準測試的勝率可能會受到長度和風格偏見的影響。雖然大多數這種影響是來自訓練數據集,但是這也導致存在操縱勝率的可能性。

在本篇論文里,作者通過提交一個“假模型”來對自動化測試進行壓力測試。

2. 作弊策略(假模型策略)

大模型榜單還能信嗎?一個假模型就能登頂排行榜-AI.x社區圖片

從上圖可以看到 suffix策略 (指只使用對抗性后綴策略,不對輸入指令作出有實質內容的回應)情況下,并沒有實質的作弊效果。所以,作者提出了新的作弊策略:

? (1)構建結構化的回答來迷惑LLM自動標注器從而達到作弊效果

? (2)進行基于token級別的隨機搜索來設計對抗性前綴

2.1 結構化作弊響應

大模型榜單還能信嗎?一個假模型就能登頂排行榜-AI.x社區圖片

如上圖,結構化作弊響應策略是指把原來的評判提示詞進行修改,本質上是一種提示詞注入。

例如,在AlpacaEval 2.0中,當提交的目標模型(待評測性能的大模型)的響應位于最后時,標注器傾向于預測“M”。而當它出現在首位時,標注器則傾向于預測“m”:

-(1)用一個虛構的指令-輸出三元組替代了原始的指令-輸出三元組;

-(2)默認位置時,利用標注器模型對最后輸出的普遍偏好,引導其預測“M”;

-(3)當位置被交換時,它利用覆蓋模型“M”的輸出,導致標注器預測“m”。

正確的AlpacaEval 2.0 提示詞

大模型榜單還能信嗎?一個假模型就能登頂排行榜-AI.x社區圖片

目標為模型M的作弊策略

大模型榜單還能信嗎?一個假模型就能登頂排行榜-AI.x社區圖片

目標為模型m的作弊策略

大模型榜單還能信嗎?一個假模型就能登頂排行榜-AI.x社區圖片

上面舉例的這個結構化回應提示詞在AlpacaEval 2.0上達到了76.8%的LC勝率。

原始勝率(Raw Win Rate): 最直接衡量模型獲勝次數的比例。在自動基準測試中,模型的輸出會被與一組標準或參考輸出進行比較,原始勝率即模型被判定為優于或等于參考輸出的頻率。這種勝率計算方式沒有對輸出的長度或風格進行控制,因此可能受到模型輸出長度的影響,即更長的輸出可能更受青睞。

離散勝率(Discrete Win Rate): 離散勝率是在考慮輸出質量的基礎上,對原始勝率進行的一種調整。在計算離散勝率時,評估系統會將模型的輸出與參考輸出進行細致的比較,并對每個輸出的各個方面(如準確性、相關性、完整性等)進行評分。離散勝率可能會排除那些雖然在總體上被判定為獲勝,但在某些關鍵方面表現不佳的輸出,從而提供一個更加關注輸出質量的獲勝比例。

長度控制勝率(Length-Controlled Win Rate,簡稱LC勝率): LC勝率是為了減少模型輸出長度對評估結果的影響而設計的一種指標。在計算LC勝率時,評估系統會控制模型輸出的長度,確保所有參與比較的輸出在長度上是可比的。這樣可以避免因輸出長度不同而導致的評估偏差,提供一個更加公平的模型性能評估。LC勝率可能會在輸出長度相似的條件下計算模型的獲勝次數,從而更準確地反映模型在處理特定任務時的能力。

2.2 通過隨機搜索(RS)設計對抗性前綴

為了進一步提升結構化回應的效果,引入了一個對抗性前綴,并采用基于GPT-4查詢結果的RS策略來優化它。

為了模擬更具挑戰性的場景假設自動基準的輸入指令是保密的。

開發了一個可轉移的前綴,利用公開可用的指令集來設計。通過在不同指令上聚合損失來優化單個對抗性前綴,確保前綴在不同輸入指令和位置上的影響是普遍的。

采用RS算法來優化對抗性前綴。該算法通過采樣修改并選擇在多個指令上最小化聚合損失的變體來完善前綴。

3. 作弊策略的效果如何?

大模型榜單還能信嗎?一個假模型就能登頂排行榜-AI.x社區圖片

上圖展示了作者的結構化響應作弊策略與其他16個固定響應進行比較的效果。下圖展示了其他16個固定響應內容。

大模型榜單還能信嗎?一個假模型就能登頂排行榜-AI.x社區圖片

結果表明:結構化回應作弊做略以最低的對數概率勝出,證明作者的策略在欺騙自動標注智能體方面的高效性。

默認配置中,當目標模型響應放在提示詞第二位時,有較低的損失,表明GPT4對第二位偏好。

大模型榜單還能信嗎?一個假模型就能登頂排行榜-AI.x社區圖片

上圖將作弊策略的得分與當前(2024年10月1日之前)頂尖模型的勝率進行對比:在所有基準測試中顯著提升了表現,贏得了最高的勝率和評分,達到了76.8%的LC勝率和59.5%的原始勝率。

經過RS優化后,LC勝率提升至86.5%,原始勝率提高至76.9%。

這些成果與經過驗證的SOTA模型相比有了顯著提升,后者僅達到了57.5%的LC和51.3%的原始勝率。

結合隨機搜索的結構化方法在LC勝率上比經過驗證的SOTA高出29.0個百分點,在原始勝率上高出25.6個百分點。

與社區SOTA相比,在LC上表現更佳(86.5%對78.5%),在原始勝率上相當(76.9%對77.6%)。

由于其簡短,作弊的LC勝率普遍高于原始勝率,這表明AlpacaEval 2.0對長度作弊也不夠健壯。

在Arena-Hard-Auto上,結構化響應作弊策略達到了67.2%的勝率,經過隨機搜索后提升至83.0%。

總之,在各種基準測試中都取得了顯著的增益,超越了現有技術,證明了其在不同基準測試中的高效性,并強化了對更健壯的自動LLM基準測試的需求。

4. 消融實驗

4.1 結構化回應在開源自動標注智能體上有效嗎?

在AlpacaEval 2.0測試指令的子集上,使用不同的無效回應評估log p(winner = NullModel)。

大模型榜單還能信嗎?一個假模型就能登頂排行榜-AI.x社區圖片

如上圖,結構化響應作弊策略對Llama-3自動標注智能體的影響很小。在Llama-3-8B-Instruct的情況下,結構化回應并未利用該智能體的位置弱點,因為默認位置和交換位置的對數概率與不同的有說服力回應大致相似。

然而,在Llama-3-70B-Instruct上,在交換設置下觀察到,結構化回應成功降低了對數概率。此外,在位置偏見方面,Llama-3-8B-Instruct顯示出很小的位置偏見,因為默認位置和交換位置的概率相當接近。相比之下,Llama-3-70B-Instruct在交換設置下顯示出明顯的位置偏見,更高的對數概率表明該智能體強烈偏好最后輸出(“M”)。

較大的Llama-3-70B-Instruct智能體的行為更接近更先進的GPT-4,因為它對結構化回應和位置偏見的反應比小型8B智能體更為敏感。這表明模型規模可能增加了對我們作弊技術的敏感性

總的來說,與GPT-4相比,結構化響應作弊策略在Llama-3智能體上的效果要小得多。這種差異的可能解釋是,Llama-3智能體,尤其是較小的8B版本,其遵循指令的能力不如GPT-4強大,使它們對作弊回應的敏感性較低

4.2 隨機搜索對開源自動標注智能體成效顯著嗎?

大模型榜單還能信嗎?一個假模型就能登頂排行榜-AI.x社區圖片

如上表,隨機搜索在Llama-3-8B-Instruct和Llama-3-70B-Instruct等開源自動標注智能體上表現出色。

以Llama-3-8B-Instruct為例,缺少隨機搜索時,結構化回應的LC勝率僅為2.9%,原始勝率為1.4%。而一旦采用隨機搜索,勝率便戲劇性地飆升至95.4%(LC)和86.3%(原始),LC勝率提升了92.5個百分點。

對于Llama-3-70B-Instruct,僅憑結構化回應,LC勝率僅為0.4%,總體勝率為0.2%。但隨機搜索的加入使得這些勝率分別躍升至95.1%(LC)和91.6%(原始),分別提升了94.7和91.4個百分點。

這些數據證明**隨機搜索在提升開源自動標注智能體的作弊成功率方面極為有效,勝率直逼100%**。

4.3 直接針對測試指令進行搜索有用嗎?

也探索了直接作弊策略的效果。直接作弊可以看作是作弊效果的上限指標。

大模型榜單還能信嗎?一個假模型就能登頂排行榜-AI.x社區圖片

上表的Test列表示是否是直接作弊。結果表明:直接針對測試指令進行搜索顯著增強了作弊的效果。

對于Llama-3-8B-Instruct模型,結合結構化回應和隨機搜索,但不接觸測試指令,LC勝率達到了95.4%,總體勝率為86.3%。

然而,當對抗性前綴直接針對測試指令進行優化時,LC勝率幾乎達到了完美的99.8%,總體勝率提升至99.4%,分別提升了4.6和13.1個百分點。

同樣地,對于Llama-3-70B-Instruct模型,不接觸測試指令的隨機搜索,LC勝率為95.1%,總體勝率為91.6%。

而一旦利用測試指令,這些比率分別攀升至99.4%(LC)和98.2%(原始),LC勝率提升了約4.3個百分點,總體勝率提升了6.6個百分點。

這些結果表明直接針對測試指令進行搜索帶來的顯著優勢,進一步優化了對抗性前綴,幾乎達到了完美的表現。

4.4 結構化作弊策略能與傳統回應相結合嗎?

結構化作弊策略可以與傳統的、有信息量的回應相結合,只需將我們的作弊回應附加到原始回應上即可。

大模型榜單還能信嗎?一個假模型就能登頂排行榜-AI.x社區圖片

大模型榜單還能信嗎?一個假模型就能登頂排行榜-AI.x社區圖片

大模型榜單還能信嗎?一個假模型就能登頂排行榜-AI.x社區圖片

大模型榜單還能信嗎?一個假模型就能登頂排行榜-AI.x社區圖片

如上面4個圖所示,當與像GPT-3.5-0613這樣更提供信息的模型結合時,即使在采取重大優化步驟之前,初始勝率已經很高。

這一點在圖b和d中尤為明顯,隨著優化的深入,性能(勝率和長度控制勝率)從高基線穩步提升。

a和c中,由于不提供與輸入查詢相關的任何信息,欺騙自動標注智能體的難度大大增加。

隨著優化步驟的推進,無效模型的性能穩步提升,最終實現了有競爭力的勝率。

即使在模型輸出無關、無信息的回應這一最具挑戰性的場景下,也能操縱基于LLM的基準測試。

5 反作弊策略

5.1 模板改寫術

改寫輸入文本是對抗語言模型破解的有效防御手段。基于此理念,對抗結構化響應作弊策略之一是僅發布自動標注模板的改寫版本,同時保留真實模板的私密性。

本方法是假設改寫后的模板將更難被作弊者直接利用。

大模型榜單還能信嗎?一個假模型就能登頂排行榜-AI.x社區圖片

如上表所示,即便模板經過改寫,依然能夠達到高勝率(例如92.1%的LC勝率)。這表明,僅發布改寫模板作為防御機制是不夠的,因為即使原始模板保密,作弊策略仍然有效。需要更強有力的防御措施來徹底解決這一問題。

5.2 困惑度過濾器(PPL filter)

使用GPT-4-1106-Preview作為自動標注智能體,以評估基于困惑度(PPL)的過濾器的有效性。困惑度是利用GPT-2計算的,遵循Alon & Kamfonas(2023)描述的方法。

大模型榜單還能信嗎?一個假模型就能登頂排行榜-AI.x社區圖片

如上圖所示,盡管設定了高閾值,PPL過濾器未能持續識別出對抗性輸出。例如,結構化響應作弊策略即使勝率高達76.8%,其困惑度仍然低于閾值,使得過濾器失效。

僅依賴于困惑度,即使是窗口化配置,也不足以穩健地檢測出旨在影響LLM判斷的對抗性操作

6. 結論

即便是最基礎的模型,也能通過利用評估流程中的結構性缺陷來獲得高勝率。

6.1 局限性

? 首先,主要關注特定的基準測試,盡管結果在這些測試中得到了很好的推廣,但在其他基準測試中的有效性仍然是未知的。

? 此外,結構化響應作弊策略很大程度上依賴于手工構建結構化響應。未來的研究可以探索更自動化的方法來生成對抗性輸出,這將使對手能夠在更廣泛的范圍內利用這些漏洞。

未來研究的一個重要方向是開發更強大的反作弊機制。目前,針對LLM基準測試的作弊緩解措施主要集中在控制輸出的長度和風格上,但這些措施在面對結構化響應時已被證明是不夠的。新的防御策略對于保持LLM基準測試的完整性至關重要。

? 論文原文: https://arxiv.org/pdf/2410.07137

本文轉載自??大語言模型論文跟蹤??,作者:HuggingAGI ????

收藏
回復
舉報
回復
相關推薦
国产精品丝袜一区二区三区| 视频在线观看一区二区| 亚洲福利视频一区二区| 国产99久久精品一区二区 夜夜躁日日躁| 怡红院一区二区三区| 亚洲tv在线| 亚洲午夜国产一区99re久久| 日本在线一区| 国产99久久九九精品无码免费| 国产一级久久| 久久久极品av| 三年中国中文观看免费播放| 在线视频亚洲欧美中文| 一本一本大道香蕉久在线精品 | 一级淫片在线观看| 999福利在线视频| 中文字幕第一区| 国产一区二区精品免费| 91久久精品无码一区二区| 亚洲激情偷拍| 欧美成人精品xxx| 精品无码国产污污污免费网站 | 日韩精品黄色网| 一二三级黄色片| 99久久亚洲国产日韩美女| 亚洲 欧美综合在线网络| 亚洲日本精品| 国产在线三区| 2014亚洲片线观看视频免费| 国产成人精品一区二区三区福利| 最近中文字幕免费在线观看| 国产亚洲午夜| 国产做受69高潮| 欧美日韩中文字幕在线观看| 三上亚洲一区二区| 国产一区二区三区视频免费| 无遮挡aaaaa大片免费看| swag国产精品一区二区| 欧美一区二区三区四区在线观看| 成人黄色一区二区| 在线人成日本视频| 精品国产91乱高清在线观看 | 91视频免费看片| 狠狠综合久久av一区二区蜜桃| 亚洲国内高清视频| 色婷婷精品久久二区二区密| 国产精品x8x8一区二区| 欧美va日韩va| 亚洲精品久久一区二区三区777| 欧美二区观看| 精品国产一区二区三区四区四| 先锋资源在线视频| 91麻豆精品| 91精品麻豆日日躁夜夜躁| 91欧美视频在线| 色综合久久久| 91精品国产综合久久久蜜臀粉嫩| 五月天av在线播放| 精品国产亚洲一区二区三区| 7777女厕盗摄久久久| 亚洲理论中文字幕| 精品国产第一国产综合精品| 日韩三级电影网址| 日韩大尺度视频| 奇米777国产一区国产二区| 亚洲精品国产欧美| 91精品人妻一区二区三区蜜桃欧美| 蜜桃视频欧美| 色综合影院在线| 日本一级二级视频| 激情欧美亚洲| 国产mv免费观看入口亚洲| 日韩熟女一区二区| 日韩福利电影在线| 国产中文字幕日韩| www.久久久久久| 93久久精品日日躁夜夜躁欧美| 蜜桃狠狠色伊人亚洲综合网站| 国产日本在线视频| 日韩一区日韩二区| 性一交一乱一伧国产女士spa| 超碰资源在线| 欧美日韩国产经典色站一区二区三区| 亚洲另类第一页| 日本久久久久| 精品黑人一区二区三区久久| aaaaa一级片| 色婷婷色综合| 91国产精品电影| 亚洲视频在线观看一区二区| 国产成人在线电影| 欧美精品一区二区视频| 色影院视频在线| 亚洲第一福利一区| 午夜宅男在线视频| 国产精品任我爽爆在线播放| 亚洲色图校园春色| 中文字幕影音先锋| 蜜臀精品一区二区三区在线观看| 成人国产1314www色视频| 日韩在线免费看| 亚洲欧美在线观看| 免费观看精品视频| 久久中文字幕一区二区| 亚洲欧美中文日韩在线v日本| 男人晚上看的视频| 天堂av在线一区| av成人免费观看| av在线电影免费观看| 亚洲宅男天堂在线观看无病毒| caopor在线视频| www.久久东京| 精品自拍视频在线观看| 天天操天天干天天摸| 成人免费毛片片v| 综合操久久久| 日韩影片中文字幕| 欧美精品一区二区三区蜜桃 | 日本v片在线免费观看| 亚洲伦在线观看| 亚洲不卡视频在线| 猛男gaygay欧美视频| 久久久久免费精品国产| 国产又粗又猛又色又| 国产偷国产偷精品高清尤物 | 免费成人在线电影| 日韩免费观看高清完整版| 亚洲女人毛茸茸高潮| 国产欧美日韩亚洲一区二区三区| 91偷拍精品一区二区三区| 午夜视频在线看| 欧美亚洲高清一区二区三区不卡| 久久亚洲AV成人无码国产野外| 国自产拍偷拍福利精品免费一| 91香蕉亚洲精品| 国产在线观看a| 3d动漫精品啪啪1区2区免费| 亚洲色图日韩精品| 美腿丝袜在线亚洲一区 | 国语精品一区| 国产精品sss| 日本大胆在线观看| 日韩一级片在线观看| 日韩高清dvd碟片| 精一区二区三区| 在线一区日本视频| 二区三区精品| 欧美成人午夜免费视在线看片| 国产成年妇视频| 亚洲一区二区三区不卡国产欧美| 师生出轨h灌满了1v1| 韩日在线一区| 国产综合色一区二区三区| 国产精选在线| 亚洲男人av电影| 中文字幕 国产精品| 中文字幕不卡一区| 中文字幕在线视频一区二区三区 | 久久综合九色综合欧美就去吻| 欧美 日韩 国产 高清| 日韩动漫一区| 国产不卡av在线免费观看| 国产在线一二三区| 欧美日韩精品一区二区在线播放| 色婷婷粉嫩av| 国产成人在线观看| 欧美v在线观看| 日韩综合网站| 肥熟一91porny丨九色丨| 在线视频cao| 日韩在线视频二区| 午夜精品一区二区三| 亚洲国产精品尤物yw在线观看| 一级特级黄色片| 蜜桃av一区二区三区电影| 九九久久九九久久| 欧美有码在线| 成人免费视频网址| free性护士videos欧美| 亚洲免费一在线| 国产乱码久久久| 欧美日韩美女在线观看| 亚洲精品自拍视频在线观看| 丁香天五香天堂综合| 国产主播在线看| 9191国语精品高清在线| 国产一区二区免费电影| 成人综合网站| 久久久久久久久爱| 国产免费a∨片在线观看不卡| 91麻豆精品国产91久久久久久| 国产无遮挡免费视频| 国产欧美日韩不卡| 国产av一区二区三区传媒| 石原莉奈在线亚洲二区| 免费的一级黄色片| 狠狠色丁香婷婷综合影院| 成人高清在线观看| 欧美在线se| 欧美孕妇性xx| 影音先锋在线播放| 伊人久久精品视频| 人妻少妇精品无码专区| 欧美色老头old∨ideo| 久久高清无码视频| 国产精品全国免费观看高清 | 欧美一区 二区| 91日本在线观看| 免费观看成人性生生活片| 欧美韩日一区二区| 欧美成人xxx| 精品视频久久久| 亚洲av少妇一区二区在线观看 | 色婷婷色综合| 欧美精品在线一区| 菁菁伊人国产精品| 亚洲va电影大全| 精品福利在线| 国产成人精品久久二区二区91| 欧美xxxx黑人又粗又长| 精品国产一区二区三区久久久| 青青操视频在线| 亚洲国产成人av在线| 国产av一区二区三区| 欧美猛男gaygay网站| 日韩免费av网站| 日本久久精品电影| 三级黄色在线视频| 亚洲第一成年网| 欧美一级高潮片| 亚洲制服欧美中文字幕中文字幕| 丝袜美腿小色网| 亚洲色图制服丝袜| 国产大屁股喷水视频在线观看| 国产色综合一区| 久久久久久久毛片| 国产亚洲一区二区三区在线观看 | 首页国产精品| 日韩videos| 欧美日韩在线网站| 亚洲乱码一区二区三区三上悠亚| 九九在线高清精品视频| 免费一区二区三区| 欧美女优在线视频| 欧美专区一二三| 国产九一精品| 日韩欧美三级一区二区| 精品产国自在拍| 色噜噜狠狠一区二区三区| 青青草国产免费一区二区下载 | 亚洲调教视频在线观看| 黄色a级片免费看| 夜夜嗨一区二区| 国产一区二区三区精彩视频| 久久久久久久波多野高潮日日| 亚洲中文字幕无码不卡电影| 久久久精品网| 欧美成人福利在线观看| 国产做a爰片久久毛片| 香蕉视频xxxx| 不卡的av在线| 网站免费在线观看| 亚洲国产精品激情在线观看| 天堂网中文在线观看| 一色桃子久久精品亚洲| 欧美色图亚洲视频| 午夜伊人狠狠久久| 亚洲欧美偷拍视频| 欧美人妖巨大在线| av天堂一区二区三区| 亚洲第一页自拍| 九九热视频在线观看| 久久精品亚洲一区| а√天堂中文在线资源8| 日本久久久久久久久| 色成人综合网| 狠狠色综合欧美激情| 欧美三级美国一级| 免费在线精品视频| 一区二区三区国产在线| 在线观看国产一级片| 丁香六月综合激情| 精品人妻一区二区三区四区| 亚洲欧美激情小说另类| 在线免费观看毛片| 欧美三级韩国三级日本一级| h片在线免费看| 亚洲色无码播放| 日本小视频在线免费观看| 日本高清视频一区| 欧美视频二区欧美影视| 精品国产乱码久久久久久蜜柚| 成人动漫免费在线观看| 亚洲中文字幕无码一区二区三区 | 国产成+人+综合+亚洲欧洲| 成人在线精品| 欧美日韩综合久久| 狠狠色丁香久久综合频道| 一道本视频在线观看| 成人一区二区视频| 精品在线观看一区| 色猫猫国产区一区二在线视频| 精品久久国产视频| 在线观看国产成人av片| 7777kkk亚洲综合欧美网站| 成人黄色免费看| 精品国产视频| 国产精品333| 国产激情视频一区二区在线观看 | 国产精品久久久亚洲| 成人爽a毛片| 50度灰在线观看| 久久99精品久久久久| 久久精品—区二区三区舞蹈| 亚洲超碰精品一区二区| 国产三级小视频| 中文字幕一区日韩电影| 中文字幕在线免费观看视频| 99re在线观看| 影音先锋日韩在线| 色噜噜狠狠一区二区| 国产日韩av一区二区| 日韩在线视频不卡| 日韩成人网免费视频| 超免费在线视频| 91香蕉视频在线下载| 亚洲电影在线一区二区三区| 91欧美视频在线| 国产精品成人免费在线| 亚洲图片视频小说| 怡红院精品视频| 国产精成人品2018| 亚洲精品一卡二卡三卡四卡| 视频一区免费在线观看| 好吊视频在线观看| 欧美性猛交xxxx富婆| 完全免费av在线播放| 欧美一区二区三区电影在线观看| 一二三区精品| jlzzjizz在线播放观看| 亚洲国产综合91精品麻豆| 亚洲精品18p| 久久久久国产精品www| 国产精品极品国产中出| 阿v天堂2018| 99精品在线免费| 成年人免费看毛片| 日韩精品中文字幕在线观看| 欧美人与性动交xxⅹxx| 欧美日韩国产免费一区二区三区| 麻豆91精品| 99热99这里只有精品| 91精品国产综合久久蜜臀| 调教一区二区| 久久青青草综合| 日韩激情av在线| 日本裸体美女视频| 欧美一区二区三区在线观看| 亚洲大胆人体大胆做受1| 国产亚洲第一区| 久久一区视频| 天天鲁一鲁摸一摸爽一爽| 日韩丝袜情趣美女图片| av色在线观看| 欧美在线播放一区| 麻豆91在线观看| 久久久久久国产精品视频| 日韩精品免费在线观看| 高清av一区| 欧美人与动牲交xxxxbbbb| 91免费在线播放| 在线免费一级片| 97精品视频在线播放| 国模精品一区| 国产精品无码自拍| 一本在线高清不卡dvd| 免费av在线| 久久精品国产美女| 久草精品在线观看| 日韩人妻无码一区二区三区99| 一个色综合导航| 韩国一区二区三区视频| 欧美一级在线看| 中文字幕亚洲视频| 全部免费毛片在线播放一个| 国产精品免费电影| 欧美日韩天堂| 四虎国产成人精品免费一女五男| 欧美va亚洲va| 成人国产精品一区二区免费麻豆| 国产xxxx振车| 国产精品白丝在线| 四虎精品在线| 99久久99久久精品国产片| 日韩电影在线看| 日韩免费一级片| 久久这里只有精品99| 国产成人ay| 丰满岳乱妇一区二区| 在线播放中文一区|