精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

你的LLM評估方法過時了嗎?這三個范式轉(zhuǎn)變不容錯過 原創(chuàng)

發(fā)布于 2025-1-26 10:03
瀏覽
0收藏


編者按: 在大語言模型時代,你是否也在為評估方法感到困惑?當(dāng)開發(fā)周期越來越快,傳統(tǒng)的評估思維卻步履維艱 —— 新版本剛上線,評估指標就失效了;想要建立長期基準測試,卻總是事與愿違;人工評估成本高昂,全自動評估又難盡人意...

我們今天為大家?guī)淼倪@篇文章,作者認為在 LLM 時代,我們需要對評估體系進行根本性的范式轉(zhuǎn)變,而不是簡單地沿用傳統(tǒng)機器學(xué)習(xí)的評估方法。

文章從作者在 Quora、Waymo 等公司的一線實踐經(jīng)驗出發(fā),提出了三個關(guān)鍵的評估范式轉(zhuǎn)變:首先,評估工作應(yīng)當(dāng)從開發(fā)流程的配角轉(zhuǎn)變?yōu)橹鹘牵驗?LLM 應(yīng)用開發(fā)中可調(diào)整的參數(shù)相對有限,而輸出的多樣性卻大大增加;其次,我們應(yīng)當(dāng)采用“比較差異”的基準測試方法,這種方法雖然無法得到絕對的性能指標,但能更高效地指導(dǎo)迭代方向;最后,我們要正視并優(yōu)化人工評估的重要性,而不是一味追求完全自動化的評估方案。

作者 | 姜礪礪

編譯 | 岳揚

在我的職業(yè)生涯中,我一直致力于為機器學(xué)習(xí)系統(tǒng)打造評估體系。在擔(dān)任 Quora 數(shù)據(jù)科學(xué)部門負責(zé)人時,我們?yōu)樾侣勗磁判颉V告投放、內(nèi)容審查等構(gòu)建了評估機制。在 Waymo,我們團隊為自動駕駛汽車開發(fā)了評估標準。而在金融科技初創(chuàng)公司 Coverbase,我們利用大語言模型(LLMs)來簡化第三方風(fēng)險管理的流程。這些經(jīng)歷讓我意識到,在使用大語言模型時,我們需要在評估思路上做出一些細微而重要的調(diào)整。

本文的目的不在于為你的 LLM 應(yīng)用提供具體的評估方法,而是提出以下三種評估范式的轉(zhuǎn)變:

  1. 評估應(yīng)當(dāng)是主體而非點綴。
  2. 比較差異的基準測試 。
  3. 將人工參與作為評估不可或缺的一部分。

需要說明的是,本文的討論重點是 LLMs 的應(yīng)用,而非基礎(chǔ)模型的研究開發(fā)。 同時,盡管文章標題如此,但我在本文提到的許多觀點同樣適用于其他生成系統(tǒng)(這得益于我在自動駕駛領(lǐng)域的經(jīng)驗),而不僅僅是 LLMs 的應(yīng)用。

01 評估應(yīng)當(dāng)是主體而非點綴

在機器學(xué)習(xí)的開發(fā)過程中,評估的重要性不言而喻,這一點對于 LLM 來說尤為突出。我認為 LLM 開發(fā)中評估的重要性提升有兩個原因:

a) 評估的比重增加了,因為在構(gòu)建 LLM 應(yīng)用時,可操作的空間相對有限,導(dǎo)致非評估工作的耗時減少。 在 LLM 應(yīng)用的開發(fā)過程中,我們通常是在 OpenAI 的 GPT 或 Anthropic 的 Claude 等基礎(chǔ)模型之上進行構(gòu)建,而在應(yīng)用層面可調(diào)整的參數(shù)較少。這些參數(shù)的調(diào)整速度更快(需要注意的是,雖然調(diào)整速度快,但并不意味著能更快地達到理想效果)。例如,修改輸入提示詞的效率遠高于為梯度提升決策樹(Gradient-Boosted Decision Tree)編寫新的人工特征。因此,非評估的工作量減少,評估所占的時間比例自然就提高了。

你的LLM評估方法過時了嗎?這三個范式轉(zhuǎn)變不容錯過-AI.x社區(qū)

Image by author

b) 評估的絕對重要性也有所提升,因為生成式 AI 的輸出具有極大的多樣性,這使得評估工作變得更加復(fù)雜。 與分類或排序任務(wù)不同,生成式 AI 的任務(wù)(比如撰寫關(guān)于某個主題的文章、制作某張圖像、為自動駕駛汽車規(guī)劃行駛軌跡)可能有無數(shù)種合理的輸出結(jié)果。因此,評估實際上是一個將高維空間投射到低維空間的過程。例如,對于 LLM 任務(wù),我們可以評估:“輸出內(nèi)容是否真實可靠?”,“是否含有有害信息?”,“語言表達是否簡潔?”,“是否頻繁使用‘當(dāng)然!’等詞匯開頭?”,等等。在二元分類任務(wù)中,精確率和召回率是對結(jié)果的無損度量(直接測量你所觀察到的結(jié)果),而我提到的 LLM 任務(wù)的評估指標則是對輸出文本的損失性度量(測量的是你所觀察結(jié)果的簡化版)。準確地進行這種評估要困難得多。

這種評估范式的轉(zhuǎn)變,對于 LLM 應(yīng)用項目團隊的建設(shè),包括團隊規(guī)模和人員招聘,都具有實際的影響。

02 比較差異的基準測試

理想狀況是:我們在一個目標指標上不斷攀升,并持續(xù)改進。

你的LLM評估方法過時了嗎?這三個范式轉(zhuǎn)變不容錯過-AI.x社區(qū)

Image by author

但現(xiàn)實情況如何呢?

在圖表上,你幾乎連兩個連續(xù)的數(shù)據(jù)點都畫不出來!

以下場景你可能似曾相識:

第一次產(chǎn)品上線后,我們收集到了更多數(shù)據(jù),導(dǎo)致新的指標數(shù)據(jù)與之前的不具備直接可比性。而且,我們無法在新數(shù)據(jù)集上重新運行舊模型 —— 可能是因為系統(tǒng)其他部分已經(jīng)更新升級,無法回退到舊版本來復(fù)現(xiàn)模型;又或者是評估指標依賴于 LLM 作為評判標準,而數(shù)據(jù)集龐大,每次評估的成本過高,等等。

第二次產(chǎn)品上線后,我們決定改變輸出結(jié)構(gòu)。例如,之前我們指導(dǎo)模型輸出“是”或“否”的答案;現(xiàn)在我們讓模型輸出“是”、“否”、“可能”或“我不知道”。因此,之前精心準備的基準測試數(shù)據(jù)集變得不再適用。

第三次產(chǎn)品上線后,我們決定將單個 LLM 調(diào)用拆分為兩個 LLM 調(diào)用的復(fù)合調(diào)用,并需要評估這些子組件。為此,我們需要為子組件評估準備新的數(shù)據(jù)集。

……

問題的核心在于,在 LLM 時代,開發(fā)周期如此之快,以至于很難對同一指標進行持續(xù)追蹤。

那么,我們應(yīng)該如何應(yīng)對?

關(guān)注性能的變動。

換句話說,我們應(yīng)該接受這樣一個事實:在圖表上,我們通常只能看到兩個連續(xù)的數(shù)據(jù)點(譯者注:例如,一個代表當(dāng)前版本的性能,另一個代表新版本的性能)。關(guān)鍵是要確保每個模型版本都比前一個版本有所改進(基于你當(dāng)時所掌握的知識),盡管我們很難從絕對意義上了解模型的性能水平。

假設(shè)我有一個基于 LLM 的語言學(xué)習(xí)輔導(dǎo)程序,它能夠首先判斷輸入內(nèi)容是英語還是西班牙語,然后提供語法建議。一個簡單的評估指標就是“英語/西班牙語”標簽的準確率。現(xiàn)在,如果我修改了提示詞,并想要知道新的提示詞是否提升了準確率。除了手動標注大量數(shù)據(jù)并計算準確率之外,還有一種方法,就是只關(guān)注那些舊提示詞和新提示詞給出不同標簽的數(shù)據(jù)點。這樣雖然無法得知兩個模型的絕對準確率,但我可以確定哪個模型的準確率更高。

你的LLM評估方法過時了嗎?這三個范式轉(zhuǎn)變不容錯過-AI.x社區(qū)

Image by author

我想明確一點,我并非全盤否定以絕對值為基準的價值。我的意思是,我們應(yīng)該意識到這種做法的成本,而比較差異的基準測試(雖然它不能完全替代前者),通常是一種更經(jīng)濟高效的方法來得出大致的方向性結(jié)論。 這種范式的轉(zhuǎn)變,其根本原因之一在于,如果你是從零開始構(gòu)建機器學(xué)習(xí)模型,那么你通常需要精心準備一個大規(guī)模的訓(xùn)練集,評估數(shù)據(jù)集往往就是這一過程的自然產(chǎn)物。但這一點在利用預(yù)訓(xùn)練模型進行零樣本或小樣本學(xué)習(xí)時并不適用(例如大語言模型)。

再舉一個例子,假設(shè)我有一個基于 LLM 的評估指標:我們用一個獨立的 LLM 來判斷 LLM 語言導(dǎo)師所提供的解釋是否足夠清晰。有人可能會問:“既然評估已經(jīng)自動化,比較差異的基準測試是否仍然比基于絕對值的基準測試更節(jié)省成本?”答案是肯定的。因為現(xiàn)在的評估指標更為復(fù)雜,我們可以不斷優(yōu)化這些指標本身(比如對 LLM 的提示詞進行工程優(yōu)化)。一方面,我們?nèi)匀恍枰獙υu估結(jié)果本身進行評估,比較差異的基準測試能夠告訴我們新的指標版本是否有所改進。另一方面,隨著基于 LLM 的評估指標不斷演進,如果我們只關(guān)注比較 LLM 語言導(dǎo)師模型的相鄰版本,那么就無需費心用新版本的評估指標來補充所有舊版本模型的基準測試結(jié)果。

比較差異的基準測試可以作為一種高效的內(nèi)循環(huán)快速迭代機制,而將成本較高的基于絕對值的基準測試或長期跟蹤方法留到外循環(huán)的低頻次迭代中使用。

03 將人工參與作為評估不可或缺的一部分

如上文所述,想要一勞永逸地篩選出一個完美無缺的黃金數(shù)據(jù)集,用以長期作為基準的想法可能并不現(xiàn)實。篩選工作將是一個持續(xù)且必要的開發(fā)環(huán)節(jié),無論是直接對 LLM 的輸出進行篩選,還是對充當(dāng)評委的 LLM 或其他更復(fù)雜指標進行篩選。我們應(yīng)該致力于讓評估工具盡可能具備可擴展性;關(guān)鍵在于,即便如此,我們也不應(yīng)幻想能夠完全擺脫人工篩選。 我們越快接受這一點,就能越早開始對工具進行正確的投資。

因此,無論我們選用何種評估工具,無論是自研還是外部采購,都應(yīng)確保有一個簡便易用的人工篩選界面。基本的界面可能如下所示:結(jié)合之前提到的比較差異的基準測試,它提供了一個并排比較的面板,用戶可以輕松瀏覽結(jié)果。同時,該界面還應(yīng)支持用戶輕松記錄篩選筆記,以便這些筆記未來可以作為黃金標簽(golden labels)用于基準測試(從而減輕未來的篩選工作負擔(dān))。

更高級的版本應(yīng)當(dāng)是盲測模式,篩選者不知道哪一邊是哪個版本。我們的數(shù)據(jù)多次證實,如果不進行盲測,即便是開發(fā)人員出于好意,也可能會有下意識地傾向于自己開發(fā)的版本。

這三個范式的轉(zhuǎn)變,一旦被識別,適應(yīng)起來其實并不復(fù)雜。真正的挑戰(zhàn)在于,如何在興奮和快速的開發(fā)節(jié)奏中提前發(fā)現(xiàn)這些轉(zhuǎn)變。我希望分享這些思考能夠幫助那些在工作中面臨類似挑戰(zhàn)的人們。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the author

Lili Jiang

Fmr. Eng leadership at Waymo, Head of Data at Quora

END

本期互動內(nèi)容 ??

?除了文中提到的三個范式轉(zhuǎn)變,你覺得在LLM評估方面還有什么值得關(guān)注的新趨勢?

原文鏈接:

??https://towardsdatascience.com/paradigm-shifts-of-eval-in-the-age-of-llm-7afd58e55b29??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
欧美另类videos死尸| 免费一级片91| 亚洲爱爱爱爱爱| 亚洲熟妇无码另类久久久| 日本一卡二卡四卡精品| 青青草精品视频| 九九热这里只有精品免费看| av无码一区二区三区| 福利一区二区三区视频在线观看| 亚洲色图在线看| 极品日韩久久| 国产精品一区二区人人爽| 亚洲激情自拍| 一区二区三区天堂av | 蜜臀精品一区二区三区在线观看 | 69成人精品免费视频| 免费看毛片的网址| 三区四区在线视频| 91色porny蝌蚪| 99久久久久国产精品免费| 永久免费无码av网站在线观看| 国产精品久久久久无码av| 国产视频亚洲视频| aaa黄色大片| 亚洲欧洲日韩精品在线| 欧美午夜丰满在线18影院| 日韩人妻一区二区三区蜜桃视频| 久热av在线| www.一区二区| 99se婷婷在线视频观看| 在线观看中文字幕码| 性欧美videos另类喷潮| 欧美极品少妇xxxxⅹ喷水| 可以免费看av的网址| 国产伦精品一区二区三区精品 | 日韩精品中文字| 中文字幕第三区| 国产69精品久久| 欧美性猛交xxxx富婆弯腰| 久艹在线免费观看| 18+视频在线观看| 中文字幕一区二区三区四区| 色狠狠久久av五月综合| 美女毛片在线看| 91麻豆免费观看| 免费亚洲一区二区| 日本黄色大片视频| 99精品国产99久久久久久白柏 | 久久黄色片网站| 日本在线中文字幕一区二区三区| 日韩欧美成人精品| 无码播放一区二区三区| 理论不卡电影大全神| 亚洲成人综合视频| 日本a视频在线观看| 欧美黄色视屏| 亚洲一区中文日韩| 久久国产精品网| av在线视屏| 精品人伦一区二区三区蜜桃网站| 免费看黄在线看| 国产福利片在线观看| 精品免费在线视频| 国产在线观看福利| 成人国产精品入口免费视频| 欧美日韩在线三级| 国产乱码一区二区三区四区| 视频精品一区| 亚洲精品一区在线观看| 女同毛片一区二区三区| 怕怕欧美视频免费大全| 中文字幕9999| 朝桐光av在线| 日韩美一区二区| 欧美在线导航| 日韩精品中文在线观看| 亚洲精品一区二区三区影院忠贞| 欧美日中文字幕| 久久精品亚洲国产| 国产精品成人aaaa在线| 久久国产毛片| 91久久夜色精品国产网站| 亚洲欧美另类综合| 久久毛片高清国产| 在线观看视频黄色| 欧美裸体视频| 欧美电影在线免费观看| 丰满岳乱妇一区二区| 精品99久久| 大量国产精品视频| 在线观看亚洲天堂| 激情深爱一区二区| 精品伦精品一区二区三区视频| 国产永久免费高清在线观看| 一区在线中文字幕| 久久无码高潮喷水| www.久久热| 亚洲女人天堂av| 岛国毛片在线观看| 久久亚洲电影| 成人欧美一区二区三区视频 | 国产欧美日本一区二区三区| 男人天堂网站在线| 国产麻豆久久| 精品久久久久久亚洲综合网| 欧美一区二区三区粗大| 亚洲特色特黄| 成人妇女淫片aaaa视频| 欧美色图另类| 一区二区三区 在线观看视频| 99蜜桃臀久久久欧美精品网站| 国产精品亚洲欧美一级在线 | 怡红院一区二区三区| 狠狠入ady亚洲精品经典电影| 国产成人精品av在线| 人妻少妇精品无码专区久久| 国产精品国产三级国产| 蜜臀久久99精品久久久酒店新书 | 蜜臀精品一区二区三区在线观看| 激情视频一区二区| 日韩激情美女| 91精品国产一区二区三区香蕉| 久久精品一区二区免费播放| 亚洲狠狠婷婷| 99在线看视频| 在线中文字幕第一页| 欧美性色黄大片| 熟妇高潮精品一区二区三区| 国内精品久久久久久久影视蜜臀| 成人精品福利视频| 日本在线天堂| 欧美在线一区二区| 插吧插吧综合网| 99国产精品视频免费观看一公开| 91精品国产高清久久久久久91裸体| 中文字幕在线视频区| 欧美自拍偷拍午夜视频| 18禁裸乳无遮挡啪啪无码免费| 亚洲一级特黄| 国产精品污www一区二区三区| 国产在线1区| 3751色影院一区二区三区| 亚洲自拍偷拍图| 麻豆亚洲精品| 乱一区二区三区在线播放| av在线私库| 日韩精品极品视频| 国产成人精品亚洲男人的天堂| 成人一区二区视频| 久久国产精品网| 日韩mv欧美mv国产网站| 97久久精品国产| 三区在线观看| 在线观看av一区| 妖精视频在线观看免费| 久久激五月天综合精品| 午夜久久久久久久久久久| 精品一区二区三区视频在线播放| 九色成人免费视频| 日本激情一区二区| 色婷婷精品久久二区二区蜜臂av| 六月婷婷七月丁香| 日本成人超碰在线观看| 一区二区三区久久网| 欧美一区在线观看视频| 高清欧美一区二区三区| 免费成人av电影| 欧美探花视频资源| 中文字幕在线有码| 成人免费视频网站在线观看| 无码人妻丰满熟妇区96| 国产欧美日韩| 亚洲一区二区少妇| 久操av在线| 日韩精品在线观看视频| 国产成人a v| 亚洲乱码一区二区三区在线观看| 中文字幕天堂av| 水野朝阳av一区二区三区| 中文字幕色一区二区| 国产丝袜一区| 国产精品视频26uuu| 免费在线看电影| 亚洲美女在线观看| 99久久精品免费看国产交换| 午夜精品视频在线观看| 欧美福利第一页| 国产福利一区二区| 欧美韩国日本在线| 综合久久婷婷| 日本精品一区二区| 精品一区二区三区亚洲| 日韩免费观看网站| 欧美videossex| 在线观看日韩av| 欧美一级淫片免费视频魅影视频| 日本高清不卡aⅴ免费网站| 日本天堂中文字幕| 久久精品夜夜夜夜久久| 免费在线观看日韩av| 日本女人一区二区三区| 日韩人妻无码精品久久久不卡| 欧美日韩性在线观看| 国产精品久久九九| 亚洲精品aaa| 青青青国产精品一区二区| 在线观看av免费| 色yeye香蕉凹凸一区二区av| 五月激情婷婷综合| 日韩一区二区三区在线视频| 波多野结衣毛片| 婷婷中文字幕综合| 欧美成人精品欧美一级| 国产精品私人影院| 91成年人网站| 99久久精品免费看| wwwww在线观看| 国产一区高清在线| 五月婷婷深爱五月| 国产精品久久久免费| 久久这里只有精品18| 婷婷激情综合| 亚洲mv在线看| 奇米狠狠一区二区三区| 久久精品综合一区| 国产精品zjzjzj在线观看| 91色中文字幕| 精品福利在线| 国产精品久久网| 91av亚洲| 欧洲永久精品大片ww免费漫画| 成人性生交大片免费看网站| 久久天堂av综合合色| аⅴ资源新版在线天堂| 亚洲欧美国产一本综合首页| 亚洲aⅴ在线观看| 精品无人区太爽高潮在线播放 | 日韩在线网址| 亚洲一区二区三区在线视频| 电影91久久久| 69堂成人精品视频免费| а天堂中文最新一区二区三区| 国产精品你懂得| 成人1区2区| 国产乱肥老妇国产一区二| 国产欧美自拍| 国产欧美日韩中文| 在线成人免费| 亚洲free嫩bbb| 波多野结衣欧美| 国产视频在线观看一区| 美日韩黄色大片| 麻豆91蜜桃| 欧美老女人另类| 正在播放一区| 国产精品v日韩精品v欧美精品网站| 51xx午夜影福利| 亚洲人体偷拍| 欧美韩国日本在线| 美女高潮久久久| 香蕉视频xxx| 懂色av中文一区二区三区| 国产一卡二卡三卡四卡| 91丝袜美腿高跟国产极品老师| 无码h肉动漫在线观看| 国产精品丝袜一区| 欧美成人片在线观看| 精品日本高清在线播放| 亚洲视屏在线观看| 91精品国产综合久久香蕉的特点 | 日本免费一区二区三区等视频| 成人观看高清在线观看免费| 91久久精品无嫩草影院| 精品久久久三级| 欧美电影一区| 日本a级片在线播放| 国产精品久久777777毛茸茸| 久久精品影视大全| 成人自拍视频在线| a级大片在线观看| 亚洲视频狠狠干| xxxx.国产| 欧美精品在线观看播放| 国内爆初菊对白视频| 一区二区三区无码高清视频| 污视频网站在线免费| 日本成人精品在线| 麻豆久久一区| 欧美精品免费观看二区| 亚洲最大av| www.国产区| 国产麻豆精品久久一二三| 国产制服丝袜在线| 亚洲免费观看在线观看| 欧美一区二区三区不卡视频| 日韩无一区二区| 国产精品四虎| 久久人91精品久久久久久不卡| 国产成人精选| 精品伦理一区二区三区| 欧美在线高清| 天天天干夜夜夜操| 99精品视频一区二区| 精品人妻伦九区久久aaa片| 色婷婷久久久综合中文字幕| 欧美 日韩 国产 成人 在线| 久久久av网站| 成人在线视频观看| 欧美日韩国产高清视频| 午夜性色一区二区三区免费视频| 久久久久免费精品| 99精品视频在线观看| 精国产品一区二区三区a片| 欧美日韩中文字幕精品| 欧洲毛片在线| 欧美亚洲国产日韩2020| 国产精品chinese在线观看| 日本不卡一区二区三区四区| 免费人成精品欧美精品| 亚洲av无码一区二区二三区| 亚洲高清免费观看高清完整版在线观看| 亚洲一区二区影视| 夜夜嗨av一区二区三区四区| 忘忧草在线影院两性视频| 俄罗斯精品一区二区三区| 91精品综合久久久久久久久久久 | 自拍偷拍99| 日韩成人免费看| 精品无人区无码乱码毛片国产| 精品久久久在线观看| 日韩一级免费视频| 久久久女人电视剧免费播放下载 | 91精品国产一区二区三区蜜臀| av大片在线观看| 国产精品免费一区豆花| 成人三级视频| 亚洲一区二区三区四区五区xx| 国产午夜精品一区二区三区嫩草 | 欧美视频完全免费看| 国产系列在线观看| 国产精品wwww| 欧美日韩第一| 日日噜噜夜夜狠狠| 中文乱码免费一区二区| 中文字幕你懂的| 色噜噜狠狠狠综合曰曰曰| 婷婷久久免费视频| 一区中文字幕在线观看| 国产揄拍国内精品对白| 欧美日韩在线观看成人| 精品免费视频.| rebdb初裸写真在线观看| 国严精品久久久久久亚洲影视| 亚洲三级电影在线观看| 久久精品老司机| 91成人看片片| 日本a级在线| 99在线热播| 免费日韩一区二区| 刘亦菲国产毛片bd| 91麻豆精品国产自产在线| 激情网站在线| 久中文字幕一区| 日本欧美韩国一区三区| 午夜精品福利在线视频| 精品处破学生在线二十三| 最近在线中文字幕| 午夜欧美性电影| 国产一区二区导航在线播放| 国产网站在线看| 亚洲欧美制服第一页| 国产69精品久久久久9999人| 毛片在线视频观看| 久久影院午夜论| 亚洲熟妇av乱码在线观看| 欧美美最猛性xxxxxx| 偷拍自拍亚洲色图| 亚洲娇小娇小娇小| 亚洲午夜久久久久久久久电影网| 熟妇人妻中文av无码| 国产精品久久久久久久久久久久久久| 五月婷婷六月综合| 国产精品无码在线| 在线播放中文一区| 国产精品论坛| 亚洲国产高清国产精品| 国产激情一区二区三区桃花岛亚洲| 免费在线不卡视频| 日韩在线中文视频| 日韩精品丝袜美腿| 午夜久久福利视频| 欧美日韩视频免费播放| 美女av在线播放| 欧美激情www| 国产99久久久精品| 亚洲免费视频二区| 1769国产精品| 国精品一区二区| 91制片厂在线| 亚洲免费一级电影|