精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

<ul id="gmica"></ul>

<del id="gmica"></del>

<strike id="gmica"></strike>

<ul id="gmica"></ul>

<strike id="gmica"></strike>

<ul id="gmica"></ul>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

27歲華裔天才少年對打UC伯克利，首發(fā)SEAL大模型排行榜！Claude 3 Opus數(shù)學(xué)封神

作者：新智元 2024-05-30 14:23:00

人工智能新聞

一直以來，UC伯克利團隊的LMSYS大模型排行榜，深受AI圈歡迎。如今，最有實力的全新大模型排行榜SEAL誕生，得到AI大佬的轉(zhuǎn)發(fā)。它最大的特點是在私有數(shù)據(jù)上，由專家嚴(yán)格評估，并隨時間不斷更新數(shù)據(jù)集和模型。

前段時間，由27歲的華裔創(chuàng)始人Alexandr Wang領(lǐng)導(dǎo)的Scale AI剛剛因為融資圈了一波關(guān)注。

今天，他又在推特上官宣推出全新LLM排行榜——SEAL，對前沿模型開展專業(yè)評估。

SEAL排行榜主打三個特色：

- 私有數(shù)據(jù)

Scale AI的專有私有評估數(shù)據(jù)集無法被操控，確保了結(jié)果的公正性和無污染。

- 不斷發(fā)展

定期使用新的數(shù)據(jù)集和模型更新排行榜，營造一個動態(tài)的競賽環(huán)境。

- 專家評估

評估由經(jīng)過嚴(yán)格審查的專家進行，確保最高的質(zhì)量和可信度。

榜單地址：https://scale.com/leaderboard

這篇推特獲得了Jim Fan大佬的轉(zhuǎn)發(fā)，他認(rèn)為SEAL是LMSys的非常好的補充和參照，提供公開模型的私密、安全、可信的第三方評估。

對此，Andrej Karpathy也深以為然。

代碼

在代碼任務(wù)中，GPT-4 Turbo Preview位列第一，然后是GPT-4o、Gemini 1.5 Pro（Post-I/O）。

而專門訓(xùn)練的代碼模型CodeLlama 34B Instruct排在了第11位。

Scale AI編碼提示集包含1,000個提示，涵蓋各種編程語言、學(xué)科和編程任務(wù)，從調(diào)試到代碼優(yōu)化，從文檔生成到理解復(fù)雜代碼庫，等等。

諸如HumanEva、Pass@k、MBPP、SWE-Bench、LiveCodeBench等評估基準(zhǔn)在首次出現(xiàn)時很有用，但隨著模型開始過擬合，它們已經(jīng)變得不那么有價值了。

此外，這些模型與這些基準(zhǔn)進行評估的方法往往不標(biāo)準(zhǔn)化，缺乏跨測試或隨時間比較分?jǐn)?shù)的核心要求。

Scale編碼評估提供了一個標(biāo)準(zhǔn)化的LLM評估框架，能夠跨模型進行比較并識別其優(yōu)缺點。目前，它涵蓋了最常請求的編程語言的用例集。

代碼生成：根據(jù)給定的自然語言規(guī)范或描述創(chuàng)建新代碼。
代碼修復(fù)：識別并糾正現(xiàn)有代碼中的錯誤。例如，調(diào)試、解決語法錯誤和修復(fù)邏輯錯誤。
代碼理解：解釋、闡明或澄清現(xiàn)有代碼。例如，闡明某些代碼段的工作原理，分解復(fù)雜算法。
代碼修改：對現(xiàn)有代碼進行更改或調(diào)整以滿足新要求或條件。例如，更改功能，更新或增強特性。
代碼優(yōu)化：提高現(xiàn)有代碼的性能。例如，提高效率，減少資源消耗（如內(nèi)存或處理時間）。
學(xué)習(xí)輔助：幫助學(xué)習(xí)或理解編程概念、語言或工具。例如，提供最佳實踐指導(dǎo)，解釋編程概念。
代碼翻譯：將代碼從一種編程語言轉(zhuǎn)換為另一種語言，并根據(jù)目標(biāo)語言的最佳實踐調(diào)整代碼結(jié)構(gòu)、風(fēng)格和習(xí)慣用法。
建議提供：提供關(guān)于編碼實踐、工具、庫或框架的建議或意見。
注釋改進：在現(xiàn)有代碼中添加或改進注釋。
測試開發(fā)：開發(fā)、增強或修復(fù)現(xiàn)有代碼的測試。

用例分布

編碼語言分布

為了確保評估過程的徹底性和可靠性，每個任務(wù)由不同的人工注釋員并行執(zhí)行了三次。

評分經(jīng)過兩個階段的審查：初步審查層和最終審查層。

這種評估方法不僅生成總體排名，還有助于突出模型在不同領(lǐng)域的優(yōu)勢和劣勢，并回答以下問題：

- 模型在SQL、Java、HTML/CSS和C++提示上的表現(xiàn)如何？

- 模型在復(fù)雜場景中的競爭力如何？

評估方法

測試?yán)踝?/span>

結(jié)果分析

模型通常在「注釋」和「理解」任務(wù)中表現(xiàn)良好，但在「翻譯」和「生成」任務(wù)中常遇到困難。

此外，「正確性/功能性」和「可讀性/文檔」也是所有模型的兩個主要錯誤來源。

- GPT

兩個GPT-4模型在各種用例中表現(xiàn)最為一致。其中，較新的gpt-4o-2024-05-13相比gpt-4-0125-preview更容易出現(xiàn)可讀性問題，有時會不必要地重復(fù)提示中的代碼，導(dǎo)致響應(yīng)更加冗長。

- Gemini

所有三個Gemini模型在建議任務(wù)中表現(xiàn)出色，分別排名第1、第2和第3，但在測試任務(wù)中表現(xiàn)較差。新的gemini-1.5-pro-preview-0514相比之前的gemini-1.5-pro-preview-0409有顯著提升，特別是在「正確性/功能性」和「可讀性/文檔」方面。

- Claude

claude-3-opus-20240229通常比claude-3-sonnet-20240229表現(xiàn)更好，特別是在「正確性/功能性」類別中錯誤更少，除了某些翻譯任務(wù)。

數(shù)學(xué)

在數(shù)學(xué)分類榜中，Claude 3 Opus竟打敗了GPT-4 Turbo Preview霸占榜首，然后第三名是GPT-4o.

另外，Claude 3的「中杯」模型Sonnet，都超過了Gemini系列的模型。

不得不說，在數(shù)學(xué)這塊，還是Claude3是王者。

數(shù)學(xué)和推理仍然是當(dāng)前大語言模型（LLM）面臨的主要未解決問題之一。然而，現(xiàn)有的公共基準(zhǔn)如GSM8k卻存在著致命的數(shù)據(jù)污染問題。

為全面評估模型的各方面能力，Scale AI設(shè)計了一個全新的數(shù)學(xué)和推理數(shù)據(jù)集——GSM1k。

GSM1k基于GSM8k基準(zhǔn)的分布和難度，并引入全新的一組問題。其中，包含了一系列相當(dāng)于五年級數(shù)學(xué)考試水平的數(shù)學(xué)問題。

它的構(gòu)建花了不到3周的時間，標(biāo)注團隊的成員包括小學(xué)數(shù)學(xué)教育者和具有教育、數(shù)據(jù)分析、計算機科學(xué)、物理和經(jīng)濟學(xué)背景的專家。

值得注意的是，GSM1k的數(shù)據(jù)收集過程并沒有用到LLM的幫助。

此外，為了防止模型在GSM1k上過擬合，團隊決定僅公開1,000個問題中的50個樣本。

測試?yán)踝?/span>

指令跟隨

針對模型指令跟隨測試，GPT-4o、GPT-4 Turbo Preview、Llama 3 70B Instruct分別躍居前三。

同時，Mistral Large的實力也不輸其他的模型。

這說明在能否準(zhǔn)確遵循人類提示方面，GPT-4系列模型還是更厲害些。

Scale AI精確指令跟隨提示數(shù)據(jù)集包含1,054個指令跟隨提示，目的是評估AI模型解釋和執(zhí)行詳細(xì)命令的能力，重點在于精確性和具體性，并解決過擬合問題。

數(shù)據(jù)集中的提示共分為9類，包括「扮演……的角色」、內(nèi)容創(chuàng)作和頭腦風(fēng)暴，并涵蓋指令跟隨任務(wù)的實際應(yīng)用和用例。

它由一個40多名人工標(biāo)注員組成的多樣化團隊生成，并通過五個步驟的開發(fā)，確保提示能夠測試模型理解和執(zhí)行具體指令的能力。

最終，實現(xiàn)對模型對這些提示集的響應(yīng)進行人工評估。

測試?yán)踝?/span>

西班牙語

在西班牙語測試上，GPT-4o霸榜第一，而Gemini 1.5 Pro（Post-I/O）超過了GPT-4 Turbo Preview。

隨后，Gemini另外兩個模型也進入榜單前五。

在Scale AI多語言提示數(shù)據(jù)集中，每個語種都包含1,000個提示，目的是提升模型在多種語言中的交互能力。

數(shù)據(jù)集特別針對西班牙用戶，包括來自西班牙、墨西哥和拉丁美洲其他地區(qū)的用戶。

雖然排行榜目前只包含西班牙語，但在未來的更新中，會擴展到更多語言。

方法

如何計算Elo評分排名

在評估過程中，人工評審會比較兩個模型對同一提示的回答，并在多個方面評估哪個更好。根據(jù)這些評分，便可以確定哪個模型贏了、哪個輸了，或者打平。

此外，團隊還采用了與Chatbot Arena相同的方法，使用Bradley-Terry模型對我們的數(shù)據(jù)點進行重新權(quán)重的最大似然估計。

首先是一些定義：

對于??個模型，用??={(??,??′):??<??′, and ??,??′∈[??]}表示比較數(shù)據(jù)集。

在??∈??時，向人工評審提供一對模型????∈??，并記錄評審的回應(yīng)????∈[0,0.5,1]。

其中，1表示模型??優(yōu)于模型??′，而0.5則表示兩個模型同樣受歡迎。

通過Bradley-Terry，利用邏輯關(guān)系來模擬這種情況發(fā)生的概率：

其中，??是一個M長的BT系數(shù)向量。然后，通過最小化二元交叉熵?fù)p失來估計BT系數(shù)：

其中，??是二進制交叉熵?fù)p失：

??(?,??)=?(?log?(??)+(1??)log?(1???))

此外，還需使用反向加權(quán)??(????)來最小化這一損失，目標(biāo)是使分?jǐn)?shù)在??上呈現(xiàn)均勻分布。盡管這種反向加權(quán)并不是絕對必要的，因為模型之間的成對比較已經(jīng)非常接近相等。

接著，使用下面的公式來計算最終的BT分?jǐn)?shù)：

其中????~??。利用簡單轉(zhuǎn)換1000+??(??^)×400將該分?jǐn)?shù)轉(zhuǎn)換為Elo評分，然后進行排序，得出最終排名。

置信區(qū)間

為了更好地理解Elo評分的Bradley-Terry評級的可靠性，團隊使用自舉法（Bootstrapping）來估計置信區(qū)間。自舉法是一種重采樣技術(shù)，通過從數(shù)據(jù)中反復(fù)抽樣來評估估計值的變異性。

1. 生成自舉樣本：從數(shù)據(jù)集中反復(fù)抽樣，生成多個自舉樣本。每個樣本的大小與原始數(shù)據(jù)集相同，但由于重采樣的特性，樣本中會包含一些重復(fù)的觀測值。

2. 計算每個樣本的Elo評分：對于每個自舉樣本，使用前面提到的最大似然估計方法來計算Elo評分。

3. 匯總結(jié)果：在計算了大量自舉樣本的Elo評分（例如1000輪）后，匯總這些結(jié)果，估計每個模型的Elo評分分布。

4. 估計置信區(qū)間：根據(jù)匯總的自舉結(jié)果，確定每個模型的Elo評分的置信區(qū)間。

LLM評估的重要性

Karpathy在轉(zhuǎn)發(fā)Wang的推特時，打了很長一段文字，描述LLM評估的困難與重要性。

LLM評估正在改進，但不久前他們的狀態(tài)非常黯淡，定性經(jīng)驗常常與定量排名不一致。
這是因為良好的評估非常難以構(gòu)建。
在特斯拉，我可能將1/3的時間花在數(shù)據(jù)上，1/3的時間花在評估上，1/3 的時間花在其他事情上。評估必須全面、有代表性、高質(zhì)量，并測量梯度信號（即梯度下降不能太容易，也不能太難）。而且將定性和定量評估對齊之前，需要解決很多細(xì)節(jié)，其中有一些微妙的地方。
另一個不容易發(fā)現(xiàn)的地方是，任何開放（非私有）測試數(shù)據(jù)集都不可避免地泄漏到訓(xùn)練集中。人們直覺上的強烈懷疑這一點，這也是最近GSM1k流行的原因。
即使LLM開發(fā)人員盡最大努力，防止測試集滲透到訓(xùn)練集（以及模型記住答案）也很困難。當(dāng)然，你可以盡力過濾掉訓(xùn)練集中與測試集完全匹配的內(nèi)容，還可以過濾掉n-gram識別的近似匹配。但是，如何過濾掉合成數(shù)據(jù)重寫或網(wǎng)上對數(shù)據(jù)的討論內(nèi)容？如果定期訓(xùn)練多模態(tài)模型，如何過濾數(shù)據(jù)的圖像/屏幕截圖？如何防止開發(fā)人員將訓(xùn)練數(shù)據(jù)（比如embedding）放到測試集中，并專門使用與測試集高度對齊（在向量空間）的數(shù)據(jù)進行訓(xùn)練？
最后一點是，并非所有我們關(guān)心的LLM任務(wù)都是可自動評估的（例如思考總結(jié)等），此時你希望讓人類參與進來。但如何控制所有涉及的變量？例如人類評估者在多大程度上關(guān)注實際答案內(nèi)容，或者長度、文字風(fēng)格，或者如何看待模型拒絕回答的行為等等。
不管怎樣，反直覺的一點是，良好的評估是困難的，且需要高度密集的工作，但非常重要，所以我很高興看到更多的組織加入，努力做好這件事。

Karpathy指路了一個GitHub博客，探討了為什么在Eleuther AI創(chuàng)建的公開LLM排行榜上，Llama模型得到的MMLU測評分?jǐn)?shù)低于論文提供的數(shù)字。

項目地址：https://github.com/huggingface/blog/blob/main/open-llm-leaderboard-mmlu.md

此外，他談到的測試數(shù)據(jù)泄露問題，Open AI研究員Jason Wei在最新的一篇博客中也提到過。

文章地址：https://www.jasonwei.net/blog/evals

而且最近的一篇論文中有比較充分的證據(jù)。

論文地址：https://arxiv.org/html/2405.00332

他們發(fā)現(xiàn)，許多公開的模型在GSM-8K數(shù)據(jù)集上有明顯的過擬合表現(xiàn)，而且在同類的GSK-1K上測試時，多數(shù)模型都會有很大程度的性能下降。

論文地址：https://arxiv.org/html/2405.00332

責(zé)任編輯：張燕妮來源：新智元

模型訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

久久中文精品| gogo人体一区| 中文字幕在线一区二区三区| 91精品一区二区| 精品少妇爆乳无码av无码专区| 77成人影视| 日本韩国一区二区三区视频| 宅男噜噜99国产精品观看免费| 懂色av一区二区三区四区| 久久九九电影| 久久综合免费视频影院| 中文字幕精品视频在线| 国产精品美女午夜爽爽| 亚洲午夜av在线| 亚洲一卡二卡区| 婷婷av一区二区三区| 美女视频一区在线观看| 夜夜爽夜夜爽精品视频| 蜜桃麻豆91| 午夜久久久久久久久久| 日本欧美在线观看| 97在线观看视频国产| 日韩精品123区| 亚洲专区视频| 精品噜噜噜噜久久久久久久久试看| 日韩欧美黄色大片| 2021天堂中文幕一二区在线观| 国产欧美日韩精品a在线观看| 成人3d动漫一区二区三区91| 在线观看xxxx| 麻豆精品91| 午夜欧美大片免费观看| 欧美三级免费看| 97久久夜色精品国产| 亚洲欧洲日本专区| 在线观看av中文字幕| 亚洲精品国产九九九| 欧美日韩国产综合草草| 男人天堂成人在线| 欧美gv在线| 污片在线观看一区二区| 国产爆乳无码一区二区麻豆| 黄色网址在线免费| 亚洲欧洲精品天堂一级| 亚洲mv在线看| 中文久久久久久| 在线小视频你懂的| 精品精品国产毛片在线看| 91麻豆精品国产91久久久久久 | 丝袜美腿亚洲色图| 91po在线观看91精品国产性色| 精品一区在线视频| 亚洲视频高清| 97高清免费视频| 日本熟女一区二区| 日韩亚洲在线| 热99精品里视频精品| 中文字幕超碰在线| 久久青草久久| 国产精品丝袜久久久久久高清| 免费又黄又爽又猛大片午夜| 日韩二区三区四区| 国产精品日本精品| 91在线视频国产| 国产自产高清不卡| 91亚洲国产成人久久精品网站| 国产又黄又爽视频| 国产精品一区免费视频| 99精品国产高清在线观看| 成人激情四射网| 国产91丝袜在线播放0| 国产区一区二区三区| 天天综合网在线| 欧美国产成人精品| 色中文字幕在线观看| 欧美人与禽猛交乱配| 亚洲图片一区二区| 成人免费毛片网| 免费在线观看一区| 日韩写真欧美这视频| 四虎精品一区二区| 久久91精品| 久久精品成人动漫| 国产小视频在线看| 男女精品视频| 91在线看www| 黄色福利在线观看| 久久综合色婷婷| 欧美大陆一区二区| 色三级在线观看| 亚洲狠狠爱一区二区三区| 六月婷婷在线视频| 成人不卡视频| 日韩欧美区一区二| 国产精品久久久久无码av色戒| 日韩精品不卡一区二区| 欧美黄色www| 亚洲日本欧美中文幕| 狠狠色狠狠色综合| 久久久婷婷一区二区三区不卡| 国产人成在线视频| 亚洲国产美国国产综合一区二区| 99色精品视频| 日韩精品一区二区三区中文在线| 日韩精品www| 欧美大片xxxx| 久久资源在线| 国产成人免费观看| 永久免费av在线| 欧美日韩免费网站| 国产91在线免费观看| 欧美日韩一二三四| 97色在线播放视频| 精品国产黄色片| 国产精品日韩成人| 激情久久av| 欧美日韩在线资源| 日韩欧美精品在线观看| 制服下的诱惑暮生| 最新中文字幕av| 亚洲人挤奶视频| 欧美丰满老妇厨房牲生活| 日本免费精品视频| 99re66热这里只有精品3直播 | 国产精品亚洲不卡a| 国产午夜视频在线观看| 午夜私人影院久久久久| 中文字幕第10页| 水蜜桃精品av一区二区| 日韩男女性生活视频| 天天干天天爽天天操| 日韩美女精品在线| 在线观看亚洲色图| 欧美男男gaytwinkfreevideos| 久久久久亚洲精品国产| 国产av无码专区亚洲av麻豆| 国产精品拍天天在线| 国产精品美女久久| 狠狠干狠狠操视频| 加勒比色老久久爱综合网| 免费99精品国产自在在线| 这里只有精品9| 中文字幕电影一区| 日本免费观看网站| 精品欧美久久| 国产精品久久久久久搜索| 青春有你2免费观看完整版在线播放高清| 亚洲一区二区三区爽爽爽爽爽| 91pony九色| 国产精品久久久久久久久久10秀 | 国产成人精品视频免费看| 国产精品白丝av嫩草影院| 欧美另类暴力丝袜| 精品国自产在线观看| 亚洲伦理在线精品| 深夜福利网站在线观看| 欧美ab在线视频| 成人h在线播放| 色呦呦在线看| 亚洲国产精品电影| 中国一级特黄毛片| 久久先锋影音av鲁色资源| 亚洲色成人一区二区三区小说| 蜜桃a∨噜噜一区二区三区| 欧美专区第一页| 番号集在线观看| 欧美精品电影在线播放| 国产高潮流白浆| 成人动漫av在线| 成人羞羞国产免费网站| 国产亚洲一区二区三区不卡| 国产精品久久久久久久天堂| 国产黄色在线观看| 日韩精品中文字幕在线不卡尤物 | 欧美亚洲国产bt| 日日操免费视频| 国产乱码精品一区二区三| cao在线观看| 国产成人三级| 91麻豆国产语对白在线观看| 美女航空一级毛片在线播放| 精品视频—区二区三区免费| 中日精品一色哟哟| 一区二区三区视频在线看| 色哟哟视频在线| 日日摸夜夜添夜夜添精品视频| 三级网在线观看| 九色丨蝌蚪丨成人| 国产精品自拍网| aa级大片免费在线观看| 国产亚洲精品日韩| 国产浮力第一页| 色婷婷激情久久| 2021亚洲天堂| 国产亚洲人成网站| 91超薄肉色丝袜交足高跟凉鞋| 水蜜桃久久夜色精品一区的特点| 黄色一级视频播放| 欧美男gay| 国产高清一区视频| xxxxx.日韩| 91精品国产91久久久久久久久| 69久久夜色| 亚洲精品av在线播放| 亚洲在线精品视频| 欧美午夜久久久| 欧美又粗又大又长| 国产精品久久毛片a| 国产肉体xxxx裸体784大胆| 久久成人久久鬼色| 欧美牲交a欧美牲交aⅴ免费真| 亚洲色图网站| 日韩精品久久一区二区三区| 超碰97久久| 成人欧美在线观看| 国产成人精品一区二三区在线观看| 欧美老少做受xxxx高潮| wwwww在线观看免费视频| 亚洲国产又黄又爽女人高潮的| 国产精品毛片一区视频播| 在线亚洲人成电影网站色www| 国产亚洲精品av| 亚洲美女视频在线| 四虎影视1304t| 国产亚洲1区2区3区| yy1111111| 国产91精品露脸国语对白| 天堂av2020| 麻豆精品精品国产自在97香蕉| aaa毛片在线观看| 99精品久久| www.日本少妇| 欧美午夜久久| 成人午夜免费在线视频| 亚洲精品午夜av福利久久蜜桃| 日韩欧美激情一区二区| 竹菊久久久久久久| 欧美第一黄网| 亚洲人成伊人成综合图片| 久久久久九九九| 网友自拍区视频精品| 国产一级特黄a大片99| 蜜臀av一区| 精品蜜桃传媒| 香蕉久久99| 欧美日韩大片一区二区三区| 亚洲成人一品| 欧美视频小说| 欧美日韩国产传媒| 日本一区视频在线播放| 精品产国自在拍| 午夜精品区一区二区三| 日韩1区2区| 天天爱天天做天天操| 影音先锋日韩在线| 亚洲区成人777777精品| 国产精品v一区二区三区| 国产一二三在线视频| 日韩视频一区| 免费看a级黄色片| 蜜臀av一区二区三区| 欧美视频国产视频| 国产91丝袜在线播放0| 亚洲男女在线观看| 久久久久国产一区二区三区四区| 国产美女免费网站| 中文字幕一区二区三区在线不卡 | 成人久久18免费网站图片| 国产精品1区| 国产一区不卡在线观看| 亚洲区小说区| 午夜啪啪免费视频| 欧美日本不卡高清| 播放灌醉水嫩大学生国内精品| 日韩中文欧美在线| 91蝌蚪视频在线| 不卡av免费在线观看| 中文字幕av久久爽一区| √…a在线天堂一区| 国产精品9191| 在线影院国内精品| 国产福利资源在线| 亚洲免费影视第一页| 免费在线你懂的| 午夜精品视频在线| 国产第一精品| 国产欧美一区二区视频| 日韩激情在线| 日韩欧美视频网站| 久久99精品久久只有精品| 在线免费看黄色片| 国产精品素人视频| 日韩久久久久久久久| 欧美无砖专区一中文字| 成人毛片在线精品国产| 在线播放精品一区二区三区| 怡红院在线观看| 国产精品h在线观看| 精品国产亚洲日本| 51午夜精品视频| 欧美另类激情| 蜜桃网站成人| 亚洲天堂激情| 8x8x成人免费视频| 久久久国际精品| 国产在线精品观看| 51精品国自产在线| 懂色av中文在线| 97国产精品久久| 日本精品在线观看| 亚洲在线不卡| 久久精品一区二区国产| 在线观看免费视频国产| 亚洲视频在线观看三级| 无码一区二区三区在线观看| 亚洲白拍色综合图区| 精品美女在线观看视频在线观看| 欧洲一区二区视频| 97品白浆高清久久久久久| 欧美另类交| 美女在线一区二区| 先锋影音av在线| 色综合久久中文字幕综合网| 日本xxxxwww| 欧美高清激情视频| 玖玖玖电影综合影院| 永久域名在线精品| 日本不卡一区二区| 久久久久久久久久久久久久久| 欧美日韩国产精品| 色窝窝无码一区二区三区| 久久99热精品这里久久精品| 4438五月综合| 一区二区不卡视频| 麻豆精品一区二区综合av| 妺妺窝人体色WWW精品| 色婷婷综合久久久中文字幕| 亚州av在线播放| 97婷婷大伊香蕉精品视频| 国产精品高潮呻吟久久久久| 免费人成自慰网站| 成人综合在线视频| 久久精品国产亚洲av无码娇色| 精品日韩一区二区| 日本无删减在线| 国产高清不卡av| 在线播放日韩| 91精品国产自产| 福利一区福利二区微拍刺激| 天堂网av2014| 欧美在线日韩在线| 久久av免费看| 亚洲高清在线免费观看| 国产精品嫩草99a| 一道本无吗一区| 自拍偷拍亚洲区| 成人激情久久| 久久成人福利视频| 99久久夜色精品国产网站| 免费观看一区二区三区毛片| 精品视频在线播放色网色视频| 欧美亚洲韩国| 亚洲欧洲另类精品久久综合| 久久超级碰视频| 免费网站观看www在线观| 亚洲第一av在线| 性欧美18xxxhd| 色爱区成人综合网| 激情六月婷婷综合| 久久亚洲AV无码| 亚洲精品视频免费| 成人亚洲综合| 乱熟女高潮一区二区在线| 99免费精品视频| 波多野结衣绝顶大高潮| 久久久精品久久久| 国产主播性色av福利精品一区| 欧美aⅴ在线观看| 国产精品国产三级国产普通话99| 99国产在线播放| 91av视频在线观看| 日韩在线二区| 极品白嫩的小少妇| 欧美午夜精品电影| 激情影院在线| 日本一区免费看| 国产精品资源在线看| 黄色一级片免费在线观看| 色婷婷成人综合| 麻豆精品99| 天天操狠狠操夜夜操| 黄色成人在线播放| 日本在线人成| 久久精品aaaaaa毛片| 精品一区二区三区av| 欧美日韩综合在线观看| 久久精品成人一区二区三区| 香蕉国产成人午夜av影院| 三年中文在线观看免费大全中国| 黑人巨大精品欧美一区免费视频|

<ul id="m0mg2"></ul>