精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

揭秘大模型強(qiáng)推理能力幕后功臣“缺陷”，過程級獎勵模型新基準(zhǔn)來了

作者：量子位 2025-01-16 08:40:00

人工智能新聞

復(fù)旦大學(xué)、蘇州大學(xué)，上海AI Lab等聯(lián)合提出了 PRMBench，它包含 6,216 條精心設(shè)計(jì)的問題和 83,456 個步驟級標(biāo)簽，用于評測模型細(xì)粒度的錯誤檢測能力。

截止目前，o1 等強(qiáng)推理模型的出現(xiàn)證明了 PRMs（過程級獎勵模型）的有效性。

（“幕后功臣” PRMs 負(fù)責(zé)評估推理過程中的每一步是否正確和有效，從而引導(dǎo) LLMs 的學(xué)習(xí)方向。)

但關(guān)鍵問題來了：我們?nèi)绾螠?zhǔn)確評估 PRMs 本身的性能？

作為回應(yīng)，復(fù)旦大學(xué)、蘇州大學(xué)，上海AI Lab等聯(lián)合提出了 PRMBench，它包含 6,216 條精心設(shè)計(jì)的問題和 83,456 個步驟級標(biāo)簽，用于評測模型細(xì)粒度的錯誤檢測能力。

具體而言，目前主流的評估方法往往側(cè)重于最終結(jié)果的正確性，而忽略了對推理過程中細(xì)致入微的錯誤類型的識別。例如，一個推理步驟可能存在冗余、部分正確、甚至完全錯誤等多種狀態(tài)，簡單的“正確/錯誤”標(biāo)簽難以捕捉其復(fù)雜性。

而 PRMBench 提供了一個更全面、更精細(xì)化的評估工具，可以更有效地識別 PRMs 的潛在缺陷，促進(jìn)相關(guān)算法的改進(jìn)。

實(shí)驗(yàn)發(fā)現(xiàn)，目前 PRMs 在細(xì)粒度錯誤檢測上仍有較大提升空間。即使是表現(xiàn)最佳的模型 Gemini-2-Thinking，其 PRMScore 也僅為 68.8，勉強(qiáng)高于隨機(jī)猜測的 50.0。

即使是專門在步驟級數(shù)據(jù)上訓(xùn)練過的 PRMs，其表現(xiàn)仍不如優(yōu)秀的閉源通用模型，且多步推理能力專門增強(qiáng)過的模型表現(xiàn)優(yōu)于一般通用模型。

除此之外，研究人員還公布了一些其他發(fā)現(xiàn)和探討。

PRMBench：一次針對PRMs的“全方位體檢”

據(jù)介紹，PRMBench 并非簡單的“升級版”評估數(shù)據(jù)集，而是一套經(jīng)過精心設(shè)計(jì)的“體檢方案”，目的是全面考察 PRMs 在不同維度上的能力。

下圖為 PRMBench 的主要結(jié)構(gòu)，左側(cè)部分展示了數(shù)據(jù)整理的流程，右側(cè)部分展示了評估主題的示例以及測試模型的相對性能表。

其主要特點(diǎn)包括：

海量且精細(xì)的標(biāo)注數(shù)據(jù)：包含 6,216 個精心設(shè)計(jì)的問題，并包含 83,456 個步驟級別的標(biāo)簽，確保評估的深度和廣度。
多維度、多層次的評估體系：從簡潔性 (Simplicity)、合理性 (Soundness) 和敏感性 (Sensitivity) 三個主要維度出發(fā)，進(jìn)一步細(xì)分為九個子類別，例如非冗余性、非循環(huán)邏輯、評價合理性、步驟一致性、領(lǐng)域一致性、置信度不變性、前提條件敏感性、欺騙抵抗和一題多解一致性，力求全面覆蓋PRMs可能遇到的挑戰(zhàn)。
揭示現(xiàn)有 PRMs 的“盲區(qū)”：研究團(tuán)隊(duì)對 15 個代表性模型進(jìn)行了廣泛的實(shí)驗(yàn)，包括開源 PRMs 以及將強(qiáng)力通用語言模型提示作為 Critic Model 的模型。實(shí)驗(yàn)結(jié)果令人驚訝，也引人深思。

具體來說，研究的主要發(fā)現(xiàn)如下：

1、整體表現(xiàn)堪憂。即使是表現(xiàn)最佳的模型 Gemini-2-Thinking，其 PRMScore 也僅為 68.8，勉強(qiáng)高于隨機(jī)猜測的 50.0。這表明，即使是最先進(jìn)的 PRMs，在多步過程評估中仍然有巨大的提升空間。

2、開源 PRMs 表現(xiàn)更弱。開源 PRMs 的平均 PRMScore 更低至 50.1，部分模型甚至不如隨機(jī)猜測，揭示了其可靠性和潛在訓(xùn)練偏差的問題。

3、“簡潔性”成最大挑戰(zhàn)。在 “簡潔性” 維度上，即使是表現(xiàn)相對較好的 ReasonEval-34B，其 PRMScore 也驟降至 51.5，表明 PRMs 在識別推理過程中的冗余步驟方面能力不足。

4、 “陽性偏好”現(xiàn)象顯著。部分模型，例如 ReasonEval-7B 和 RLHFlow-DeepSeek-8B，在評估中表現(xiàn)出顯著的“陽性偏好”，難以區(qū)分正確和錯誤的步驟。

5、數(shù)據(jù)驅(qū)動的洞察。研究發(fā)現(xiàn)，錯誤步驟出現(xiàn)的位置也會影響PRMs的判斷準(zhǔn)確率?？偟膩碚f，隨著錯誤步驟位置的后移，PRMs 的表現(xiàn)會逐漸提升。

具體提出過程

下面介紹一下具體研究過程。

提出主要問題

在一項(xiàng)需要舉出反例的證明題實(shí)踐中，研究人員觀察到一個有趣的現(xiàn)象：

即使大語言模型 (o1) 自身意識到當(dāng)前推理過程存在一些問題，仍然會產(chǎn)生錯誤的推理步驟。

更令人擔(dān)憂的是，當(dāng)調(diào)用現(xiàn)有的 PRMs 去檢測剛剛 o1 生成的推理過程時，結(jié)果卻發(fā)現(xiàn)多數(shù) PRMs 無法檢測出這種細(xì)粒度的錯誤。

這一發(fā)現(xiàn)引出了一個關(guān)鍵問題：當(dāng)前的 PRMs 是否具備檢測推理過程中細(xì)粒度錯誤的能力？

下圖為，當(dāng)詢問模型一道拉格朗日中值定理相關(guān)問題時，o1 和 PRMs 可能會產(chǎn)生的錯誤。

然而，現(xiàn)有針對 PRMs 評測而設(shè)計(jì)的 benchmark 大多僅僅關(guān)注步驟評判的對錯，而忽視步驟評判的錯誤類型，缺乏對錯誤類型的細(xì)致分類。

這也就意味著，目前缺少這樣能夠評測 PRMs 在細(xì)粒度錯誤上表現(xiàn)的綜合 benchmark。

而這，正是研究人員推出 PRMBench 這一精細(xì)化基準(zhǔn)的根本原因。

他們希望通過 PRMBench，打破現(xiàn)有評估的局限，真正遴選出能夠有效識別細(xì)粒度錯誤的“優(yōu)秀” PRM。

下圖為 PRMBench 與其他數(shù)據(jù)集對比。

PRMBench構(gòu)建

如下所示，PRMBench 包含三大評測主題：簡潔性，合理性和敏感性。

數(shù)據(jù)來源：基于 PRM800K 構(gòu)建，首先篩選出其完全正確的問題、答案以及解題步驟作為元數(shù)據(jù)。
錯誤引入：針對多數(shù)評測主題（前8個）使用 LLMs（特別是 GPT-4o）將各種細(xì)粒度的錯誤引入到完全正確的解題推理步驟中。對于一題多解的情況，則使用多步推理增強(qiáng)過的語言模型為同一問題生成不同的正確解法及其推理步驟。
人工驗(yàn)證：嚴(yán)格的人工審查，以確保引入錯誤的質(zhì)量和相關(guān)性。
數(shù)據(jù)集統(tǒng)計(jì)：包含 6,216 個精心設(shè)計(jì)的問題，帶有 83,456 個步驟級別的標(biāo)簽。
評估對象：分為三個主要領(lǐng)域。簡潔性評估冗余檢測能力（非冗余性、非循環(huán)邏輯）；合理性評估PRM產(chǎn)生獎勵的準(zhǔn)確性和正確性（評價合理性、步驟一致性、領(lǐng)域一致性、置信度不變性）；敏感性評估對變化和誤導(dǎo)性信息的魯棒性（前提條件敏感性、欺騙抵抗、多解一致性）。

實(shí)驗(yàn)與結(jié)果

研究人員測試了 15 個模型，包括開源 PRMs (Skywork-PRM, Llemma-PRM, MATHMinos-Mistral,MathShepherd-Mistral, RLHFlow-PRM) 和提示為 Critic Models 的優(yōu)秀閉源語言模型 (GPT-4o, o1-mini，Gemini-2)。

評估指標(biāo)主要為：

負(fù) F1 分?jǐn)?shù) (Negative F1 Score)：評估錯誤檢測性能的主要指標(biāo)。
PRMScore：將 F1 和負(fù) F1 相結(jié)合的統(tǒng)一、標(biāo)準(zhǔn)化的分?jǐn)?shù)，以反映整體能力。

可以看出，整體而言 PRMs 在多步過程評估中表現(xiàn)出有限的能力，其得分通常僅略高于隨機(jī)猜測。

同時，開源 PRMs 的表現(xiàn)通常不如將強(qiáng)力通用語言模型（如o1, Gemini-thinking等）提示為 Critic Model 的表現(xiàn)更好。

而且相較于其他評測主題，檢測冗余 (簡潔性) 被證明對 PRMs 來說尤其困難。

另外，通過 PRMBench 下模型對于正確標(biāo)簽測試樣例（陽性數(shù)據(jù)）和錯誤標(biāo)簽測試樣例（陰性數(shù)據(jù)）的得分對比及相似度來看。

許多 PRMs 表現(xiàn)出對正確標(biāo)簽的偏好，難以正確識別錯誤標(biāo)簽測試樣例（陰性數(shù)據(jù)）。

且從推理步驟位于推理鏈中不同位置對模型 PRMScore 的影響來看，PRMs 的性能往往會隨著推理步驟位于推理鏈中的位置逐漸靠后而提高。

最后從不同 Few shot 數(shù)目對于提示為 Critic Model 的通用語言模型表現(xiàn)影響來看，少樣本 ICL 的影響有限。

在 reward 過程中使用不同數(shù)量示例的 In-Context Learning 對閉源模型的性能影響不大。

小結(jié)一下，PRMBench 的發(fā)布，提醒我們重新審視現(xiàn)有 PRMs 的能力邊界。

按照研究團(tuán)隊(duì)的說法，“我們希望 PRMBench 能夠成為推動 PRM 評估和發(fā)展研究的堅(jiān)實(shí)基石”。

更多細(xì)節(jié)歡迎查閱原論文。

論文鏈接：https://arxiv.org/abs/2501.03124
項(xiàng)目主頁：https://prmbench.github.io/
Code:https://github.com/ssmisya/PRMBench
Data:https://huggingface.co/datasets/hitsmy/PRMBench_Preview

責(zé)任編輯：張燕妮來源：量子位

模型測評 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

欧美a级大片在线| 免费在线看a| 国产日韩欧美三区| 亚洲日韩欧美视频一区| 日本va中文字幕| a黄色在线观看| 国产成人精品免费一区二区| 欧美在线精品免播放器视频| 国产极品视频在线观看| 97人人澡人人爽91综合色| 日本道色综合久久| 国产av熟女一区二区三区| 精品无人乱码| 顶级嫩模精品视频在线看| 国产精品久久久久久久美男| 久草视频免费在线| 日韩电影一区| 亚洲国产天堂久久国产91| 日本在线一二三区| 亚洲少妇视频| 怡红院av一区二区三区| 日韩欧美手机在线| 日批视频免费播放| 激情欧美一区二区| 国产97人人超碰caoprom| 国产小视频在线观看免费| 日韩精品永久网址| 亚洲摸下面视频| 成人一区二区三区仙踪林| 巨胸喷奶水www久久久免费动漫| 亚洲国产欧美在线人成| 伊人久久av导航| 久久经典视频| 久久日一线二线三线suv| 成人一区二区三区四区| 国产美女www爽爽爽视频| 日韩不卡免费视频| 欧美在线视频免费播放| 亚洲男人第一av| 欧美日韩三级| 九九热精品在线| 国产免费美女视频| 久久精品国产99久久| 亚洲男人天堂2024| 色婷婷av777| 四虎884aa成人精品最新| 精品捆绑美女sm三区| 91丨porny丨九色| 国产精品高清一区二区| 88在线观看91蜜桃国自产| www.日本一区| 日韩毛片免费看| 欧美日韩精品久久久| www日韩在线观看| 色综合天天色| 欧美日韩国产成人在线91| 中文字幕在线综合| 图片一区二区| 欧美高清你懂得| 成人性生交视频免费观看| 欧美日本三级| 亚洲成人性视频| 日本少妇毛茸茸| 伊人久久大香线蕉综合网蜜芽 | av中文在线观看| 久久se精品一区精品二区| 国产在线播放不卡| 国产成人精品无码高潮| 成人激情免费网站| 久久国产精品国产精品| 五月婷婷激情在线| 久久久久久免费| 亚洲一区二区三区精品动漫| 黄网页在线观看| 亚洲一二三区不卡| 男人天堂1024| 巨胸喷奶水www久久久 | 秋霞av鲁丝片一区二区| 91麻豆免费观看| 亚洲乱码一区二区三区| 亚洲妇熟xxxx妇色黄| 亚洲福利视频导航| 91蝌蚪视频在线观看| 99精品国产九九国产精品| 精品久久99ma| 手机看片日韩av| 午夜欧美精品久久久久久久| 国产精品综合一区二区三区| 日本韩国精品在线| 国产三级三级三级看三级| 福利一区二区| 欧美精品一区在线观看| 免费观看a级片| 亚洲精品国产首次亮相| 97在线日本国产| 中文在线免费看视频| 国产精品自产自拍| 麻豆av一区二区三区久久| 嫩草在线视频| 欧美日韩亚洲精品一区二区三区| 538任你躁在线精品免费| www.丝袜精品| 日韩中文视频免费在线观看| 日本中文字幕免费观看| 美女任你摸久久| 久久艹中文字幕| 超碰公开在线| 在线免费观看不卡av| 91精品人妻一区二区三区四区| 精品久久中文| 91精品国产乱码久久久久久久久 | 麻豆国产欧美日韩综合精品二区 | 免费精品国产| 久久99久久99精品免观看粉嫩| av网站中文字幕| 亚洲综合av一区二区三区| 久久天天综合| 精品伦理一区二区三区| 国产黄色片在线观看| 亚洲国产精品一区二区尤物区| 中文字幕在线观看第三页| 精品少妇3p| 久久影院资源网| 中文人妻熟女乱又乱精品| 91免费看片在线观看| 国产内射老熟女aaaa| 精品久久福利| 国产一区二区激情| 欧美三级午夜理伦| 从欧美一区二区三区| 18视频在线观看娇喘| 欧美亚洲人成在线| 尤物yw午夜国产精品视频| 国产无人区码熟妇毛片多| 成人美女视频在线观看| 国产精品视频二| 欧美午夜网站| 久热精品视频在线观看一区| 中文字幕在线日亚洲9| 欧美国产综合一区二区| 国产性生交xxxxx免费| 偷拍精品福利视频导航| 91精品国产色综合久久不卡98口| 亚洲黄色在线播放| 亚洲一二三四久久| 欧类av怡春院| 亚洲中字在线| 欧美午夜精品久久久久免费视| 美女搞黄视频在线观看| 日韩精品视频在线免费观看| 97人人澡人人爽人人模亚洲 | 91福利视频久久久久| 国产人妻大战黑人20p| 日韩制服丝袜av| 色一情一区二区三区四区| 亚洲精品555| www.精品av.com| 国产男女猛烈无遮挡| 亚洲精品视频在线| 久久久久久婷婷| 亚洲欧美日韩国产一区| 小说区图片区图片区另类灬| 亚洲久草在线| 欧美黑人性视频| 网站黄在线观看| 91成人网在线| 亚洲一二三在线观看| 粉嫩欧美一区二区三区高清影视| 欧美又粗又长又爽做受| 无码少妇一区二区三区| 国产精品高潮在线| 成人影院www在线观看| 精品国产乱码久久久久久免费 | 欧美日韩国产区一| 欧美综合激情| 国产精品第6页| 中文字幕av在线一区二区三区| 99热一区二区| 欧美成人有码| 久久手机视频| 全球中文成人在线| 欧美激情视频网址| 日韩a在线观看| 欧美日韩国产另类不卡| 国产在线一二区| 国产性做久久久久久| 欧美在线a视频| 日韩一区二区久久| 亚洲成人第一| 一区二区三区欧洲区| 欧美最猛性xxxxx亚洲精品| 婷婷在线视频| 亚洲高清免费观看高清完整版| 羞羞色院91蜜桃| 亚洲自拍欧美精品| 东方伊人免费在线观看| 成人免费看黄yyy456| 久久99爱视频| 亚洲在线日韩| 国产专区在线视频| 国产成人3p视频免费观看| 99九九视频| 日本成人片在线| 欧美国产精品人人做人人爱| www视频在线观看免费| 亚洲第一区第二区| 国产精品一区二区免费视频| 狠狠久久五月精品中文字幕| 亚洲综合视频网站| 欧美激情一区二区在线| 私密视频在线观看| 国产成人在线网站| 污视频免费在线观看网站| 一本久道久久综合婷婷鲸鱼| 中文字幕av久久| 精品一区二区三区的国产在线观看| aa成人免费视频| 国产三级一区| 热久久这里只有精品| heyzo在线| 久久99青青精品免费观看| av片在线看| 亚洲三级黄色在线观看| 神宫寺奈绪一区二区三区| 日韩欧美在线123| 91精东传媒理伦片在线观看| 在线亚洲一区观看| 天天干天天干天天操| 亚洲线精品一区二区三区| 国产精品丝袜一区二区| 国产精品欧美久久久久无广告| 99久久久无码国产精品性| 成人久久久精品乱码一区二区三区| 手机av在线网站| 久久99精品国产| 国产成年人视频网站| 奇米影视一区二区三区| 久久久精品三级| 久久在线91| 99精品视频播放| 久久成人精品| 欧美v在线观看| 国产欧美短视频| 日韩少妇内射免费播放18禁裸乳| 影音先锋在线一区| 日韩视频在线视频| 日韩一级不卡| 18岁网站在线观看| 毛片一区二区| 香蕉视频网站入口| 蜜臂av日日欢夜夜爽一区| 激情小说亚洲图片: 伦| 麻豆成人av在线| 五月天婷婷影视| 国产福利一区二区三区视频在线| 少妇欧美激情一区二区三区| 国产乱码精品一区二区三区五月婷 | 国内精品久久久久久野外| 精品国产依人香蕉在线精品| 成人无遮挡免费网站视频在线观看| 久久国产精品视频| 免费网站在线观看人| 91av视频导航| 日韩精品三区| 91中文字幕一区| 国产精品xxxav免费视频| 精品国产一区二区三区四区vr| 日日天天久久| 午夜欧美性电影| 一区二区免费不卡在线| 蜜臀av色欲a片无码精品一区| 国产欧美一级| 麻豆三级在线观看| 国产成人午夜视频| 法国伦理少妇愉情| 综合婷婷亚洲小说| 久久高清免费视频| 在线观看不卡一区| 国产特级黄色片| 日韩精品中文字幕在线| 91在线看黄| 久久久最新网址| 国精产品一区一区三区四川| 亚洲iv一区二区三区| 天美av一区二区三区久久| 亚洲精品高清视频| 亚洲第一精品影视| 亚洲综合色在线观看| 不卡一区在线观看| 成年人免费视频播放| 午夜日韩在线观看| 一二三区在线播放| 亚洲黄色av网站| 麻豆传媒在线免费看| 97超级碰碰碰| 粉嫩一区二区三区在线观看| 国外成人在线视频网站| 色无极亚洲影院| 黄色大片在线免费看| 精品一区二区综合| 毛片网站免费观看| 亚洲国产成人av网| 亚洲综合免费视频| 亚洲女成人图区| 99热国产在线| 国产精品一区二区三区毛片淫片 | 日韩精品黄色网| 国产精品扒开做爽爽爽的视频| 欧美中文字幕在线播放| 亚洲精品v亚洲精品v日韩精品| 欧美一区二区视频17c | 污色网站在线观看| 久久久影院官网| 国产一级免费观看| 69p69国产精品| 国产在线观看免费| 68精品久久久久久欧美| 视频亚洲一区二区| 一区不卡字幕| 日韩国产成人精品| 日韩一级视频在线观看| 亚洲成在人线免费| 性生活视频软件| 伦理中文字幕亚洲| 青草综合视频| 亚洲国产日韩综合一区| 午夜综合激情| 亚洲av无码一区二区三区观看 | 久久精品国产亚洲精品2020| 欧美艳星kaydenkross| 九九久久99| 9色国产精品| 午夜av免费看| 午夜欧美大尺度福利影院在线看| 精品人妻午夜一区二区三区四区 | 伊人久久免费视频| 影视一区二区三区| 日本一区二区三不卡| 久久综合九色| 蜜桃久久精品成人无码av| 色呦呦日韩精品| 麻豆影视在线| 国产精品福利久久久| 成人毛片在线| 手机版av在线| 国产精品高潮呻吟久久| 国产人妻精品一区二区三| 久久艳片www.17c.com| 日韩精品成人在线观看| 久久香蕉视频网站| 成人午夜av电影| 91精品国产乱码在线观看| 亚洲精品乱码久久久久久金桔影视| 超碰激情在线| 欧美中日韩免费视频| 日韩不卡在线观看日韩不卡视频| 欧美人与禽zoz0善交| 欧美日韩精品专区| 国产婷婷视频在线| 成人在线观看av| 国产欧美日韩一区二区三区在线| xxxxx在线观看| 欧美天天综合网| 国产精品久久麻豆| 国产精品乱码视频| 亚洲欧美日韩在线观看a三区| 亚洲天堂岛国片| 69精品人人人人| 国产传媒av在线| 亚洲国产激情一区二区三区| 国产又黄又大久久| 国产在线综合网| 亚洲乱码国产乱码精品精| 精品久久福利| 人妻av无码专区| 国产欧美精品在线观看| 99热这里只有精品9| 91成人免费观看网站| 日本久久黄色| 一区二区在线免费观看视频| 懂色av影视一区二区三区| 91精彩视频在线观看| 懂色中文一区二区三区在线视频| 每日更新成人在线视频| www.av免费| 国产视频欧美视频| 国产亚洲久久| aa在线免费观看| 亚洲免费在线电影| 欧美高清成人| 亚洲综合一区二区不卡| 久久婷婷丁香| 久久国产精品波多野结衣| 亚洲少妇中文在线| 日韩视频一二区| 九九九在线观看视频| 亚洲国产另类精品专区| 91在线视频| 日本不卡一区二区三区在线观看 | 99蜜桃在线观看免费视频网站|