精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

僅靠5000+樣本,全新強化學(xué)習(xí)范式讓30B輕松擊敗671B的DeepSeek V3

人工智能 新聞
螞蟻技術(shù)研究院聯(lián)合浙江大學(xué),正式開源其最新研究成果 ——Rubicon-preview 模型,并推出一套名為「基于評分標尺的強化學(xué)習(xí)(Rubric-based Reinforcement Learning)」的全新范式,為 AI 的主觀創(chuàng)造力提升開辟了一條新路。

傳統(tǒng)強化學(xué)習(xí)(RL)在有標準答案的指令遵循任務(wù)(如數(shù)學(xué)、代碼)上已趨成熟,但在開放式的創(chuàng)意寫作領(lǐng)域卻因缺乏客觀對錯而舉步維艱。如何讓 RL 突破「可驗證獎勵」的邊界?螞蟻技術(shù)研究院聯(lián)合浙江大學(xué)開源全新強化學(xué)習(xí)范式 Rubicon,通過構(gòu)建業(yè)界最大規(guī)模的 10,000+ 條「評分標尺」,成功將強化學(xué)習(xí)的應(yīng)用范圍拓展至更廣闊的主觀任務(wù)領(lǐng)域。用 5000 樣本即超越 671B 模型,讓 AI 告別「機械味」。

自 OpenAI o1 系列模型問世以來,基于「可驗證獎勵」的強化學(xué)習(xí)(RLVR)已成為提升大模型推理能力的主流。通過海量的數(shù)學(xué)題、代碼題進行訓(xùn)練,AI 在客觀對錯分明的領(lǐng)域取得了巨大成功。

然而,這也暴露了當前技術(shù)路線的瓶頸:當面對沒有標準答案的開放性、主觀性任務(wù)時,AI 怎么辦?

如何讓 AI 寫出情感充沛的文字,而不是「AI 味」十足的模板?如何讓它進行有深度的創(chuàng)意構(gòu)思,而不是簡單的信息羅列?這正是當前 AI 邁向更高層次智能需要破解的「靈魂難題」。

基于此,螞蟻技術(shù)研究院聯(lián)合浙江大學(xué),正式開源其最新研究成果 ——Rubicon-preview 模型,并推出一套名為「基于評分標尺的強化學(xué)習(xí)(Rubric-based Reinforcement Learning)」的全新范式,為 AI 的主觀創(chuàng)造力提升開辟了一條新路。

  • 論文標題:Reinforcement Learning with Rubric Anchors
  • 論文地址:https://arxiv.org/pdf/2508.12790
  • 項目地址: https://huggingface.co/inclusionAI/Rubicon-Preview

Rubicon:為 AI 裝上「萬能標尺」,量化主觀世界

傳統(tǒng)強化學(xué)習(xí)依賴非黑即白的獎勵信號,而團隊方法 Rubicon 的核心思想是:放棄尋找客觀的「標準答案」,轉(zhuǎn)而教會 AI 理解主觀的「評分標準(Rubric)」。「Rubicon」一名源自 RUBrIC aNchOrs (評分標尺構(gòu)成的錨點),意在為模型在主觀世界中提供穩(wěn)定、可靠的航向。 

為了將這一理念落地,尤其是在人文、社科等實用領(lǐng)域的復(fù)雜主觀任務(wù)上,團隊構(gòu)建了業(yè)界已知最大規(guī)模的 Rubric 知識庫,包含了超過 10,000 條精細化評分標準,首次大規(guī)模地將人類在創(chuàng)意寫作、情感對話中的微妙偏好,轉(zhuǎn)化為 AI 可學(xué)習(xí)的指導(dǎo)信號。

這不僅是數(shù)據(jù)量的提升,更是為強化學(xué)習(xí)范式開辟了全新的獎勵(Reward)來源,從根本上拓展了其應(yīng)用邊界。

Rubicon-preview 模型亮點

1. 四兩撥千斤:5000 樣本超越 671B 模型,訓(xùn)練效率驚人

實驗證明,僅用 5000+ 訓(xùn)練樣本,團隊訓(xùn)練的 30B 模型 Rubicon-preview 在多項開放性、人文類任務(wù)上實現(xiàn)了 +5.2% 的絕對性能提升,甚至超越了 671B 參數(shù)的 DeepSeek-V3 模型。

這一成果揭示了「規(guī)模化評分標準 (Scaling Rubrics)」的巨大潛力,有望在一定程度上緩解 AI 對海量訓(xùn)練數(shù)據(jù)的依賴。

2. 告別「AI 味」:精準的風(fēng)格控制,更具人性的表達

Rubric 的深度指導(dǎo)賦予了模型前所未有的風(fēng)格掌控力。

面對同一個情感類問題,傳統(tǒng)模型往往會給出「作為 AI,我沒有感情」的機械式回答,而基于 rubrics RL 訓(xùn)練的模型則能生成充滿共情和故事性的內(nèi)容。

3. 破解「蹺蹺板效應(yīng)」:創(chuàng)意與推理能力兼得

在 AI 訓(xùn)練中,提升創(chuàng)意能力往往會犧牲邏輯推理能力,形成「蹺蹺板效應(yīng)」。Rubicon 框架通過巧妙的多階段訓(xùn)練策略,成功破解了這一難題。

模型在主觀任務(wù)性能大幅提升的同時,在 AIME 等數(shù)學(xué)推理基準上仍有穩(wěn)定提升,實現(xiàn)了感性與理性的協(xié)同進化。

寫在最后

螞蟻技術(shù)研究院與浙江大學(xué)團隊表示,此次開源不僅是分享一個模型,更是希望將這套全新的、行之有效的強化學(xué)習(xí)范式與核心基礎(chǔ)設(shè)施貢獻給全球開發(fā)者。團隊相信,一個能更好地理解人類情感與創(chuàng)造力的 AI 時代正加速到來,并期待與社區(qū)共同探索其無限可能。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-04-07 08:50:00

模型AI數(shù)據(jù)

2025-09-23 09:42:58

2025-08-04 08:51:00

2025-06-17 08:45:00

模型智能工具

2025-05-01 10:33:59

2025-03-13 06:34:49

2025-04-03 06:30:00

2025-03-10 07:00:00

阿里開源QwQ-32B

2024-12-20 12:30:00

模型AI數(shù)據(jù)

2025-04-11 12:10:33

2024-12-27 11:13:16

2025-09-02 10:20:10

2025-07-18 10:12:00

2023-06-25 11:30:47

可視化

2024-12-30 20:32:36

2025-04-03 15:57:48

2025-03-11 13:07:58

2025-02-05 12:53:21

點贊
收藏

51CTO技術(shù)棧公眾號

国产酒店精品激情| 欧美影院天天5g天天爽| 亚洲欧美日本韩国| 97久久天天综合色天天综合色hd| 久久精品一区二区三| 噜噜噜天天躁狠狠躁夜夜精品| 色久优优欧美色久优优| 一区二区国产日产| 神马午夜一区二区| 国产美女精品| 美女啪啪无遮挡免费久久网站| 国产一线在线观看| 99re久久| 亚洲成人动漫一区| 四虎永久国产精品| 丰满人妻av一区二区三区| 丝袜美腿亚洲综合| 欧美激情在线视频二区| 亚洲色图第四色| 国产一区在线电影| 欧美高清视频www夜色资源网| 国产九九九九九| 美女欧美视频在线观看免费 | 中国一级片黄色一级片黄| 欧美暴力喷水在线| 亚洲深夜福利网站| 午夜不卡久久精品无码免费| 9999在线精品视频| 在线观看一区二区视频| 性高湖久久久久久久久aaaaa| av电影在线网| 久久亚洲欧美国产精品乐播| yellow视频在线观看一区二区 | 欧美一级免费观看| 成年人网站大全| 伦理在线一区| 亚洲乱码国产乱码精品精98午夜 | 成人在线视频免费播放| 99综合99| 欧美日韩国产成人在线91| 女性女同性aⅴ免费观女性恋| 手机电影在线观看| 亚洲视频小说图片| 这里只有精品66| 成年人视频在线看| 久久久www免费人成精品| 国产自产精品| 三级视频在线看| 国产真实精品久久二三区| 国产精品免费福利| 无码久久精品国产亚洲av影片| 99精品国产在热久久| 久久久久久久一区二区| 精品深夜av无码一区二区老年| 亚洲一区色图| 欧美成年人视频网站| 日韩精品123区| 国产精品videosex性欧美| 中文字幕欧美亚洲| 亚洲国产精品一区二区久久hs| 日韩黄色大片网站| 中文字幕欧美视频在线| 美国精品一区二区| 欧美国产一级| 欧美成人午夜激情视频| 九九热精品免费视频| 欧美精品观看| 欧美精品久久久久久久| 丰满少妇乱子伦精品看片| 亚洲美女黄色| 欧美最猛性xxxxx免费| 亚洲欧美偷拍一区| 免费在线观看视频一区| 成人国产在线激情| www三级免费| 97久久精品人人澡人人爽| 久久av一区二区| 国产精品毛片一区二区三区四区| 国产精品嫩草影院av蜜臀| 正义之心1992免费观看全集完整版| 国产在线观看免费麻豆| 亚洲一区二区三区影院| 国产乱子伦农村叉叉叉| 韩国成人在线| 欧美一级免费大片| 国产草草浮力影院| 精品国产乱码久久久久久果冻传媒 | 国产美女久久精品| 国产剧情久久久| 成人美女视频在线观看18| 女人一区二区三区| 毛片在线播放a| 亚洲国产成人av网| 天天影视综合色| 欧州一区二区三区| 亚洲美女在线观看| 国产91在线播放九色| 欧美三级在线| 国产精品高精视频免费| a毛片在线免费观看| 91蜜桃免费观看视频| 亚洲在线不卡| 2020国产在线| 欧美三级资源在线| 俄罗斯黄色录像| 精品久久久久中文字幕小说| 欧美激情精品久久久久| 五月婷婷激情视频| 国产精品 日产精品 欧美精品| 久久综合毛片| 欧洲成人综合网| 精品婷婷伊人一区三区三| 五月天丁香社区| 国产伦精品一区二区三区千人斩 | 亚洲二区中文字幕| 午夜激情视频在线播放| 亚洲人体偷拍| 91超碰在线免费观看| 精品av中文字幕在线毛片 | 亚洲欧美日韩精品久久亚洲区 | 亚洲色图88| 欧美亚洲激情在线| www黄色在线观看| 亚洲欧洲国产日韩| 亚洲精品无码久久久久久| 国产在线一区不卡| 这里只有精品视频| 91美女免费看| 成人精品电影在线观看| 公共露出暴露狂另类av| 成人在线视频免费| 日韩精品免费看| 久久免费视频99| 激情图区综合网| 中文精品一区二区三区| 日韩免费福利视频| 亚洲成人久久网| 欧美性猛交xxxxx少妇| 久久99精品一区二区三区三区| 日本一区二区三区www| 小视频免费在线观看| 欧美va亚洲va| 久久久久久久黄色| 国产在线精品免费| 丰满女人性猛交| www欧美在线观看| 日韩视频在线观看免费| 中文字幕观看视频| 中文子幕无线码一区tr| 中文字幕一区二区三区四区在线视频| 青青草原在线亚洲| 91国语精品自产拍在线观看性色| 高清毛片aaaaaaaaa片| 一区二区三区高清| 韩国三级丰满少妇高潮| 综合在线视频| 9a蜜桃久久久久久免费| 色帝国亚洲欧美在线| 日韩精品资源二区在线| 精品一区二区三区四| 成人爽a毛片一区二区免费| 国产玉足脚交久久欧美| 国产精品久av福利在线观看| 91精品国产乱码久久久久久蜜臀| 日韩中文字幕影院| 精品久久久国产精品999| 人妻少妇精品视频一区二区三区| 午夜亚洲视频| 涩涩日韩在线| 国产区一区二| 久久全球大尺度高清视频| 后进极品白嫩翘臀在线视频| 亚洲v精品v日韩v欧美v专区| 30一40一50老女人毛片| 视频一区在线播放| 亚洲三区视频| 深夜激情久久| 午夜精品美女自拍福到在线| 欧美女优在线观看| 欧美视频日韩视频| 99久久久免费精品| 成人国产一区二区三区精品| 人妻精品无码一区二区三区| 精品国产不卡| 国产精品美女xx| 国产免费拔擦拔擦8x高清在线人 | 一区二区三区四区五区精品视频| 欧美激情导航| 日韩国产在线不卡视频| 69av在线视频| 麻豆视频在线观看免费| 精品国产伦一区二区三区免费| 国产免费av一区| 亚洲欧美一区二区在线观看| 日本黄色免费观看| 蜜臀av一区二区| 男人日女人视频网站| 国产一区网站| 国产成人免费观看| 成人在线视频免费看| 久久免费视频在线观看| 视频三区在线| 精品香蕉一区二区三区| 国产精品毛片一区视频播| 五月婷婷综合网| 多男操一女视频| 91日韩精品一区| 亚洲一区二区三区三州| 视频一区欧美日韩| 真实国产乱子伦对白视频| 欧洲美女日日| 久久久久久久有限公司| 激情久久免费视频| 国产成人亚洲精品| 17videosex性欧美| 欧美成年人视频| 欧美精品日韩少妇| 亚洲日本欧美日韩高观看| 隣の若妻さん波多野结衣| 欧美三级三级三级爽爽爽| 日本道在线观看| 一区二区三区小说| 18啪啪污污免费网站| www国产亚洲精品久久麻豆| 久久综合桃花网| 久久国产免费看| 少妇高清精品毛片在线视频| 亚洲国产综合在线看不卡| 大陆极品少妇内射aaaaaa| 久久视频精品| 手机成人在线| 国产成人一区| 欧美精品一区在线发布| 日本中文字幕在线一区| 国产一区二区三区黄| 538任你躁精品视频网免费| 96国产粉嫩美女| 自拍偷拍亚洲| 成人在线视频网| 欧洲美女精品免费观看视频| 国产精品免费视频久久久| 电影亚洲精品噜噜在线观看| 欧美最猛黑人xxxx黑人猛叫黄| 欧美裸体视频| 欧美一区二区三区精品电影| 牛牛精品一区二区| 欧美一级淫片videoshd| 乡村艳史在线观看| 青草青草久热精品视频在线观看| 三妻四妾完整版在线观看电视剧| 97免费中文视频在线观看| 国产盗摄一区二区| 久久久久久久91| 不卡专区在线| 青草青草久热精品视频在线观看| 在线观看v片| 热久久免费国产视频| 日韩不卡免费高清视频| 国产精品激情av在线播放| 久久av影院| 国产在线拍偷自揄拍精品| 亚洲最大的免费视频网站| 亚洲一区二区三区香蕉| 伊人精品久久| 欧美连裤袜在线视频| 精品国产91乱码一区二区三区四区| 亚洲国产一区二区三区在线播 | 婷婷视频一区二区三区| 高清免费日韩| 最新亚洲精品| 亚洲精品第一区二区三区| 一区二区中文| 成人免费观看cn| 老牛国产精品一区的观看方式| 黄色在线视频网| 国产精品77777竹菊影视小说| www.四虎精品| 久久久精品2019中文字幕之3| 特黄一区二区三区| 亚洲一区二区三区四区在线 | 日韩精品第一| 成人黄色免费看| 91亚洲无吗| 美乳视频一区二区| 国产韩日影视精品| 欧美一级欧美一级| 日本欧美加勒比视频| 香蕉网在线视频| 久久视频一区二区| 国产精品免费人成网站酒店| 午夜久久久影院| 中文字幕制服诱惑| 亚洲成色999久久网站| 成年在线电影| 久久久噜久噜久久综合| 成人福利片在线| 精品乱子伦一区二区三区| 久久婷婷蜜乳一本欲蜜臀| 日韩免费一级视频| 激情都市一区二区| 亚洲av无码一区二区二三区| 亚洲人吸女人奶水| 欧美黄色一级大片| 精品美女被调教视频大全网站| av电影在线观看网址| 久久久久久久久久久av| 精品美女一区| 久久伊人一区二区| 亚洲网站视频| 九一精品久久久| 国产日韩欧美制服另类| 国产91av视频| 7777精品伊人久久久大香线蕉| 欧美69xxxxx| 97国产在线视频| 日韩一区二区三区精品| 亚洲精品第一区二区三区| 亚洲在线免费| 欧美肉大捧一进一出免费视频| 亚洲素人一区二区| 精品国产青草久久久久96| 日韩乱码在线视频| 青青青草视频在线| 成人美女免费网站视频| 第一社区sis001原创亚洲| 人人妻人人澡人人爽欧美一区双 | 91视频在线网站| 亚洲国产精品久久久久秋霞影院| 国产乱淫a∨片免费观看| 一个人www欧美| 国产精品粉嫩| 欧美不卡福利| 国产亚洲精品bv在线观看| 69亚洲乱人伦| 亚洲一区二区三区免费视频| www.成人免费视频| 久久福利视频网| 亚洲网站三级| 中文字幕一区二区三区在线乱码| 日本vs亚洲vs韩国一区三区二区| 女同毛片一区二区三区| 欧美日韩色婷婷| 污污网站免费在线观看| 91精品国产成人www| 欧美日韩导航| 日本wwww视频| 久久久蜜桃精品| 国产寡妇亲子伦一区二区三区四区| 日韩电视剧在线观看免费网站| 免费一二一二在线视频| 久久99精品久久久久久久久久 | 国产永久精品大片wwwapp| 亚洲一二三区av| 亚洲国产精品精华液ab| 亚洲一卡二卡在线| 日韩中文有码在线视频| 欧美日韩黄色| 99久久免费观看| 91小视频免费观看| 国产一区二区视频网站| 最近2019年日本中文免费字幕| 在线欧美激情| 999一区二区三区| 99久久精品国产网站| 亚洲不卡在线视频| 视频一区视频二区国产精品 | 亚洲欧美精品久久| 91精品欧美福利在线观看| 欧美hdxxx| 开心色怡人综合网站| 日本亚洲免费观看| 欧美视频www| 精品偷拍各种wc美女嘘嘘| 国产极品久久久久久久久波多结野 | 欧美在线免费视频| 秋霞欧美视频| 男人女人拔萝卜视频| 偷拍亚洲欧洲综合| 高清av在线| 成人影片在线播放| 天堂成人国产精品一区| 污软件在线观看| 亚洲精品美女免费| 欧美特黄色片| www.国产在线播放| 日本一区二区成人| 亚洲精品久久久久久久久久| 日本成熟性欧美| 欧美韩日精品| 受虐m奴xxx在线观看| 欧美一区二区三区小说| 男人最爱成人网| 300部国产真实乱| 久久精品夜色噜噜亚洲a∨| 99热这里只有精品1| 日韩免费不卡av| 激情欧美一区| 91无套直看片红桃在线观看| 亚洲国产精品成人va在线观看| 国产精品99|