精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

上海AI Lab、浙大EagleLab等提出RRVF:利用「驗證非對稱性」,只輸入圖片學(xué)習視覺推理

人工智能 新聞
一個任務(wù)有多容易被 AI 解決?最終可能只取決于一個簡單的問題:它的答案有多容易被驗證?

本本研究由上海AI Lab前沿探索中心石博天老師帶領(lǐng)的數(shù)據(jù)前沿團隊、浙江大學(xué)EagleLab和上海創(chuàng)智學(xué)院等單位聯(lián)合完成。第一作者陳楊是浙江大學(xué)碩士生,研究方向為多模態(tài)大模型和推理,本工作完成于她在上海AI Lab實習期間,實習所在團隊以Agent-Ready的知識為核心,實現(xiàn)「提取->結(jié)構(gòu)化->推理」全鏈路,包括基于MLLM的文檔理解、基于異質(zhì)圖網(wǎng)絡(luò)的多模態(tài)知識表征、自主終身學(xué)習智能體等。論文共同第一作者、通訊作者沈宇帆就職于上海AI Lab,正在全身心探索下一代 MLLM 學(xué)習范式和高效的多模態(tài)智能體。論文的共同通訊作者于智是浙江大學(xué) EagleLab 副教授,曾任浙大 ACM 教練并執(zhí)教獲世界總冠軍。功成身退之后,長期致力于用 AI 改善殘障人群生活,在信息無障礙和人工智能領(lǐng)域有深厚造詣。

一個任務(wù)有多容易被 AI 解決?最終可能只取決于一個簡單的問題:它的答案有多容易被驗證?

這,就是驗證非對稱性(Asymmetry of Verification)—— 一個古老但正在重塑 AI 未來的深刻原則。它的核心思想是:對很多任務(wù)而言,驗證一個解的好壞,遠比從頭創(chuàng)造一個解要容易得多。

這一思想,正是近期從 OpenAI 跳槽至 Meta 的思維鏈(CoT)開山作者 Jason Wei 在其最新博客中提出的「驗證者法則」(Verifier's Law)的基石。他斷言:「所有可能被解決且易于驗證的任務(wù),都將被 AI 解決。」

為什么?因為一個任務(wù)如果具備客觀真理、可快速驗證、可規(guī)模化驗證、低噪音、連續(xù)獎勵等特性,就相當于為強化學(xué)習(RL)創(chuàng)造了一個完美的訓(xùn)練場。AI 可以在這個場中進行海量的、高效率的「猜測 - 檢驗」(guess-and-check),通過不斷的迭代優(yōu)化,最終逼近最優(yōu)解。

而這一法則的最佳實踐,已經(jīng)悄然出現(xiàn)在了多模態(tài)領(lǐng)域。上海AILAB和浙江大學(xué)EagleLab的最新研究RRVF(Reasoning-Rendering-Visual-Feedback),就完美詮釋了如何利用「驗證的非對稱性」來攻克復(fù)雜的視覺推理難題。

圖片


  • 論文標題:Learning Only with Images: Visual Reinforcement Learning with Reasoning,Rendering,and Visual Feedback
  • 論文地址:https://arxiv.org/pdf/2507.20766

RRVF:Image2code 的「驗證者法則」訓(xùn)練場

在傳統(tǒng) AI 訓(xùn)練中,我們依賴昂貴的「圖像 - 文本」配對數(shù)據(jù)來教模型進行視覺推理。這不僅成本高昂,而且很多時候限制了 AI 的創(chuàng)造力,例如使用特定的 code 來訓(xùn)練還原 image。

圖片

圖 1: RRVF vs 通用訓(xùn)練方法,只需輸入圖片,利用推理、渲染、反饋進行強化學(xué)習

RRVF 框架則另辟蹊徑,它沒有去教模型「怎么做」,而是構(gòu)建了一個讓模型可以自我驗證的環(huán)境。RRVF 的全稱是「Reasoning-Rendering-Visual-Feedback」(推理 - 渲染 - 視覺反饋),這三個詞精準地概括了其核心工作流。它構(gòu)建了一個端到端優(yōu)化的閉環(huán)系統(tǒng),讓模型在「自我糾正」中學(xué)習。

圖片

圖2: RRVF框架圖

第一步:迭代式視覺推理 (Iterative Visual Reasoning)

  • 面對一張目標圖像(如數(shù)據(jù)圖表),它會進行迭代式多輪思考。在每一輪,模型都會在 < think > 中先寫下自己的思考過程,然后調(diào)用外部工具進行渲染和獲取反饋,在后續(xù)輪次中根據(jù)反饋修正自己的代碼。

圖片

圖 3: 迭代視覺推理算法

第二步:視覺反饋 (Visual Feedback)

  • 外部工具(如 Matplotlib 或 Playwright 瀏覽器)執(zhí)行代碼后,會渲染生成圖片。此時,一個更強大的「視覺裁判」模型(論文中使用了 72B 的 Qwen2.5-VL)會介入,對比渲染圖和原圖,并生成定性的、結(jié)構(gòu)化的自然語言反饋,例如:「圖表類型正確,但顏色不匹配」、「網(wǎng)頁布局基本正確,但缺少了一個按鈕」。這些反饋會作為新的輸入,指導(dǎo)模型進行下一輪的代碼修正。

第三步:視覺裁判 (Visual Judge) & 混合獎勵

  • 在整個迭代過程結(jié)束后,模型會輸出最終的代碼。此時,「視覺裁判」會再次出場,但這次它扮演的是「法官」角色,給出一個定量的視覺相似度分數(shù) R_vision。
  • 但僅僅有視覺分是不夠的。為了讓模型學(xué)得更好,研究者設(shè)計了混合獎勵函數(shù) (Hybrid Reward Design):
  • 視覺相似度獎勵 (R_vision):核心獎勵,分數(shù)越高獎勵越大。
  • 格式正確性獎勵 (R_format):代碼能否跑通?思考和工具調(diào)用的格式對不對?如果出錯,直接給予懲罰。
  • 工具使用獎勵 (R_tool):為了鼓勵模型探索和使用反饋循環(huán),每次成功的工具調(diào)用都會獲得少量獎勵,直到模型表現(xiàn)得足夠好(視覺分超過 0.95)或達到最大次數(shù)。

這三個獎勵通過加權(quán)組合(R = w_v * R_vision + w_f * R_format + w_t * R_tool),構(gòu)成最終的驅(qū)動力。

最后一步:GRPO 算法優(yōu)化

  • 有了精確的獎勵信號,如何高效地更新模型?RRVF 采用了 GRPO(Group Relative Policy Optimization)算法。相比傳統(tǒng)的 PPO,GRPO 更高效,它不需要一個獨立的價值函數(shù),而是通過對一組(論文中是 8 個)候選答案進行比較和打分,直接優(yōu)化策略。

這個設(shè)計,完美地將一個復(fù)雜的「代碼生成」任務(wù),轉(zhuǎn)化成了一個極易被驗證(視覺相似度)和優(yōu)化(混合獎勵 + GRPO)的工程問題。

圖片

圖 4:迭代推理的 case,模型一步步學(xué)會如何準確重建一張餅圖

實驗結(jié)果:驗證的力量,讓 7B 模型超越 72B 老師

RRVF 的實驗結(jié)果,有力地證明了「驗證者法則」的力量。模型基于 Qwen2.5-VL-7B 進行訓(xùn)練,并在圖表生成(ChartMimic, Plot2Code)和網(wǎng)頁生成(WebSight)三個數(shù)據(jù)集上進行了全面評測。

圖片

圖片

圖片

1. 性能碾壓:SFT 學(xué)的是「模仿」,RRVF 學(xué)的是「理解」

在 ChartMimic 上,傳統(tǒng)的監(jiān)督微調(diào)(SFT)雖然有標準代碼答案,但執(zhí)行率只有 69.00%。而 RRVF 在沒有任何代碼答案的情況下,代碼執(zhí)行率達到了 97.83%,在其他各項指標上均有明顯提升。這證明了 RRVF 真正理解了圖像的結(jié)構(gòu),而非死記硬背。

2. 「學(xué)生」超越「老師」:自學(xué)習效應(yīng)的驚人體現(xiàn)

出乎意料的是,通過 RRVF 訓(xùn)練的 7B 模型,最終的綜合得分(64.36)不僅遠超其基礎(chǔ)模型(38.17),甚至超越了在訓(xùn)練中為它提供反饋和評分的、更強大的 72B 模型(47.30)。這證明 RRVF 不是簡單的知識蒸餾,而是讓模型在自我探索中發(fā)現(xiàn)了比「老師」更優(yōu)的策略,實現(xiàn)了能力的「進化」。

3. 泛化能力:真學(xué)霸從不畏懼新考卷

為了考驗?zāi)P褪欠裾娴膶W(xué)到了通用能力,研究者在未訓(xùn)練的 Plot2Code 數(shù)據(jù)集上進行了零樣本測試。結(jié)果顯示,SFT 模型性能急劇下降(例如執(zhí)行率從 69% 暴跌至 49%),暴露出其「偏科」和「過擬合」的本質(zhì)。

相比之下,RRVF 模型的執(zhí)行率幾乎沒有衰減(例如執(zhí)行率從 97.83% 穩(wěn)定在 96.21%)。這強有力地證明,通過視覺反饋學(xué)習到的,是可遷移的、底層的視覺到代碼的生成邏輯。

這項研究是「驗證者法則」的一次響亮宣告。它告訴我們,未來 AI 發(fā)展的瓶頸,可能不在于模型本身有多大,而在于我們能否為 AI 想解決的任務(wù),設(shè)計出足夠簡單、高效的「驗證環(huán)境」。

一旦我們學(xué)會了如何將復(fù)雜問題轉(zhuǎn)化為易于驗證的問題,那么正如 Jason Wei 所預(yù)言的,一個智能的「鋸齒狀前沿」將會出現(xiàn):在所有可被清晰驗證的領(lǐng)域,AI 將展現(xiàn)出超乎想象的強大能力。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-03-31 09:32:00

視覺生產(chǎn)AI模型

2025-05-09 08:19:00

2025-02-10 14:05:00

訓(xùn)練模型AI

2024-08-30 12:58:43

AI多模態(tài)技術(shù)

2022-09-30 15:15:41

模型框架

2025-10-30 09:42:58

2025-09-15 08:53:00

AI模型推理

2021-04-30 15:16:59

機器學(xué)習人工智能計算機

2025-02-19 11:28:00

2024-03-07 12:51:08

模型訓(xùn)練

2020-05-27 10:10:56

對稱加密Hash算法數(shù)字簽名

2021-12-14 15:59:38

數(shù)據(jù)模型推理

2025-04-10 09:38:37

2024-08-08 13:04:28

2023-07-03 09:55:01

2023-06-20 13:44:49

清華推理

2025-08-15 09:00:00

AI編輯強化學(xué)習

2023-11-20 08:52:46

模型訓(xùn)練

2025-06-25 09:02:05

2010-07-28 10:09:01

點贊
收藏

51CTO技術(shù)棧公眾號

成人国产精品一区二区网站| 国产免费av观看| 伊人久久大香线蕉av不卡| 91国产福利在线| 性做爰过程免费播放| 婷婷在线免费视频| 日韩在线一区二区| 精品视频9999| 蜜桃av乱码一区二区三区| 午夜免费欧美电影| 欧美午夜精品一区| 国产中文字幕二区| 秋霞午夜理伦电影在线观看| 波多野结衣91| 91精品免费久久久久久久久| 五月天婷婷久久| 欧美日韩少妇| 亚洲人成网站免费播放| 韩国三级在线播放| 成人免费在线观看视频| 天天爽夜夜爽夜夜爽精品视频| 香蕉久久免费影视| 天堂中文在线资| 国产福利精品一区| 国产原创欧美精品| 成人免费一级片| 国产日韩欧美三区| 色综合久久悠悠| 青青草自拍偷拍| 自拍欧美一区| 日韩电影免费观看中文字幕 | 婷婷丁香在线| 国产精品女上位| 欧美日韩国产综合视频在线| 亚洲成人精品女人久久久| 精彩视频一区二区| 国产欧美亚洲视频| 怡春院在线视频| 久久一区中文字幕| 国产91色在线免费| 一级成人黄色片| 国产精品视频久久一区| 久久人人看视频| 久久久久无码国产精品不卡| 欧美在线播放| 欧美精品在线第一页| 欧美 日韩 国产 一区二区三区| 日韩欧美高清| 在线精品视频视频中文字幕| 久久色视频免费观看| 日韩av一卡二卡| 国产女主播在线播放| 青青青国产精品| 欧美视频精品在线| 亚洲国产精品三区| 欧美v亚洲v综合v国产v仙踪林| 色综合久久久久综合体| 无码人妻h动漫| 国产精品高清乱码在线观看| 欧美视频自拍偷拍| 亚洲一级片av| 精品视频91| 日韩精品一区二区三区三区免费| 网站在线你懂的| 精品午夜视频| 亚洲黄色www| 中文字幕一二三四区| 国产日产一区| 精品国产区一区二区三区在线观看| 青青草自拍偷拍| 欧美另类亚洲| 亲子乱一区二区三区电影| 日本中文字幕第一页| 日本亚洲三级在线| 91香蕉亚洲精品| 亚洲精品第五页| 337p粉嫩大胆色噜噜噜噜亚洲| 日产精品一线二线三线芒果| 免费观看成人高潮| 亚洲成a人片综合在线| 成人综合视频在线| 精品国产黄a∨片高清在线| 91精品麻豆日日躁夜夜躁| 亚洲精品成人无码毛片| 台湾佬综合网| 日韩在线资源网| 日本少妇激情视频| 天使萌一区二区三区免费观看| 成人啪啪免费看| 日本wwwxxxx| 国产精品视频yy9299一区| 日本三级中文字幕在线观看| 蜜桃视频在线观看免费视频| 欧美手机在线视频| 北京富婆泄欲对白| 99久久99久久精品国产片果冰| 欧美激情精品久久久久久变态 | 大胆av不用播放器在线播放| 亚洲欧洲精品成人久久奇米网| 人妻无码久久一区二区三区免费| 日韩毛片在线| 亚洲福利视频二区| jizzjizz日本少妇| 午夜在线观看免费一区| 亚洲一区二区自拍| 久草福利在线视频| 亚洲午夜激情网页| 日韩欧美国产片| 外国成人在线视频| 欧美情侣性视频| 伊人色综合久久久| 26uuu久久天堂性欧美| 久久久无码中文字幕久...| 色综合一本到久久亚洲91| 亚洲白拍色综合图区| 人与动物性xxxx| 日韩高清一区在线| 精品久久中出| 欧美家庭影院| 制服.丝袜.亚洲.另类.中文| 国产毛片欧美毛片久久久| 亚洲精品1234| 不卡一区二区三区四区五区| 欧美激情午夜| 欧美午夜精品一区二区蜜桃| 精品久久久久久中文字幕人妻最新| 欧美成人午夜| 91色在线观看| 麻豆av在线免费看| 欧美日韩一区二区在线观看视频| 久久只有这里有精品| 免费欧美日韩| 久久精品ww人人做人人爽| 黄页在线观看免费| 精品日韩一区二区| 久草视频在线资源| 国产精品一二三| 中文字幕在线中文| 国产一区二区三区亚洲综合| 日韩综合中文字幕| 亚洲无码精品国产| 国产精品无圣光一区二区| 手机看片福利盒子久久| 国产成人影院| 国产精品久久久久久久电影| 国产福利在线看| 欧洲一区二区三区在线| 免费观看a级片| 蜜臀久久99精品久久久久宅男| 日韩av一区二区三区在线| 亚洲精品在线影院| 最新中文字幕亚洲| 国产探花精品一区二区| 亚洲乱码日产精品bd| 成人在线短视频| 欧美久久久久| 精品国产综合区久久久久久| sis001欧美| 一区二区欧美在线| 91成年人视频| 亚洲国产一区二区a毛片| 99re这里只有| 噜噜爱69成人精品| 亚洲人成网站在线观看播放| 电影91久久久| 国内外成人免费激情在线视频网站 | av黄色在线| 精品三级av在线| 天天干天天干天天操| 国产日韩欧美综合一区| 手机视频在线观看| 欧美日韩a区| 久久99精品久久久久久秒播放器| 亚洲精品在线影院| 欧美成年人在线观看| 欧洲成人一区二区三区| 91激情在线视频| 在线观看亚洲网站| av综合在线播放| 亚洲国产精品三区| 国语自产精品视频在线看8查询8| 欧美日韩精品久久| 99综合久久| 性色av一区二区三区免费| 成人激情电影在线看| 日韩欧美在线影院| 黄色片中文字幕| 亚洲色图制服丝袜| asian性开放少妇pics| 精品一区二区三区久久久| 阿v天堂2018| 日韩啪啪电影网| 精品国产一区二区三区免费| 精品久久福利| 91高清免费视频| 成年视频在线观看| 亚洲欧美日韩国产中文| www.综合色| 欧美午夜精品一区二区蜜桃 | 在线精品亚洲| 伊人久久大香线蕉av一区| 欧美美女黄色| 亚洲自拍偷拍色片视频| 欧美性xxx| 久久久久久一区二区三区 | 久久精品视频一区二区三区| 一级黄色免费毛片| 免费在线看一区| 亚洲熟妇无码一区二区三区| 国产精品久久久久久久免费观看 | 欧美伊人久久大香线蕉综合69 | 丁香婷婷久久久综合精品国产| 亚洲精品粉嫩美女一区| 久久久亚洲欧洲日产国码aⅴ| 欧美a在线看| 亚洲人成人99网站| 香蕉视频黄在线观看| 欧美一级久久久久久久大片| 中文字幕人妻互换av久久| 欧美天堂在线观看| 国产成人精品亚洲男人的天堂| 亚洲欧美日韩在线| 国产福利在线导航| 欧美激情一区二区三区在线| 久久亚洲AV成人无码国产野外| 成人网在线播放| 女人扒开双腿让男人捅| 国内精品国产成人| 日本超碰在线观看| 欧美aⅴ一区二区三区视频| 丁香啪啪综合成人亚洲| 国产精品久久久久久久免费软件| 隔壁人妻偷人bd中字| 中文精品久久| 国产又粗又硬又长| 小处雏高清一区二区三区| 性欧美videosex高清少妇| 经典一区二区| 色姑娘综合网| 欧美色图一区| 亚洲黄色成人久久久| 欧美日一区二区| 亚洲欧洲一区二区| 欧美电影一二区| 亚洲一区三区视频在线观看| 色135综合网| 一本久久a久久精品vr综合| 久久精品高清| 熟妇熟女乱妇乱女网站| 欧美阿v一级看视频| 久久久国内精品| 亚洲黄色大片| 三级4级全黄60分钟| 视频一区欧美精品| 亚洲综合欧美在线| 精品一区二区三区的国产在线播放| 亚洲视频第二页| 国产一区二区三区在线观看免费| 超级砰砰砰97免费观看最新一期| 国产东北露脸精品视频| 无码成人精品区在线观看| 91在线视频播放| 亚洲一区二区三区日韩| 中文字幕在线播放不卡一区| 国内偷拍精品视频| 黄色一区二区三区| 中文字幕+乱码+中文字幕明步| 欧美日韩一区不卡| 国产黄色一级大片| 亚洲国模精品私拍| av基地在线| 欧美日韩成人免费| 在线观看特色大片免费视频| 国产精品男女猛烈高潮激情| 国产精品一区免费在线| 国产在线一区二区三区欧美| 国产精品亚洲片在线播放| 致1999电视剧免费观看策驰影院| 黄色一区二区三区四区| 国产一区视频免费观看| 激情六月婷婷久久| 超碰男人的天堂| 亚洲国产精品成人综合 | 日本高清www| 国产精品丝袜在线| 国产极品在线播放| 欧美日韩在线播放一区| 高清国产mv在线观看| 亚洲性日韩精品一区二区| 91精品国产91久久久久久青草| 欧美亚洲成人免费| 国产精品一区免费在线| 蜜桃视频在线观看91| 亚洲一区 二区 三区| 国产91在线视频观看| 国产一区二三区| 中文字幕狠狠干| 一卡二卡欧美日韩| 怡红院成永久免费人全部视频| 亚洲国产精品久久91精品| 午夜看片在线免费| 欧美一级视频在线观看| 在这里有精品| 一区二区免费在线视频| 亚洲一区二区毛片| 超级砰砰砰97免费观看最新一期| 亚洲国产高清aⅴ视频| 欧美成人精品欧美一级乱黄| 欧美一级欧美三级在线观看 | 欧美中文一区| 国产在线拍揄自揄拍无码| 日韩精品一级中文字幕精品视频免费观看| 日本特黄在线观看| 国产精品区一区二区三| 欧美一区二区三区网站| 亚洲福利在线看| 欧美性受ⅹ╳╳╳黑人a性爽| 91精品国产自产在线观看永久| 亚洲三级性片| 黄色av网址在线播放| 国产福利一区二区三区视频在线| 蜜桃av.com| 欧美日韩一二三区| av电影在线网| 国产成人+综合亚洲+天堂| 亚洲成aⅴ人片久久青草影院| 天堂8在线天堂资源bt| 国产精品亚洲人在线观看| 成人做爰视频网站| 欧美精品tushy高清| 在线观看完整版免费| 国产精品久久久久久久久久尿| 亚洲另类av| 国产肥臀一区二区福利视频| 成人av先锋影音| 日韩美女视频网站| 日韩第一页在线| 色在线中文字幕| 九色91视频| 久久一区二区三区超碰国产精品| 亚洲精品女人久久久| 午夜av一区二区三区| 午夜成人鲁丝片午夜精品| 5566成人精品视频免费| 亚洲人成网站77777在线观看| 777米奇影视第四色| 久久男人中文字幕资源站| 日本中文字幕在线| 亚洲三级 欧美三级| 久久91导航| 亚洲精品免费在线看| 韩国欧美国产1区| 久久久久无码精品国产| 日韩成人久久久| 日韩一区二区三区在线免费观看 | 麻豆久久久9性大片| 久久精品网址| 中国1级黄色片| 欧美一区二区视频在线观看2020| 69xxx在线| 国产精品香蕉视屏| 久久精品一区二区三区中文字幕| 免费看黄色的视频| 欧美人妖巨大在线| 久操av在线| 蜜桃在线一区二区三区精品| 日韩av不卡在线观看| 顶级黑人搡bbw搡bbbb搡| 精品欧美黑人一区二区三区| 国产99在线| 亚洲国产精品www| 成人性生交大片免费| 青青青国产在线| xvideos成人免费中文版| 亚洲国产中文在线| 97av视频在线观看| 成人免费一区二区三区在线观看| 亚洲AV午夜精品| 国产精品吹潮在线观看| 午夜欧美精品| 色噜噜日韩精品欧美一区二区| 在线成人免费观看| 男人久久天堂| 五月天男人天堂| 26uuu精品一区二区三区四区在线 26uuu精品一区二区在线观看 | 国产精品国内免费一区二区三区| 69xxx免费视频| 欧美性猛片xxxx免费看久爱| 午夜成年人在线免费视频| 日本精品国语自产拍在线观看| 国产一区二区91| 精品国产一区二区三区四| 久久中国妇女中文字幕| 亚欧日韩另类中文欧美| 亚洲网中文字幕| 色综合久久久久| 国精一区二区三区| 伊人色综合影院| 久久综合九色综合欧美98| www.日韩在线观看|