ICML'25南洋理工+阿里:反事實(shí)RL實(shí)現(xiàn)VLM智能體高效在線(xiàn)調(diào)優(yōu),成功率漲12%
你有沒(méi)有過(guò)這樣的經(jīng)歷?讓手機(jī)助手幫你在購(gòu)物APP里搜個(gè)耳機(jī),它卻反復(fù)點(diǎn)錯(cuò)廣告彈窗;想讓智能音箱聯(lián)動(dòng)燈光,它要么沒(méi)反應(yīng),要么把空調(diào)也打開(kāi)了。明明這些AI能看懂圖片、聽(tīng)懂文字,怎么一到“動(dòng)手做事”就掉鏈子?
我們解讀最新技術(shù),文末有相關(guān)信息。

最近在研究視覺(jué)語(yǔ)言模型(VLM)做智能體(Agent)的論文時(shí),發(fā)現(xiàn)了一個(gè)讓我眼前一亮的解法——來(lái)自南洋理工和阿里巴巴團(tuán)隊(duì)發(fā)表在ICML2025的新方法CoSo。它就像給AI裝了個(gè)“智能導(dǎo)航儀”,能精準(zhǔn)分辨哪些操作關(guān)鍵、哪些是無(wú)用功,徹底告別“瞎摸索”。今天我們講講這個(gè)讓AI從“新手”變“老手”的核心邏輯。
一、先搞懂:AI“做事”難,難在哪?
首先得說(shuō)清楚,我們讓AI做的“大事”,比如控制手機(jī)、玩卡牌、機(jī)器人做家務(wù),本質(zhì)上是讓VLM當(dāng)“決策者”:它要先看環(huán)境(比如手機(jī)屏幕截圖)、讀指令(比如“搜羅技鼠標(biāo)”),再輸出文字指令(比如“點(diǎn)擊搜索框,輸入‘羅技g903’”),最后這些文字會(huì)被轉(zhuǎn)成實(shí)際操作(比如手機(jī)屏幕上的點(diǎn)擊動(dòng)作)。
但這里有兩個(gè)大麻煩,也是我們團(tuán)隊(duì)之前做類(lèi)似研究時(shí)卡了很久的痛點(diǎn)
1. 動(dòng)作空間大到“離譜”
傳統(tǒng)AI比如玩游戲的RL智能體,動(dòng)作就那幾個(gè):“上、下、左、右、攻擊”。但VLM輸出的是文字,比如一句話(huà)有100個(gè)詞,每個(gè)詞從3萬(wàn)個(gè)常用詞里選,可能的組合就是“3萬(wàn)的100次方”——這數(shù)字大到能讓全宇宙的原子來(lái)當(dāng)計(jì)數(shù)器都不夠用。AI要在這么多組合里找“有用的操作”,跟在撒哈拉沙漠里找一粒特定的沙子沒(méi)區(qū)別。
2. 很多文字是“廢話(huà)”,不影響最終操作
更坑的是,VLM輸出的文字里,很多內(nèi)容是“湊數(shù)的”。比如“我現(xiàn)在要點(diǎn)擊搜索框,這個(gè)搜索框在屏幕頂部,顏色是白色的,然后輸入‘羅技g903’”——這里“顏色是白色的”就是純廢話(huà),刪掉也不影響“點(diǎn)擊+輸入”的操作。但傳統(tǒng)強(qiáng)化學(xué)習(xí)(RL)會(huì)把所有文字當(dāng)“重點(diǎn)”,花大量精力琢磨“白色”要不要改、改成“黑色”會(huì)怎樣,純屬浪費(fèi)時(shí)間。
簡(jiǎn)單說(shuō),傳統(tǒng)方法就是“眉毛胡子一把抓”,既沒(méi)效率,又容易走歪。
二、CoSo的核心魔法:先分清“有用”和“沒(méi)用”
CoSo的全稱(chēng)是Counterfactual Soft Reinforcement Learning(反事實(shí)軟強(qiáng)化學(xué)習(xí)),名字聽(tīng)著玄乎,核心思路卻特別接地氣:先搞清楚哪些文字(token)真正影響操作,再重點(diǎn)優(yōu)化這些“關(guān)鍵文字”。

這就像你寫(xiě)工作報(bào)告時(shí),會(huì)先把“結(jié)論”“數(shù)據(jù)”標(biāo)紅重點(diǎn)改,而不會(huì)在“尊敬的領(lǐng)導(dǎo)”這種套話(huà)上反復(fù)糾結(jié)——CoSo就是給AI裝了個(gè)“標(biāo)紅器”。

魔法第一步:用“反事實(shí)推理”找關(guān)鍵文字
怎么判斷一段文字是不是“關(guān)鍵”?CoSo用了個(gè)特別聰明的方法——反事實(shí)推理,說(shuō)白點(diǎn)就是“假如沒(méi)有它,會(huì)怎么樣?”
舉個(gè)生活例子:你做番茄炒蛋,放了番茄、雞蛋、鹽、糖。想知道“鹽”是不是關(guān)鍵,就試試不放鹽——炒出來(lái)沒(méi)味道,說(shuō)明鹽很重要;要是不放“糖”(有些人不愛(ài)放),味道差別不大,說(shuō)明糖不是必須的。
CoSo對(duì)AI輸出的文字也這么干:
1. 先看原始文字對(duì)應(yīng)的操作(比如“點(diǎn)擊搜索框”);
2. 然后把文字里的某一個(gè)詞換成“無(wú)效詞”(比如把“點(diǎn)擊”換成“看看”),其他詞不變;
3. 對(duì)比新文字對(duì)應(yīng)的操作有沒(méi)有變——如果變了(比如從“點(diǎn)擊”變成“沒(méi)操作”),說(shuō)明這個(gè)詞是“關(guān)鍵詞”;如果沒(méi)變,就是“廢話(huà)詞”。
我第一次看到這個(gè)設(shè)計(jì)時(shí)特別佩服:不用復(fù)雜模型,就用這種“排除法”,精準(zhǔn)量化了每個(gè)詞的“影響力”。比如在手機(jī)控制任務(wù)里,他們發(fā)現(xiàn)只有不到10%的詞是關(guān)鍵的,剩下80%以上都是“廢話(huà)”——這一下就把AI的探索范圍從“撒哈拉”縮小到了“一個(gè)籃球場(chǎng)”。
魔法第二步:給“關(guān)鍵詞”多“鏡頭”,讓AI重點(diǎn)探索
找到關(guān)鍵詞后,CoSo又做了一件事:給關(guān)鍵詞的“探索權(quán)”加權(quán)。
這就像拍電影,主角(關(guān)鍵詞)的鏡頭要多,配角(廢話(huà)詞)的鏡頭少。傳統(tǒng)強(qiáng)化學(xué)習(xí)里,所有詞的“探索機(jī)會(huì)”是一樣的——AI可能花80%精力改“廢話(huà)詞”,20%改關(guān)鍵詞;CoSo反過(guò)來(lái),讓AI把80%精力放在關(guān)鍵詞上,比如琢磨“點(diǎn)擊”要不要換成“滑動(dòng)”,而不是糾結(jié)“白色”要不要改成“灰色”。
具體怎么實(shí)現(xiàn)?它在強(qiáng)化學(xué)習(xí)的“熵正則化”(鼓勵(lì)A(yù)I探索新動(dòng)作)里加了個(gè)“因果權(quán)重”:關(guān)鍵詞的“熵權(quán)重”高,AI會(huì)多嘗試不同可能性;廢話(huà)詞的“熵權(quán)重”低,AI基本不折騰。
這么一改,AI的探索就從“瞎逛”變成了“精準(zhǔn)探店”——每一次嘗試都大概率能帶來(lái)有用的變化,效率自然就上去了。

三、實(shí)驗(yàn)說(shuō)話(huà):CoSo到底有多好用?
光說(shuō)原理不夠,得看實(shí)際效果。團(tuán)隊(duì)在三個(gè)完全不同的任務(wù)里測(cè)試了CoSo,結(jié)果都挺讓人驚喜的
1. 手機(jī)控制:成功率從64.9%漲到72.9%
在Android-in-the-Wild(真實(shí)手機(jī)任務(wù)集)里,比如“打開(kāi)亞馬遜APP,搜羅技鼠標(biāo),選第一個(gè)商品”,傳統(tǒng)方法DigiRL的平均成功率是64.9%,而CoSo直接提到了72.9%,提升了12.3%。

更關(guān)鍵的是“糾錯(cuò)能力”。比如AI不小心點(diǎn)進(jìn)了“分享頁(yè)面”,傳統(tǒng)方法會(huì)反復(fù)點(diǎn)“搜索按鈕”(哪怕按鈕不可點(diǎn)),或者亂改“顏色”“位置”這種廢話(huà)詞;而CoSo能快速找到“返回”“Home”這些關(guān)鍵操作詞,很快糾正錯(cuò)誤。
2. 卡牌游戲:算術(shù)推理能力提升9.3%
在Gym Cards(比如24點(diǎn)、 Blackjack)里,VLM需要做算術(shù)和決策。傳統(tǒng)方法RL4VLM的平均正確率是45.1%,CoSo提到了49.3%。比如24點(diǎn)任務(wù)里,CoSo能更精準(zhǔn)地調(diào)整“加減乘除”這些關(guān)鍵符號(hào),而不是在“我現(xiàn)在要算24點(diǎn)”這種描述上浪費(fèi)時(shí)間。

3. 機(jī)器人做家務(wù):成功率提升16.7%
在ALFWorld(機(jī)器人做家務(wù)環(huán)境)里,比如“找個(gè)杯子,加熱后放在餐桌上”,傳統(tǒng)方法的成功率是22.7%,CoSo提到了26.5%。這里最明顯的是,CoSo能快速定位“加熱”“放”這些關(guān)鍵動(dòng)作詞,而不會(huì)在“杯子是玻璃的”這種描述上糾結(jié)。
更難得的是,CoSo的“額外成本”特別低——只加了0.01B參數(shù)(相當(dāng)于主模型的0.2%),GPU內(nèi)存多占0.7GB,訓(xùn)練時(shí)間多0.5小時(shí)。用這么小的代價(jià)換這么大的提升,在工業(yè)界落地的潛力很大。
四、未來(lái)可期,但還有個(gè)小遺憾
CoSo的思路其實(shí)能延伸到很多場(chǎng)景:比如讓智能車(chē)的VLM更精準(zhǔn)地判斷“剎車(chē)”“加速”指令,讓家居機(jī)器人更高效地完成“掃地”“擦桌子”任務(wù)。它的核心價(jià)值不是“發(fā)明了新算法”,而是“用簡(jiǎn)單的因果推理,解決了復(fù)雜的探索效率問(wèn)題”——這給我們做AI研究提了個(gè)醒:有時(shí)候不用追求復(fù)雜模型,回歸問(wèn)題本質(zhì)反而能找到突破。
不過(guò)它也有個(gè)小局限:目前處理的文字序列還不到300個(gè)詞,如果遇到更長(zhǎng)的“思考過(guò)程”(比如AI要寫(xiě)一段1000詞的計(jì)劃再操作),現(xiàn)在的方法可能不夠用。未來(lái)或許可以加個(gè)“分層推理”,先找關(guān)鍵段落,再找關(guān)鍵詞,就像我們讀長(zhǎng)文章先看小標(biāo)題再看正文一樣。
最后:AI的“精準(zhǔn)”,才是真的“智能”
其實(shí)我們對(duì)AI的期待,從來(lái)不是“會(huì)說(shuō)復(fù)雜的話(huà)”,而是“能做精準(zhǔn)的事”。就像好的助理不會(huì)跟你扯一堆廢話(huà),而是直接把事辦到位——CoSo做的,就是讓VLM從“話(huà)多不辦事”的助理,變成“話(huà)少效率高”的能手。
如果你也被AI“瞎操作”坑過(guò),或者對(duì)智能體的未來(lái)有想法,歡迎在評(píng)論區(qū)聊聊:你最希望AI幫你精準(zhǔn)完成什么事?是控制家電,還是處理工作流程?
參考資料
?標(biāo)題:Towards Efficient Online Tuning of VLM Agents via Counterfactual Soft Reinforcement Learning
?作者:Lang Feng, Weihao Tan, Zhiyi Lyu, Longtao Zheng, Haiyang Xu, Ming Yan, Fei Huang, Bo An
?單位:南洋理工大學(xué);阿里巴巴集團(tuán)
?鏈接:https://openreview.net/pdf?id=H76PMm7hf2
本文轉(zhuǎn)載自??旺知識(shí)??,作者:旺知識(shí)

















