告別海量標注!浙大團隊提出GUI-RCPO,讓GUI定位在無標簽數據上自我進化
無需海量數據標注,智能體也能精確識別定位目標元素了!
來自浙大等機構的研究人員提出GUI-RCPO——一種自我監督的強化學習方法,可以讓模型在沒有標注的數據上自主提升GUI grounding(圖形界面定位)能力。

何謂GUI grounding?為什么要提升這項能力?
簡單而言,近年來,以視覺-語言模型為骨架的GUI智能體正在迅猛發展,只需要一句語言指令,它們就能像人一樣手眼協同地操作電腦、手機、網頁等界面。
GUI智能體的一個關鍵能力在于GUI grounding,也就是根據用戶給出的自然語言指令,GUI智能體需要在用戶界面中精確地識別并定位可操作的目標元素。
良好的GUI grounding能力可以使得GUI智能體更好地理解圖形界面,以及完成更加精準地界面交互。
然而,想要訓練這樣一種看似簡單的能力,卻需要大規模高質量的標注數據——當前絕大多數方法動輒需要上百萬級的標注數據,而構建這樣的高質量的標注數據需要大量的人工和時間成本。
而GUI-RCPO正好解決了上述問題,其核心原理如下:
通過創新性地將Test-time Reinforcement Learning的思想遷移到GUI grounding任務上,利用模型在多次采樣之間呈現出來的區域一致性來引導模型在無標簽的數據上進行自我提升。
具體內容如下——
GUI-RC:模型采樣“求同存異”
當模型針對同一指令進行多次預測時,由于坐標空間的連續性和解碼策略帶來的隨機性,模型會產生不同的預測區域。
盡管這些預測區域的范圍可能互不相同,但是它們會存在一定的空間重疊,這種空間重疊實際上蘊含了一種隱式的置信度信號,重疊程度越高潛在地說明了模型對該區域的置信度越高,研究團隊將這種空間重疊定義為模型采樣中的區域一致性。
基于這一洞察,研究團隊首先設計了一種基于區域一致性進行空間投票的test-time scaling方法——GUI-RC。
首先構建一張與屏幕截圖相同大小的投票網格來記錄模型每次采樣中預測的區域,對于每一個預測結果,將其在網格上對應的區域記上一票,如果模型的預測結果是點坐標,則將其擴展成大小的方框,再投射到網格上。
全部投票結束后,這張網格便記錄了模型在采樣過程中總體上對每一個像素點的置信度,票數越高的區域代表模型對該區域的信心越強。
隨后,提取出網格中票數最高且面積最大的連續區域作為模型采樣中的“共識區域”。
最后,利用這塊共識區域來進行GUI定位,即可在無需訓練的情況下,得到一個更加精確可靠的預測結果。

GUI-RCPO:讓模型在無標簽數據上自我提升
研究團隊進一步提出了一種test-time reinforcement learning方法——GUI-RCPO,將模型采樣中的區域一致性轉換成一種自監督的獎勵信號來指導模型的策略優化。
對于每一個預測結果,GUI-RCPO會賦予其預測區域內的平均票數與最大票數之比的獎勵,反映出該區域在采樣中的一致性程度,一致性程度越高的區域會被賦予越高的獎勵。
這樣一來,GUI-RCPO便可以在無需任何標注數據和外部監督的情況下,利用這種區域一致性獎勵來指導模型進行策略優化,讓模型的輸出更加精準且自信,進而提高獎勵的可靠性和質量,從而實現在無標簽數據上的自我提升。
實驗分析
研究團隊將GUI-RC和GUI-RCPO兩種方法分別應用到不同的通用模型和GUI專用模型上,并在三個主流的GUI定位基準上進行了全面的評估。
對于GUI-RCPO方法,團隊使用去掉真值標簽的ScreenSpot-v2作為訓練數據集。
實驗結果表明,兩種方法在不同模型上都有一致的提升。
其中GUI-RCPO帶來的提升超過了GUI-RC,說明模型在GUI-RCPO訓練過程中并不是在簡單地擬合共識區域,而是在真正地學會一種更好的定位策略。
此外,GUI-RCPO對于已經在GUI任務上進行過預訓練的模型仍然會帶來進一步的提升,證明了方法的有效性。


此外,GUI-RCPO還展現出良好的泛化能力,盡管模型只在針對通用場景的ScreenSpot-v2數據集上進行訓練,但是在更有挑戰性的針對專業場景的ScreenSpot-Pro基準上依然有顯著的提升。
并且隨著訓練步數的增加,模型在三個基準上的表現都有穩定的提升,進一步證明了GUI-RCPO的泛化能力。

研究團隊還嘗試在GUI-RCPO訓練之后,繼續使用GUI-RC進行空間區域投票,并發現模型的表現還能進一步提升,說明通過這種自我強化的循環,模型可以在沒有任何標注數據和外部監督的情況下,不斷突破預期的性能上限。

案例分析
研究團隊提供了兩個案例,分別展示了GUI-RC可以解決的GUI定位中存在的兩類幻覺。
- 誤導性幻覺
在一個電商界面里,用戶指令要求GUI智能體在時尚購物區中查看低于50美元的鞋子(圖片中藍色方框框選的區域),而在貪心解碼策略下,模型卻被相近的語義與版面布局迷惑,錯誤地框選到了“低于25美元的上衣”區域(左側圖片中紅色方框框選的區域),這是典型的語義錯配導致的誤導性幻覺。
GUI-RC通過對同一指令進行多次采樣,并投票選出采樣中的共識區域(右側圖片中綠色方框框選的區域),成功地將模型的注意力穩定地聚合到正確的區域,從而糾正了單次預測的誤導性錯誤,給出更精確的定位。

- 偏差性幻覺
在一個電子平臺界面里,用戶指令要求GUI智能體“聯系銷售”(圖片中藍色方框框選的區域),而在貪心解碼策略下,模型卻把右側的整張信息卡片當作目標(左側圖片中紅色方框框選的區域),而不是精確地框選可點擊的“聯系銷售”按鈕。
GUI-RC通過多次采樣投票的方式,把一次次略有偏差的預測聚合并提取出一個更加精確、自信的共識區域(右側圖片中綠色方框框選的區域),成功地完成了精準的定位,消除了這類偏差性幻覺。

小結一下
研究團隊首先設計了一種無需訓練的test-time scaling方法——GUI-RC,通過利用模型在采樣過程中呈現出來的空間區域一致性提取出模型的共識區域,從而實現更加精準自信的定位。
為了繼續發掘區域一致性的潛力,團隊進一步提出了一種test-time reinforcement learning方法——GUI-RCPO,將區域一致性轉化為一種自監督的獎勵信號,使得模型能夠在無需任何標注數據的情況下不斷地進行自我提升。
實驗證明了該方法有廣泛的適用性和良好的泛化能力。
團隊的研究揭示了test-time training在GUI智能體領域中的潛力,為構建更加數據高效的GUI智能體提供了一個可行的方向。
論文鏈接:https://arxiv.org/abs/2508.05615
項目主頁:https://zju-real.github.io/gui-rcpo/
代碼倉庫:https://github.com/ZJU-REAL/GUI-RCPO


































