美團(tuán)提出首個(gè)語(yǔ)音交互GUI智能體,端到端語(yǔ)音訓(xùn)練能力優(yōu)于傳統(tǒng)文本訓(xùn)練
只需要?jiǎng)觿?dòng)嘴就可以驅(qū)動(dòng)GUI代理?
由美團(tuán)和浙江大學(xué)聯(lián)合推出的GUIRoboTron-Speech——讓用戶(hù)解放雙手,直接對(duì)計(jì)算機(jī)“發(fā)號(hào)施令”。

這是首個(gè)能夠直接利用語(yǔ)音指令和設(shè)備屏幕截圖進(jìn)行端到端(End-to-End)決策的自主GUI智能體,旨在為用戶(hù)提供更直接、高效且無(wú)障礙的交互體驗(yàn)。

從文本到語(yǔ)音,智能代理的下一次進(jìn)化
當(dāng)前,以大型語(yǔ)言模型(LLMs)為核心的自主GUI智能體,已能通過(guò)文本指令自動(dòng)執(zhí)行跨應(yīng)用、多步驟的復(fù)雜任務(wù),極大地提升了用戶(hù)的工作效率。但這種對(duì)文本的依賴(lài),限制了其在更廣泛場(chǎng)景下的應(yīng)用。
試想一個(gè)常見(jiàn)的家庭場(chǎng)景:在對(duì)家中的公用電腦發(fā)出指令“打開(kāi)我的瀏覽器”時(shí),一個(gè)僅能理解文本的智能體將不知所措——它無(wú)法分辨指令發(fā)出者是家庭中的哪一位成員,自然不知道什么是“我的”瀏覽器。
然而,一個(gè)能夠直接處理語(yǔ)音的智能體,則可以通過(guò)分析獨(dú)特的聲紋特征,準(zhǔn)確識(shí)別指令發(fā)出者的身份,并打開(kāi)該成員的個(gè)性化Google瀏覽器界面。
這正是語(yǔ)音模態(tài)所蘊(yùn)含的獨(dú)特價(jià)值——它不僅傳遞了指令內(nèi)容,更包含了身份、情緒等豐富的非言語(yǔ)線索,而這些對(duì)于實(shí)現(xiàn)真正個(gè)性化和智能化的交互至關(guān)重要。

傳統(tǒng)的解決方案,如采用“語(yǔ)音識(shí)別(ASR)模型轉(zhuǎn)錄+文本GUI代理”的級(jí)聯(lián)方式,不僅會(huì)增加系統(tǒng)的計(jì)算負(fù)擔(dān)和延遲,更會(huì)在轉(zhuǎn)錄過(guò)程中丟失寶貴的聲學(xué)信息。
而GUIRoboTron-Speech通過(guò)構(gòu)建端到端的語(yǔ)音GUI代理,可直接利用語(yǔ)音指令和設(shè)備屏幕截圖進(jìn)行決策。
構(gòu)建端到端的語(yǔ)音GUI代理
GUIRoboTron-Speech團(tuán)隊(duì)設(shè)計(jì)了一套嚴(yán)謹(jǐn)而創(chuàng)新的研發(fā)路徑,其核心方法可概括為以下幾個(gè)關(guān)鍵步驟:

第一步,高質(zhì)量語(yǔ)音數(shù)據(jù)集的生成
面對(duì)業(yè)界缺乏用于訓(xùn)練GUI智能體的語(yǔ)音指令數(shù)據(jù)集的挑戰(zhàn),研究團(tuán)隊(duì)提出并驗(yàn)證了一種高效的解決方案。他們利用一個(gè)先進(jìn)的隨機(jī)音色文本轉(zhuǎn)語(yǔ)音(TTS)模型,將現(xiàn)有的大規(guī)模文本指令數(shù)據(jù)集,轉(zhuǎn)換為包含多種說(shuō)話人風(fēng)格和音色的高質(zhì)量語(yǔ)音指令數(shù)據(jù)集。這一策略不僅成功解決了數(shù)據(jù)稀缺的難題,也為后續(xù)模型的訓(xùn)練奠定了堅(jiān)實(shí)的基礎(chǔ)。
第二步,漸進(jìn)式訓(xùn)練框架:分階段賦能
為了讓模型逐步掌握復(fù)雜的能力,GUIRoboTron-Speech的訓(xùn)練過(guò)程被劃分為兩個(gè)核心階段:
基礎(chǔ)Gounding階段(Grounding TrainingStage):在此階段,模型的核心任務(wù)是學(xué)習(xí)建立語(yǔ)音指令與GUI界面視覺(jué)元素之間的精確對(duì)應(yīng)關(guān)系。即當(dāng)聽(tīng)到“點(diǎn)擊‘確定’按鈕”時(shí),模型需要準(zhǔn)確理解指令的意圖,并在截圖中定位到“確定”按鈕的視覺(jué)特征與坐標(biāo)。
規(guī)劃Planning階段(Planning Training Stage):在掌握了基礎(chǔ)的“聽(tīng)說(shuō)看”能力后,模型進(jìn)入規(guī)劃與推理訓(xùn)練。在這一階段,它將學(xué)習(xí)如何理解并執(zhí)行多步驟的復(fù)雜任務(wù),例如“先登錄賬號(hào),然后找到最新的郵件并打開(kāi)附件”,展現(xiàn)出作為智能代理的邏輯推理與任務(wù)規(guī)劃能力。
第三步,啟發(fā)式混合指令訓(xùn)練策略
由于預(yù)訓(xùn)練的基座模型(Foundation Models)大多在以文本為核心的數(shù)據(jù)上進(jìn)行訓(xùn)練,存在著嚴(yán)重的模態(tài)不平衡(Modality Imbalance)問(wèn)題,即模型可能在訓(xùn)練中傾向于依賴(lài)其更為熟悉的文本信息,而忽略新引入的語(yǔ)音模態(tài)。
為解決此問(wèn)題,研究團(tuán)隊(duì)獨(dú)創(chuàng)了一種啟發(fā)式混合指令訓(xùn)練策略(Heuristic Mixed-instruction Training Strategy)。該策略在訓(xùn)練過(guò)程中,巧妙地混合使用語(yǔ)音指令和文本指令。
通過(guò)這種方式,強(qiáng)制模型同等地關(guān)注并處理來(lái)自?xún)煞N不同模態(tài)的輸入,有效緩解了模態(tài)偏見(jiàn),確保模型能夠穩(wěn)健地從語(yǔ)音信號(hào)中直接提取和理解指令意圖。
性能評(píng)估

使用不同模態(tài)的指令進(jìn)行g(shù)rounding能力訓(xùn)練,通過(guò)性能對(duì)比可以看到,直接使用speec-based指令相比text-based指令會(huì)低1.6%的平均定位精度,而使用混合指令訓(xùn)練策略可以緩解預(yù)訓(xùn)練多模態(tài)基座的模態(tài)不平衡現(xiàn)象,相比text指令甚至取得了更好的性能。

在planning能力訓(xùn)練上,基于grounding階段混合指令訓(xùn)練得到的checkpoint,speech-based指令相比text-based指令也取得了更好的性能。


此外,GUIRoboTro-Speech在與同參數(shù)量級(jí)和訓(xùn)練數(shù)據(jù)源的基線對(duì)比下,同樣取得了領(lǐng)先的地位。
在AndroidControlLow上使用公共數(shù)據(jù)時(shí),GUIRoboTron-Speech在所有方法中實(shí)現(xiàn)了最高的平均成功率(+1.3%),在AndroidControl-High上,它在所有SOTAs中實(shí)現(xiàn)了最高的平均成功率(+7.8%)。在GUI-Odyssey上,它的排名僅次于使用內(nèi)部數(shù)據(jù)的UI-TARS。
這些結(jié)果表明,GUIRoboTron-Speech作為接受用戶(hù)語(yǔ)音指令的GUI代理,具有很高的可行性,能夠通過(guò)多輪推理和動(dòng)作預(yù)測(cè)實(shí)現(xiàn)用戶(hù)目標(biāo)。這表明speech-based指令在GUI Agent這類(lèi)用戶(hù)意圖清晰的場(chǎng)景下的可能性。

最后,GUIRoboTro-Speech團(tuán)隊(duì)還針對(duì)指令長(zhǎng)度對(duì)GUI Agent任務(wù)執(zhí)行成功率的影響做了分析,發(fā)現(xiàn)在指令長(zhǎng)度較短(用戶(hù)意圖清晰)的場(chǎng)景,speech-based指令相比text-based指令能取得更好的表現(xiàn),然而隨著指令長(zhǎng)度上升,text-based指令展現(xiàn)出其承載復(fù)雜用戶(hù)意圖的特質(zhì)。
如何更好的承載復(fù)雜的用戶(hù)指令以取得穩(wěn)定的任務(wù)成功率,將是speech-based GUI Agent未來(lái)的方向之一。
論文鏈接:https://arxiv.org/abs/2506.11127
Github倉(cāng)庫(kù)鏈接:https://github.com/GUIRoboTron/GUIRoboTron-Speech






























