人人都能煉專屬Agent，上海交大開(kāi)源端側(cè)Agent全棧工具鏈，真實(shí)場(chǎng)景性能超GPT-5！

2025-09-10 15:28:06

來(lái)自上海交通大學(xué) IPADS 實(shí)驗(yàn)室的團(tuán)隊(duì)，正式開(kāi)源了一套名為?MobiAgent?的移動(dòng)端智能體 “全家桶”。

打開(kāi)手機(jī)，讓 AI Agent 自動(dòng)幫你完成訂外賣(mài)、訂酒店、網(wǎng)上購(gòu)物的瑣碎任務(wù)，這正成為智能手機(jī)交互的新范式。

一個(gè)能自主處理大部分日常任務(wù)的個(gè)人專屬智能體，正在從科幻走進(jìn)現(xiàn)實(shí)。

然而，通往 “解放雙手” 的最后一公里卻并不好走。如何高效地訓(xùn)練和在手機(jī)端部署 Agent 模型，長(zhǎng)期以來(lái)似乎都是少數(shù)大廠的 “自留地”。從高質(zhì)量操作數(shù)據(jù)的獲取，到模型的訓(xùn)練與適配，再到移動(dòng)端 APP 的優(yōu)化，重重門(mén)檻將絕大多數(shù)開(kāi)發(fā)者和普通用戶擋在門(mén)外，也極大地限制了移動(dòng)端 Agent 的生態(tài)發(fā)展。

就在剛剛，這一局面迎來(lái)了新的破局者。

來(lái)自上海交通大學(xué) IPADS 實(shí)驗(yàn)室的團(tuán)隊(duì)，正式開(kāi)源了一套名為 MobiAgent 的移動(dòng)端智能體 “全家桶”。

論文地址： https://arxiv.org/abs/2509.00531
AgentRR 論文：https://arxiv.org/abs/2505.17716
項(xiàng)目倉(cāng)庫(kù)： https://github.com/IPADS-SAI/MobiAgent
模型：https://huggingface.co/IPADS-SAI/collections
APP：https://github.com/IPADS-SAI/MobiAgent/releases/download/v1.0/Mobiagent.apk

這套框架，首次將從 0 到 1 構(gòu)建手機(jī) Agent 的全流程完整地向所有用戶開(kāi)放。這意味著，從收集手機(jī)操作軌跡數(shù)據(jù)開(kāi)始，到訓(xùn)練出一個(gè)能聽(tīng)懂自然語(yǔ)言指令、幫你處理日常事務(wù)的專屬 Agent，再到最終將它部署在自己的手機(jī)上，現(xiàn)在，人人都能上手 DIY。

當(dāng)然，光能 “煉” 還不夠，性能必須能打。為了驗(yàn)證 MobiAgent 的真實(shí)能力，研究團(tuán)隊(duì)直接在國(guó)內(nèi) Top 20 的 App 上進(jìn)行了實(shí)測(cè)。結(jié)果顯示，7B 規(guī)模的 MobiAgent 模型，在任務(wù)平均完成分上，不僅超越了 GPT-5、Gemini 2.5 Pro 等一眾頂級(jí)閉源大模型，也優(yōu)于目前最強(qiáng)的同規(guī)模開(kāi)源 GUI Agent 模型。

除了 Agent 能力之外，團(tuán)隊(duì)還為 Agent 設(shè)計(jì)了一個(gè)獨(dú)特的 “潛記憶加速器”。面對(duì)點(diǎn)外賣(mài)、查地圖這類高頻重復(fù)操作，MobiAgent 能夠 “舉一反三”，通過(guò)學(xué)習(xí)歷史操作來(lái)簡(jiǎn)化決策，靠 “肌肉記憶” 完成 Agent 任務(wù)，最終將端到端的任務(wù)性能提升了 2-3 倍。這樣一套集 “數(shù)據(jù)捕獲、模型訓(xùn)練、推理加速、自動(dòng)評(píng)測(cè)” 于一體的四位一體框架，可以說(shuō)，徹底打通了移動(dòng)智能體從開(kāi)發(fā)到落地的 “最后一公里”。

這，或許才是普通人真正想要的 Agent。那么，MobiAgent 究竟是如何做到的？

Agent 養(yǎng)成全攻略：三步走

要讓 AI 學(xué)會(huì)玩手機(jī)，首先得讓它看懂人是怎么操作的。MobiAgent 的第一大核心，就是貢獻(xiàn)了一套 AI 輔助的敏捷數(shù)據(jù)收集 “流水線”。

過(guò)去，給 AI 準(zhǔn)備 “教材”（標(biāo)注數(shù)據(jù)）又貴又慢。現(xiàn)在，MobiAgent 用一個(gè)輕量級(jí)小工具，就能記錄下人類在手機(jī)上的所有點(diǎn)擊、滑動(dòng)、輸入等操作軌跡。對(duì)于一些簡(jiǎn)單的任務(wù)，這一錄制過(guò)程甚至可以完全交給大模型完成，進(jìn)一步提高了數(shù)據(jù)收集的效率。

MobiAgent數(shù)據(jù)收集與自進(jìn)化流程

但只有操作還不夠，AI 得理解 “為什么” 這么做。于是，團(tuán)隊(duì)使用通用的 VLM 模型（例如 gemini-2.5-pro），讓它對(duì)著操作記錄，“腦補(bǔ)” 出每一步的思考過(guò)程和邏輯，自動(dòng)生成高質(zhì)量的 “帶思路” 的訓(xùn)練數(shù)據(jù)。最后，也是最重要的一步，這些數(shù)據(jù)會(huì)經(jīng)過(guò)一個(gè)自動(dòng)化 “精煉流水線”，調(diào)整數(shù)據(jù)的難易平衡比例、輸入任務(wù)描述、歷史信息長(zhǎng)度等等，讓訓(xùn)練出的 Agent 模型具有更強(qiáng)的泛化能力。

有了高質(zhì)量的教材，下一步就是訓(xùn)練。MobiAgent 的 "大腦"MobiMind，被設(shè)計(jì)成了一個(gè)分工明確的 “三人小組”：

Planner（規(guī)劃師）：負(fù)責(zé)理解復(fù)雜任務(wù)，進(jìn)行拆解。
Decider（決策者）：看著當(dāng)前手機(jī)屏幕，決定下一步干啥。
Grounder（執(zhí)行者）：負(fù)責(zé)把 “點(diǎn)搜索按鈕” 這種指令，精準(zhǔn)定位到屏幕上的坐標(biāo)并點(diǎn)擊。

這種 “各司其職” 的架構(gòu)，讓模型訓(xùn)練起來(lái)更高效，能力也更強(qiáng)。

讓 Agent 擁有 “肌肉記憶”，速度飆升 3 倍

光聰明還不夠，反應(yīng)慢也是硬傷。你肯定不想讓 Agent 幫你買(mǎi)杯咖啡，結(jié)果思考了半分鐘。為此，MobiAgent 團(tuán)隊(duì)祭出了第二個(gè)大殺器：AgentRR（Agent Record&Replay）加速框架。這個(gè)框架的核心思想，就跟我們?nèi)祟惖?“肌肉記憶” 一樣：對(duì)于重復(fù)做過(guò)的事，直接憑經(jīng)驗(yàn)搞定，不用再過(guò)一遍大腦。

AgentRR系統(tǒng)架構(gòu)

AgentRR 會(huì)把智能體執(zhí)行過(guò)的任務(wù)軌跡，通過(guò)樹(shù)的形式記錄在一個(gè)叫 ActTree 的結(jié)構(gòu)里。當(dāng)接到一個(gè)新任務(wù)時(shí)，一個(gè)超輕量的 “潛意識(shí)”（Latent Memory Model）會(huì)迅速判斷：

這個(gè)任務(wù)我是不是做過(guò)類似的？前幾步是不是可以照搬？

比如，無(wú)論是 “搜附近的火鍋店” 還是 “搜附近的電影院”，點(diǎn)開(kāi)地圖 App、點(diǎn)搜索框這兩步都是完全一樣的。AgentRR 就能直接 “復(fù)用” 這段操作，跳過(guò)大模型的思考過(guò)程，從而大幅提升效率。效果有多好？在模擬真實(shí)用戶使用習(xí)慣（80% 請(qǐng)求集中在 20% 任務(wù)）的測(cè)試中，動(dòng)作復(fù)用率高達(dá) 60%-85%。反映在實(shí)際任務(wù)上，就是 2 到 3 倍的性能提升。

不同請(qǐng)求分布下，AgentRR 的動(dòng)作復(fù)用率

真實(shí)場(chǎng)景大比拼：誰(shuí)是「手機(jī)操作之王」？

是騾子是馬，拉出來(lái)遛遛。為了公平地評(píng)判各大模型的真實(shí)能力，團(tuán)隊(duì)還專門(mén)打造一個(gè)更貼近現(xiàn)實(shí)的移動(dòng)端智能體評(píng)測(cè)基準(zhǔn)：MobiFlow。這個(gè)基準(zhǔn)會(huì)基于任務(wù)的一個(gè)個(gè)關(guān)鍵節(jié)點(diǎn)，也就是 “里程碑”，對(duì)在動(dòng)態(tài) GUI 環(huán)境中執(zhí)行任務(wù)的 Agent 進(jìn)行精確打分，避免了 “不是滿分，就是零分” 的單一評(píng)判標(biāo)準(zhǔn)，并且覆蓋了社交、影音、購(gòu)物、旅行、外賣(mài)等多個(gè)領(lǐng)域的國(guó)產(chǎn)主流 App。

MobiFlow智能體評(píng)測(cè)基準(zhǔn)

最終的評(píng)測(cè)結(jié)果，MobiAgent（MobiMind-Decider-7B + MobiMind-Grounder-3B 的組合）在絕大多數(shù) App 上都取得了最高分，尤其是在購(gòu)物、外賣(mài)這類復(fù)雜任務(wù)上，優(yōu)勢(shì)非常明顯。相比之下，像 GPT 和 Gemini 這樣的大模型，雖然也能完成一些任務(wù)，但有時(shí)會(huì) “走捷徑”，比如把所有要求一股腦全塞進(jìn)搜索框，依賴 App 自身的 AI 搜索能力。這種 “偷懶” 的做法一旦遇到不支持 AI 搜索的 App，完成率就大幅下降。更重要的是，MobiAgent 在所有測(cè)試中都能正確終止任務(wù)，而 GPT-5 在 11 個(gè) App 上都出現(xiàn)了 “無(wú)限循環(huán)” 卡住的問(wèn)題。

總結(jié)

MobiAgent 的出現(xiàn)，不僅在性能上樹(shù)立了新的標(biāo)桿，更重要的是，它通過(guò)開(kāi)源整個(gè)技術(shù)棧，極大地降低了定制化、私有化移動(dòng)智能體的門(mén)檻。從日常應(yīng)用的 Agent 開(kāi)發(fā)，到每個(gè)人的個(gè)性化專屬助理，想象空間被徹底打開(kāi)。

或許，那個(gè) “能動(dòng)口就不動(dòng)手” 的智能移動(dòng)時(shí)代，就快到來(lái)了。

項(xiàng)目成員介紹

MobiAgent核心開(kāi)發(fā)團(tuán)隊(duì)主要由上海交通大學(xué)IPADS實(shí)驗(yàn)室（并行與分布式系統(tǒng)研究所）的端側(cè)智能體研究小組的本科生和碩士生，以及John班的實(shí)習(xí)生組成。主要指導(dǎo)教師為上海交通大學(xué)人工智能學(xué)院助理教授馮二虎。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心