分層反思+ 主動探索 = SOTA:MobileUse 在 AndroidWorld 刷出 62.9% 新紀錄
隨著人工智能技術的飛速發展,多模態大語言模型(MLLMs)在理解視覺輸入和遵循用戶指令方面取得了顯著進展。這為移動設備上的復雜任務自動化帶來了新的可能性。然而,將這些模型應用于現實世界的移動場景仍面臨諸多挑戰,例如長時任務執行、錯誤恢復困難以及在不熟悉環境中啟動時的冷啟動問題。為了解決這些挑戰,MadeAgents團隊推出了MobileUse項目,旨在通過分層反思架構和主動探索模塊,實現移動設備上的魯棒性和自適應任務執行。

一、項目概述
MobileUse是由MadeAgents團隊開發的一款分層反思驅動的GUI代理,專為移動設備上的自動化任務執行而設計。它通過多模態大語言模型(MLLMs)實現了對移動設備的自動操作,能夠基于用戶輸入描述自動完成任務。MobileUse的核心優勢在于其分層反思架構,能夠在不同時間尺度上自我監控、檢測和從錯誤中恢復,同時通過主動探索模塊解決不熟悉環境中的冷啟動問題。

二、核心功能
(一)自動操作手機
MobileUse能夠根據用戶輸入的任務描述自動操作移動設備的UI界面,完成各種任務,例如在美團上點咖啡、在瀏覽器中搜索信息等。
(二)智能元素識別
它能夠自動解析GUI布局并識別可操作目標,支持復雜任務的分解和多步操作。
(三)多模態交互
MobileUse支持多種輸入方式,包括文本、語音和圖像,能夠更好地理解和執行用戶指令。
(四)分層反思與主動探索
通過分層反思架構,MobileUse可以在不同層次上檢測和糾正錯誤,確保任務的順利執行。同時,主動探索模塊能夠幫助代理在不熟悉的應用中積累通用知識,提高任務執行的效率和準確性。
三、技術原理
(一)分層反思架構
MobileUse的分層反思架構包括三個主要組件:動作反思器(Action Reflector)、軌跡反思器(Trajectory Reflector)和全局反思器(Global Reflector)。動作反思器負責在每個步驟后提供即時反饋,檢測動作是否按預期執行;軌跡反思器則關注最近幾步的執行軌跡,確保任務按正確方向進展;全局反思器在任務完成時從整體角度評估任務是否成功完成。這種分層機制使得MobileUse能夠在不同時間尺度上自我監控和糾正錯誤。
(二)主動探索模塊
在任務執行之前,MobileUse通過主動探索模塊與環境進行交互,積累通用知識。這一模塊使代理能夠更好地理解不熟悉的應用和界面,從而在冷啟動場景中更高效地完成任務。
(三)多模態大語言模型
MobileUse基于強大的多模態大語言模型(如Qwen2.5-VL-72B-Instruct),能夠處理文本和圖像輸入,生成準確的操作指令。這種模型的引入為MobileUse提供了強大的語言理解和視覺感知能力,使其能夠更好地理解和執行復雜的用戶指令。
四、應用場景
(一)日常任務自動化
MobileUse可以自動完成各種日常任務,如填寫表單、設置提醒、搜索信息等,大大提高了生活和工作效率。
(二)輔助殘障人士
對于視力或身體有障礙的用戶,MobileUse可以通過語音指令或簡單的手勢操作完成復雜的任務,為他們提供更便捷的移動設備使用體驗。
(三)企業自動化流程
在企業環境中,MobileUse可以用于自動化重復性任務,如數據錄入、文件管理等,減少人工操作,提高工作效率和準確性。
(四)教育和培訓
MobileUse可以作為教育工具,幫助學生更好地理解和操作移動設備,提高學習效率。同時,它也可以用于培訓場景,幫助員工快速掌握新的應用程序和操作流程。
五、性能表現
MobileUse在AndroidWorld和AndroidLab兩個動態Android基準測試環境中進行了評估。在AndroidWorld中,MobileUse取得了62.9%的成功率,相比之前的最佳解決方案V-Droid提高了3.4%;在AndroidLab中,MobileUse的成功率為44.2%,比最強基線V-Droid高出5.9%。這些結果表明,MobileUse在處理復雜移動任務方面具有顯著的優勢。

六、快速使用
(一)環境準備
1. 安裝ADB工具:MobileUse需要通過ADB(Android Debug Bridge)控制手機,因此需要先安裝ADB工具,并將手機通過USB連接到計算機。
- 下載并解壓SDK Platform-Tools(https://developer.android.com/tools/releases/platform-tools#downloads),將其路徑添加到環境變量中。
- 在Windows系統中,可以通過命令行運行`adb devices`來驗證ADB是否可用;在Mac/Linux系統中,運行`adb devices`即可。
2. 啟用開發者模式和USB調試:在手機上啟用開發者模式,并打開USB調試選項。對于HyperOS或MIUI系統,還需要同時開啟USB調試(安全設置)。
3. 連接設備:使用USB線將手機與計算機連接,并通過運行`adb devices`命令驗證設備是否成功連接。
(二)安裝MobileUse
1. 安裝依賴:安裝Python(版本需為3.10及以上)和pip(版本需為21.1及以上)。
2. 安裝MobileUse庫:
推薦使用pip直接安裝:
pip install mobile-use或者從源代碼安裝:
# 克隆GitHub倉庫:
git clone https://github.com/MadeAgents/mobile-use.git
# 進入項目目錄:
cd mobile-use
# 激活虛擬環境
uv venv .venv --pythnotallow=3.10
# 安裝依賴
uv pip install -e .(三)啟動WebUI服務
運行以下命令啟動WebUI服務:
python -m mobile_use.webui服務啟動成功后,通過瀏覽器訪問`http://127.0.0.1:7860`即可進入WebUI頁面。
(四)配置和使用
1. 配置VLM服務:在WebUI頁面中點擊“VLM Configuration”,設置多模態大語言模型的Base URL和API Key,推薦使用Qwen2.5-VL系列模型。
2. 輸入任務描述:在頁面左下角的輸入框中輸入任務描述,點擊“開始”按鈕即可執行任務。
3. 支持中文輸入(可選):如果需要輸入中文字符,可以下載并安裝ADBKeyBoard APK到手機上,然后通過ADB命令安裝到手機。
七、結語
MobileUse作為一款分層反思驅動的GUI代理,通過其創新的分層反思架構和主動探索模塊,為移動設備上的復雜任務自動化提供了一種全新的解決方案。它不僅在基準測試中取得了優異的性能表現,還通過開源工具包為用戶提供了便捷的部署和使用體驗。隨著多模態大語言模型技術的不斷發展,MobileUse有望在更多領域發揮重要作用,推動移動自動化技術的發展。
項目地址
GitHub倉庫:https://github.com/MadeAgents/mobile-use
arXiv論文:https://arxiv.org/html/2507.16853v1
本文轉載自??小兵的AI視界??,作者:AGI小兵


















