分層反思+ 主動探索 = SOTA：MobileUse 在 AndroidWorld 刷出 62.9% 新紀錄

發布于 2025-9-1 00:05

瀏覽

0收藏

隨著人工智能技術的飛速發展，多模態大語言模型（MLLMs）在理解視覺輸入和遵循用戶指令方面取得了顯著進展。這為移動設備上的復雜任務自動化帶來了新的可能性。然而，將這些模型應用于現實世界的移動場景仍面臨諸多挑戰，例如長時任務執行、錯誤恢復困難以及在不熟悉環境中啟動時的冷啟動問題。為了解決這些挑戰，MadeAgents團隊推出了MobileUse項目，旨在通過分層反思架構和主動探索模塊，實現移動設備上的魯棒性和自適應任務執行。

分層反思+ 主動探索 = SOTA：MobileUse 在 AndroidWorld 刷出 62.9% 新紀錄-AI.x社區

一、項目概述

MobileUse是由MadeAgents團隊開發的一款分層反思驅動的GUI代理，專為移動設備上的自動化任務執行而設計。它通過多模態大語言模型（MLLMs）實現了對移動設備的自動操作，能夠基于用戶輸入描述自動完成任務。MobileUse的核心優勢在于其分層反思架構，能夠在不同時間尺度上自我監控、檢測和從錯誤中恢復，同時通過主動探索模塊解決不熟悉環境中的冷啟動問題。

分層反思+ 主動探索 = SOTA：MobileUse 在 AndroidWorld 刷出 62.9% 新紀錄-AI.x社區

二、核心功能

（一）自動操作手機

MobileUse能夠根據用戶輸入的任務描述自動操作移動設備的UI界面，完成各種任務，例如在美團上點咖啡、在瀏覽器中搜索信息等。

（二）智能元素識別

它能夠自動解析GUI布局并識別可操作目標，支持復雜任務的分解和多步操作。

（三）多模態交互

MobileUse支持多種輸入方式，包括文本、語音和圖像，能夠更好地理解和執行用戶指令。

（四）分層反思與主動探索

通過分層反思架構，MobileUse可以在不同層次上檢測和糾正錯誤，確保任務的順利執行。同時，主動探索模塊能夠幫助代理在不熟悉的應用中積累通用知識，提高任務執行的效率和準確性。

三、技術原理

（一）分層反思架構

MobileUse的分層反思架構包括三個主要組件：動作反思器（Action Reflector）、軌跡反思器（Trajectory Reflector）和全局反思器（Global Reflector）。動作反思器負責在每個步驟后提供即時反饋，檢測動作是否按預期執行；軌跡反思器則關注最近幾步的執行軌跡，確保任務按正確方向進展；全局反思器在任務完成時從整體角度評估任務是否成功完成。這種分層機制使得MobileUse能夠在不同時間尺度上自我監控和糾正錯誤。

（二）主動探索模塊

在任務執行之前，MobileUse通過主動探索模塊與環境進行交互，積累通用知識。這一模塊使代理能夠更好地理解不熟悉的應用和界面，從而在冷啟動場景中更高效地完成任務。

（三）多模態大語言模型

MobileUse基于強大的多模態大語言模型（如Qwen2.5-VL-72B-Instruct），能夠處理文本和圖像輸入，生成準確的操作指令。這種模型的引入為MobileUse提供了強大的語言理解和視覺感知能力，使其能夠更好地理解和執行復雜的用戶指令。

四、應用場景

（一）日常任務自動化

MobileUse可以自動完成各種日常任務，如填寫表單、設置提醒、搜索信息等，大大提高了生活和工作效率。

（二）輔助殘障人士

對于視力或身體有障礙的用戶，MobileUse可以通過語音指令或簡單的手勢操作完成復雜的任務，為他們提供更便捷的移動設備使用體驗。

（三）企業自動化流程

在企業環境中，MobileUse可以用于自動化重復性任務，如數據錄入、文件管理等，減少人工操作，提高工作效率和準確性。

（四）教育和培訓

MobileUse可以作為教育工具，幫助學生更好地理解和操作移動設備，提高學習效率。同時，它也可以用于培訓場景，幫助員工快速掌握新的應用程序和操作流程。

五、性能表現

MobileUse在AndroidWorld和AndroidLab兩個動態Android基準測試環境中進行了評估。在AndroidWorld中，MobileUse取得了62.9%的成功率，相比之前的最佳解決方案V-Droid提高了3.4%；在AndroidLab中，MobileUse的成功率為44.2%，比最強基線V-Droid高出5.9%。這些結果表明，MobileUse在處理復雜移動任務方面具有顯著的優勢。

分層反思+ 主動探索 = SOTA：MobileUse 在 AndroidWorld 刷出 62.9% 新紀錄-AI.x社區

六、快速使用

（一）環境準備

1. 安裝ADB工具：MobileUse需要通過ADB（Android Debug Bridge）控制手機，因此需要先安裝ADB工具，并將手機通過USB連接到計算機。

下載并解壓SDK Platform-Tools（https://developer.android.com/tools/releases/platform-tools#downloads），將其路徑添加到環境變量中。
在Windows系統中，可以通過命令行運行`adb devices`來驗證ADB是否可用；在Mac/Linux系統中，運行`adb devices`即可。

2. 啟用開發者模式和USB調試：在手機上啟用開發者模式，并打開USB調試選項。對于HyperOS或MIUI系統，還需要同時開啟USB調試（安全設置）。

3. 連接設備：使用USB線將手機與計算機連接，并通過運行`adb devices`命令驗證設備是否成功連接。

（二）安裝MobileUse

1. 安裝依賴：安裝Python（版本需為3.10及以上）和pip（版本需為21.1及以上）。

2. 安裝MobileUse庫：

推薦使用pip直接安裝：

pip install mobile-use

或者從源代碼安裝：

# 克隆GitHub倉庫：
git clone https://github.com/MadeAgents/mobile-use.git
# 進入項目目錄：
cd mobile-use
# 激活虛擬環境
uv venv .venv --pythnotallow=3.10
# 安裝依賴
uv pip install -e .

（三）啟動WebUI服務

運行以下命令啟動WebUI服務：

python -m mobile_use.webui

服務啟動成功后，通過瀏覽器訪問`http://127.0.0.1:7860`即可進入WebUI頁面。

（四）配置和使用

1. 配置VLM服務：在WebUI頁面中點擊“VLM Configuration”，設置多模態大語言模型的Base URL和API Key，推薦使用Qwen2.5-VL系列模型。

2. 輸入任務描述：在頁面左下角的輸入框中輸入任務描述，點擊“開始”按鈕即可執行任務。

3. 支持中文輸入（可選）：如果需要輸入中文字符，可以下載并安裝ADBKeyBoard APK到手機上，然后通過ADB命令安裝到手機。

七、結語

MobileUse作為一款分層反思驅動的GUI代理，通過其創新的分層反思架構和主動探索模塊，為移動設備上的復雜任務自動化提供了一種全新的解決方案。它不僅在基準測試中取得了優異的性能表現，還通過開源工具包為用戶提供了便捷的部署和使用體驗。隨著多模態大語言模型技術的不斷發展，MobileUse有望在更多領域發揮重要作用，推動移動自動化技術的發展。