下一代智能協作的雛形:字節跳動AIME框架如何推動AI多智能體系統演化 原創
我們正見證一種新的融合力量逐漸成形——大型語言模型(LLMs)與多智能體系統(Multi-Agent Systems,簡稱 MAS)的深度整合。
過去智能體往往孤立運作,受限于靜態規則和單一任務定義。而如今,隨著語言模型的語義理解和推理能力的躍升,智能體不再只是執行者,更成為能夠協同、規劃、適應環境的“認知單元”。
在這一背景下,MAS 不再是簡單的多代理并行處理系統,而演變為一個語言驅動、反饋自適應的群體智能結構。
這也是字節跳動所推出的 AIME 框架背后的深層動因。傳統 MAS 所采用的“計劃—執行”范式,如同流水線工藝一般強調前期設計和任務分配,但在多變現實中顯得僵化和脆弱——尤其面對任務變化、角色不匹配、或執行反饋滯后的情況時,系統整體的反應能力和韌性都受到挑戰。
而 AIME,則試圖徹底顛覆這一范式,將 MAS 從靜態機制轉向動態適配,將語言模型從工具升格為策略調度者。
AIME 的提出,不只是一次框架層級的優化,更是對自主智能系統的一次重要里程碑。它構建了一種具備實時規劃能力、行為體定制能力與全局狀態感知能力的協作系統。
在實際應用場景中,從城市低空飛行物流系統,到多模態內容生成,再到多部門信息調度與故障恢復,這種具備“自我編隊”“自我演化”能力的 MAS 框架,無疑將極大提升系統的執行效率和情境韌性。
值得一提的是,這項研究背后的團隊也頗具分量。由字節跳動旗下 AI Lab 與 Seed 團隊組成的研究陣容,不僅匯聚了自然語言處理、多模態生成、軟件工程與系統架構優化的專家,還融合了具備自動化工具構建與 Agent 能力建模經驗的工程師。
在核心作者名單中,我們可以看到 Yexuan Shi、Mingyu Wang、Yu Wang 等資深研究員的身影,他們在聯邦學習、推理系統、Web 交互智能體等方向均有積累,曾參與多個業內知名框架與基準測試的開發。此外,多位研究者也曾在視覺生成與代碼智能代理領域發表重要成果,在 AIME 框架中實現了真正的跨領域協同。
01、AIME框架總覽
在智能體協同這片尚未完全開墾的疆域中,字節跳動的 AIME 框架帶著一種清晰的愿景悄然登場——將多智能體系統從靜態流程解放出來,使其轉化為具備實時反饋、自主調度與精準執行的有機協作體。這種范式轉變,不只是技術架構的再造,更是一場關于“智能自治”的敘事重塑。
傳統“計劃與執行”范式的核心局限
當前廣泛采用的“計劃與執行”框架雖然結構清晰,卻在執行過程中暴露出三大核心瓶頸。
其一是“計劃僵化”。多數系統在任務開始前規劃好流程,之后規劃器就進入靜默狀態,無法應對執行過程中出現的意外或反饋。這種靜態計劃往往一旦出錯,整個系統就陷入停滯或重復勞動。
其二是“能力靜態”。智能體的功能預設、工具集不具靈活性,難以應對突發任務或需要新技能的情境。當任務脫離預設范式,系統便無法動態生成新的“合適人選”來接管。
其三是“溝通低效”。由于缺乏統一的信息管理中心,智能體之間往往不能實時共享進展,導致信息傳遞斷裂、任務協作脫節。最終形成冗余勞動和協調失衡的狀況。
AIME 的設計目標與關鍵挑戰
AIME 的誕生正是為了打破這一困局。它不僅僅是在架構層面做了拆重建,更是在運行機制上提出了嶄新的目標:打造一個真正可動態演化的多智能體框架。
AIME 的設計理念極為明確:必須做到在執行過程中,智能體的調度、能力匹配與協作方式可以實時調整。為此,它構建了三大支柱模塊:
1.動態規劃器作為全局的“指揮官”,能夠依據實時反饋不斷重新制定戰略與下發任務;
2.行為體工廠則作為“定制工坊”,為每一個具體任務快速生成最匹配的智能體;
3.進度管理模塊是系統的“共享大腦”,所有狀態、任務進度、執行反饋都在此統一管理。
而所有智能體以 ReAct 結構運行,在推理與行動之間實現精細循環,其進度反饋機制也由語言模型自主掌控——真正實現了“組織自動化”的愿景。

圖1:Aime框架的工作流程
動態適配:從靜態到實時反饋驅動
AIME 的首要特點,就是它拒絕“一次性任務規劃”的思維。傳統 MAS 往往在任務伊始就制定完所有子任務路徑,隨即進入“執行模式”,規劃器便退居后臺。而AIME 的設計哲學則截然相反:系統中的每一個任務執行步驟,都會被嵌入實時反饋機制。規劃器不再是“靜態調度員”,而是成為每個智能行為體執行的“戰術指揮官”與“戰略修正者”。
這樣的動態適配,使智能體能夠在執行過程中根據環境變化、任務反饋及時調整角色配置、工具選擇乃至整個任務路徑。AIME 以此實現一種前所未有的“即時協作”。
四大核心組件的協同演奏
AIME 的架構設計精巧而前瞻,核心功能分布于四個獨立又聯動的組件之中。
動態規劃器(Dynamic Planner)
這一模塊堪稱整個系統的“神經中樞”,負責拆解任務目標、制定執行策略,并在執行過程中進行迭代更新。它不斷在“看大局”與“下指令”之間游走,實時根據任務執行反饋做出調整。
行為體工廠(Actor Factory)
這是系統中的“定制化工坊”,可按需生成具備特定能力與工具的智能行為體。它不再從固定角色池中挑選,而是為每一個任務量身定制最佳角色設定與知識資源,確保每一位“演員”都適配舞臺。
動態行為體(Dynamic Actor)
這些是具體承擔任務的“前線智能體”,通過 ReAct 框架在“推理—行動—觀察”的循環中自主決策。每一個行為體不僅執行任務,還能自主判斷何時向系統匯報進度與問題。
進度管理模塊(Progress Management Module)
一個系統協同效率的保障,統一管理任務列表、實時狀態與結果驗證。它就像是所有智能體共享的“任務黑板”,每一個行動都在此標記,讓整個 MAS 保持信息一致性和協作節奏。
02、核心模塊
雙重任務視角與反饋機制
AIME 的動態規劃器不僅制定任務,還要持續審視執行結果。這種“雙層決策”架構——一方面聚焦全局戰略(global),決定任務結構與目標分解;另一方面則進行戰術調度(tactical),決定下一步具體行動。其操作由以下函數定義:

這套機制的關鍵在于一個核心公式,它將目標 GG、當前任務列表 LtL_t 與歷史結果 HtH_t 輸入,產出兩個關鍵結果:
- 更新后的任務列表 Lt+1L{t+1}:反映戰略層的理解變化
- 下一個可執行任務 gt+1g{t+1}:體現戰術層的即時指令
如此設計使得規劃器具備在一個迭代周期內,既可新增備用任務,又可實時派發新的行動計劃。它不再是流程前期的“任務裁定者”,而是一個全過程參與的“指揮控制 AI”。
行為體工廠揭秘:如何打造最合適的智能行動者?
行為體工廠的本質,是一個任務驅動的智能體合成引擎。
當某個子任務從規劃器下發至工廠,后者會解析任務需求,動態構建一個具備最佳工具集 TtTt、提示語 PtPt、知識模塊與環境配置的代理體 AtA_t。該生成過程定義為:

其生成流程包括:
- 工具包組合(bundle selection):從預封裝模塊中選出最適合該任務的組合,比如網頁搜索、文件處理等
- 提示語拼裝(prompt composition):模塊化組裝角色設定、工具說明、相關知識、環境信息與輸出格式結構
這樣的設計不僅節省了智能體在推理過程中篩選工具的認知負擔,也使每個代理體擁有“任務定制基因”,在執行中更精準、更高效。
03、實證評估與性能對比
在紙面上設計多智能體架構是一回事,真正讓它在現實任務中跑得動、頂得住,才是對系統靈魂的終極考驗。為此,字節跳動的 AIME 團隊并沒有止步于算法或架構創新,而是走入了實證沙場——他們將系統投放到三個各具挑戰性的應用領域中,進行高強度對比實驗,讓數據說話。
三大領域測評
首先,這支團隊選擇了三個代表不同智能體協作場景的權威基準測試集。
GAIA(通用推理) 這是一項針對 AI 助手的綜合推理挑戰,包含多步任務規劃、跨模態內容理解以及工具調用等復雜操作。測試指標基于文本精確匹配,要求智能體在開放任務中體現出高度理解與執行能力。
SWE-bench Verified(軟件工程問題修復) 真實世界的軟件工程 Bug 修復場景,系統需理解代碼語境并提出修復方案。結果通過嚴苛的單元測試檢驗,確保修復有效且無副作用,是對代碼智能體的“高壓測試”。
WebVoyager(網頁導航) 面對來自15個真實網站的任務,智能體需要在線交互、操作網頁,并完成特定任務目標。這一測試驗證了系統在開放互聯網環境中的真實表現與適應力。
每一項基準都代表著 LLM 智能體不同方向的能力極限,AIME 在三條賽道同時參戰,挑戰的不只是執行能力,更是跨領域通用性。
數據開口說話,AIME全面領跑

表1:Aime與三個基準的專門基線的績效比較。基線僅在其目標域上進行評估,而Aime在所有三個域上都進行了評估。每列中的最佳分數都以粗體顯示。
成果數據令人側目:
在 GAIA 上,AIME 成功率達 77.6%,刷新行業紀錄,領先此前表現最好的 Langfun。
在 SWE-bench Verified 任務中,AIME 的問題解決率高達66.4%,超過 OpenHands、SWE-agent 等頂尖代碼智能體。
面對復雜網頁任務,AIME 在 WebVoyager 中斬獲 92.3%的任務成功率,比表現最強的 Browser use 還高出 3 個百分點。
這可不是算法表演賽上的巧合,而是架構能力與執行機制深度融合的結果。
在 GAIA 中,得益于規劃器的即時重規劃機制,系統能在初始推理失敗后重新調整路徑,大幅提升成功率。
在軟件工程場景,行為體工廠能動態生成“代碼理解者”“調試者”等角色,組隊解決 bug,比單體代理更具問題穿透力。
在真實網頁任務中,AIME 的規劃器與行為體之間形成閉環反饋,一旦網頁結構變化或操作失敗,系統能立刻重構路徑完成任務,體現出超強韌性。
魯棒性案例:當意外降臨時,系統如何救場?
比如在 WebVoyager 的某一任務中,目標網站因臨時更新導致原有操作路徑失效,AIME 的行為體在嘗試失敗后,通過反饋模塊及時匯報異常,規劃器則立刻生成新的路徑子任務并派遣新角色重試。這一過程無需人為介入,系統自動完成任務自救與恢復。
又如在 SWE-bench 的某一 bug 修復任務中,初始行為體未能定位問題根源,系統隨即通過行為體工廠部署“調試專家”,利用歷史觀察記錄與新工具包進行錯誤溯源,最終成功提交修復代碼并通過測試。
這些場景充分展示了 AIME 的“非靜態抗打性”——不僅能規劃,更能修復;不僅能部署,還能重編隊協作。這是傳統固定框架難以企及的系統級適應力。
04、相關工作與差異化對比
多智能體系統(MAS)各種架構百花齊放,每一種嘗試,都是對智能協作邊界的一次探尋。而字節跳動的AIME,不只是另一個參與者,更是挑戰既有范式、重構協同邏輯的架構新星。要真正理解它的獨特地位,不妨先看看它和目前主流方案的對照風景。
模擬公司?角色扮演?舊范式的魅力與局限
近年來,諸如 MetaGPT、ChatDev 等框架大火,它們將 MAS 構建為一個“虛擬公司”,智能體各司其職——產品經理、程序員、測試員,分工明確,有板有眼。這種結構很像現實中的組織協作,容易理解,也適合做展示型應用。
但問題也很明顯:一旦 SOP(標準操作流程)寫死了,智能體就只能在規則內活動。比如你突然要求產品經理寫代碼,他“死活不會”;程序員面臨新的領域知識,他“手足無措”。再靈活的溝通,也難掩角色設定的局限性。更關鍵的是,當任務脫離已知流程時,這類架構很難臨場調整或重構角色功能,系統的“韌性”打折。
自動化架構設計
另一類探索則瞄準了“智能體結構搜索”。AOP、Agentic Supernet 等框架試圖在任務開始前,自動尋找最優的智能體配置與協作圖譜。這類方法在概念上近似于 AutoML,幫助系統在離線階段構造最合理的執行結構。
但這種“靜態設計”也有代價:一旦真實執行中出現任務變化或場景突變,事先設計好的圖譜便可能失效。你很難在執行過程中“臨場加人”或“換腳本”,這就像拍戲時角色臺詞全寫好了,臨時改劇情便會一團亂。
AIME的范式躍遷,系統級敏捷,協同即服務
AIME 的顛覆性在于,它不拘泥于角色扮演,也不把結構寫死。它的協作方式像是動態編隊——規劃器隨時評估任務狀態并重排隊形,行為體工廠可按需生成新角色,進度管理模塊則實時記錄團隊“戰況”。
這種設計帶來兩個系統級優勢。
協作靈活性:不再依賴預設身份,每個行為體是為任務定制的“專家選手”,而非拿著劇本的角色扮演者。
韌性與恢復力:當原方案失效時,系統可即時重規劃、重部署,保障任務不中斷。
AIME 展現出的不是“組織模擬”,而是“任務驅動的敏捷協作”,為 MAS 的未來打開了一種新可能。
05、展望未來:從架構創新到應用落地
架構強大固然可喜,但若不能走入現實場景,它終究只是舞臺模型。AIME 的設計哲學,為它通向應用世界鋪好了幾條潛在跑道。
多智能體編隊的可擴展性
當前 AIME 已能支持跨任務的智能體調度,下一步若能實現幾十、上百個行為體同時協同,將使其在多部門聯合、應急響應等領域大放異彩。例如構建一個“城市級數字指揮部”,讓行為體扮演交通調度、醫療響應、能源調控等角色,實時共舞。
智能體自我能力演化
AIME 的行為體是“任務定制”的,但目前能力增長仍依賴預設工具包與知識庫。未來若能賦予行為體“自我進化”能力——比如通過任務歷史學習、技能遷移等方式發展新功能——則系統將邁入“真正自治”的下一層級。想象一下,一個智能體完成 50 次調度任務后,自動學會統計預測工具;這不就是 AI 版的職場成長嗎?
落地場景:低空經濟、智慧交通與城市應急
在城市低空物流體系中,AIME 可部署為無人機編隊的任務中控。每次飛行調度都可動態生成行為體,應對天氣變化、路徑沖突、突發任務等問題。
在智能交通系統中,它能實時協調不同車流引導智能體,應對事故、封路等突發狀況,提升道路韌性。
而在城市應急響應中,一旦發生地震或災害,AIME 可根據反饋即時創建信息收集、物資調度、救援路線規劃等行為體,實現秒級聯動與任務閉環。(END)
參考資料:????https://arxiv.org/pdf/2507.11988??
本文轉載自??波動智能??,作者:FlerkenS

















