AI牛馬實現“干中學”!上海AI Lab聯合推出智能體自我進化新框架
在人工智能的廣闊世界里,我們早已習慣了LLM智能體在各種任務中大放異彩。但有沒有那么一瞬間,你覺得這些AI“牛馬”還是缺了點什么?
沒錯,它們缺少的是我們人類最寶貴的職場技能:經驗的積累和持續的自我進化。
想象一下:你入職第一天,對公司一無所知,只能依靠在學校中學習到的知識,工作中犯了錯也無法吸取教訓,第二次遇到同樣的問題,你還得從頭再來。聽起來是不是很像一個會失憶的工具人?這就是現有LLM智能體在處理現實世界“長程任務”(Long-Horizon Tasks)時面臨的巨大挑戰。
為了徹底解決這一“職場尷尬”,來自上海人工智能實驗室及合作機構的研究者們,提出了一套全新的智能體框架——MUSE(Memory-Utilizing and Self-Evolving,記憶利用和自我演化),讓智能體在“職場”中不斷進化,成為真正的“職場新星”,實現“干中學”(Learning on the Job)。

下面的視頻展現了一個模擬人類項目經理對公司項目issue進行管理的例子,可以看到MUSE在包括GitLab,Plane在內的多個軟件平臺來回跳轉操作,最終在沒有任何人類介入的情況下完成了這個任務。

目前, MUSE的論文與代碼已經完成了開源(鏈接見文末)。
MUSE:三步走,打造AI“職場新星”
MUSE的核心理念,是為LLM智能體構建一個“經驗驅動、自我演化”的閉環系統,用“測試時學習”范式一次性解決“靜態參數 + 無法進化 + 長程任務”三大痛點。
這個系統圍繞一個分層記憶模塊(Hierarchical Memory Module)展開。簡單來說,MUSE讓智能體像人類一樣:先做、再反思、然后進化。
△MUSE框架
第一步:告別“健忘癥”——分層記憶模塊(Memory Module)
傳統LLM智能體之所以被稱為“失憶的執行者”,就是因為它們沒有長期記憶,無法保留和應用歷史知識。而MUSE 框架為智能體裝上了“大腦中樞”——一個能組織不同層級經驗的記憶模塊。這些經驗包括:
Strategic Memory:保存“困境-策略”對,全局加載到系統提示,指導宏觀行為范式。
Procedural Memory:按“應用→SOP 索引→詳細步驟”三級組織,成功子任務軌跡實時沉淀為自然語言標準作業程序;輕量級索引常駐上下文,詳情按需檢索。
Tool Memory:靜態描述 + 動態指令雙組件,為每個基礎工具提供“肌肉記憶”,用后立即更新。
MUSE能夠利用這些經驗來規劃和執行跨應用的復雜任務,從而解決現有智能體在動態規劃、經驗積累和持續學習方面的難題。
第二步:“事后諸葛亮”——自主反思(Self-Reflection)
這是MUSE最“類人”的機制。在每完成一個子任務之后,MUSE的智能體不會立即進行下一個任務,而是會自主地對它的執行軌跡進行反思。
這種反思機制,就像是AI在給自己做“工作總結與復盤”。
它會評估子任務的執行結果: 成功了還是失敗了?
它會把原始的執行軌跡(Raw Trajectory)自動轉化為結構化的經驗(Structured Experience)。如果成功,就會提煉出高效的操作序列作為新的 SOP(標準操作程序)。
它甚至擁有“第二次機會”機制: 如果第一次嘗試失敗,它有一次重試機會(無需檢索,鼓勵探索),如果再次失敗,才會觸發重新規劃。
第三步:超越“靜態參數”——持續自我演化(Self-Evolution)
通過持續的“規劃 → 執行 → 反思 → 提取經驗”的四步閉環循環,MUSE 實現了真正的自我演化。
這些積累的經驗會被整合回記憶模塊,不斷優化智能體未來的規劃和執行策略。這意味著:MUSE的性能會隨著它自主積累的經驗越來越多而持續提高。
實驗結果:智能體的“職場”表現
MUSE 框架在一系列實驗中展示了令人振奮的能力:
- SOTA表現和降維打擊在專為長期生產力任務設計的基準測試TAC (TheAgentCompany) 上,MUSE取得了顯著的SOTA性能。最令人驚訝的是,MUSE僅使用輕量級的Gemini-2.5 Flash模型,就擊敗了使用更大模型(Claude Sonnet 4)的現有SOTA方法, 在TAC的指標上首次突破50%大關,達到51.78%。這證明了 “經驗驅動的自我演化機制”具有良好的前景。


- 持續進化面對重復任務,智能體孰能生巧,一次比一次做得更好,再也不是職場小白啦。

- 強大的泛化能力MUSE積累的經驗具備強大的泛化特性,即使在全新的、從未見過的任務上,它也能實現零樣本改進(Zero-shot Improvement)。

- 可遷移性將閉源模型收集到的經驗遷移到開源模型DeepSeek-V3上,可以幫助DeepSeek-V3在一眾開源模型中成為SOTA。

效果展示:智能體的工作日常
智能體創建多人聊天群組,同時向三位同事詢問信息,顯著簡化信息收集流程:

智能體跨越多個平臺(rocketchat,gitlab等)依次與三位同事溝通,執行了超過100個步驟,最終圓滿完成復雜任務:

未來展望:AI的“職場”潛力
MUSE框架的出現,標志著AI智能體已經邁入了“經驗驅動的終身學習”新階段。它超越了傳統的“測試時靜態”模式,展示了AI在長程任務中的巨大潛力,為實現更具適應性和智能化的AI“職場打工人”奠定了堅實基礎。展望未來,有什么辦法能讓AI打工人實現進一步的提升呢?
1. 告別“失憶”,優化記憶
- 強化檢索與整合: 盡管 MUSE 能夠自動將原始軌跡轉化為結構化、可重復使用的知識(SOP)并整合到記憶模塊中,但如何更高效地檢索(Retrieval)相關經驗,并確保新舊知識的無縫整合(Integration),是下一步優化的關鍵。
- 長效性和持續性: 如何確保記憶模塊能夠實現真正的終身、持續學習,防止舊知識被不恰當地遺忘或覆蓋,從而在海量經驗中保持性能的穩定提升,將是需要持續深耕的方向。
2. 豐富經驗來源,打造多維度的“職場導師”
引入人類智慧: 展望未來的研究方向,可以將人類反饋(Human Feedback)和人類示范(Demonstrations)集成到記憶系統中。就像職場新人通過觀看導師操作(示范)和聽取指導(反饋)來快速成長一樣,這將大大加速 AI 智能體的學習效率和能力邊界。
3. 完善評估體系,助力 AI 職場“公平競爭”
- 長期評估標準: 需要創建更全面的、專門用于長期任務評估的基準。
- 多維度能力考察: 評估不僅要關注任務的成功率,還要衡量智能體的記憶保留能力、技能遷移能力以及主動決策能力,確保其能夠像一個真正的終身學習者一樣持續發展。
Arxiv:https://arxiv.org/abs/2510.08002
GitHub:https://github.com/KnowledgeXLab/MUSE




































