微軟 Agentic 組織：下一代 AI 系統(tǒng)

作者：PaperAgent 2025-11-13 17:35:18

你面對(duì)一道復(fù)雜數(shù)學(xué)題，不是一個(gè)人死磕，而是能瞬間召喚3-4個(gè)"分身"同時(shí)從不同角度進(jìn)攻，還能動(dòng)態(tài)調(diào)配任務(wù)、合并成果。這不是科幻，而是LLM通過(guò)強(qiáng)化學(xué)習(xí)學(xué)會(huì)的真本事。

大家好！今天要聊的這篇論文特別有意思——它讓LLM從單打獨(dú)斗的推理者，進(jìn)化成了會(huì)帶團(tuán)隊(duì)的項(xiàng)目經(jīng)理。微軟研究院提出了一種全新的推理范式：AsyncThink（異步思維）。

想象一下：你面對(duì)一道復(fù)雜數(shù)學(xué)題，不是一個(gè)人死磕，而是能瞬間召喚3-4個(gè)"分身"同時(shí)從不同角度進(jìn)攻，還能動(dòng)態(tài)調(diào)配任務(wù)、合并成果。這不是科幻，而是LLM通過(guò)強(qiáng)化學(xué)習(xí)學(xué)會(huì)的真本事。

?? 為什么需要"異步思維"？

傳統(tǒng)LLM推理就像一條單行道：Chain-of-Thought（CoT）必須一個(gè)字一個(gè)字按順序生成。雖然有效，但效率低下。近年來(lái)流行的并行思考（Parallel Thinking）雖然能生成多條獨(dú)立推理路徑再投票表決，但存在致命短板：

三種思維范式對(duì)比

圖1：三種思維范式的本質(zhì)區(qū)別。AsyncThink的精髓在于"動(dòng)態(tài)組織"——不是簡(jiǎn)單地并行，而是學(xué)會(huì)何時(shí)分叉、何時(shí)聚合

延遲陷阱：必須等最慢的那條路徑完成
僵硬結(jié)構(gòu)：手工設(shè)計(jì)的固定流程，無(wú)法根據(jù)問(wèn)題難度自適應(yīng)調(diào)整
學(xué)習(xí)困境：難以通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化組織結(jié)構(gòu)

核心方法：Organizer-Worker協(xié)議

論文的天才之處在于：把復(fù)雜的并發(fā)控制轉(zhuǎn)化為純文本協(xié)議，無(wú)需修改模型架構(gòu)！

角色分工

概念	定義	計(jì)算機(jī)系統(tǒng)類(lèi)比
Agent	順序執(zhí)行動(dòng)作的模型實(shí)例	CPU核心
Agent Pool	可同時(shí)運(yùn)行的agent集合	多核CPU
Organization Policy	組織agent協(xié)作并發(fā)的策略	多進(jìn)程程序

表1：Agentic Organization概念與計(jì)算機(jī)系統(tǒng)的優(yōu)雅類(lèi)比

四大動(dòng)作標(biāo)簽

整個(gè)系統(tǒng)通過(guò)四個(gè)簡(jiǎn)單的文本標(biāo)簽實(shí)現(xiàn)復(fù)雜協(xié)同：

<FORK-i>子任務(wù)描述</FORK-i> ：組織者向空閑工人i分配子查詢(xún)
<JOIN-i> ：組織者等待工人i返回結(jié)果并合并
<ANSWER>最終答案</ANSWER> ：終止推理
Think ：組織者自己繼續(xù)思考

協(xié)議示例

圖2：AsyncThink的完整 thinking protocol。注意看 organizers 如何像項(xiàng)目經(jīng)理一樣動(dòng)態(tài)調(diào)配任務(wù)

??? 兩階段訓(xùn)練：從模仿到創(chuàng)新

Stage 1：冷啟動(dòng)格式學(xué)習(xí)

問(wèn)題來(lái)了：現(xiàn)有語(yǔ)料庫(kù)壓根沒(méi)有這種Fork-Join對(duì)話(huà)數(shù)據(jù)，怎么辦？

解決方案：用GPT-4o合成數(shù)據(jù)！具體步驟：

分析每個(gè)查詢(xún)，識(shí)別"條件獨(dú)立"的思維片段
生成符合協(xié)議格式的organizer-worker對(duì)話(huà)軌跡
過(guò)濾格式錯(cuò)誤的數(shù)據(jù)

關(guān)鍵技巧：為避免模型只學(xué)到單一模式（如總是先Fork再Join），研究者隨機(jī)采樣動(dòng)作序列作為提示，強(qiáng)制模型探索多樣化結(jié)構(gòu)。

Stage 2：強(qiáng)化學(xué)習(xí)優(yōu)化

RL框架

圖3：專(zhuān)為AsyncThink設(shè)計(jì)的RL框架。注意episode包含多條trace，但共享同一個(gè)優(yōu)勢(shì)函數(shù)

獎(jiǎng)勵(lì)設(shè)計(jì)三板斧：

準(zhǔn)確率獎(jiǎng)勵(lì)：答案正確給1分，錯(cuò)誤給0分
格式獎(jiǎng)勵(lì)：出現(xiàn)重復(fù)Fork、線程池溢出等錯(cuò)誤直接給大懲罰
并發(fā)獎(jiǎng)勵(lì)：這是精髓！

（平均活躍工人數(shù)）（并發(fā)度獎(jiǎng)勵(lì)）

目標(biāo)：鼓勵(lì)模型讓workers并行跑起來(lái)，而不是 sequential 地一個(gè)個(gè)用！

圖片

實(shí)驗(yàn)結(jié)果：全方位碾壓

1. 多解Countdown任務(wù)

在這個(gè)需要找出4種不同解法的算術(shù)游戲中，AsyncThink展現(xiàn)出驚人優(yōu)勢(shì)：

Countdown實(shí)驗(yàn)結(jié)果

圖5："≥a Correct"表示成功找到a個(gè)不同解。AsyncThink在"全部正確"指標(biāo)上達(dá)到89.0%，遠(yuǎn)超基線的68.6%和70.5%

2. 數(shù)學(xué)競(jìng)賽推理

圖片

表2：關(guān)鍵數(shù)據(jù)——AsyncThink用更短延遲達(dá)到同等甚至更高準(zhǔn)確率，延遲降低28%!

3. 跨領(lǐng)域泛化能力（最驚喜的部分！）

當(dāng)只在Countdown任務(wù)上訓(xùn)練的AsyncThink被直接扔到Sudoku、圖論、遺傳學(xué)等完全陌生的領(lǐng)域時(shí)，它依然能熟練使用Fork-Join策略！

圖片

表4：零樣本泛化到Sudoku任務(wù)。注意模型從未見(jiàn)過(guò)Sudoku數(shù)據(jù)，卻自發(fā)學(xué)會(huì)了如何分解這個(gè)新問(wèn)題

案例研究：它到底怎么想的？

案例1：Countdown的多階段分治

Countdown思考軌跡

圖8：真實(shí)推理軌跡。Organizer先派worker探索乘法路徑，自己同時(shí)找其他組合，發(fā)現(xiàn)差距后又動(dòng)態(tài)發(fā)起新子任務(wù)

案例2：幾何題的并行探索

數(shù)學(xué)推理軌跡

圖9：面對(duì)四面體幾何題，organizer同時(shí)fork三個(gè)worker用不同方法（向量法、重心法、假設(shè)法），最后交叉驗(yàn)證得到一致答案

案例3：跨領(lǐng)域泛化

MMLU-Pro圖論問(wèn)題

遺傳學(xué)問(wèn)題

圖10-11：未經(jīng)訓(xùn)練的圖論和遺傳學(xué)問(wèn)題，AsyncThink依然能正確分解任務(wù)。這證明它學(xué)的是"如何組織"的元能力

訓(xùn)練動(dòng)態(tài)揭秘

通過(guò)監(jiān)控RL訓(xùn)練過(guò)程，可以看到模型如何進(jìn)化：

訓(xùn)練曲線

圖6：訓(xùn)練過(guò)程中的關(guān)鍵指標(biāo)變化。注意并發(fā)比率先降后升，說(shuō)明模型經(jīng)歷了從"瞎試"到"有策略地并行"的轉(zhuǎn)變

The Era of Agentic Organization: Learning to Organize with Language Models
https://arxiv.org/abs/2510.26658
https://aka.ms/GeneralAI

責(zé)任編輯：武曉燕來(lái)源： PaperAgent

微軟 Agentic AI 系統(tǒng)