微軟 Agentic 組織:下一代 AI 系統(tǒng)
大家好!今天要聊的這篇論文特別有意思——它讓LLM從單打獨(dú)斗的推理者,進(jìn)化成了會(huì)帶團(tuán)隊(duì)的項(xiàng)目經(jīng)理。微軟研究院提出了一種全新的推理范式:AsyncThink(異步思維)。

想象一下:你面對(duì)一道復(fù)雜數(shù)學(xué)題,不是一個(gè)人死磕,而是能瞬間召喚3-4個(gè)"分身"同時(shí)從不同角度進(jìn)攻,還能動(dòng)態(tài)調(diào)配任務(wù)、合并成果。這不是科幻,而是LLM通過(guò)強(qiáng)化學(xué)習(xí)學(xué)會(huì)的真本事。
?? 為什么需要"異步思維"?
傳統(tǒng)LLM推理就像一條單行道:Chain-of-Thought(CoT) 必須一個(gè)字一個(gè)字按順序生成。雖然有效,但效率低下。近年來(lái)流行的并行思考(Parallel Thinking) 雖然能生成多條獨(dú)立推理路徑再投票表決,但存在致命短板:
三種思維范式對(duì)比
圖1:三種思維范式的本質(zhì)區(qū)別。AsyncThink的精髓在于"動(dòng)態(tài)組織"——不是簡(jiǎn)單地并行,而是學(xué)會(huì)何時(shí)分叉、何時(shí)聚合
- 延遲陷阱:必須等最慢的那條路徑完成
- 僵硬結(jié)構(gòu):手工設(shè)計(jì)的固定流程,無(wú)法根據(jù)問(wèn)題難度自適應(yīng)調(diào)整
- 學(xué)習(xí)困境:難以通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化組織結(jié)構(gòu)
核心方法:Organizer-Worker協(xié)議
論文的天才之處在于:把復(fù)雜的并發(fā)控制轉(zhuǎn)化為純文本協(xié)議,無(wú)需修改模型架構(gòu)!
角色分工
概念 | 定義 | 計(jì)算機(jī)系統(tǒng)類(lèi)比 |
Agent | 順序執(zhí)行動(dòng)作的模型實(shí)例 | CPU核心 |
Agent Pool | 可同時(shí)運(yùn)行的agent集合 | 多核CPU |
Organization Policy | 組織agent協(xié)作并發(fā)的策略 | 多進(jìn)程程序 |
表1:Agentic Organization概念與計(jì)算機(jī)系統(tǒng)的優(yōu)雅類(lèi)比
四大動(dòng)作標(biāo)簽
整個(gè)系統(tǒng)通過(guò)四個(gè)簡(jiǎn)單的文本標(biāo)簽實(shí)現(xiàn)復(fù)雜協(xié)同:
<FORK-i>子任務(wù)描述</FORK-i>:組織者向空閑工人i分配子查詢(xún)<JOIN-i>:組織者等待工人i返回結(jié)果并合并<ANSWER>最終答案</ANSWER>:終止推理Think:組織者自己繼續(xù)思考
協(xié)議示例
圖2:AsyncThink的完整 thinking protocol。注意看 organizers 如何像項(xiàng)目經(jīng)理一樣動(dòng)態(tài)調(diào)配任務(wù)
??? 兩階段訓(xùn)練:從模仿到創(chuàng)新
Stage 1:冷啟動(dòng)格式學(xué)習(xí)
問(wèn)題來(lái)了:現(xiàn)有語(yǔ)料庫(kù)壓根沒(méi)有這種Fork-Join對(duì)話(huà)數(shù)據(jù),怎么辦?
解決方案:用GPT-4o合成數(shù)據(jù)!具體步驟:
- 分析每個(gè)查詢(xún),識(shí)別"條件獨(dú)立"的思維片段
- 生成符合協(xié)議格式的organizer-worker對(duì)話(huà)軌跡
- 過(guò)濾格式錯(cuò)誤的數(shù)據(jù)
關(guān)鍵技巧:為避免模型只學(xué)到單一模式(如總是先Fork再Join),研究者隨機(jī)采樣動(dòng)作序列作為提示,強(qiáng)制模型探索多樣化結(jié)構(gòu)。
Stage 2:強(qiáng)化學(xué)習(xí)優(yōu)化
RL框架
圖3:專(zhuān)為AsyncThink設(shè)計(jì)的RL框架。注意episode包含多條trace,但共享同一個(gè)優(yōu)勢(shì)函數(shù)
獎(jiǎng)勵(lì)設(shè)計(jì)三板斧:
- 準(zhǔn)確率獎(jiǎng)勵(lì):答案正確給1分,錯(cuò)誤給0分
- 格式獎(jiǎng)勵(lì):出現(xiàn)重復(fù)Fork、線程池溢出等錯(cuò)誤直接給大懲罰
- 并發(fā)獎(jiǎng)勵(lì):這是精髓!
(平均活躍工人數(shù))(并發(fā)度獎(jiǎng)勵(lì))
目標(biāo):鼓勵(lì)模型讓workers并行跑起來(lái),而不是 sequential 地一個(gè)個(gè)用!
圖片
實(shí)驗(yàn)結(jié)果:全方位碾壓
1. 多解Countdown任務(wù)
在這個(gè)需要找出4種不同解法的算術(shù)游戲中,AsyncThink展現(xiàn)出驚人優(yōu)勢(shì):
Countdown實(shí)驗(yàn)結(jié)果
圖5:"≥a Correct"表示成功找到a個(gè)不同解。AsyncThink在"全部正確"指標(biāo)上達(dá)到89.0%,遠(yuǎn)超基線的68.6%和70.5%
2. 數(shù)學(xué)競(jìng)賽推理
圖片
表2:關(guān)鍵數(shù)據(jù)——AsyncThink用更短延遲達(dá)到同等甚至更高準(zhǔn)確率,延遲降低28%!
3. 跨領(lǐng)域泛化能力(最驚喜的部分!)
當(dāng)只在Countdown任務(wù)上訓(xùn)練的AsyncThink被直接扔到Sudoku、圖論、遺傳學(xué)等完全陌生的領(lǐng)域時(shí),它依然能熟練使用Fork-Join策略!
圖片
表4:零樣本泛化到Sudoku任務(wù)。注意模型從未見(jiàn)過(guò)Sudoku數(shù)據(jù),卻自發(fā)學(xué)會(huì)了如何分解這個(gè)新問(wèn)題
案例研究:它到底怎么想的?
案例1:Countdown的多階段分治
Countdown思考軌跡
圖8:真實(shí)推理軌跡。Organizer先派worker探索乘法路徑,自己同時(shí)找其他組合,發(fā)現(xiàn)差距后又動(dòng)態(tài)發(fā)起新子任務(wù)
案例2:幾何題的并行探索
數(shù)學(xué)推理軌跡
圖9:面對(duì)四面體幾何題,organizer同時(shí)fork三個(gè)worker用不同方法(向量法、重心法、假設(shè)法),最后交叉驗(yàn)證得到一致答案
案例3:跨領(lǐng)域泛化
MMLU-Pro圖論問(wèn)題
遺傳學(xué)問(wèn)題
圖10-11:未經(jīng)訓(xùn)練的圖論和遺傳學(xué)問(wèn)題,AsyncThink依然能正確分解任務(wù)。這證明它學(xué)的是"如何組織"的元能力
訓(xùn)練動(dòng)態(tài)揭秘
通過(guò)監(jiān)控RL訓(xùn)練過(guò)程,可以看到模型如何進(jìn)化:
訓(xùn)練曲線
圖6:訓(xùn)練過(guò)程中的關(guān)鍵指標(biāo)變化。注意并發(fā)比率先降后升,說(shuō)明模型經(jīng)歷了從"瞎試"到"有策略地并行"的轉(zhuǎn)變
The Era of Agentic Organization: Learning to Organize with Language Models
https://arxiv.org/abs/2510.26658
https://aka.ms/GeneralAI
























