語言如何驅動Agent生成“新世界系統” 精華
核心觀點總結:語言驅動Agent與非共識之路
姚順雨的經歷和研究都體現了“非共識”的路徑,他一直致力于Agent(智能體)研究,并堅信語言是實現泛化和開放世界決策的本質工具。
1. Agent的本質:語言是為泛化而生的工具
?非共識起點:2018年選擇讓語言模型玩游戲,而不是當時主流的BERT。
?開放世界的本質:真實世界的行為空間是開放的(open-ended),傳統NLP的有限選項無法應對。
?語言的特殊性:語言是一個通用性(general-purpose)工具,學會它能實現跨領域的學習、思考和泛化,這是火、輪子等工具無法比擬的。
?范式轉移:AI已經歷了符號主義AI(規則驅動)和深度強化學習(試錯學習+環境特定)的瓶頸,現在進入語言驅動Agent(推理+語言先驗+工具)的時代,實現了跨領域泛化。

AI智能體演進:三次范式轉移
Agent能力的分級與三大瓶頸
OpenAI將AI能力分為五級(Chatbot → Reasoner → Agent → Innovator → Organizer)。從Agent(Level 3)向更高層級發展,需要突破三大關鍵能力:長期記憶、內生獎勵、多智能體協作。

OpenAI智能體能力層級框架與核心要素
1. 長期記憶(Long-term Memory)
?核心瓶頸:模型最大的瓶頸不是推理能力,而是缺少完整的Context。
?人與AI的區別:人類社會的許多Context(如行為習慣、未成文的共識)只存在于人的大腦,由一個分布式系統維護,而AI缺少這種環境中的“沉浸式”Context。
?環境即記憶:引用馮·諾依曼的觀點——“環境永遠是記憶層級中最外層的部分?!保═he Environment is always the most outer part of the Memory Hierarchy.)
2. 內生獎勵(Intrinsic Reward)
?Innovator的核心:創新者在創造被證明的價值前,沒有任何外部獎勵或反饋,需要自我激勵(類似嬰兒的好奇心)。
?機制設計難題:如何為AI玩語言游戲設計有效的內在激勵機制,目前尚無定論。
3. 多智能體(Multi-Agent)
?組織與協作:Level 5(Organizer)的能力是解決Agent之間如何協作,以及如何讓**多智能體協作規模化(scale)**的問題。
?重要性:人類社會最崇拜兩種人:創造新東西的人和創造新組織的人(如馬斯克、喬布斯),這表明組織協作能力和個體創造力一樣重要。
方法論與任務設計的藝術
1. ReAct的價值:簡單與通用性
?核心思想:將推理(Reasoning)和行動(Action)結合起來:??Thought → Action → Observation → Thought → ...??
?價值體現:強調做簡單通用的方法和有實際價值的任務。在模型能力被大公司壟斷的情況下,研究“如何使用模型”更有價值。

語言:實現泛化的通用工具系統架構
2. 任務評估框架:Pass@k vs Pass^k
姚順雨提出了兩個重要的評估框架,強調根據應用場景選擇不同的容錯標準:

任務評估框架:Pass@k vs Pass^k
?獎勵原則:Reward應基于結果,不基于過程;應是白盒的、可計算的,以避免因優化人的偏好或模型的偏好而產生投機取巧(hacking)。
3. Code:機器的“手”
?Code的地位:Code就像人的手,是數字Agent最重要的affordance(環境給予行動者的可能性),因為它是天然為機器使用的表達形式。
?創新:通過InterCode等工作,將編程任務構造成一個多輪Agent task,把執行結果反饋給模型,使其更具Agent特性。
創業與未來的圖景

創業與未來的圖景
1. 創業公司的機會:設計不同的Interface
?Super App的機會:創業公司最大的機會是設計不同于ChatGPT的交互方式(interface)。
?超越ChatGPT的交互:ChatGPT是擬人化的交互。Cursor等通過創造非擬人化的、像Copilot(副駕駛)一樣的新交互,創造了巨大價值。
?核心挑戰:要找到那個和ChatGPT形態很不一樣的Super App,因為一旦公司有了Super App,所有事都會圍繞它重構。

超級應用生態系統與創業機會地圖
2. 模型公司與應用公司的博弈:相互抄襲
?非單向壟斷:世界并非會被模型公司單極壟斷,而是一個相互抄襲的關系。
?力量平衡:智能的邊界將由不同Super App共同定義,而不是由一家機構定義。
3. OpenAI的賭注:GPT的非共識選擇
?Different Bet:OpenAI為了超越DeepMind,必須有一個不同的賭注。GPT在當時是一個反共識的決定,Ilya的最大貢獻是他是那個號召大家All in這個方向的人。
?下一個賭注:長期記憶、內生獎勵、多智能體協作。
4. 終極思考
?價值為王:對創業者而言,最重要的是“想清楚你的價值是什么”——為用戶帶來了什么樣的增量價值。
?人與Agent的關系:Agent的出現不是替代,而是會帶來三種主要場景:情感陪伴(擬人化)、專業助手(任務導向)、生態平臺(非擬人化基礎設施)。
本文轉載自??螢火AI百寶箱??,作者: 螢火AI百寶箱

















