Notion這次終于徹底用GPT-5重構為智能體系統了

作者：阿丸筆記 2025-11-10 09:15:43

Notion的這次重建，不僅僅是一次技術升級，更是一次思維轉變。從"讓AI執行任務"到"讓AI運行工作流"，這中間的差距，需要的是全新的架構設計，而不僅僅是更好的提示詞。GPT-5的推理能力，讓這種轉變成為可能，也讓AI從工具真正變成了工作伙伴。

2022年底，Notion在獲得GPT-4訪問權限后的幾周內，就迅速推出了寫作助手、全工作區問答功能，并將OpenAI模型深度集成到搜索、內容和規劃工具中。

但隨著模型能力的提升，用戶開始要求智能體完成整個工作流程，Notion團隊發現了系統架構的局限性。

過去那種讓模型執行孤立任務的提示模式，限制了平臺能力的上限。智能體需要做出決策、編排工具、在模糊情況下進行推理，這種轉變需要的不僅僅是提示工程。

"我們不想改造現有系統。我們需要一個真正支持推理模型工作方式的架構。"——Sarah Sachs，Notion AI建模負責人

Notion沒有修補現有技術棧，而是選擇了徹底重建。

他們用中央推理模型取代了任務特定的提示鏈，這個模型可以協調模塊化的子智能體。

這些智能體可以搜索Notion、Slack或網絡，添加或編輯數據庫，并使用任務所需的任何工具來綜合響應。

隨著Notion 3.0的發布，AI不再只是嵌入在工作流中，它現在可以運行工作流。用戶分配一個廣泛的任務——比如整理利益相關者的反饋——智能體就會規劃、執行并報告結果。

這種向自主選擇工作方式的智能體的轉變，意味著從一開始就要為模型自主性而設計。

為了驗證架構轉變的有效性，Notion使用實際用戶任務評估了GPT-5與其他最先進模型的性能。

評估基于Notion已經標記為高優先級的反饋，包括在研究模式中出現的問題、需要多步推理的長篇任務，以及需要模型判斷的模糊或過時內容。

團隊使用了LLM作為評判者的評分、結構化測試夾具和人工標記反饋的組合方法。

關鍵結果：

? 在符合真實用戶反饋的輸出上，比最先進模型提升7.6%

? 在困難的研究模式問題上，性能提升15%

? 在多步驟結構化任務（如截止日期更新和競爭對手研究）上，提升超過100%

? 唯一能夠完全滿足具有沖突或過時輸入的基準測試的模型

這些評估幫助Notion識別了GPT-5增加價值的地方——比如推理、模糊處理、研究——以及環境特定調優可以改善結果的地方。

"我們沒有挑選任務。這些是我們產品中高信號的工作流，"Sachs說。"這就是模型差異真正顯現的地方。"

有些任務需要快速響應, 有些則不需要。

通過實驗GPT-5的不同推理級別，Notion能夠定制智能體的智能程度，并根據任務要求在響應質量和延遲之間找到完美平衡。

Notion設計的智能體可以根據工作運行幾秒或幾分鐘。直接查找優先考慮短延遲。長時間運行的智能體——最多20分鐘——用于后臺工作流，如總結內容或更新數據庫。

對團隊來說，最重要的是用戶能節省多少時間，而不是模型響應有多快。

這種理念驅動著整個UI中編排和期望的設置方式。

每個Notion團隊都在使用Notion AI。這種日常使用會產生結構化反饋，并在出現問題時提供直接的人工標注。

如果用戶對結果 "點踩"，它會進入跟蹤級調試的流程。

但僅靠內部使用還不夠。團隊還與設計合作伙伴——擁有智能體功能早期訪問權限的技術客戶——合作，以發現邊緣情況并發現盲點。

這種由外而內的測試幫助塑造了產品就緒性，調整編排行為，并驗證GPT-5真正發揮作用的地方。

OpenAI也使用Notion來協調項目和知識，Notion AI嵌入在日常工作流中，以加速審查并完成反饋循環。這

種相互使用創造了一種獨特的動態：兩個團隊都在使用彼此的產品進行構建，提供持續的反饋，并了解工作在實際中的表現。

Notion的重建不僅僅是發布Notion 3.0。它是關于設計一個能夠支持新模型能力并隨著這些模型變得更智能而適應的系統。

他們的方法為其他在生產環境中部署智能體AI的團隊提供了清晰的路線圖：

? 評估重要的事情。使用用戶實際執行的任務，而不是合成基準測試。

? 測試困難的東西。當信息模糊、過時或多步驟時，GPT-5表現出色。

? 為自主性而架構。如果智能體要做出決策，你的系統必須給它們推理的空間和行動的工具。

? 清晰度驅動性能。即使是最好的模型，如果沒有清晰的工具描述和良好的界面設計，也會表現不佳。

? 重建比修補更好。如果你的系統是為完成模型而構建的，它可能無法擴展到智能體。

"我們已經看到了重建的回報，"Sachs說。"如果下一個模型解鎖了新功能，我們會做任何需要的事情來支持它。"

責任編輯：武曉燕來源：阿丸筆記