精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

開啟 AI 自主進化時代,普林斯頓 Alita 顛覆傳統通用智能體,GAIA 榜單引來終章

人工智能 新聞
近期,普林斯頓大學 AI Lab 推出了?Alita——一個秉持「極簡即是極致復雜」哲學的通用智能體,通過「最小化預定義」與「最大化自我進化」的設計范式,讓智能體可以自主思考、搜索和創造其所需要的 MCP 工具。

智能體技術日益發展,但現有的許多通用智能體仍然高度依賴于人工預定義好的工具庫和工作流,這極大限制了其創造力、可擴展性與泛化能力。

近期,普林斯頓大學 AI Lab 推出了 Alita——一個秉持「極簡即是極致復雜」哲學的通用智能體,通過「最小化預定義」與「最大化自我進化」的設計范式,讓智能體可以自主思考、搜索和創造其所需要的 MCP 工具。

圖片

Alita 目前已在 GAIA validation 基準測試中取得 75.15% pass@1 和 87.27% pass@3 的成績,一舉超越 OpenAI Deep Research 和 Manus 等知名智能體,成為通用智能體新標桿。Alita 在 GAIA test 上也達到了 72.43% pass@1 的成績。

極簡架構設計,最大自我進化

「讓智能體自主創造 MCP 工具而不靠人工預設」,是 Alita 的核心設計理念。

現有的主流智能體系統通常依賴大量人工預定義的工具和復雜的工作流,這種方法有三個關鍵缺陷:

  • 覆蓋范圍有限:通用智能體面臨的現實任務種類繁多,預先定義好所有可能需要的工具既不可行亦不現實。而且預定義工具很容易過擬合 GAIA,不具有泛化性。

圖片

  • 創造力與靈活性受限:任務的難度可能超出了預定義工具或工作流的能力范圍。復雜任務通常需要智能體創新性地使用新工具,或以新的方式組合和利用現有工具,而預定義的工具庫和工作流會制約這種創造性和靈活性。

圖片

  • 適配失配:不同工具的接口或環境未必與智能體兼容。例如,許多有用的工具并非用 Python 編寫,這使得它們難以(盡管并非不可能)提前預接到主要以 Python 編寫的主流智能體框架中。

圖片

這些挑戰共同限制了現有通用智能體的創造力、可擴展性和泛化能力。

與當前日益復雜的趨勢相反,Alita 團隊認為對于通用智能體而言,「simplicity is the ultimate sophistication」。遵循這一原則,Alita 實現了可擴展的動態能力、增強的創造力與靈活性,以及跨生態系統的兼容性。Alita 團隊由此提出了兩大設計范式:

  • 最小化預定義:僅為智能體配備最核心的基礎能力,避免為特定任務或模態設計人工預定義的組件。
  • 最大化自進化:賦予智能體按需自主創建、優化和復用 MCP 工具的能力,實現自我進化。

圖片

具體而言,Alita 僅內置了管理智能體(Manager Agent)網頁智能體(Web Agent)作為其核心內部組件,以及少量支持自主能力擴展的通用模塊,而不依賴繁雜的預定義工具庫和固定工作流程。Alita 利用了 Model Context Protocols(MCP) 這一開放協議,使智能體系統能根據任務需求動態生成、修改和復用 MCP 工具。相較于一般的工具創建,MCP 創建還具有更好的可復用性與更簡易的環境管理等優勢。這種從人工設計工具和工作流到即時構建 MCP 工具的轉變,為構建簡約而通用的智能體開辟了新路徑。

Alita 的執行流程:簡潔而高效

圖片

整體設計理念與系統架構

Alita 基于「最小預定義 + 最大自主進化」的設計范式,其總體結構十分簡單,僅由三個關鍵組件構成:

  • Manager Agent:充當中央協調器的角色,分析任務需求,調度不同模塊和工具,執行最終的聚合與回答生成。
  • Web Agent:負責搜索有用的外部信息,包括開源代碼、文檔等。
  • MCP 創建組件:由 MCP Brainstorming、ScriptGeneratingTool、CodeRunningTool 三個模塊組成,能夠進行自我能力評估、腳本生成與代碼執行,還能夠動態生成 MCP 工具并實現自我進化。

在整個流程中,Alita 通過不斷創建、驗證、優化新的工具,從而實現持續演化的智能閉環。

三大核心能力模塊

  • MCP Brainstorming 模塊:分析任務,思考需要什么工具

Alita 的第一步是調用 MCP Brainstorming 模塊,對輸入任務進行分析。該模塊會評估當前智能體是否已經具備完成任務所需的能力和工具:若已具備能力,就快速調度相應的工具;若能力缺失,則生成「能力缺口描述」和「MCP 工具構建建議」,以便后續創建新的 MCP 工具。

  • 腳本生成模塊:實時創建工具

檢測到能力缺口后,Alita 會啟動腳本生成模塊。該模塊根據管理智能體提供的任務描述與工具構建建議,結合網頁智能體檢索到的開源資源,生成一套可執行的外部 MCP 工具代碼。Alita 生成的 MCP 工具代碼有良好的封裝性與通用性,可直接集成進任務流程并支持后續復用。

  • 代碼運行與驗證模塊:確保工具能用,并不斷優化

新生成的工具首先會在虛擬環境中執行測試。系統會根據輸出判斷工具是否符合預期。如果工具運行成功,它將被正式注冊為可復用的 MCP 服務,納入任務調用體系;若運行失敗,系統則會自動進入診斷與修復流程,嘗試調整依賴版本、修改關鍵參數,甚至在必要時放棄當前工具,轉向新的解決方案。此外,每次運行過程都會被詳細記錄,以支持后續模型學習與工具演化,真正實現「自我進化」。

自我工具創建:Alita 的秘密武器

Alita 能夠自主創建并優化任務所需的工具,最后將新的工具打包為 MCP,可以在未來進行復用,或是給其他智能體系統使用。

例如,用戶的任務是詢問「這份 PPT 中有多少頁提到了甲殼類動物?」如果預定義的 PPT 處理工具僅將所有內容轉換為文本,就可能無法提取頁碼信息并回答問題。但 Alita 會動態創建一個合適的 PPT 處理工具,并將其封裝為足以解決該任務的 MCP。

另一個場景是,用戶的任務涉及 YouTube 視頻理解。現有的某些通用智能體所預定義的視頻分析工具僅是一個 YouTube 字幕抓取工具,然而部分視頻理解任務需要更深入的分析,僅讀取字幕無法徹底解決問題。Alita 能創建逐幀讀取視頻的 MCP 來解決更復雜的視頻理解任務——這種任務特定的 MCP 創建會根據任務難度動態調整。由于不是視頻理解領域的專家,Alita 團隊無法預先構想此類工具如何實現,直到 Alita 自動給出這個解決方案。該視頻理解組件后來還被復用至團隊的另一項工作《邁向多模態歷史推理:HistBench與HistAgent》(代碼庫已開源)。

Reference: On Path to Multimodal Historical Reasoning: HistBench and HistAgent

Link:https://arxiv.org/abs/2505.20246

性能突破:GAIA 基準測試的新標桿

GAIA 的終局已至,Alita 正是最終的答案。

在 GAIA 基準測試中,Alita 展現了卓越的性能表現。GAIA 作為評估通用 AI 助手實際解決問題能力的標桿測試,共包含 450 個涵蓋不同難度級別的測試題目。

Alita 在 GAIA Validation 測試中取得了 75.15% 的 pass@1 和 87.27% 的 pass@3 準確率,暫時位居所有通用智能體的第一位,超越了 OpenAI Deep Research(67.36% 的 pass@1)和 Manus。在數學推理測試 Mathvista 和醫學圖像識別 PathVQA 測試中,Alita 也分別達到了 74.00% 和 52.00% 的 pass@1 準確率,優于許多裝備復雜工具庫的智能體系統。

這些結果也表明,簡約架構并非性能限制,反而是激發智能體創造性行為的關鍵。通過強調最小化預編寫工具和最大化自主進化的設計哲學,Alita 成功實現了簡潔與性能的統一。

有趣的是,在 Alita 團隊發推特的第二天,GAIA validation 榜單被移除,Alita 團隊提出,或許是時候邁向 HLE、BrowseComp 和 xbench 了。

圖片

MCP 復用:智能體蒸餾新范式與自我進化

在 Alita 構建過程中,系統會動態生成一系列高質量的 MCP,作為解決任務的中間產物。值得注意的是,這些 MCP 的價值遠不止于完成一個任務這么簡單,它們可以在后續任務中被 Alita 調用,顯著提高性能和效率,也能被其他智能體復用。

具體來說,Alita 生成的 MCP 工具箱具備雙重優勢:

其一,智能體蒸餾,自動生成 MCP 的復用可視為一種全新的智能體蒸餾機制,相比傳統蒸餾方法,其成本更低且更高效。

圖片


  • 強智能體指導弱智能體:這些 MCP 可由其他較弱智能體復用,由 Alita(而非人類開發者)通過試錯設計出適配特定任務的 MCP 集,能顯著提升其性能。在不改變底層模型配置的情況下,僅通過引入 Alita 生成的 MCP,Open Deep Research-smolagents 在 GAIA 上的平均準確率從 27.88% 提升至 33.94%,實現了在所有難度等級上的一致性能提升。


  • 基于大模型的智能體指導基于小模型智能體:這些 MCP 同樣可被小模型智能體復用并顯著提升表現。即便使用算力更小、推理能力更弱的 GPT-4o-mini 模型,Alita 所生成的 MCP 也能顯著提升其性能:準確率從 21.82% 提升至 29.09%,Level 3 的準確率更是提升了三倍(3.85% → 11.54%)。

其二,自我進化,使 Pass@1 方法實現 Pass@N 效果:MCP 工具箱與 Alita 連接后,可將單次嘗試的通過率提升至近似多次嘗試的水平。

結語:簡約設計引領通用智能體未來發展范式

Alita 的成功證明,在智能體設計中,簡約性并非功能限制,而是系統演進的驅動力。當傳統方案陷入「工具膨脹,性能停滯」的困境時,Alita 通過動態協議機制實現了「架構簡化,能力增強」的正向循環。我們也相信,隨著大語言模型編寫代碼和推理能力的不斷提升,Alita 將會變得更加強大。未來通用 AI 助手的設計或大幅簡化,無需任何預定義工具和直接解決問題的工作流。相反,開發者可能更專注于設計激發通用智能體創造力與進化潛能的模塊。

隨著人工智能技術向通用化方向發展,這種融合簡約設計與自主進化特性的范式,必將成為構建下一代智能體的關鍵技術路徑——既保持核心系統的優雅簡潔,又能通過持續演化獲得近乎無限的擴展能力。


責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-10-28 14:05:00

2012-08-02 16:18:10

普林斯頓結構哈佛結構架構

2025-06-03 09:31:16

2024-11-08 09:20:00

2023-06-19 09:36:16

AI矩陣

2023-10-23 13:23:03

數據訓練

2011-04-22 10:14:34

無線網絡DHCPAndroid

2022-07-26 09:56:48

模型AI

2025-03-10 12:09:37

2025-07-18 07:07:00

人工智能AIAI模型

2023-12-05 13:25:00

數據訓練

2024-06-13 09:20:26

2025-09-12 13:00:05

2024-07-22 08:30:00

神經網絡AI

2023-06-16 20:50:13

大模型

2025-04-01 09:10:00

2024-03-14 11:55:21

2024-09-25 14:41:15

2020-12-02 10:05:26

AI 數據人工智能
點贊
收藏

51CTO技術棧公眾號

国产精品吊钟奶在线| 亚洲精品720p| 日本精品免费视频| 精品区在线观看| 一区二区日本视频| 中文日韩在线视频| 中文字幕1区2区| 成人影院av| 日韩久久一区二区| 蜜桃麻豆91| 国产三级自拍视频| 国产日韩专区| 久久综合88中文色鬼| 特大黑人巨人吊xxxx| 国产激情精品一区二区三区| 精品久久久久久久久国产字幕| 亚洲开发第一视频在线播放| 黄色av免费观看| 日韩国产精品大片| 亚洲**2019国产| 日韩精品一区二区三区在线视频| 日本国产精品| 日韩欧美一区在线| 中文字幕第80页| www.51av欧美视频| 亚洲免费av在线| 欧美中日韩免费视频| 国产成人麻豆精品午夜在线| 奇米影视一区二区三区| 97在线免费观看视频| 欧美精品xxxxx| 亚洲va在线| 中文日韩电影网站| 一区二区三区四区免费| 国产色噜噜噜91在线精品| 欧美军同video69gay| 免费黄色特级片| 123区在线| 一卡二卡欧美日韩| 国产精品无码乱伦| 久草免费在线| 国产精品视频一二三区| 欧美亚洲国产免费| 污污的视频网站在线观看| 国产福利精品导航| **亚洲第一综合导航网站| 在线免费观看av片| 奇米一区二区三区av| 国产精品第一第二| 免费精品一区二区| 免费人成精品欧美精品| 国产精品色视频| 精人妻无码一区二区三区| 午夜亚洲伦理| 欧美一区二区三区精品电影| 久久99精品波多结衣一区| 亚洲精品孕妇| 97精品久久久中文字幕免费| 日韩精品一区二区三| 亚洲国产一区二区三区高清| 高清一区二区三区四区五区| 国产精品第一页在线观看| 在线免费高清一区二区三区| 久久欧美在线电影| xxxx.国产| 久久精品123| 国产精品免费小视频| 在线观看国产精品视频| 久久99国产精品麻豆| 成人免费视频在线观看超级碰| 在线免费看91| 国产成人亚洲综合a∨猫咪| 91成人免费视频| 亚洲va天堂va欧美ⅴa在线| 高清日韩电视剧大全免费| 国产欧美一区二区三区不卡高清| 亚洲欧美日韩精品永久在线| 久久久久久久综合| 亚洲欧美日产图| av在线麻豆| 欧美日韩亚洲成人| 国产精品入口免费软件| 91精品福利观看| 精品久久久久香蕉网| 国产国语性生话播放| 欧美精品尤物在线观看| 不卡av日日日| 国产尤物在线视频| 久久精品国产在热久久| 国产精品大全| 国产三级视频在线| 亚洲美女免费视频| 午夜肉伦伦影院| 久久精品97| 欧美精品一区二区三区视频| 成熟人妻av无码专区| 国产综合自拍| 国产成人精品久久久| 精品国产av一区二区| 91亚洲精品久久久蜜桃网站 | kk眼镜猥琐国模调教系列一区二区 | av中文字幕av| 欧美天堂视频| 欧美成人性福生活免费看| 亚洲成人网在线播放| 久久精品久久久| 欧日韩不卡在线视频| 国产三级视频在线播放| 国产免费观看久久| 成人免费观看cn| 疯狂欧洲av久久成人av电影| 亚洲美女免费精品视频在线观看| 超碰手机在线观看| 欧美aaaaa成人免费观看视频| 国产精品一级久久久| 久久五月精品| 91国在线观看| 污片免费在线观看| 中文字幕一区二区三区在线视频 | 日韩国产在线一区| 丁香花在线电影小说观看| 欧美日韩国产美| 中文字幕免费看| 精品成人国产| 91热福利电影| www视频在线观看免费| 欧美日韩国产专区| 国内自拍偷拍视频| 亚洲精品97| 国产精品一区二区久久| 青青草娱乐在线| 偷拍日韩校园综合在线| 毛毛毛毛毛毛毛片123| 欧美成人激情| 国产精品扒开腿做| 国产剧情在线观看| 色综合久久久久综合体桃花网| av av在线| 好吊日精品视频| 99在线首页视频| av中文字幕在线观看| 欧美一三区三区四区免费在线看| 中文字幕伦理片| 日韩极品在线观看| 日韩av一区二区三区在线 | 偷拍日韩校园综合在线| a级一a一级在线观看| 日韩午夜精品| 久久精品国产第一区二区三区最新章节| 亚洲婷婷噜噜| 精品国产一区久久| 久久久久99精品| 成人久久视频在线观看| 国产精品www在线观看| 91九色鹿精品国产综合久久香蕉| 欧美大片欧美激情性色a∨久久| 国产一区二区在线不卡| 亚洲同性gay激情无套| 97人人模人人爽人人澡| 欧美成人午夜| 春色成人在线视频| 久草在线资源福利站| 日韩黄色高清视频| 久久久精品毛片| 中文字幕巨乱亚洲| www.cao超碰| 欧美 日韩 国产 一区| av一区二区三区在线观看| 成人影音在线| 国产偷国产偷亚洲清高网站| 波多野结衣一二区| 国产精品电影一区二区三区| 国产精品嫩草影视| 伊人成年综合电影网| 免费久久久一本精品久久区| 精品网站在线| 久热国产精品视频| 手机在线不卡av| 日本高清不卡视频| 91嫩草|国产丨精品入口| 国产一区欧美一区| 国产白丝袜美女久久久久| 国产一区二区三区四区大秀| 国产啪精品视频网站| 人人超在线公开视频| 亚洲乱码一区二区| 97人妻精品一区二区三区动漫| 亚洲一区在线观看网站| 成人影视免费观看| 激情丁香综合五月| 欧美成人高潮一二区在线看| 日韩国产综合| 国产精品一区视频| 精品久久福利| 97精品国产aⅴ7777| 色三级在线观看| 亚洲电影第1页| 亚洲系列第一页| 亚洲福利视频三区| 色欲一区二区三区精品a片| 成人av网站在线观看| 一区二区成人网| 国产一区激情| 午夜精品美女久久久久av福利| 亚洲国产一区二区三区网站| 国产激情视频一区| 欧洲一区二区三区| 一区二区亚洲欧洲国产日韩| www.蜜臀av| 欧美色区777第一页| 日韩av无码中文字幕| 亚洲视频资源在线| 中文字幕成人动漫| jlzzjlzz亚洲日本少妇| 欧美又黄又嫩大片a级| 午夜亚洲性色福利视频| 国产一区二区四区| 国产精品久久久久久| 免费影院在线观看一区| 国产精品成人自拍| 97人人澡人人爽| 日韩欧美专区| 国产黑人绿帽在线第一区| 久久男人天堂| 欧美激情第6页| 黄网站免费在线播放| 中文字幕av一区二区三区谷原希美| 人妻视频一区二区三区| 欧美一级xxx| 一级特黄特色的免费大片视频| 在线免费观看视频一区| 九一国产在线观看| 午夜日韩在线观看| 免费毛片在线播放免费| 亚洲免费看黄网站| 多男操一女视频| 中文字幕av免费专区久久| 三上悠亚影音先锋| 久久一区二区三区四区| 蜜桃精品成人影片| 99精品久久免费看蜜臀剧情介绍 | 26uuu国产电影一区二区| 中国xxxx性xxxx产国| 成人综合在线观看| 韩国三级在线看| 福利一区二区在线| 69亚洲乱人伦| 99国内精品久久| 亚洲精品乱码久久久久久久| 成人久久18免费网站麻豆 | 97精品人妻一区二区三区在线 | 国内精品久久久久久久久久久| 欧美精品xxxxbbbb| 国产亲伦免费视频播放| 欧美一区二区三区色| 国产a级免费视频| 日韩一级精品视频在线观看| 亚洲第一页综合| 精品精品国产高清一毛片一天堂| 亚洲女同志亚洲女同女播放| 亚洲第一页在线| 头脑特工队2在线播放| 亚洲精品国产精品乱码不99按摩 | 日韩精品一区二区亚洲av观看| 91国偷自产一区二区三区观看| 国产精品无码粉嫩小泬| 欧美日韩大陆一区二区| 99热这里只有精品在线| 亚洲国产精品成人va在线观看| 香蕉视频免费看| 亚洲性视频网站| av网站大全在线观看| 久久伊人色综合| 538视频在线| 国产精品jvid在线观看蜜臀| 日本午夜精品久久久久| 亚洲一区二区三区在线免费观看 | 欧美高清视频一区| 手机亚洲手机国产手机日韩| 91网站在线观看免费| 国产深夜精品| 国产日韩欧美久久| 国产不卡视频一区二区三区| 亚洲乱码国产乱码精品精大量| 中文字幕第一区第二区| 欧美黄色免费看| 在线观看一区二区视频| 成人高潮片免费视频| 亚洲精品在线看| av电影高清在线观看| 日韩**中文字幕毛片| 精品国产乱码久久久久久樱花| 久久亚洲综合网| 久久久久免费av| 老熟妇仑乱视频一区二区| 国产一二三精品| 美女久久久久久久久久| 一区二区在线观看视频| 丰满少妇xoxoxo视频| 日韩欧美一区电影| 国产视频网站在线| 欧美极品xxxx| 日韩国产91| 免费久久一级欧美特大黄| 欧美精品一卡| 午夜免费福利在线| av中文字幕不卡| 人妻人人澡人人添人人爽| 日本丶国产丶欧美色综合| 亚洲爱爱综合网| 久久精视频免费在线久久完整在线看| 日韩脚交footjobhd| 91成人免费视频| 色欧美自拍视频| 日本www在线播放| 高清日韩电视剧大全免费| 成人三级视频在线观看| 色婷婷久久久综合中文字幕| 蜜臀av午夜精品| 久久精品国产亚洲一区二区| 成人做爰视频www网站小优视频| 动漫精品视频| 亚洲欧美色图| 一区二区在线免费看| 久久精品男人天堂av| xxxx.国产| 亚洲成人免费在线视频| 成人ww免费完整版在线观看| 国产精品一区二区三| 欧洲杯足球赛直播| 少妇人妻无码专区视频| 丁香六月综合激情| 久久综合激情网| 欧美一级专区免费大片| 成人在线观看免费网站| 成人免费淫片aa视频免费| 欧美国产一级| 男人的天堂最新网址| 亚洲国产精品v| 在线观看免费视频a| 色小说视频一区| 色尼玛亚洲综合影院| 欧美三级华人主播| 欧美一级播放| 国产交换配乱淫视频免费| 日韩欧美主播在线| 你懂的在线播放| 国产999精品| re久久精品视频| 午夜两性免费视频| 中文字幕亚洲一区二区av在线| 一区二区三区免费观看视频| 日韩中文在线视频| 国产精品xnxxcom| 黄黄视频在线观看| 国产91精品一区二区麻豆亚洲| 久久国产精品波多野结衣| 精品国内二区三区| 男人av在线播放| 欧美h视频在线| 日本美女一区二区三区| 乱老熟女一区二区三区| 91精品国产91久久久久久最新毛片| 污视频网站在线免费| 国产一区二区高清视频| 媚黑女一区二区| 992在线观看| 日韩欧美三级在线| 涩涩视频在线免费看| 翔田千里亚洲一二三区| 国产一区二区在线视频| 久久精品视频6| 亚洲欧洲在线视频| 日日夜夜一区| 男的插女的下面视频| 久久久久久久久久久久久久久99| 中文字幕精品一区二区精| 久色乳综合思思在线视频| 高清一区二区三区| 久久久久免费精品| 日韩理论在线观看| 五月婷在线视频| 国产日韩欧美日韩大片| 黄色成人av网站| xxxxx在线观看| 欧美日韩一区二区三区不卡| 欧美人与牲禽动交com| 欧美精品一区二区三区在线四季| 久久99精品久久只有精品| 99热国产在线观看| 日韩一中文字幕| 欧美中文一区| 久久精品亚洲天堂| 一本一本大道香蕉久在线精品| 黄色网址在线免费| 欧美性xxxx69| 懂色av噜噜一区二区三区av| 做爰视频毛片视频| 久久久久久久国产精品| 欧美mv日韩|