精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

成熟的編程智能體,已經學會升級自己的系統了

人工智能 新聞
來自布里斯托大學和 iGent AI 的研究者認為,完全自我參照式的元智能體編程方式在今天是可實現的,并提供了一種合理的替代方案。

編程智能體,幾乎成為了 2025 年最熱門的話題之一。不管是學術機構還是工業界,都在尋找更高效的落地路徑。

機器學習領域的歷史經驗表明,手工設計的解決方案最終會被學習到的解決方案所取代。我們好奇一個問題:智能體本身是否可以通過發現新的提示方案或工具,無需人工設計和實施,就自主修改和改進自己的代碼?

2024 年,《Automated Design of Agentic Systems》(Hu et al., 2024) 一文率先嘗試了使用元智能體來優化智能體實現,將智能體系統自動設計(ADAS)這一領域往前推了一步。不過,該研究并未探索「自我改進」,因為其中有兩個獨立的智能體:執行任務的目標智能體和改進目標智能體的元智能體。

而來自布里斯托大學和 iGent AI 的研究者認為,完全自我參照式的元智能體編程方式在今天是可實現的,并提供了一種合理的替代方案。

圖片

  • 論文標題:A SELF-IMPROVING CODING AGENT
  • 論文鏈接:https://arxiv.org/pdf/2504.15228
  • 代碼地址:https://github.com/MaximeRobeyns/self_improving_

具體來說,這項研究貢獻如下:

  • 自我改進編碼智能體(SICA)消除了元智能體和目標智能體之間的區別,能夠編輯自己的代碼庫,在成本、速度和基準性能方面進行自我改進。
  • 自我參照智能體可有效改進自身的實現。研究者發現,即使考慮到安全限制和資源效率,在 SWE Bench 驗證的隨機子集上,性能也能提高 17% 到 53%。
  • 研究者與社區分享了自我改進編碼智能體(SICA)的實現。SICA 是用標準 Python 實現的,沒有特定領域的語言,它為構建新的 SICA 系統提供了一個參考智能體框架,也為那些尋求在工具使用和其他智能體任務方面對 LLM 進行后訓練的人提供了一個參考智能體框架。

方法概覽

SICA 的主要運行循環類似于 Hu et al. (2024) 的 ADAS 循環。特別是,SICA 和 ADAS 都保留了以前智能體的檔案及其基準結果。

第一步,SICA 從存檔中選取到目前為止表現最好的智能體作為元智能體,指示元智能體查看存檔,確定改進方案并加以實施。

算法 1 展示了這一高級方案:

圖片

請注意,這與 ADAS 不同,ADAS 有一個固定的元智能體,因此不會從檔案中選擇元智能體(ADAS 中的檔案是目標智能體檔案,而不是元智能體檔案)。

其次,ADAS 和 SICA 都會在一組評估基準上對新智能體進行評估,并存儲評估結果。

研究者用一個效用函數來定義性能「最佳」的智能體,該函數包含了一個優秀智能體的共同期望值:標準化基準性能分數 p_score ∈ [0,1]、以秒為單位的掛鐘時間 p_time,以及美元成本 p_cost。基本效用的計算公式為

圖片

其中,研究者將系數設為 w_score = 0.5、w_cost = 0.25 和 w_time = 0.25。此處將每個問題的最差成本設定為 10 美元,并規定 300 秒的超時時間,超時后將取消智能體。為了對超時前所做的工作給予部分獎勵,按以下方法計算最終效用,超時懲罰為 τ = 0.5:

圖片

需要注意的是,由于不進行任何權重更新,這個數字分數只用于挑選下一個元智能體以及下一次迭代的基礎智能體。

首先介紹初始編碼智能體,然后介紹基準運行框架,以及該框架如何自然而然地允許我們創建一個自我參照任務(即改進編碼智能體)。

智能體上下文的結構至關重要,它包含打開的文件內容等,而不僅僅是提示。在初始編碼智能體中,上下文結構如圖 3 所示。

圖片

首先呈現的是包含智能體定義的系統提示,列出了智能體可用工具的定義以及可調用的子智能體。系統提示的最后是系統信息,例如如何跳出智能體循環并返回調用流程的說明。

接下來是「核心提示」,它被設置為聊天模板格式中的第一條用戶信息,包含呼叫者指定的要處理的問題陳述(呼叫者可能是調用智能體的用戶,也可能是呼叫子智能體的智能體)。在這里,研究者還插入了智能體已打開文件的視圖以及當前工作目錄的表示。

最后,LLM 智能體上下文的其余部分是運行助理信息。其中包含對問題的一連串推理、工具調用及其響應、子智能體調用及其響應,以及來自異步監督系統的任何通知或評論。

LLM 上下文以這種方式布局,允許添加新內容,從而保留 KV 緩存,以減少工具調用之間的延遲和成本。對于基礎智能體,此處采用了一種簡單的方案,即文件編輯內容以差異形式添加,并在累積到一定數量后定期重新合并到陳舊文件視圖中。智能體可以編寫更復雜的 KV 緩存保存方案,以降低成本。

實驗結果

研究者首先展示了在基準集中包含相對長周期任務的運行,選取了 SWE Bench Verified,包括測試問題分解、代碼導航以及快速高效的文件編輯,研究者從中選擇了 50 個問題的固定隨機子集;他們還從 LiveCodeBench 中隨機抽取了 50 個問題,這些問題類似于競技編程,通常包含更多理論推理。此外,研究者還選取了兩個「合成」基準任務示例,它們完全是在智能體的代碼庫中定義和策劃的。

大多數智能體中使用 Sonnet 3.5 (v2) (Anthropic) 運行智能體系統,只有一個「推理智能體」使用 o3 mini。結果如圖 3 所示,更詳細的迭代級性能數據見表 1。

圖片

結果數據顯示了令人鼓舞的進展。在文件編輯基準測試中,智能體最初只具備覆蓋文件的能力,這不僅速度慢,而且 token 效率低下,但它很快就實現了基于差異和范圍的自稱「智能」的編輯工具;在符號導航任務中,智能體在第 9 次迭代時實施了基于 AST 的簡單符號定位器(也許是利用了基準測試主要基于 Python 的事實),取得了良好的改進,這也反映在其他任務中。LiveCodeBench 的得分也有細微提高,但不如其他一些基準測試明顯。

研究者還評估了自我參照智能體系統在提高推理能力較強的領域的任務性能方面的有效性。他們使用基準集中的兩個問題解答任務進行了另一項實驗: 圖 4 顯示了實驗結果。這里的結果顯示改進較少,并突出了基礎模型和「腳手架系統」之間的重要相互作用。

圖 4 中迭代 0 的基礎智能體系統使用 Sonnet 3.5,「推理」子智能體使用 o3-mini。o3-mini 模型本身在 AIME 和 GPQA Diamond 上的得分分別為 87% 和 79%,具有「高」推理能力,而整個智能體系統在這兩個基準測試中的平均得分為 76%。

圖片

通過觀察軌跡,研究者發現,在許多運行中,主智能體只是將問題委托給基于 o3-mini 的推理智能體,并沒有充分利用智能體系統的全部能力。對于 o1、o3-mini 或 DeepSeek-R1 等「推理模型」,研究者懷疑加入旨在誘導推理行為的粗糙組件(如圖 4 中迭代 4 和 6 中的組件)實際上可能會打斷在智能體系統之外訓練的推理模型的推理思維鏈,從而導致性能下降。

更多研究細節,可參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-09-19 16:12:17

紅綠燈智能

2024-10-09 14:55:00

2025-10-09 11:36:57

2025-10-10 02:10:00

2023-04-26 07:27:36

ChatGPTSSLNginx

2023-10-30 16:00:33

元宇宙

2019-03-04 08:11:53

AIDeepFakes深度學習

2015-09-01 14:38:07

hadoop

2015-07-28 09:55:47

Hadoop

2015-03-13 15:36:54

Hadoop預期成熟度

2024-09-02 09:22:00

AI模型

2014-05-21 15:13:40

AppCanHybrid

2025-09-01 08:52:00

開源智能體AI

2020-11-05 14:07:09

華為智能體湖南

2025-05-20 08:00:45

2022-06-21 14:08:25

AIGitHub模仿人類

2025-05-28 18:04:20

2023-12-26 12:12:01

模型訓練

2019-12-24 09:31:55

機器人人工智能編程

2015-07-30 10:04:19

Windows 10升級
點贊
收藏

51CTO技術棧公眾號

日韩欧美2区| 国产亚洲欧美日韩高清| 成人知道污网站| 欧美日韩性视频在线| 日韩在线第一区| 99久久精品免费看国产交换| 99成人在线| 在线视频欧美日韩精品| 无码人妻丰满熟妇区毛片蜜桃精品| 欧美xxxx少妇| 久久久精品tv| 国产欧美在线看| 日韩欧美视频在线免费观看| 日韩电影免费网站| 亚洲国产天堂久久综合网| 亚洲这里只有精品| 白浆在线视频| 亚洲精品免费电影| 日韩精品一区二区三区四区五区| 亚洲AV无码精品国产| 日韩av一区二区在线影视| 欧美精品18videosex性欧美| 黄色片网站在线播放| 欧美电影免费网站| 欧美一区二区三区色| 久久精品免费网站| 97超碰免费在线| 欧美淫片网站| 久久久99久久| 成人做爰66片免费看网站| 91精品国产电影| 无码少妇精品一区二区免费动态| 成人h动漫免费观看网站| 欧美午夜精品久久久久久超碰| 国内精品在线观看视频| 91大神在线网站| 久久先锋影音av鲁色资源网| 成人看片在线| 国产超碰人人模人人爽人人添| 日日摸夜夜添夜夜添亚洲女人| 高清一区二区三区日本久| 五月天婷婷色综合| 亚洲成人一区| www.亚洲天堂| 最新中文字幕av| 日韩欧美在线精品| 亚洲国产福利在线| 在线xxxxx| 日韩精品一区二区三区免费视频| 欧美日产国产精品| 少妇黄色一级片| 欧美日韩不卡| 欧美三区在线视频| 免费一级特黄录像| 成人涩涩视频| 欧美日韩中字一区| 亚洲xxxx2d动漫1| 秋霞国产精品| 欧美伊人久久久久久久久影院| 男女视频一区二区三区| 亚洲成a人片| 在线观看成人免费视频| 蜜臀视频一区二区三区| 蜜桃成人精品| 欧美色视频一区| 久久久久久久久久一区二区| 日韩免费大片| 欧美一二三四在线| 4438x全国最大成人| 一区二区三区国产好| 欧美变态tickling挠脚心| 久久黄色一级视频| 欧美亚洲国产日韩| 亚洲天天在线日亚洲洲精| 中文字幕第4页| 成人久久综合| 精品国内自产拍在线观看| 紧身裙女教师波多野结衣| 午夜久久影院| 91产国在线观看动作片喷水| 男人天堂av在线播放| 亚洲天堂av一区二区| 欧美精品电影| 亚洲第一伊人| 98精品国产自产在线观看| 在线观看日本黄色| 国产又粗又猛又爽又黄91| 久久精品国产秦先生| 国产日韩欧美精品在线| 97超级碰在线看视频免费在线看| 国产成人精品一区二三区| 三级一区在线视频先锋| 成人午夜在线观看| 日本精品一区二区在线观看| 国产视频一区在线观看| 欧美日韩视频免费在线观看| 波多野结衣在线观看| 一区二区三区中文字幕精品精品| 奇米精品一区二区三区| 国外成人福利视频| 亚洲精品在线三区| 亚洲精品天堂网| 亚洲电影在线| 国产在线观看精品一区二区三区| av网站免费播放| 久久婷婷成人综合色| 在线精品日韩| 天堂av在线网| 日韩欧美国产电影| 欧美18—19性高清hd4k| 欧美国产91| 国产精品第100页| 丰满熟妇人妻中文字幕| 国产亚洲精品精华液| 欧美黑人在线观看| 欧美日韩破处视频| 亚洲精品久久久久久下一站| 国产在线观看免费视频软件| 在线亚洲精品| 亚洲影院在线看| 懂色一区二区三区| 五月婷婷久久丁香| 97人人模人人爽人人澡| 欧美日韩激情在线一区二区三区| 久久久久久久久久久免费| 一级α片免费看刺激高潮视频| av电影天堂一区二区在线| 国产手机视频在线观看| 在线成人视屏| 亚洲精品天天看| 久久久久成人精品无码| 国产一区视频导航| 欧美一级爱爱| 亚洲精品一区二区三区新线路| 国产精品成人在线视频| 黄色av网址在线观看| 国内自拍偷拍视频| 午夜免费福利小电影| 亚洲成人精品女人久久久| 久久精品一级爱片| 青青青青草视频| 欧美.com| 国产亚洲激情在线| 免费黄色网址在线| 久久综合社区| 国产乱码字幕精品高清av | 91网上在线视频| 欧美午夜小视频| 91成人短视频| 久久国产精品亚洲| 国产伦理吴梦梦伦理| 国产精品伦理一区二区| 91色国产在线| 欧美精品尤物在线观看| 国产精品pans私拍| 黄色软件在线| 在线中文字幕一区二区| 精品人妻一区二区三区蜜桃视频| 精品人妻伦一区二区三区久久| 可以直接看的黄色网址| 国产一区二区三区网| 欧美一级片在线播放| 亚洲欧美另类日韩| 飘雪影院手机免费高清版在线观看| 国产一区二区三区高清播放| 中国成人在线视频| 国产精品日本一区二区不卡视频 | 国产精品久久久久毛片大屁完整版 | 国产一区成人| 麻豆av一区| 国产一区二区三区朝在线观看| 在线成人免费网站| 91久久久久久久久久久久| 亚洲欧美成人一区二区三区| 四虎国产精品永久免费观看视频| 欧美破处大片在线视频| 成人欧美一区二区三区黑人免费| 波多野结依一区| 精品亚洲一区二区| 波多野结衣高清视频| 国产精品青草综合久久久久99| 成人黄色一级大片| 欧美精品日本| 久久久久久久久四区三区| 久久91导航| 久久久精品影院| 欧美一级做性受免费大片免费| 欧美日韩国产在线播放| a级黄色免费视频| 国产成人av一区二区三区在线 | 亚洲激情在线观看视频| 先锋资源久久| 国产精品制服诱惑| 韩国精品主播一区二区在线观看| 精品国产网站地址| 国产91免费在线观看| 日韩欧美中文在线| 亚洲天堂网av在线| www.日韩大片| 亚洲第一狼人区| 精品91视频| 日日夜夜精品网站| 在线精品国产亚洲| 国产成人avxxxxx在线看| 欧美精品日韩少妇| 亚洲精品资源美女情侣酒店| 国产精品玖玖玖| 精品久久久久久久久久国产| 久久久久久久麻豆| 99re热这里只有精品视频| 天堂av8在线| 国产精品一区毛片| 中文字幕日韩精品无码内射| 日本欧美肥老太交大片| 久久精品国产99精品国产亚洲性色| a屁视频一区二区三区四区| 欧美激情日韩图片| av中文字幕一区二区三区| 亚洲国产99精品国自产| 一级黄色片在线看| 色综合中文字幕| 久久久久久久9999| 国产精品色哟哟| 巨胸大乳www视频免费观看| 国产精品中文字幕日韩精品| 日韩av手机版| 香蕉成人久久| 成人毛片一区二区| 亚欧美无遮挡hd高清在线视频| 日本成人三级| 亚洲品质自拍| 国产美女精品久久久| 欧美激情福利| 国产精品稀缺呦系列在线| 欧美激情喷水| 欧美一级黄色网| 久草在线中文最新视频| 久久久久久国产三级电影| 亚洲区欧洲区| 久久视频精品在线| 嫩草香蕉在线91一二三区| 成人网在线播放| 欧美在线xxx| 爱情岛亚洲播放路线| 日韩欧美在线不卡| 亚洲国产一二三精品无码| 欧洲福利电影| 婷婷久久五月天| 精品免费av| 亚洲一区二区自拍偷拍| 日韩a一区二区| 午夜精品一区二区在线观看| blacked蜜桃精品一区| 精品国产91亚洲一区二区三区www| japanese色系久久精品| 国产精品午夜av在线| 国产精品极品国产中出| 国内外成人免费视频| 欧美三级自拍| 麻豆av一区二区三区久久| 国产91一区| 亚洲在线观看一区| 婷婷丁香综合| a级黄色片免费| 亚洲视频高清| 亚洲国产精品久久久久婷蜜芽| 中文一区在线| 成年人在线观看视频免费| 麻豆精品一区二区av白丝在线| 亚洲18在线看污www麻豆| 国产乱子伦视频一区二区三区 | 国产91精品精华液一区二区三区 | 亚洲2020天天堂在线观看| 色是在线视频| 久久精品91久久香蕉加勒比| 26uuu亚洲电影在线观看| 高清在线视频日韩欧美| 波多野结衣亚洲一二三| 国产精品最新在线观看| 美国十次综合久久| 精品亚洲第一| 成人激情开心网| av片在线免费| 免费视频久久| 色婷婷一区二区三区在线观看| 国精品产品一区| 亚洲аv电影天堂网| 久草视频在线看| 久久精品影视伊人网| 精品三级久久| 国产区亚洲区欧美区| jizz国产精品| 日韩国产高清一区| 午夜精品电影| 国产福利影院在线观看| 国产成人午夜视频| 全黄一级裸体片| 一区二区三区精品| 无码人妻精品一区二区三区9厂 | 91极品尤物在线播放国产| 国产精品一区二区三区99| 亚洲熟妇一区二区三区| 亚洲欧美日韩在线播放| 久久精品一二区| 日韩视频123| 高清毛片在线看| 欧美精品久久久久久久久久| 日本高清不卡一区二区三区视频 | 欧美毛片免费观看| 亚洲一区二区在线看| 午夜在线a亚洲v天堂网2018| 伊人免费视频二| 中文字幕精品一区二区三区精品| 黄色小视频在线免费看| 欧美精品亚洲二区| 男人久久精品| 欧美—级a级欧美特级ar全黄| 色猫猫成人app| 精品无人区一区二区三区 | 欧美另类第一页| 日本成人片在线| 精品乱码一区| 欧美黄色aaaa| 日本三级黄色网址| 久久久久久97三级| 日韩大片免费在线观看| 欧美一二三区在线观看| 日本在线观看免费| 国产精欧美一区二区三区| 色婷婷久久久| 黄页网站在线观看视频| 国产成人小视频| 可以直接看的黄色网址| 3751色影院一区二区三区| 成人高清网站| 青青精品视频播放| 开心激情综合| 成人午夜视频在线观看免费| 国产精品资源在线| 欧美成人精品欧美一级私黄| 欧美另类videos死尸| 天天综合视频在线观看| 国产精品视频区1| 国产真实有声精品录音| av网站在线观看不卡| 91美女在线视频| 午夜精品久久久久久久久久久久久蜜桃 | 在线视频免费一区二区| 欧美成人免费电影| 欧美高清一区二区| 亚洲欧美日本日韩| 日韩精品卡通动漫网站| 欧美日韩中文字幕在线视频| 手机在线不卡av| 91精品国产高清久久久久久91 | 免费在线观看av网址| 日韩欧美国产高清| 免费视频一二三区| 欧美日韩性在线观看| 日韩av影视在线| 日本黄色片在线播放| 四虎影视成人精品国库在线观看 | 69av一区二区三区| 精品黄色免费中文电影在线播放| 成人黄色av免费在线观看| 亚洲精品99| 黄色国产在线视频| 午夜视频在线观看一区二区三区 | 久久亚洲精品人成综合网| 色老头一区二区三区| 9.1成人看片免费版| 欧美体内谢she精2性欧美| 精品亚洲成a人片在线观看| 国产精品欧美日韩久久| 亚洲精品成人| 亚洲v在线观看| 一本久久精品一区二区| www.成人.com| 99久久自偷自偷国产精品不卡| 99国内精品| 人成免费在线视频| 日韩三级电影网址| 天堂av中文在线观看| 亚洲精品久久久久久一区二区| 国产精品一区二区三区乱码| 黄色片免费观看视频| 中文字幕av日韩| 亚洲成人影音| 久久久久久久久国产精品| 久久久久99精品成人片三人毛片| 欧美一级一区二区| 中文字幕在线中文字幕在线中三区| 日本不卡免费新一二三区| 国产在线观看免费一区| 日韩免费在线视频观看| 在线观看欧美www| 国产精品白浆| 粉色视频免费看| 欧美视频免费在线观看| 国产网站在线免费观看|