精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Transformer八子初創:AI橫掃NP難題競賽,Top 2%選手竟是智能體!

人工智能 新聞
編程智能體確實厲害!Transformer作者Llion Jones初創公司,專門收集了NP難題并測試了AI智能體,結果竟在上千人競賽中排第 21!這意味著,它已經比絕大多數人寫得好了。

物流路徑選擇、人員排班、工廠調度、電網平衡、旅行路線……

這些貼近現實的優化任務,看似日常,實則難度極高。

難點在于:一旦問題規模擴大,傳統算法幾乎無法計算出最優解。

通常只能依賴啟發式或近似算法來接近答案。

這正是NP難(Non-deterministic Polynomial-time hard)題的典型特征。

面對如此復雜的問題,AI能否勝任?編程智能體表現如何?

為探索這一問題,Sakana AI與AtCoder展開合作,共同構建了ALE-Bench(ALgorithm Engineering Benchmark)。

圖片

聯合創始人Llion Jones是Transformer八子之一

不同于傳統的編程基準測試,ALE-Bench聚焦于需要長推理和創造性思維的高難度的NP難題。

由于NP-困難性質,這類問題本身沒有明確的最優解,因此分數可以不斷提升。

研究人員認為,它有潛力成為新一代推理與編程能力的重要評估標準。

為了應對這類問題,這次研究特別設計了端到端的智能體ALE-Agent。

它以Gemini 2.5 Pro為基礎,采用兩大核心策略:

(1)通過Prompt提供常用算法與技術的領域知識;

(2)推理階段生成不同多樣解法進行性能增強。

在現實環境中,ALE-Agent已經展現出強大能力。

圖片

圖1:ALE-Bench概覽。(左)ALE-Bench整合歷屆AtCoder啟發式競賽題目,如路徑規劃、任務調度等無已知最優解的復雜優化問題,并依據評分對提交程序進行排名。(右)ALE-Bench支持從基礎大語言模型(LLM)到具備結構化引導能力的智能體(scaffolded agent)進行全面評估:智能體接收任務后提交代碼,可選擇性調用測試運行與可視化工具,像人類選手一樣迭代優化解決方案

以下圖2為例,任務描述如下:

編寫一個程序,輸入為二維網格上的大量取送請求(pickup-delivery pairs),任務是從中選擇指定數量的請求,并規劃一條從倉庫出發、最終回到倉庫的路徑。 

路徑必須滿足如下約束:對于每一個被選擇的請求,必須先訪問其取件點,再訪問其對應的送達點。

程序的目標是使這條路徑的總長度盡可能短。 

評分以路徑總長度為依據,路線越短,得分越高。

(每組輸入的CPU時間限制為2秒)

圖片

圖2:來自ALE-Bench的示例問題(ahc006)

5月,編程競賽平臺AtCoder舉辦了一場啟發式競賽(AtCoder Heuristic Competition,AHC),吸引了全球頂尖開發者參與.

智能體與1,000名人類選手同場競技,進行實時比拼。

最終,ALE-Agent表現出色,排名第21,躋身前2%。

圖片

AtCoder啟發式競賽第47屆(AHC047)的排行榜中,名為「fishylene」的第21名選手,實為Sakana AI提交的智能體ALE-Agent。

這一成果標志著AI在解決現實世界中的優化問題方面取得了突破。

圖片

論文鏈接:https://arxiv.org/abs/2506.09050

數據集:https://huggingface.co/datasets/SakanaAI/ALE-Bench

代碼:https://github.com/SakanaAI/ALE-Bench

NP難題

編程智能體新基準

ALE-Bench基于AtCoder啟發式競賽(AHC)構建而成。

圖片

為什么AHC值得關注?

因為AHC是AtCoder舉辦的知名編程比賽之一:

  • 目前規模最大的得分型算法競賽之一:該賽事每年約舉行10~18場,截至2025年5月1日,已累計舉辦了49場正式比賽。
  • 參賽者多: 每場比賽平均吸引約1,000名參賽者,過去兩年共有超過6,000名用戶參與過比賽。
  • 題目貼近實際:目類型多種多樣,涵蓋路徑規劃、任務調度、多智能體控制等多個領域。
  • 支持長期賽和可視化工具等特色。

每次比賽開始時,主辦方都會發布一道全新設計的題目。

圖2所示即為一道典型路徑規劃題目。這些任務大多對計算資源要求較高,每個測試用例的運行時間限制通常為2到10秒。

AHC提供兩種比賽形式:短期賽(持續約4小時)和長期賽(為期1~2周)。

兩者在題目設計和挑戰難度上存在顯著差異。

短期賽的問題有時可以通過模擬退火(simulated annealing)、束搜索(beam search)等標準算法來求解;

而長期賽更看重深度分析與反復試驗,解法往往靠「磨」出來。

圖3展示了比賽過程中選手得分逐步提升的過程。

圖片

圖3:AHC中的長期賽中,得分上升

在為期兩周的AHC014競賽中,圖3展示了每個時間點上特定排名的得分顯示出持續的進步。

圖3中線條顏色,標記了不同的顏色層級,例如,性能perf=2800(第6名)和性能perf=1200(第379名)。

但無論是哪種形式,想要獲得高分都要針對問題本身,進行推理與反復調優。

隨著比賽推進,選手可以不斷提交優化后的解法,從而逐步提升得分。

圖片

圖4:評級和平均表現分布。截至2025年5月1日,至少參與過5次的用戶的累積評級和平均表現分布(背景顏色表示不同的評級層級)

編程新基準:沒有最佳答案

為了構建ALE-Bench,在HuggingFace上,研究團隊發布了包含40道AHC題目的數據集,這些題目均來自截至2025年4月底前舉辦的正式比賽。

圖片

數據集:https://huggingface.co/datasets/SakanaAI/ALE-Bench/tree/main

這個數據集被稱為完整版(full version),還額外提供了一個精簡版(lite version),其中精選了10道具有代表性的題目,方便快速評估和測試。

每道題目的數據包包含四大部分:

  1. Problem:題目的完整描述,采用Markdown格式,并附帶所有相關圖示;
  2. Scorer:用Rust編寫的評分程序,用于評估選手提交代碼在給定測試用例上的表現;
  3. Visualizer:基于網頁的可視化工具和Rust程序,用于動態展示代碼的執行過程,圖2中的圖像即為其示例;
  4. Leaderboard:用于計算和展示模型或選手得分排名的參考數據。

ALE-Agent

算法工程設計智能體

在算法工程中,智能體還有多大的發展潛力?

為了初步探討ALE-Bench所打開的研究空間,這次探索了算法工程領域的特定用途智能體。

該領域具有一些獨特特性。

對許多問題類型而言,已有成熟的高層策略,而選擇正確的整體方案至關重要。

然而,即使整體思路正確,具體的實現細節、超參數設置和微調優化仍可能顯著影響最終結果。

基于這一點,在ALE-Agent原型中,研究團隊提出并實現了兩種技術:

方法一:結合領域知識的提示策略。

將算法工程中常見技術的專家知識直接嵌入提示詞中,例如模擬退火(simulatedannealing)和束搜索(beam search)。提示內容涵蓋搜索空間和評估函數的設計、鄰域生成方式,以及常用的加速技巧。

方法二:注重多樣性的解空間搜索。

研究者采用基于最優優先搜索(best-first search)的方法,利用大語言模型(LLM)生成并優化解的候選項。

為避免過早丟棄有潛力的解路徑,在算法中加入類似束搜索的擴展策略,使每個節點能一次性生成多個子節點。

這種寬度擴展有助于保留高潛力假設,并在實際操作中,通過并行生成候選方案有效減少API延遲,尤其在使用大型推理模型時優勢明顯。

具體見附錄B。

研究團隊讓ALE-Agent參加了兩次實時競賽(AHC046和AHC047),與超過1000名人類參賽者遵守相同規則競爭。

結果如下:

  • AHC046:排名第154(前16%)。
  • AHC047:排名第21(前2%),表現尤為出色。

ALE-Bench上的評估結果

研究團隊在ALE-Bench上對更廣泛的組合優化問題進行了評估。

圖片

除了ALE-Agent,還測試了其他最先進的AI模型,這些模型在4小時內通過自我優化持續改進解決方案(見上圖)。

使用標準優化方法的AI模型,表現大致相當于人類參賽者的前50%,而ALE-Agent的表現達到了前6.8%,顯示出顯著的性能提升。

完整實驗設置和結果請參閱論文。

分析與洞察

在識別復雜優化問題的算法改進方面,ALE-Agent訓練得很有競爭力。

更進一步,研究者還觀察了它在算法改進中的表現。

觀察迭代優化過程時,研究人員發現它經常應用領域知識來提升得分。

例如,它會加速搜索算法和微調超參數,就像該領域的頂尖人類專家一樣。

在AHC047實時競賽中,ALE-Agent取得了前2%的成績。

以下是一些迭代創新的例子:加速分數計算和改進鄰域搜索。

ALE-Agent使用泊松分布近似來加速分數計算,這是提升AHC047得分的關鍵策略(代碼見此處,第254-276行)。

圖片

ALE-Agent為模擬退火算法設計了更高效的鄰域搜索策略,通過引入更多樣化的移動方式,擴展了解決方案空間的探索,最終將其排名從第82提升至第21(初始代碼見此處,第304-342行;最終代碼見此處,第492-771行)。

圖片

ALE-Agent為何能在AHC047中名列前茅?

其中關鍵原因是人類與AI解決問題方式的差異。

在4小時的比賽中,人類最多可能優化代碼十幾次,而當前AI能進行大約100次修訂。

此外,ALE-Agent能生成數百甚至數千個潛在解決方案。

這種高速、并行的生成能力,讓AI在短時限比賽中展現出獨特優勢。

圖片

圖5:迭代優化過程中公開分數與代碼文件大小的變化趨勢。該圖表展示了四小時周期內,生成代碼文件大小與對應公開評估分數的同步演變過程。圖中右側的點位表示更晚的時間節點

研究者還發現,當前AI非常擅長使用模擬退火,這是AHC中常用的算法(例如,ALE-Agent在AHC039的最佳解決方案,如果參加實際比賽將排名第5)。

未來工作

盡管取得了成功,ALE-Agent仍有一些局限性:

  • 調試困難:ALE-Agent有時無法修復代碼中的錯誤。
  • 時間超限:它無法正確分析自身代碼的復雜度,導致多次超出時間限制。
  • 優化誤區:它有時執著于改進對得分貢獻不大的代碼部分。

雖然ALE-Agent在4小時比賽和適合模擬退火的問題上表現良好,但在為期兩周的比賽或需要不同類型算法的問題上表現不佳。

它在基于實驗分析設計算法(需要通過觀察程序行為進行試錯)時也顯得吃力。

未來改進方向包括:

  1. 更可靠的優化:通過融入人類專家使用的更多技術和工具,以及增強反饋機制以支持詳細的執行結果分析。
  2. 智能體技術升級:例如結合自我改進的方法,使智能體能夠不斷提升自身能力。

最終目標是打造一個算法工程能力媲美甚至超越頂尖人類算法工程師的AI。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-01-16 08:30:00

LLMAI訓練

2025-06-03 09:10:00

2025-08-08 02:15:00

2025-05-15 09:08:00

2025-10-13 09:13:00

2025-10-28 09:22:18

2024-01-23 13:44:28

AI訓練

2024-11-26 00:14:08

2025-10-09 11:36:57

2025-04-16 00:00:00

谷歌MCP人工智能

2023-08-18 13:53:09

模型智能

2024-10-18 13:40:26

2024-11-18 19:06:21

2025-10-27 08:57:00

2020-07-03 16:58:19

人工智能AI初創企業

2024-10-12 12:30:04

2023-07-21 14:28:54

點贊
收藏

51CTO技術棧公眾號

一区二区三区日韩在线| 午夜精品福利一区二区蜜股av| 日韩av快播网址| 亚洲一区二区自偷自拍| julia一区二区三区中文字幕| 国产精品天天看| 91免费精品视频| 青娱乐国产盛宴| 加勒比视频一区| 91精品福利视频| gogogo免费高清日本写真| wwwxxxx国产| 日韩午夜高潮| 最近中文字幕日韩精品| 在线播放国产视频| 日本免费久久| 亚洲免费观看视频| 久久久久久久久久久久久9999| 性高潮视频在线观看| 午夜精品偷拍| 亚洲天堂开心观看| 美女流白浆视频| 电影网一区二区| 亚洲欧洲精品一区二区三区不卡| 成人自拍网站| 久久影视中文字幕| 亚洲经典自拍| 色哟哟网站入口亚洲精品| 香蕉久久久久久av成人| 婷婷激情一区| 亚洲国产一区视频| 午夜啪啪免费视频| 国产精品天堂| 成人国产精品视频| 国产一区二区在线播放| 国产精品人人人人| 欧美激情偷拍| 自拍偷拍亚洲欧美| 精品国产无码在线观看| 日韩精品免费视频一区二区三区| 91黄色免费版| 国产在线精品91| www在线视频| 欧美激情一区二区在线| 久久精品午夜一区二区福利| www.激情五月| 韩国精品在线观看| 国产精品入口免费视| 黄色一级片免费在线观看| 午夜欧美理论片| 中文字幕免费国产精品| 国产精品无码午夜福利| japanese色系久久精品| 91精品国产全国免费观看| 久久久精品麻豆| 中文字幕成在线观看| 一区二区三区国产豹纹内裤在线| 永久久久久久| 1区2区3区在线观看| 久久久久久亚洲综合影院红桃| 国产精品一区二区三区不卡| 精品国产乱码一区二区三| 狠狠色2019综合网| 国产一区私人高清影院| 亚洲精品毛片一区二区三区| 久久蜜桃资源一区二区老牛| 欧美亚洲免费电影| 国产精品xxxx喷水欧美| 国产视频一区欧美| 欧美性视频精品| 91porny在线| 99亚洲伊人久久精品影院红桃| 欧美精品电影在线| 日本三级理论片| 亚洲乱亚洲高清| 午夜精品理论片| 日韩欧美一区二区一幕| 一区二区91| 国产成人精品电影久久久| 久久久黄色大片| 视频一区中文字幕| 国产精品十八以下禁看| 一本色道久久综合精品婷婷 | 精品精品国产高清a毛片牛牛| 日韩视频在线观看一区二区三区| 91精品福利观看| 欧美一卡二卡三卡| 日本人添下边视频免费| 任你躁在线精品免费| 亚洲欧美日韩网| 免费一级特黄3大片视频| 久久精品国产亚洲夜色av网站| 播播国产欧美激情| 精品肉丝脚一区二区三区| 亚洲美女视频在线免费观看| 日本一欧美一欧美一亚洲视频| 无码人妻精品一区二区50| 日本视频免费一区| 91在线精品观看| 深夜福利视频网站| 国产视频视频一区| 精品国产一区二区三区在线| tube8在线hd| 在线欧美日韩精品| 一个人看的视频www| 少妇久久久久| 日韩中文字幕在线看| 久久精品视频9| 日韩主播视频在线| 操人视频欧美| 毛片免费在线播放| 亚洲欧美激情一区二区| 免费黄色福利视频| 亚洲精品大片| 亚洲精品久久久久久久久久久 | 久久久久久久久久免费视频| 日韩av在线发布| 古典武侠综合av第一页| 国产人成在线观看| 一二三区精品福利视频| 国内自拍视频网| 超碰一区二区三区| 最近2019中文字幕大全第二页| 日韩av电影网址| 久久精品国产亚洲aⅴ| 久久精品magnetxturnbtih| 浪潮av一区| 粉嫩av一区二区三区免费野| 国产乱码一区二区三区四区| 精品国产乱码久久久久久蜜坠欲下 | 日本大片在线播放| 欧美日韩精品三区| 丝袜美腿中文字幕| 精品动漫3d一区二区三区免费| 国产精品亚洲片夜色在线| 婷婷伊人综合中文字幕| 亚洲欧美一区二区三区孕妇| 欧美在线观看视频网站| 黄色欧美网站| 欧美黑人视频一区| 国产精品伦一区二区三区| 国产欧美日韩另类一区| 黄色av网址在线播放| 一区二区三区亚洲变态调教大结局| 国产一区二区三区毛片| 黄色免费av网站| 成人一区二区三区视频在线观看| 亚洲美女自拍偷拍| 日日夜夜综合| 中文字幕久久精品| 国产乱码在线观看| 国产日韩视频一区二区三区| 男人添女人下面高潮视频| 丁香5月婷婷久久| 欧美成人免费视频| av中文字幕第一页| 亚洲日本欧美天堂| 午夜免费一级片| 亚洲女同中文字幕| 91丨九色丨国产在线| 黄色网页在线看| 欧美精品777| 天天鲁一鲁摸一摸爽一爽| 美国一区二区三区在线播放| 亚洲va韩国va欧美va精四季| 日本黄色一区| 中文字幕av一区二区| 中文字幕视频在线播放| 国产精品久久久久久久久动漫| 搡女人真爽免费午夜网站| 国产欧美日韩精品一区二区三区| 国产91精品青草社区| 国产综合在线观看| 欧美午夜一区二区三区| 青青操在线播放| 国产一区二区视频在线播放| 青青草原网站在线观看| 99精品在免费线中文字幕网站一区 | 蜜桃精品久久久久久久免费影院 | 国产精品亲子伦对白| 亚洲欧美偷拍另类| 综合一区av| 国产精品一区二区你懂得| 亚洲十八**毛片| 国产一区二区三区在线看| 中文在线字幕免费观| 亚洲人成在线观看一区二区| 久久久久亚洲AV成人网人人小说| 亚洲人成久久| 日本一区二区在线视频观看| h1515四虎成人| 麻豆国产精品va在线观看不卡| 精品人妻一区二区三区含羞草| 午夜久久久影院| 丰满少妇一区二区| 精品一区二区在线视频| 性高湖久久久久久久久aaaaa| 亚洲精品亚洲人成在线观看| 国产精品视频久久久久| 欧美78videosex性欧美| 精品中文字幕久久久久久| 亚洲综合精品在线| 亚洲国产精品久久久男人的天堂| 国产精品亚洲无码| 国产乱子伦一区二区三区国色天香| 777av视频| 欧美一区二区三区激情视频| 亚洲自拍欧美色图| 成人私拍视频| 麻豆成人在线看| 你懂得在线网址| 日韩西西人体444www| 激情视频网站在线观看| 亚洲一区二区三区四区在线| 亚洲а∨天堂久久精品2021| 国产高清精品在线| 天天操天天爱天天爽| 激情综合中文娱乐网| 天堂社区 天堂综合网 天堂资源最新版| 国产中文欧美日韩在线| 日本最新高清不卡中文字幕| 污的网站在线观看| 正在播放欧美视频| 青梅竹马是消防员在线| 欧美成人精品二区三区99精品| 免费在线观看av的网站| 亚洲大型综合色站| 尤物在线免费视频| 国产亚洲一区二区三区四区| 国产二级一片内射视频播放| 国内精品免费**视频| 国产又大又黄又粗的视频| 日韩午夜av| 亚洲色成人www永久在线观看| 99精品在线免费在线观看| 噜噜噜噜噜久久久久久91| 日韩区一区二| 成人亚洲综合色就1024| 99久久久国产精品免费调教网站| 2021国产精品视频| 99thz桃花论族在线播放| 免费av在线一区| 乱人伦中文视频在线| 中国china体内裑精亚洲片| 日韩美女一级视频| 亚洲精品大尺度| 黄频网站在线观看| 欧美成人欧美edvon| 国产精品乱码久久久| 777久久久精品| 国产九色91回来了| 欧美三级电影在线观看| 久久久久久无码午夜精品直播| 欧美日韩一区二区三区在线免费观看 | 久久精品免费看| 中文字幕第80页| 久久精品天堂| 国产成人久久777777| 老司机久久99久久精品播放免费| 免费毛片小视频| 国产精品久久777777毛茸茸| 鲁一鲁一鲁一鲁一色| 在线亚洲观看| 欧美成人免费高清视频| 久久激情中文| 日韩精品一区二区三区不卡 | 久久婷婷国产91天堂综合精品| 久久久久久穴| 黄色一级一级片| 久久三级视频| 91人人澡人人爽人人精品| 麻豆成人综合网| 亚洲日本黄色片| 国产精品一区二区久久不卡| 丰满饥渴老女人hd| 成人av在线播放网址| 日韩片在线观看| 26uuu国产一区二区三区| 国产精品美女高潮无套| 中文字幕一区二区三区四区| 日韩高清dvd碟片| 亚洲一区日韩精品中文字幕| 日韩欧美亚洲视频| 欧美亚州韩日在线看免费版国语版| 精品乱码一区内射人妻无码 | 欧美一区=区三区| 国产欧美一区二区三区四区| 欧美一级大片在线视频| 国严精品久久久久久亚洲影视| 免费成人av| 亚洲一区免费看| 国产综合色产| 免费日韩视频在线观看| 久久成人免费网| 亚洲AV无码久久精品国产一区| k8久久久一区二区三区 | 亚洲乱码一区| 久久久久久久久久久久久9999| 日韩黄色大片| 成人午夜免费在线视频| 三级欧美韩日大片在线看| 网站在线你懂的| 91欧美一区二区| 在线观看黄网址| 精品国产福利在线| 一区二区美女视频| 亚洲精品美女视频| 欧美高清视频| 欧美一级淫片播放口| 亚洲国产天堂| 久久国产精品高清| 亚洲天堂免费| 免费日韩中文字幕| 国产成人综合亚洲网站| 久久久久久成人网| 亚洲电影第三页| 国产精品久久久久久免费免熟| 日韩大片免费观看视频播放| 国产视频在线播放| 国产精品大陆在线观看| 中文字幕一区图| 一本久久a久久精品vr综合| 一本色道久久综合| 久久久久无码国产精品一区李宗瑞| 亚洲国产成人午夜在线一区| 日韩成人一区二区三区| 欧美精品自拍偷拍| 国产一二三在线观看| 性欧美在线看片a免费观看| www.久久久.com| 日韩精品国内| 国产美女一区| 美女扒开腿免费视频| 亚洲欧美福利一区二区| 伊人久久一区二区| 亚洲人线精品午夜| 五月天av在线| 精品欧美一区二区三区久久久| 在线中文字幕亚洲| gai在线观看免费高清| 国产欧美精品一区aⅴ影院| 日韩 欧美 中文| 亚洲第一免费播放区| 日本性爱视频在线观看| 91在线播放国产| 99久久.com| 中文字幕国产免费| 国产精品久久久久影视| 一级特黄免费视频| 国产一区二区三区免费视频| 都市激情亚洲一区| 久热这里只精品99re8久| 99精品免费网| 国产精品无码一区二区三| 亚洲国产裸拍裸体视频在线观看乱了 | 欧美亚洲另类在线| 思热99re视热频这里只精品| 国产午夜大地久久| 97国产一区二区| 日本在线视频中文字幕| 亚洲国产精品va在线看黑人| av福利在线导航| 国产伦精品一区二区三区免费视频| 欧美区一区二| 久久久久亚洲AV成人网人人小说| 亚洲国产欧美在线| 外国精品视频在线观看| 秋霞av国产精品一区| 日韩av在线播放网址| 在线能看的av网站| 亚洲色图在线视频| 欧美天堂在线视频| 奇米一区二区三区四区久久| 狠狠做六月爱婷婷综合aⅴ| 中文字幕第80页| 亚洲三级在线看| 精品国产乱码久久久久久蜜臀网站| 欧美激情亚洲综合一区| 米奇精品关键词| 北条麻妃在线一区| 亚洲欧美中日韩| 成人1区2区3区| 91精品国产高清自在线| 精品久久网站| 亚欧精品在线视频| 亚洲成av人片一区二区三区| 日本福利片高清在线观看| 国产精品久久久久aaaa九色| 天天精品视频| 人妻 日韩 欧美 综合 制服| 色综合久久久久久久久| 婷婷视频在线| 国产精品国产三级国产专区53| 另类av一区二区| 成人一级片免费看| 精品国产一区二区国模嫣然| 日韩精品专区| 男女h黄动漫啪啪无遮挡软件| 99精品热视频| 国产一区二区三区黄片|