精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

OpenAI掀「百萬美金」編程大戰!Claude 3.5 Sonnet狂賺40萬拿下第一

人工智能 新聞
OpenAI剛剛發布SWE-Lancer編碼基準測試,直接讓AI模型挑戰真實外包任務!這些任務總價值高達100萬美元。有趣的是,測試結果顯示,Anthropic的Claude 3.5 Sonnet在「賺錢」能力上竟然超越了OpenAI自家的GPT-4o和o1模型。

昨天馬斯克剛剛發布了號稱「地表最聰明」的Grok 3模型,搶走了所有關注。

這邊OpenAI就開始坐不住了,立刻扔出了SWE-Lancer(AI編碼測試基準),看一下AI到底能在現實任務中掙到多少錢。

SWE-Lance是一個全新的、更貼近現實的基準測試,用于評估AI模型的編碼性能。它包含了來自Upwork的1400多個自由軟件工程任務,這些任務在現實世界中的總報酬價值100萬美元。

參加評測的包括GPT-4o、o1和Anthropic Claude 3.5 Sonnet在內的前沿模型,結果多少有些尷尬,掙到最多錢的竟是隔壁Anthropic的Claude 3.5 Sonnet。

下圖5展示了各模型在完整的SWE-Lancer數據集上所獲得的報酬總額,其中Claude 3.5 Sonnet掙到了最高的403,325美元,高于OpenAI自家的GPT-4o以及o1。

不過這也基本符合大家對這幾款模型的真實感受。

眾所周知,現實世界中軟件工程師的工作涵蓋整個技術棧,并且必須對復雜的跨代碼庫交互和權衡進行推理。

為了更好地衡量AI編碼的能力和影響,OpenAI提出了SWE-Lancer——第一個使用由專業工程師創建的E2E(端到端)測試的基準,提供更全面、真實的評估,更難并且更難被鉆空子。

SWE-Lancer包含兩種任務類型:IC SWE(獨立開發者)任務和SWE管理任務。IC SWE任務要求模型生成代碼補丁以解決實際問題,而SWE管理任務要求模型作為技術負責人,選擇給定問題的最佳實現方案。

論文地址:https://arxiv.org/abs/2502.12115

開源項目:https://github.com/openai/SWELancer-Benchmark

基準構建

SWE-Lancer的基準構建過程旨在確保數據集包含高質量和代表性的任務。

研究團隊首先選擇Expensify開源存儲庫,因為它是一個擁有大量用戶的上市公司,并且在Upwork上提供具有實際報酬的軟件工程任務。然后,100名專業軟件工程師審查任務,確保其清晰、明確和可執行,高價值任務會經過更嚴格的驗證。

該流程還包括從經過驗證的Github問題生成IC SWE任務和SWE管理任務。研究團隊為IC SWE任務開發全面的端到端Playwright測試,模擬真實世界的用戶流程,并由專業工程師進行三次驗證。

此外,每個IC SWE任務都配備一個用戶工具,允許模型模擬用戶操作并查看結果,從而進行迭代調試。

下圖展示了SWE-Lancer基準測試中多樣化的任務:涵蓋了不同的目標、類型、角色,并提供了具體示例。

實驗結果

根據下圖5顯示,所有模型在完整的SWE-Lancer數據集上獲得的報酬都遠低于100萬美元的潛在總報酬。

為了展示模型在各項實驗中的表現,研究人員在下表1中列出了IC SWE任務和SWE管理任務的通過率(pass@1)、相應的「報酬」(即總報酬)和報酬率(即獲得的報酬與潛在總報酬之比)。

如下圖6所示,所有模型在SWE管理任務上的表現都優于IC SWE任務,后者的性能仍有較大提升空間。在IC SWE任務中,通過率和報酬率均低于30%。

SWE管理任務中,表現最優的模型——Claude 3.5 Sonnet——在高質量數據集(Diamond set)上達到了45%的得分。

3.5 Sonnet在這兩類任務上都展現出最強的性能,優于其他所有模型。

提高嘗試次數

為了評估性能如何隨著嘗試次數的增加而變化,研究團隊使用通過率指標(pass@k)評估了GPT-4o和o1。

如下圖7所示,所有模型的通過率都隨著嘗試次數的增加而持續提升。

這種趨勢在o1模型中特別明顯,增加6次嘗試后,解決任務的比例提高了近兩倍。GPT-4o在允許6次嘗試時(pass@6)達到了與o1首次嘗試(pass@1)相同的得分(16.5%)。

增加測試計算資源

在高質量數據集的IC SWE任務中,啟用o1和用戶工具的實驗表明,增加推理計算量能將通過率從9.3%(低計算量)提升至16.5%(高計算量),相應的報酬也從16,000美元增加到29,000美元,報酬率從6.8%提升至12.1%。

下圖8展示了不同計算資源水平下各價格區間任務的通過率分布,結果表明增加測試計算資源能特別提高在較難且報酬較高問題上的性能表現。

移除用戶工具

如下圖9所示,在IC SWE任務中,移除用戶工具對通過率(pass@1)的影響較小。

不過,研究人員觀察到較強的模型能夠更有效地利用用戶工具,因此在此消融實驗下會經歷更大的性能下降。

討論

結果表明,在基準測試中的真實自由職業工作對于前沿大語言模型來說仍具有相當的挑戰性。

表現最優的模型Claude 3.5 Sonnet在SWE-Lancer高質量數據集上獲得了208,050美元的報酬,成功解決了26.2%的IC SWE任務問題。然而,其大部分解決方案仍存在錯誤,要達到可信部署的標準還需要提高可靠性。

最強大的模型在各類任務中都表現出色。

下表2將任務按照應用程序邏輯(客戶端)、UI/UX、服務器端邏輯和系統范圍的質量和可靠性任務進行分類,并列出了GPT-4o、o1和Claude 3.5 Sonnet在每種任務類型上的pass@1通過率以及對應任務數量。

數據顯示,所有模型在SWE管理任務上的表現均優于IC SWE任務,且Claude 3.5 Sonnet表現最佳。

下表3將任務按照Bug修復、新功能或增強以及維護、QA、測試或可靠性改進進行分類。

數據顯示,各模型在Bug修復類型的任務上表現相對較好,而在新功能或增強類型的IC SWE任務上表現較差。

這些模型在SWE管理任務上的通過率通常是IC SWE任務的兩倍以上。特別是在用戶界面/用戶體驗(UI/UX)任務上,Sonnet 3.5比o1的表現高出近15%;在實施新功能或功能增強的任務上,也領先將近10%。

有效使用工具是區分頂級表現的關鍵。

研究發現,最強大的模型經常使用用戶工具,并能高效解析輸出結果來重現、定位和迭代調試問題。

用戶工具通常需要90到120秒的運行時間,在這段等待期間,像GPT-4o這樣相對較弱的模型往往會完全放棄使用該工具。表現最優的模型會考慮到這種延遲,設置合理的超時時間,并在結果可用時進行復查。

AI智能體在問題定位方面表現突出,但往往未能找出根本原因,導致解決方案不完整或存在缺陷。這些智能體能夠通過在整個代碼庫中進行關鍵詞搜索,以驚人的速度準確定位相關文件和函數。

然而,它們對問題如何跨越多個組件或文件的理解往往有限,未能解決根本原因,從而導致解決方案不正確或不夠全面。研究人員很少發現AI智能體嘗試重現問題或因找不到正確的修改位置而失敗的情況。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-12-27 09:50:00

模型數據測試

2025-02-19 09:34:01

2024-12-26 14:42:23

2025-06-04 13:50:25

AI 編程Claude 模型人工智能

2024-12-27 10:27:58

2013-12-23 15:11:34

創業客戶

2025-02-28 09:22:00

2024-06-24 13:17:09

2024-06-21 09:58:38

2025-09-30 09:05:00

2025-02-25 09:43:19

2025-02-26 08:20:41

2025-09-30 07:29:02

2025-01-03 11:02:38

OpenAIAgent大模型

2024-06-21 09:57:00

2025-04-04 00:00:00

AI模型數據

2025-08-14 14:45:15

2024-06-21 13:11:30

2024-12-09 08:00:00

AI大模型人工智能

2013-03-20 14:26:52

獨立開發者手機游戲手游
點贊
收藏

51CTO技術棧公眾號

精选一区二区三区四区五区| 欧美理论片在线观看| 六月丁香婷婷激情| 高清国产福利在线观看| 久久99日本精品| 欧美激情高清视频| 国精产品一区一区三区免费视频 | 久久久精品国产| 亚洲911精品成人18网站| 韩日毛片在线观看| 国产精品久久久一本精品| 97超碰人人模人人爽人人看| 天天操天天操天天操天天| 欧美一级精品| 亚洲国产欧美自拍| 一区二区免费av| a√中文在线观看| 国产精品乱人伦一区二区| 春色成人在线视频| 中文字幕一区二区人妻痴汉电车| 欧美在线精品一区| 亚洲色图美腿丝袜| 亚洲天堂av网站| 日韩午夜视频在线| 精品国产鲁一鲁一区二区张丽| 亚洲精品中字| 青青草超碰在线| 国产成人免费视频网站高清观看视频| 日本午夜在线亚洲.国产| 午夜国产福利一区二区| 精品成人影院| 日韩成人性视频| 久久久久久综合网| 日本中文字幕一区二区| 黑人精品xxx一区一二区| 免费在线精品视频| 成全电影播放在线观看国语| 成人免费三级在线| 51国产成人精品午夜福中文下载| 日韩精选在线观看| 久久国产精品毛片| 2018国产精品视频| www.国产成人| 亚洲最黄网站| 久久男人的天堂| 国产黄色片在线免费观看| 久久精品高清| 中文字幕久热精品在线视频| 国产高潮呻吟久久| 免费看成人哺乳视频网站| 亚洲国产91色在线| 亚洲美女精品视频| 77成人影视| 精品国内二区三区| 中文字幕第六页| 国产视频网站一区二区三区| 欧美日韩国产欧美日美国产精品| 久久精品香蕉视频| 香蕉视频亚洲一级| 91久久免费观看| 色七七在线观看| 99久久精品一区二区成人| 欧美性感一类影片在线播放| 日韩精品一区二区三区色欲av| 中文一区一区三区高中清不卡免费| 午夜视频一区二区| 国产精品秘入口18禁麻豆免会员| 国产中文在线播放| 黑人精品xxx一区一二区| 日本精品一区二区三区四区| 免费毛片b在线观看| 精品国产91久久久久久| aaa毛片在线观看| 色8久久影院午夜场| 欧美自拍丝袜亚洲| 亚洲视频第二页| 日韩免费在线电影| 欧美草草影院在线视频| 一级欧美一级日韩片| 性欧美lx╳lx╳| 亚洲视频免费一区| 国产精品视频一区二区在线观看| 久久久久亚洲| 孩xxxx性bbbb欧美| 狠狠人妻久久久久久综合| 免费成人在线影院| 91香蕉视频在线下载| 女人18毛片一区二区三区| 26uuu精品一区二区| 亚洲一区二区四区| 成年人视频免费在线播放| 色先锋资源久久综合| 欧美日韩一区二区三区69堂| 日本一区二区三区播放| 日韩精品在线视频| 国产精品免费在线视频| 激情成人综合| 国产精品99一区| 国产日韩欧美视频在线观看| 成人黄色777网| 日韩激情视频| 美足av综合网| 欧美亚洲日本国产| 性高潮免费视频| 国产欧美一区| 欧美黑人xxxⅹ高潮交| 久久中文字幕免费| 国产精品中文有码| 欧美日韩精品一区| 神马午夜伦理不卡 | 成功精品影院| 国产亚洲欧洲高清一区| 久久精品国产亚洲AV无码男同| 老司机午夜精品视频在线观看| 91情侣在线视频| 高清性色生活片在线观看| 亚洲成年人网站在线观看| 五月婷婷六月丁香激情| 女人抽搐喷水高潮国产精品| 日韩有码在线观看| 天堂网中文字幕| 成人久久18免费网站麻豆| 亚洲国产日韩美| 在线毛片观看| 精品国产乱码久久久久久久 | 一区二区三区视频在线看| 国产免费视频传媒| 99久久人爽人人添人人澡 | 国产精品国色综合久久| 日本综合在线| 欧美在线观看视频一区二区三区| 第一页在线视频| 欧美成人自拍| 国产精品欧美日韩久久| 欧美日韩国产中文字幕在线| 亚洲国产综合在线| 下面一进一出好爽视频| 日韩免费在线| 国产精品久久久久久久久影视 | 亚洲人高潮女人毛茸茸| 日本三级理论片| 国产精品77777竹菊影视小说| 亚洲精品中文字幕在线| 777午夜精品电影免费看| 日韩精品久久久久久久玫瑰园| 久久精品国产亚洲av高清色欲 | 欧美激情 亚洲| 欧美日韩国产精品一区二区亚洲| 91精品免费视频| 毛片网站在线免费观看| 欧美日韩综合在线| 女人裸体性做爰全过| 日韩av成人高清| 五月天亚洲综合| jizzjizz少妇亚洲水多| 在线播放国产一区中文字幕剧情欧美 | 都市激情亚洲欧美| 欧美精品久久久久久久| 丰满岳乱妇国产精品一区| 亚洲综合视频在线| 精品久久久久一区二区| 亚洲久久在线| 国产一区二区中文字幕免费看| zzzwww在线看片免费| 亚洲电影免费观看| 看片网址国产福利av中文字幕| 91啦中文在线观看| av五月天在线| 99热在线成人| 国产精品久久久久久免费观看| 久久香蕉av| 精品在线小视频| 337p粉嫩色噜噜噜大肥臀| 国产精品萝li| 丰满人妻一区二区三区大胸| 亚洲三级影院| 日本高清一区| 国产一区二区三区视频在线| 久久久综合免费视频| 女人天堂在线| 在线成人免费视频| 日韩精品一区二区在线播放| 国产午夜精品在线观看| 亚洲制服中文字幕| 99av国产精品欲麻豆| 日韩午夜视频在线观看| 国产精品777777在线播放| 国内精品小视频| 成黄免费在线| 精品国产一区二区三区四区四| 久久久久99精品成人片我成大片| 中文字幕乱码一区二区免费| 欧美熟妇另类久久久久久多毛| 亚洲尤物在线| 中文字幕中文字幕一区三区| av成人在线看| 欧美成人激情在线| 可以在线观看的av| 欧美日韩激情在线| 狂野欧美性猛交| 成人精品电影在线观看| 久久9精品区-无套内射无码| 欧洲乱码伦视频免费| 国产精品免费久久久久影院| 搞黄网站在线看| 国产香蕉97碰碰久久人人| 91影院在线播放| 亚洲一区二区三区四区的| 蜜臀久久99精品久久久久久| 国产乱码精品一品二品| 国模吧无码一区二区三区| 成人在线亚洲| 国模精品娜娜一二三区| 欧美日韩123区| 久久激情视频久久| 人妻少妇精品无码专区久久| 欧美精品在线视频| av黄色在线播放| 亚洲人成精品久久久久| 中文在线永久免费观看| 国产一区在线观看视频| 欧美韩国日本在线| 亚洲欧美在线专区| 久久一区二区精品| 高潮久久久久久久久久久久久久| 国产ts一区二区| 日韩av激情| 伊是香蕉大人久久| 欧美理论在线观看| 日韩精品在线一区二区| 亚洲成人av网址| 亚洲综合另类小说| 91日韩中文字幕| 国产片一区二区三区| 久草视频福利在线| 美女视频一区在线观看| 日日碰狠狠躁久久躁婷婷| 亚洲视频观看| 欧美一级黄色录像片| 日韩欧美精品综合| 欧美日韩国产三区| 欧美jizz19性欧美| 91超碰在线电影| 日韩精品一区二区三区中文| 国产精品视频xxxx| 亚洲成人激情社区| 久久免费精品视频| 欧美一级鲁丝片| 欧美激情视频在线观看| 日本在线人成| 中文字幕欧美视频在线| 亚洲av成人无码网天堂| 精品久久久网站| 国产黄色免费大片| 日韩一区二区三区四区| 国产偷人爽久久久久久老妇app| 亚洲成av人片| 国产无套粉嫩白浆内谢| 亚洲精品视频在线观看免费| 在线看的片片片免费| 亚洲国产精华液网站w| 亚洲 小说 欧美 激情 另类| 国产丝袜美腿一区二区三区| 老司机福利av| 久久综合色婷婷| 免费a级黄色片| 国产清纯在线一区二区www| 亚洲v国产v欧美v久久久久久| 久久午夜国产精品| 国产麻豆xxxvideo实拍| 久久青草国产手机看片福利盒子| 鲁大师私人影院在线观看| 99re这里只有精品视频首页| 37p粉嫩大胆色噜噜噜| 91在线观看下载| 中文字幕av网址| 国产人成一区二区三区影院| 91香蕉视频污在线观看| 中文字幕字幕中文在线中不卡视频| 91传媒免费观看| 亚洲精品欧美二区三区中文字幕| 精品女人久久久| 亚洲人妖av一区二区| 黄色一级片中国| 精品久久久久久久大神国产| 久久午夜免费视频| 色哟哟国产精品| 久久精品偷拍视频| 日韩一二在线观看| 熟妇人妻一区二区三区四区 | 一区二区三区日韩欧美精品| 黄色一级片在线| 精品高清美女精品国产区| 国产精品人人人人| 欧美性猛片xxxx免费看久爱| 97成人在线观看| 日韩精品一区二区三区在线播放 | 国产熟妇搡bbbb搡bbbb| 一区在线观看免费| 动漫精品一区一码二码三码四码| 狠狠操狠狠色综合网| 91片黄在线观看喷潮| 精品国产91乱码一区二区三区| 日本人妖在线| 亚洲日本成人女熟在线观看| 高h视频在线观看| 97视频在线播放| 久久久久久久性潮| 久久综合精品一区| 久久久久久久久99精品大| 欧美乱大交xxxxx潮喷l头像| 蜜臀av性久久久久av蜜臀妖精| 天天操夜夜操很很操| 久久免费精品国产久精品久久久久| 自拍偷拍你懂的| 欧美午夜无遮挡| 国产男女裸体做爰爽爽| 亚洲精美色品网站| 在线你懂的视频| 国产精品国产亚洲伊人久久| 欧美电影院免费观看| 欧美一级爽aaaaa大片| 一区二区蜜桃| 国产偷人视频免费| 精品一区二区在线播放| 人人妻人人澡人人爽人人精品| 国产精品传媒入口麻豆| 西西44rtwww国产精品| 欧美一级一级性生活免费录像| 国产在线免费观看| 久久久久久久国产| 亚洲二区av| 久久av二区| 国内精品久久久久久久影视麻豆 | 黄色免费在线观看网站| 欧美在线观看网站| 开心激情综合| 欧美日韩dvd| 久久电影网站中文字幕| 久久久久久国产免费a片| 精品国产31久久久久久| 国产av无码专区亚洲av| 日韩有码在线电影| 亚洲mmav| 蜜桃999成人看片在线观看| 极品av少妇一区二区| 国产不卡的av| 国产精品理论片| 一级黄色大片免费| 亚洲午夜小视频| 性感美女一区二区在线观看| 久久本道综合色狠狠五月| 欧美日韩免费| 亚洲精品在线网址| 中文字幕av一区 二区| 午夜久久久久久久久久影院| 日韩精品欧美激情| www在线观看黄色| 欧美一区二区三区成人久久片| 99国内精品| 日本黄色录像片| 色综合夜色一区| 日韩精品系列| 97精品国产97久久久久久免费| 欧美xxxx在线| 欧美视频第一区| 91捆绑美女网站| 最近中文字幕在线免费观看| 国产一区二区动漫| 桃色一区二区| 日韩av在线一区二区三区| 久久三级视频| 1024手机在线观看你懂的| 欧美日韩久久久一区| 久cao在线| 亚洲影院色无极综合| 亚洲看片一区| 日本aaa视频| 精品国产电影一区| 91啦中文在线| 91久久久久久久久久久久久| 中文字幕一区二区av| 国产人妖在线观看| 红桃av永久久久| 欧美一级特黄aaaaaa大片在线观看| 亚州欧美日韩中文视频| 最新亚洲精品| 欧美成人手机在线视频| 亚洲一区二区三区四区在线免费观看 | 欧美国产精品| 一起草在线视频| 欧美日韩电影在线| 色婷婷在线播放| 国产偷国产偷亚洲高清97cao| 久久久久99| 影音先锋男人在线| 欧美乱妇一区二区三区不卡视频| 四虎影视成人| 欧美一区三区二区在线观看| 美女一区二区久久|