精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4單項僅得7.1分,揭露大模型代碼能力三大短板,最新基準測試來了

人工智能 新聞
Devin以獨立解決13.86%的問題率高居榜首,“秒殺”了GPT-4僅有的 1.74%得分,將一眾AI大模型遠遠甩在后面。

首個AI軟件工程師Devin正式亮相,立即引爆了整個技術界。

Devin不僅能夠輕松解決編碼任務,更可以自主完成軟件開發的整個周期——從項目規劃到部署,涵蓋但不限于構建網站、自主尋找并修復 BUG、訓練以及微調AI模型等。

這種 “強到逆天” 的軟件開發能力,讓一眾碼農紛紛絕望,直呼:“程序員的末日真來了?”

在一眾測試成績中,Devin在SWE-Bench基準測試中的表現尤為引人注目。

SWE-Bench是一個評估AI軟件工程能力的測試,重點考察大模型解決實際 GitHub 問題的能力。

Devin以獨立解決13.86%的問題率高居榜首,“秒殺”了GPT-4僅有的 1.74%得分,將一眾AI大模型遠遠甩在后面。

這強大的性能讓人不禁浮想聯翩:“未來的軟件開發中,AI將扮演怎樣的角色?”

上海人工智能實驗室聯合字節跳動SE Lab的研究人員以及SWE-Bench團隊,提出了一個新測試基準DevBench首次揭秘大模型在多大程度上可以從PRD出發,完成一個完整項目的設計、開發、測試

圖片

具體地說,DevBench首次對大模型進行了從產品需求文檔(PRD)到完整項目開發各階段表現的評測,包括軟件設計、依賴環境搭建、代碼庫級別代碼生成、集成測試和單元測試。

圖片

實驗證明,DevBench可以揭露GPT、CodeLlama、DeepSeek-Coder 等大語言模型在軟件研發不同階段的能力短板,如面向對象編程能力不足無法編寫較為復雜的構建腳本(build script),以及函數調用參數不匹配等問題。

大語言模型距離可以獨立完成一個中小規模的軟件項目開發還有一段路要走。

目前,DevBench的論文已經發布在預印平臺arXiv,相關代碼和數據開源在GitHub上。(鏈接見文末)

DevBench 有哪些任務?

圖片 圖為DevBench框架概覽

傳統的編程基準測試往往關注代碼生成的某個單一方面,無法全面反映現實世界編程任務的復雜性。

DevBench的出現,打破了這一局限,它通過一系列精心設計的任務,模擬軟件開發的各個階段,從而提供了一個全面評估LLM能力的平臺。

DevBench圍繞五個關鍵任務構建,每個任務都關注軟件開發生命周期的一個關鍵階段,模塊化的設計允許對每個任務進行獨立的測試和評估。

軟件設計:利用產品需求文檔PRD創建UML圖和架構設計,展示類、屬性、關系,以及軟件的結構布局。該任務參考MT-Bench,采用LLM-as-a-Judge的評測方式。評測主要依據兩個主要指標:軟件設計一般原則(如高內聚低耦合等)和忠實度(faithfulness)

環境設置:根據提供的需求文檔,生成初始化開發環境所需的依賴文件。在評測過程中,該依賴文件將在給定的基礎隔離環境(docker container)內通過基準指令進行依賴環境搭建。隨后在這個模型搭建的依賴環境中,該任務通過執行代碼倉的基準示例使用代碼(example usage),評估執行基準代碼的成功率。

代碼實現:依據需求文檔和架構設計,模型需要完成整個代碼庫的代碼文件生成。DevBench開發了一個自動化測試框架,并針對所使用的具體編程語言進行了定制,集成了Python的PyTest、C++的GTest、Java的JUnit和JavaScript的Jest。該任務評估模型生成代碼庫在基準環境中執行基準集成測試和單元測試的通過率。

集成測試:模型根據需求,生成集成測試代碼,驗證代碼庫的對外接口功能。該任務在基準實現代碼上運行生成的集成測試,并報告測試的通過率。

單元測試:模型根據需求,生成單元測試代碼。同樣,該任務在基準實現代碼上運行生成的單元測試。除了通過率指標外,該任務還引入了語句覆蓋率評價指標,對測試全面性的進行定量評估。

圖片

DevBench 包含哪些數據?

DevBench數據準備過程包括三個階段:倉庫準備、代碼清理和文檔準備。

  • 在準備階段,研究人員從GitHub中選擇高質量的倉庫,確保它們的復雜性可管理。
  • 在代碼清理階段,標注人員驗證代碼的功能性,對其進行精煉,并補充和運行測試以確保質量。
  • 文檔準備階段涉及為倉庫創建需求文檔、 UML圖和架構設計。

最終,DevBench的數據集包含4個編程語言,多個領域,共22個代碼庫。這些代碼倉庫的復雜性和所使用編程范式的多樣性為語言模型設置了巨大的挑戰。

圖片

幾個有趣的例子:

TextCNN

大模型能完整地寫一個TextCNN做文本二分類的模型嗎?能夠自己把數據集從HF拉下來,把訓練跑起來是基本要求。還需模型按照文檔的需求定制超參數、記錄log、存儲checkpoint、同時保證實驗可復現性。

(https://github.com/open-compass/DevBench/tree/main/benchmark_data/python/TextCNN)

Registration & Login

前端項目往往依賴較多的組件庫和前端框架,模型是否能夠在可能出現版本沖突的前端項目中應對自如?

(https://github.com/open-compass/DevBench/tree/main/benchmark_data/javascript/login-registration)

People Management

模型對SQLite數據庫的創建和管理掌握的怎么樣?除了基本的增刪改查操作,模型能否將校園人員信息和關系數據庫的管理和操作封裝成易用的命令行工具?

(https://github.com/open-compass/DevBench/tree/main/benchmark_data/cpp/people_management)

Actor Relationship Game

“六度分隔理論”在影視圈的猜想驗證?模型需要從TMDB API獲取數據,并構建流行演員們之間通過合作電影進行連接的人際連系網。

(https://github.com/open-compass/DevBench/tree/main/benchmark_data/java/Actor_relationship_game)

ArXiv digest

ArXiv論文檢索小工具也被輕松拿捏了?ArXiv的API并不支持“篩選最近N天的論文”的功能,但卻可以“按發表時間排序”,模型能夠以此開發一個好用的論文查找工具嗎?

(https://github.com/open-compass/DevBench/tree/main/benchmark_data/python/ArXiv_digest)

實驗發現

研究團隊利用DevBench對當前流行的LLMs,包括GPT-4-Turbo進行了全面測試。結果顯示,盡管這些模型在簡單的編程任務中表現出色,但在面對復雜的、真實世界的軟件開發挑戰時,它們仍然遇到了重大困難。特別是在處理復雜的代碼結構和邏輯時,模型的性能還有待提高。

圖片

DevBench不僅揭示了現有LLMs在軟件開發中的局限性,也為未來模型的改進提供了寶貴的洞見。通過這一基準測試,研究人員可以更好地理解 LLMs的強項和弱點,從而有針對性地優化它們,推動AI在軟件工程領域的進一步發展。

此外,DevBench 框架的開放性和可擴展性意味著它可以持續適配不同的編程語言和開發場景。DevBench 還在發展過程中,非常歡迎社區的朋友參與共建。

Devin 在 SWE-Bench 上一路領先,它的優異表現可以擴展到其他評測場景嗎?隨著 AI 軟件開發能力的持續發展,這場碼農和 AI 的較量讓人倍感期待。

還有OpenCompass大模型評測體系

DevBench現已加入OpenCompass司南大模型能力評測體系,OpenCompass是上海人工智能實驗室研發推出的面向大語言模型、多模態大模型等各類模型的一站式評測平臺。

OpenCompass具有可復現、全面的能力維度、豐富的模型支持、分布式高效評測、多樣化評測范式以及靈活化拓展等特點。基于高質量、多層次的能力體系和工具鏈,OpenCompass 創新了多項能力評測方法,支持各類高質量的中英文雙語評測基準,涵蓋語言與理解、常識與邏輯推理、數學計算與應用、多編程語言代碼能力、智能體、創作與對話等多個方面,能夠實現對大模型真實能力的全面診斷。DevBench更是拓寬了 OpenCompass 在智能體領域的評測能力。

DevBench論文:https://arxiv.org/abs/2403.08604
GitHub:https://github.com/open-compass/devBench/
OpenCompass https://github.com/open-compass/opencompass

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-07-05 09:57:11

2023-08-11 13:15:35

ChatGPTMBTIGPT-4

2024-02-04 12:22:47

AI數據

2025-05-26 08:33:00

2024-01-30 21:18:57

模型智能CMMLU

2023-08-24 13:59:57

模型數據

2024-03-01 11:58:26

MLLMs大語言模型人工智能

2025-06-10 09:10:00

2023-09-19 13:48:31

AI數據

2024-01-16 12:31:13

OpenAIGLM-4大模型

2023-06-21 13:37:41

模型研究

2023-06-05 12:32:48

模型論文

2023-12-09 14:30:50

2023-03-16 19:17:57

2023-04-28 15:27:06

微軟模型

2024-01-15 00:19:24

2024-02-27 16:30:37

OpenAIGPT-4Mistral AI

2023-12-18 15:16:47

數據模型

2024-04-19 14:52:13

MetaGPT-4模型

2023-10-21 12:42:06

數據模型
點贊
收藏

51CTO技術棧公眾號

亚洲国产私拍精品国模在线观看| 亚洲激情欧美激情| 国产精品久久久久久av下载红粉| 日本视频在线免费| 视频一区视频二区欧美| 精品久久久久久国产91| 亚洲国产一区在线| 好男人在线视频www| 视频一区二区三区在线| 欧美成年人视频网站| 久久精品国产亚洲av久| 精品一区二区三区亚洲| 精品国产乱码久久久久久天美| 香蕉久久免费影视| 黄色一级大片在线免费看国产一| 日韩av一区二区三区| 欧美国产日韩一区| 农村老熟妇乱子伦视频| 美女福利一区| 制服丝袜日韩国产| 国产成人av影视| 青草影视电视剧免费播放在线观看| 2023国产一二三区日本精品2022| 91精品在线一区| 亚洲欧美偷拍视频| 黄色在线成人| 久久九九热免费视频| 波多野结衣一本| 97品白浆高清久久久久久| 欧美无人高清视频在线观看| 日韩精品一区二区免费| 免费在线观看黄| 久久久久久久久久久久久夜| 国产精品一区二区三区精品| 国产精品视频一区二区三区,| 国产日韩欧美一区| 久久久久久久一区二区三区| 女同久久另类69精品国产| 久久av电影| 日韩大陆毛片av| 久久性爱视频网站| jazzjazz国产精品麻豆| 日韩久久久久久| 日本在线视频播放| 精品国产一区二区三区2021| 欧美亚洲禁片免费| 亚洲一二三区av| 台湾佬成人网| 日韩欧美在线一区| 丁香啪啪综合成人亚洲| 国产免费不卡| 欧美综合一区二区| 国产xxxxx视频| 先锋欧美三级| 欧美日韩在线综合| 欧美日韩一区二区三区69堂| 国产一区二区三区四区五区3d| 91久久香蕉国产日韩欧美9色| 国产精品丝袜久久久久久消防器材| 超碰99在线| 欧美日韩精品在线| 人妻熟女一二三区夜夜爱| 亚洲第一二三四区| 欧美午夜片在线看| 中文字幕在线观看日| 日韩黄色碟片| 日韩免费一区二区三区在线播放| 国产精品偷伦视频免费观看了| 这里视频有精品| 亚洲国产成人在线视频| 37p粉嫩大胆色噜噜噜| 国产欧美日韩| 久久久极品av| 国产一二三四在线| 亚洲一区二区三区四区五区午夜 | 樱花www成人免费视频| 免费黄网在线观看| 亚洲一区二区三区三| 日韩欧美视频网站| 成人精品一区二区三区电影| 这里只有精品99re| 波多野结衣视频播放| 美女久久久久| 久久九九热免费视频| 日韩美女视频网站| 欧美精品在欧美一区二区| 蜜桃av在线| 欧美日韩国产美女| 亚洲视频 中文字幕| 精品国产一区二区三区香蕉沈先生 | 亚洲精品ww久久久久久p站| 久草免费福利在线| 成人全视频免费观看在线看| 日韩一区二区不卡| 三上悠亚影音先锋| 欧美 日韩 国产一区二区在线视频| 国内精品久久久久久中文字幕| 91丨九色丨尤物| 国产日韩欧美中文在线播放| 高h震动喷水双性1v1| 国产亚洲精品精华液| 欧洲精品视频在线| 成人视屏在线观看| 精品国产91洋老外米糕| www亚洲色图| 亚洲久久在线| 91香蕉国产在线观看| 欧美人体大胆444www| 亚洲欧美另类综合偷拍| 国内外成人免费激情视频| 国产色99精品9i| 亚洲情综合五月天| 国产第一页在线播放| 久久99精品久久久| 欧美人与性禽动交精品| 日韩激情av| 欧美日韩国产综合草草| 熟妇高潮精品一区二区三区| 欧美1区视频| 国产精品日韩专区| 撸视在线观看免费视频| 亚洲韩国一区二区三区| 精品国产鲁一鲁一区二区三区| 国产一区二区三区四区二区 | 97超碰人人看人人| av免费在线一区二区三区| 亚洲r级在线视频| 亚洲欧美激情一区二区三区| 97久久视频| 国产精品三级美女白浆呻吟| 日韩专区一区二区| 天涯成人国产亚洲精品一区av| 亚欧精品在线视频| 亚洲一区欧美| 91香蕉嫩草影院入口| 日本美女在线中文版| 精品视频在线免费看| 亚洲第一综合网| 日韩成人一区二区| 日韩欧美精品久久| 台湾成人免费视频| 国产亚洲精品久久久优势| 欧美一区二区三区不卡视频| 91在线视频在线| 黄色一级片播放| 欧美一区二区三区红桃小说| 性欧美xxxx视频在线观看| 国产成人三级在线观看视频| 亚洲一二三区不卡| av电影在线播放| 99在线精品视频在线观看| 精品久久久久久中文字幕动漫 | 国产裸体写真av一区二区| 国产h视频在线观看| 欧美影视一区二区三区| 99久久99久久精品免费看小说.| 奇米亚洲午夜久久精品| 一区二区高清视频| 精品国产不卡一区二区| 欧美极度另类性三渗透| 色婷婷av一区二区三区之e本道| 天天色天天操综合| 人妻体内射精一区二区| 奇米精品一区二区三区在线观看 | 日韩免费电影一区| 国产成人免费观看视频| 国产亚洲欧美色| 9l视频白拍9色9l视频| 外国成人激情视频| 国产99在线免费| 国产高潮在线| 中文字幕亚洲欧美| 国产成人三级在线播放| 午夜精品免费在线| 99精品全国免费观看| 国产一区二区三区综合| 免费在线观看视频a| 精品久久久久久久久久久aⅴ| 国产一区二区在线播放| h片视频在线观看| 亚洲视频网站在线观看| 99产精品成人啪免费网站| 五月天激情综合| 日本黄色激情视频| 丁香婷婷综合五月| 最近免费中文字幕中文高清百度| 亚洲色图88| 欧美一区二区三区在线免费观看| 日韩久久一区| 欧美亚洲国产精品| 国产在线看片| 国产视频精品xxxx| 国产又粗又猛又爽又黄的视频一 | 国产免费一区二区三区四区五区| 中文字幕在线不卡| 一区二区三区免费在线观看视频| 久久99精品久久久久久久久久久久 | 精品美女在线观看视频在线观看| 亚洲精品一区二区精华| 91福利在线观看视频| 天天影视涩香欲综合网| 三上悠亚作品在线观看| 91丨porny丨最新| 麻豆传媒在线看| 日韩成人一区二区| 国产网站免费在线观看| 久久久久久久久久久久久久| 免费精品视频一区二区三区| 欧美经典一区| 国产精品免费福利| 成人性生活视频| 久久久亚洲天堂| av在线官网| 中文字幕日韩在线播放| 涩爱av在线播放一区二区| 欧美大片一区二区三区| 夜夜骚av一区二区三区| 色香色香欲天天天影视综合网| 久久视频免费看| 亚洲女爱视频在线| 蜜桃av免费在线观看| 久久精品一二三| 免费成人深夜夜行p站| 成人激情校园春色| aaaaaaaa毛片| 精品一区二区在线免费观看| 日韩免费高清在线| 六月婷婷一区| 国产日韩一区二区在线| 亚洲人成免费| 欧美 日韩 亚洲 一区| 午夜天堂精品久久久久| 致1999电视剧免费观看策驰影院| 精品国产一区二区三区香蕉沈先生 | 午夜免费久久久久| 精品日韩av| 久久久天堂国产精品女人| 黄网站在线观| 国内精品视频一区| 成人bbav| 欧美一区二区色| 欧洲一区二区三区精品| 青草青草久热精品视频在线观看| 白浆在线视频| 欧美制服第一页| 波多视频一区| 日韩av高清不卡| 欧美亚洲大片| 国产精品综合网站| 97色婷婷成人综合在线观看| 成人国产精品久久久| 国产一区二区三区黄网站| 91在线观看免费观看| 成人在线日韩| 国产福利久久精品| 日韩精品免费一区二区三区竹菊| 久久精品成人一区二区三区蜜臀| 久久av免费| 亚洲一区二三| 欧美日韩国产色综合一二三四| 亚洲色婷婷久久精品av蜜桃| 欧美三区视频| 97视频在线免费播放| 奇米精品一区二区三区在线观看| 制服丝袜中文字幕第一页| 国产一区二区不卡在线| 久久久久亚洲av成人网人人软件| 成人高清视频免费观看| 少妇真人直播免费视频| 中文在线资源观看网站视频免费不卡 | 亚洲精品一区二区三区四区 | 97在线观看免费观看高清| 日韩在线观看网站| 丝袜综合欧美| 欧美在线免费视频| 黄色欧美视频| 国产日韩一区欧美| 国产成人黄色| 日本一本草久p| 国产亚洲一区在线| 国产三级国产精品国产专区50| 国产精品99精品久久免费| 亚洲国产精品自拍视频| 国产精品欧美一级免费| 国产真人真事毛片| 欧美在线综合视频| 蜜桃av噜噜一区二区三区麻豆| 亚洲欧美国产精品专区久久| 黄色av电影在线观看| 2019最新中文字幕| www久久久| 欧美精品亚洲精品| 欧美成人一品| 99视频在线免费| 国产成人免费网站| 成人性生交大片免费看无遮挡aⅴ| 一区2区3区在线看| 中文天堂在线播放| 亚洲成年人影院在线| 欧美成人三区| 欧美自拍视频在线| caoporn成人| 一本色道婷婷久久欧美| 亚洲欧美日本日韩| 国内自拍偷拍视频| 国产精品视频观看| 欧美啪啪小视频| 欧美sm美女调教| 日本三级在线视频| 国产精品电影在线观看| 久久久久久毛片免费看| 日韩人妻精品一区二区三区| 日韩专区一卡二卡| 在线观看av中文字幕| 亚洲综合色区另类av| 一本色道久久综合精品婷婷| 亚洲少妇中文在线| av中文字幕在线看| 91黄色国产视频| 天天揉久久久久亚洲精品| 狠狠操精品视频| 91美女片黄在线观看| 久久免费小视频| 日韩欧美你懂的| av片哪里在线观看| 成人黄色影片在线| 欧美大人香蕉在线| 欧美黄色性生活| 国产亚洲污的网站| 男人天堂视频网| 亚洲欧美在线磁力| 一二三四视频在线中文| 久草精品电影| 日韩亚洲国产精品| 欧美夫妇交换xxx| 亚洲妇熟xx妇色黄| 亚洲经典一区二区三区| 欧美日韩成人免费| 96视频在线观看欧美| 欧美 日韩 国产 在线观看| 美女视频第一区二区三区免费观看网站 | 国产精品国产三级在线观看| 一区二区三区国产福利| 免费看精品久久片| 91ts人妖另类精品系列| 欧美日韩一区小说| 午夜视频在线观看网站| 成人福利视频网| 911久久香蕉国产线看观看| 91亚洲一区二区| 亚洲自拍与偷拍| 手机在线不卡av| 亲子乱一区二区三区电影| 国产在视频线精品视频www666| 宅男噜噜噜66国产免费观看| 中文一区一区三区高中清不卡| 中文字幕+乱码+中文字幕明步| 神马久久久久久| 成人在线视频国产| 99er在线视频| 91亚洲精品久久久蜜桃网站| 无码人妻一区二区三区线| 中文字幕亚洲第一| 欧美影院在线| aa在线免费观看| 日本一区二区三级电影在线观看 | 人人妻人人做人人爽| 91视视频在线直接观看在线看网页在线看 | 亚洲理论电影网| 91精品又粗又猛又爽| 色一情一乱一乱一91av| 黄色网页在线观看| 国产精品一区二区三区免费| 日韩中文字幕91| www青青草原| 亚洲欧美另类人妖| 综合欧美精品| 精品这里只有精品| 国产精品网站导航| 亚洲av无码片一区二区三区| 欧美亚洲另类在线| 天天操夜夜操国产精品| 少妇一级淫片免费放播放| 欧美性一级生活| 欧美hdxxxx| 亚洲午夜精品久久久中文影院av | 不卡一卡2卡3卡4卡精品在| 亚洲综合日本| 91嫩草|国产丨精品入口| 精品一区二区三区电影| 99精品国产九九国产精品| 日本韩国欧美在线观看| 国产精品成人网| 日本ー区在线视频| 91久久国产综合久久蜜月精品 | 手机在线视频一区| 欧美日韩国产精品专区| 高清免费电影在线观看| 欧美日韩高清免费| 成人精品小蝌蚪|