精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

CodeAgent 2.0 時代開啟|GitTaskBench,顛覆性定義代碼智能體實戰交付新標準

人工智能 新聞
為突破現有評測局限,中科院、北大、港科大、中科大、新加坡國立大學等機構的研究者,與前沿開源學術組織 QuantaAlpha 及階躍星辰姜大昕團隊聯合,首次提出并開源了 repo-level 的測評新范式 GitTaskBench。

你是否也好奇過:現在的模型在各類榜單分數都那么高,實際體驗卻不符預期?

我們也看過各種 AI Coding 領域的評測,發現大多停留在了 「代碼生成」與「封閉題目」的考核,卻忽視了環境配置、依賴處理、跨倉庫資源利用等開發者必經的真實需求 —— 當下眾多 Benchmark 僅通過題目,已難以衡量 Code Agent 的實際效果。

為突破現有評測局限,中科院、北大、港科大、中科大、新加坡國立大學等機構的研究者,與前沿開源學術組織 QuantaAlpha 及階躍星辰姜大昕團隊聯合,首次提出并開源了 repo-level 的測評新范式 GitTaskBench:

1)真正考察 Agent 從 倉庫理解 → 環境配置 → 增量開發 / 代碼修復 → 項目級交付 的全鏈路能力,指引了迭代新范式

2)首次把「框架 × 模型」的「經濟收益」納入評測指標,給學界、業界以及創業者都帶來了很好的思路啟發

  • 論文標題:GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging
  • 論文地址:https://arxiv.org/pdf/2508.18993
  • GitHub 鏈接:https://github.com/QuantaAlpha/GitTaskBench

GitTaskBench 分布一覽

其開源版覆蓋了 7 大模態 × 7 個領域 × 24 個子領域及 54 個真實任務:

對應后端倉庫 18 個,包含平均 204 個文件、1,274.78 個函數、52.63k 行代碼,文件彼此引用依賴平均為 1242.72 次。

且每個任務都綁定了完整 GitHub 倉庫 + 自然語言指令 + 明確輸入輸出格式 + 任務特定的自動化評測。

以下圖片統計了 GitTaskBench 的領域與模態分布,包括相應的數量。

倉庫級的端到端評測的構建

首先從能力角度,GitTaskBench 對 Code Agent 進行了三個維度的分析:

1. 整體編碼掌控:讀文檔、解依賴、生成 / 修改 / 調試代碼

2. 任務導向執行:多輪推理與工具使用,產物必須貼合任務交付,利用代碼倉庫但不局限于倉庫

3. 自主環境配置:不借助預置鏡像,獨立裝環境 / 解依賴

下圖是從倉庫收集到任務測評的全流程概覽

整體主要經過四個階段:

1. 「倉庫遴選」:結合文獻綜述、LLM 輔助檢索和專家咨詢,先定任務范圍;再從 Python 倉庫里,挑出 ?≥50、近五年活躍、依賴可用且易配置的候選。人工核驗 Stars、Forks、許可證、提交歷史,確保資源靠譜。

2. 「完備性驗證」:包括必要依賴文件、配置文件、所需數據集和預訓練模型。嚴格按文檔跑通,確保 100% 人類可復現;若遇到資源門檻 / 外鏈阻斷,將必要信息放進到 README,充分保證自包含所有必要信息。

3. 「執行框架設計」:統一清晰的任務定義、輸入 / 輸出規范;Agent 接收倉庫 + 任務提示,需完成倉庫理解 → 代碼生成 / 修改 → 環境安裝 → 代碼執行的多階段流程。

4. 「自動化評測」:我們實現了一套由人工驗證的定制化測試腳本驅動的評測指標體系。所有任務只需一條命令自動評測,可直接產出各任務對應的成功 / 失敗狀態 + 詳細原因,并可進行指標統計。

實在的經濟可行性分析

其次,GitTaskBench 還首次提出了「性價比」的概念,結合以下指標:

  • ECR(Execution Completion Rate):能否成功執行倉庫并以合規格式輸出(存在、非空、格式可解析)
  • TPR(Task Pass Rate):按任務領域標準判定是否達到成功閾值(如語音增強 PESQ ≥2.0 / SNR ≥15dB;圖像類 SSIM/FID 閾值等),不過線即失敗。
  • α 值(Alpha Practical Value):該值為 Agent 在執行任務的平均凈收益 —— 把完成度 (T)、市場價 (MV)、質量系數 (Q) 和成本 (C) 融合,回答「這活交給這個 Agent 值不值」的切實問題,具體公式:

  • n 表示任務數量;
  • T 為任務成功的二元標記(與 ECR 定義一致,成功為 1,失敗為 0);
  • MV 表示人工完成該任務的市場價值估計;
  • Q 為質量系數(0 至 1 之間),表示智能體輸出與人工執行同一倉庫所得結果的接近程度;
  • C 為智能體的總運行成本(此處近似為 API 費用)。

這很好地反映了 Agent 方案在各領域的經濟可行性,通過量化任務自動化與可擴展性帶來的成本節省、效率提升及潛在市場收益,真正地評估了 Agent 落地的實際價值。

結果一覽:框架與模型的耦合

在適配了主流框架與模型之后,我們實驗發現:

  • OpenHands 整體最強,+ Claude 3.7 拿到最高成績:ECR 72.22% / TPR 48.15%。
  • 性價比之王? GPT-4.1 在成功率次優的同時,成本僅為 Claude 的 1/10 ~ 1/30(OpenHands 設定下),在 SWE-Agent 中也以更低成本拿到亞軍表現。
  • 開源可用性:Qwen3-32B(think 模式) 能以更少 token 達到 Claude 3.5 的約 60% 水平。
  • 任務偏好:純文本 / 辦公文檔類穩定,多模態、模型推理密集型更難(如圖像修復需多依賴與權重配置)。

更細致地分析,各任務領域下不同框架 + 模型的性能表現:

此外,能力之上的現實價值也值得關注:

雖然在人類市場價值(MV)本身較高的倉庫(如 視頻類 VideoPose3D 、語音類 FunASR 、時序生理信號類 NeuroKit 場景)中,只要 Agent 順利完成任務,就能獲得最大的正向 alpha 收益。

但對于低 MV 的圖像處理等任務(MV≈$5–10),一旦智能體的平均執行成本超過 $1-2,往往會導致 alpha 為負。

這一規律凸顯了:在商業潛力有限的任務中,控制運行成本對于確保經濟可行性至關重要。

其中,對于不同模型:

  • DeepSeek V3 在大多數倉庫中提供了最高的整體收益與最佳的性價比;
  • GPT-4.1 在不同場景下表現更加穩定與穩健,很少出現大幅性能下降的情況;
  • Claude 3.5 的收益分布最為分散,在信息抽取任務上表現突出,但在計算量較大的視覺類任務中對成本較為敏感。

總結

由此可見,現實中我們對「框架 × 模型」的選擇,應從效果、成本、API 調用上進行三元權衡,例如:Claude 系列在代碼類任務表現出色,但在很多場景下 GPT-4.1 更省錢且穩健,而開源模型可在特定倉庫上取得更好的綜合 α。

在以下更廣泛應用場景,我們也可以直接用 GitTaskBench 來助力:

  • Agent infra:做基座對比、工作流改進(環境管理 / 依賴修復 / 入口識別 / 執行規劃)的回歸測試場。
  • 應用落地評審:以 ECR/TPR/α 同時衡量「能不能交付」與「劃不劃算」,給 PoC / 上線決策提供可解釋的三維證據。
  • 任務設計素材庫:跨圖像 / 語音 / 生理信號 / 辦公文件 / 爬蟲等七模態任務,可直接復用作為企業內評測用例。


責任編輯:張燕妮 來源: 機器之心
相關推薦

2013-04-07 15:51:35

2013-08-28 10:39:45

視覺設計顛覆性思維設計

2025-08-06 07:00:00

CIOIT路線圖企業

2022-07-01 05:47:19

PyCharm插件開發

2023-02-02 11:17:44

數據中心運營商集群

2018-01-04 14:50:56

2015-12-29 14:43:41

混合云云交付模式云的預測

2013-08-20 10:05:39

Windows Azu微軟創投云平臺

2013-03-27 15:58:36

思科硅光子技術SDN

2011-10-17 14:10:54

云計算服務器

2013-05-27 10:46:05

移動互聯網自動化物聯網

2013-02-26 13:21:33

SDN網絡世界軟件定義網絡

2014-11-27 17:10:46

身份認證認知指紋生物識別

2015-06-29 10:28:39

Home交互設計蘋果

2025-07-14 08:50:00

語言模型AI論文

2013-11-27 10:35:14

大數據+云顛覆科技

2019-02-21 00:06:57

物聯網IOT技術

2022-01-10 09:25:22

智能家電HCA物聯網

2020-05-06 11:07:47

人工智能營銷行業AI
點贊
收藏

51CTO技術棧公眾號

亚州av一区二区| 欧美日韩国产成人在线免费| 国产精品乱码一区二区三区| 久久久无码一区二区三区| 白嫩白嫩国产精品| 欧美日韩亚洲91| 天堂资源在线亚洲资源| 91久久精品无码一区二区| 欧美 日韩 国产一区二区在线视频| 欧美一区二区成人| 人妻av中文系列| 天天综合天天综合| 久久久噜噜噜久久狠狠50岁| 中文字幕精品久久| 亚洲性图第一页| 俺来也官网欧美久久精品| 久久影院午夜片一区| 国产日韩欧美成人| 日本五十熟hd丰满| 精品毛片免费观看| 日韩无一区二区| 成人小视频在线看| 黄色片网站在线| 91免费观看视频| 91在线观看免费网站| 天天综合网入口| 久久久久久久黄色片| 精品久久毛片| 午夜欧美大尺度福利影院在线看| 日韩欧美亚洲日产国产| 亚洲国产福利视频| 蜜桃av噜噜一区| 欧美黄网免费在线观看| www.av天天| 国产精品久一| 色婷婷激情一区二区三区| 日韩欧美视频免费在线观看| 成人高清网站| 99久久伊人精品| 96国产粉嫩美女| 国产真人无遮挡作爱免费视频| 黄色av成人| 久久久国产精品一区| 亚洲午夜福利在线观看| 国产在线播放精品| 欧美一激情一区二区三区| 日日碰狠狠丁香久燥| 日本h片在线| 日韩美女视频一区二区| 欧美韩国日本精品一区二区三区| 丰满人妻一区二区| 韩国v欧美v亚洲v日本v| 日产日韩在线亚洲欧美| 日韩精品在线免费看| 天天影视综合| 中文字幕欧美视频在线| 午夜理伦三级做爰电影| 欧美性生活一级片| 精品国产不卡一区二区三区| 日本黄色www| 国产精品99久久免费| 欧美精三区欧美精三区 | 亚洲最新色图| 中文字幕亚洲精品| 亚洲精品色午夜无码专区日韩| 九色丨蝌蚪丨成人| 日韩一二在线观看| 日本在线视频播放| 在线日韩三级| 欧美乱熟臀69xxxxxx| 老司机午夜性大片| 亚洲福利影视| 91精品一区二区三区在线观看| 亚洲免费av一区| 伊人久久精品| 91精品中文字幕一区二区三区| 999久久久精品视频| 日日夜夜精品| 日韩欧美在线123| 中文字幕在线播放一区二区| 亚洲高清999| 精品日韩欧美一区二区| 中国黄色片视频| 香蕉久久夜色精品国产使用方法 | 久久一级免费视频| 国产精品久久久久久久久妇女| 中文字幕日韩欧美在线| 国产精品免费在线视频| 亚洲精品久久| 免费91麻豆精品国产自产在线观看| 国产黄色小视频网站| 欧美在线网站| 欧美亚洲在线播放| 波多野结衣理论片| 久久精品999| av一区观看| 天天操天天干天天操| 不卡的看片网站| 免费成人深夜夜行视频| 国产成人天天5g影院在线观看| 国产精品九色蝌蚪自拍| 成人免费在线视频播放| 捆绑调教日本一区二区三区| 在线观看网站黄不卡| 日韩av一卡二卡三卡| jizz性欧美2| 亚洲天堂男人天堂| 唐朝av高清盛宴| 亚洲伊人网站| 国产一区视频在线| 成人毛片在线精品国产| 国产欧美一区二区精品仙草咪| 中文字幕一区二区三区四区五区人 | 大桥未久女教师av一区二区| 制服.丝袜.亚洲.中文.综合| 免费在线观看成年人视频| 欧美一区二区| 成人激情在线播放| 超碰97在线免费观看| 午夜影院久久久| 免费欧美一级片| 欧美疯狂party性派对| 日韩美女激情视频| 日本波多野结衣在线| 亚洲欧美电影一区二区| 黑森林精品导航| 久久99国内| 97国产精品视频| 亚洲av色香蕉一区二区三区| 中文字幕日韩一区| 少妇一级淫免费放| 欧美女优在线视频| 午夜精品三级视频福利| www.日韩在线观看| 依依成人精品视频| 乳色吐息在线观看| 一区二区三区国产精华| 国产日韩欧美中文在线播放| 成人在线免费电影| 在线观看成人免费视频| xxx在线播放| 日韩电影一区二区三区四区| 欧美二区在线看| 日韩av大片站长工具| 国产丝袜精品视频| 天堂а√在线中文在线新版| 91麻豆精品视频| 青青草原av在线播放| 伊甸园亚洲一区| 国产成人精品久久亚洲高清不卡| 国产小视频免费在线观看| 色偷偷成人一区二区三区91| a天堂中文字幕| 日本强好片久久久久久aaa| 无码免费一区二区三区免费播放| 福利一区视频| 久久久久99精品久久久久| 国产免费叼嘿网站免费| 亚洲精选免费视频| 国产av一区二区三区传媒| 亚洲理伦在线| 欧美一区2区三区4区公司二百| 四虎4545www精品视频| 中文字幕亚洲欧美日韩高清 | 精品极品在线| 日韩av在线免费看| 黄色片视频免费| 国产精品国产三级国产普通话99 | 一区二区三区四区精品视频| 久久久久国产一区二区三区| 污污视频在线免费看| 色老头久久综合| 国产美女高潮视频| 成人小视频在线| 精品视频一区二区在线| 久久久影院免费| 99精品99久久久久久宅男| 爱情岛亚洲播放路线| 日韩大陆欧美高清视频区| 亚洲av无码精品一区二区| 自拍偷自拍亚洲精品播放| 中文字幕天堂av| 日韩电影在线一区二区三区| 亚洲一区 在线播放| 久久av国产紧身裤| 国产精品美女免费| 美洲精品一卡2卡三卡4卡四卡| 国产视频自拍一区| 国产麻豆精品一区| 欧美日韩在线免费| 极品久久久久久| 91年精品国产| 污免费在线观看| 久久亚洲视频| 欧美激情亚洲天堂| 成人网18免费网站| 国产精品9999久久久久仙踪林| 在线一区视频观看| 欧美日韩成人黄色| 成人在线免费观看| 亚洲国产精品字幕| 国产一区二区在线不卡| 欧美日韩亚洲天堂| 婷婷在线精品视频| 国产日韩一级二级三级| 亚洲国产精品第一页| 久久电影网电视剧免费观看| 日韩网站在线免费观看| 欧美国产美女| 日本高清视频一区二区三区| 8x国产一区二区三区精品推荐| 国产精品久久久久久久7电影| 欧美xxxxhdvideosex| 色吧影院999| 高清国产福利在线观看| 亚洲黄页视频免费观看| 国产免费黄色大片| 欧美日韩亚洲另类| 天干夜夜爽爽日日日日| 亚洲成在线观看| 国产这里有精品| 中文字幕一区二| 久久久久久久毛片| 久久综合久久综合久久| 黄色在线免费播放| 国产精品69久久久久水密桃| 日本激情视频在线播放| 久久精品一区二区三区中文字幕| 久久综合久久网| 午夜激情一区| 最新视频 - x88av| 欧美岛国激情| 在线观看福利一区| 日本在线电影一区二区三区| 日本一区视频在线播放| 婷婷激情久久| 精品午夜一区二区三区| 国产精品自在| 国产伦精品一区二区三区四区免费| 欧美欧美在线| 51国偷自产一区二区三区的来源| 黄色精品视频网站| 国产精品 欧美在线| 春暖花开亚洲一区二区三区| 日韩av片永久免费网站| 最近在线中文字幕| 热re91久久精品国99热蜜臀| 天堂在线中文网官网| 国产91av在线| 欧美电影免费观看网站| 日本免费久久高清视频| 在线国产成人影院| 国产精品中文久久久久久久| 电影一区二区| 成人免费视频网址| 国产精品视频首页| av一区二区三区免费| 国产主播性色av福利精品一区| 国产综合动作在线观看| 丝袜连裤袜欧美激情日韩| 明星裸体视频一区二区| 精品美女久久| 中文字幕一区二区三区5566| 亚洲综合五月| 性欧美大战久久久久久久| 在线 亚洲欧美在线综合一区| 国产中文字幕免费观看| 日韩不卡在线观看日韩不卡视频| 国产精品区在线| 国产成人免费视频网站高清观看视频| 亚洲性图第一页| 2021中文字幕一区亚洲| 五月婷六月丁香| 一区二区三区在线视频免费观看| 黄色小说在线观看视频| 一本色道久久综合亚洲aⅴ蜜桃| 国产精品露脸视频| 日韩三级免费观看| 亚洲 国产 欧美 日韩| 中文字幕亚洲欧美| 丁香花在线观看完整版电影| 琪琪第一精品导航| 国产精品va视频| 久久久久久高清| 久久亚洲在线| 美女日批免费视频| 久久国产夜色精品鲁鲁99| 成人欧美精品一区二区| 国产日产精品一区| a级片在线观看免费| 欧美性xxxx在线播放| 91福利在线观看视频| 日韩精品小视频| 国产三区在线观看| 91av中文字幕| 粉嫩一区二区三区在线观看| 精品欧美一区二区在线观看视频| 日韩国产欧美| 国产淫片免费看| 国产精品一区二区三区四区| 国产真实乱人偷精品人妻| 一区二区在线观看免费视频播放| 三级网站在线播放| 亚洲精品一区二区精华| 毛片免费不卡| 国产成人久久久精品一区| 视频欧美一区| 亚洲午夜在线观看| 久久精品成人| 91九色蝌蚪porny| 亚洲欧美一区二区三区极速播放| 欧美黄色一级大片| 亚洲第一精品久久忘忧草社区| 免费在线看a| 国产成一区二区| 开心激情综合| 国产av熟女一区二区三区| 久久99久国产精品黄毛片色诱| 国产肥白大熟妇bbbb视频| 午夜不卡av免费| 高h震动喷水双性1v1| 操日韩av在线电影| 欧美少妇激情| 亚洲成人在线视频网站| 美女精品一区| 久久精品一区二区免费播放| 性感美女久久精品| 亚洲精品字幕在线| 欧美黄色三级网站| 亚洲高清999| 屁屁影院ccyy国产第一页| 国产乱子轮精品视频| 国产稀缺精品盗摄盗拍| 欧美美女视频在线观看| 日韩专区在线| 国产日韩中文字幕在线| 精品99在线| 日本激情视频在线| 国产欧美日韩综合| 99re热视频| 正在播放国产一区| 国产成+人+综合+亚洲欧美| 少妇特黄a一区二区三区| 视频一区在线播放| 免费看91的网站| 欧美图区在线视频| 亚洲麻豆精品| 国产精品一区二区久久久| 成人在线亚洲| 亚洲色图欧美自拍| 亚洲综合色区另类av| 黄色www视频| 97视频在线观看视频免费视频| 久久狠狠久久| 黄色影院一级片| 久久久99久久| 伊人色综合久久久| 久久国产天堂福利天堂| 日韩中文字幕无砖| 成人在线观看你懂的| 91日韩在线专区| 黄色污污视频软件| 日韩视频在线免费| 亚洲国产高清在线观看| 欧美日韩不卡在线视频| av网站免费线看精品| 99精品人妻国产毛片| 最近2019中文字幕在线高清| 成人污版视频| 日韩中文字幕在线免费| 国产拍欧美日韩视频二区| 92久久精品一区二区| 久久国产精品视频| 青青草原在线亚洲| 污视频免费在线观看网站| 亚洲特黄一级片| 色欲av永久无码精品无码蜜桃| 国产成人免费91av在线| 99热国内精品| 亚洲中文字幕一区| 欧美影院一区二区| 2024最新电影在线免费观看| 久99久在线| 精品一区二区三区影院在线午夜 | 天天影视久久综合| 99精品国产高清在线观看| 国产日韩1区| 成人免费视频国产免费观看| 亚洲国产精品久久久| 九九九精品视频| 妺妺窝人体色777777| 亚洲国产高清不卡| 欧美 日韩 国产 成人 在线 91| 国产盗摄xxxx视频xxx69 | 精品www久久久久奶水| 亚洲免费在线观看| 黑人与亚洲人色ⅹvideos| 99超碰麻豆| 美女网站视频久久| 日韩免费视频一区二区视频在线观看|