CodeAgent 2.0 時代開啟｜GitTaskBench，顛覆性定義代碼智能體實戰交付新標準

2025-09-01 08:51:00

為突破現有評測局限，中科院、北大、港科大、中科大、新加坡國立大學等機構的研究者，與前沿開源學術組織 QuantaAlpha 及階躍星辰姜大昕團隊聯合，首次提出并開源了 repo-level 的測評新范式 GitTaskBench。

你是否也好奇過：現在的模型在各類榜單分數都那么高，實際體驗卻不符預期？

我們也看過各種 AI Coding 領域的評測，發現大多停留在了「代碼生成」與「封閉題目」的考核，卻忽視了環境配置、依賴處理、跨倉庫資源利用等開發者必經的真實需求 —— 當下眾多 Benchmark 僅通過題目，已難以衡量 Code Agent 的實際效果。

為突破現有評測局限，中科院、北大、港科大、中科大、新加坡國立大學等機構的研究者，與前沿開源學術組織 QuantaAlpha 及階躍星辰姜大昕團隊聯合，首次提出并開源了 repo-level 的測評新范式 GitTaskBench：

1）真正考察 Agent 從倉庫理解 → 環境配置 → 增量開發 / 代碼修復 → 項目級交付的全鏈路能力，指引了迭代新范式

2）首次把「框架 × 模型」的「經濟收益」納入評測指標，給學界、業界以及創業者都帶來了很好的思路啟發

論文標題：GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging
論文地址：https://arxiv.org/pdf/2508.18993
GitHub 鏈接：https://github.com/QuantaAlpha/GitTaskBench

其開源版覆蓋了 7 大模態 × 7 個領域 × 24 個子領域及 54 個真實任務：

對應后端倉庫 18 個，包含平均 204 個文件、1,274.78 個函數、52.63k 行代碼，文件彼此引用依賴平均為 1242.72 次。

且每個任務都綁定了完整 GitHub 倉庫 + 自然語言指令 + 明確輸入輸出格式 + 任務特定的自動化評測。

以下圖片統計了 GitTaskBench 的領域與模態分布，包括相應的數量。

首先從能力角度，GitTaskBench 對 Code Agent 進行了三個維度的分析：

1. 整體編碼掌控：讀文檔、解依賴、生成 / 修改 / 調試代碼

2. 任務導向執行：多輪推理與工具使用，產物必須貼合任務交付，利用代碼倉庫但不局限于倉庫

3. 自主環境配置：不借助預置鏡像，獨立裝環境 / 解依賴

下圖是從倉庫收集到任務測評的全流程概覽

整體主要經過四個階段：

1. 「倉庫遴選」：結合文獻綜述、LLM 輔助檢索和專家咨詢，先定任務范圍；再從 Python 倉庫里，挑出 ?≥50、近五年活躍、依賴可用且易配置的候選。人工核驗 Stars、Forks、許可證、提交歷史，確保資源靠譜。

2. 「完備性驗證」：包括必要依賴文件、配置文件、所需數據集和預訓練模型。嚴格按文檔跑通，確保 100% 人類可復現；若遇到資源門檻 / 外鏈阻斷，將必要信息放進到 README，充分保證自包含所有必要信息。

3. 「執行框架設計」：統一清晰的任務定義、輸入 / 輸出規范；Agent 接收倉庫 + 任務提示，需完成倉庫理解 → 代碼生成 / 修改 → 環境安裝 → 代碼執行的多階段流程。

4. 「自動化評測」：我們實現了一套由人工驗證的定制化測試腳本驅動的評測指標體系。所有任務只需一條命令自動評測，可直接產出各任務對應的成功 / 失敗狀態 + 詳細原因，并可進行指標統計。

其次，GitTaskBench 還首次提出了「性價比」的概念，結合以下指標：

ECR（Execution Completion Rate）：能否成功執行倉庫并以合規格式輸出（存在、非空、格式可解析）
TPR（Task Pass Rate）：按任務領域標準判定是否達到成功閾值（如語音增強 PESQ ≥2.0 / SNR ≥15dB；圖像類 SSIM/FID 閾值等），不過線即失敗。
α 值（Alpha Practical Value）：該值為 Agent 在執行任務的平均凈收益 —— 把完成度 (T)、市場價 (MV)、質量系數 (Q) 和成本 (C) 融合，回答「這活交給這個 Agent 值不值」的切實問題，具體公式：

這很好地反映了 Agent 方案在各領域的經濟可行性，通過量化任務自動化與可擴展性帶來的成本節省、效率提升及潛在市場收益，真正地評估了 Agent 落地的實際價值。

在適配了主流框架與模型之后，我們實驗發現：

OpenHands 整體最強，+ Claude 3.7 拿到最高成績：ECR 72.22% / TPR 48.15%。
性價比之王？ GPT-4.1 在成功率次優的同時，成本僅為 Claude 的 1/10 ~ 1/30（OpenHands 設定下），在 SWE-Agent 中也以更低成本拿到亞軍表現。
開源可用性：Qwen3-32B（think 模式）能以更少 token 達到 Claude 3.5 的約 60% 水平。
任務偏好：純文本 / 辦公文檔類穩定，多模態、模型推理密集型更難（如圖像修復需多依賴與權重配置）。