媲美Claude 4，支持100萬上下文！阿里開源超強代碼AI Agent模型

2025-07-25 10:06:05

根據(jù)阿里公布的測試數(shù)據(jù)顯示，Qwen3-Coder在OpenAI發(fā)布的Agent測試基準SWE-bench Verified中，500輪交互的測試分數(shù)達到了69.6%，常規(guī)分數(shù)為67%，可媲美最強閉源代碼模型之一Claude Sonnet 4的70.4%和68%。

阿里巴巴開源了超強AI Agent模型Qwen3-Coder-480B-A35B-Instruct。

同時Qwen3-Coder也大幅度超越了DeepSeek R1-0528版本的41.4%和V3-0324版本的38.8%。

開源地址：https://huggingface.co/Qwen/Qwen3-Coder-480B-A35B-Instruct

https://github.com/QwenLM/Qwen3-Coder

Qwen3-Coder采用了混合專家架構(gòu)，一共有4800億參數(shù)，其中350億處于活躍狀態(tài)。原生支持256K上下文窗口，但可通過YaRN技術(shù)擴展至100萬。這對于代碼領(lǐng)域來說幫助非常大，例如，一些比較小的開發(fā)項目可以一次性全部解讀。

Qwen3-Coder在預(yù)訓(xùn)練階段使用了7.5T的高質(zhì)量數(shù)據(jù)進行了訓(xùn)練，其中70%為代碼數(shù)據(jù)，同時保留了通用和數(shù)學(xué)推理能力。還利用 Qwen2.5-Coder 來清理和重寫嘈雜的數(shù)據(jù)，顯著提高了整體數(shù)據(jù)質(zhì)量。

在后訓(xùn)練階段，Qwen3-Coder 進行了代碼強化學(xué)習(xí)的擴展訓(xùn)練。與社區(qū)中常見的專注于競賽級代碼生成不同，Qwen3-Coder 認為所有代碼任務(wù)都適合執(zhí)行驅(qū)動的大規(guī)模強化學(xué)習(xí)。

通過自動擴展多樣化編碼任務(wù)的測試用例，創(chuàng)建了高質(zhì)量的訓(xùn)練實例，成功釋放了強化學(xué)習(xí)的全部潛力，不僅顯著提高了代碼執(zhí)行的成功率，還為其他任務(wù)帶來了增益。

此外，Qwen3-Coder 引入了長視界強化學(xué)習(xí)（Agent RL），以鼓勵模型通過多輪交互使用工具來解決現(xiàn)實世界中的任務(wù)。Agent RL 的關(guān)鍵挑戰(zhàn)在于環(huán)境擴展，為此，Qwen3-Coder 構(gòu)建了一個可擴展的系統(tǒng)，能夠并行運行 20000 個獨立環(huán)境，利用阿里云的基礎(chǔ)設(shè)施提供必要的反饋，支持大規(guī)模強化學(xué)習(xí)和大規(guī)模評估。

為了方便使用Qwen3-Coder，還開源了一個命令行工具Qwen-Code，它是從 Gemini Code分叉而來的，經(jīng)過定制提示和功能調(diào)用協(xié)議的調(diào)整，以充分發(fā)揮Qwen3-Coder在智能體編碼任務(wù)中的能力。

Qwen Code支持OpenAI SDK，并且可以通過環(huán)境變量或 .env文件配置API密鑰和基礎(chǔ)URL。

Qwen3-Coder在編程方面的能力非常出色，例如，開發(fā)一個基于物理定律的煙囪拆除控制爆炸模擬器。