媲美Claude 4,支持100萬上下文!阿里開源超強代碼AI Agent模型
阿里巴巴開源了超強AI Agent模型Qwen3-Coder-480B-A35B-Instruct。
根據(jù)阿里公布的測試數(shù)據(jù)顯示,Qwen3-Coder在OpenAI發(fā)布的Agent測試基準SWE-bench Verified中,500輪交互的測試分數(shù)達到了69.6%,常規(guī)分數(shù)為67%,可媲美最強閉源代碼模型之一Claude Sonnet 4的70.4%和68%。
同時Qwen3-Coder也大幅度超越了DeepSeek R1-0528版本的41.4%和V3-0324版本的38.8%。

開源地址:https://huggingface.co/Qwen/Qwen3-Coder-480B-A35B-Instruct
https://github.com/QwenLM/Qwen3-Coder
Qwen3-Coder采用了混合專家架構(gòu),一共有4800億參數(shù),其中350億處于活躍狀態(tài)。原生支持256K上下文窗口,但可通過YaRN技術(shù)擴展至100萬。這對于代碼領(lǐng)域來說幫助非常大,例如,一些比較小的開發(fā)項目可以一次性全部解讀。
Qwen3-Coder在預(yù)訓(xùn)練階段使用了7.5T的高質(zhì)量數(shù)據(jù)進行了訓(xùn)練,其中70%為代碼數(shù)據(jù),同時保留了通用和數(shù)學(xué)推理能力。還利用 Qwen2.5-Coder 來清理和重寫嘈雜的數(shù)據(jù),顯著提高了整體數(shù)據(jù)質(zhì)量。
在后訓(xùn)練階段,Qwen3-Coder 進行了代碼強化學(xué)習(xí)的擴展訓(xùn)練。與社區(qū)中常見的專注于競賽級代碼生成不同,Qwen3-Coder 認為所有代碼任務(wù)都適合執(zhí)行驅(qū)動的大規(guī)模強化學(xué)習(xí)。
通過自動擴展多樣化編碼任務(wù)的測試用例,創(chuàng)建了高質(zhì)量的訓(xùn)練實例,成功釋放了強化學(xué)習(xí)的全部潛力,不僅顯著提高了代碼執(zhí)行的成功率,還為其他任務(wù)帶來了增益。

此外,Qwen3-Coder 引入了長視界強化學(xué)習(xí)(Agent RL),以鼓勵模型通過多輪交互使用工具來解決現(xiàn)實世界中的任務(wù)。Agent RL 的關(guān)鍵挑戰(zhàn)在于環(huán)境擴展,為此,Qwen3-Coder 構(gòu)建了一個可擴展的系統(tǒng),能夠并行運行 20000 個獨立環(huán)境,利用阿里云的基礎(chǔ)設(shè)施提供必要的反饋,支持大規(guī)模強化學(xué)習(xí)和大規(guī)模評估。
為了方便使用Qwen3-Coder,還開源了一個命令行工具Qwen-Code,它是從 Gemini Code分叉而來的,經(jīng)過定制提示和功能調(diào)用協(xié)議的調(diào)整,以充分發(fā)揮Qwen3-Coder在智能體編碼任務(wù)中的能力。
Qwen Code支持OpenAI SDK,并且可以通過環(huán)境變量或 .env文件配置API密鑰和基礎(chǔ)URL。
Qwen3-Coder在編程方面的能力非常出色,例如,開發(fā)一個基于物理定律的煙囪拆除控制爆炸模擬器。

開發(fā)一個類似谷歌地圖的3D模擬器。

用一句名言測試你的打字速度的應(yīng)用。

開發(fā)一個旋轉(zhuǎn)超立方體中的彈跳球。

使用p5.js創(chuàng)建一個令人驚嘆的多色和交互式動畫。

值得一提的是,Qwen3-Coder還可以與Claude Code一起使用,用戶只需要阿里云模型工作室平臺上申請API密鑰,并安裝Claude Code 就能編碼。還提供了claude-code-config npm 包,用于自定義Claude Code的后端模型。
申請地址:https://modelstudio.console.alibabacloud.com/



































