快手KAT-Dev-72B-Exp震撼發布！74.6%解決率碾壓GPT-5，編程Agent新王者

作者：阿丸筆記 2025-10-13 00:00:05

KAT-Dev-72B-Exp的發布不僅刷新了開源編程模型的性能紀錄，更重要的是展示了一種全新的AI訓練范式。如果你對編程AI感興趣，建議去體驗一下，看看這個"開源新王者"到底有多強。

你有沒有想過，什么時候一個國產開源模型能在編程領域真正"碾壓"GPT-5？

這個問題的答案，快手給出了。

圖片

昨天看到快手開源KAT-Dev-72B-Exp的消息時，我第一反應是——這數據是不是搞錯了？74.6%的SWE-Bench解決率，不僅是開源模型第一，甚至超過了GPT-5的72.8%和Claude 4 Sonnet的67.2%。

一個720億參數的開源模型，居然在最權威的軟件工程基準測試中擊敗了那些閉源巨頭？

說實話，720億參數的模型并不稀奇，但KAT-Dev-72B-Exp的厲害之處在于它背后的訓練方法。

快手團隊沒有走傳統的"堆數據、堆算力"路線，而是專門針對軟件工程任務設計了一套大規模強化學習訓練流程。這個模型經歷了中期訓練、監督微調和強化微調等多個階段，特別是在大規模Agentic強化學習階段，模型通過與可執行環境和可驗證測試用例的交互，學會了真正"理解"代碼，而不只是"生成"代碼。

更有意思的是，為了解決傳統強化學習框架的瓶頸，快手還自研了一個叫SeamlessFlow的工業級強化學習框架。這個框架有多厲害？在32張H800 GPU上的訓練任務中，相比主流框架實現了100%的吞吐量提升和62%的訓練時間減少。

這意味著什么？同樣的算力成本，快手能訓練出更強的模型。

看數據很震撼，但更震撼的是實際能力展示。

根據快手的演示，KAT-Dev-72B-Exp能夠復刻出像《水果忍者》這樣包含完整計分和生命值系統的游戲，也能生成遵循真實物理規律的建筑物爆破過程動畫和太陽系運行模擬。

這不是簡單的代碼補全，而是真正理解需求、設計架構、實現功能的完整編程能力。模型的能力覆蓋了功能實現、Bug修復、性能優化、測試用例生成等八大編程場景，并且支持多種主流編程語言。

我特意去看了看他們的技術細節，發現快手還引入了一個叫"Trie Packing"的機制。這個機制通過合并共享前綴的計算，將訓練速度平均提升了2.5倍。同時采用熵感知的優勢縮放方法，讓模型在訓練中更好地平衡探索與利用。

這些技術細節聽起來很復雜，但本質上就是一個目標：讓AI真正學會編程，而不是背誦代碼片段。

說到這里，你可能會好奇：快手為什么要開源這么強的模型？

我覺得這背后體現的是快手"開源筑基 + 閉源變現"的雙軌戰略。通過開源高性能模型搶占開發者生態，構建技術影響力，同時通過閉源版本KAT-Coder瞄準企業級市場。

這個策略挺聰明的。開源版本讓所有開發者都能體驗到快手AI的強大能力，建立品牌認知和技術信任。而對于有更高需求的企業用戶，閉源版本提供更全面的服務和支持。

目前KAT-Dev-72B-Exp已經在Hugging Face上開源，你可以直接下載使用。如果想體驗閉源版本，可以通過StreamLake平臺申請KAT-Coder API試用。

不過，業界對這個成績也有一些討論。有觀點認為，基準測試的高分與實際編碼效率的關聯性還需要更多第三方驗證。畢竟，能在測試中解決74.6%的問題，和在真實項目中幫助程序員提升效率，可能還是兩回事。

另外，雖然開源版本免費，但閉源版本的商業定價對個人開發者的可及性也是個關注點。畢竟，如果定價太高，可能會限制技術的普及。

但不管怎么說，快手這次的技術突破還是很有意義的。特別是在大規模Agentic強化學習訓練技術上的實踐與分享，為整個行業提供了新的思路和借鑒。

更重要的是，這證明了國產AI在編程領域已經具備了與國際巨頭正面競爭的實力。從跟跑到并跑，再到某些細分領域的領跑，這個過程比我們想象的要快。

總的來說，KAT-Dev-72B-Exp的發布不僅刷新了開源編程模型的性能紀錄，更重要的是展示了一種全新的AI訓練范式。如果你對編程AI感興趣，建議去體驗一下，看看這個"開源新王者"到底有多強。

責任編輯：武曉燕來源：阿丸筆記