Kimi K2 Thinking突襲!智能體&推理能力超GPT-5,網友:再次縮小開源閉源差距
Kimi K2 Thinking,現已發布并開源!
主打一個“模型即Agent”,不僅是Kimi“迄今能力最強的開源思考模型”,還掌握邊思考,邊使用工具的能力——
無需人工干預,即可執行200-300次連續工具調用。
圖片
作為今年最受關注的開源模型系列之一,Kimi K2的Thinking版本一上線,就成為熱議對象:再次縮小了開源模型與閉源模型的差距。
圖片
更多技術細節速覽在此:
- 1TB參數,激活參數32B,采用INT4而非FP8。
- 256K上下文窗口。
- 更多專家,更少head,更多思考。

△與DeepSeek R1的架構對比,圖源x@rasbt
在人類最后的考試(HLE)、測試自主網絡瀏覽能力的BrowseComp,和復雜信息收集推理基準測試SEAL-0等評測基準中,Kimi K2 Thinking都刷新了SOTA,超越GPT-5、Claude Sonnet 4.5(Thinking)等閉源模型。
圖片
Kimi K2 Thinking的代碼和權重均遵循最為寬松的MIT協議。新模型也已第一時間上線kimi.com和最新版Kimi手機應用,即刻就能實測體驗。API可通過Kimi開放平臺訪問。
技術細節
官方提到,K2 Thinking是月之暗面在Test-Time Scaling(測試時擴展)領域的最新進展,通過同時擴展思考Token和工具調用輪次,模型實現了更強的Agent和推理性能。
智能體、推理能力全面提升
體現在測試上,在人類最后的考試(HLE)中,允許使用工具——搜索、Python、網絡瀏覽工具的同等情況下,Kimi K2 Thinking取得了44.9%的SOTA成績。
圖片
官方還放出了一個通過23次推理和工具調用,K2 Thinking成功解決博士級別數學問題的示例。
圖片
第三方測試也印證了其智能體能力的提升:
Artificial Analysis在??2-Bench Telecom智能體工具使用基準中測試了Kimi K2 Thinking。
結果顯示,Kimi K2 Thinking達到SOTA,在智能體場景下,比此前廣受好評的K2 Instruct更進一大步(73%→93%)。
圖片
自主搜索與瀏覽能力全面提升
在復雜搜索和瀏覽場景中,Kimi K2 Thinking也表現出色。
在人類平均智能取得29.2%分數的BrowseComp上,Kimi K2 Thinking展現出“刨根問底”的鉆研能力,以60.2%的成績成為新的SOTA模型。
圖片
在長程規劃和自主搜索能力的驅動下,Kimi K2 Thinking可借助多達上百輪的“思考→搜索→瀏覽網頁→思考→編程”動態循環,持續地提出并完善假設、驗證證據、進行推理,并構建出邏輯一致的答案。
這種邊主動搜索邊持續思考的能力,使Kimi K2 Thinking能夠將模糊且開放式的問題分解為清晰、可執行的子任務。
Agentic編程能力增強
編程方面,在SWE-Multilingual、SWE-bench驗證集,和LiveCodeBench等測試基準中,Kimi K2 Thinking也能和最強閉源模型GPT-5、Claude Sonnet 4.5等打得有來有回。
圖片
官方提到,Kimi K2 Thinking在處理 HTML、React以及組件豐富的前端任務時性能有明顯提升,能將創意轉變為功能齊全、響應式的產品。
在Agentic Coding場景中,Kimi K2 Thinking能在調用各種工具的同時進行思考,靈活地融入software agents中,處理更復雜、多步驟的開發工作流。
比如,復刻一個真實可用的Word文字編輯器。
圖片
又比如創造一個華麗風格的voxel art作品:
圖片
通用基礎能力升級
在智能體和推理能力的主線之外,Kimi K2 Thinking的通用基礎能力也獲得了升級。
創意寫作:Kimi K2 Thinking顯著提升了寫作能力,能將粗略的靈感轉化為清晰、動人且意圖明確的敘述,使其兼具韻律感和深度。它能駕馭微妙的文風差異和模糊的結構,并在長篇大論中保持風格的連貫性。在創意寫作方面,它筆下的意象更生動,情感共鳴更強烈,將精準的表達與豐富的表現力融為一體。
學術與研究:在學術研究和專業領域,Kimi K2 Thinking在分析深度、信息準確性和邏輯結構方面均有顯著提升。它能剖析復雜的指令,并以清晰嚴謹的方式拓展思路。這使其尤其擅長處理學術論文、技術摘要,以及那些對信息完整性和推理質量要求極高的長篇報告。
個人與情感:在回應個人或情感類問題時,Kimi K2 Thinking的回答更富同理心,立場也更中正平和。不僅思考更深入且明確,能提供細致入微的觀點和切實可行的后續建議,還更有人情味。
原生INT4量化
值得注意的一點是,K2 Kimi Thinking用的是INT4而非FP8精度。
官方的解釋是,思考模型會產生極長的解碼長度,常規的量化手段往往會導致模型性能大幅下降。為了克服這一挑戰,他們在后訓練階段采用了量化感知訓練(QAT),并對MoE組件應用了INT4純權重(weight-only)量化。
這使得Kimi K2 Thinking能夠在復雜推理和Agentic任務中支持原生的INT4推理,并將生成速度提升了約2倍。
以及,INT4對推理硬件的兼容性更強,對國產加速計算芯片更友好。
p.s. Blackwell之前的英偉達GPU不支持FP4。
上手實測
更多測試實例,可以在官方技術博客中查看,我們也第一時間簡單測試了一波(僅開啟長思考模式,未聯網)。
經典題:
一根7米長的甘蔗如何通過1×2米的門
思考了將近5分鐘,Kimi給出的回答是:
圖片
思考的時間是有點長,但Kimi K2 Thinking成功繞過了這道題目中的陷阱,想到了門的長寬其實并不會限制甘蔗的通過。
編程方面,我們測試的題目是:
編寫一個Python程序,讓一個小球在旋轉的六邊形內彈跳,小球運動遵循物理規律
這一次,Kimi K2 Thinking很快就開始上手編寫代碼了。
圖片
這個表現你覺得如何?
如果你也已經上手實測,歡迎在評論區與我們分享更多測試結果~
項目地址:https://huggingface.co/moonshotai/Kimi-K2-Thinking
技術博客鏈接:https://moonshotai.github.io/Kimi-K2/thinking.html
參考鏈接:
[1]https://x.com/Kimi_Moonshot/status/1986449512538513505
[2]https://x.com/ArtificialAnlys/status/1986541785511043536
[3]https://mp.weixin.qq.com/s/oQp1kFpoYFhYQ8GzbwZLyA



































