剛剛,LeCun團隊開源首款代碼世界模型!能像程序員一樣思考的LLM來了
就在今天,Meta官宣發布了一款名為代碼世界模型(Code World Model, CWM)的LLM,探索如何使用世界模型改進AI代碼生成性能。

Yann LeCun也親自下場轉發撐場子了。

CWM究竟有哪些創新點?這個32B的參數相對較小的大模型,究竟有多強?
CWM創新點
本次發布的CWM,最大的創新點是,將世界模型引入了代碼生成任務中。
簡言之,該模型的核心正如Yann LeCun所言:生成代碼時,通過提前預測即將生成的代碼指令可能產生的效果,來更好地規劃出能夠滿足人類期望達成的效果的代碼,從而改進生成代碼的質量。
當人類進行規劃時,我們會設想不同行動可能產生的結果。
當人類思考代碼時,會在腦海中模擬其部分執行過程。
而目前市面上的主流語言模型,還很難做到這一點。
專門訓練一個代碼世界模型,補足這一點,生成代碼的效果會不會好很多,是Meta要通過本次發布的CWM驗證的猜想。

CWM基于大量編程數據,加上專門定制的Python和Bash(Linux和macOS的命令行解釋器腳本語言)的世界建模數據,進行該模型的訓練。
通過這種訓練,CWM能夠模擬Python程序在Bash環境中的執行及與Agent之間的交互。
對于「數數strawberry中有多少個r」這個難倒無數大模型的問題,CWM也用類似pdb(Python Debug用的調試器)的形式演示了其工作流程:


CWM直接發布了3個不同的Checkpoint,用于不同目的。


CWM性能測試
「光說不練假把式」,我們直接看看這個32B的小參數大模型在各類編程基準測試中的表現如何。
SWE-bench Verified是一個真實開源項目修復的最常用的編程評測標準,讓模型在真實的大型開源倉庫里,根據 GitHub issue+failing tests,定位并修復缺陷,最終以自動化測試是否全部通過來判定是否解決。
在該項測試中,32B小參數的CWM成績為65.8%,遜于Qwen3-Coder和Kimi-K2-Instruct,與閉源的Gemini-2.5-Thinking接近,屬于開源陣營第一梯隊了。

其他測試成績Alexandr Wang也直接發出來了:
LiveCodeBench:68.6%
Math-500:96.6%
AIME 2024:76.0%

CWM模型算是Meta的一次概念驗證,投入了不算多的算力訓練這個小參數大模型,主要是為了檢驗將世界模型引入代碼生成任務是否會顯著提高生成代碼質量。
換言之,我們今日看到的這個模型只能算Demo。大的還在后面?



























