Qwen3殺入全球前三，中國技術正式挑戰OpenAI霸權

作者：阿丸筆記 2025-08-04 09:19:06

Qwen3的突破，我覺得意義不只是技術層面的。它證明了開源模式在AI發展中的巨大潛力。阿里巴巴選擇Apache 2.0協議開源，讓全球開發者都能使用和改進這個模型。

說實話，看到Qwen3 2507版本躋身全球AI模型前三的消息時，我第一反應是有點不敢相信。

畢竟在這個被OpenAI、Anthropic主導的AI世界里，國產模型能達到這個高度，確實讓人意外。

但數據不會撒謊。阿里巴巴剛剛發布的Qwen3-235B-A22B-Instruct-2507，在多個權威基準測試中的表現，確實讓人刮目相看。

這次的突破到底有多震撼？我們來看幾個關鍵數據。

在AIME25數學推理測試中，Qwen3得分70.3分，而GPT-4o只有26.7分。這意味著什么？AIME25是美國數學邀請賽的高難度題目，相當于數學競賽級別的挑戰。Qwen3在這方面的表現，已經超出了很多人的想象。

更有意思的是，連DeepSeek-V3這樣的國產強手，在同樣測試中也只拿到46.6分。Qwen3這次的飛躍，確實有些令人意外。

在LiveCodeBench v6編程測試中，Qwen3拿到了51.8分的成績。這個測試比較特殊，它用的都是最近幾個月的編程題目，能有效避免模型"背答案"的情況。

我特意去查了一下對比數據，GPT-4o在這項測試中的表現是35.8分，Claude Opus 4是44.6分。Qwen3能拿到51.8分，說明在實際編程任務上，它確實有了質的突破。

Qwen3最聰明的地方，可能是它的MoE（專家混合）架構。雖然總共有235億個參數，但每次推理只激活22億參數。這個設計很巧妙，既保證了模型的能力，又控制了計算成本。

更重要的是，它支持256K的上下文長度，這意味著能處理相當長的文檔。而且基于Apache 2.0開源協議，這個開放程度確實讓人驚喜。

社區反饋也很有意思："這基本上就是能在32GB內存筆記本上跑的GPT-4級別模型。雖然在事實回憶方面可能稍弱，但配合工具使用（比如維基百科查詢），這反而是優勢，比更大的模型更實用。"

在Artificial Analysis的最新評測中，Qwen3-235B獲得了智能指數60分，這個成績讓它穩穩站在了全球前三的位置。

要知道，在這個榜單上，它的前面是GPT-4.1、o3這樣的頂級模型，后面跟著的是Claude 4、Gemini 2.5這樣的強手。能在這個檔位站穩腳跟，說明中國的AI技術確實已經到了一個新的高度。

更讓人意外的是成本優勢。在GPTunneL平臺上，Qwen3-235B的使用成本是每千tokens 0.18元，而GPT-4o要2.7元，Claude要4.5元。這個性價比差異還是挺明顯的。

我看了一些開發者的實際使用反饋，比較有意思。有人用量化版本在M4 Max上跑，小上下文情況下能達到100+tokens/s的速度，大上下文也有20+tokens/s。

還有人專門測試了編程任務，發現在復雜編程項目上，Qwen3的思維推理版本明顯優于非推理版本。比如在實現太空入侵者游戲時，推理版本生成的代碼運行良好，而且敵人設計更精細。

不過也有人指出，在創意任務（比如SVG生成）上，推理版本的表現反而不如直接生成版本。這說明不同版本各有專長，需要根據具體場景選擇。

從產業角度看，這也打破了OpenAI、Anthropic在高端AI模型市場的壟斷格局。當越來越多的優秀開源模型出現，整個AI行業的競爭會更加激烈，最終受益的還是用戶。

當然，能走到今天這一步并不容易。Qwen系列從2023年開始到現在，經歷了多次迭代，這次Qwen3更是基于36萬億tokens的訓練數據，是前一版本的兩倍。這背后的資源投入和技術積累，都不是一朝一夕能完成的。

現在Qwen3已經在Hugging Face、ModelScope等平臺開放下載，也集成到了阿里云的各種服務中。對于想要體驗這個技術的開發者來說，門檻已經相當低了。

說到底，AI這個領域變化太快，今天的第一可能明天就被超越。但Qwen3能在這個時候站到全球前三的位置，至少證明了一件事：在AI這個最前沿的技術領域，中國已經不是跟隨者，而是有能力和全球最強的對手正面競爭的挑戰者。

責任編輯：武曉燕來源：阿丸筆記