GPT-4.5被DeepSeek 500倍吊打！基準測試全班墊底，OpenAI痛失護城河

作者：新智元 2025-03-03 08:00:00

GPT-4.5上線一天，已經引起了集體群嘲：這個模型徹頭徹尾失敗了，OpenAI已經陷入嚴重困境，失去護城河！有人算出，GPT-4.5比DeepSeek V3貴了500倍，性能卻更差。有的權威AI預測者看完GPT-4.5，氣得直接把AGI預測時間推后了……當然了，OpenAI并不這么認為。

自從OpenAI發布GPT-4.5之后，Ilya這張圖又開始火了。

GPT-4.5令人失望的表現，再次印證了Ilya這句話的含金量：預訓練已經達到極限，推理Scaling才是未來有希望的范式。

GPT-4.5在基準測試上并沒有提升，推理沒有增強，只是變成了一個更易于合作、更有創造性、幻覺更少的模型。

GPT-4.5的「失敗」更加證明，Ilya是對的。

現在，各方評測都已經出爐，結果顯示，OpenAI實在是太打臉了。

從ARC-AGC的評估上來看，GPT-4.5幾乎跟GPT-4o處于同一水平，智能上似乎沒有任何提升。

紐約大學教授馬庫斯直接發長文痛批：GPT-4.5就是個空心漢堡。

一位AI初創CEO更是直言：在自己心目中最實用評估基準Aider Polyglot上，OpenAI的「鎮國之寶」GPT-4.5，比DeepSeek-V3貴了500倍，但表現反而更差。

如果這個結果準確，那OpenAI將陷入嚴重困境，甚至是徹底失去護城河！

與此同時，國內這邊DeepSeek連續6天給人們帶來了開源暴擊，R1模型直接減價75%。

總之，在DeepSeek、xAI Grok 3、Anthropic首個混合模型Cluade 3.7 Sonnet等的前后夾擊之下，OpenAI這位昔日明星，如今顯然已風光不再。

「GPT-4.5真這么差？我不會看錯了吧」

正如上文所提，剛剛那位AI初創CEO在看到下面這張圖表后，感覺實在難以置信，因為GPT-4.5 Preview的表現，直接全班墊底。

為此，他還求證了表格制作者，對方表示自己仔細檢查了性能數據，進行了多次運行，能保證每個結果都是對的。

GPT-4.5比GPT-4基礎模型多出了10倍的預訓練計算量，但卻什么都不擅長，這合理嗎？

有人猜測說，GPT-4.5可能并沒有經過太多的監督微調，因為OpenAI本來是打算將其作為未來模型（如GPT-5）的基礎模型或教師模型，用于進一步通過強化學習進行微調的。

可能是這個原因，導致它在代碼的指令遵循上不算特別強。

或者，問題可能出在了數據混合上，因為OpenAI這次采用了一種全新的訓練機制，所以可能有某種「成長痛」。

不過令人心涼的是：OpenAI內部許多能做到這件事的人，如今已經走了。

有人直接開麥表示：「如果DeepSeek能有OpenAI的資金量，那我們就完蛋了」。

還有人調侃道，這可能就是所謂的「用智商換情商」吧。

不管怎么說，在大家眼中，OpenAI的先發優勢已經不復存在了。

馬庫斯：OpenAI徹底失去護城河

馬庫斯轉發了這個結果驚人的研究后表示，不管OpenAI在兩年前有什么優勢，如今他們已經徹底失去了護城河。

雖然他們現在仍擁有響亮的名字、大量數據和眾多用戶，但相對競爭對手并未擁有任何決定性的優勢。

Scaling并沒有讓他們走到AGI的終點。GPT-4.5非常昂貴，GPT-5也失敗了。

所有人都開始疑問：OpenAI能拿出的，就只有這么多了？

現在，DeepSeek已經引發了一場價格戰，削減了大模型的潛在利潤。而且，目前還沒有任何殺手級應用出現。

在每一次模型的響應中，OpenAI都在虧損。公司的燒錢速度如此之快，但資金鏈卻有限，連微軟也不再完全支持他們了。

如果不能快速轉型為非營利組織，一大筆投資就會變成債務。

而且，Ilya、Murati、Schulman……許多頂尖人物已經離開。

如果孫正義改變主意，OpenAI就會立刻面臨嚴重的現金問題（馬斯克有一句話說對了，星際之門的很大一部分資金，他們并沒有拿到手）。

總之，在推出ChatGPT上，奧特曼確實是那個正確的CEO，但他并沒有足夠的技術遠見，帶領OpenAI邁向下一個階段。

在這篇《GPT-4.5是個空心漢堡》中，馬庫斯也再次強調：Scaling已經撞墻了。

在GPT-4.5發布前，他就預測將是一場空歡喜，而LLM的純粹Scaling（無論是增加數據量還是計算）已經撞墻。

在某些方面，GPT-4.5還不如Claude上一個版本的模型。

甚至第一次出現了這種情況：頗受尊敬的AI預測師感到極度失望，以至于推遲了自己對于AGI何時到來的預測時間。

而奧特曼在產品發布上的異常冷靜，就更耐人尋味了。

他沒有像往常那樣大肆宣傳AGI，而是承認了大規模模型的成本，卻對AGI完全避而不提。

總之，馬庫斯表示，自己在2024年的預測依然強勁——

耗費五千億美元后，依然沒人找到可行的商業模式，除了英偉達和一些咨詢公司之外，沒人獲得了可觀的利益。

沒有GPT-5，沒有護城河。

「Scaling是一個假設，我們投入了相當于阿波羅計劃兩倍的資金，但至今并未取得太多實質性成果。」

GPT-4.5：不求最好，但求最貴

總之，從輸入價格來看，GPT-4.5可謂是貴到離譜：

o1的5倍
GPT-4o的30倍
o3-mini的68倍
DeepSeek-R1的137倍
DeepSeek-V3的278倍

但正如前文所說，作為「最貴」模型的GPT-4.5，在表現上卻不是「最好」的。

跑分一個第1都沒有

由知名華裔億萬富翁Alexandr Wang創辦的Scale AI，定期會更新一套基于私有數據集的LLM排行榜SEAL，目前首頁上共有15個。

然而，在這波最新的排名中，GPT-4.5 Preview竟然沒有一項取得第一！

全場最佳成績，是智能工具使用（Chat）項目的亞軍——略強于Claude 3.7 Sonnet，但次于上一代GPT-4o。

接下來，GPT-4.5在EnginmaEval，Agentic Tool Use（Enterprise）兩個項目上，取得第3。

其中，前者需要創造性地解決問題和綜合不同領域信息的能力；后者評估模型工具使用的熟練程度，特點是需要將多個工具組合在一起。

分別輸給了自家的o1/o1-preview和競爭對手最新的Claude 3.7 Sonnet（Thingking）。

在MultiChallenge中，排名第4，輸給了o1、Claude 3.5 Sonnet和3.7 Sonnet。

榜單MultiChallenge用于評估LLM與人類用戶進行多輪對話的能力，考察LLM的指令保留、用戶信息推理記憶、可靠版本編輯和自我一致性等4方面上的指令遵循、上下文分配和在上下文中推理的能力。

在「人類最后一次考試」中，排在第5。

這次，它不僅輸給了Anthropic的Claude，就連Gemini也騎在了它的頭上。甚至，還是Flash版本。

顧名思義，這里測試的是LLM推理深度（例如，世界級數學問題）及其學科領域的知識廣度，提供對模型能力的精確測量。目前，還沒有模型的真確率能達到10%。

千萬不要用來編程

根據Aider的LLM編程排行榜，OpenAI旗下AI模型性價比都不高，而GPT-4.5是性價比最差的。

創立AI公司的Enrico則表示，除非你愿意做「冤大頭」或「人傻錢多」，否則在編程中不要使用GPT-4.5。

但其實，這些現象或許也在情理之中，畢竟按照OpenAI的說法，這次既不看智商也不看性能，而是強調「啥都懂」和「情商高」。

OpenAI首席研究官：我們還能Scaling！

雖然外面的爭論異常激烈，但在OpenAI首席研究官Mark Chen看來，GPT-4.5的發布正是說明模型在規模上的Scaling還沒達到極限。

同時，對OpenAI而言，GPT-4.5也是對那些質疑「Scaling模型規模可以繼續取得進展」的回應：

「GPT-4.5實實在在地證明了我們可以繼續沿用Scaling Law，并且代表著我們已經邁入了下一個數量級的發展階段。」

預訓練和推理，兩條路并行

如今，OpenAI正沿著兩個不同的維度進行Scaling。

GPT-4.5是團隊在無監督學習上最新的擴展實驗，與此同時，團隊也在推進推理能力的進展。

這兩種方法，是相輔相成的：「為了構建推理能力，你首先需要知識基礎。模型不能盲目地從零開始學習推理。」

相比起推理模型，擁有更多世界知識的GPT-4.5，在「智能」的體現方式上完全不同。

使用規模更大的語言模型時，雖然需要更多時間處理和思考用戶提出的問題，但它依然能夠提供及時的反饋。這一點與GPT-4的體驗非常相似。而當使用像o1這樣的推理模型時，它需要先思考幾分鐘甚至幾分鐘，才會作答。

對于不同的場景，你可以選擇一個能夠立即回應、不需要長時間思考但能給出更優質答案的語言模型；或者選擇一個需要一段時間思考后才能給出答案的推理模型。

根據OpenAI的說法，在創意寫作等領域，更大規模的傳統語言模型，在表現上會顯著優于推理模型。

此外，相比于上一代GPT-4o，用戶在60%的日常使用場景中也更喜歡GPT-4.5；對于生產力和知識工作，這一比例更是上升到了近70%。

GPT-4.5符合預期，沒有特別困難

Mark Chen表示，OpenAI在研究方法上非常嚴謹，會基于所有之前訓練的LLM創建預測，以確定預期的性能表現。

對于GPT-4.5來說，它在傳統基準測試上展現出的改進，和GPT-3.5到GPT-4的躍升可以說十分類似。

除此之外，GPT-4.5還具備了很多新的能力。比如制作早期模型都無法完成的——ASCII Art。

值得一提的是，Mark Chen特別指出——GPT-4.5在開發過程中并沒有特別困難。

「我們所有基礎模型的開發都是實驗性的。這通常意味著在某些節點停止，分析發生了什么，然后重新啟動運行。這并非GPT-4.5特有的情況，而是OpenAI在開發GPT-4和o系列時都采用的方法。」

責任編輯：張燕妮來源：新智元

OpenAI 模型 AI