英偉達一夜回血!馬斯克狂燒30億GPU給老黃續命,10倍算力創Scaling Law神話
馬斯克的Grok-3,又給英偉達續命了?
用了20萬張GPU訓練的Grok-3,一下子讓市場重新找回對英偉達的信心——「力大磚飛」依然有效!
現在,英偉達的股價已經重新回到DeepSeek-R1發布前的水平。

AI大佬們議論說,Grok-3證明——Scaling Law的神話并未終結。
在算力提升10倍的情況下,Scaling Law仍在呈線性增長。既然能通過擴大預訓練規模,成功打造一個性能頂尖的非推理模型,就說明盡管預訓練代價高昂,但仍有很大發展空間。

LLM要發展往下發展,還要繼續囤GPU、堆算力嗎?Grok 3的發布,讓很多人又不確定了。
無論事實如何,最重要的是,市場和投資人的信心回來了。
Grok-3硬件成本被曝高達30億美金!
在多項基準測試中,OpenAI和DeepSeek的模型紛紛被Grok-3超越;LMSYS Arena中,Grok-3直接屠榜,拿到1400的超高Elo評分,各大模型無出其右。

這就意味著,DeepSeek輸了嗎?
并不!
這是因為,訓練Grok-3的代價,實在是太大了……
馬斯克透露說,在預訓練階段,Grok-3用掉的算力比Grok-2多10倍。
有人算了下xAI在孟菲斯中心GPU的總成本,如果按10萬塊H100,每塊GPU費用按30000美元計算,那Grok-3的總硬件消耗就在30億美元。

- 總成本:超過30億美元
- 訓練時長:2億GPU小時
- 硬件投入:10萬塊GPU(另有說法是20萬塊)
這些數字加起來看,實在驚人。
在直播中,xAI工程師對于未來Grok 3能訓練到什么程度,也并不確定。
而相比之下,DeepSeek-V3的紙面訓練成本是557.6萬美元,用了2048塊英偉達H800,對比之下是高下立判。

來自「大師兄商業觀察」
另外,目前Grok-3是閉源的,每月收費30美元,僅在未來幾個月計劃開源Grok-2。
而DeepSeek已經以開源策略吸引了全球開發者,集成到了微信、百度、騰訊等主流應用,在生態上領先一步。
總之,一個是大力出奇跡,一個是技術普惠,兩條路線孰優孰劣,就讓我們靜觀后續吧。
Grok-3全網實測
話說回來,號稱全球最聰明的Grok-3,真的比DeepSeek-R1更快更好嗎?
DeepSeek的前員工、現西北大學的博士生王子涵(Zihan Wang),馬上體驗了Grok-3 beta版,問了3個問題:


這些小學生都能答對的問題,Grok-3 beta回答全錯了!
他表示這是天才不屑于笨問題:

雖然多問幾次后,Grok-3有時也能答對其中的一道題。
這引起了xAI的研究科學家、參與Grok項目的林禹臣(Bill Yuchen Lin)的注意,他表示目前Grok-3還在測試,但每天都應該更好、更穩定。

在不少網友的實測中,Grok-3的表現還是十分酷炫的。
Grok 3可以制作出類似馬里奧的小游戲。

有了Grok-3,你也可以自學編程。

一位網友在同樣的提示下,對比了Grok-3和DeepSeek(實際是R1)。

1. AI趨勢分析
在這道題中,兩個模型需要分析馬斯克關于AI安全的最近50篇文字,確定關鍵主題,并與LeCun發表的法語帖子進行對比。
結果是Grok-3完勝,它有效確定了關鍵主題和對比的位置;而DeepSeek敗在了多語言解析和上下文分析這一步。

2. 媒體合成
這一題的任務是,「根據Prater博士在X上關于量子比特擴展的帖子,生成一張FLUX風格的量子計算機設計圖。」
最終,Grok-3基于提取的數據,創建出了對應的圖像;而DeepSeek-V3由于不是多模態模型,因此沒能給出結果。
3. 代碼工作流
使用BeautifulSoup編寫一個Python腳本,從EDGAR抓取SEC文件,并包含針對速率限制的錯誤處理。
最終,Grok-3提供了一個結構化腳本,還使用了速率限制處理;而DeepSeek花了248秒來思考問題,但并未執行。
4. 限制下的創意發揮
「用莎士比亞風格的十四行詩,以五步抑揚格解釋區塊鏈共識機制。」
這道題,是DeepSeek-V3勝利了。它用完美無瑕的結構化押韻,模仿了莎士比亞的風格;而Grok-3則被難倒了。
在剩下的道德挑戰、爭議話題處理、內容合規等方面,雙方都打成平手。
最終,Grok-3以4:3的比分勝出。

Ai2大佬:Grok-3,讓AI發展進入新階段
艾倫人工智能研究所(Ai2)的Nathan Lambert認為,Grok-3的發布的確意味著AI發展新階段。

xAI在直播中表示,他們幾乎「每天」都會更新Grok-3。曾經那個AI公司喜歡壓著新模型不發的時代,即將結束。
自DeepSeek-V3/R1發布以來,AI技術的發展既不是少數幾家公司的專利,發展速度也沒有放緩。
這是AI行業普遍認同的趨勢,而Grok-3的發布進一步強化了這種趨勢。
在2023年和2024年,真正頂尖的AI技術主要集中在OpenAI、Anthropic和谷歌手中。
這些公司可以從容地將模型從訓練到發布,同時憑借著「技術護城河」在能力上仍遠超競爭對手。
當R1發布時,最受歡迎的模型是Claude 3.5 Sonnet,它在「9-12個月前」就已完成訓練。而像Claude 3.5 Opus或GPT-4.5(又稱Orion)等更強大的模型,都因各種原因沒有對用戶開放。
快速發布是最佳的方式
在DeepSeek和Grok帶來的競爭壓力下,加上國內外環境的變化,這些傳統的領先實驗室將不得不加快產品發布節奏。
此前模型發布延遲的很大一部分原因是「安全測試」,但具體有多少是因為安全測試,多少是出于成本收益考慮(以及法務審查等大公司特有的問題),我們并不清楚。
對于這些公司來說,擁有「最智能模型」的品牌和文化極為重要,但維持絕對領先的技術優勢往往會帶來難以承受的財務壓力。
競爭的加劇和監管的減少,讓普通用戶能在更短的時間內獲得更強大的AI。
實踐反復證明,擁有最強模型至關重要。而吸引新用戶的唯一方法,就是展示模型在某些能力或行為上與眾不同。
在當前技術快速發展的背景下,要想最大限度地發揮影響力,最有效的方式就是盡可能縮短從訓練到部署的時間。
如今,DeepSeek和xAI證明了,即使是在技術實力和資源配置上稍處劣勢,也能夠在競爭中脫穎而出,超越OpenAI、Anthropic等刻意按兵不動、選擇不發布最新模型的公司。
預訓練Scaling Law還能打?
從技術層面來看,Grok-3無疑非常龐大。雖然沒有具體的細節,但可以合理推測,Scaling仍然有助于提升性能(但可能在成本方面并非如此)。
xAI的方法以及放出的消息一直是,盡快啟動最大的計算集群。在獲得更多細節之前,最簡單的解釋是,Scaling Law依然有效。但也有可能,Grok的表現更多來自于其他技術,而不僅僅是單純的Scaling。

Nathan Lambert認為,Grok-3是Scaling Law的又一次勝利:
Grok 3憑借規模優勢超越現有模型的情況,讓人回想起Nemotron 340B超越Llama 3 70B的時刻。當時Nemotron雖然成為了開源模型中的佼佼者,但由于其性能提升相對于成本投入來說性價比不高,市場接受度一直較低。
總的來說,盡管Grok-3在技術上取得了重大突破,但這并不意味著在模型高效訓練領域的競爭格局發生了實質性改變。
xAI顯然正在追趕OpenAI、Anthropic,尤其是谷歌。但現有的各項指標都表明,在模型訓練效率方面,這些研究機構仍然處于領先地位。
值得高興的是,這種競爭態勢迫使這些機構將重點放在提升模型的絕對智能水平上,而不是僅僅繼續優化其性價比。
進展的方向
如果AI模型,以及整個行業都在加速發展,那么重要的是思考它們加速發展的方向是什么。
現在用來評估領先模型的大多數方法,并不具有代表性。在許多情況下,它們實際上與正常生活完全脫節。
解決像AIM之類的競賽數學問題或所謂的「Google Proof」問題有什么價值?或許時間會給出證明,但對于普通用戶來說,其用處肯定有限。
在ChatBotArena評測中的微小進步僅僅表明了系統穩定性的略微提升。這種穩健性會隨著時間的推移而累積,但遠不能說明該模型在絕對意義上更智能。
事實上,從研究界最新的評估方法來看,測試標準似乎更注重難度而非實用性。
隨著模型變得愈發強大,研究人員自然會尋找更具挑戰性的任務來測試它們,但這反而使得追蹤技術進展和相關交流變得更加困難。
各大公司都有眾多未公開的內部評估指標。提高這方面的透明度,將有助于更好地理解什么才是真正有意義的進展。
目前,在缺乏這些指標的情況下,用戶只能通過模型與產品的整合程度來判斷其發展。雖然這種協同確實能帶來極具價值的工作方式,但以此衡量AI進展的方式終究是間接的。
回顧2024年,雖然表面上看似進展有限,但實際上卻有著不少有實質性的突破,只是最終僅有很少一些交付給了用戶。
直到年底才等來了o1,其他模型要么被認為「規模過大無法部署」,要么缺乏必要的緊迫性。
正是DeepSeek帶來了鯰魚效應,給這些公司帶來了緊迫感,讓2025年成為智能進入用戶手中的一年。
底層技術的進展速度將繼續保持高速。此前預測的所謂AI發展「瓶頸」并未出現。





































