OpenAI最強(qiáng)對(duì)手出現(xiàn)!馬斯克發(fā)布Grok-4,性能碾壓Claude 4兩倍! 精華
就在半小時(shí)前,馬斯克的Grok4終于正式發(fā)布了。
Grok3.5跳票。老馬的直播還遲到1h也是沒誰了,全世界都被耍猴。

最貴版本,300美刀,可以思考大幾十分鐘,一般人也用不上。
直播表示,Grok-4“能夠進(jìn)行超人級(jí)別的推理”(It can reason at a superhuman level!),并且在多項(xiàng)高難度基準(zhǔn)測試上實(shí)現(xiàn)了對(duì)現(xiàn)有頂尖模型的碾壓。
Artificial Analysis 獲得早期訪問權(quán)限并發(fā)布了 Grok 4 基準(zhǔn)測試,數(shù)據(jù)著實(shí)恐怖。

今天的循環(huán)回到了XAI~

比所有研究生都聰明
馬斯克表示:“Grok-4幾乎在所有學(xué)科上都比人類研究生更聰明。”

繼續(xù)延續(xù)上一代的闊氣:
- Grok-4的訓(xùn)練量是Grok 2的100倍。
- 在強(qiáng)化學(xué)習(xí)(RL)階段投入的算力,是市面上其他任何模型的10倍以上。
xAI認(rèn)為,可靠的信號(hào)是強(qiáng)化學(xué)習(xí)成功的關(guān)鍵,而他們已經(jīng)找到了讓模型在智能上實(shí)現(xiàn)巨大飛躍的路徑。

橫掃頂級(jí)推理基準(zhǔn),完勝Claude 4
Grok-4在多個(gè)被認(rèn)為是衡量模型推理能力“天花板”的基準(zhǔn)上,交出了一份近乎完美的答卷。
- AIME數(shù)學(xué)競賽滿分:在AIME25數(shù)學(xué)競賽上,Grok-4拿下了滿分!這是對(duì)模型邏輯推理和數(shù)學(xué)能力的終極考驗(yàn)。但是圖畫的很漂亮,滿分是調(diào)用工具的結(jié)果,o3+工具也接近滿分。

- ARC-AGI基準(zhǔn)翻倍:在私有的AGI能力測試集ARC-AGI v2上,Grok-4成為了首個(gè)突破10%門檻的模型,得分高達(dá)15.9%,是第二名Claude Opus 4的兩倍還多。

- Vending Bench奪魁:在另一個(gè)衡量復(fù)雜任務(wù)解決能力的Vending Bench上,Grok-4同樣取得第一,凈值是Claude Opus 4的兩倍。

馬斯克:“AI的終極推理測試,是在現(xiàn)實(shí)世界中運(yùn)行。而這些數(shù)據(jù)表明,Grok-4正朝著解決真實(shí)、復(fù)雜問題的通用智能體方向大步邁進(jìn)。”
更強(qiáng)的Agent能力與未來規(guī)劃
- 原生工具調(diào)用:Grok-4具備了原生的工具調(diào)用能力,這使其Agent形態(tài)的性能得到顯著提升。

- API與上下文:模型將通過xAI API提供,擁有256K的上下文窗口,并支持實(shí)時(shí)數(shù)據(jù)搜索。

- 多模態(tài)能力:除了文本,Grok-4在語音和視頻理解方面也進(jìn)行了重點(diǎn)改進(jìn),語音交互速度提升2倍,為構(gòu)建更強(qiáng)大的多模態(tài)智能體鋪平了道路。

關(guān)于下一步,xAI的目標(biāo)非常明確:更快、更智能。編程(Coding)和更強(qiáng)大的多模態(tài)Agent將是接下來的核心焦點(diǎn)。

網(wǎng)友初步實(shí)測
天氣卡片是簡陋的。

寫文是低能的。

做題對(duì)了~

本文轉(zhuǎn)載自????探索AGI????,作者:獼猴桃

















