OpenAI最強(qiáng)對(duì)手出現(xiàn)！馬斯克發(fā)布Grok-4，性能碾壓Claude 4兩倍！精華

發(fā)布于 2025-7-14 07:37

瀏覽

0收藏

就在半小時(shí)前，馬斯克的Grok4終于正式發(fā)布了。

Grok3.5跳票。老馬的直播還遲到1h也是沒誰了，全世界都被耍猴。

OpenAI最強(qiáng)對(duì)手出現(xiàn)！馬斯克發(fā)布Grok-4，性能碾壓Claude 4兩倍！-AI.x社區(qū)

最貴版本，300美刀，可以思考大幾十分鐘，一般人也用不上。

直播表示，Grok-4“能夠進(jìn)行超人級(jí)別的推理”（It can reason at a superhuman level!），并且在多項(xiàng)高難度基準(zhǔn)測試上實(shí)現(xiàn)了對(duì)現(xiàn)有頂尖模型的碾壓。

Artificial Analysis 獲得早期訪問權(quán)限并發(fā)布了 Grok 4 基準(zhǔn)測試，數(shù)據(jù)著實(shí)恐怖。

OpenAI最強(qiáng)對(duì)手出現(xiàn)！馬斯克發(fā)布Grok-4，性能碾壓Claude 4兩倍！-AI.x社區(qū)

今天的循環(huán)回到了XAI~

OpenAI最強(qiáng)對(duì)手出現(xiàn)！馬斯克發(fā)布Grok-4，性能碾壓Claude 4兩倍！-AI.x社區(qū)

馬斯克表示：“Grok-4幾乎在所有學(xué)科上都比人類研究生更聰明。”

OpenAI最強(qiáng)對(duì)手出現(xiàn)！馬斯克發(fā)布Grok-4，性能碾壓Claude 4兩倍！-AI.x社區(qū)

繼續(xù)延續(xù)上一代的闊氣：

xAI認(rèn)為，可靠的信號(hào)是強(qiáng)化學(xué)習(xí)成功的關(guān)鍵，而他們已經(jīng)找到了讓模型在智能上實(shí)現(xiàn)巨大飛躍的路徑。

OpenAI最強(qiáng)對(duì)手出現(xiàn)！馬斯克發(fā)布Grok-4，性能碾壓Claude 4兩倍！-AI.x社區(qū)

Grok-4在多個(gè)被認(rèn)為是衡量模型推理能力“天花板”的基準(zhǔn)上，交出了一份近乎完美的答卷。

AIME數(shù)學(xué)競賽滿分：在AIME25數(shù)學(xué)競賽上，Grok-4拿下了滿分！這是對(duì)模型邏輯推理和數(shù)學(xué)能力的終極考驗(yàn)。但是圖畫的很漂亮，滿分是調(diào)用工具的結(jié)果，o3+工具也接近滿分。
ARC-AGI基準(zhǔn)翻倍：在私有的AGI能力測試集ARC-AGI v2上，Grok-4成為了首個(gè)突破10%門檻的模型，得分高達(dá)15.9%，是第二名Claude Opus 4的兩倍還多。
Vending Bench奪魁：在另一個(gè)衡量復(fù)雜任務(wù)解決能力的Vending Bench上，Grok-4同樣取得第一，凈值是Claude Opus 4的兩倍。

馬斯克：“AI的終極推理測試，是在現(xiàn)實(shí)世界中運(yùn)行。而這些數(shù)據(jù)表明，Grok-4正朝著解決真實(shí)、復(fù)雜問題的通用智能體方向大步邁進(jìn)。”

原生工具調(diào)用：Grok-4具備了原生的工具調(diào)用能力，這使其Agent形態(tài)的性能得到顯著提升。
API與上下文：模型將通過xAI API提供，擁有256K的上下文窗口，并支持實(shí)時(shí)數(shù)據(jù)搜索。
多模態(tài)能力：除了文本，Grok-4在語音和視頻理解方面也進(jìn)行了重點(diǎn)改進(jìn)，語音交互速度提升2倍，為構(gòu)建更強(qiáng)大的多模態(tài)智能體鋪平了道路。