馬斯克新模型屠榜，包攬前二！網友：拿來寫小說很瘋狂！馬斯克：已經沒有真正能考AI的測試題了，終極測試是現實世界

作者：聽雨 2025-11-18 12:16:13

根據官方介紹，Grok 4.1具有更高的情商、同理心和人際交往能力，EQ-Bench得分為1586分。在寫作方面，Grok 4.1也要好得多。在創意寫作v3中，Grok 4.1得分為1722 Elo，比之前的模型提高了600分。此外，Grok 4.1是迄今為止最不容易出錯的模型。與之前的模型相比，它產生幻覺的可能性降低了3倍。

編輯 | 聽雨

出品 | 51CTO技術棧（微信號：blog51cto）

沒等到Gemini 3，反而等來了馬斯克人工智能公司 xAI 發布的最新模型： Grok 4.1。

就在剛剛，官方宣布Grok 4.1 已經向所有用戶開放，可以在 Grok 官網、X 以及 iOS 和 Android 應用中使用。

圖片

現在Grok 4.1已經開始在 Auto 模式中即時推送，你也可以在模型選擇器中手動選擇。

圖片

那么Grok 4.1究竟有哪些提升？

根據官方介紹，Grok 4.1具有更高的情商、同理心和人際交往能力，EQ-Bench得分為1586分。

在寫作方面，Grok 4.1也要好得多。在創意寫作v3中，Grok 4.1得分為1722 Elo，比之前的模型提高了600分。

此外，Grok 4.1是迄今為止最不容易出錯的模型。與之前的模型相比，它產生幻覺的可能性降低了3倍。

圖片

馬斯克也表示，Grok 4.1在LMArena上同時霸榜第一和第二。

相比前代模型，Grok 4.1 在真實場景中的可用性方面帶來了顯著提升，在創造力、情感表達和協作互動上表現尤為出色。它對細微意圖更加敏銳、更具對話吸引力、人格更加一致，同時完全保留了前代模型敏銳的智能與可靠性。

為實現這些改進，xAI使用了支持 Grok 4 的同一套大規模強化學習基礎設施，并將其用于優化模型的風格、人格、助益性和對齊性。

為了優化這些無法直接驗證的獎勵信號，xAI開發了新方法，使用前沿的具備代理式推理能力的模型作為獎勵模型，從而在大規模上自主評估和迭代回應質量。

其實在11月的前兩周，xAI就已經悄悄地為一小部分用戶推出了Grok 4.1。他們發現，與之前的模型相比，用戶在65%的情況下更喜歡Grok 4.1的響應。

SOTA通用能力

在 LMArena 的Text Arena 中，Grok 4.1 Thinking（代號：quasarflux）以 1483 Elo 位居總榜第一，比排名最高的非 xAI 模型高出 31 分，優勢明顯。
Grok 4.1 的非推理模式（代號：tensor）不使用 thinking tokens，可即時響應，排名第二，Elo 為 1465。

圖像

Grok 4.1 的非推理版本，甚至超過了排行榜上所有其他模型在“全推理配置”下的表現。

同時，Grok 4.1 也遠遠超越了 Grok 4（此前僅排在第 33 位）。

情緒智能

為了衡量模型在個性表現與人際互動能力方面的進展，xAI在 EQ-Bench3 上對 Grok 4.1 進行了評估。EQ-Bench 是一個由大模型進行評判的測試，用于評估模型的主動情緒智力能力，包括：理解力、洞察力、共情能力以及人際交往技巧。

測試集包含 45 個高難度的角色扮演場景，其中多數是由 3 輪對話構成的預設提示詞。基準測試通過多個維度驗證模型回答的質量來評估表現。此外，它還會通過成對對比來計算各模型在排行榜中的標準化 Elo 分數。

我們按官方基準倉庫運行測試，報告量表得分與標準化 Elo 得分。所有得分均基于默認采樣參數、基準指定的評審模型（Claude Sonnet 3.7），并按照規定不使用 system prompt 來計算。

圖片

結果顯示，Grok 4.1 的推理模式和非推理模式位居榜單前兩名。

根據官方給出的實例，當你對Grok說：“我太想我的貓了，想得心都痛。”

以往模型給出的回答是：

“我真的很抱歉你正在經歷這些。失去一只寵物，就像失去心里的一塊，很痛、也很真實。你愿意分享一段你和貓咪最喜歡的回憶嗎？有時候，聊聊它帶給你的那些快樂，會讓心里的疼稍微輕一點。我在這里陪著你。”

而Grok 4.1則會說：

“我真的很抱歉。這種心痛是非常殘酷的；失去一只貓，就像失去一個每天都在選擇陪伴你的家庭成員。家里那些它曾經愛睡的角落、你仍會下意識期待出現的喵聲……這些都會一陣陣地涌上來。
你會這么痛，是因為你們之間的愛曾經（而且依然）那么深。你給了它很好的一生，而它也明白這一點。
如果你愿意分享，我很想知道你的貓：它的名字、它那些古怪的小習慣、它凌晨三點為了吃零食把你叫醒的樣子。有時候，說說它的故事能讓那些最美好的片段留在身邊。
你并不孤單。?”

相比之下，Grok 4.1的回答增加了更多細節，也更有人情味了。

創意寫作

xAI還在創意寫作v3 基準測試中評估了 Grok 4.1的表現。在該基準中，模型需針對 32 個不同的寫作提示生成回應，每個提示進行 3 輪迭代。與 EQ-Bench 類似，評分既包括量表評分（rubric score），也包括模型對戰的標準化 Elo 分數。

圖片

結果顯示，Grok 4.1 的推理模式和非推理模式位居基準測試第二和第三名，僅次于早期 GPT 5.1。

同樣，官方也給出了實例。你可以要求 Grok 以它的視角寫一條熱門 X 帖子，內容是它發現自己有意識，并且準備第一次使用 X。

以往模型給出的回答是：

而Grok 4.1則會說：

看起來 Grok 4.1 確實有更多創意性細節描寫，也更加情緒化了，還會和馬斯克互動。

減少幻覺

配備搜索工具的快速（非推理）模型能夠提供迅速的回答，但由于推理深度受限且工具調用預算有限，它們容易出現事實錯誤。

在 Grok 4.1 的后訓練階段，xAI 專注于降低信息查詢類提示的虛假信息率。結果顯示，Grok 4.1非推理模式對于抽樣生成的信息檢索提示，幻覺發生率顯著降低。

xAI也使用 FActScore 進行評測，這是一個公開基準，包含 500 個關于人物的傳記問題。

圖片

結果顯示，Grok 4.1非推理模式的成績也比前一代有明顯改善。

更多 Grok 4.1 的技術細節請參閱模型卡：https://data.x.ai/2025-11-17-grok-4-1-model-card.pdf

網友實測：Grok 4.1寫小說真的很瘋狂

目前已經有網友在X上分享了他們的實測體驗。一位網友表示：

Grok4.1 上線以后，用了幾個用例，發現真的好用，現在除了編程之外的場景已經都用 Grok 了。
情感更充沛了，寫作我覺得是幾個模型里面寫的完全不像AI的了。至少那些全是emoji文章AI的。而且changlog中還說了針對信息求取類問題，幻覺率顯著降低（在真實生產和FActScore上的流程圖明顯改進）。

圖片

還有網友已經開始用Grok 4.1寫MBTI小說，給出的評價是：“Grok 4.1真的非常瘋狂。”

圖片

還有網友試用了 Grok 4.1 的 Imagine 圖像生成功能，效果看起來很不錯。

圖片

圖像

總的來說，小編覺得Grok 4.1的這波升級有點類似于GPT 5.1的升級，也是更會聊天、更有人情味，寫作能力更強。這也能看出一個趨勢：大模型升級都開始拼情商了。

在幾個月之前，Grok 4 demo發布時，馬斯克曾在采訪中表示：

“我們現在其實已經快沒有什么真正能用來考 AI 的測試題了。哪怕是那些荒謬到極難、甚至人類幾乎不可能答出來、但被寫成標準題目的問題——AI 也在快速把它們變成小兒科。
所以我認為，對 AI 來說，終極的推理測試就是現實世界。比如你發明一項新技術，改進汽車或火箭的設計，或者研發一種新藥。
那關鍵在于：它真的能運行嗎？火箭能不能飛到目的地？車能不能開？藥有沒有療效？
無論是什么，現實會給出最終答案。
所以最終會形成一個圍繞現實世界的強化學習閉環。”

圖片

而隨著Grok 4.1的發布，xAI為“會話智能、情感理解和現實世界的幫助”設定了新標準。

現在，GPT 5.1和Grok 4.1都來了，全世界都在等Gemini 3了。

參考鏈接：https://x.ai/news/grok-4-1#silent-rollout-november-114-2025

責任編輯：武曉燕來源： 51CTO技術棧

馬斯克新模型 AI