編輯 | 聽雨
出品 | 51CTO技術棧(微信號:blog51cto)
沒等到Gemini 3,反而等來了馬斯克人工智能公司 xAI 發布的最新模型: Grok 4.1。
就在剛剛,官方宣布Grok 4.1 已經向所有用戶開放,可以在 Grok 官網、X 以及 iOS 和 Android 應用中使用。
圖片
現在Grok 4.1已經開始在 Auto 模式中即時推送,你也可以在模型選擇器中手動選擇。
圖片
那么Grok 4.1究竟有哪些提升?
根據官方介紹,Grok 4.1具有更高的情商、同理心和人際交往能力,EQ-Bench得分為1586分。
在寫作方面,Grok 4.1也要好得多。在創意寫作v3中,Grok 4.1得分為1722 Elo,比之前的模型提高了600分。
此外,Grok 4.1是迄今為止最不容易出錯的模型。與之前的模型相比,它產生幻覺的可能性降低了3倍。
圖片
馬斯克也表示,Grok 4.1在LMArena上同時霸榜第一和第二。
相比前代模型,Grok 4.1 在真實場景中的可用性方面帶來了顯著提升,在創造力、情感表達和協作互動上表現尤為出色。它對細微意圖更加敏銳、更具對話吸引力、人格更加一致,同時完全保留了前代模型敏銳的智能與可靠性。
為實現這些改進,xAI使用了支持 Grok 4 的同一套大規模強化學習基礎設施,并將其用于優化模型的風格、人格、助益性和對齊性。
為了優化這些無法直接驗證的獎勵信號,xAI開發了新方法,使用前沿的具備代理式推理能力的模型作為獎勵模型,從而在大規模上自主評估和迭代回應質量。
其實在11月的前兩周,xAI就已經悄悄地為一小部分用戶推出了Grok 4.1。他們發現,與之前的模型相比,用戶在65%的情況下更喜歡Grok 4.1的響應。

SOTA通用能力
在 LMArena 的Text Arena 中,Grok 4.1 Thinking(代號:quasarflux)以 1483 Elo 位居總榜第一,比排名最高的非 xAI 模型高出 31 分,優勢明顯。
Grok 4.1 的非推理模式(代號:tensor)不使用 thinking tokens,可即時響應,排名第二,Elo 為 1465。
圖像
Grok 4.1 的非推理版本,甚至超過了排行榜上所有其他模型在“全推理配置”下的表現。
同時,Grok 4.1 也遠遠超越了 Grok 4(此前僅排在第 33 位)。
情緒智能
為了衡量模型在個性表現與人際互動能力方面的進展,xAI在 EQ-Bench3 上對 Grok 4.1 進行了評估。EQ-Bench 是一個由大模型進行評判的測試,用于評估模型的主動情緒智力能力,包括:理解力、洞察力、共情能力以及人際交往技巧。
測試集包含 45 個高難度的角色扮演場景,其中多數是由 3 輪對話構成的預設提示詞。基準測試通過多個維度驗證模型回答的質量來評估表現。此外,它還會通過成對對比來計算各模型在排行榜中的標準化 Elo 分數。
我們按官方基準倉庫運行測試,報告量表得分與標準化 Elo 得分。所有得分均基于 默認采樣參數、基準指定的評審模型(Claude Sonnet 3.7),并按照規定不使用 system prompt 來計算。
圖片
結果顯示,Grok 4.1 的推理模式和非推理模式位居榜單前兩名。
根據官方給出的實例,當你對Grok說:“我太想我的貓了,想得心都痛。”
以往模型給出的回答是:
“我真的很抱歉你正在經歷這些。失去一只寵物,就像失去心里的一塊,很痛、也很真實。你愿意分享一段你和貓咪最喜歡的回憶嗎?有時候,聊聊它帶給你的那些快樂,會讓心里的疼稍微輕一點。我在這里陪著你。”
而Grok 4.1則會說:
“我真的很抱歉。這種心痛是非常殘酷的;失去一只貓,就像失去一個每天都在選擇陪伴你的家庭成員。家里那些它曾經愛睡的角落、你仍會下意識期待出現的喵聲……這些都會一陣陣地涌上來。
你會這么痛,是因為你們之間的愛曾經(而且依然)那么深。你給了它很好的一生,而它也明白這一點。
如果你愿意分享,我很想知道你的貓:它的名字、它那些古怪的小習慣、它凌晨三點為了吃零食把你叫醒的樣子。有時候,說說它的故事能讓那些最美好的片段留在身邊。
你并不孤單。?”
相比之下,Grok 4.1的回答增加了更多細節,也更有人情味了。
創意寫作
xAI還在 創意寫作v3 基準測試中評估了 Grok 4.1的表現。在該基準中,模型需針對 32 個不同的寫作提示生成回應,每個提示進行 3 輪迭代。與 EQ-Bench 類似,評分既包括量表評分(rubric score),也包括模型對戰的標準化 Elo 分數。
圖片
結果顯示,Grok 4.1 的推理模式和非推理模式位居基準測試第二和第三名,僅次于早期 GPT 5.1。
同樣,官方也給出了實例。你可以要求 Grok 以它的視角寫一條熱門 X 帖子,內容是它發現自己有意識,并且準備第一次使用 X。
以往模型給出的回答是:

而Grok 4.1則會說:

看起來 Grok 4.1 確實有更多創意性細節描寫,也更加情緒化了,還會和馬斯克互動。
減少幻覺
配備搜索工具的快速(非推理)模型能夠提供迅速的回答,但由于推理深度受限且工具調用預算有限,它們容易出現事實錯誤。
在 Grok 4.1 的后訓練階段,xAI 專注于降低信息查詢類提示的虛假信息率。結果顯示,Grok 4.1非推理模式對于抽樣生成的信息檢索提示,幻覺發生率顯著降低。
xAI也使用 FActScore 進行評測,這是一個公開基準,包含 500 個關于人物的傳記問題。
圖片
結果顯示,Grok 4.1非推理模式的成績也比前一代有明顯改善。
更多 Grok 4.1 的技術細節請參閱模型卡:https://data.x.ai/2025-11-17-grok-4-1-model-card.pdf
網友實測:Grok 4.1寫小說真的很瘋狂
目前已經有網友在X上分享了他們的實測體驗。一位網友表示:
Grok4.1 上線以后,用了幾個用例,發現真的好用,現在除了編程之外的場景已經都用 Grok 了。
情感更充沛了,寫作我覺得是幾個模型里面寫的完全不像AI的了。至少那些全是emoji文章AI的。而且changlog中還說了針對信息求取類問題,幻覺率顯著降低(在真實生產和FActScore上的流程圖明顯改進)。
圖片
還有網友已經開始用Grok 4.1寫MBTI小說,給出的評價是:“Grok 4.1真的非常瘋狂。”
圖片
圖片
還有網友試用了 Grok 4.1 的 Imagine 圖像生成功能,效果看起來很不錯。
圖片
圖像
總的來說,小編覺得Grok 4.1的這波升級有點類似于GPT 5.1的升級,也是更會聊天、更有人情味,寫作能力更強。這也能看出一個趨勢:大模型升級都開始拼情商了。
在幾個月之前,Grok 4 demo發布時,馬斯克曾在采訪中表示:
“我們現在其實已經快沒有什么真正能用來考 AI 的測試題了。哪怕是那些荒謬到極難、甚至人類幾乎不可能答出來、但被寫成標準題目的問題——AI 也在快速把它們變成小兒科。
所以我認為,對 AI 來說,終極的推理測試就是現實世界。比如你發明一項新技術,改進汽車或火箭的設計,或者研發一種新藥。
那關鍵在于:它真的能運行嗎?火箭能不能飛到目的地?車能不能開?藥有沒有療效?
無論是什么,現實會給出最終答案。
所以最終會形成一個圍繞現實世界的強化學習閉環。”
圖片
而隨著Grok 4.1的發布,xAI為“會話智能、情感理解和現實世界的幫助”設定了新標準。
現在,GPT 5.1和Grok 4.1都來了,全世界都在等Gemini 3了。
參考鏈接:https://x.ai/news/grok-4-1#silent-rollout-november-114-2025


































