馬斯克悄然發布Grok 4.1,霸榜大模型競技場所有排行榜
剛剛,馬斯克發布Grok 4.1,同時霸榜大模型競技場的第一和第二。
怎么做到的?

Grok 4.1思考模式以1483的Elo分數穩居榜首,領先非xAI模型中的最高分整整31分。
Grok 4.1非思考模式以1465分拿下第二名,超越了公開排行榜上所有其他模型的完整推理模式。

之前的Grok 4在排行榜上僅排第33位。不到半年時間,xAI就實現了巨大飛躍。
在大模型競技場新推出的專家榜和職業榜上,Grok 4.1思考模式同樣霸榜。

專家榜中的題目預計只有各自領域的頂尖專家才會提出,職業榜分為八個細分:
軟件和IT服務,寫作、文學和語言,生命科學、物理科學和社會科學,娛樂、體育和媒體,商業、管理和財務運營,數學、法律與政府,醫療保健
Grok4.1目前只在文學榜上輸給Gemini2.5,數學榜輸給Claude4.5和o3,其他六個榜單均拿下第一。

不過由于模型剛發布,投票數還很少,等“Preliminary”標記消失(超過一定票數)后的成績更有參考價值。
在非用戶投票的EQ-Bench情商測試中,Grok 4.1的表現同樣出色,超過剛發布不久的Kimi K2(但不是Thinking版本)。
EQ-Bench是一個由大語言模型評判的測試,評估主動情商能力、理解力、洞察力、同理心和人際交往技能。

將RLHF推向前所未有的高度
Grok 4.1原來早就暗中測試了。
從11月1日起,新版模型被逐步推送越來越多的用戶,期間持續進行盲測對比評估,64.78%的用戶更喜歡新版。

xAI官網給出了Grok4.1與之前版本在各個方面的回答對比。
響應情感問題:

創意寫作:

xAI在技術報告中特別強調,Grok 4.1在創造性、情感性和協作性互動方面帶來了顯著改進。模型變得更加善于捕捉細微的意圖,對話更有吸引力,個性表現更加連貫,同時完全保留了前代產品的敏銳智能和可靠性。
為了實現這些提升,團隊使用了支撐Grok 4的大規模強化學習基礎設施,并將其應用于優化模型的風格、個性、有用性和對齊性。他們開發的新方法讓前沿智能推理模型作為獎勵模型,能夠自主評估和迭代響應。
xAI負責后訓練的Dust Tran分享了更多細節,主要改進在強化學習上,將 RLHF推向前所未有的高度。
在過去的幾個月里,我們這個由十幾人組成的團隊利用用戶在真實對話中的偏好,以及基于強大推理能力進行評分的智能體獎勵模型,對強化學習 (RL) 的算法進行了全面改進.
此外,我們還將RL的規模擴大了一個數量級,遠超Grok 4中現有的類似預訓練的規模。
Grok 4.1對不需要思維鏈推理的快速回復模式做了特別加強。關閉推理功能后,輸出標記數從約2300個減少到850個。
此外Grok 4.1還重點改善了幻覺問題。
配備搜索工具的非推理模型可以快速給出答案,但由于推理深度受限和工具調用預算有限,很容易出現事實錯誤。
在Grok 4.1的后訓練階段,專注于減少信息檢索提示中出現的事實性幻覺。隨后觀察到,對于抽樣生成的信息檢索提示,幻覺發生率顯著降低。
在包含500個個人傳記問題的FActScore測試中,Grok 4.1非推理模式的成績也比前一代有明顯改善。

在更多示例中,Grok 4.1還展示出可以輸出圖文并茂的回答。

目前,Grok 4.1已經在grok.com、X平臺以及iOS和Android應用上向所有用戶開放,默認以自動模式推出,用戶也可以在模型選擇器中明確選擇Grok 4.1。
參考鏈接:
[1]https://x.ai/news/grok-4-1
[2]https://x.com/arena/status/1990530984014676155
[3]https://x.com/dustinvtran/status/1990532663258853720


































