杭州95后學霸坐C位,Grok 3登頂App Store!Hinton高徒、多倫多華人博士領(lǐng)銜
昨日官宣免費不過幾小時,Grok直接在美區(qū)App Store榜一。
馬斯克甚至欣喜地表示,這還沒有集成語音模式,未來幾天即將上線。


付費用戶可以提前體驗Grok 3語音模式
這場史詩級發(fā)布,焦點不僅僅在Grok 3上,還有發(fā)布會現(xiàn)場坐在C位的兩位華人科學家。
一位是多倫多大學計算機科學助理教授Jimmy Ba,另一位是xAI聯(lián)創(chuàng)吳懷宇(Tony Wu)。
值得一提的是,吳懷宇是四人當中唯一一個95后,畢業(yè)于杭州建蘭中學,博士期間在多倫多大學,曾是AlphaGeometry、AlphaStar核心開發(fā)者。
Jimmy Ba還是AI大佬Hinton的學生。

Igor Babuschkin、Jimmy Ba、吳懷宇、馬斯克
值得一提的是,Grok 3 Beta官方技術(shù)博客也終于出爐了,被稱為跨入推理智能體時代的AI。
20(/10)萬塊GPU訓出的首款Grok,在推理、數(shù)學、編碼、世界知識等任務(wù)方面,取得了顯著提升,成功為Scaling Law續(xù)命。

博客詳細介紹了Grok 3的各個功能和基準測試結(jié)果
xAI最強智能系統(tǒng)
18號,xAI推出了迄今為止最先進的模型Grok 3:它將強大的推理能力與廣泛的預(yù)訓練知識融為一體。
Grok 3在xAI的Colossus超級計算集群上訓練,運算能力是現(xiàn)有頂尖模型的10倍,在推理、數(shù)學、編程、世界知識和指令遵循任務(wù)方面都表現(xiàn)出顯著提升。
Grok 3的推理能力通過大規(guī)模強化學習(RL)得到提升,使其能夠進行持續(xù)數(shù)秒到數(shù)分鐘的思考,糾正錯誤、探索替代方案,并提供準確答案。它在學術(shù)基準測試和真實用戶偏好方面都表現(xiàn)出色,在Chatbot Arena中獲得了1402的Elo評分。
與此同時,xAI還推出了Grok 3 mini,代表著高效推理的新突破。
更深入的思考:測試時計算與推理
Grok 3(Think)和 Grok 3 mini(Think)這兩個beta版的推理模型,使用RL進行訓練,規(guī)模前所未有。因此,CoT推理過程得到提升,實現(xiàn)了高效的高級推理。
RL訓練后的Grok 3(Think),學會了完善問題解決策略,還能用回溯來糾正自己的錯誤、簡化步驟,并且會利用預(yù)訓練中獲得的知識。
就像人類面對復(fù)雜問題時一樣,它會花費幾秒到幾分鐘的時間去推理,還能用多種方法驗證答案,評估如何精準滿足要求。
比如這個問題「人生的意義是什么?」
Grok 3會花費4秒鐘思考,總結(jié)說:對生命意義的追問,是人類幾百年來的困難,表現(xiàn)形式會因提問者和所看重的東西而大相徑庭。

這兩個模型雖然仍在訓練中,但在多個基準測試中已經(jīng)展現(xiàn)出卓越的表現(xiàn)。
xAI表示,他們在2月12日(僅7天前)發(fā)布的2025年美國數(shù)學邀請賽(AIME)上測試了這些模型。
他們使用最高級別的測試時計算參數(shù)(cons@64),Grok 3(Think)在這項競賽中達到了93.3%的正確率,在研究生級別的專家推理測試(GPQA)中達到了84.6%的成績,在代碼生成和問題解決的LiveCodeBench測試中達到了79.4 %。
此外,Grok 3 mini在不需要太多世界知識的科學、技術(shù)、工程和數(shù)學(STEM)任務(wù)中實現(xiàn)了高效推理能力的新突破,在2024年AIME中達到95.8 %的正確率,在LiveCodeBench中達到80.4 %的成績。

要使用Grok 3的推理能力,只需點擊「Think」(思考)按鈕即可。
Grok 3(Think)的思維模式完全開放,使用戶不僅可以看到最終答案,還可以了解模型的完整推理過程。它的推理能力可以廣泛應(yīng)用于各類問題領(lǐng)域。下面,讓我們看看Grok 3的一些推理示例。
代碼
在這個任務(wù)中,Grok 3被要求用pygame創(chuàng)建一款混合兩種經(jīng)典游戲的的混合游戲,看起來要很漂亮。
思考6分鐘后,Grok 3給出了完整的代碼實現(xiàn)。
它做出了一個功能完整的2D游戲,代碼結(jié)構(gòu)清晰,注釋詳細,易于理解和修改。游戲結(jié)合了經(jīng)典元素(Breakout 和 Pong),娛樂性拉滿。
而視覺效果,是通過粒子和顏色增強呈現(xiàn)的。



所以,Grok 3是怎樣滿足「讓游戲看起來很漂亮」這個要求的呢?
它用五彩斑斕的磚塊、磚塊破碎時的粒子效果、漸隱粒子等,實現(xiàn)了動態(tài)的外觀呈現(xiàn)。
另外,Grok 3還有一些更加別具匠心的設(shè)計,比如添加彈跳的音效,使用更大的球拍、更快的球增加力道、添加背景漸變等。

ASCII Art
這個任務(wù)中要求Grok 3創(chuàng)建一個高保真Frank Lloyd Wright風格住宅的ASCII字符藝術(shù)。
Frank Lloyd Wright是一位著名的美國建筑師,以其有機建筑風格著稱,作品通常與自然環(huán)境融為一體,特征包括水平線條、開放空間和大窗戶。
Grok 3思考了3分鐘后開始輸出它的作品。


可以看出,Grok 3生成的圖片通過ASCII字符生動地再現(xiàn)了Frank Lloyd Wright草原風格建筑的經(jīng)典特征。設(shè)計簡潔而富有層次感,完美捕捉了草原風格建筑的本質(zhì)。
圖片下方還提供了詳細的設(shè)計說明和注意事項,解釋了每個ASCII字符的象征意義:屋頂用斜線和橫線強調(diào)水平線條,煙囪位于屋頂左側(cè)增加平衡,墻壁和窗戶強化水平延伸,基礎(chǔ)線體現(xiàn)有機整合。

24點游戲
這個任務(wù)中,Grok 3被要求用4、4、10、10來玩24點游戲,目標是添加加減乘除運算符,得出24。
它需要選出,成功完成這個游戲的第一個運算是什么。

思考3分鐘后,它得出了解法:使用((10×10)?4)÷4這個表達式,因此選出答案F。并且,它還進一步進行了驗證,排除了其他選項的可能性。


數(shù)學
接下來,是一道難度不小的數(shù)學題。
這道題給出了一個遞歸定義,涉及到了正整數(shù)n和一系列從集合{1,…,n} 中均勻隨機選擇的整數(shù)m_n,k。
最終,題目要求計算出期望值E(n),并求出在n趨于無限時,E(n)/n的極限值。

Grok 3思考了4分鐘后,確定了自己需要完成的步驟。
首先,需要分析狀態(tài)空間和轉(zhuǎn)換,然后要定義漂移項和期望值的遞推關(guān)系,第三步要解決遞歸,最后一步就是計算極限。
最終,Grok 3給出了最終答案:(1-e^(-2))/2。


超大規(guī)模預(yù)訓練
當不啟用推理功能時,Grok 3能夠即時提供高質(zhì)量回答。
在常規(guī)模型(非推理模式)中,Grok 3在多項學術(shù)基準測試中均達到了SOTA,這些測試包括:研究生級科學知識評估(GPQA)、高級通用知識測試(MMLU-Pro)、數(shù)學競賽解題能力(AIME)等。
同時,Grok 3在圖像理解能力測試(MMMU)和視頻內(nèi)容理解任務(wù)(EgoSchema)中也展現(xiàn)出卓越表現(xiàn)。

Grok 3的上下文處理窗口可達100萬個token,是Grok 2的8倍,這使其能夠處理超長文檔并響應(yīng)復(fù)雜提示詞,同時保持極高的指令執(zhí)行準確度。
在專門測試長文本RAG能力的LOFT基準測試(支持128k長度)中,Grok 3在12項不同任務(wù)的平均準確率上達到了SOTA,充分展示了其卓越的信息檢索能力。
Grok 3同時在事實準確性和文風把控方面都取得了顯著提升。以代號「chocolate」發(fā)布的Grok 3早期版本在LMArena Chatbot Arena排行榜上獨占鰲頭,其Elo評分在所有評估類別中均超越競爭對手。
目前,xAI正在擴大發(fā)展規(guī)模,準備利用配備20萬個GPU的計算集群來訓練更大規(guī)模的模型。

Grok智能體:融合推理能力與工具運用
為了理解宇宙,xAI讓Grok與現(xiàn)實世界實現(xiàn)交互。通過整合Code Interpreter(代碼解釋器)和互聯(lián)網(wǎng)訪問能力,Grok 3模型能夠主動查詢所需的上下文信息,靈活調(diào)整處理方法,并通過反饋不斷優(yōu)化其推理能力。
作為實現(xiàn)這一愿景的第一步,xAI推出了他們的首個AI智能體——DeepSearch。
這是一個反應(yīng)極速的AI智能體,專注于在浩瀚的人類知識庫中持續(xù)探索真相。
無論是實時掌握最新資訊,解決社交難題,還是開展深度科研工作,DeepSearch都能提供遠超普通搜索引擎的體驗。它最終會生成一份精煉而全面的總結(jié)報告,助你在這個快速發(fā)展的世界中把握先機。
兩位華人坐鎮(zhèn)C位,還有一位杭州95后
Grok 3直播畫面中,馬斯克與三位技術(shù)負責人并肩而坐,一開場,還謙虛地說自己什么也沒干。
其中兩位華人頗有緣分,Jimmy Ba和吳宇懷均在多倫多大學完成了博士學位。
個人資料顯示,Jimmy Ba目前是多倫多大學計算機科學系助理教授,他的學士、碩士學位也是在多倫多大學完成,導(dǎo)師分別是Brendan Frey和Ruslan Salakhutdinov。
博士期間,曾在Geoffrey Hinton指導(dǎo)下完成了學業(yè)。
Jimmy Ba還曾獲得了2016年Facebook研究生獎學金,2023年諾獎風向標「斯隆研究獎」。

提及個人貢獻,Jimmy Ba曾提出了大名鼎鼎的深度學習訓練算法Adam優(yōu)化器,這是一種自適應(yīng)學習率的優(yōu)化算法。
這篇發(fā)表在2015年的論文,被引數(shù)量突破了20萬。
另一篇被引最高的論文,是與Hinton一起完成「層歸一化」(Layer Normalization),一種深度學習中用于優(yōu)化神經(jīng)網(wǎng)絡(luò)的方法。

另一位吳宇懷,是一位名副其實的95后學霸。
小學一年級就讀于新安江一小,后轉(zhuǎn)學到杭州紫陽小學。到了初中,進入杭州建蘭中學學習,隨后高中又轉(zhuǎn)到加拿大。

他的職業(yè)生涯更為豐富,從OpenAI、谷歌DeepMind,到斯坦福博士后研究員、谷歌研究科學家,再到如今xAI聯(lián)創(chuàng),走出了不同尋常的人生軌跡。

他曾參與了許多人熟知的AI研發(fā),比如STaR、Minerva、AlphaGeometry、Autoformalization、Memorizing Transformer、AlphaStar等。
吳懷宇也曾與圖靈獎得主Bengio有交集,在2016 NrurIPS上,他們與多位合著者共同提出了Multiplicative Integratio架構(gòu),共同改善循環(huán)神經(jīng)網(wǎng)絡(luò)。

論文地址:https://arxiv.org/pdf/1606.06630
除了他們兩人,事實上,xAI團隊還有不少有名的華人科學家。

聯(lián)創(chuàng)Greg Yang(楊格),出生在湖南,本碩就讀于哈佛大學數(shù)學系,大學時期的導(dǎo)師是數(shù)學家丘成桐。在加入xAI前,他是微軟的高級研究員,負責AI理論研究。
他的學術(shù)生涯充滿傳奇色彩,在哈佛求學期間,他曾兩度休學,一次是為了追求自己的DJ夢想,另一次則是為了深入研究數(shù)學。于2018年榮獲摩根獎(Morgan Prize)榮譽獎,現(xiàn)研發(fā)TensorPrograms理論和擴展神經(jīng)網(wǎng)絡(luò)的實踐。
他的研究方向深受數(shù)學驅(qū)動,他曾在社交平臺上寫道:「Math for AI, and AI for Math!」(數(shù)學推動AI,AI反過來也能推動數(shù)學)。在AI研究人員眼中,他不僅是一位科學家,更是一位愿意挑戰(zhàn)AI理論極限的數(shù)學家。

清華校友Zihang Dai(戴子航),前谷歌大腦研究員,獲得了清華和CMU的學位。此前,他還在百度美國分公司和蒙特利爾大學的MILA進行過研究實習。
戴子航本科畢業(yè)于清華大學計算機科學系,大學期間,連續(xù)三年拿下專業(yè)第一,并在大三暑假,師從著名計算機視覺專家朱松純開展研究。2020年博士畢業(yè)于卡內(nèi)基梅隆大學計算機系,隨后加入谷歌研究院。
他在自然語言處理(NLP)領(lǐng)域擁有深厚的積累,尤其擅長Transformer架構(gòu)的優(yōu)化與創(chuàng)新。他曾在谷歌和百度美區(qū)實習,并在多個頂級AI會議上發(fā)表論文。

浙大校友Guodong Zhang(張國棟),也是機器學習和人工智能領(lǐng)域的研究者,曾就職于多倫多大學和矢量研究所(Vector Institute),因研究大模型訓練、微調(diào)、對齊而聞名。
他本科就讀于浙江大學信息工程專業(yè),大學時連續(xù)三年排名專業(yè)第一,拿了三年的國家獎學金,還獲得過全國大學生數(shù)學建模競賽一等獎,美國大學生數(shù)學建模競賽一等獎。
大二時,他對人工智能產(chǎn)生了濃厚興趣,投入到計算機視覺領(lǐng)域的研究中;大三暑假,跟著全球著名計算機視覺專家朱松純從事相關(guān)研究。加入xAI之后,他的研究方向主要聚焦于如何優(yōu)化AI訓練效率,并提升模型的穩(wěn)定性。

另有網(wǎng)友繪制了一幅xAI成員背景圖,可以看華人學者占據(jù)近一半比例。






























