Gemini 3 為什么厲害?項(xiàng)目負(fù)責(zé)人自曝:改進(jìn)了預(yù)訓(xùn)練和后訓(xùn)練!實(shí)測體驗(yàn):徹底抹平多模態(tài)開發(fā)門檻 原創(chuàng)
編輯 | 聽雨
昨天馬斯克剛發(fā)Grok 4.1,今天轉(zhuǎn)眼就被Gemini 3 打回老家去了。
今天北京時間0點(diǎn)整,Gemini 3 突襲全球,不僅拿了LMArena 總榜第一,更是屠榜所有評測集。直接把昨天Grok 4.1剛刷的榜給反超回去了。
圖片
山姆·奧特曼和馬斯克也第一時間發(fā)來賀電:
Image
三家聚齊,X上網(wǎng)友的梗圖更是滿天飛:
圖片
更有甚者已經(jīng)在底下問馬斯克Grok 4.2啥時候來了:
圖片
值得注意的是,根據(jù)此前泄漏的Gemini 3 模型卡信息,Google 從零開始在 TPU 上訓(xùn)練了這個模型,采用了 MoE(專家混合)架構(gòu),輸入 100 萬 Token,輸出 64k Token。而MoE架構(gòu)意味著,即使性能爆炸提升,成本也不會太高。
圖片
而谷歌DeepMind 研究副總裁兼深度學(xué)習(xí)負(fù)責(zé)人、Gemini 項(xiàng)目聯(lián)合負(fù)責(zé)人Oriol Vinyals則透露了Gemini 3 背后的秘訣:
Gemini 3 的秘密是什么?很簡單:改進(jìn)了預(yù)訓(xùn)練和后訓(xùn)練
預(yù)訓(xùn)練:與流行觀點(diǎn)相反——大家常認(rèn)為模型擴(kuò)展已經(jīng)到頂——我們在 NeurIPS 2025 的演講中與 @ilyasut 和 @quocleix 一起討論過,這次團(tuán)隊(duì)實(shí)現(xiàn)了巨大的飛躍。2.5 版與 3.0 版之間的差距,是我們見過的最大差距之一。前路無限,沒有盡頭!
后訓(xùn)練:依然是完全的“綠地”(greenfield)。算法優(yōu)化和改進(jìn)空間仍然很大,3.0 也不例外,這一切都得益于我們出色的團(tuán)隊(duì)。
圖片
SOTA推理能力
谷歌方面稱,Gemini 3 是他們在通往AGI的道路上又邁出的一大步。它是世界上最好的多模態(tài)理解模型,也是谷歌迄今為止最強(qiáng)大的智能體和vibe 編碼模型,能夠提供更豐富的可視化效果和更深入的交互性。
Gemini 3 evaluation table against other AI models
在所有主流 AI 基準(zhǔn)測試中,Gemini 3 Pro 的表現(xiàn)都遠(yuǎn)超 2.5 Pro。
它以 1501 Elo 的突破性成績登頂 LMArena 排行榜。在 人類最后的考試(無需使用任何工具情況下達(dá)成 37.5%)和 GPQA Diamond(91.9%)中取得頂級分?jǐn)?shù),展現(xiàn)出博士級的推理水平。在數(shù)學(xué)方面,它更是為前沿模型樹立了新標(biāo)桿:在 MathArena Apex 上取得 23.4% 的最新 SOTA 成績。
不僅在文本上強(qiáng)勢,Gemini 3 Pro 在多模態(tài)推理上也全面領(lǐng)先:
- MMMU-Pro:81%
- Video-MMMU:87.6%
它還在 SimpleQA Verified 上取得 72.1% 的 SOTA 成績,體現(xiàn)出顯著的事實(shí)準(zhǔn)確性進(jìn)步。
這意味著,Gemini 3 Pro 能以高度可靠性解決科學(xué)、數(shù)學(xué)等眾多復(fù)雜領(lǐng)域的難題,真正實(shí)現(xiàn)跨模態(tài)的全面突破。
Gemini 3 思考模式
Gemini 3 的 Deep Think 模式將智能的邊界進(jìn)一步推向極致,在推理與多模態(tài)理解能力上實(shí)現(xiàn)躍升,幫助你解決更加復(fù)雜的問題。
在測試中,Gemini 3 Deep Think 的表現(xiàn)全面超越了 Gemini 3 Pro:
- 在 Humanity’s Last Exam 上取得 41.0%(無需使用工具)
- 在 GPQA Diamond 上達(dá)到 93.8%
它還在 ARC-AGI-2 上達(dá)成前所未有的 45.1%(啟用代碼執(zhí)行,ARC Prize Verified),展現(xiàn)出解決全新挑戰(zhàn)的能力。
圖片
學(xué)習(xí)、創(chuàng)作和規(guī)劃
學(xué)習(xí)任何內(nèi)容
Gemini 從誕生之初就被設(shè)計為能夠無縫整合多模態(tài)信息,覆蓋文本、圖像、視頻、音頻和代碼。Gemini 3 更是將多模態(tài)推理推向新前沿:依托最先進(jìn)的推理、視覺與空間理解、頂級多語種能力,以及 100 萬 Token 超長上下文,讓你以最適合自己的方式學(xué)習(xí)任何主題。
比如想學(xué)習(xí)家族傳統(tǒng)料理,Gemini 3 能識別并翻譯多語言的手寫食譜,將它們整理成一本可分享的家庭食譜。

比如喂給Gemini 3 學(xué)術(shù)論文、長視頻講座或教程,它就能生成用于記憶和理解的互動卡片、可視化圖表或其他學(xué)習(xí)材料,幫助你快速掌握核心內(nèi)容。

創(chuàng)造任何東西
Gemini 3 是谷歌迄今最強(qiáng)的氛圍編碼和智能體編碼模型,讓產(chǎn)品具備更高自主性,進(jìn)一步提升開發(fā)效率。它以 1487 Elo 的成績登頂 WebDev Arena 排行榜。在測試模型使用工具操作終端能力的 Terminal-Bench 2.0 中,也取得 54.2% 的成績。在衡量編碼智能體能力的 SWE-bench Verified 中,則達(dá)到 76.2%,表現(xiàn)大幅領(lǐng)先 2.5 Pro。
比如構(gòu)建一個可玩的科幻世界:

規(guī)劃任何事
Gemini 3 在測試長期規(guī)劃能力的 Vending-Bench 2 中登頂,該基準(zhǔn)通過模擬經(jīng)營自動售貨機(jī)業(yè)務(wù)來評估模型的長周期規(guī)劃和管理能力。
據(jù)官方介紹,在這一測試?yán)铮珿emini 3 Pro 能在整整一年的模擬運(yùn)營中保持穩(wěn)定的工具使用和決策質(zhì)量,在不偏離任務(wù)的前提下取得更高收益。
圖片
Gemini 3 還能在日常生活中更有效地幫助你完成任務(wù)。比如讓它幫你整理郵箱:

全新智能體開發(fā)平臺:谷歌反重力
另外,谷歌也同步推出了 Google Antigravity —— 一款全新的智能體開發(fā)平臺,讓開發(fā)者能夠以更高層次、以任務(wù)為中心的方式進(jìn)行構(gòu)建。
借助 Gemini 3 的高級推理、工具使用能力和智能體編碼能力,Google Antigravity 將 AI 從開發(fā)者工具箱中的“一個工具”升級為真正的 主動合作伙伴。雖然 Antigravity 的核心體驗(yàn)依然是熟悉的 AI IDE,但其內(nèi)置的智能體被提升到獨(dú)立的界面,并擁有對 編輯器、終端和瀏覽器的直接訪問權(quán)限。現(xiàn)在,智能體可以在你的指令下自主規(guī)劃并執(zhí)行復(fù)雜的端到端軟件任務(wù),同時還能自行校驗(yàn)代碼。
除了 Gemini 3 Pro,Google Antigravity 還深度整合了最新的 Gemini 2.5 Computer Use(用于瀏覽器操作)以及頂級圖像編輯模型 Nano Banana(Gemini 2.5 Image)。
圖片
定價方面,Gemini 3.0 Pro 引入了基于上下文長度的分級定價機(jī)制:200k tokens 以下的任務(wù),輸入 / 輸出價格為 $2.00/$12.00(每百萬 token);超過 200k tokens 則分別為 $4.00 和 $18.00。
Gemini 3 現(xiàn)在已經(jīng)全面開放了。普通用戶和訂閱用戶分別可通過 Gemini App 及搜索 AI 模式使用新模型;開發(fā)者與企業(yè)客戶也能通過 AI Studio、Vertex AI 等渠道接入。深度思考模式則預(yù)計將在未來幾周內(nèi)面向 Google AI Ultra 訂閱用戶獨(dú)家上線。
Gemini 3 實(shí)測:一句提示詞就能進(jìn)行多模態(tài)開發(fā)
小編也第一時間體驗(yàn)了Gemini 3,效果也是相當(dāng)驚艷。以下是一些實(shí)測案例:
1、用HTML生成3D演示動畫,向中學(xué)生演示DNA雙螺旋的復(fù)制過程。大概十幾秒左右就生成了:
圖片
效果看起來還不錯,堿基圖例和復(fù)制過程演示都比較完整。
2、復(fù)刻一個 MacOS 操作系統(tǒng):
圖片
這一回Gemini 3同樣只花了十幾秒左右,就復(fù)刻了這樣一個MacOS界面。頂部菜單欄、對話框和 Docker 欄都是非常典型的Mac風(fēng),包括 Docker 欄的魚眼放大效果做的還不錯,右上角也會顯示當(dāng)前的真實(shí)時間。
雖然免費(fèi)的token不多,不過小編經(jīng)過這兩個案例的實(shí)測,也感覺到Gemini 3徹底抹平了多模態(tài)開發(fā)的門檻。即使是一個完全不懂代碼的編程小白,也可以靠一句簡單的提示詞做出一個3D動畫、一個游戲或者復(fù)刻一個操作系統(tǒng)。這種多模態(tài)理解能力帶來的體驗(yàn)是非常震撼的。
跟小編之前實(shí)測過的其他大模型(Mini Max M2、Sonnet 4.5等),Gemini 3的響應(yīng)速度快得驚人,平均十幾秒鐘就能做好一個網(wǎng)頁或動畫,并且效果都還不錯。在冷冰冰的榜單和數(shù)據(jù)之外,這種開發(fā)效率和成果讓小編實(shí)打?qū)嶓w會到了Gemini 3的強(qiáng)大。
在X上,Andrej Karpathy大神也第一時間試用了Gemini 3.0,并表示對它的“初步印象很好”。
圖片
當(dāng)然,也有網(wǎng)友指出,Gemini 3的空間推理能力還是比較一般,這也是所有大模型的通病。
圖片
那么,你認(rèn)為Gemini 3 怎么樣?你想用它來做些什么呢?
參考鏈接:??https://blog.google/products/gemini/gemini-3/???#responsible??-development?
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:聽雨

















