Gemini 3 為什么厲害?項(xiàng)目負(fù)責(zé)人自曝:改進(jìn)了預(yù)訓(xùn)練和后訓(xùn)練!實(shí)測(cè)體驗(yàn):徹底抹平多模態(tài)開(kāi)發(fā)門(mén)檻,響應(yīng)速度超快
原創(chuàng) 精選編輯 | 聽(tīng)雨
昨天馬斯克剛發(fā)Grok 4.1,今天轉(zhuǎn)眼就被Gemini 3 打回老家去了。
今天北京時(shí)間0點(diǎn)整,Gemini 3 突襲全球,不僅拿了LMArena 總榜第一,更是屠榜所有評(píng)測(cè)集。直接把昨天Grok 4.1剛刷的榜給反超回去了。
圖片
山姆·奧特曼和馬斯克也第一時(shí)間發(fā)來(lái)賀電:
Image
三家聚齊,X上網(wǎng)友的梗圖更是滿天飛:
圖片
更有甚者已經(jīng)在底下問(wèn)馬斯克Grok 4.2啥時(shí)候來(lái)了:
圖片
值得注意的是,根據(jù)此前泄漏的Gemini 3 模型卡信息,Google 從零開(kāi)始在 TPU 上訓(xùn)練了這個(gè)模型,采用了 MoE(專家混合)架構(gòu),輸入 100 萬(wàn) Token,輸出 64k Token。而MoE架構(gòu)意味著,即使性能爆炸提升,成本也不會(huì)太高。
圖片
而谷歌DeepMind 研究副總裁兼深度學(xué)習(xí)負(fù)責(zé)人、Gemini 項(xiàng)目聯(lián)合負(fù)責(zé)人Oriol Vinyals則透露了Gemini 3 背后的秘訣:
Gemini 3 的秘密是什么?很簡(jiǎn)單:改進(jìn)了預(yù)訓(xùn)練和后訓(xùn)練
預(yù)訓(xùn)練:與流行觀點(diǎn)相反——大家常認(rèn)為模型擴(kuò)展已經(jīng)到頂——我們?cè)?NeurIPS 2025 的演講中與 @ilyasut 和 @quocleix 一起討論過(guò),這次團(tuán)隊(duì)實(shí)現(xiàn)了巨大的飛躍。2.5 版與 3.0 版之間的差距,是我們見(jiàn)過(guò)的最大差距之一。前路無(wú)限,沒(méi)有盡頭!
后訓(xùn)練:依然是完全的“綠地”(greenfield)。算法優(yōu)化和改進(jìn)空間仍然很大,3.0 也不例外,這一切都得益于我們出色的團(tuán)隊(duì)。
圖片
SOTA推理能力
谷歌方面稱,Gemini 3 是他們?cè)谕ㄍ鵄GI的道路上又邁出的一大步。它是世界上最好的多模態(tài)理解模型,也是谷歌迄今為止最強(qiáng)大的智能體和vibe 編碼模型,能夠提供更豐富的可視化效果和更深入的交互性。
Gemini 3 evaluation table against other AI models
在所有主流 AI 基準(zhǔn)測(cè)試中,Gemini 3 Pro 的表現(xiàn)都遠(yuǎn)超 2.5 Pro。
它以 1501 Elo 的突破性成績(jī)登頂 LMArena 排行榜。在 人類最后的考試(無(wú)需使用任何工具情況下達(dá)成 37.5%)和 GPQA Diamond(91.9%)中取得頂級(jí)分?jǐn)?shù),展現(xiàn)出博士級(jí)的推理水平。在數(shù)學(xué)方面,它更是為前沿模型樹(shù)立了新標(biāo)桿:在 MathArena Apex 上取得 23.4% 的最新 SOTA 成績(jī)。
不僅在文本上強(qiáng)勢(shì),Gemini 3 Pro 在多模態(tài)推理上也全面領(lǐng)先:
- MMMU-Pro:81%
- Video-MMMU:87.6%
它還在 SimpleQA Verified 上取得 72.1% 的 SOTA 成績(jī),體現(xiàn)出顯著的事實(shí)準(zhǔn)確性進(jìn)步。
這意味著,Gemini 3 Pro 能以高度可靠性解決科學(xué)、數(shù)學(xué)等眾多復(fù)雜領(lǐng)域的難題,真正實(shí)現(xiàn)跨模態(tài)的全面突破。
Gemini 3 思考模式
Gemini 3 的 Deep Think 模式將智能的邊界進(jìn)一步推向極致,在推理與多模態(tài)理解能力上實(shí)現(xiàn)躍升,幫助你解決更加復(fù)雜的問(wèn)題。
在測(cè)試中,Gemini 3 Deep Think 的表現(xiàn)全面超越了 Gemini 3 Pro:
- 在 Humanity’s Last Exam 上取得 41.0%(無(wú)需使用工具)
- 在 GPQA Diamond 上達(dá)到 93.8%
它還在 ARC-AGI-2 上達(dá)成前所未有的 45.1%(啟用代碼執(zhí)行,ARC Prize Verified),展現(xiàn)出解決全新挑戰(zhàn)的能力。
圖片
學(xué)習(xí)、創(chuàng)作和規(guī)劃
學(xué)習(xí)任何內(nèi)容
Gemini 從誕生之初就被設(shè)計(jì)為能夠無(wú)縫整合多模態(tài)信息,覆蓋文本、圖像、視頻、音頻和代碼。Gemini 3 更是將多模態(tài)推理推向新前沿:依托最先進(jìn)的推理、視覺(jué)與空間理解、頂級(jí)多語(yǔ)種能力,以及 100 萬(wàn) Token 超長(zhǎng)上下文,讓你以最適合自己的方式學(xué)習(xí)任何主題。
比如想學(xué)習(xí)家族傳統(tǒng)料理,Gemini 3 能識(shí)別并翻譯多語(yǔ)言的手寫(xiě)食譜,將它們整理成一本可分享的家庭食譜。

比如喂給Gemini 3 學(xué)術(shù)論文、長(zhǎng)視頻講座或教程,它就能生成用于記憶和理解的互動(dòng)卡片、可視化圖表或其他學(xué)習(xí)材料,幫助你快速掌握核心內(nèi)容。

創(chuàng)造任何東西
Gemini 3 是谷歌迄今最強(qiáng)的氛圍編碼和智能體編碼模型,讓產(chǎn)品具備更高自主性,進(jìn)一步提升開(kāi)發(fā)效率。它以 1487 Elo 的成績(jī)登頂 WebDev Arena 排行榜。在測(cè)試模型使用工具操作終端能力的 Terminal-Bench 2.0 中,也取得 54.2% 的成績(jī)。在衡量編碼智能體能力的 SWE-bench Verified 中,則達(dá)到 76.2%,表現(xiàn)大幅領(lǐng)先 2.5 Pro。
比如構(gòu)建一個(gè)可玩的科幻世界:

規(guī)劃任何事
Gemini 3 在測(cè)試長(zhǎng)期規(guī)劃能力的 Vending-Bench 2 中登頂,該基準(zhǔn)通過(guò)模擬經(jīng)營(yíng)自動(dòng)售貨機(jī)業(yè)務(wù)來(lái)評(píng)估模型的長(zhǎng)周期規(guī)劃和管理能力。
據(jù)官方介紹,在這一測(cè)試?yán)铮珿emini 3 Pro 能在整整一年的模擬運(yùn)營(yíng)中保持穩(wěn)定的工具使用和決策質(zhì)量,在不偏離任務(wù)的前提下取得更高收益。
圖片

全新智能體開(kāi)發(fā)平臺(tái):谷歌反重力
另外,谷歌也同步推出了 Google Antigravity —— 一款全新的智能體開(kāi)發(fā)平臺(tái),讓開(kāi)發(fā)者能夠以更高層次、以任務(wù)為中心的方式進(jìn)行構(gòu)建。
借助 Gemini 3 的高級(jí)推理、工具使用能力和智能體編碼能力,Google Antigravity 將 AI 從開(kāi)發(fā)者工具箱中的“一個(gè)工具”升級(jí)為真正的 主動(dòng)合作伙伴。雖然 Antigravity 的核心體驗(yàn)依然是熟悉的 AI IDE,但其內(nèi)置的智能體被提升到獨(dú)立的界面,并擁有對(duì) 編輯器、終端和瀏覽器的直接訪問(wèn)權(quán)限。現(xiàn)在,智能體可以在你的指令下自主規(guī)劃并執(zhí)行復(fù)雜的端到端軟件任務(wù),同時(shí)還能自行校驗(yàn)代碼。
除了 Gemini 3 Pro,Google Antigravity 還深度整合了最新的 Gemini 2.5 Computer Use(用于瀏覽器操作)以及頂級(jí)圖像編輯模型 Nano Banana(Gemini 2.5 Image)。
圖片
定價(jià)方面,Gemini 3.0 Pro 引入了基于上下文長(zhǎng)度的分級(jí)定價(jià)機(jī)制:200k tokens 以下的任務(wù),輸入 / 輸出價(jià)格為 $2.00/$12.00(每百萬(wàn) token);超過(guò) 200k tokens 則分別為 $4.00 和 $18.00。
Gemini 3 現(xiàn)在已經(jīng)全面開(kāi)放了。普通用戶和訂閱用戶分別可通過(guò) Gemini App 及搜索 AI 模式使用新模型;開(kāi)發(fā)者與企業(yè)客戶也能通過(guò) AI Studio、Vertex AI 等渠道接入。深度思考模式則預(yù)計(jì)將在未來(lái)幾周內(nèi)面向 Google AI Ultra 訂閱用戶獨(dú)家上線。
Gemini 3 實(shí)測(cè):一句提示詞就能進(jìn)行多模態(tài)開(kāi)發(fā)
小編也第一時(shí)間體驗(yàn)了Gemini 3,效果也是相當(dāng)驚艷。以下是一些實(shí)測(cè)案例:
1、用HTML生成3D演示動(dòng)畫(huà),向中學(xué)生演示DNA雙螺旋的復(fù)制過(guò)程。大概十幾秒左右就生成了:
圖片
效果看起來(lái)還不錯(cuò),堿基圖例和復(fù)制過(guò)程演示都比較完整。
2、復(fù)刻一個(gè) MacOS 操作系統(tǒng):
圖片
這一回Gemini 3同樣只花了十幾秒左右,就復(fù)刻了這樣一個(gè)MacOS界面。頂部菜單欄、對(duì)話框和 Docker 欄都是非常典型的Mac風(fēng),包括 Docker 欄的魚(yú)眼放大效果做的還不錯(cuò),右上角也會(huì)顯示當(dāng)前的真實(shí)時(shí)間。
雖然免費(fèi)的token不多,不過(guò)小編經(jīng)過(guò)這兩個(gè)案例的實(shí)測(cè),也感覺(jué)到Gemini 3徹底抹平了多模態(tài)開(kāi)發(fā)的門(mén)檻。即使是一個(gè)完全不懂代碼的編程小白,也可以靠一句簡(jiǎn)單的提示詞做出一個(gè)3D動(dòng)畫(huà)、一個(gè)游戲或者復(fù)刻一個(gè)操作系統(tǒng)。這種多模態(tài)理解能力帶來(lái)的體驗(yàn)是非常震撼的。
跟小編之前實(shí)測(cè)過(guò)的其他大模型(Mini Max M2、Sonnet 4.5等),Gemini 3的響應(yīng)速度快得驚人,平均十幾秒鐘就能做好一個(gè)網(wǎng)頁(yè)或動(dòng)畫(huà),并且效果都還不錯(cuò)。在冷冰冰的榜單和數(shù)據(jù)之外,這種開(kāi)發(fā)效率和成果讓小編實(shí)打?qū)嶓w會(huì)到了Gemini 3的強(qiáng)大。
在X上,Andrej Karpathy大神也第一時(shí)間試用了Gemini 3.0,并表示對(duì)它的“初步印象很好”。
圖片
當(dāng)然,也有網(wǎng)友指出,Gemini 3的空間推理能力還是比較一般,這也是所有大模型的通病。
圖片
那么,你認(rèn)為Gemini 3 怎么樣?你想用它來(lái)做些什么呢?
參考鏈接:https://blog.google/products/gemini/gemini-3/#responsible-development




























