Gemini 3 為什么厲害？項(xiàng)目負(fù)責(zé)人自曝：改進(jìn)了預(yù)訓(xùn)練和后訓(xùn)練！實(shí)測(cè)體驗(yàn)：徹底抹平多模態(tài)開(kāi)發(fā)門(mén)檻，響應(yīng)速度超快

原創(chuàng) 精選

作者：聽(tīng)雨 2025-11-19 15:25:30

人工智能

今天北京時(shí)間0點(diǎn)整，Gemini 3 突襲全球，不僅拿了LMArena 總榜第一，更是屠榜所有評(píng)測(cè)集。直接把昨天Grok 4.1剛刷的榜給反超回去了。

編輯 | 聽(tīng)雨

昨天馬斯克剛發(fā)Grok 4.1，今天轉(zhuǎn)眼就被Gemini 3 打回老家去了。

今天北京時(shí)間0點(diǎn)整，Gemini 3 突襲全球，不僅拿了LMArena 總榜第一，更是屠榜所有評(píng)測(cè)集。直接把昨天Grok 4.1剛刷的榜給反超回去了。

圖片

山姆·奧特曼和馬斯克也第一時(shí)間發(fā)來(lái)賀電：

Image

三家聚齊，X上網(wǎng)友的梗圖更是滿天飛：

圖片

更有甚者已經(jīng)在底下問(wèn)馬斯克Grok 4.2啥時(shí)候來(lái)了：

圖片

值得注意的是，根據(jù)此前泄漏的Gemini 3 模型卡信息，Google 從零開(kāi)始在 TPU 上訓(xùn)練了這個(gè)模型，采用了 MoE（專家混合）架構(gòu)，輸入 100 萬(wàn) Token，輸出 64k Token。而MoE架構(gòu)意味著，即使性能爆炸提升，成本也不會(huì)太高。

圖片

而谷歌DeepMind 研究副總裁兼深度學(xué)習(xí)負(fù)責(zé)人、Gemini 項(xiàng)目聯(lián)合負(fù)責(zé)人Oriol Vinyals則透露了Gemini 3 背后的秘訣：

Gemini 3 的秘密是什么？很簡(jiǎn)單：改進(jìn)了預(yù)訓(xùn)練和后訓(xùn)練
預(yù)訓(xùn)練：與流行觀點(diǎn)相反——大家常認(rèn)為模型擴(kuò)展已經(jīng)到頂——我們?cè)?NeurIPS 2025 的演講中與 @ilyasut 和 @quocleix 一起討論過(guò)，這次團(tuán)隊(duì)實(shí)現(xiàn)了巨大的飛躍。2.5 版與 3.0 版之間的差距，是我們見(jiàn)過(guò)的最大差距之一。前路無(wú)限，沒(méi)有盡頭！
后訓(xùn)練：依然是完全的“綠地”（greenfield）。算法優(yōu)化和改進(jìn)空間仍然很大，3.0 也不例外，這一切都得益于我們出色的團(tuán)隊(duì)。

圖片

SOTA推理能力

谷歌方面稱，Gemini 3 是他們?cè)谕ㄍ鵄GI的道路上又邁出的一大步。它是世界上最好的多模態(tài)理解模型，也是谷歌迄今為止最強(qiáng)大的智能體和vibe 編碼模型，能夠提供更豐富的可視化效果和更深入的交互性。

Gemini 3 evaluation table against other AI models

在所有主流 AI 基準(zhǔn)測(cè)試中，Gemini 3 Pro 的表現(xiàn)都遠(yuǎn)超 2.5 Pro。

它以 1501 Elo 的突破性成績(jī)登頂 LMArena 排行榜。在人類最后的考試（無(wú)需使用任何工具情況下達(dá)成 37.5%）和 GPQA Diamond（91.9%）中取得頂級(jí)分?jǐn)?shù)，展現(xiàn)出博士級(jí)的推理水平。在數(shù)學(xué)方面，它更是為前沿模型樹(shù)立了新標(biāo)桿：在 MathArena Apex 上取得 23.4% 的最新 SOTA 成績(jī)。

不僅在文本上強(qiáng)勢(shì)，Gemini 3 Pro 在多模態(tài)推理上也全面領(lǐng)先：

MMMU-Pro：81%
Video-MMMU：87.6%

它還在 SimpleQA Verified 上取得 72.1% 的 SOTA 成績(jī)，體現(xiàn)出顯著的事實(shí)準(zhǔn)確性進(jìn)步。

這意味著，Gemini 3 Pro 能以高度可靠性解決科學(xué)、數(shù)學(xué)等眾多復(fù)雜領(lǐng)域的難題，真正實(shí)現(xiàn)跨模態(tài)的全面突破。

Gemini 3 思考模式

Gemini 3 的 Deep Think 模式將智能的邊界進(jìn)一步推向極致，在推理與多模態(tài)理解能力上實(shí)現(xiàn)躍升，幫助你解決更加復(fù)雜的問(wèn)題。

在測(cè)試中，Gemini 3 Deep Think 的表現(xiàn)全面超越了 Gemini 3 Pro：

在 Humanity’s Last Exam 上取得 41.0%（無(wú)需使用工具）
在 GPQA Diamond 上達(dá)到 93.8%

它還在 ARC-AGI-2 上達(dá)成前所未有的 45.1%（啟用代碼執(zhí)行，ARC Prize Verified），展現(xiàn)出解決全新挑戰(zhàn)的能力。

圖片

學(xué)習(xí)、創(chuàng)作和規(guī)劃

學(xué)習(xí)任何內(nèi)容

Gemini 從誕生之初就被設(shè)計(jì)為能夠無(wú)縫整合多模態(tài)信息，覆蓋文本、圖像、視頻、音頻和代碼。Gemini 3 更是將多模態(tài)推理推向新前沿：依托最先進(jìn)的推理、視覺(jué)與空間理解、頂級(jí)多語(yǔ)種能力，以及 100 萬(wàn) Token 超長(zhǎng)上下文，讓你以最適合自己的方式學(xué)習(xí)任何主題。

比如想學(xué)習(xí)家族傳統(tǒng)料理，Gemini 3 能識(shí)別并翻譯多語(yǔ)言的手寫(xiě)食譜，將它們整理成一本可分享的家庭食譜。

比如喂給Gemini 3 學(xué)術(shù)論文、長(zhǎng)視頻講座或教程，它就能生成用于記憶和理解的互動(dòng)卡片、可視化圖表或其他學(xué)習(xí)材料，幫助你快速掌握核心內(nèi)容。

創(chuàng)造任何東西

Gemini 3 是谷歌迄今最強(qiáng)的氛圍編碼和智能體編碼模型，讓產(chǎn)品具備更高自主性，進(jìn)一步提升開(kāi)發(fā)效率。它以 1487 Elo 的成績(jī)登頂 WebDev Arena 排行榜。在測(cè)試模型使用工具操作終端能力的 Terminal-Bench 2.0 中，也取得 54.2% 的成績(jī)。在衡量編碼智能體能力的 SWE-bench Verified 中，則達(dá)到 76.2%，表現(xiàn)大幅領(lǐng)先 2.5 Pro。

比如構(gòu)建一個(gè)可玩的科幻世界：

規(guī)劃任何事

Gemini 3 在測(cè)試長(zhǎng)期規(guī)劃能力的 Vending-Bench 2 中登頂，該基準(zhǔn)通過(guò)模擬經(jīng)營(yíng)自動(dòng)售貨機(jī)業(yè)務(wù)來(lái)評(píng)估模型的長(zhǎng)周期規(guī)劃和管理能力。

據(jù)官方介紹，在這一測(cè)試?yán)铮珿emini 3 Pro 能在整整一年的模擬運(yùn)營(yíng)中保持穩(wěn)定的工具使用和決策質(zhì)量，在不偏離任務(wù)的前提下取得更高收益。

圖片

Gemini 3 還能在日常生活中更有效地幫助你完成任務(wù)。比如讓它幫你整理郵箱：

全新智能體開(kāi)發(fā)平臺(tái)：谷歌反重力

另外，谷歌也同步推出了 Google Antigravity —— 一款全新的智能體開(kāi)發(fā)平臺(tái)，讓開(kāi)發(fā)者能夠以更高層次、以任務(wù)為中心的方式進(jìn)行構(gòu)建。

借助 Gemini 3 的高級(jí)推理、工具使用能力和智能體編碼能力，Google Antigravity 將 AI 從開(kāi)發(fā)者工具箱中的“一個(gè)工具”升級(jí)為真正的主動(dòng)合作伙伴。雖然 Antigravity 的核心體驗(yàn)依然是熟悉的 AI IDE，但其內(nèi)置的智能體被提升到獨(dú)立的界面，并擁有對(duì) 編輯器、終端和瀏覽器的直接訪問(wèn)權(quán)限。現(xiàn)在，智能體可以在你的指令下自主規(guī)劃并執(zhí)行復(fù)雜的端到端軟件任務(wù)，同時(shí)還能自行校驗(yàn)代碼。

除了 Gemini 3 Pro，Google Antigravity 還深度整合了最新的 Gemini 2.5 Computer Use（用于瀏覽器操作）以及頂級(jí)圖像編輯模型 Nano Banana（Gemini 2.5 Image）。

圖片

定價(jià)方面，Gemini 3.0 Pro 引入了基于上下文長(zhǎng)度的分級(jí)定價(jià)機(jī)制：200k tokens 以下的任務(wù)，輸入 / 輸出價(jià)格為 $2.00/$12.00（每百萬(wàn) token）；超過(guò) 200k tokens 則分別為 $4.00 和 $18.00。

Gemini 3 現(xiàn)在已經(jīng)全面開(kāi)放了。普通用戶和訂閱用戶分別可通過(guò) Gemini App 及搜索 AI 模式使用新模型；開(kāi)發(fā)者與企業(yè)客戶也能通過(guò) AI Studio、Vertex AI 等渠道接入。深度思考模式則預(yù)計(jì)將在未來(lái)幾周內(nèi)面向 Google AI Ultra 訂閱用戶獨(dú)家上線。

Gemini 3 實(shí)測(cè)：一句提示詞就能進(jìn)行多模態(tài)開(kāi)發(fā)

小編也第一時(shí)間體驗(yàn)了Gemini 3，效果也是相當(dāng)驚艷。以下是一些實(shí)測(cè)案例：

1、用HTML生成3D演示動(dòng)畫(huà)，向中學(xué)生演示DNA雙螺旋的復(fù)制過(guò)程。大概十幾秒左右就生成了：

圖片

效果看起來(lái)還不錯(cuò)，堿基圖例和復(fù)制過(guò)程演示都比較完整。

2、復(fù)刻一個(gè) MacOS 操作系統(tǒng)：

圖片

這一回Gemini 3同樣只花了十幾秒左右，就復(fù)刻了這樣一個(gè)MacOS界面。頂部菜單欄、對(duì)話框和 Docker 欄都是非常典型的Mac風(fēng)，包括 Docker 欄的魚(yú)眼放大效果做的還不錯(cuò)，右上角也會(huì)顯示當(dāng)前的真實(shí)時(shí)間。

雖然免費(fèi)的token不多，不過(guò)小編經(jīng)過(guò)這兩個(gè)案例的實(shí)測(cè)，也感覺(jué)到Gemini 3徹底抹平了多模態(tài)開(kāi)發(fā)的門(mén)檻。即使是一個(gè)完全不懂代碼的編程小白，也可以靠一句簡(jiǎn)單的提示詞做出一個(gè)3D動(dòng)畫(huà)、一個(gè)游戲或者復(fù)刻一個(gè)操作系統(tǒng)。這種多模態(tài)理解能力帶來(lái)的體驗(yàn)是非常震撼的。

跟小編之前實(shí)測(cè)過(guò)的其他大模型（Mini Max M2、Sonnet 4.5等），Gemini 3的響應(yīng)速度快得驚人，平均十幾秒鐘就能做好一個(gè)網(wǎng)頁(yè)或動(dòng)畫(huà)，并且效果都還不錯(cuò)。在冷冰冰的榜單和數(shù)據(jù)之外，這種開(kāi)發(fā)效率和成果讓小編實(shí)打?qū)嶓w會(huì)到了Gemini 3的強(qiáng)大。

在X上，Andrej Karpathy大神也第一時(shí)間試用了Gemini 3.0，并表示對(duì)它的“初步印象很好”。

圖片