Gemini 3 為什么厲害？項(xiàng)目負(fù)責(zé)人自曝：改進(jìn)了預(yù)訓(xùn)練和后訓(xùn)練！實(shí)測體驗(yàn)：徹底抹平多模態(tài)開發(fā)門檻原創(chuàng)

51CTO技術(shù)棧

發(fā)布于 2025-11-19 15:26

瀏覽

0收藏

編輯 | 聽雨

昨天馬斯克剛發(fā)Grok 4.1，今天轉(zhuǎn)眼就被Gemini 3 打回老家去了。

今天北京時間0點(diǎn)整，Gemini 3 突襲全球，不僅拿了LMArena 總榜第一，更是屠榜所有評測集。直接把昨天Grok 4.1剛刷的榜給反超回去了。

Gemini 3 為什么厲害？項(xiàng)目負(fù)責(zé)人自曝：改進(jìn)了預(yù)訓(xùn)練和后訓(xùn)練！實(shí)測體驗(yàn)：徹底抹平多模態(tài)開發(fā)門檻-AI.x社區(qū) 圖片

山姆·奧特曼和馬斯克也第一時間發(fā)來賀電：

Gemini 3 為什么厲害？項(xiàng)目負(fù)責(zé)人自曝：改進(jìn)了預(yù)訓(xùn)練和后訓(xùn)練！實(shí)測體驗(yàn)：徹底抹平多模態(tài)開發(fā)門檻-AI.x社區(qū) Image

三家聚齊，X上網(wǎng)友的梗圖更是滿天飛：

更有甚者已經(jīng)在底下問馬斯克Grok 4.2啥時候來了：

值得注意的是，根據(jù)此前泄漏的Gemini 3 模型卡信息，Google 從零開始在 TPU 上訓(xùn)練了這個模型，采用了 MoE（專家混合）架構(gòu)，輸入 100 萬 Token，輸出 64k Token。而MoE架構(gòu)意味著，即使性能爆炸提升，成本也不會太高。

而谷歌DeepMind 研究副總裁兼深度學(xué)習(xí)負(fù)責(zé)人、Gemini 項(xiàng)目聯(lián)合負(fù)責(zé)人Oriol Vinyals則透露了Gemini 3 背后的秘訣：

Gemini 3 的秘密是什么？很簡單：改進(jìn)了預(yù)訓(xùn)練和后訓(xùn)練
預(yù)訓(xùn)練：與流行觀點(diǎn)相反——大家常認(rèn)為模型擴(kuò)展已經(jīng)到頂——我們在 NeurIPS 2025 的演講中與 @ilyasut 和 @quocleix 一起討論過，這次團(tuán)隊(duì)實(shí)現(xiàn)了巨大的飛躍。2.5 版與 3.0 版之間的差距，是我們見過的最大差距之一。前路無限，沒有盡頭！
后訓(xùn)練：依然是完全的“綠地”（greenfield）。算法優(yōu)化和改進(jìn)空間仍然很大，3.0 也不例外，這一切都得益于我們出色的團(tuán)隊(duì)。

SOTA推理能力

谷歌方面稱，Gemini 3 是他們在通往AGI的道路上又邁出的一大步。它是世界上最好的多模態(tài)理解模型，也是谷歌迄今為止最強(qiáng)大的智能體和vibe 編碼模型，能夠提供更豐富的可視化效果和更深入的交互性。

Gemini 3 為什么厲害？項(xiàng)目負(fù)責(zé)人自曝：改進(jìn)了預(yù)訓(xùn)練和后訓(xùn)練！實(shí)測體驗(yàn)：徹底抹平多模態(tài)開發(fā)門檻-AI.x社區(qū) Gemini 3 evaluation table against other AI models

在所有主流 AI 基準(zhǔn)測試中，Gemini 3 Pro 的表現(xiàn)都遠(yuǎn)超 2.5 Pro。

它以 1501 Elo 的突破性成績登頂 LMArena 排行榜。在人類最后的考試（無需使用任何工具情況下達(dá)成 37.5%）和 GPQA Diamond（91.9%）中取得頂級分?jǐn)?shù)，展現(xiàn)出博士級的推理水平。在數(shù)學(xué)方面，它更是為前沿模型樹立了新標(biāo)桿：在 MathArena Apex 上取得 23.4% 的最新 SOTA 成績。

不僅在文本上強(qiáng)勢，Gemini 3 Pro 在多模態(tài)推理上也全面領(lǐng)先：

MMMU-Pro：81%
Video-MMMU：87.6%

它還在 SimpleQA Verified 上取得 72.1% 的 SOTA 成績，體現(xiàn)出顯著的事實(shí)準(zhǔn)確性進(jìn)步。

這意味著，Gemini 3 Pro 能以高度可靠性解決科學(xué)、數(shù)學(xué)等眾多復(fù)雜領(lǐng)域的難題，真正實(shí)現(xiàn)跨模態(tài)的全面突破。

Gemini 3 思考模式

Gemini 3 的 Deep Think 模式將智能的邊界進(jìn)一步推向極致，在推理與多模態(tài)理解能力上實(shí)現(xiàn)躍升，幫助你解決更加復(fù)雜的問題。

在測試中，Gemini 3 Deep Think 的表現(xiàn)全面超越了 Gemini 3 Pro：

在 Humanity’s Last Exam 上取得 41.0%（無需使用工具）
在 GPQA Diamond 上達(dá)到 93.8%

它還在 ARC-AGI-2 上達(dá)成前所未有的 45.1%（啟用代碼執(zhí)行，ARC Prize Verified），展現(xiàn)出解決全新挑戰(zhàn)的能力。

學(xué)習(xí)、創(chuàng)作和規(guī)劃

學(xué)習(xí)任何內(nèi)容

Gemini 從誕生之初就被設(shè)計為能夠無縫整合多模態(tài)信息，覆蓋文本、圖像、視頻、音頻和代碼。Gemini 3 更是將多模態(tài)推理推向新前沿：依托最先進(jìn)的推理、視覺與空間理解、頂級多語種能力，以及 100 萬 Token 超長上下文，讓你以最適合自己的方式學(xué)習(xí)任何主題。

比如想學(xué)習(xí)家族傳統(tǒng)料理，Gemini 3 能識別并翻譯多語言的手寫食譜，將它們整理成一本可分享的家庭食譜。

Gemini 3 為什么厲害？項(xiàng)目負(fù)責(zé)人自曝：改進(jìn)了預(yù)訓(xùn)練和后訓(xùn)練！實(shí)測體驗(yàn)：徹底抹平多模態(tài)開發(fā)門檻-AI.x社區(qū)

比如喂給Gemini 3 學(xué)術(shù)論文、長視頻講座或教程，它就能生成用于記憶和理解的互動卡片、可視化圖表或其他學(xué)習(xí)材料，幫助你快速掌握核心內(nèi)容。

創(chuàng)造任何東西

Gemini 3 是谷歌迄今最強(qiáng)的氛圍編碼和智能體編碼模型，讓產(chǎn)品具備更高自主性，進(jìn)一步提升開發(fā)效率。它以 1487 Elo 的成績登頂 WebDev Arena 排行榜。在測試模型使用工具操作終端能力的 Terminal-Bench 2.0 中，也取得 54.2% 的成績。在衡量編碼智能體能力的 SWE-bench Verified 中，則達(dá)到 76.2%，表現(xiàn)大幅領(lǐng)先 2.5 Pro。

比如構(gòu)建一個可玩的科幻世界：

規(guī)劃任何事

Gemini 3 在測試長期規(guī)劃能力的 Vending-Bench 2 中登頂，該基準(zhǔn)通過模擬經(jīng)營自動售貨機(jī)業(yè)務(wù)來評估模型的長周期規(guī)劃和管理能力。

據(jù)官方介紹，在這一測試?yán)铮珿emini 3 Pro 能在整整一年的模擬運(yùn)營中保持穩(wěn)定的工具使用和決策質(zhì)量，在不偏離任務(wù)的前提下取得更高收益。

Gemini 3 還能在日常生活中更有效地幫助你完成任務(wù)。比如讓它幫你整理郵箱：

全新智能體開發(fā)平臺：谷歌反重力

另外，谷歌也同步推出了 Google Antigravity —— 一款全新的智能體開發(fā)平臺，讓開發(fā)者能夠以更高層次、以任務(wù)為中心的方式進(jìn)行構(gòu)建。

借助 Gemini 3 的高級推理、工具使用能力和智能體編碼能力，Google Antigravity 將 AI 從開發(fā)者工具箱中的“一個工具”升級為真正的主動合作伙伴。雖然 Antigravity 的核心體驗(yàn)依然是熟悉的 AI IDE，但其內(nèi)置的智能體被提升到獨(dú)立的界面，并擁有對編輯器、終端和瀏覽器的直接訪問權(quán)限。現(xiàn)在，智能體可以在你的指令下自主規(guī)劃并執(zhí)行復(fù)雜的端到端軟件任務(wù)，同時還能自行校驗(yàn)代碼。

除了 Gemini 3 Pro，Google Antigravity 還深度整合了最新的 Gemini 2.5 Computer Use（用于瀏覽器操作）以及頂級圖像編輯模型 Nano Banana（Gemini 2.5 Image）。

定價方面，Gemini 3.0 Pro 引入了基于上下文長度的分級定價機(jī)制：200k tokens 以下的任務(wù)，輸入 / 輸出價格為 $2.00/$12.00（每百萬 token）；超過 200k tokens 則分別為 $4.00 和 $18.00。

Gemini 3 現(xiàn)在已經(jīng)全面開放了。普通用戶和訂閱用戶分別可通過 Gemini App 及搜索 AI 模式使用新模型；開發(fā)者與企業(yè)客戶也能通過 AI Studio、Vertex AI 等渠道接入。深度思考模式則預(yù)計將在未來幾周內(nèi)面向 Google AI Ultra 訂閱用戶獨(dú)家上線。

Gemini 3 實(shí)測：一句提示詞就能進(jìn)行多模態(tài)開發(fā)

小編也第一時間體驗(yàn)了Gemini 3，效果也是相當(dāng)驚艷。以下是一些實(shí)測案例：

1、用HTML生成3D演示動畫，向中學(xué)生演示DNA雙螺旋的復(fù)制過程。大概十幾秒左右就生成了：

效果看起來還不錯，堿基圖例和復(fù)制過程演示都比較完整。

2、復(fù)刻一個 MacOS 操作系統(tǒng)：

這一回Gemini 3同樣只花了十幾秒左右，就復(fù)刻了這樣一個MacOS界面。頂部菜單欄、對話框和 Docker 欄都是非常典型的Mac風(fēng)，包括 Docker 欄的魚眼放大效果做的還不錯，右上角也會顯示當(dāng)前的真實(shí)時間。

雖然免費(fèi)的token不多，不過小編經(jīng)過這兩個案例的實(shí)測，也感覺到Gemini 3徹底抹平了多模態(tài)開發(fā)的門檻。即使是一個完全不懂代碼的編程小白，也可以靠一句簡單的提示詞做出一個3D動畫、一個游戲或者復(fù)刻一個操作系統(tǒng)。這種多模態(tài)理解能力帶來的體驗(yàn)是非常震撼的。

跟小編之前實(shí)測過的其他大模型（Mini Max M2、Sonnet 4.5等），Gemini 3的響應(yīng)速度快得驚人，平均十幾秒鐘就能做好一個網(wǎng)頁或動畫，并且效果都還不錯。在冷冰冰的榜單和數(shù)據(jù)之外，這種開發(fā)效率和成果讓小編實(shí)打?qū)嶓w會到了Gemini 3的強(qiáng)大。

在X上，Andrej Karpathy大神也第一時間試用了Gemini 3.0，并表示對它的“初步印象很好”。