編輯 | 云昭
大模型的發展速度的確超乎想象,可以說現在一周,堪比過去3個月。好在,主體脈絡還是沿著圈內預期的邏輯發展的:
觀察→理解→推理→物理世界。
隨著NanoBanana、Sora2的相繼火爆、多模態模型領域烽煙再起,OpenAI與谷歌這一對宿敵紛紛擺好了姿態要在2025年年底各放大招。
假期期間,OpenAI在DevDay上發布的內置應用、AgentKit等收獲了一大波好評,緊接著谷歌就發起了Gemini3.0的病毒式預熱Marketing。
NanoBanana的刺激在前,小編本來這次還是打算再等等。
然而,這兩天大洋彼岸的內測“Gemini3 Pro”的視頻、圖片效果實在太炸裂了。Ps:網上流傳的有兩種模型版本:3.0 Pro(代號 2HT)、3.0 Flash(代號 5QA)
尤其今天看到,一個Prompt就能讓Gemini生成一個可以模擬Mac、Windows、Linux操作系統風格的HTML文件,小編親自體驗了下這個網頁系統,操作非常絲滑。更恐怖的是,不用抽卡!
圖片
圖片
你突然就會有了多年之前的那種“天亮了”的感覺:1997年,計算機在國際象棋上擊敗人類,2016年九段大師李世石被DeepMind的AlphaGo戰勝,再到2021年11月,ChatGPT的人一樣的聊天。
小編實在等不及谷歌正式發布了,覺得必須得寫點什么。
聲明:以下內容僅僅是看了網上流出的 Gemini3 Pro 的內測素材、跑分傳言、網友熱議等有感而發,最后還是看谷歌的正式發布版本為準。
Gemini 3 Pro 直接越過了那條線
這兩天扒了不少圈內的傳聞,這里總結一下這次Gemini 3 Pro的厲害之處:
1.全模態魔法
很早之前,其實用戶并不習慣大模型只能 “文字進、文字出”。后來雖然模型支持了一些文件,但也僅限于圖片、音視頻、word文檔等。
但這次,Gemini 3 Pro是真的猛,它能同時理解視頻、3D 對象、音頻、地理空間數據——甚至多種一起處理。如果真的這樣的話,可以說許多現有的產品都要重新設計了,直播、家裝、短視頻各行業可以說門檻都要抹沒了。
想象空間實在太大了,比如:
- 實時總結一段直播;
- 把藍圖轉成 VR 場景;
- 或僅憑一段街景視頻自動生成播放列表。
2.超級上下文窗口
據傳,Gemini 3 Pro 的上下文可達數百萬級。整本書、一座法律文件山、甚至上百萬行代碼——都能在一次提示中處理,仍然邏輯清晰。
量變引起的質變,是我們最猝不及防的,就如同Scaling Law讓傳統的OCR褪色一樣,數百萬級的Token,或會讓之前繁瑣的切片操作被淘汰掉。
3.數萬億參數、激活最相關的動態專家系統
兩個點,一個是數萬億參數,第二個點,卻只激活最相關的部分。這一點也很極客,Gemini3.0 Pro既保留了算力爆發,又達到了前所未有的響應速度。簡單理解,它會自動決定該用多“聰明”的腦子來回答問題。
4.內置“深度思考”機制
無需切換模式。系統能主動規劃、校驗、并解釋自己的多步推理。這更像是雇了一個世界級分析師——只是花幾塊 API 積分。
5.端側算力進化
“Gemini Nano 3” 版本將讓 Pixel 和 Android 用戶在離線狀態下體驗真正的 AI 能力。實時總結、離線推理、即時問題解決——不再依賴云端。
圖片
實測有多強?
先看下跑分,有疑似有內幕消息的網友這樣說:
- 未經證實的基準測試顯示,Gemini 3 Pro 的表現優于 GPT-5(“人類的最后考試”中分別為 32.4% 和 26.5%)。
- 推理方面,一位網友評論稱,它的推理“感覺像人類”,并且它的自我糾正能力是我們所見過的任何東西的飛躍。
- 最驚艷的還是視覺領域,據稱,Gemini 3 Pro 實時工作速度高達 60fps,這意味著它“獲取”的是實時視頻,而不僅僅是凍結的幀。
再來分享一些自認為非常震撼的實測用例。
先來看一個3D代碼生成的用例。

prompt:“用體素風格(voxel art)生成一只騎自行車的鵜鶘。”(create a pelican on a bike with voxil art)
該模型準確理解了多模態概念,生成了精確的 3D 體素代碼,空間推理出色,畫面布局也很平衡。

這說明它在「創造性理解 + 編程生成」上的能力已經達到頂級模型水準。
另一個震撼的用例則是,一位開發者讓 Gemini 3.0 生成關于「卡爾達肖夫三級文明」的可視化,也就是能利用整個銀河能量的假想文明。模型成功地融合了 天體物理學、未來設計和視覺想象力。

在零樣本提示下,輸出的圖像展示了戴森球、星際工程等概念,還保持了物理一致性。此外還有系外行星核心可視化。
整段可視化是 Gemini 3.0 Pro 一次性生成的。

它能把抽象的行星數據轉化為逼真的三維視覺,兼具科學準確性和空間推理能力——這是以前任何模型都沒做到的。
在附上最新流出的幾個體驗用例:
比如3D埃菲爾鐵塔、3D沉思者。

寫在最后
回過頭來,總結一下。這次 Gemini 3 Pro 恐怖的預熱秀,究竟在向外界透露出怎樣的信號?首先,看得出來谷歌這次的邀測對象主要有兩類:一類是前端開發者,另一類則是數字創作者。這兩類都是非常適合打造震撼宣傳效果的群體,言外之意,自然也適合Marketing。其次,谷歌依舊在多模態方面持續發力,尤其在世界模型方面依舊在保持領先。當然,重點還是在于未來正式發布后,大家實際的使用效果。至少現在看來,超長上下文窗口、全模態輸入、實時輸出總結、無需切換模式深度內置思考,是模型層面主打的四大方向。
那么,對于外界應用而言,意味著什么呢?我想我們可以重新思考這樣幾件事情。
第一,對于技術人而言,分析、重構百萬行代碼極有可能不再那么困難了。效率將會大大提升。
其次,對于企業而言:Gemini 的內置 API 推理系統有望形成一種“數字免疫機制”,防止幻覺,保持企業語調一致,并自動化復雜工作流。
第三,對于更多的創作者來說,可以說門檻進一步降低。相信未來會更多人使用這種形式來創作:手繪草圖 + 語音備注 = 即時動畫短片。
第四,最終的福利還是屬于普通大眾的,未來的AI應用將會因為模型能力的提升擺脫“雞肋”的尷尬。看得到的一個例子,離線實時翻譯、總結、個人助理——真正隨身的 AI,不難想象,就在眼前了。


































