Nano Banana 2突然現身!能畫公式解數學題,監控畫面都能偽造
Nano Banana 2代一亮相就驚艷眾人。
下面這張圖完全是AI生成,不僅包括網頁中的內容,甚至整個瀏覽器界面和桌面都是生成的,而且沒有參考圖像。

這次Nano Banana 2以預覽版的形式出現在第三方網站Media.io上,隨后被移除,只有少數手快的網友參加了測試。
預覽版展示出的能力已遠超前代,在處理復雜提示方面的表現突出,包括精確的文本渲染、超逼真的場景以及類似完整桌面界面的精細模擬。
但谷歌DeepMind方面沒有對發布正式時間等做出說明。

Nano Banana 2全面升級
根據測試頁面說明,這次Nano Banana 2又名GemPix2,主要在真實性、生成速度和自然交互控制上面改進。
從現有的測試結果看,Nano Banana 2能夠生成極其復雜的UI,文字渲染也看不出破綻,很多網友都會以為是一張真實截圖。

對物理常識與遵循提示詞的細節也表現很好。
可以同時準確繪制出指向特定時間的時鐘和一杯斟滿的紅酒。

甚至能偽造出逼真的監控錄像畫面,不過據推測正式版發布時候應該會削弱這方面能力。

此外,Nano Banana 2還掌握了一定的世界知識與邏輯推理能力。
在解決數學問題的對比測試中,1代解題思路好像大致方向是對的,但最終渲染出的公式基本無法理解。
二代雖然有一些小錯誤,但結果給人印象深刻。

Nano Banana團隊:圖像生成的質量已接近上限
Nano Banana最初于2025年8月中旬匿名出現在AI模型測評平臺LMArena,憑借其出色的圖像編輯能力迅速登頂排行榜,引發社區熱議,
8月底,谷歌正式揭曉其身份為Gemini 2.5 Flash Image,Nano Banana的代號源于谷歌內部測試生成“香蕉大小的納米機器人”時效果很好。

上線不到10天,用戶編輯了超過2億張圖片,為Gemini應用帶來了1000萬新用戶,并一度幫助Gemini超越ChatGPT成為蘋果免費應用榜首。

第一代Nano Banana的核心優勢在于強大的圖像編輯和理解能力,
包括自然語言編輯與角色一致性,用戶可用日常語言進行多輪、迭代式的圖像編輯,同時解決了AI圖像編輯中常見的“身份漂移”問題,保持角色特征在多次修改后高度一致。

與先前模型相比增加了多圖像融合與風格遷移功能,支持將多張不同圖片無縫融合成一張連貫的圖像,或將一張圖的風格應用到另一張圖的物體上,為電商、廣告等行業提高了創作效率。

以及低成本也高速度,基于谷歌TPU v5架構優化,Nano Banana平均響應時間僅為1.3秒,單張圖片生成成本約0.039美元,僅為DALL-E 3的十分之一。
此前Nano Banana核心團隊透露,圖像生成的質量已接近上限,未來的關鍵在于提升模型理解用戶“意圖”(intention)的能力。
谷歌自身也在加速將Nano Banana整合進其核心產品生態。除了在Gemini應用和AI Studio中提供服務外,谷歌已開始測試將其集成到Google Photos、搜索(Search)、智能鏡頭(Lens)和畫圈搜索(Circle to Search)中,意圖打造一個無縫的AI驅動視覺體驗閉環。

































