蘋果探索自研多模態 AI 模型 Manzano:兼具理解與生成能力,不弱于 OpenAI GPT-4o 和谷歌 Nano Banana

9 月 27 日消息,蘋果正在研發一款名為 Manzano 的新圖像模型,旨在同時具備圖像理解與圖像生成兩大能力。
不過目前 Manzano 尚未正式發布,也沒有演示 Demo,只有一篇作者絕大多數都是華人的預印本論文(包括已經跳槽到 Meta 的龐若鳴),還展示了部分低分辨率圖像樣例,涵蓋較復雜的提示場景。

蘋果表示,這一雙重功能長期以來是技術難點,使得大多數開源模型在綜合表現上落后于 OpenAI 和 Google 等商業系統。
蘋果將其與 DeepSeek Janus Pro 等 AI 模型進行了對比,結果顯示 Manzano 不弱于 OpenAI GPT-4o 和谷歌的 Gemini 2.5 Flash Image Generation(IT之家注:原代號 Nano Banana)。

蘋果指出,大多數開源模型在圖像處理上存在取舍:要么擅長圖像分析,要么擅長圖像生成,而商業系統通常能兼顧。尤其在涉及大量文本的任務(如文檔閱讀、圖表解讀)時,現有模型表現不佳。問題根源在于圖像處理方式:連續數據流更適合理解,而離散符號則更適合生成,多數模型為這兩類任務分配不同工具,易引發沖突。
為此,Manzano 采用了混合圖像分詞器。其共享編碼器可輸出兩類標記:連續標記(用于圖像理解,以浮點數形式表達)和離散標記(用于圖像生成,按固定類別劃分)。由于二者源自同一編碼器,因此其任務沖突顯著減少。

Manzano 的整體架構包括三部分:混合分詞器、統一語言模型,以及獨立的圖像解碼器。蘋果為解碼器構建了三個版本,參數規模分別為 9 億、17.5 億和 35.2 億,支持 256 像素至 2048 像素分辨率。
訓練過程分為三個階段,使用 23 億對圖像-文本樣本(來自公開和內部數據),以及 10 億對文本-圖像樣本,總計處理 1.6 萬億標記。部分訓練數據來自合成生成,如 DALL-E3 和 ShareGPT-4o。
在內部測試中,Manzano 在 ScienceQA、MMMU 和 MathVista 等基準上表現優異,尤其在圖表和文檔分析等文字密集型任務中,300 億參數版本成績突出。擴展測試顯示,模型性能隨規模提升而持續改善,例如 30 億參數版本在部分任務中比最小模型高出 10 分以上。

蘋果還將統一模型與專業化系統對比,差距僅為個位數分值:在 30 億參數版本中,差距不到 1 分。在圖像生成測試中,Manzano 亦接近前列,可執行復雜指令、風格遷移、圖像疊加與深度估計等任務。
蘋果認為,Manzano 是現有模型的有力替代方案,其模塊化設計可支持各部分獨立更新,并借鑒不同研究領域的訓練方法,有潛力推動未來多模態 AI 的發展。
不過,目前蘋果的基礎模型整體仍落后于行業領先者。即便推出新的端側 AI 框架,蘋果仍計劃在 iOS 26 的 Apple Intelligence 中引入 OpenAI GPT-5。Manzano 展示了技術上的進展,但是否能減少對外部模型的依賴,還需未來版本進一步驗證。





































