2.4萬億參數原生全模態,文心5.0一手實測來了
剛剛,文心5.0正式發布了!
全新一代主打原生全模態,最開始就把語言/圖像/視頻/音頻放在同一套自回歸統一架構里,做統一的理解與生成訓練。
所以,最終模型能夠做到支持全模態輸入(文字/圖片/音頻/視頻)+全模態輸出(文字/圖片/音頻/視頻),創意寫作、指令遵循、智能體規劃方面也更強了。

在官方展示中,上傳一個電影片段,它立馬就能分析出最緊張的情節,具體到第幾秒到第幾秒的那種。

同時上傳一段視頻和一段音頻,就能讓它指出視頻里是否有用到音頻里的音樂,還能說出節點:

做音視頻融合生成也行,簡單操作即可爆改甄嬛傳滴血認親(佟掌柜版):

拿來生成3D交互式地球與衛星演示模型,用戶可以通過鼠標拖拽旋轉視角,直觀地觀察地球與衛星的空間運動關系:

官方基準測試結果顯示,文心5.0 Preview在語言、視覺理解、音頻理解、視覺生成多維度表現突出:

就在幾天前,文心5.0 Preview(ERNIE-5.0-Preview-1022)還閃現大模型競技場LMArena,在文本排行榜(Text Arena)上得分1432,與gpt-4.5-preview、claude-opus-4-1、claude-sonnet-4-5等并列全球第二,位居國內第一。

當時,不少在LMArena體驗過的網友給出好評。

更有網友追問啥時候正式上線。

這不,現在它來了。
目前,文心5.0 Preview已上線文心一言網頁版、文心App;同時上線百度千帆大模型平臺,提供API服務。

不過,Preview版暫且先支持全模態輸入(文/圖/音/視頻)+多模態輸出(文/圖)。量子位了解到,能實現全模態輸出的滿血版現在正在進行產品體驗優化,之后會陸續推出。
那就先讓文心5.0 Preview帶我們一探,文心5.0體驗感究竟如何。
文心5.0 Preview實測,原生全模態強在哪?
先來看輸入方面,文心5.0 Preview支持全模態輸入。
在單次交互中,不論是文檔、圖片,還是音頻、視頻,都能一口氣發給它,可跨文件類別混合上傳。
具體規則如下:

值得一提的是,經用戶授權,它還能與百度網盤關聯,無需下載就能訪問處理網盤文件:

接下來,整活兒~
多模態理解推理全面強化
在多模態理解能力上,我們上來就給它看了一段跳水比賽史上的名場面:

給出簡單的prompt:這個視頻中發生了什么?有什么好笑的?
只見文心5.0 Preview和之前的深度思考模型一樣,先進行了一輪自我思考,包括回顧視頻內容、描述視頻、找出好笑的地方以及確認了更多細節,緊接著快速給出了結果。

這波回答什么水平?

細看文心5.0 Preview的理解分析,咱只能說,理解的精細度有點離譜了。
從起跳、空中翻轉到入水,各動作階段拆得門清;一閃而過的選手信息、動作名稱、難度系數,也都被它精準捕捉到了。
同時,它甚至還帶有視頻情感理解能力,注意到了選手的表情——起跳時皺著眉、咬著牙,像是在硬著頭皮往下跳。
“入水瞬間水花越小越厲害”“壓水花”,這些行規它也懂。
真正的神來之筆,是它連視頻中的慢放片段都能識別,還點明慢動作回放補刀。

好好好,下一題。
搬出“你怎么穿著品如的衣服???”這一電視劇名場面,問:品如穿的什么顏色的衣服?
這時,文心5.0 Preview又當如何作答?

結合視頻中的臺詞,文心5.0 Preview輕松答對:

上難度。
那么,“視頻中的女人是品如嗎?”
這次文心5.0 Preview依靠智能體能力自主調用了搜索工具,通過角色名等線索,將這一幕準確定位為出自電視劇《回家的誘惑》。
值得一提的是,它最后是根據角色的性格特征,分析出視頻中的不是品如的。
并且也是通過性格特征推測,穿著品如粉色衣服的這個人,大概率是艾莉。

不得不說,這理解能力確實讓人眼前一亮。
那再來一張難倒不少大模型的帶有文字的諧音梗圖,看它能否理解透徹:

通過思考,圖片理解對它來說更是不在話下了:

最后,咱下班路上路過賣炒貨的攤兒,順手拍了幾秒的視頻上傳給文心5.0 Preview。
盡管視頻分辨率不是很高,它也能抓到細節,算出兩斤糖炒栗子、一斤炒內蒙瓜子、一斤現炒四粒紅花生一共多少錢。
要說瑕疵的話,就是沒區分會員價和非會員價,默認按會員價計算。不過視頻確實有點糊,也難怪看不清。

測試下來不難發現文心5.0 Preview的特點——
它不僅能識別畫面中的內容,而且還能精準捕捉到各種細節,同時擅長結合視頻情節、臺詞等多模態內容,理解其中的情感氛圍和敘事意圖。
另外,在綜合推理、跨模態信息整合、復雜場景判別方面,文心5.0 Preview也更強,不容易被單一模態誤導,能從多個角度判斷畫面的合理性。
更多用法,隨你發揮
除了上面這些用法,基于全模態輸入+多模態輸出,還能玩出更多花樣。
比如文圖混合輸入生成新圖。

秒秒鐘把家里的貓貓打扮成“高雅人士”:

日常學習工作中,我們常需高效獲取視頻、音頻的核心內容。只需上傳,文心5.0 Preview就能快速完成總結。
而且別忘了文心5.0 Preview一次性最多能上傳10個視頻,多任務內容整理輕松搞定。

以李飛飛團隊最新成果Marble的宣傳片為例,它不僅能精準提煉核心主題,還能條理清晰地梳理完整情節,就算臺詞很少,它也能根據畫面講清楚細節。

更多功能,大家伙可以自己親自上手多測一測。
原生全模態技術背后
從技術上來看,文心5.0這次的設計以“原生統一”為目標,走的是非后期拼接的原生全模態路線。
過去的多模態模型通常是各模態獨立訓練、后期再進行特征拼接或融合,這種方式雖然工程上更易落地,但在語義對齊、信息互證和效率上存在天然瓶頸。
文心5.0的方法是從訓練伊始,就將語言、圖像、視頻、音頻等多模態數據放入同一套架構中聯合學習,使模型在底層就能形成跨模態的內在關聯與理解邏輯。就像人看到閃電會聯想到雷聲,文心5.0也在試圖建立這種跨模態的直覺。
為了實現這種統一的理解,它采用了自回歸統一結構。
通過對不同模態的訓練目標進行離散化建模,使多模態特征得以在統一的架構中充分融合與協同優化。這意味著,無論輸入是文字、圖像還是音頻,都會被映射到統一的表征空間中,用同一套邏輯結構進行處理與解碼,從而打通模態間的邊界。
為同時兼顧知識容量與運行效率,文心5.0引入了當前大模型主流架構——超大規模混合專家架構。
該架構在保持模型性能的同時,通過稀疏激活機制顯著降低了計算負載。每次推理只會激活與任務最相關的專家模塊,實現能力全面與成本可控的平衡。

官方透露,在底層實現上,百度飛槳深度學習框架提供了關鍵支撐。
訓練端,通過多模態編碼器分離異步訓練架構、動態自適應顯存卸載、細粒度通信計算重疊編排及FP8混合精度訓練,文心5.0實現了萬億級參數模型的高效分布式訓練。
推理端,基于多模編碼器-預填充-解碼-多模生成器的多級分離推理部署框架,結合超稀疏混合專家、數據負載和注意力計算的均衡算法,以及動態自適應多步投機解碼和效果無損低比特鍵值緩存量化技術,大幅降低了推理成本。
整體而言,文心5.0的模型總參數規模超過2.4萬億;其超稀疏激活參數設計,激活比例低于3%,在保持模型性能的同時顯著優化了計算與推理效率。
另外,文心5.0的能力還延伸到智能體與工具調用的執行層。
通過在真實和模擬環境中合成長程任務軌跡數據,并結合思維鏈、行動鏈與多輪強化學習訓練,模型在任務規劃、工具使用和決策執行方面實現了系統性提升。
今年完成的又雙叒一輪迭代
近一年,大模型領域的競爭邏輯發生轉變。
行業正越來越注重底層架構創新、訓練與推理效率、落地成本等多維度的綜合考量,各廠商也在技術路徑上尋找差異化突破口。
從百度今年基礎模型的迭代節奏來看,更新步伐持續加快:
4月,發布文心4.5 Turbo和文心X1 Turbo,增強多模態能力和推理能力。
6月底,文心4.5系列,包括47B、3B激活參數的混合專家(MoE)模型及0.3B參數的稠密型模型等10款模型,宣布開源,預訓練權重和推理代碼上均做到完全開放。
9月,文心X1.1深度思考模型發布,在事實性、指令遵循、智能體能力上持續提升。其開源模型ERNIE-4.5-21B-A3B-Thinking在抱抱臉全球模型總趨勢榜和文本模型趨勢榜均排名第一。
伴隨底層模型的迭代,如百度電商數字人、百度搜索等上層應用也在持續演進,逐步承接模型能力。
這一次,文心5.0原生全模態模型的推出,也是百度從最底層實現的又一次差異化突破。背后撐起這一躍的,是百度在底層架構、算法訓練、推理優化及生態協同等全鏈路環節上的系統性積累。
在多模態“強推理”和“深理解”方向,百度正在探索下一階段模型能力的邊界。
































