謝賽寧李飛飛LeCun搞的寒武紀(jì),究竟是個(gè)啥?
“寒武紀(jì)”這個(gè)名字在A(yíng)I圈里火得發(fā)燙。
由謝賽寧牽頭,李飛飛和Yann LeCun站臺(tái)搞的“寒武紀(jì)”,大獲好評(píng)。

此寒武紀(jì)究竟是什么?
Cambrian-S(寒武紀(jì)-S),不造硅基芯片,而是專(zhuān)注于解決AI領(lǐng)域一個(gè)更核心的問(wèn)題:讓人工智能真正學(xué)會(huì)感知世界。

它的具體成果,是一款主打空間感知的多模態(tài)視頻大模型,還兼顧了通用視頻、圖像理解能力,在短視頻空間推理中拿下了SOTA。

更厲害的是,加了預(yù)測(cè)感知模塊后,連超長(zhǎng)視頻的空間任務(wù)都能扛下來(lái)——要知道,這可是很多主流模型的軟肋。
這個(gè)李飛飛和LeCun都關(guān)注的空間智能領(lǐng)域的新模型,到底有哪些突破?
超感知:讓數(shù)字生命真正體驗(yàn)世界
先從它的發(fā)展歷程說(shuō)起。
2024年6月,團(tuán)隊(duì)先推出了Cambrian-1,這是針對(duì)圖像多模態(tài)模型的一次開(kāi)放性探索。
在這次嘗試中,他們從5個(gè)方面方向進(jìn)行了突破。
一是系統(tǒng)測(cè)評(píng)了20多種視覺(jué)編碼器及組合,明確不同類(lèi)型模型(語(yǔ)言監(jiān)督、自監(jiān)督等)的適配場(chǎng)景與優(yōu)勢(shì);
二是設(shè)計(jì)了空間視覺(jué)聚合器SVA,以更少視覺(jué)token高效整合多源視覺(jué)特征,兼顧高清處理與計(jì)算效率;

三是構(gòu)建并優(yōu)化視覺(jué)指令訓(xùn)練數(shù)據(jù)集,從1000萬(wàn)條原始數(shù)據(jù)篩選出700萬(wàn)條高質(zhì)量數(shù)據(jù),平衡類(lèi)別分布并通過(guò)系統(tǒng)提示提升模型交互能力;

四是推出了CV-Bench基準(zhǔn)測(cè)試,聚焦2D/3D視覺(jué)理解核心任務(wù),彌補(bǔ)現(xiàn)有測(cè)評(píng)對(duì)視覺(jué)能力考核的不足;

五是總結(jié)了最優(yōu)訓(xùn)練方案,證實(shí)兩階段訓(xùn)練、解凍視覺(jué)編碼器等策略能顯著提升模型性能。
按常理,下一步工作該是擴(kuò)大規(guī)模搞Cambrian-2、Cambrian-3,跟主流模型拼參數(shù)、拼數(shù)據(jù)量。
但團(tuán)隊(duì)并沒(méi)有這么做,而是停下來(lái)反思“什么是真正的多模態(tài)智能”。
在他們看來(lái),現(xiàn)在很多多模態(tài)模型,看似能看圖說(shuō)話(huà),實(shí)則只是把圖像信息轉(zhuǎn)換成文字,再用語(yǔ)言模型處理——就像人只看了照片的文字說(shuō)明,沒(méi)真正看到照片里的場(chǎng)景。
于是,他們提出了超感知的概念。
超感知并不是換個(gè)更高級(jí)的攝像頭、加個(gè)更靈敏的傳感器那么簡(jiǎn)單。
謝賽寧一句話(huà)點(diǎn)透核心:
這關(guān)乎數(shù)字生命如何真正體驗(yàn)世界,吸收輸入流并學(xué)習(xí)的能力。

簡(jiǎn)單說(shuō),就是讓 AI 不止能看到物體,還能記住物體的位置、理解物體間的關(guān)系,甚至預(yù)判物體接下來(lái)的變化。
他還補(bǔ)了句更關(guān)鍵的:
在構(gòu)建出超感知之前,不可能真正構(gòu)建出超級(jí)智能。
順著這個(gè)思路,團(tuán)隊(duì)又把目標(biāo)聚焦到視頻上,畢竟人感知世界,靠的不是一張張孤立的照片,而是連續(xù)的生活片段。
于是,視頻空間超感知又成了核心方向:讓AI能從視頻里讀懂空間關(guān)系,比如“人從門(mén)口走到沙發(fā)旁,拿起桌上的書(shū)”,不只是識(shí)別人、沙發(fā)、書(shū),還要懂“門(mén)口到沙發(fā)的位置距離”、“書(shū)在桌上的具體方位”。
Cambrian-S:從“考倒 AI”到“做好示范”
有了方向,團(tuán)隊(duì)沒(méi)急著先做模型,而是先解決了兩個(gè)關(guān)鍵問(wèn)題:
- 怎么判斷AI有沒(méi)有空間感知能力?
- 用什么數(shù)據(jù)教AI學(xué)空間感知?
帶著這兩個(gè)問(wèn)題,他們先搞了個(gè)叫VSI-SUPER的基準(zhǔn)測(cè)試,專(zhuān)門(mén)考AI的空間感知。
里面有兩個(gè)看似簡(jiǎn)單的任務(wù):一個(gè)是長(zhǎng)時(shí)程空間記憶(VSR),讓AI看幾小時(shí)的室內(nèi)漫游視頻,之后回憶出視頻里不尋常物體的位置;

另一個(gè)是持續(xù)計(jì)數(shù)(VSC),讓AI在長(zhǎng)視頻里數(shù)清楚特定物體的總數(shù)。

現(xiàn)在市面上的模型一經(jīng)測(cè)試,結(jié)果挺打臉,像Gemini-Live、GPT-Realtime這些號(hào)稱(chēng)能處理實(shí)時(shí)視覺(jué)輸入的商業(yè)模型,在10分鐘視頻上的平均準(zhǔn)確率還不到15%,視頻拉長(zhǎng)到120分鐘,基本就 記不住了。

這也證明,主流模型的空間感知能力,確實(shí)沒(méi)跟上。
解決了“怎么考”,再解決“怎么教”。
團(tuán)隊(duì)建了個(gè)VSI-590K數(shù)據(jù)集,里面有59萬(wàn)條訓(xùn)練樣本,既有真實(shí)場(chǎng)景的視頻,也有模擬的空間場(chǎng)景,重點(diǎn)標(biāo)了物體位置、動(dòng)態(tài)變化這些關(guān)鍵信息,就相當(dāng)于給AI準(zhǔn)備了一套空間感知教材。

有了測(cè)試標(biāo)準(zhǔn)和訓(xùn)練數(shù)據(jù),Cambrian-S模型家族才算正式登場(chǎng)。
參數(shù)規(guī)模從0.5B到7B,不算特別大,但針對(duì)性極強(qiáng)。

核心訓(xùn)練邏輯是,通過(guò)預(yù)測(cè)下一幀的訓(xùn)練機(jī)制,讓模型在推理時(shí)用意外度識(shí)別關(guān)鍵信息,最終實(shí)現(xiàn)對(duì)超長(zhǎng)視頻的空間理解和任務(wù)處理。

成績(jī)也很亮眼,在短視頻空間推理任務(wù)里拿了SOTA;面對(duì)VSI-SUPER 基準(zhǔn)測(cè)試,比開(kāi)源模型的空間記憶準(zhǔn)確率提升了30%以上,部分任務(wù)甚至超過(guò)了一些商業(yè)模型。

更關(guān)鍵的是它的預(yù)測(cè)感知模塊,模型會(huì)主動(dòng)預(yù)判視頻下一幀的內(nèi)容,不僅讓處理超長(zhǎng)視頻時(shí)更高效,還能控制GPU內(nèi)存消耗,不用靠堆硬件來(lái)?yè)涡阅堋?/span>

團(tuán)隊(duì)介紹
除了謝賽寧牽頭,李飛飛和LeCun兩位大佬站臺(tái),寒武紀(jì)項(xiàng)目還有其他幾位核心貢獻(xiàn)成員。
紐約大學(xué)的博士生Shusheng Yang領(lǐng)導(dǎo)了該項(xiàng)目,他曾經(jīng)還參與了Qwen模型的開(kāi)發(fā),也在騰訊實(shí)習(xí)過(guò)。

Jihan Yang,本科畢業(yè)于中山大學(xué),后在香港大學(xué)拿到博士學(xué)位,現(xiàn)為紐約大學(xué)柯朗數(shù)學(xué)科學(xué)研究所的博士后研究員,研究專(zhuān)注于推理、智能體、長(zhǎng)視頻、空間智能、統(tǒng)一模型等多模態(tài)大語(yǔ)言模型。

黃品志,是紐約大學(xué)的一名本科生,曾在Google Gemini實(shí)習(xí)。

Ellis Brown,本科就讀于范德堡大學(xué),主修計(jì)算機(jī)科學(xué)和數(shù)學(xué),曾在斯坦福大學(xué)、哥倫比亞大學(xué)攻讀非學(xué)位研究生課程,后獲得卡內(nèi)基梅隆大學(xué)碩士學(xué)位,目前為紐約大學(xué)庫(kù)朗數(shù)學(xué)研究所計(jì)算機(jī)科學(xué)博士生。

參考鏈接:































