AI科學(xué)家的十年求索:從模型縮放到下一個(gè)“GPT-4時(shí)刻”
2024年初,當(dāng)AI科學(xué)家張祥雨和他的團(tuán)隊(duì)啟動(dòng)一個(gè)萬(wàn)億參數(shù)的多模態(tài)大模型項(xiàng)目時(shí),他們正沿著一條業(yè)界公認(rèn)的“黃金大道”前行:模型越大,能力越強(qiáng)。然而,九個(gè)多月后,一個(gè)百思不得其解的“反常識(shí)”現(xiàn)象出現(xiàn)了:模型的通用對(duì)話能力、情商和知識(shí)量確實(shí)在飛速增長(zhǎng),但在數(shù)學(xué)和邏輯推理這些“硬核”理科能力上,它的表現(xiàn)卻在達(dá)到一個(gè)平臺(tái)期后不升反降,甚至不如一個(gè)參數(shù)量小得多的模型。
這個(gè)怪現(xiàn)象如同一道裂縫,讓張祥雨得以窺見(jiàn)當(dāng)前大模型范式——“Next Token Prediction”(下一個(gè)詞元預(yù)測(cè))——背后一個(gè)深刻的本質(zhì)缺陷。它不僅解釋了為何模型越大,有時(shí)反而“越笨”,更指明了通往下一個(gè)革命性突破——真正的多模態(tài)推理與自主學(xué)習(xí)——的崎嶇道路。
這不僅僅是一個(gè)技術(shù)難題的發(fā)現(xiàn),更是張祥雨過(guò)去十年研究心路的一次濃縮與升華。從引領(lǐng)計(jì)算機(jī)視覺(jué)(CV)進(jìn)入“深度”時(shí)代的ResNet,到對(duì)純視覺(jué)智能的悲觀,再到對(duì)多模態(tài)、長(zhǎng)思維鏈和自主學(xué)習(xí)的全新構(gòu)想,這條探索之路,描繪出了通往通用人工智能(AGI)的真實(shí)技術(shù)演進(jìn)圖景。
第一章:縮放的黃金時(shí)代與視覺(jué)的“GPT時(shí)刻”之困
張祥雨的學(xué)術(shù)生涯始于深度學(xué)習(xí)的“創(chuàng)世紀(jì)”。2012年,AlexNet的成功揭示了一個(gè)樸素而強(qiáng)大的真理:Scaling(縮放)。模型、數(shù)據(jù)、算力,只要將這三者同步放大,智能就會(huì)涌現(xiàn)。在微軟亞洲研究院讀博期間(2012-2016),他的核心工作正是圍繞“Model Scaling”展開(kāi)。他和何愷明、孫劍、任少卿等人提出的ResNet(殘差網(wǎng)絡(luò)),通過(guò)巧妙的“捷徑連接”,解決了深度神經(jīng)網(wǎng)絡(luò)的梯度消失問(wèn)題,成功將網(wǎng)絡(luò)從十幾層擴(kuò)展到上百甚至上千層,成為計(jì)算機(jī)視覺(jué)領(lǐng)域至今仍在使用的基石架構(gòu)。
然而,當(dāng)模型縮放的紅利被初步挖掘后,瓶頸再次轉(zhuǎn)向了數(shù)據(jù)和算力。2016年后,張祥雨的研究重心一度轉(zhuǎn)向“小模型”,探索如何在端側(cè)設(shè)備上設(shè)計(jì)高效模型架構(gòu)(NAS,神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索)。但他的目光很快又回到了大模型,只是這一次,挑戰(zhàn)已截然不同。
19年起,自然語(yǔ)言處理(NLP)領(lǐng)域迎來(lái)了它的“GPT/BERT時(shí)刻”。通過(guò)“完形填空”(BERT)或“下一個(gè)詞預(yù)測(cè)”(GPT)這樣的自監(jiān)督任務(wù),NLP模型擺脫了對(duì)人工標(biāo)注的依賴,得以在海量無(wú)標(biāo)簽文本上進(jìn)行預(yù)訓(xùn)練,實(shí)現(xiàn)了驚人的Scaling Law——數(shù)據(jù)越多,模型越強(qiáng),學(xué)到的表征越通用。
計(jì)算機(jī)視覺(jué)領(lǐng)域的研究者們對(duì)此既羨慕又焦慮。CV是否也能找到自己的“GPT時(shí)刻”?一時(shí)間,各種自監(jiān)督方法層出不窮。從對(duì)比學(xué)習(xí)(Contrastive Learning)到掩碼圖像建模(MIM,以MAE為代表),社區(qū)看到了希望的曙光。這些方法在特定數(shù)據(jù)集上取得了接近甚至超越監(jiān)督學(xué)習(xí)的效果。
但張祥雨對(duì)此始終保持“謹(jǐn)慎樂(lè)觀”。他敏銳地指出,這些方法存在一個(gè)致命缺陷:它們所學(xué)習(xí)的“不變性”并非從數(shù)據(jù)中自然涌現(xiàn),而是源于人工設(shè)計(jì)(Handcraft)。對(duì)比學(xué)習(xí)依賴于人工設(shè)計(jì)的數(shù)據(jù)增強(qiáng)(旋轉(zhuǎn)、裁剪、變色等),本質(zhì)上是強(qiáng)行讓模型學(xué)會(huì)“旋轉(zhuǎn)不變性”、“色彩不變性”。MIM則是讓模型學(xué)會(huì)“遮擋不變性”。這些不變性固然重要,但它們只是人類(lèi)認(rèn)知世界的必要非充分條件。模型在少量數(shù)據(jù)上就能學(xué)會(huì)這些人造規(guī)則,當(dāng)數(shù)據(jù)量繼續(xù)擴(kuò)大時(shí),它無(wú)法從中獲得新的信息增量,因此缺乏NLP那樣的強(qiáng)大擴(kuò)展性。
“你看NLP為什么這么work?它是真正做到了learn from data(從數(shù)據(jù)中學(xué)習(xí))。”張祥雨總結(jié)道。這段探索讓他得出一個(gè)悲觀但深刻的結(jié)論:?jiǎn)渭円揽快o態(tài)圖像,CV領(lǐng)域可能永遠(yuǎn)無(wú)法迎來(lái)真正的“GPT時(shí)刻”。
第二章:靜態(tài)圖像的“原罪”與多模態(tài)的必然選擇
為何純視覺(jué)的道路走不通?張祥雨從一個(gè)更根本的哲學(xué)層面進(jìn)行了解構(gòu)。他認(rèn)為,自然語(yǔ)言之所以能形成智能的閉環(huán),是因?yàn)槠?strong>生成、理解和人類(lèi)對(duì)齊這三要素是統(tǒng)一的。GPT模型通過(guò)預(yù)測(cè)人類(lèi)語(yǔ)料的下一個(gè)詞,既建模了語(yǔ)言的概率分布(生成),也內(nèi)隱地學(xué)會(huì)了上下文的關(guān)聯(lián)(理解),同時(shí)其學(xué)習(xí)目標(biāo)天然就與人類(lèi)思維和表達(dá)方式對(duì)齊(人類(lèi)對(duì)齊)。
然而,靜態(tài)圖像的世界是割裂的。
- 生成與理解的分離一個(gè)能完美生成所有圖像的模型(即建模了像素間的聯(lián)合概率分布),并不意味著它能以人類(lèi)的方式去“理解”這些圖像。圖像是大自然的產(chǎn)物,它客觀存在,但“如何理解它”這一信息,并不內(nèi)含于圖像本身。
- 與人類(lèi)對(duì)齊的缺失語(yǔ)言的語(yǔ)料來(lái)自人類(lèi),而圖像的語(yǔ)料來(lái)自大自然。在圖像數(shù)據(jù)上訓(xùn)練生成模型,其分布天然與自然規(guī)律對(duì)齊,而非人類(lèi)的認(rèn)知規(guī)律。
這種“原罪”導(dǎo)致在靜態(tài)圖像上做再多的自監(jiān)督,也難以形成人類(lèi)意義上的“智能”。唯一的出路,是將圖像嵌入到語(yǔ)言這個(gè)已經(jīng)實(shí)現(xiàn)“三位一體”的模態(tài)中去。通過(guò)互聯(lián)網(wǎng)上大量存在的圖文交錯(cuò)數(shù)據(jù),讓圖像“借用”語(yǔ)言的自閉環(huán)特性,通過(guò)與文字的對(duì)齊關(guān)系,獲得被理解和生成的能力。
這便是通往多模態(tài)的邏輯必然。2023年,張祥雨團(tuán)隊(duì)研發(fā)了第一代多模態(tài)大模型。他們從預(yù)訓(xùn)練之初就采用圖文混排的數(shù)據(jù),模型在圖像理解上表現(xiàn)出色,甚至能無(wú)縫處理寫(xiě)在圖片上的文字。然而,在圖像生成上,模型的可控性卻極差。更關(guān)鍵的是,他們發(fā)現(xiàn)生成模塊和理解模塊像是兩個(gè)獨(dú)立的系統(tǒng),移除任何一方,對(duì)另一方的性能幾乎沒(méi)有影響。
“生成和理解,在那個(gè)時(shí)間點(diǎn)看起來(lái)還是分開(kāi)的。” 這次失敗的嘗試,讓他意識(shí)到簡(jiǎn)單地將圖文數(shù)據(jù)丟進(jìn)一個(gè)模型,并不能真正實(shí)現(xiàn)兩大模態(tài)的融合。這背后,還缺失了關(guān)鍵的一環(huán)。
第三章:萬(wàn)億模型的“反常識(shí)”:壓縮與推理的根本矛盾
解開(kāi)謎題的鑰匙,意外地出現(xiàn)在文章開(kāi)頭提到的那個(gè)萬(wàn)億參數(shù)模型(Step-2)的“反常識(shí)”現(xiàn)象中。為什么模型越大,數(shù)學(xué)能力反而下降?
經(jīng)過(guò)嚴(yán)謹(jǐn)?shù)臏y(cè)試和分析,張祥雨發(fā)現(xiàn)了“蛛絲馬跡”:更大的模型在處理數(shù)學(xué)題時(shí),更傾向于**“跳步(Jumping Steps)”**。它不再像小模型那樣老老實(shí)實(shí)地一步步推演,而是憑借其強(qiáng)大的容量,試圖直接“記住”并輸出最終答案。
這個(gè)行為模式直指“Next Token Prediction”范式的核心——壓縮。從信息論的角度看,這個(gè)范式本質(zhì)上是一個(gè)無(wú)損壓縮器,它通過(guò)預(yù)測(cè)概率分布,盡可能地用最短的編碼(最少的詞元)來(lái)表示信息。當(dāng)模型足夠大時(shí),對(duì)于“1+2+3=?”這樣的問(wèn)題,直接輸出“6”比輸出“1+2=3, 3+3=6”的壓縮率更高。
“更大的壓縮率,未必對(duì)應(yīng)更高的計(jì)算精度。”張祥雨一語(yǔ)道破天機(jī)。
對(duì)于開(kāi)放式對(duì)話,跳步無(wú)傷大雅,甚至顯得更智能。但對(duì)于數(shù)學(xué)、邏輯這類(lèi)要求過(guò)程嚴(yán)謹(jǐn)?shù)娜蝿?wù),任何一步的跳躍都可能導(dǎo)致“積小錯(cuò)成大錯(cuò)”。一個(gè)復(fù)雜的推理鏈條中,只要有10%的步驟因?yàn)椤疤健倍鲥e(cuò),最終的正確率就會(huì)急劇下降。這完美解釋了為何萬(wàn)億模型“文科”超強(qiáng),“理科”卻表現(xiàn)不佳。它被自己強(qiáng)大的“壓縮本能”帶入了歧途。
第四章:“元認(rèn)知”的覺(jué)醒與真正的思維鏈
既然“壓縮”這條路有缺陷,那么就需要一種直接面向“正確性”的優(yōu)化方法。這引出了AI發(fā)展的下一個(gè)重要篇章:強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)。通過(guò)獎(jiǎng)勵(lì)正確的答案、懲罰錯(cuò)誤的答案,RL可以迫使模型尋找最可靠的路徑,從而在一定程度上抑制了“跳步”的沖動(dòng)。
然而,早期的RL應(yīng)用收益有限。真正的突破,來(lái)自于以O(shè)penAI的Q*為代表的一系列工作,張祥雨將其總結(jié)為一種全新的范式——“元思維鏈(Meta Chain-of-Thought)”。
傳統(tǒng)的思維鏈(COT)是將一個(gè)復(fù)雜問(wèn)題拆解成線性步驟。但對(duì)于更復(fù)雜的問(wèn)題,我們甚至無(wú)法預(yù)知應(yīng)該采用哪一種思維鏈。而“元思維鏈”范式,通過(guò)引入**反思(Reflection)**機(jī)制,讓模型不再是“落子無(wú)悔”,而是在一個(gè)網(wǎng)狀的思維空間里進(jìn)行探索。
“如果我允許它按兩條分支都走,那不就解決了?” 張祥雨解釋道。模型可以先嘗試一條路徑,走到一半發(fā)現(xiàn)不對(duì),然后“反悔”,退回到上一個(gè)分叉口,再嘗試另一條路徑。
這種范式的驚人之處在于其無(wú)與倫比的泛化能力。張祥雨團(tuán)隊(duì)做了一個(gè)實(shí)驗(yàn):只用純數(shù)學(xué)數(shù)據(jù)訓(xùn)練一個(gè)具備“元思維鏈”能力的模型,然后讓它去挑戰(zhàn)從未見(jiàn)過(guò)的古詩(shī)詞創(chuàng)作。令人震驚的是,模型自發(fā)地激發(fā)出了類(lèi)似解數(shù)學(xué)題的思考模式:先生成一個(gè)草稿,然后逐字檢查格律、押韻,發(fā)現(xiàn)不妥后進(jìn)行修改,甚至推翻重來(lái),整個(gè)過(guò)程充滿了“驗(yàn)證”、“回溯”、“審題”等高級(jí)思維模式。
它泛化的不是知識(shí),而是思考的模式(Pattern of Thought)。這種能力的根源,在于預(yù)訓(xùn)練語(yǔ)料中雖然稀疏但廣泛存在的、由人類(lèi)留下的各種思維模式的痕跡(例如,在技術(shù)論壇上,高手們解決難題時(shí)一步步試錯(cuò)、修正的過(guò)程)。RL的作用,就是將這些寶貴的“思維模式火種”激發(fā)并強(qiáng)化,讓模型得以融會(huì)貫通。
第五章:下一個(gè)GPT-4時(shí)刻:視覺(jué)思維鏈的誕生
當(dāng)張祥雨帶著對(duì)“元思維鏈”的全新理解,重新審視多模態(tài)生成與理解一體化的難題時(shí),一切豁然開(kāi)朗。
為什么圖像生成的可控性差?因?yàn)樗€停留在語(yǔ)言模型最原始的“一口爆”時(shí)代,它缺少自己的**“視覺(jué)思維鏈(Visual COT)”**。生成一張包含復(fù)雜邏輯(如“畫(huà)一個(gè)正在解雞兔同籠問(wèn)題的黑板”)的圖像,其內(nèi)在復(fù)雜度遠(yuǎn)超模型單步生成的上限。無(wú)論是Auto-regressive還是Diffusion模型,本質(zhì)上都是試圖一步到位,這必然導(dǎo)致失敗。
通往下一個(gè)“GPT-4時(shí)刻”——真正的多模態(tài)推理——的路徑也因此變得清晰:必須為視覺(jué)賦予思維鏈。
張祥雨構(gòu)思了兩條并行的路徑:
- 從數(shù)據(jù)入手,挖掘視頻寶藏大量的教學(xué)類(lèi)視頻,包含了豐富的、一步步的視覺(jué)思考過(guò)程(如老師在黑板上畫(huà)輔助線、用激光筆指點(diǎn))。將這些帶有過(guò)程化的視覺(jué)數(shù)據(jù)引入訓(xùn)練,可以為模型提供天然的“視覺(jué)思維鏈”養(yǎng)料。
- 從能力入手,打造可控生成“原子操作”首先要實(shí)現(xiàn)高可控的、指令性的簡(jiǎn)單圖像生成與編輯。例如“連接A和B兩點(diǎn)”、“移除圖中的某個(gè)人”。這些任務(wù)復(fù)雜度低,可以在現(xiàn)有架構(gòu)下通過(guò)精細(xì)的數(shù)據(jù)清洗和控制實(shí)現(xiàn)。
一旦這些簡(jiǎn)單的、可控的生成能力(可以視為視覺(jué)的“原子操作”)得以實(shí)現(xiàn),它們就可以被整合進(jìn)一個(gè)更宏大的推理框架中。模型將不再是一步生成最終圖像,而是可以像人類(lèi)畫(huà)家一樣:先生成一個(gè)草稿(一個(gè)原子操作),然后審視草稿并進(jìn)行反思,接著擦除不滿意的部分(第二個(gè)原子操作),再添加新的細(xì)節(jié)(第三個(gè)原子操作)……
在這個(gè)過(guò)程中,生成即是推理,推理引導(dǎo)生成。當(dāng)模型能夠在視覺(jué)空間中進(jìn)行這種帶反思的、多步驟的“慢思考”時(shí),生成與理解的鴻溝將被徹底填平。
“這就是我想象中的,下一個(gè)多模態(tài)的GPT-4時(shí)刻。”張祥雨預(yù)測(cè),由于前置技術(shù)看起來(lái)都已就緒,這一刻的到來(lái)將“非常快”,可能就在一到兩年之內(nèi)。
終章:超越當(dāng)前范式,奔向自主學(xué)習(xí)的未來(lái)
在多模態(tài)推理之后,AGI的版圖上還有兩片更廣闊的大陸:長(zhǎng)上下文(Long Context)和自主學(xué)習(xí)(Autonomous Learning)。
張祥雨批判了當(dāng)前對(duì)長(zhǎng)上下文的“軍備競(jìng)賽”。他認(rèn)為,將所有信息不加壓縮地塞入一個(gè)無(wú)限長(zhǎng)的Context,就像一個(gè)只有短期記憶但容量無(wú)限的大腦,會(huì)因信息干擾導(dǎo)致“注意力渙散”,性能下降。未來(lái)的架構(gòu),更可能模仿人腦的分區(qū)協(xié)作機(jī)制,由不同的模型/模塊扮演“規(guī)劃者”、“執(zhí)行者”、“記憶體”等角色,通過(guò)高效協(xié)作來(lái)處理長(zhǎng)序列任務(wù),而非依賴單一模型的蠻力。
而最終的圣杯,無(wú)疑是自主學(xué)習(xí)與在線學(xué)習(xí)。當(dāng)前基于RL的范式,本質(zhì)上仍是“KPI驅(qū)動(dòng)”,依賴人類(lèi)設(shè)計(jì)的環(huán)境和獎(jiǎng)勵(lì)信號(hào),模型訓(xùn)練完成后便無(wú)法再進(jìn)化。而真正的智能體,應(yīng)該具備內(nèi)生的驅(qū)動(dòng)力,能夠自主探索環(huán)境,從非結(jié)構(gòu)化的自然反饋(比如一句模糊的批評(píng)“你這篇文章寫(xiě)得有點(diǎn)干巴”)中學(xué)習(xí)和提升自己。
“這其實(shí)就是下一代自主學(xué)習(xí)要解決的問(wèn)題。”張翔-宇判斷,盡管挑戰(zhàn)巨大,但在全球研究者的共同努力下,這一領(lǐng)域的突破也可能在兩到三年內(nèi)發(fā)生。
從ResNet的深度探索,到對(duì)靜態(tài)圖像局限性的洞察,從萬(wàn)億模型“反常識(shí)”的發(fā)現(xiàn),到“元思維鏈”的頓悟,再到對(duì)視覺(jué)思維鏈和自主學(xué)習(xí)的清晰擘畫(huà),張祥雨的十年求索,為我們揭示了AI技術(shù)演進(jìn)的內(nèi)在邏輯:它并非線性的參數(shù)增長(zhǎng),而是一個(gè)在“底層算法”和“模態(tài)擴(kuò)展”兩軸上螺旋上升的認(rèn)知迭代過(guò)程。
我們正站在又一個(gè)范式革命的前夜。當(dāng)機(jī)器不僅能看懂世界,更能像我們一樣,在腦海中(或畫(huà)布上)一步步地思考、規(guī)劃、創(chuàng)作和反思時(shí),一個(gè)真正意義上的智能時(shí)代,才算剛剛拉開(kāi)序幕。
本文轉(zhuǎn)載自????草臺(tái)AI????,作者:RangerEX

















