LLM將成歷史?開源bGPT或顛覆深度學(xué)習(xí)范式:直接模擬二進(jìn)制,開啟模擬數(shù)字世界新紀(jì)元!
微軟亞洲研究院推出的最新成果bGPT,這種基于字節(jié)的Transformer模型,為我們探索數(shù)字世界開辟了新的大門。
與傳統(tǒng)的基于詞表的語言模型不同,bGPT的獨(dú)特之處在于其對原始二進(jìn)制數(shù)據(jù)的直接處理能力,不受特定格式或任務(wù)的限制,其目標(biāo)是全面模擬數(shù)字世界。

論文:https://arxiv.org/abs/2402.19155
代碼:https://github.com/sanderwood/bgpt
模型:https://huggingface.co/sander-wood/bgpt
項(xiàng)目主頁:https://byte-gpt.github.io
研究團(tuán)隊(duì)在其論文中展示了bGPT在建模上的巨大潛力,通過字節(jié)級處理,bGPT不僅能生成文本、圖像和音頻,還能模擬計(jì)算機(jī)行為——從格式轉(zhuǎn)換算法到CPU狀態(tài)的建模。將所有數(shù)據(jù)視為字節(jié)序列的做法,使bGPT能夠?qū)⒉煌愋偷臄?shù)據(jù)納入同一框架之下。
bGPT的論文一經(jīng)發(fā)布,便在X(Twitter)上引發(fā)了廣泛的關(guān)注和討論,標(biāo)志著深度學(xué)習(xí)范式轉(zhuǎn)變的可能性,使得模型能夠真正理解并模擬數(shù)字世界中的各種活動。
二進(jìn)制數(shù)據(jù):構(gòu)成數(shù)字世界的基礎(chǔ)DNA
二進(jìn)制數(shù)據(jù)是數(shù)字世界的基礎(chǔ),從計(jì)算機(jī)處理器到我們?nèi)粘J褂玫碾娮赢a(chǎn)品的操作系統(tǒng),構(gòu)成了所有數(shù)據(jù)、設(shè)備和軟件的核心。bGPT正是從這一點(diǎn)出發(fā),旨在通過學(xué)習(xí)二進(jìn)制數(shù)據(jù)序列來掌握數(shù)字系統(tǒng)的內(nèi)部邏輯,以此來重建和模擬復(fù)雜的數(shù)字現(xiàn)象。
bGPT通過字節(jié)級的處理,不僅能應(yīng)用于常規(guī)的AI生成和理解任務(wù),還能處理更多的非傳統(tǒng)應(yīng)用。例如,它能直接模擬MIDI——一種音樂傳輸和存儲的標(biāo)準(zhǔn)格式,這在之前的研究中由于MIDI的二進(jìn)制本質(zhì)而避免了直接建模。
但bGPT天生適合此類任務(wù),能夠精確模擬音樂數(shù)據(jù)的轉(zhuǎn)換算法,將ABC記譜法轉(zhuǎn)換為MIDI格式時(shí),達(dá)到極低的錯(cuò)誤率(0.0011 BPB)。
在實(shí)際應(yīng)用中,bGPT通常能夠準(zhǔn)確地完成ABC符號與MIDI文件之間的轉(zhuǎn)換,有時(shí)甚至能糾正原始文件中的錯(cuò)誤,使音樂轉(zhuǎn)換更加準(zhǔn)確。

bGPT自動將ABC記譜法轉(zhuǎn)換成MIDI格式(上圖)與原MIDI數(shù)據(jù)(下圖)的對比,凸顯了關(guān)鍵的差異:雖然原MIDI數(shù)據(jù)中漏掉了一拍(見下圖),導(dǎo)致和弦伴奏斷開,但由bGPT轉(zhuǎn)換的結(jié)果(見上圖)正確填補(bǔ)了這一缺失,確保了和弦伴奏的流暢性。
研究團(tuán)隊(duì)還將CPU建模作為硬件行為模擬的代表性任務(wù):該任務(wù)要求模型接收低級機(jī)器指令序列作為輸入,其目標(biāo)是準(zhǔn)確預(yù)測每個(gè)指令執(zhí)行后CPU狀態(tài)如何更新,直至程序停止。
在這個(gè)任務(wù)中,bGPT展現(xiàn)出超過99.99%的準(zhǔn)確率,顯示了字節(jié)模型在處理原生二進(jìn)制數(shù)據(jù)方面的強(qiáng)大能力和可擴(kuò)展性。

在提供了程序和初始CPU狀態(tài)的情況下,bGPT能夠準(zhǔn)確地預(yù)測CPU執(zhí)行的完整過程,直到程序終止。在這個(gè)示例中,bGPT精確地處理了所有CPU指令。為了便于理解,這里將實(shí)際的字節(jié)序列轉(zhuǎn)換成了更易讀的格式。
從字節(jié)到萬物:突破邊界,向著統(tǒng)一的數(shù)據(jù)建模進(jìn)發(fā)
bGPT不僅能處理原生二進(jìn)制數(shù)據(jù),還能將多種數(shù)據(jù)類型融合進(jìn)一個(gè)統(tǒng)一的模型架構(gòu)中,視一切數(shù)據(jù)為字節(jié)序列。
這種方法不但簡化了數(shù)據(jù)建模流程,還使得從任何數(shù)據(jù)源的整合變得輕而易舉,且無需為特定數(shù)據(jù)類型定制模型。
研究團(tuán)隊(duì)在論文中舉例了傳統(tǒng)文本、圖像及音頻文件,展現(xiàn)了bGPT在統(tǒng)一數(shù)據(jù)建模方面的能力。他們訓(xùn)練的bGPT模型擁有約1億參數(shù)。
實(shí)驗(yàn)結(jié)果表明,在與GPT-2(文本模型)、ViT(視覺模型)和AST(音頻模型)等同規(guī)模模型的比較中,bGPT在不同數(shù)據(jù)類型上均展現(xiàn)出了可媲美的性能。
bGPT在文本生成方面的表現(xiàn)非常出色。得益于其字節(jié)級的文本編碼,該模型無需依賴詞匯表,從而能支持所有語言。
它的分層Transformer架構(gòu),盡管計(jì)算開銷與GPT-2相近,卻能生成長達(dá)8KB的文本,大大超出了GPT-2的長度限制。在經(jīng)過Wikipedia數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練后,bGPT生成的文本在風(fēng)格和主題上都與GPT-2不相上下,證明了其在文本生成方面的強(qiáng)大能力。
bGPT在Wikipedia數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,生成的文本樣例質(zhì)量和主題一致性與GPT-2相當(dāng)。
bGPT可以通過預(yù)測圖像字節(jié)序列中的下一個(gè)字節(jié)來生成圖像。該模型在ImageNet數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,生成的圖像分辨率為32x32像素。
雖然在當(dāng)前規(guī)模下,通過字節(jié)序列準(zhǔn)確捕捉圖像的二維空間關(guān)系有所困難,導(dǎo)致生成的圖像存在偽影和噪點(diǎn),但紋理和光影效果通常還是比較準(zhǔn)確的。
此外,這些生成的圖像均能被正常解碼為BMP文件。研究團(tuán)隊(duì)指出,通過擴(kuò)大bGPT的規(guī)模,類似于OpenAI開發(fā)的iGPT在像素序列建模方面的方法,或許可以實(shí)現(xiàn)更高質(zhì)量、更逼真的圖像生成。
這些是由在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的bGPT生成的一組圖像。雖然圖像的紋理和光影效果通常比較準(zhǔn)確,但在這些生成的圖像中識別主要物體卻有一定難度。
bGPT將音頻數(shù)據(jù)視為字節(jié)序列,能生成1秒長、采樣率為8000 Hz的音頻樣本。
該模型在LibriSpeech數(shù)據(jù)集上完成了預(yù)訓(xùn)練,并進(jìn)一步在Speech Commands v2數(shù)據(jù)集上進(jìn)行微調(diào)和演示。bGPT生成的音頻樣本保持了較高的準(zhǔn)確度,其中一些樣本幾乎與真實(shí)音頻無法區(qū)分。以下是展示bGPT在音頻生成領(lǐng)域能力的示例集。
通過bGPT探索字節(jié)構(gòu)成的數(shù)字世界
傳統(tǒng)語言模型,不管它們有多強(qiáng)大,主要專注于處理自然語言文本。bGPT模型通過基于字節(jié)的處理機(jī)制,打破了這種僅限于文本處理的局限性,開辟了一個(gè)全新的數(shù)據(jù)處理范疇。
這一進(jìn)步讓bGPT有能力無縫地處理包括文本、圖像、音頻在內(nèi)的各種數(shù)據(jù)類型,甚至能處理來自算法和硬件的原生二進(jìn)制數(shù)據(jù),為全面模擬和理解數(shù)字世界鋪平了道路。
雖然bGPT展現(xiàn)出了引人注目的能力,但其在計(jì)算開銷方面的局限性,如當(dāng)前在常規(guī)顯卡上僅能處理最大8KB的字節(jié)序列,對于那些需要生成或處理大量數(shù)據(jù)的應(yīng)用來說,構(gòu)成了明顯的限制。未來的工作計(jì)劃將集中在開發(fā)更高效的算法和利用硬件的進(jìn)步上,旨在提高處理更大規(guī)模數(shù)據(jù)序列的能力。
全球的技術(shù)愛好者們已經(jīng)開始展望bGPT未來的潛力,從網(wǎng)絡(luò)修剪和自我學(xué)習(xí)的優(yōu)化到超大規(guī)模網(wǎng)絡(luò)的自我重構(gòu)能力,這些討論指向了一個(gè)共同的愿景:bGPT最終可能實(shí)現(xiàn)一個(gè)統(tǒng)一的模型,能夠處理和輸出所有類型的字節(jié)數(shù)據(jù),真正成為數(shù)字世界的全面模擬器。

研究團(tuán)隊(duì)已將bGPT的代碼和模型開源。這意味著你可以在自己的數(shù)據(jù)集上直接訓(xùn)練bGPT,無需做出任何模型架構(gòu)上的調(diào)整,便可探索字節(jié)模型在數(shù)字領(lǐng)域的廣闊前景。























