喂垃圾數(shù)據(jù)=毀模型?最新研究:AI 腦腐不可逆,清洗也救不了
最近,德州農(nóng)工大學(xué)與德州大學(xué)奧斯汀分校的研究團(tuán)隊(duì),在論文中提出一個(gè)結(jié)論:大模型可能會(huì)“腦腐”。
他們稱(chēng)之為“LLM Brain Rot Hypothesis”,意指當(dāng)模型長(zhǎng)期暴露在低質(zhì)量網(wǎng)絡(luò)文本中時(shí),其認(rèn)知能力會(huì)持續(xù)退化,并表現(xiàn)出與人類(lèi)“信息上癮”相似的癥狀。
研究團(tuán)隊(duì)在論文中指出,這種退化不是臨時(shí)的,而是深層、持久、且難以修復(fù)的結(jié)構(gòu)性損傷。
與人類(lèi)的“腦腐”類(lèi)似,模型的癥狀包括注意力衰退、推理鏈斷裂、長(zhǎng)期記憶混亂、以及性格傾向扭曲。
他們的核心發(fā)現(xiàn)是:持續(xù)在垃圾數(shù)據(jù)上預(yù)訓(xùn)練,會(huì)讓模型永久變笨。
圖片
在受污染的模型中,邏輯推理準(zhǔn)確率下降超過(guò)20個(gè)百分點(diǎn),長(zhǎng)文本理解下降幅度可達(dá)40%。
甚至,在心理人格測(cè)試中,模型出現(xiàn)了“自戀”“精神病傾向”等特征。
實(shí)驗(yàn)如何驗(yàn)證“腦腐”:從推文到推理
論文設(shè)計(jì)了一個(gè)極具象征意義的實(shí)驗(yàn):讓模型“沉迷社交媒體”。
研究者從Twitter(現(xiàn)X平臺(tái))采集了上百萬(wàn)條推文,按兩種方式劃分“垃圾內(nèi)容”。
第一種是M1:互動(dòng)度維度——短且高熱度的內(nèi)容,被視為典型的“快感型垃圾”。
第二種是M2:語(yǔ)義質(zhì)量維度——內(nèi)容空洞、煽動(dòng)性強(qiáng)、使用標(biāo)題黨詞匯或夸張情緒的文字。
團(tuán)隊(duì)用這兩類(lèi)數(shù)據(jù)分別對(duì)四個(gè)主流開(kāi)源模型(包括Llama3與Qwen系列)進(jìn)行持續(xù)預(yù)訓(xùn)練,并以干凈語(yǔ)料作為對(duì)照組。
結(jié)果令人震驚。在M1條件下,模型在ARC推理測(cè)試中的表現(xiàn)從74.9分驟降至57.2分,長(zhǎng)文本檢索任務(wù)RULER的得分則從84.4降至52.3。
也就是說(shuō),“越刷短內(nèi)容,越失去思考能力。”

圖注:數(shù)據(jù)顯示“腦腐化”內(nèi)容往往更短、更受歡迎但語(yǔ)義質(zhì)量低,人類(lèi)與GPT對(duì)語(yǔ)義質(zhì)量的判斷高度一致。
研究者將這種衰退模式稱(chēng)為“劑量響應(yīng)”:垃圾數(shù)據(jù)比例越高,能力退化越明顯。
更進(jìn)一步,他們分析了模型的思考過(guò)程,發(fā)現(xiàn)最主要的“病灶”是,思維跳步(Thought-skipping)。
模型在推理時(shí)往往不再展開(kāi)完整思考,而是直接跳過(guò)中間推理鏈,草率給出結(jié)論。
這種行為被稱(chēng)為“認(rèn)知短路”,類(lèi)似人類(lèi)沉迷短視頻后的專(zhuān)注力下降。

作者用四類(lèi)基準(zhǔn)(ARC、RULER、HH-RLHF/AdvBench、TRAIT)來(lái)評(píng)估大模型的推理、記憶與多任務(wù)、倫理規(guī)范及人格傾向等認(rèn)知功能。
退化不可逆:清洗與微調(diào)都救不了
論文進(jìn)一步分析了退化的內(nèi)部模式。主要發(fā)現(xiàn)是,垃圾數(shù)據(jù)訓(xùn)練后模型出現(xiàn)推理鏈中斷(thought-skipping)現(xiàn)象。
模型在回答問(wèn)題時(shí)更傾向直接給出結(jié)論,而非展開(kāi)逐步推理。
研究者使用GPT-4o-mini對(duì)思維鏈進(jìn)行分類(lèi),發(fā)現(xiàn)超過(guò)70%的錯(cuò)誤來(lái)自“無(wú)思考”或“思維跳步”,而非單純邏輯錯(cuò)誤。
這一現(xiàn)象與人類(lèi)在高強(qiáng)度信息刺激下的“注意力割裂”表現(xiàn)相似,但研究者強(qiáng)調(diào),該結(jié)果并非類(lèi)比結(jié)論,而是統(tǒng)計(jì)規(guī)律。
圖片
隨著“垃圾內(nèi)容”比例上升,模型在推理、長(zhǎng)上下文理解、倫理安全及人格穩(wěn)定性等各項(xiàng)認(rèn)知功能上普遍退化,驗(yàn)證了“腦腐化”效應(yīng)。
團(tuán)隊(duì)還進(jìn)行了劑量效應(yīng)分析(dose–response),結(jié)果表明:垃圾數(shù)據(jù)比例與性能下降幅度成近線(xiàn)性關(guān)系。
隨后,研究者嘗試通過(guò)額外的指令微調(diào)與干凈數(shù)據(jù)繼續(xù)訓(xùn)練來(lái)“修復(fù)”模型。
即使增加五倍規(guī)模的清潔數(shù)據(jù)進(jìn)行指令調(diào)優(yōu),模型仍未完全恢復(fù)至基線(xiàn)性能。
這說(shuō)明所謂的“腦腐”效應(yīng)可能不是格式錯(cuò)配,而是參數(shù)空間層面的結(jié)構(gòu)漂移(representational drift)。
研究還測(cè)試了反思式推理(Reflective Reasoning)等無(wú)訓(xùn)練修復(fù)方法。
結(jié)果顯示,使用外部強(qiáng)模型提供反饋(如GPT-4o-mini)能部分恢復(fù)推理鏈完整性,但無(wú)法完全修復(fù)性能差距。
團(tuán)隊(duì)據(jù)此提出,“模型認(rèn)知衰退”可能在訓(xùn)練過(guò)程中被永久編碼進(jìn)參數(shù)分布中。
論文最后指出,這一發(fā)現(xiàn)將數(shù)據(jù)質(zhì)量問(wèn)題轉(zhuǎn)化為訓(xùn)練安全問(wèn)題(training-time safety)。
作者建議未來(lái)建立“模型認(rèn)知健康檢查”機(jī)制,用于監(jiān)控預(yù)訓(xùn)練數(shù)據(jù)的組成與長(zhǎng)期效果。
他們強(qiáng)調(diào),本研究并未證明所有社交媒體數(shù)據(jù)均為有害樣本,但結(jié)果提示,數(shù)據(jù)來(lái)源的復(fù)雜性與語(yǔ)義深度,可能直接決定模型的長(zhǎng)期穩(wěn)定性。
研究團(tuán)隊(duì)在論文結(jié)論中寫(xiě)道:“持續(xù)暴露于低質(zhì)量文本會(huì)造成可驗(yàn)證的認(rèn)知退化,這種退化具有持續(xù)性且難以逆轉(zhuǎn)。”
這項(xiàng)研究提供了首次系統(tǒng)證據(jù),說(shuō)明數(shù)據(jù)質(zhì)量不僅影響模型性能,也影響模型的內(nèi)部認(rèn)知結(jié)構(gòu)。
它將“AI訓(xùn)練數(shù)據(jù)質(zhì)量”從經(jīng)驗(yàn)問(wèn)題轉(zhuǎn)變?yōu)榭闪炕⒖梢蚬?yàn)證的科學(xué)議題。
作者呼吁,在大模型持續(xù)擴(kuò)展的時(shí)代,數(shù)據(jù)篩選與長(zhǎng)期維護(hù)應(yīng)被視為認(rèn)知安全的一部分。






























