網易首頁 > 網易號 > 正文 申請入駐

喂垃圾數據=毀模型?最新研究:AI 腦腐不可逆,清洗也救不了

0
分享至


大數據文摘出品

最近,德州農工大學與德州大學奧斯汀分校的研究團隊,在論文中提出一個結論:大模型可能會“腦腐”。

他們稱之為“LLM Brain Rot Hypothesis”,意指當模型長期暴露在低質量網絡文本中時,其認知能力會持續退化,并表現出與人類“信息上癮”相似的癥狀。

研究團隊在論文中指出,這種退化不是臨時的,而是深層、持久、且難以修復的結構性損傷

與人類的“腦腐”類似,模型的癥狀包括注意力衰退、推理鏈斷裂、長期記憶混亂、以及性格傾向扭曲。

他們的核心發現是:持續在垃圾數據上預訓練,會讓模型永久變笨。


在受污染的模型中,邏輯推理準確率下降超過20個百分點,長文本理解下降幅度可達40%。

甚至,在心理人格測試中,模型出現了“自戀”“精神病傾向”等特征。

實驗如何驗證“腦腐”:從推文到推理

論文設計了一個極具象征意義的實驗:讓模型“沉迷社交媒體”。

研究者從Twitter(現X平臺)采集了上百萬條推文,按兩種方式劃分“垃圾內容”。

第一種是M1:互動度維度——短且高熱度的內容,被視為典型的“快感型垃圾”。

第二種是M2:語義質量維度——內容空洞、煽動性強、使用標題黨詞匯或夸張情緒的文字。

團隊用這兩類數據分別對四個主流開源模型(包括Llama3與Qwen系列)進行持續預訓練,并以干凈語料作為對照組。

結果令人震驚。在M1條件下,模型在ARC推理測試中的表現從74.9分驟降至57.2分,長文本檢索任務RULER的得分則從84.4降至52.3。

也就是說,“越刷短內容,越失去思考能力。”


圖注:數據顯示“腦腐化”內容往往更短、更受歡迎但語義質量低,人類與GPT對語義質量的判斷高度一致。

研究者將這種衰退模式稱為“劑量響應”:垃圾數據比例越高,能力退化越明顯。

更進一步,他們分析了模型的思考過程,發現最主要的“病灶”是,思維跳步(Thought-skipping)

模型在推理時往往不再展開完整思考,而是直接跳過中間推理鏈,草率給出結論。

這種行為被稱為“認知短路”,類似人類沉迷短視頻后的專注力下降。


作者用四類基準(ARC、RULER、HH-RLHF/AdvBench、TRAIT)來評估大模型的推理、記憶與多任務、倫理規范及人格傾向等認知功能。

退化不可逆:清洗與微調都救不了

論文進一步分析了退化的內部模式。主要發現是,垃圾數據訓練后模型出現推理鏈中斷(thought-skipping)現象。

模型在回答問題時更傾向直接給出結論,而非展開逐步推理。

研究者使用GPT-4o-mini對思維鏈進行分類,發現超過70%的錯誤來自“無思考”或“思維跳步”,而非單純邏輯錯誤。

這一現象與人類在高強度信息刺激下的“注意力割裂”表現相似,但研究者強調,該結果并非類比結論,而是統計規律。


隨著“垃圾內容”比例上升,模型在推理、長上下文理解、倫理安全及人格穩定性等各項認知功能上普遍退化,驗證了“腦腐化”效應。

團隊還進行了劑量效應分析(dose–response),結果表明:垃圾數據比例與性能下降幅度成近線性關系。

隨后,研究者嘗試通過額外的指令微調與干凈數據繼續訓練來“修復”模型。

即使增加五倍規模的清潔數據進行指令調優,模型仍未完全恢復至基線性能。

這說明所謂的“腦腐”效應可能不是格式錯配,而是參數空間層面的結構漂移(representational drift)

研究還測試了反思式推理(Reflective Reasoning)等無訓練修復方法。

結果顯示,使用外部強模型提供反饋(如GPT-4o-mini)能部分恢復推理鏈完整性,但無法完全修復性能差距。

團隊據此提出,“模型認知衰退”可能在訓練過程中被永久編碼進參數分布中。

論文最后指出,這一發現將數據質量問題轉化為訓練安全問題(training-time safety)

作者建議未來建立“模型認知健康檢查”機制,用于監控預訓練數據的組成與長期效果。

他們強調,本研究并未證明所有社交媒體數據均為有害樣本,但結果提示,數據來源的復雜性與語義深度,可能直接決定模型的長期穩定性。

研究團隊在論文結論中寫道:“持續暴露于低質量文本會造成可驗證的認知退化,這種退化具有持續性且難以逆轉。”

這項研究提供了首次系統證據,說明數據質量不僅影響模型性能,也影響模型的內部認知結構。

它將“AI訓練數據質量”從經驗問題轉變為可量化、可因果驗證的科學議題。

作者呼吁,在大模型持續擴展的時代,數據篩選與長期維護應被視為認知安全的一部分。

注:頭圖AI生成

作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!

GPU 訓練特惠!

H100/H200 GPU算力按秒計費,平均節省開支30%以上!

掃碼了解詳情?

點「贊」的人都變好看了哦!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
貝克漢姆14歲女兒當美妝總裁!爸媽提前9年鋪路,網友:誰敢買?!

貝克漢姆14歲女兒當美妝總裁!爸媽提前9年鋪路,網友:誰敢買?!

英國報姐
2026-04-22 20:39:20
中美金融戰,意外的幫中國解決了,房地產這個尾大不掉的問題

中美金融戰,意外的幫中國解決了,房地產這個尾大不掉的問題

混沌錄
2026-04-23 17:00:12
單方面延長停火協議,特朗普強硬人設再度“破功” | 京釀館

單方面延長停火協議,特朗普強硬人設再度“破功” | 京釀館

新京報評論
2026-04-23 13:20:06
王子文和王朔未婚生子的瓜!

王子文和王朔未婚生子的瓜!

八卦瘋叔
2026-04-23 11:10:22
張小泉,要造芯片了?

張小泉,要造芯片了?

中國新聞周刊
2026-04-23 18:24:15
當貝超級盒子H5重磅回歸,64GB大存儲,今晚開啟預售

當貝超級盒子H5重磅回歸,64GB大存儲,今晚開啟預售

PConline太平洋科技
2026-04-23 13:55:58
30分鐘直撲東北!美國調48架F-35兵臨城下,解放軍:敢動就全殲!

30分鐘直撲東北!美國調48架F-35兵臨城下,解放軍:敢動就全殲!

論事的老樞
2026-04-11 20:37:25
零跑曹力公布D19“杭州→北京”長測結果:增程版跑了832.7km

零跑曹力公布D19“杭州→北京”長測結果:增程版跑了832.7km

IT之家
2026-04-23 08:44:10
違建一年未拆!深圳一街道辦凍結涉事房產引質疑,街道回應

違建一年未拆!深圳一街道辦凍結涉事房產引質疑,街道回應

南方都市報
2026-04-23 20:48:22
扎心!開拓者媒體人批楊瀚森跟不上季后賽節奏 建議留下羅威

扎心!開拓者媒體人批楊瀚森跟不上季后賽節奏 建議留下羅威

醉臥浮生
2026-04-23 09:33:54
聯手圍剿特朗普?四大前總統齊聚費城,美國撕裂真相藏不住了

聯手圍剿特朗普?四大前總統齊聚費城,美國撕裂真相藏不住了

真正能保護你的
2026-04-23 23:43:58
美剛宣布 "大勝",伊朗就從地下挖出整個“司令部”,白宮懵了

美剛宣布 "大勝",伊朗就從地下挖出整個“司令部”,白宮懵了

新動察
2026-04-22 10:12:07
重磅官宣!水官高速4月25日24時起停止收費

重磅官宣!水官高速4月25日24時起停止收費

南方都市報
2026-04-23 16:44:13
比亞迪:方程豹轎車定名!

比亞迪:方程豹轎車定名!

新浪財經
2026-04-23 14:36:26
奧斯卡影后查理茲·塞隆公開講述:為了保護我,母親槍殺了父親……

奧斯卡影后查理茲·塞隆公開講述:為了保護我,母親槍殺了父親……

大風新聞
2026-04-23 17:21:03
油價下調!快去加滿~

油價下調!快去加滿~

大連開放前沿
2026-04-23 08:55:00
倒查13年,央國企開始慌了

倒查13年,央國企開始慌了

新浪財經
2026-04-23 02:44:17
李小璐寫真生圖高清

李小璐寫真生圖高清

翩翩明星
2025-11-14 09:39:36
52歲男子性格大變,總懷疑妻子出軌,醫生:確診神經梅毒晚期,與其二十多年前高危性行為史有關

52歲男子性格大變,總懷疑妻子出軌,醫生:確診神經梅毒晚期,與其二十多年前高危性行為史有關

佛山電視臺小強熱線
2026-04-23 19:31:08
光通信大爆發!被忽視的超級黑馬賽道,一個長達5年黃金周期開啟

光通信大爆發!被忽視的超級黑馬賽道,一個長達5年黃金周期開啟

Thurman在昆明
2026-04-23 02:21:15
2026-04-24 01:15:00
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6852文章數 94541關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

媒體:海軍宣傳片出現的"新兵何劍" 傳遞了巨大信息量

頭條要聞

媒體:海軍宣傳片出現的"新兵何劍" 傳遞了巨大信息量

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

令人驚艷的奇瑞車 風云A9可不只是樣子貨

態度原創

房產
數碼
教育
家居
本地

房產要聞

三亞安居房,突然官宣!

數碼要聞

799元!小米推出米家無線吸塵器4C:170AW大吸力、75分鐘長續航

教育要聞

家長讓老師給發電子版試卷,卻被老師指責派頭大,到底誰的問題?

家居要聞

浪漫協奏 法式風格

本地新聞

SAGA GIRLS 2026女團選秀

無障礙瀏覽 進入關懷版