MIT何愷明團隊發布了新語言模型 ELF(Embedded Language Flows)。他們繞開了目前的自回歸架構,把自己在視覺領域最拿手的擴散模型直接用在了文本生成上。具體做法是:把整個生成過程塞進連續的向量空間,直到最后一步才把數據還原成離散 token。
![]()
圖像像素能平滑變色,天生適合擴散模型去噪。但文字不行,詞與詞之間是斷開的,「貓」和「狗」之間沒有任何中間地帶。為了填平這個鴻溝,以前的文本擴散模型做得很擰巴:要么在去噪時每一步都強行去查詞表,要么在模型外面再掛一個獨立的解碼器。ELF 徹底切斷了這種糾纏:中間全不管,讓模型安安心心在連續空間里算去噪,只在最后一刻用同一套網絡把向量轉回文字。
這條路不僅走通了,而且極度省數據。在 OpenWebText 評測中,105M 參數的 ELF-B 僅用32步采樣,困惑度(Gen. PPL)就壓到了約24.1,優于多款基線模型。更重要的是,它只消耗了約45B 訓練 token,而同級別對手通常需要500B 以上,訓練量直接砍掉九成。這個結果證明,語言天生的離散性并沒有堵死連續擴散這條路。
一旦這種思路成熟,未來的大模型有望徹底擺脫只能「從左到右、單向蹦字」的架構束縛。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.