網易首頁 > 網易號 > 正文 申請入駐

LangFlow: 挑戰離散擴散,探索下一代語言模型新范式

0
分享至



主要作者團隊:Yuxin Chen 現為伊利諾伊大學厄巴納 - 香檳分校(UIUC)碩士一年級學生,Chumeng Liang 為 UIUC 博士一年級學生,Hangke Sui 為 UIUC 博士二年級學生,Ge Liu 為 UIUC 計算機系助理教授。Liu Lab 團隊長期聚焦擴散 / 流模型方向,已產出 Riemannian Consistency Model (RCM), Statistical Flow Matching, 及本文 LangFlow 等多項代表性研究成果。



  • 論文標題:LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling
  • 論文鏈接:https://arxiv.org/abs/2604.11748
  • github:https://github.com/nealchen2003/LangFlow
  • huggingface:https://huggingface.co/papers/2604.11748

“在圖像視頻領域統治的連續擴散模型,為何在文本上遲遲無法突破壁壘,甚至被迫走向‘模仿自回歸’的妥協之路?”

當前擴散語言模型(DLM)深陷 “越像 AR 性能越好” 的怪圈。為逼近 AR,主流研究轉向離散擴散,卻陷入并行解碼困境,逐漸喪失了低延遲與多模態等原生潛力。

面對路線分歧,UIUC Ge Liu 團隊發布新作《LangFlow: Continuous Flow Matching for Large Language Models》,徹底回歸最傳統的連續擴散架構。研究指出,連續擴散在文本上的受挫并非先天缺陷,而是受限于訓練與評估策略。經過系統性優化,LangFlow 首次讓連續擴散在標準基準上追平離散擴散。

這項工作不僅打破了文本生成的離散壁壘,更證明了保留 Diffusion 原生特性的連續架構 “同樣能打”,為探索低延遲、高可控的多模態統一架構,重新打通了一條被長期忽視的底層路線。

語言模型的發展方向

當今大語言模型(不論是 ChatGPT 還是 DeepSeek)的基礎是自回歸(Autoregressive, AR)架構,也就是常說的 “預測下個詞元”。雖然 AR 架構已經取得了巨大的成功,但有幾個本質性的天花板難以突破:

1)推理延遲。 AR 架構每次推理只預測下一個詞元,這意味著:

推理延遲 = 推理步數 × 單步延遲 = 輸出詞元數 × 單步延遲.

對于 AR 模型來說,單步延遲主要受限于從顯存中讀取之前的內容(KV 緩存)。所以,每讀一次 KV 緩存只計算一個新詞元是很浪費的。

2)可控性。 AR 架構主要兼容使用提示詞的控制方式。提示詞與其它信息處于同等地位,因此 AR 受制于指令失效的問題。

3)模態局限性。 AR 架構主要用于預測離散模態,生成圖像、視頻、空間位置、機器人動作等連續模態則需要搭載擴散生成頭,不利于架構統一。

擴散語言模型簡史

近年來,主流思想認為,擴散語言模型越像自回歸,表現就越好。而最經典的連續擴散,一般認為存在先天劣勢;但這一偏見正在逐漸被打破。



隨著 Stable Diffusion 等先進生成模型的發布,Diffusion 在圖像和視頻生成中確立了統治地位。2022-2023 年,大家自然想把它遷到文本上,以期解決以上三個問題:

1)低延遲。 Diffusion 可以蒸餾成一步生成模型(如 Consistency Model),讀一次 KV 緩存同時輸出多個詞元,大幅降低推理延遲。

2)高可控。 Diffusion 有 Classifier Guidance 以及 Classifier-Free Guidance 等成熟技術,可以強化指令跟隨的質量。

3)多模態。 Diffusion 已經是連續模態的主流范式,若將離散模態連續化,則可以統一架構,同時不會損失任何信息,反之則不然。

盡管上述愿景富有吸引力,但早期的實驗結果并不理想,且隨著模型規模的擴大,性能差距愈發明顯。例如,參數量擴展至 1B 的連續擴散模型 Plaid,其性能僅與 100M 參數的 AR Transformer 相當。而 Diffusion-LM 等模型甚至難以在無條件情況下生成通順句子。

傳統擴散模型在語言任務上的局限性,促使研究社區轉向一種 “離散 Diffusion”,也就是從初態(全 [MASK] 或者詞表中均勻隨機)出發,每步以一個小概率替換部分詞元。2024 年,離散 Diffusion 取得了顯著進展,尤其是初始為全 [MASK] 態的 Masked Diffusion 家族最為突出,把與 AR 的 PPL 差距縮到 10 以內。近期的里程碑是 Block Diffusion,它把數據每 4–32 個 token 分一塊,塊內是 MDLM,塊間是 AR,PPL 只比 AR 差 3 左右。

截至 2025 年中,DLM 的演進路線是很明確的:

(連續)Diffusion → 離散 Diffusion → Masked Diffusion → Block Diffusion

趨勢十分清晰:Diffusion 越像 AR,性能就越接近 AR。這逐漸成為工業界的共識:在擴展 DLM 規模時,工業界普遍采用 Block Diffusion,平均每次推理能預測接下來 32 個詞元中的 4 個。這其實與 DeepSeek-V3 的多詞元預測(multi-token prediction)技術不謀而合。

然而,Masked Diffusion 在逼近 AR 性能的同時,也弱化了 Diffusion 的特色,犧牲了以上三個核心潛力中的兩個:推理延遲與多模態能力。

(連續)Diffusion 之所以能蒸餾為一步,是因為其概率流 ODE 形式下(注:DDIM 的連續時間版本,每步不注入噪聲,等價于一般意義下的 Flow Matching),每個隨機初態確定性地對應一個終點。然而,Masked Diffusion 初始為單一的全 [MASK] 態,通過逐步注入隨機性,才能生成多種不同的結果;如果一步同時解碼多個 token,其間的對應關系是捕捉不到的。因此,Masked Diffusion 深陷并行解碼困境(parallel decoding dilemma),也就是隨著生成步數的減少,多種可能的目標句交叉混疊,質量不可避免地走向崩潰,如下圖:



Masked Diffusion 的得失引出一個核心問題:如果 Diffusion 必須依賴模仿 AR 才能提升性能,其作為獨立語言模型架構的獨特價值便有待商榷了。

連續擴散模型的回歸

2025 年,前沿研究開始重新審視這一路線,嘗試回歸多初始態架構,以保留 Diffusion 的核心特性。代表作 Duo 改進了基于均勻隨機噪聲的離散 Diffusion,雖然在 OpenWebText 上未能超過 Masked Diffusion,但在少步蒸餾后仍保持生成質量,并采用專為離散 Diffusion 設計的引導機制。近期研究甚至表明,在 GSM8K(數學基準)的擴大規模測試中,Duo 擊敗了 Masked Diffusion 和 AR。這表明模仿 AR 并非提升擴散模型性能的唯一路徑。

在最新工作 LangFlow 中,研究團隊比 Duo 更徹底地回歸 —— 直接回到最傳統的 Diffusion。該研究證明:早期連續 DLM 的表現不佳并非源于架構的先天缺陷,而是受限于訓練策略與評估方法。經優化后,同樣在 GPT-2-small 規模下,連續 Diffusion 追平了離散 Diffusion,甚至可與 AR 相當。具體來說,該團隊發布的模型 LangFlow,在 7 個零樣本遷移測試中,有 3 個超過 AR。

下文說明具體做法。

更有效的訓練:

刻畫連續擴散的信息熵

Embedding 空間上的 Diffusion

研究團隊采用了embedding 空間上的 diffusion 框架。模型輸入帶噪的 embedding,預測干凈 token 的概率分布,然后以封閉形式算出 diffusion 的去噪目標。

















噪聲的 Schedule

優化噪聲 schedule 是提升 DLM 性能的關鍵。與圖像不同的是,研究團隊發現:DLM 必須偏重極高噪聲區,才能學得有效信息。

1、標準噪聲 Scheduler 的局限











2、讓 Schedule 匹配信息增量











3、信息量服從 Gumbel 分布









更精準的測試:還原連續擴散的實力

關鍵指標解釋

根據以往的 DLM 工作,該研究沿用以下兩項指標(都是越低越好):





Self-Conditioning

研究團隊通過對比實驗指出:關閉 Self-Conditioning 的對比對連續 DLM 是不公平的。







ODE 生成的 PPL 估計

研究團隊還注意到:之前的工作的變分上界不適用于 LangFlow 所用的 ODE 生成。

準確的 PPL 度量是公平比較的前提。AR 逐詞元計算似然;離散擴散用變分推導一個上界。在本研究中,團隊為 LangFlow 的 ODE 生成路徑推導了一個更適配的 NLL 上界,按序列長度平均并取指數后即為 PPL:



這個上界由三部分構成:第一項是從噪聲中抽取軌跡起點的 NLL;第二項是 ODE 對概率密度的壓縮或膨脹;第三項是從軌跡終點還原 token 的 NLL。最后的一項,是以上三項中的常數項相互抵消剩下的總和。

這個界完全適配 LangFlow 的 ODE 生成,為連續 DLM 的 PPL 評估提供了更可靠的理論基礎。

多項基準全面追平:

語言建模與零樣本遷移均進入第一梯隊

連續擴散在 LM1B 和 OWT 的 PPL/Gen. PPL 上整體匹敵離散擴散,并取得擴散模型中最強的零樣本遷移表現。

研究團隊在 LM1B(句子級)和 OpenWebText(OWT,類似 GPT-2 語料)上評估 LangFlow。模型都是 130M 參數的雙向 DiT,訓練 1M 步。

語言建模





在 LM1B 上,LangFlow 生成 PPL 達 91.8,優于最強離散 DLM(Duo 97.6)6 分以上。測試集 PPL(31.7)超過所有均勻隨機噪聲的離散 DLM,與 Masked Diffusion 的 SOTA MDLM(31.0)持平。在 OWT 上,LangFlow(24.3)與 MDLM(23.2)差距僅在 1 左右。這是連續 DLM 首次在標準語言建;鶞噬献菲诫x散 DLM。

零樣本遷移

在 7 個 零樣本遷移測試中,LangFlow 在 3 個上超過 AR 基線,在 4 個上超過 MDLM。尤其在 Pubmed 和 Arxiv(充滿結構化、專業術語)上,LangFlow 相對 AR 優勢顯著(36.45 vs 49.01,32.84 vs 41.73)。LangFlow 不僅放大了離散擴散對 AR 的相對優勢,還在其弱勢項目上補齊了短板。

總結:走向多架構協同的下一代語言模型

LangFlow 證明了連續 DLM 完全具備在標準基準上打平離散 DLM 的基礎能力。然而,Diffusion 的長期價值并不在于與 AR 進行零和博弈,而在于作為 AR 架構的關鍵補充。在低延遲解碼、細粒度指令控制以及原生多模態融合等 AR 存在固有局限的領域,連續 Diffusion 展現出了不可替代的天然優勢。

未來的語言模型發展趨勢正指向多種架構優勢互補的組合,而非單一范式的壟斷。與其將 Diffusion 強行 “改造” 成 AR 的離散生成模式,不如徹底釋放其連續架構的原生潛力。

LangFlow 完整保留了擴散模型的核心特性,不僅為連續 DLM 的后續擴展提供了堅實的基線,更為構建下一代低延遲、高可控、多模態共生的 AI 基礎設施確立了重要的底層路線。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
涉嫌嚴重違紀違法!廣東省地圖院副院長陳長波被查

涉嫌嚴重違紀違法!廣東省地圖院副院長陳長波被查

南方都市報
2026-04-28 11:54:14
有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
錢再多有什么用?因嘴唇發紫去檢查心臟的陸毅,給所有人提了個醒

錢再多有什么用?因嘴唇發紫去檢查心臟的陸毅,給所有人提了個醒

青杉依舊啊啊
2026-04-27 17:45:13
崩潰!浙江女子接了個視頻通話,20萬元沒了,銀行卡里還有30多萬元……

崩潰!浙江女子接了個視頻通話,20萬元沒了,銀行卡里還有30多萬元……

環球網資訊
2026-04-28 19:50:51
歷史上最被低估的一場起義,走出6位稱霸一方梟雄,影響中國400年

歷史上最被低估的一場起義,走出6位稱霸一方梟雄,影響中國400年

文史道
2026-04-28 12:04:47
全年省電2160度!小米推出米家中央空調風管機巨省電2026款:國補價4504元起

全年省電2160度!小米推出米家中央空調風管機巨省電2026款:國補價4504元起

快科技
2026-04-28 23:39:13
俞敏洪的“高手”,主播們的“出走”

俞敏洪的“高手”,主播們的“出走”

中新經緯
2026-04-28 18:35:24
中國農民倒了什么血霉,被這樣的人研究

中國農民倒了什么血霉,被這樣的人研究

多村來信
2026-03-18 16:29:30
軟件開發最后的一塊兒陣地,被AI攻克了......

軟件開發最后的一塊兒陣地,被AI攻克了......

碼農翻身
2026-04-23 08:59:23
特朗普犯下致命錯誤!伊朗軍方喊話中俄等國:愿分享“打美經驗”

特朗普犯下致命錯誤!伊朗軍方喊話中俄等國:愿分享“打美經驗”

寒律
2026-04-28 19:14:26
高人預測:5年后,持有燃油車的家庭,將面對3個現實問題!

高人預測:5年后,持有燃油車的家庭,將面對3個現實問題!

傲傲講歷史
2026-04-13 07:36:40
熱搜第一!茶卡鹽湖心形雕像被吐槽“畫蛇添足”,景區:每個人的審美不一樣

熱搜第一!茶卡鹽湖心形雕像被吐槽“畫蛇添足”,景區:每個人的審美不一樣

大象新聞
2026-04-28 10:56:14
最新定調!房地產“努力穩”!政治局會議釋放了什么信號?

最新定調!房地產“努力穩”!政治局會議釋放了什么信號?

房地產導刊
2026-04-28 16:43:49
俞敏洪主播集體辭職越扒越有,董宇輝意外遭殃,其實頓頓早有提醒

俞敏洪主播集體辭職越扒越有,董宇輝意外遭殃,其實頓頓早有提醒

攬星河的筆記
2026-04-28 14:23:37
毛主席看不清老布什的臉,把他拉到眼前說:這個年輕人能當總統

毛主席看不清老布什的臉,把他拉到眼前說:這個年輕人能當總統

大江
2026-04-28 11:02:26
莫迪殺紅了眼!吞了中企幾百億,又派人來偷火,中國不能坐以待斃

莫迪殺紅了眼!吞了中企幾百億,又派人來偷火,中國不能坐以待斃

梁訊
2026-02-28 15:40:12
孫楊私生子風波持續發酵!孩子近況罕見曝光,年僅13歲苦練擊劍

孫楊私生子風波持續發酵!孩子近況罕見曝光,年僅13歲苦練擊劍

科學發掘
2026-04-28 13:45:38
【史話】解放后,清查舊北京警察檔案時發現:張國燾出賣了李大釗

【史話】解放后,清查舊北京警察檔案時發現:張國燾出賣了李大釗

年之父
2026-04-28 00:00:04
單依純演唱會門票打“骨折”!酸菜主持人的自卑!

單依純演唱會門票打“骨折”!酸菜主持人的自卑!

八卦瘋叔
2026-04-28 11:44:47
大家提前做好準備,5月開始,不出意外的話,中國或將出現4大變化

大家提前做好準備,5月開始,不出意外的話,中國或將出現4大變化

混沌錄
2026-04-28 00:08:08
2026-04-29 00:36:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12883文章數 142638關注度
往期回顧 全部

科技要聞

10億周活目標落空!傳OpenAI爆發內部分歧

頭條要聞

媒體:臺海軍退役少校登烏魯木齊艦 給出的結論很直接

頭條要聞

媒體:臺海軍退役少校登烏魯木齊艦 給出的結論很直接

體育要聞

魔術黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結婚,老公比她小10歲

財經要聞

中央政治局會議定調,八大看點速覽!

汽車要聞

拒絕瘋狂套娃!現代艾尼氪金星長在未來審美點上

態度原創

教育
本地
手機
房產
公開課

教育要聞

山東高?佳薪輬箢l傳!學霸宿舍與硬核班級書寫勵志傳奇!

本地新聞

用青花瓷的方式,打開西溪濕地

手機要聞

App Store推出新的“分期”訂閱模式!每月扣費,但要扣滿12個月

房產要聞

紅利爆發!海南,沖到全國人口增量第4!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版