无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

讓擴散模型「可解釋」不再降質,開啟圖片編輯新思路

0
分享至



過去三年,擴散模型席卷圖像生成領域。以 DiT (Diffusion Transformer) 為代表的新一代架構不斷刷新圖像質量的極限,讓模型愈發接近真實世界的視覺規律。

然而,與 LLM 可解釋性研究的蓬勃發展相對,擴散模型內部的語義結構、時間規律以及因果路徑仍然像被深深封住的「黑箱」。研究者可以憑直覺優化架構,但外界無法真正理解擴散模型在生成過程中的「思考方式」。

更棘手的是,已有的可解釋性嘗試往往伴隨著明顯的性能下降:特征分解、激活分析、插值擾動……無論采用哪種方法,只要試圖將擴散模型拆開來看,生成質量就會顯著劣化。這讓「可解釋擴散模型」在很長一段時間里被視為不切實際的小眾方向。

在這樣的背景下,香港中文大學 MMLab 與上海人工智能實驗室的研究團隊提出了一個不同的觀點:擴散模型作為當今視覺世界最重要的生成器,其內部機制不應永遠處于不可見狀態;可解釋性也不應該以犧牲生成質量為代價。

基于這一理念,他們提出了被 AAAI 2026 接收的TIDE (Temporal-Aware Sparse Autoencoders)—— 首個真正意義上面向擴散 Transformer 的時序稀疏自編碼器框架。



  • 論文標題:TIDE: Temporal-Aware Sparse Autoencoders for Interpretable Diffusion Transformers in Image Generation
  • 論文鏈接:
  • https://arxiv.org/pdf/2503.07050

TIDE:

讓「時序」成為擴散可解釋性的核心

以往的可解釋方法大多忽視了擴散過程最大的特點:生成是一個隨時間展開的漸進式構造過程。早期步驟決定物體形狀和布局,中期步驟塑造語義和結構,后期步驟填充材質與細節。如果忽略這條時間線,擴散模型看起來就像一團混亂的噪聲與特征。TIDE 的突破在于,它不是「硬拆」一個靜態特征,而是讓模型自己在時間維度上對齊語義:

同一個因子會在不同時間步中保持一致的語義軌跡,最終形成一個可讀、可控、穩固的「時間語義剖面」。

也正是在這樣的時序框架下,擴散模型內部原本模糊的過程第一次被清晰呈現出來:粗結構從噪聲中浮現、語義逐漸成型、紋理被不斷潤色……模型的「思考流」沿著時間軸被完整雕刻出來。

更重要的是,這一切并不會破壞原模型的生成能力。TIDE 的稀疏自編碼器在特征空間進行無損重構,擴散軌跡保持穩定,模型幾乎感受不到被「觀察」的存在。同時在 scaling latent 維度時,也優于原有 vanilla SAE 方法。



TIDE 架構與訓練

在 Stable Diffusion XL、PixArt-α、Flux 等主流擴散框架上,TIDE 將擴散特征分解為具有可控語義的因子:

負責輪廓的因子、負責物體姿態的因子、負責材質紋理的因子……甚至可以捕捉到跨時間的概念演化。基于這些因子,研究團隊構建出一種全新的圖像編輯方式:編輯不再依賴繁瑣的提示語或反復調參,而是可以沿著清晰的語義方向直接操控擴散過程。例如:

  • 提升紋理細節而不改變全局結構
  • 調整物體姿態但保持背景一致
  • 加強某類語義而不干擾其它部分



這些編輯操作完全基于 TIDE 生成的語義因子完成,意味著未來擴散模型有望出現一種全新的「因子級編輯器」,具備高度可控性與透明性。

與此同時,TIDE 對模型生成質量的影響幾乎可以忽略不計。FID、sFID 變化小于 0.1%,噪聲預測軌跡保持穩定,實現了真正意義上的「可解釋而不降質」。

TIDE 的效果

TIDE 在不同設置、不同模型規模以及不同任務維度下的整體表現。無論是在超參數選擇、在 DiT 不同層級進行因子學習,還是在 SDXL、FLUX-dev 等主流擴散架構上的泛化能力,TIDE 都表現出高度穩定且持續的優勢。

可以看到,TIDE 在幾乎不增加 FID 代價的前提下,顯著提升了 AlignScore 中的語義綁定(顏色、形狀、紋理)以及跨區域關系理解(空間與非空間關系),其中多處指標在表中以綠色標記為最優表現。

此外,在安全性評測部分,TIDE 相比多個現有方法大幅降低了攻擊成功率,顯示出更穩健的特征理解能力。整體來看,這幅表格清楚證明:TIDE 不僅帶來了高質量、可解釋的語義因子,還在保持生成質量的同時,提升了模型的結構理解、關系推理與安全性,成為一種真正可泛化、可落地的可解釋擴散框架。



TIDE 的意義:

補齊擴散模型的「理解」能力

擴散模型已經成為現代視覺生成系統的核心支柱,但它們的內部機制一直缺乏系統、透明的解釋路徑。TIDE 的出現不僅提供了首個真正實用的可解釋性方案,更重要的是,它讓研究者第一次能夠沿著「時間」這條線索觀察擴散模型內部的語義結構。



這種理解能力將直接影響未來的多個方向:

  • 更可控、更穩健的擴散編輯系統
  • 統一理解——生成模型的因子級橋接
  • 擴散模型的因果與語義理論研究
  • 新一代透明、可信的視覺生成系統

TIDE 不僅是一個方法,更是一種新的研究范式:擴散模型并非不可解釋,只是缺少一個合適的視角。

未來展望

研究團隊表示,當前 TIDE 已成功驗證了時序稀疏自編碼器框架的有效性,但可解釋擴散模型的潛力遠未被完全發掘。未來的工作將進一步:

  • 擴展更大規模、更精細的時序字典
  • 探索跨模態共享的語義因子
  • 結合 LLM-SAE 構建統一解釋空間
  • 將因子級編輯推向產品化工具

隨著更多研究者的加入,擴散模型的「黑箱壁壘」正逐漸被揭開,而 TIDE 或許是這一轉變具有代表性的第一步。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
李想官宣理想L8:一臺不做任何妥協的五座旗艦SUV 舒適度看齊邁巴赫

李想官宣理想L8:一臺不做任何妥協的五座旗艦SUV 舒適度看齊邁巴赫

快科技
2026-06-12 12:03:26
多證據表明凱爾特人拿下字母哥已成定局,字母哥將奔赴綠軍!

多證據表明凱爾特人拿下字母哥已成定局,字母哥將奔赴綠軍!

愛體育
2026-06-13 23:04:55
如果你的手機出現這個圖標,記得趕緊關閉掉

如果你的手機出現這個圖標,記得趕緊關閉掉

小柱解說游戲
2026-06-10 00:35:18
13日世界杯賽程表:對陣時間+CCTV5直播東道主兩場比賽

13日世界杯賽程表:對陣時間+CCTV5直播東道主兩場比賽

徐纗老表哥
2026-06-12 13:55:55
威爾遜寄語阿努諾比:紐約一夜英雄,身份永不變

威爾遜寄語阿努諾比:紐約一夜英雄,身份永不變

熱血體育社
2026-06-14 00:47:21
快訊!董路終究忍不了了!

快訊!董路終究忍不了了!

有態度的何總
2026-06-13 19:48:48
端午三不送,送了人財空:這三樣千萬別亂送,老規矩別不當回事

端午三不送,送了人財空:這三樣千萬別亂送,老規矩別不當回事

寶哥精彩賽事
2026-06-13 13:18:25
梅西的定妝照片!從2010-2026,20年青春全給了足球

梅西的定妝照片!從2010-2026,20年青春全給了足球

五姑娘臺球
2026-06-13 16:13:33
黃仁勛說清穿皮夾克原因,17歲后全靠老婆買衣服,30度高溫也不脫

黃仁勛說清穿皮夾克原因,17歲后全靠老婆買衣服,30度高溫也不脫

大廠編外實習生
2026-06-12 17:45:33
網傳阿里合伙人周靖人擬離職,剛出任阿里首席科學家6天

網傳阿里合伙人周靖人擬離職,剛出任阿里首席科學家6天

IT之家
2026-06-13 09:59:07
1499元 !華為新品上市:6月15日,正式開售

1499元 !華為新品上市:6月15日,正式開售

科技堡壘
2026-06-12 09:35:51
絲瓜再次被點名!研究發現:吃得越多,高血壓患者病情或好轉?

絲瓜再次被點名!研究發現:吃得越多,高血壓患者病情或好轉?

健康科普365
2026-06-13 19:45:09
曾經很火的7種“天價神藥”,如今跌落神壇無人問,你買過幾種?

曾經很火的7種“天價神藥”,如今跌落神壇無人問,你買過幾種?

心中的麥田
2026-06-06 20:23:30
董路徹底不忍了!公開撕北京足協,曝光多項恩怨,網友紛紛力挺!

董路徹底不忍了!公開撕北京足協,曝光多項恩怨,網友紛紛力挺!

譚談社會
2026-06-12 20:50:51
王毅收到蒙古國外長的邀請,稀土外運日本一事,想聽聽中方想法?

王毅收到蒙古國外長的邀請,稀土外運日本一事,想聽聽中方想法?

共工之錨
2026-06-13 00:25:29
中央重磅文件定調,房地產未來大方向有變!

中央重磅文件定調,房地產未來大方向有變!

新浪財經
2026-06-13 22:10:07
全網炸鍋的印度游客杭州看病鬧免費,徹底翻車!真相更惡劣

全網炸鍋的印度游客杭州看病鬧免費,徹底翻車!真相更惡劣

怪味歷史連連看
2026-06-12 21:22:36
張作霖專列被炸前,兩人中途下車,臨終前他才終于明白中了誰的計

張作霖專列被炸前,兩人中途下車,臨終前他才終于明白中了誰的計

掠影后有感
2026-06-12 10:03:31
神經科醫生:只要低密度脂蛋白不超過這個值,腦梗風險不用太焦慮

神經科醫生:只要低密度脂蛋白不超過這個值,腦梗風險不用太焦慮

荊醫生科普
2026-06-10 19:30:08
世界杯表情包大戶哈蘭德,網友:越看越上頭!

世界杯表情包大戶哈蘭德,網友:越看越上頭!

都市快報橙柿互動
2026-06-14 00:38:19
2026-06-14 01:16:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13246文章數 142668關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

寶媽考編排名第一卻被低分者遞補 維權后崗位直接取消

頭條要聞

寶媽考編排名第一卻被低分者遞補 維權后崗位直接取消

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

教育
本地
手機
公開課
軍事航空

教育要聞

奉勸所有老師,別再自費買獎品獎勵學生了!

本地新聞

AK劉彰邂逅河北南大港濕地

手機要聞

比華為三折疊還稀缺!iPhone Ultra國行備貨量不足:博主直言搶到賺到

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊外長披露伊美諒解備忘錄草案部分內容

無障礙瀏覽 進入關懷版