无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

中科大&智象未來:強模型打底、輕模型精修,重塑視頻超分體驗丨CVPR 2026

0
分享至


PS-SR:兼顧速度、細節(jié)與穩(wěn)定性,讓低清畫面更可信。

作者丨鄭佳美

編輯丨馬曉寧

在生成式 AI 進入視頻生產鏈之后,視頻增強正在從后期修補工具,變成內容生產、內容分發(fā)和機器視覺理解中的基礎能力。

現實需求已經不只是讓畫面變清楚,而是要在電商直播中看清商品質感,在工業(yè)巡檢中識別裂紋和儀表讀數,在遠程協作中保留設計細節(jié),在文博數字化中盡量還原影像紋理。

隨著 4K 級高清內容逐漸成為視頻平臺、智能電視、大屏顯示和專業(yè)制作流程中的常見需求,低清素材如何被穩(wěn)定放大到更高分辨率,同時保留紋理、邊緣和運動連續(xù)性,也成為視頻增強技術必須面對的問題。

難點在于,視頻增強不能只追求銳度。傳統(tǒng)單步模型速度快,但細節(jié)往往保守;多步擴散模型細節(jié)豐富,但推理成本高,難以大規(guī)模落地。更復雜的是,視頻不是單張圖片,每一幀清楚還不夠,幀與幀之間還要穩(wěn)定,否則就會出現閃爍、跳動和細節(jié)漂移。

在這樣的背景下,中國科學技術大學與智象未來研究團隊提出了《PS-SR: Pseudo-Single-Step Video Super-Resolution via Speculative Diffusion》。

這項研究沒有簡單地在單步和多步之間二選一,而是讓強大的 base model 先恢復整體結構,再讓輕量 draft model 補充細節(jié),并通過頻域更新約束生成范圍,讓模型盡量增強紋理而不改寫主體內容。

它真正回應的問題是:當視頻增強進入大規(guī)模應用時,系統(tǒng)能不能既足夠快,又足夠穩(wěn),還能生成可信細節(jié)。PS-SR 探索的偽單步擴散路徑,為高質量視頻增強提供了一種更接近實際部署的方案,也為內容平臺、智能視覺系統(tǒng)和生成式視頻工具提供了新的技術參考。


項目地址:https://waq2001.github.io/PS-SR-page/

01


像單步一樣快,像多步一樣細

實驗結果方面,PS-SR 在畫質、速度、穩(wěn)定性三方面較均衡,核心優(yōu)勢是接近單步模型的速度,同時具備多步擴散模型級別的細節(jié)表現,主要提升體現在紋理更清楚、結構更穩(wěn)定、幀間抖動更少,適用場景包括合成退化視頻和真實互聯網低質視頻

與其他方法相比,PS-SR 相比 STAR、SeedVR 速度明顯更快,相比 DLoRAL、SeedVR2、DOVE 細節(jié)更自然、結構偏移更少。


重建質量表現上,UDM10、SPMCS、YouHQ40 的整體重建指標靠前,結構一致性較強,低頻內容保留較好,輸入視頻主體信息變化較小,高質量輸出更接近真實高清視頻。

真實視頻表現上,VideoLQ 是無高清參考的真實低質視頻,PS-SR 在人臉區(qū)域能讓五官邊緣更穩(wěn)定、細節(jié)不過度扭曲。

時間一致性表現上,PS-SR 的幀間連續(xù)性優(yōu)于對比方法,視頻閃爍減少,局部紋理跳動減少,運動區(qū)域更平滑,播放觀感更穩(wěn)定,關鍵原因是基礎視頻擴散模型中的 motion prior 被保留。

主觀評價結果顯示,參與者更傾向選擇 PS-SR,偏好原因是清晰度、自然感、連續(xù)性綜合更好,視覺優(yōu)勢不是單純銳化,而是結構保真 + 細節(jié)增強,用戶感知重點集中在人臉自然度、物體邊緣、視頻流暢度。


消融實驗結果顯示,去掉 VSD 后生成質量下降,畫面細節(jié)不夠豐富,去掉對抗損失后真實感下降,紋理表現變弱,去掉像素監(jiān)督后局部區(qū)域還原能力下降,去掉頻域更新后細節(jié)可能更“銳”,但結構更容易偏移,完整 PS-SR 在細節(jié)、穩(wěn)定性、輸入一致性之間更平衡。

速度結果顯示,PS-SR 采用 1 次 base model 推理 + 3 次 draft model 細化,推理耗時接近單步方法,計算開銷明顯低于多步擴散方法,實用價值是更適合實際視頻增強部署。

參數分析結果顯示,采樣步數較少時結構保真更強,但細節(jié)不足。采樣步數較多時細節(jié)更豐富,但內容偏移風險增加,最終設置為 T = 4,細化強度較低時畫面穩(wěn)定,但不夠清晰,細化強度較高時畫面更銳,但可能改變結構,最終設置為 α = 0.6,draft model 剪枝過少時速度提升有限,draft model 剪枝過多時細節(jié)生成能力不足,最終設置為剪掉 20 個 DiT block。

這些結果也解釋了 PS-SR 為什么采用“強模型打底,輕模型精修”的設計:它不是單純增加推理步驟來換取畫質,也不是為了速度壓縮到只剩一次生成,而是在結構恢復、細節(jié)補充和計算成本之間尋找平衡。下面進一步拆解研究團隊如何搭建和驗證這一流程。


02


強模型打底,輕模型精修

整體來看,研究的實驗目的包括驗證 PS-SR 的視頻超分能力,驗證“偽單步”框架的速度優(yōu)勢,驗證多步細化帶來的細節(jié)提升,驗證頻域更新對結構穩(wěn)定性的作用,驗證真實低質視頻中的泛化能力。

數據準備階段使用 YouHQ 高質量視頻片段作為訓練數據,通過 RealESRGAN 退化流程構造低質輸入,合成測試集包括 UDM10、SPMCS、YouHQ40,真實測試集為 VideoLQ,數據覆蓋人物、車輛、動物、街景、互聯網低質視頻。

輸入處理階段以低質量視頻作為輸入,通過 VAE encoder 編碼,進入 latent space 表示空間,目的在于降低視頻處理成本,便于擴散模型生成。


base model 階段的模型來源是 Wan2.1 視頻擴散基礎模型,微調方式為 LoRA,主要任務是一次性恢復全局結構,重點內容包括畫面布局、主體形狀、低頻語義信息,執(zhí)行次數只執(zhí)行 1 次,設計目的在于避免大模型多步推理造成高成本。

base model 訓練包括 latent space 訓練、VSD 約束、對抗訓練、pixel space 微調和 patch 訓練,其中 latent space 訓練用于學習低質視頻到高質視頻的整體映射,VSD 約束用于讓單步輸出接近多步擴散模型的質量分布,對抗訓練用于增強視覺真實感,pixel space 微調用于提升局部區(qū)域質量,patch 訓練通過隨機裁剪局部區(qū)域減少顯存壓力。

訓練目標是全局結構準確 + 局部細節(jié)清晰;draft model 階段的模型來源是 base model 的輕量剪枝版本,結構變化是移除部分 DiT block,主要任務是后續(xù)高頻細節(jié)補充,重點內容包括邊緣、紋理、局部清晰度,執(zhí)行次數為多次輕量細化,設計目的在于用較小計算量模擬多步擴散的細節(jié)生成能力。

draft model 特征增強階段將 base model 特征傳遞給 draft model,融合方式為對應層特征拼接,后續(xù)處理通過 FC layer 恢復維度,作用是讓輕量模型獲得強模型的表達信息,好處是剪枝后仍保持細節(jié)生成能力。

draft model 訓練以中間 latent 狀態(tài)作為輸入,輸出細化方向,訓練損失為 L2 loss + pixel loss,不使用 VSD 以減少訓練復雜度,不使用對抗損失以避免過度追求分布對齊,訓練重點是高頻細節(jié)恢復。


頻域更新規(guī)則相當于給細節(jié)增強加了一道邊界。模型會先在像素空間中把畫面從 RGB 轉到 YUV,并重點處理亮度信息:上一輪結果中的整體結構和低頻內容被保留下來,當前 draft model 預測出的高頻紋理則被補充進去。

這樣做的好處是,模型不是重新改寫整幅畫面,而是在原有結構上增加細節(jié),從而減少語義漂移,讓紋理更豐富,同時讓主體形狀保持穩(wěn)定。

完整推理流程依次為低質視頻輸入、VAE 編碼、base model 單步恢復、draft model 第 1 次細化、頻域更新、draft model 第 2 次細化、頻域更新、draft model 第 3 次細化、頻域更新、VAE 解碼、高質量視頻輸出。


對比實驗設置包括多步擴散方法 STAR、SeedVR,單步擴散方法 DLoRAL、SeedVR2、DOVE,對比維度包括畫質、細節(jié)、結構一致性、時間穩(wěn)定性、速度,對比方式包括量化指標 + 視覺案例 + 人工評價。

評價內容包括重建類指標用于判斷結構是否接近 GT,感知類指標用于判斷畫面是否自然、清晰,無參考指標用于判斷真實視頻中的視覺質量,時間一致性指標用于判斷幀間是否穩(wěn)定,主觀評價用于判斷人眼觀看偏好。

分析實驗包括模塊消融、步數分析、剪枝分析、強度分析和長視頻討論,其中模塊消融分析 VSD、對抗損失、像素監(jiān)督、頻域更新,步數分析不同 T 的效果,剪枝分析不同 draft model 規(guī)模,強度分析不同 α 的細節(jié)增強程度,長視頻討論重疊切片與融合策略。


03


從看清視頻,到看懂世界

總的來說,這項研究更重要的價值不只是提出一種視頻超分方法,而是回應了普通人日常觀看視頻時最直接的痛點,也就是低清、模糊、壓縮嚴重、細節(jié)丟失和播放不穩(wěn)定。

偽單步框架的意義在于它并不是真正只做 1 步,而是讓視覺體驗和速度體驗接近單步,同時在內部保留輕量多步細化,大模型負責關鍵一步,小模型負責后續(xù)修補,從而降低計算量,并保留細節(jié)生成能力。

base model 的意義在于提供全局結構基礎,保證主體形狀不亂,保證語義內容不偏,保證低頻信息穩(wěn)定,相當于先把整體輪廓建立準確。draft model 的意義在于以低成本補充細節(jié),模擬多步擴散的細化過程,提升邊緣、紋理、局部清晰度,避免每一步都使用大模型,相當于在穩(wěn)定輪廓上繼續(xù)補充紋理。

頻域更新的意義在于把結構和細節(jié)分開處理,低頻負責整體內容,高頻負責紋理細節(jié),只更新高頻可以減少內容改寫,保留低頻可以增強輸入輸出一致性,關鍵價值是防止越修越偏。

對畫質提升來說,PS-SR 能讓細節(jié)增強更自然,人臉區(qū)域更可信,物體邊緣更清楚,背景紋理更豐富,畫面不容易假銳化,結果更接近真實高清視頻。對視頻穩(wěn)定性來說,它提升的不只是單幀清晰度,還能減少幀間閃爍,讓運動變化更平滑,讓觀看體驗更舒服,這一點對真實視頻應用尤其重要。

從效率的角度來看,大模型只運行關鍵一步,輕量模型承擔重復細化,推理速度接近單步方法,計算成本遠低于完整多步擴散,更利于部署在視頻增強系統(tǒng)中。

實際應用上,這項研究可用于互聯網低清視頻增強、老視頻修復、短視頻平臺畫質提升、監(jiān)控視頻清晰化、壓縮視頻修復和長視頻分段增強。

對后續(xù)研究來說,強模型 + 輕模型協作范式、頻域約束生成思路可以遷移到視頻去噪、去模糊、去壓縮偽影,也能啟發(fā)其他生成任務中的低成本多步細化,對實時高保真視頻生成具有參考價值。

總體來看,研究形成了一個面向視頻超分的效率質量折中方案,一個減少擴散模型推理成本的結構設計,一個控制語義漂移的頻域細化機制,以及一個更接近實際部署需求的視頻增強框架。

去哪看 CVPR 核心【演講/論文】詳解?

為了讓國內的研發(fā)者、創(chuàng)業(yè)者與投資人能夠毫無時差地掌握本屆 CVPR 2026 的完整干貨,雷峰網已全面上線【CVPR 2026 深度專區(qū)】

專區(qū)不僅全面收錄了重磅論文的工程化解讀、專家前沿演講,更將持續(xù)更新前方記者的第一手會議動態(tài)。

與全球 8000 名頂尖大腦同步呼吸,搶先透視具身智能的下一個五年!

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區(qū)進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國際原油期貨日內漲幅擴大至2%

國際原油期貨日內漲幅擴大至2%

財聯社
2026-06-17 22:34:24
網約車司機的秘密武器:一根空調管讓手機不罷工

網約車司機的秘密武器:一根空調管讓手機不罷工

影視情報室
2026-06-17 01:03:20
沉默5天后,國防部通告菲律賓,中國停止仁慈,對菲反制說到就到

沉默5天后,國防部通告菲律賓,中國停止仁慈,對菲反制說到就到

聞識
2026-06-17 14:27:37
李連杰曬與“兒子”謝苗合影:一眨眼,就長大了,曾回應“為何不幫他”;謝苗原計劃去一中學當體育老師,后因接到片約又做動作演員

李連杰曬與“兒子”謝苗合影:一眨眼,就長大了,曾回應“為何不幫他”;謝苗原計劃去一中學當體育老師,后因接到片約又做動作演員

極目新聞
2026-06-17 19:29:25
中方通告全球,馬尼拉的回應來了,菲反對黨:拆除所有中方建筑!

中方通告全球,馬尼拉的回應來了,菲反對黨:拆除所有中方建筑!

真的好愛你
2026-06-18 03:51:32
國家金融監(jiān)管總局局長丁向群:支持配合化解房地產、地方政府債務風險

國家金融監(jiān)管總局局長丁向群:支持配合化解房地產、地方政府債務風險

財聯社
2026-06-17 10:32:22
茄子大量上市,提醒:二者萬不可同吃,吃茄子禁忌要牢記

茄子大量上市,提醒:二者萬不可同吃,吃茄子禁忌要牢記

華庭講美食
2026-06-16 16:34:37
鄭欽文0-2不敵吉布森,止步WTA250諾丁漢站第二輪

鄭欽文0-2不敵吉布森,止步WTA250諾丁漢站第二輪

懂球帝
2026-06-18 02:53:16
世體:皇馬內部許多人說對小蜘蛛是假報價,真正目標是奧利塞

世體:皇馬內部許多人說對小蜘蛛是假報價,真正目標是奧利塞

懂球帝
2026-06-17 21:58:07
炸裂!捐精有多亂,雙方直接在賓館完成懷孕過程,一次八百到幾萬

炸裂!捐精有多亂,雙方直接在賓館完成懷孕過程,一次八百到幾萬

就一點
2026-06-02 15:45:51
月銷7萬到幾乎絕跡!2026年最慘車型,去年還被封神,如今無人問津

月銷7萬到幾乎絕跡!2026年最慘車型,去年還被封神,如今無人問津

周哥一影視
2026-06-12 19:36:11
從今日起,中國不再需要日本道歉!這覺醒,來自3500萬亡魂的重量

從今日起,中國不再需要日本道歉!這覺醒,來自3500萬亡魂的重量

國際阿嘗
2026-05-14 16:02:15
哈佛最新研究實錘:4種運動睪酮漲25% 男人越練越有勁兒 越有男人味

哈佛最新研究實錘:4種運動睪酮漲25% 男人越練越有勁兒 越有男人味

普陀動物世界
2026-06-16 17:18:46
雷諾聯手泰雷茲開發(fā)軍用車輛

雷諾聯手泰雷茲開發(fā)軍用車輛

參考消息
2026-06-17 10:10:21
雷霆薪金即將暴漲!砍掉5300萬美元開支?需放走哈滕多爾特肯威

雷霆薪金即將暴漲!砍掉5300萬美元開支?需放走哈滕多爾特肯威

羅說NBA
2026-06-17 06:28:06
囚禁2000同胞斂財10億,假面僑領,柬埔寨安徽商會長劉忍電詐黑幕

囚禁2000同胞斂財10億,假面僑領,柬埔寨安徽商會長劉忍電詐黑幕

易玄
2026-06-16 21:23:31
被罵“酸黃瓜”3個月后,54歲閆學晶現狀曝光,模樣發(fā)生了改變

被罵“酸黃瓜”3個月后,54歲閆學晶現狀曝光,模樣發(fā)生了改變

阿晭評論哥
2026-05-09 20:18:02
朝鮮向來誰都不服,唯獨把3個中國人寫進教科書,還立了銅像

朝鮮向來誰都不服,唯獨把3個中國人寫進教科書,還立了銅像

梅姨在路上
2026-06-09 14:43:55
合肥人口增量,爆冷了

合肥人口增量,爆冷了

城市財經
2026-06-17 11:46:01
踢飛了?再踢!1:0!凱恩用同一腳,踹開英格蘭60年點球噩夢

踢飛了?再踢!1:0!凱恩用同一腳,踹開英格蘭60年點球噩夢

海右那人
2026-06-18 04:20:29
2026-06-18 04:52:50
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7377文章數 20758關注度
往期回顧 全部

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊史世界杯首分

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊史世界杯首分

體育要聞

梅西帽子戲法:紀錄厚重,球王輕盈

娛樂要聞

陳紅一反常態(tài)保持沉默

財經要聞

拉加德警告:AI可能引爆下一場金融危機

汽車要聞

23.99萬起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國大家庭夢中情車!

態(tài)度原創(chuàng)

房產
時尚
游戲
手機
數碼

房產要聞

最新房價:海口、三亞;新房、二手房全線下跌!

1分鐘1萬塊:我在飯圈,交易人性

終于又有好游戲玩啦!這10款獨立游戲新作創(chuàng)意拉滿,強推入庫!

手機要聞

蘋果iPhone傳四喜:辟謠、漲內存、漲影像、紀念版也有新變化!

數碼要聞

GuliKit推出Switch 2便攜底座 可連電視亦可桌面充電 售價29.99美元

無障礙瀏覽 進入關懷版