網易首頁 > 網易號 > 正文申請入駐

廣東工業大學兩名本科生，CVPR斬獲最佳學生論文提名

2026-06-06 21:02:10　來源: 算法與數學之美

北京舉報

分享至

CVPR 2026全部獎項揭曉！最佳學生論文榮譽提名頒給了ChordEdit，一作和通訊都是廣東工業大學本科在讀生。他們用一塊7年半前的老Titan，跑完了全部實驗。

CVPR 2026頒獎了！

今年CVPR在丹佛舉辦，共收到16092篇投稿，錄用4090篇，錄用率25.42%。

剛剛，組委會公布了全部獲獎名單。

最佳論文頒給了DeepMind團隊的D4RT，最佳學生論文頒給了清華+微軟聯合團隊的TRELLIS.2。

然后是最佳學生論文榮譽提名。

一作Liangsi Lu，廣東工業大學。通訊作者Yang Shi，廣東工業大學。

兩個人都是本科在讀。

最佳學生論文提名

一行公式干翻多步推理

論文題目：ChordEdit: One-Step Low-Energy Transport for Image Editing

作者：盧梁司（廣東工業大學，一作）、Xuhang Chen（惠州學院）、Minzhe Guo（廣東工業大學）、Shichu Li（深圳大學）、Jingchao Wang（北京大學）、Yang Shi（廣東工業大學，通訊作者）

兩個本科生，組隊登頂會

這篇ChordEdit的一作盧梁司（Liangsi Lu）和通訊作者Yang Shi，都是廣東工業大學本科在讀生。

盧梁司來自數學與統計學院，專業是信息與計算科學，研究方向是表示學習和視覺生成。

在他看來，視覺是人與世界交互的高帶寬接口，視覺表示可以捕捉到文本無法描述的規律，幫助AI與人類共同發現物理法則、學習魯棒的世界模型。

基于這個方向，他做了RLSTG（建模真實世界非歐幾何的連續神經動力系統）和ChordEdit（高效穩定地增強生成模型抓取真實語義的編輯框架）。

Yang Shi來自計算機學院，預計2027年畢業，研究方向是計算機視覺和數據挖掘。

兩個不同學院的本科生，組成了搭檔。

然后他們半年內交出了這樣一張成績單。

Yang Shi的個人主頁顯示，截至目前他以一作或sole通訊作者身份，入選了5個頂會：

CVPR 2026（ChordEdit，sole通訊，最佳學生論文提名）
ICML 2026（sole通訊，圖像編輯語義粒度導航）
KDD 2026（一作，圖上的過度擠壓問題）
ACL 2026（一作，多模態推理錯誤檢測基準）
WWW 2026（sole通訊，黎曼液態時空圖網絡）

這些工作橫跨圖像編輯、圖神經網絡、多模態推理、數據挖掘四個完全不同的方向，從視覺生成到時空圖建模，再一路到VLM評測。

問題有多棘手

回到CVPR 2026這篇論文。

如今，一步式文生圖模型（SD-Turbo、SwiftBrush這類）已經把生成速度拉到了極限，但速度快的代價是，這類模型做圖像編輯的時候幾乎不能用。

現有的training-free編輯方法（FlowEdit、Direct Inversion這些），原理上都依賴多步推理來平均掉軌跡中的不穩定性。強行壓到一步，畫面崩掉。物體扭曲變形，背景亂飄，編輯區和非編輯區的一致性完全喪失。

總結來說就是，一步推理意味著你必須沿著一條極其粗糙的路徑，一大步邁到目標位置。路徑越粗糙，軌跡能量越高，結果越不可控。

這個問題不是調參能解決的，是數學層面的結構性缺陷。

解法從哪來

盧梁司的解法，來自一套跨越兩個世紀的數學。

最優傳輸問題最早由法國數學家Monge在1781年提出，之后經歷了Kantorovich在1940年代的線性規劃松弛、Brenier在1991年的二次代價求解。

到2000年，Benamou和Brenier給出了動態最優傳輸的流體力學形式，也就是ChordEdit直接依賴的框架。

具體來說，ChordEdit把圖像編輯重新定義為源分布（原圖+原始prompt）和目標分布（原圖+編輯后prompt）之間的傳輸問題。

樸素方法直接拿兩個漂移場的差值做編輯，單步推理下噪聲極大。ChordEdit則把這個差值場在兩個相鄰時間點的觀測做加權平均，得到一個低能量的Chord Control Field。

這個操作相當于一個時間維度上的平滑算子。漂移場被平滑之后，方差被壓下來，能量降下來，天然就適合用一步積分走完全程。

整個方法的核心，濃縮成一個等式（Eq. 4.5），一行加權平均。

Jensen不等式保證能量收縮，平滑后的編輯場方差更低，單步積分的離散化誤差隨之壓縮。

不需要訓練。不需要反演。不需要額外的掩碼網絡。不需要對模型做任何修改。

這篇論文總共33頁，光附錄就寫了25頁，全是數學證明。從能量為什么會收縮、誤差界怎么推、到單步積分為什么能穩定收斂，一路證到底。

消融實驗部分則直接可視化了兩種編輯場的能量分布。

樸素方法的編輯場能量高且不均勻，對應的就是背景被摧毀、物體變形的區域。ChordEdit的編輯場能量低且平穩，非編輯區域幾乎零擾動。

一塊消費級顯卡跑完

ChordEdit的全部實驗，跑在一塊2018年發布的NVIDIA Titan 24GB上。推理時顯存占用僅7GB。

對比之下，同賽道的SwiftEdit需要15GB，而且還得額外訓練一個反演網絡。ChordEdit連訓練都省了。

速度方面更夸張。比FlowEdit快19倍，比Direct Inversion快208倍。

用戶研究中，42.5%的參與者在編輯語義準確性上選擇ChordEdit，48.3%在背景保持上選擇ChordEdit，均為壓倒性優勢。

而且這個方法是model-agnostic的，SD-Turbo能用，SwiftBrush-v2也能用，換模型不需要改代碼、不需要重新訓練、不需要調架構。真正的即插即用。

從演示效果看，ChordEdit可以一步完成horse→unicorn、fall→spring、ground→snow等語義編輯，編輯區域跟隨prompt變化，非編輯區域保持不變。

這就是低能量傳輸場的效果，編輯路徑足夠平滑，非編輯區域幾乎零擾動。

從16092篇投稿里，74篇進入最佳論文候選名單（Top 0.45%）。

最終ChordEdit拿到了最佳學生論文提名（Top 0.03%），同時也是Oral。

項目地址：https://chordedit.github.io

開源地址：https://github.com/ChordEdit/ChordEdit

論文地址：https://arxiv.org/pdf/2602.19083

最佳論文：D4RT

論文題目：Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

作者：Chuhan Zhang*、Guillaume Le Moing*、Skanda Koppula*°、Ignacio Rocco*、Liliane Momeni*、Junyu Xie°1、Shuyang Sun*、Rahul Sukthankar*、Jo?lle K. Barral*、Raia Hadsell*、Zoubin Ghahramani*、Andrew Zisserman*°、Junlin Zhang*、Mehdi S. M. Sajjadi*2

機構：*谷歌DeepMind、°倫敦大學學院、°牛津大學

獲獎理由：一種優雅且高效的方法，統一了深度估計、相機位姿、3D點追蹤和4D點云的推斷，結果驚艷。

傳統的4D重建方法要么需要為每個任務單獨設計解碼器，要么要對每一幀做密集解碼，計算量極大。

D4RT繞開了這兩個瓶頸，設計了一個統一的解碼接口，可以獨立查詢空間和時間中任意一個點的3D位置，不需要逐幀密集處理。

這讓整個方法既輕量又可擴展，在多個4D重建基準上全面超越了此前的SOTA。

作者團隊陣容強大，Raia Hadsell是DeepMind VP級研究員，Zoubin Ghahramani是DeepMind首席科學家，Andrew Zisserman是牛津大學VGG組創始人。一作Chuhan Zhang此前也在DeepMind從事動態場景重建研究。

最佳學生論文：TRELLIS.2

論文題目：Native and Compact Structured Latents for 3D Generation

作者：Jianfeng Xiang12、Xiaoxue Chen1*、Sicheng Xu2、Ruicheng Wang32*、Zelong Lv32*、Yu Deng2、Hongyuan Zhu?、Yue Dong2、Hao Zhao1、Nicholas Jing Yuan?、Jiaolong Yang2

機構：1清華大學、2微軟研究院、3中國科學技術大學、?微軟AI（*為實習期間完成）

獲獎理由：一種稀疏、無場的潛在體素表示，在一個開源流水線中統一了開放、非流形、封閉和半透明3D資產的帶紋理生成，為幾何與外觀編碼樹立了新標準。

技術上，TRELLIS.2的核心是一種叫O-Voxel的「全能體素」結構。相比于傳統的3D表示方法，O-Voxel采用的是稀疏體素同時編碼幾何和外觀信息（包括PBR材質參數），不需要依賴多視角2D圖像特征的間接監督。

在此基礎上，團隊設計了Sparse Compression VAE做高壓縮率的潛空間編碼，然后訓練了一個4B參數的flow-matching生成模型。

一作Jianfeng Xiang來自清華大學，工作在Microsoft Research實習期間完成。通訊作者Jiaolong Yang是MSRA的資深研究員，長期深耕3D視覺方向。整個流水線已開源（microsoft/TRELLIS.2）。

最佳論文榮譽提名（2篇）

論文題目：NitroGen: An Open Foundation Model for Generalist Gaming Agents

作者：Lo?c Magne1*、Anas Awadalla12*、Guanzhi Wang13*?、Yinzhen Xu1、Joshua Belofsky?、Fengyuan Hu1、Joohwan Kim1、Ludwig Schmidt2、Georgia Gkioxari3、Jan Kautz1、Yisong Yue3?、Yejin Choi12?、Yuke Zhu1??、Linxi Fan1?

機構：1英偉達、2斯坦福大學、3加州理工學院、?芝加哥大學、?得克薩斯大學奧斯汀分校

獲獎理由：一個4萬小時、1000款游戲的數據集，配套評估模擬器和視覺到動作游戲Agent基礎模型，打開了新的研究方向。

作者陣容集結了多個領域的頂尖學者。Yejin Choi是ACL 2022主席、MacArthur天才獎得主。Jan Kautz是NVIDIA VP Research。Linxi Fan（范麟熙）是NVIDIA高級研究科學家，此前因MineDojo項目獲NeurIPS 2022 Outstanding Paper。

論文題目：SAM 3D: 3Dfy Anything in Images

作者：Xingyu Chen*、Fu-Jen Chu*、Pierre Gleize*、Kevin J Liang*、Alexander Sax*、Hao Tang*、Weiyao Wang*、Michelle Guo、Thibaut Hardin、Xiang Li、Aohan Lin、Jiawei Lin、Ziqi Ma、Anushka Sagar、Bowen Song*、Xiaodong Wang、Jianing Yang*、Bowen Zhang*、Piotr Dollár?、Georgia Gkioxari?、Matt Feiszli?、Jitendra Malik??

機構：Meta超級智能實驗室（*核心貢獻者、?項目負責人、?同等貢獻）

獲獎理由：從雜亂的野外單張圖片中重建3D物體模型的重大進展，并提供了可擴展的數據采集流水線。

這篇背后站著Meta超級智能實驗室的全明星陣容。Jitendra Malik是UC Berkeley的CV泰斗級人物，Piotr Dollár是Meta Research的核心負責人之一，Georgia Gkioxari在今年的NitroGen中也出現了，同時入圍兩篇Best Paper候選。

時間檢驗獎

ResNet和YOLO，十年后回來領獎

今年的Longuet-Higgins Test of Time Award頒給了兩篇十年前的CVPR 2016經典，ResNet和YOLO。

論文題目：Deep Residual Learning for Image Recognition

作者：何愷明、張祥雨、任少卿、孫劍，微軟研究院

這篇提出了殘差連接，讓深度網絡的訓練成為可能。在此之前，網絡堆到幾十層就開始退化，梯度消失是一堵墻。ResNet用一根跳線繞過了這堵墻，152層的網絡跑起來比淺層網絡還穩。

2015年ImageNet五項第一，錯誤率3.57%，遠低于人類水平（約5.1%）。

十年后回頭看，ResNet的殘差連接思想已經滲透到了幾乎所有的深度學習架構里。從Transformer到擴散模型，跳躍連接是最基礎的基礎設施之一。

Google Scholar上超過32萬次引用

論文題目：You Only Look Once: Unified, Real-Time Object Detection

作者：Joseph Redmon、Santosh Divvala、Ross Girshick、Ali Farhadi，華盛頓大學

YOLO把目標檢測從兩階段流程（先提候選框再分類）壓縮成了單階段的端到端預測，一次前向傳播完成定位和分類。速度從秒級拉到了毫秒級，真正讓目標檢測可以實時運行。

十年過去，YOLO已經迭代到了第11代，仍然是工業界實時檢測的首選方案。從自動駕駛到安防監控到工廠質檢，YOLO的后代無處不在。

參考資料：

https://chordedit.github.io

https://luliangsi.github.io

https://cnshiyang.github.io

https://cvpr.thecvf.com/Conferences/2026/News/Technical_Program

https://github.com/SkalskiP/top-cvpr-2026-papers

文章來源：新智元。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.