網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

5秒完成3D場景編輯，北大&港中文&上海AI Lab搞出VGGT-Edit

2026-05-27 17:03:21　來源: 量子位

北京舉報

分享至

VGGT-Edit團(tuán)隊投稿量子位 | 公眾號 QbitAI

3D世界“會看”了，但還不會“改”。

從NeRF到83D Gaussian Splatting，再到VGGT、π3這類前饋式3D重建模型，整個行業(yè)的進(jìn)展速度明顯加快——只需幾張圖片，就能在幾秒內(nèi)重建完整3D場景。

但問題也恰恰出在這里。這些模型雖然已經(jīng)能理解三維世界，卻還不會修改三維世界。你可以讓它重建一個房間，卻很難真正告訴它：

把椅子移到窗邊，刪除中間那張椅子，把灰色皮沙發(fā)改成白色長毛沙發(fā)。

更麻煩的是，一旦涉及復(fù)雜編輯，現(xiàn)有方法往往迌速崩採——某些角度里椅子消失了，換個視角椅子又重新出現(xiàn)；明明沒改的背景，卻跟著一起變形。

為應(yīng)對這一挑戰(zhàn)，來自北京大學(xué)香港中文大學(xué)上海AI LabNTU等機(jī)構(gòu)的研究團(tuán)隊，提出了一套原生3D編輯框架：VGGT-Edit

核心思路只有一句話——

不再繞回2D，而是直接在3D空間里完成編輯。

在DeltaScene測試集上，VGGT-Edit在語義一致性、多視角穩(wěn)定性、推理速度三個維度均超過現(xiàn)有方法，單次編輯僅需約5秒，最高實(shí)現(xiàn)120倍加速。

問題其實(shí)一直出在在2D

目前大多數(shù)編3D的方法，本質(zhì)上仍然是“2D思維”——先把場景拆成多弤2D圖片，逐張編輯，再重新拼回3D。

但由于每個視角都是獨(dú)立處理的，所以很容易出現(xiàn)：

一個視角里椅子已經(jīng)刪掉了；
換個角度椅子又重新出現(xiàn)；
背景區(qū)域跟著一起漂移；
物體邊緣出現(xiàn)重影和閃爍。

3D編輯方法的比較

很多結(jié)果看起來更像“在不同角度硬P出來的圖”，而不是真正穩(wěn)定的3D空間。

對于機(jī)器人、AR/VR、空間智能這些方向來說，這幾乎是致命問題——這些場景真正需要的，不是“某一個角度看起來對”，而是整個3D世界始終穩(wěn)定一致。

原生3D編輯，開始從概念走向可用

VGGT-Edit的核心思路非常直接：既然問題來自2D，那就不要再繞回2D。

整個框架建立在VGGT-Like前饋式重建模型之上，繼承了其快速、高效的3D表示能力。但有意思的是，團(tuán)隊并沒有選擇重新生成整個場景，而是提出了一種非常巧妙的機(jī)制：

殘差場預(yù)測（Residual Field Prediction）。

簡單理解就是：模型先保留原始場景穩(wěn)定的3D結(jié)構(gòu)，然后只學(xué)習(xí)“哪里需要變化”，例如：

椅子往右移動；
沙發(fā)材質(zhì)發(fā)生變化；
刪除某個物體；
新增一個家具。

這些變化，都被表示成了：新場景 = 原場景 + 局部殘差變化

這個設(shè)計有個非常重要的好處——因?yàn)榇蟛糠謪^(qū)域本來就不需要變化，所以模型不用重新“生成整個世界”，只需修改局部，結(jié)果就是沒改動的背景區(qū)域會非常穩(wěn)定。

這也是VGGT-Edit和很多現(xiàn)有方法最明顯的區(qū)別之一。

文本語義，第一次真正開始“對齊”3D空間

研究團(tuán)隊發(fā)現(xiàn)，如果只是簡單把一句文本輸入模型，很容易出現(xiàn)一種情況——模型知道“你想改什么”，但不知道“該改哪里”。

為了解決這個問題，VGGT-Edit設(shè)計了一套關(guān)鍵機(jī)制：

深度同步文本注入（Depth-Synchronized Text Injection）

本質(zhì)上可以理解成讓文本語義和3D空間特征，在同一個深度層級里持續(xù)同步。

傳統(tǒng)方法通常只在前面注入一次文本信息，但VGGT-Edit會在多個關(guān)鍵層持續(xù)融合文本語義，這樣模型在整個3D生成過程中，始終知道：

當(dāng)前應(yīng)該修改哪個區(qū)域；
修改目標(biāo)是什么；
空間位置在哪里。

與此同時，團(tuán)隊還專門設(shè)計了一套“視角重要性加權(quán)”——因?yàn)椴⒉皇撬幸暯嵌纪瑯涌煽浚行┙嵌瓤赡鼙欢輷酰行┮暯侵荒芸吹桨雮€物體。

VGGT-Edit會自動判斷哪個視角更值得信任，最終讓多視角編輯結(jié)果更加穩(wěn)定。

一個真正面向“3D編輯”的編輯頭

除了整體框架之外，VGGT-Edit還有一個非常關(guān)鍵的部分——專門面向3D編輯任務(wù)設(shè)計的編輯頭

研究團(tuán)隊發(fā)現(xiàn)，對于VGGT-Like模型來說，原本的重建Head更關(guān)注“如何恢復(fù)場景”，但3D編輯真正需要解決的問題是：如何在保持整體穩(wěn)定的情況下，只修改局部區(qū)域。

因此，VGGT-Edit額外設(shè)計了一套編輯分支，專門預(yù)測場景中的局部變化。

這個編輯Head會直接作用于3D表示空間，并輸出對應(yīng)的殘差場變化。本質(zhì)上，它學(xué)習(xí)的是：

哪些區(qū)域應(yīng)該保持不變；
哪些區(qū)域需要發(fā)生編輯；
編輯后如何保持多視角一致。

相比直接重新生成整個場景，這種方式更加穩(wěn)定，也更加高效——這也是讓VGGT-Like前饋重建模型具有編輯能力的關(guān)鍵一步。

一個10萬規(guī)模的數(shù)據(jù)集，專門訓(xùn)練“3D編輯”

為了訓(xùn)練VGGT-Edit，團(tuán)隊專門構(gòu)建了一個新3D編輯數(shù)據(jù)集DeltaScene，規(guī)模接近10萬組，覆蓋客廳、辦公室、住宅、商業(yè)空間等多種場景。

DeltaScene數(shù)據(jù)集概述

更重要的是，整個數(shù)據(jù)生成流程高度自動化。

團(tuán)隊通過利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max，自動完成編輯指令生成、目標(biāo)識別、多視角編輯、3D一致性過濾，最終得到真正滿足“多視角幾何一致”的訓(xùn)練數(shù)據(jù)。

DeltaScene數(shù)據(jù)構(gòu)造流程

對于原生3D編輯來說，這一步非常關(guān)鍵——模型真正需要學(xué)習(xí)的，不只是“圖像變化”，而是同一個編輯，在不同視角下如何始終保持空間一致。

3D編輯，第一次開始接近實(shí)時交互

從結(jié)果來看，這條路線確實(shí)有效。

在DeltaScene測試集上，VGGT-Edit在語義一致性、多視角穩(wěn)定性、推理速度三個維度都超過了現(xiàn)有方法。

尤其是在添加家具、調(diào)整位置、修改材質(zhì)這些復(fù)雜任務(wù)中，很多傳統(tǒng)方法仍然會出現(xiàn)明顯的“貼圖感”和幾何漂移，但VGGT-Edit生成的結(jié)果，會明顯更像一個真實(shí)穩(wěn)定的3D空間。

不同3D編輯任務(wù)的定性比較

更關(guān)鍵的是速度——論文中，VGGT-Edit單次編輯只需約5秒，相比很多需要長時間優(yōu)化的傳統(tǒng)方法，最高可實(shí)現(xiàn)120倍加速。

這意味著編3D第一次真正開始接近實(shí)時交互。

對于機(jī)器人、數(shù)字孿生、AR/VR等方向來說，這種變化非常重要——只有當(dāng)編輯速度足夠快，3D世界才真正可能變成“可交互”的世界。

在DeltaScene數(shù)據(jù)集上的定量結(jié)果

模型開始真正理解“空間變化”

論文里還有一個非常有意思的實(shí)驗(yàn)。研究人員輸入了一條訓(xùn)練中從未出現(xiàn)過的指令——“將中間椅子順時針旋轉(zhuǎn)90度。”

結(jié)果模型依然成功完成了編輯。

對未見過的指令進(jìn)行泛化

這說明VGGT-Edit學(xué)到的，并不只是固定模板，它真正開始理解文本語義如何映射到3D空間變化。

而這件事，可能比“會生成3D”本身更重要。因?yàn)閷τ诳臻g智能來說，未來真正關(guān)鍵的能力，也許不是“生成一個世界”，而是能否像人一樣，自由、穩(wěn)定、實(shí)時地修改這個世界。

VGGT-Edit，正在把這件事往前推進(jìn)一步。

論文鏈接：https://arxiv.org/abs/2605.15186

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

統(tǒng)治AI十年的Transformer，要被親爹親手砸碎？

新智元 2026-05-27 09:15:55
18 跟貼 18
VGGT4D：無需訓(xùn)練，挖掘3D基礎(chǔ)模型潛力，實(shí)現(xiàn)4D動態(tài)場景重建

機(jī)器之心Pro 2025-12-17 17:46:42
0 跟貼 0

消除“罪證”：給寫作去除“AI味”的不完全手冊（2026版）

36氪 2026-05-25 19:34:17
11 跟貼 11

實(shí)錘！GPT-5.5「降智」被抓，OpenAI官方文檔認(rèn)了

新智元 2026-05-27 16:17:42
0 跟貼 0
剛剛，中國AI闖入全球編程前二！前面只剩Claude

新智元 2026-05-26 22:27:55
82 跟貼 82

MIT黑客松冠軍項(xiàng)目讓AI控制了人的手，我們和做出它的人聊了聊

DeepTech深科技 2026-05-27 15:10:28
0 跟貼 0

100% AI電影亮相戛納，7個人干300人的活，快手這次贏麻了

鈦媒體APP 2026-05-27 15:44:13
0 跟貼 0
AI革命下一站——物理AI有哪些新進(jìn)展？

華爾街見聞官方 2026-05-27 17:00:24
0 跟貼 0

AI Agent是蘋果的大機(jī)會？

華爾街見聞官方 2026-05-27 16:38:59
0 跟貼 0
00后小哥復(fù)刻Claude最強(qiáng)神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
1400億Agent入場，“流量”這條護(hù)城河要塌了

量子位 2026-05-27 17:30:27
0 跟貼 0
上海人的小氣與窄小的弄堂有關(guān)？大哥分析太透徹了

蕓蕓小手工 2026-05-25 01:09:06
241 跟貼 241
趙子豪回應(yīng)參加上海乒乓球嘉年華，回到虹口主場有家的感覺帶著責(zé)任去拼

咪咕體育 2026-05-24 19:47:32
7 跟貼 7
錢天一出戰(zhàn)上海乒乓球嘉年華，混雙和女雙均收獲勝利，上海青浦8比5戰(zhàn)勝徐匯愚公科技

咪咕體育 2026-05-24 19:47:06
0 跟貼 0
訓(xùn)練獎勵太稀疏？港中文聯(lián)合美團(tuán)給Agent加上「過程分」

機(jī)器之心Pro 2026-02-25 17:27:26
0 跟貼 0
“高考狀元”常書杰，沉迷游戲被北大勸退，復(fù)讀后712分上清華

海星動畫 2026-05-25 02:16:39
0 跟貼 0
不是古德溫，不是李添榮，上海大勝廣廈頭號功臣出爐，確實(shí)有東西

極度說球 2026-05-26 22:02:05
10 跟貼 10
上海贏球后看看媒體怎么說，央視解說點(diǎn)出廣廈最大優(yōu)勢，盧偉更好

極度說球 2026-05-27 00:08:36
21 跟貼 21
VeRL-Omni：面向擴(kuò)散和全模態(tài)生成模型的通用RL后訓(xùn)練框架

機(jī)器之心Pro 2026-05-25 17:32:45
0 跟貼 0
將DSA注意力引入多模態(tài)，快手Keye2.0開啟強(qiáng)化推理新范式

量子位 2026-05-27 09:14:35
0 跟貼 0
上海物價著實(shí)驚人，不愧戲稱滬幣，街邊簡餐動輒百元出頭

太正經(jīng)搞笑 2026-05-25 13:48:28
2 跟貼 2
上海vs浙江G1比賽突發(fā)意外，洛夫頓傷退離場，上海隊單外援作戰(zhàn)

體育書生阿南 2026-05-26 20:41:09
0 跟貼 0
CBA總決賽第一場，上海101比90戰(zhàn)勝廣廈

老骾體育解說 2026-05-27 00:29:26
5 跟貼 5
廣廈負(fù)上海，卻衛(wèi)冕良機(jī)

阿嬍體育評論 2026-05-27 12:46:47
1 跟貼 1
CBA總決賽上海大勝浙江，古德溫34+，孫銘徽0分5失誤

體育書生阿南 2026-05-26 21:35:11
6 跟貼 6
大山在老撾建房：買模板鋼筋遇華僑老板，中文溝通太方便

阿白的金手指廚房 2026-05-24 02:24:44
0 跟貼 0
朱芳雨下場！上海跟廣廈總決賽太刺激，廣廈先居下風(fēng)，比賽懸念大

小賢看體育 2026-05-26 16:01:05
0 跟貼 0
“小狗上桌吃蛋糕”引爭議，海底撈停止攜寵就餐試點(diǎn)

界面新聞 2026-05-26 20:31:51
2316 跟貼 2316
上海爸爸對你說 -人品越好人緣越差

心開動漫 2026-05-27 01:51:37
0 跟貼 0
長江行船比走路還慢，從安慶開到上海，油箱都得餓癟了

矻矻時尚 2026-05-27 09:07:37
0 跟貼 0
中國上海的甜點(diǎn)有多精致？

阿蝦AIXA 2026-05-24 01:42:43
0 跟貼 0
我可能給所有上海人丟臉了，43歲做油漆小工返貧養(yǎng)女兒迫不得已

狂戰(zhàn)獠牙 2026-05-27 06:09:08
0 跟貼 0
北大的這個操作，真是驚掉下巴，留學(xué)生第一次受到這種待遇

小七動畫 2026-05-27 11:32:18
2 跟貼 2
高手云集上海乒乓球嘉年華，趙子豪/孫銘陽，孫聞/錢天一，于何一/劉高陽

咪咕體育 2026-05-24 19:48:42
0 跟貼 0
王健林、馬云、雷軍建議普通人：清華北大不如膽子大！

網(wǎng)易科技態(tài)度見聞 2026-05-26 15:11:51
0 跟貼 0
"退稅力度越大我們買的越多"老外到中國"買買買"上海有商場退稅年銷售超7億元

究竟視頻 2026-05-25 07:38:24
0 跟貼 0
536分“撿漏”上北大學(xué)生趙思巖，已北大碩士畢業(yè)考研成績第一，北大曾以其高考分?jǐn)?shù)過低，恐難以完成學(xué)業(yè)為由，三次申請退檔均被河南省教育廳強(qiáng)硬駁回

觀象視頻 2026-05-27 16:29:54
0 跟貼 0
朱媛媛入圍上海電視節(jié)白玉蘭獎

人生何嘗不是酒 2026-05-27 04:48:34
1 跟貼 1
上海來的財務(wù)真高明！

小車車和小劉劉 2026-05-27 02:15:35
0 跟貼 0
勵志！536分上北大的河南學(xué)子趙思巖，本碩畢業(yè)，稱家鄉(xiāng)改變了我

東東趣談 2026-05-27 17:35:28
1 跟貼 1

魚崖大話籃球

2026-05-27 12:25:22

年薪2000萬的許垚，為什么要毒死身家百億的林奇？

林小明商業(yè)評說

2026-05-27 13:24:59

印度遭遇持續(xù)性極端高溫天氣，莫迪發(fā)文提醒

環(huán)球網(wǎng)資訊

2026-05-27 17:10:18

量子位

追蹤人工智能動態(tài)

12695文章數(shù) 176471關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術(shù)

時尚

本地

房產(chǎn)

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習(xí)慣
李彥宏：百度離破產(chǎn)30天

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

5秒完成3D場景編輯，北大&港中文&上海AI Lab搞出VGGT-Edit

VGGT-Edit團(tuán)隊 投稿量子位 | 公眾號 QbitAI

韜定律：全球在卷納米數(shù) 華為換了一把尺子

男子婚內(nèi)打賞女主播超1700萬 兩人首次見面就確定關(guān)系

男子婚內(nèi)打賞女主播超1700萬 兩人首次見面就確定關(guān)系

這群老阿姨，是最硬核的馬刺球迷

王鶴棣風(fēng)波連累父親炸串店遭差評?

ST巖石退市背后：A股“炒殼”時代終結(jié)

極狐問道V9正式上市 限時19.48萬元起

態(tài)度原創(chuàng)

這個夏天去蘇州過幾天清閑安逸的日子

夏天沒必要買太多衣服，準(zhǔn)備一兩條黑色短裙，輕盈舒適又減齡

用剪紙的方式，打開江蘇揚(yáng)州

地產(chǎn)投資又跌30%！連跌15月！海南房子將越來越少？

VGGT-Edit團(tuán)隊投稿量子位 | 公眾號 QbitAI

男子婚內(nèi)打賞女主播超1700萬兩人首次見面就確定關(guān)系

男子婚內(nèi)打賞女主播超1700萬兩人首次見面就確定關(guān)系

極狐問道V9正式上市限時19.48萬元起