VGGT-Edit團(tuán)隊 投稿量子位 | 公眾號 QbitAI
3D世界“會看”了,但還不會“改”。
從NeRF到83D Gaussian Splatting,再到VGGT、π3這類前饋式3D重建模型,整個行業(yè)的進(jìn)展速度明顯加快——只需幾張圖片,就能在幾秒內(nèi)重建完整3D場景。
但問題也恰恰出在這里。這些模型雖然已經(jīng)能理解三維世界,卻還不會修改三維世界。你可以讓它重建一個房間,卻很難真正告訴它:
把椅子移到窗邊,刪除中間那張椅子,把灰色皮沙發(fā)改成白色長毛沙發(fā)。
更麻煩的是,一旦涉及復(fù)雜編輯,現(xiàn)有方法往往迌速崩採——某些角度里椅子消失了,換個視角椅子又重新出現(xiàn);明明沒改的背景,卻跟著一起變形。
為應(yīng)對這一挑戰(zhàn),來自北京大學(xué)香港中文大學(xué)上海AI LabNTU等機(jī)構(gòu)的研究團(tuán)隊,提出了一套原生3D編輯框架:VGGT-Edit
核心思路只有一句話——
不再繞回2D,而是直接在3D空間里完成編輯。
在DeltaScene測試集上,VGGT-Edit在語義一致性、多視角穩(wěn)定性、推理速度三個維度均超過現(xiàn)有方法,單次編輯僅需約5秒,最高實(shí)現(xiàn)120倍加速。
問題其實(shí)一直出在在2D
目前大多數(shù)編3D的方法,本質(zhì)上仍然是“2D思維”——先把場景拆成多弤2D圖片,逐張編輯,再重新拼回3D。
但由于每個視角都是獨(dú)立處理的,所以很容易出現(xiàn):
- 一個視角里椅子已經(jīng)刪掉了;
- 換個角度椅子又重新出現(xiàn);
- 背景區(qū)域跟著一起漂移;
- 物體邊緣出現(xiàn)重影和閃爍。
3D編輯方法的比較
![]()
很多結(jié)果看起來更像“在不同角度硬P出來的圖”,而不是真正穩(wěn)定的3D空間。
對于機(jī)器人、AR/VR、空間智能這些方向來說,這幾乎是致命問題——這些場景真正需要的,不是“某一個角度看起來對”,而是整個3D世界始終穩(wěn)定一致。
原生3D編輯,開始從概念走向可用
VGGT-Edit的核心思路非常直接:既然問題來自2D,那就不要再繞回2D。
整個框架建立在VGGT-Like前饋式重建模型之上,繼承了其快速、高效的3D表示能力。但有意思的是,團(tuán)隊并沒有選擇重新生成整個場景,而是提出了一種非常巧妙的機(jī)制:
殘差場預(yù)測(Residual Field Prediction)。
![]()
簡單理解就是:模型先保留原始場景穩(wěn)定的3D結(jié)構(gòu),然后只學(xué)習(xí)“哪里需要變化”,例如:
- 椅子往右移動;
- 沙發(fā)材質(zhì)發(fā)生變化;
- 刪除某個物體;
- 新增一個家具。
這些變化,都被表示成了:新場景 = 原場景 + 局部殘差變化
這個設(shè)計有個非常重要的好處——因?yàn)榇蟛糠謪^(qū)域本來就不需要變化,所以模型不用重新“生成整個世界”,只需修改局部,結(jié)果就是沒改動的背景區(qū)域會非常穩(wěn)定。
這也是VGGT-Edit和很多現(xiàn)有方法最明顯的區(qū)別之一。
文本語義,第一次真正開始“對齊”3D空間
研究團(tuán)隊發(fā)現(xiàn),如果只是簡單把一句文本輸入模型,很容易出現(xiàn)一種情況——模型知道“你想改什么”,但不知道“該改哪里”。
為了解決這個問題,VGGT-Edit設(shè)計了一套關(guān)鍵機(jī)制:
深度同步文本注入(Depth-Synchronized Text Injection)
本質(zhì)上可以理解成讓文本語義和3D空間特征,在同一個深度層級里持續(xù)同步。
傳統(tǒng)方法通常只在前面注入一次文本信息,但VGGT-Edit會在多個關(guān)鍵層持續(xù)融合文本語義,這樣模型在整個3D生成過程中,始終知道:
- 當(dāng)前應(yīng)該修改哪個區(qū)域;
- 修改目標(biāo)是什么;
- 空間位置在哪里。
與此同時,團(tuán)隊還專門設(shè)計了一套“視角重要性加權(quán)”——因?yàn)椴⒉皇撬幸暯嵌纪瑯涌煽浚行┙嵌瓤赡鼙欢輷酰行┮暯侵荒芸吹桨雮€物體。
VGGT-Edit會自動判斷哪個視角更值得信任,最終讓多視角編輯結(jié)果更加穩(wěn)定。
一個真正面向“3D編輯”的編輯頭
除了整體框架之外,VGGT-Edit還有一個非常關(guān)鍵的部分——專門面向3D編輯任務(wù)設(shè)計的編輯頭
研究團(tuán)隊發(fā)現(xiàn),對于VGGT-Like模型來說,原本的重建Head更關(guān)注“如何恢復(fù)場景”,但3D編輯真正需要解決的問題是:如何在保持整體穩(wěn)定的情況下,只修改局部區(qū)域。
因此,VGGT-Edit額外設(shè)計了一套編輯分支,專門預(yù)測場景中的局部變化。
這個編輯Head會直接作用于3D表示空間,并輸出對應(yīng)的殘差場變化。本質(zhì)上,它學(xué)習(xí)的是:
- 哪些區(qū)域應(yīng)該保持不變;
- 哪些區(qū)域需要發(fā)生編輯;
- 編輯后如何保持多視角一致。
相比直接重新生成整個場景,這種方式更加穩(wěn)定,也更加高效——這也是讓VGGT-Like前饋重建模型具有編輯能力的關(guān)鍵一步。
一個10萬規(guī)模的數(shù)據(jù)集,專門訓(xùn)練“3D編輯”
為了訓(xùn)練VGGT-Edit,團(tuán)隊專門構(gòu)建了一個新3D編輯數(shù)據(jù)集DeltaScene,規(guī)模接近10萬組,覆蓋客廳、辦公室、住宅、商業(yè)空間等多種場景。
DeltaScene數(shù)據(jù)集概述
![]()
更重要的是,整個數(shù)據(jù)生成流程高度自動化。
團(tuán)隊通過利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max,自動完成編輯指令生成、目標(biāo)識別、多視角編輯、3D一致性過濾,最終得到真正滿足“多視角幾何一致”的訓(xùn)練數(shù)據(jù)。
DeltaScene數(shù)據(jù)構(gòu)造流程
![]()
對于原生3D編輯來說,這一步非常關(guān)鍵——模型真正需要學(xué)習(xí)的,不只是“圖像變化”,而是同一個編輯,在不同視角下如何始終保持空間一致。
3D編輯,第一次開始接近實(shí)時交互
從結(jié)果來看,這條路線確實(shí)有效。
在DeltaScene測試集上,VGGT-Edit在語義一致性、多視角穩(wěn)定性、推理速度三個維度都超過了現(xiàn)有方法。
尤其是在添加家具、調(diào)整位置、修改材質(zhì)這些復(fù)雜任務(wù)中,很多傳統(tǒng)方法仍然會出現(xiàn)明顯的“貼圖感”和幾何漂移,但VGGT-Edit生成的結(jié)果,會明顯更像一個真實(shí)穩(wěn)定的3D空間。
不同3D編輯任務(wù)的定性比較
![]()
更關(guān)鍵的是速度——論文中,VGGT-Edit單次編輯只需約5秒,相比很多需要長時間優(yōu)化的傳統(tǒng)方法,最高可實(shí)現(xiàn)120倍加速。
這意味著編3D第一次真正開始接近實(shí)時交互。
對于機(jī)器人、數(shù)字孿生、AR/VR等方向來說,這種變化非常重要——只有當(dāng)編輯速度足夠快,3D世界才真正可能變成“可交互”的世界。
在DeltaScene數(shù)據(jù)集上的定量結(jié)果
![]()
模型開始真正理解“空間變化”
論文里還有一個非常有意思的實(shí)驗(yàn)。研究人員輸入了一條訓(xùn)練中從未出現(xiàn)過的指令——“將中間椅子順時針旋轉(zhuǎn)90度。”
結(jié)果模型依然成功完成了編輯。
對未見過的指令進(jìn)行泛化
![]()
這說明VGGT-Edit學(xué)到的,并不只是固定模板,它真正開始理解文本語義如何映射到3D空間變化。
而這件事,可能比“會生成3D”本身更重要。因?yàn)閷τ诳臻g智能來說,未來真正關(guān)鍵的能力,也許不是“生成一個世界”,而是能否像人一樣,自由、穩(wěn)定、實(shí)時地修改這個世界。
VGGT-Edit,正在把這件事往前推進(jìn)一步。
論文鏈接:https://arxiv.org/abs/2605.15186
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.