无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

5秒完成3D場景編輯,北大&港中文&上海AI Lab搞出VGGT-Edit

0
分享至

VGGT-Edit團(tuán)隊 投稿量子位 | 公眾號 QbitAI

3D世界“會看”了,但還不會“改”。

從NeRF到83D Gaussian Splatting,再到VGGT、π3這類前饋式3D重建模型,整個行業(yè)的進(jìn)展速度明顯加快——只需幾張圖片,就能在幾秒內(nèi)重建完整3D場景。

但問題也恰恰出在這里。這些模型雖然已經(jīng)能理解三維世界,卻還不會修改三維世界。你可以讓它重建一個房間,卻很難真正告訴它:

把椅子移到窗邊,刪除中間那張椅子,把灰色皮沙發(fā)改成白色長毛沙發(fā)。

更麻煩的是,一旦涉及復(fù)雜編輯,現(xiàn)有方法往往迌速崩採——某些角度里椅子消失了,換個視角椅子又重新出現(xiàn);明明沒改的背景,卻跟著一起變形。

為應(yīng)對這一挑戰(zhàn),來自北京大學(xué)香港中文大學(xué)上海AI LabNTU等機(jī)構(gòu)的研究團(tuán)隊,提出了一套原生3D編輯框架:VGGT-Edit

核心思路只有一句話——

不再繞回2D,而是直接在3D空間里完成編輯。

在DeltaScene測試集上,VGGT-Edit在語義一致性、多視角穩(wěn)定性、推理速度三個維度均超過現(xiàn)有方法,單次編輯僅需約5秒,最高實(shí)現(xiàn)120倍加速。

問題其實(shí)一直出在在2D

目前大多數(shù)編3D的方法,本質(zhì)上仍然是“2D思維”——先把場景拆成多弤2D圖片,逐張編輯,再重新拼回3D。

但由于每個視角都是獨(dú)立處理的,所以很容易出現(xiàn):

  • 一個視角里椅子已經(jīng)刪掉了;
  • 換個角度椅子又重新出現(xiàn);
  • 背景區(qū)域跟著一起漂移;
  • 物體邊緣出現(xiàn)重影和閃爍。

3D編輯方法的比較



很多結(jié)果看起來更像“在不同角度硬P出來的圖”,而不是真正穩(wěn)定的3D空間。

對于機(jī)器人、AR/VR、空間智能這些方向來說,這幾乎是致命問題——這些場景真正需要的,不是“某一個角度看起來對”,而是整個3D世界始終穩(wěn)定一致。

原生3D編輯,開始從概念走向可用

VGGT-Edit的核心思路非常直接:既然問題來自2D,那就不要再繞回2D。

整個框架建立在VGGT-Like前饋式重建模型之上,繼承了其快速、高效的3D表示能力。但有意思的是,團(tuán)隊并沒有選擇重新生成整個場景,而是提出了一種非常巧妙的機(jī)制:

殘差場預(yù)測(Residual Field Prediction)。



簡單理解就是:模型先保留原始場景穩(wěn)定的3D結(jié)構(gòu),然后只學(xué)習(xí)“哪里需要變化”,例如:

  • 椅子往右移動;
  • 沙發(fā)材質(zhì)發(fā)生變化;
  • 刪除某個物體;
  • 新增一個家具。

這些變化,都被表示成了:新場景 = 原場景 + 局部殘差變化

這個設(shè)計有個非常重要的好處——因?yàn)榇蟛糠謪^(qū)域本來就不需要變化,所以模型不用重新“生成整個世界”,只需修改局部,結(jié)果就是沒改動的背景區(qū)域會非常穩(wěn)定。

這也是VGGT-Edit和很多現(xiàn)有方法最明顯的區(qū)別之一。

文本語義,第一次真正開始“對齊”3D空間

研究團(tuán)隊發(fā)現(xiàn),如果只是簡單把一句文本輸入模型,很容易出現(xiàn)一種情況——模型知道“你想改什么”,但不知道“該改哪里”。

為了解決這個問題,VGGT-Edit設(shè)計了一套關(guān)鍵機(jī)制:

深度同步文本注入(Depth-Synchronized Text Injection)

本質(zhì)上可以理解成讓文本語義和3D空間特征,在同一個深度層級里持續(xù)同步。

傳統(tǒng)方法通常只在前面注入一次文本信息,但VGGT-Edit會在多個關(guān)鍵層持續(xù)融合文本語義,這樣模型在整個3D生成過程中,始終知道:

  • 當(dāng)前應(yīng)該修改哪個區(qū)域;
  • 修改目標(biāo)是什么;
  • 空間位置在哪里。

與此同時,團(tuán)隊還專門設(shè)計了一套“視角重要性加權(quán)”——因?yàn)椴⒉皇撬幸暯嵌纪瑯涌煽浚行┙嵌瓤赡鼙欢輷酰行┮暯侵荒芸吹桨雮€物體。

VGGT-Edit會自動判斷哪個視角更值得信任,最終讓多視角編輯結(jié)果更加穩(wěn)定。

一個真正面向“3D編輯”的編輯頭

除了整體框架之外,VGGT-Edit還有一個非常關(guān)鍵的部分——專門面向3D編輯任務(wù)設(shè)計的編輯頭

研究團(tuán)隊發(fā)現(xiàn),對于VGGT-Like模型來說,原本的重建Head更關(guān)注“如何恢復(fù)場景”,但3D編輯真正需要解決的問題是:如何在保持整體穩(wěn)定的情況下,只修改局部區(qū)域。

因此,VGGT-Edit額外設(shè)計了一套編輯分支,專門預(yù)測場景中的局部變化。

這個編輯Head會直接作用于3D表示空間,并輸出對應(yīng)的殘差場變化。本質(zhì)上,它學(xué)習(xí)的是:

  • 哪些區(qū)域應(yīng)該保持不變;
  • 哪些區(qū)域需要發(fā)生編輯;
  • 編輯后如何保持多視角一致。

相比直接重新生成整個場景,這種方式更加穩(wěn)定,也更加高效——這也是讓VGGT-Like前饋重建模型具有編輯能力的關(guān)鍵一步。

一個10萬規(guī)模的數(shù)據(jù)集,專門訓(xùn)練“3D編輯”

為了訓(xùn)練VGGT-Edit,團(tuán)隊專門構(gòu)建了一個新3D編輯數(shù)據(jù)集DeltaScene,規(guī)模接近10萬組,覆蓋客廳、辦公室、住宅、商業(yè)空間等多種場景。

DeltaScene數(shù)據(jù)集概述



更重要的是,整個數(shù)據(jù)生成流程高度自動化。

團(tuán)隊通過利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max,自動完成編輯指令生成、目標(biāo)識別、多視角編輯、3D一致性過濾,最終得到真正滿足“多視角幾何一致”的訓(xùn)練數(shù)據(jù)。

DeltaScene數(shù)據(jù)構(gòu)造流程



對于原生3D編輯來說,這一步非常關(guān)鍵——模型真正需要學(xué)習(xí)的,不只是“圖像變化”,而是同一個編輯,在不同視角下如何始終保持空間一致。

3D編輯,第一次開始接近實(shí)時交互

從結(jié)果來看,這條路線確實(shí)有效。

在DeltaScene測試集上,VGGT-Edit在語義一致性、多視角穩(wěn)定性、推理速度三個維度都超過了現(xiàn)有方法。

尤其是在添加家具、調(diào)整位置、修改材質(zhì)這些復(fù)雜任務(wù)中,很多傳統(tǒng)方法仍然會出現(xiàn)明顯的“貼圖感”和幾何漂移,但VGGT-Edit生成的結(jié)果,會明顯更像一個真實(shí)穩(wěn)定的3D空間。

不同3D編輯任務(wù)的定性比較



更關(guān)鍵的是速度——論文中,VGGT-Edit單次編輯只需約5秒,相比很多需要長時間優(yōu)化的傳統(tǒng)方法,最高可實(shí)現(xiàn)120倍加速。

這意味著編3D第一次真正開始接近實(shí)時交互。

對于機(jī)器人、數(shù)字孿生、AR/VR等方向來說,這種變化非常重要——只有當(dāng)編輯速度足夠快,3D世界才真正可能變成“可交互”的世界。

在DeltaScene數(shù)據(jù)集上的定量結(jié)果



模型開始真正理解“空間變化”

論文里還有一個非常有意思的實(shí)驗(yàn)。研究人員輸入了一條訓(xùn)練中從未出現(xiàn)過的指令——“將中間椅子順時針旋轉(zhuǎn)90度。”

結(jié)果模型依然成功完成了編輯。

對未見過的指令進(jìn)行泛化



這說明VGGT-Edit學(xué)到的,并不只是固定模板,它真正開始理解文本語義如何映射到3D空間變化。

而這件事,可能比“會生成3D”本身更重要。因?yàn)閷τ诳臻g智能來說,未來真正關(guān)鍵的能力,也許不是“生成一個世界”,而是能否像人一樣,自由、穩(wěn)定、實(shí)時地修改這個世界。

VGGT-Edit,正在把這件事往前推進(jìn)一步。

論文鏈接:https://arxiv.org/abs/2605.15186

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“白天800晚上900元”,女子陪爬泰山時,被一男子“白嫖”800元

“白天800晚上900元”,女子陪爬泰山時,被一男子“白嫖”800元

江山揮筆
2026-03-28 16:50:15
宋慶齡和宋美齡同患一種病,一個被折磨半生,一個晚年得以根治

宋慶齡和宋美齡同患一種病,一個被折磨半生,一個晚年得以根治

芳芳?xì)v史燴
2026-05-19 19:21:47
瓜帥拿B費(fèi)當(dāng)反面教材:曼城嚴(yán)禁公開指責(zé)隊友,團(tuán)隊團(tuán)結(jié)高于一切

瓜帥拿B費(fèi)當(dāng)反面教材:曼城嚴(yán)禁公開指責(zé)隊友,團(tuán)隊團(tuán)結(jié)高于一切

星耀國際足壇
2026-05-26 23:11:31
美國漫展驚現(xiàn)“新鮮腳汁” 一杯賣15美元

美國漫展驚現(xiàn)“新鮮腳汁” 一杯賣15美元

3DM游戲
2026-05-25 15:33:17
郭鳳蓮感嘆:要是按照陳永貴書記的設(shè)想繼續(xù)發(fā)展,大寨會走向何處

郭鳳蓮感嘆:要是按照陳永貴書記的設(shè)想繼續(xù)發(fā)展,大寨會走向何處

混沌錄
2026-05-19 19:45:59
瞞不住了!國家在深圳布下驚天大局,深圳真正的王牌正在悄悄崛起

瞞不住了!國家在深圳布下驚天大局,深圳真正的王牌正在悄悄崛起

三農(nóng)老歷
2026-05-27 15:27:57
1970年擁有12位副司令的武漢軍區(qū)

1970年擁有12位副司令的武漢軍區(qū)

祁州校尉
2026-05-27 09:00:22
皇馬今夏想大換血?根本賣不掉!球員:打死也不走!

皇馬今夏想大換血?根本賣不掉!球員:打死也不走!

仰臥撐FTUer
2026-05-27 07:13:03
世界杯最強(qiáng)鋒是哪隊?姆巴佩的法國3.9億,熊皇的巴西三叉戟多強(qiáng)

世界杯最強(qiáng)鋒是哪隊?姆巴佩的法國3.9億,熊皇的巴西三叉戟多強(qiáng)

萬花筒體育球球
2026-05-27 16:44:14
俄羅斯讓中國心涼?真正恐怖的并非西方圍堵,而是我們低估了自己

俄羅斯讓中國心涼?真正恐怖的并非西方圍堵,而是我們低估了自己

混沌錄
2026-04-09 16:27:09
王鶴棣父親回應(yīng)店鋪遭多條差評:生意下降了40%,白天晚上都有影響

王鶴棣父親回應(yīng)店鋪遭多條差評:生意下降了40%,白天晚上都有影響

封面新聞
2026-05-26 19:12:38
父親去世后繼母悄悄離開了家,當(dāng)我找到她時,眼前一幕讓我淚目

父親去世后繼母悄悄離開了家,當(dāng)我找到她時,眼前一幕讓我淚目

人間百態(tài)大全
2026-05-27 06:40:03
泰國旅游業(yè)恐怕要迎來滅頂之災(zāi)了!

泰國旅游業(yè)恐怕要迎來滅頂之災(zāi)了!

安安說
2026-05-23 13:00:07
黃奇帆論壇發(fā)聲:出口賺1.2萬億美元,為什么專家們卻眉頭緊鎖?

黃奇帆論壇發(fā)聲:出口賺1.2萬億美元,為什么專家們卻眉頭緊鎖?

古事尋蹤記
2026-05-25 07:09:22
武契奇到浙江了!專門去了嘉興這家企業(yè)

武契奇到浙江了!專門去了嘉興這家企業(yè)

都市快報橙柿互動
2026-05-27 13:25:50
北極"尸體點(diǎn)"正在融化:數(shù)百年前的水手遺骨暴露于世

北極"尸體點(diǎn)"正在融化:數(shù)百年前的水手遺骨暴露于世

閃存獵手
2026-05-25 04:36:07
不知大家發(fā)現(xiàn)沒?油車的價格開始崩盤,連豐田、大眾都頂不住了!

不知大家發(fā)現(xiàn)沒?油車的價格開始崩盤,連豐田、大眾都頂不住了!

侃故事的阿慶
2026-05-27 16:01:39
馬刺兩大敗因出爐,文班做錯一事!福克斯毫無借口,卡斯?fàn)栆矓偱?>
    </a>
        <h3>
      <a href=魚崖大話籃球
2026-05-27 12:25:22
年薪2000萬的許垚,為什么要毒死身家百億的林奇?

年薪2000萬的許垚,為什么要毒死身家百億的林奇?

林小明商業(yè)評說
2026-05-27 13:24:59
印度遭遇持續(xù)性極端高溫天氣,莫迪發(fā)文提醒

印度遭遇持續(xù)性極端高溫天氣,莫迪發(fā)文提醒

環(huán)球網(wǎng)資訊
2026-05-27 17:10:18
2026-05-27 17:51:01
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12695文章數(shù) 176471關(guān)注度
往期回顧 全部

科技要聞

韜定律:全球在卷納米數(shù) 華為換了一把尺子

頭條要聞

男子婚內(nèi)打賞女主播超1700萬 兩人首次見面就確定關(guān)系

頭條要聞

男子婚內(nèi)打賞女主播超1700萬 兩人首次見面就確定關(guān)系

體育要聞

這群老阿姨,是最硬核的馬刺球迷

娛樂要聞

王鶴棣風(fēng)波連累父親炸串店遭差評?

財經(jīng)要聞

ST巖石退市背后:A股“炒殼”時代終結(jié)

汽車要聞

極狐問道V9正式上市 限時19.48萬元起

態(tài)度原創(chuàng)

藝術(shù)
時尚
本地
房產(chǎn)
公開課

藝術(shù)要聞

這個夏天去蘇州過幾天清閑安逸的日子

夏天沒必要買太多衣服,準(zhǔn)備一兩條黑色短裙,輕盈舒適又減齡

本地新聞

用剪紙的方式,打開江蘇揚(yáng)州

房產(chǎn)要聞

地產(chǎn)投資又跌30%!連跌15月!海南房子將越來越少?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版