无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

一次三篇!李飛飛的空間智能公司,發論文了

0
分享至



編輯|Panda

今天,由李飛飛聯合創立的空間智能公司 World Labs 在同一天發布了三篇技術論文!



三篇論文分別由公司內部實習生主導完成,研究方向各異,但共享同一個核心命題:借助已在海量圖片數據上訓練成熟的 2D 生成模型,降低 3D 內容生成的難度門檻。



值得注意的是,正如 World Labs 聯合創始人 Justin Johnson 所言,盡管該公司此前已有成果展示,但這三篇論文確是該公司的首批論文(first-ever papers)



回到這三篇論文的主題:3D 內容生成。這是一個長期以來「說起來簡單、做起來極難」的領域。

現實世界是三維的,但訓練數據絕大多數是二維的(包括照片、視頻、圖像),而不是帶有體積、深度和遮擋關系的完整空間結構。一旦轉入三維,訓練數據驟減,幾何一致性的維護變得指數級復雜。

過去數年,研究者們已經找到了一條可行路徑:不從頭訓練 3D 生成模型,而是將 2D 擴散模型的強大先驗能力遷移到 3D 生成任務中。

World Labs 這次發布的三篇論文,分別從不同角度延伸了這條思路。



三項研究的具體切入點各有側重:

  • World Tracing解決的是「從單張圖像恢復可見表面之外的完整三維幾何」問題;
  • Modality Forcing探索的是「如何讓一個文生圖模型同時具備深度感知和 3D 推理能力」;
  • Flex4DHuman則將問題延伸到時間維度,嘗試從普通單目視頻中提升出可合成的動態 4D 人體。

值得注意的是,就在論文發布的同一天,World Labs 聯合創始人 Christoph Lassner 在社交媒體上宣布因病將離開公司,為這場學術亮相增添了一絲人事變局的注腳。



下面我就來具體看看 World Labs 的首批論文。

World Tracing

讓每一個像素,都指向一個完整的 3D 世界

如果你手中只有一張照片,你能從中恢復多少三維信息?

常識告訴我們:很有限。照片只是現實世界在某一時刻、某一視角下的投影,深度信息丟失,遮擋面后方的空間完全缺席。當前主流的單圖轉 3D 方法,通常面臨一個兩難困境:要么做深度估計(精確但只能恢復可見表面);要么做生成補全(想象力豐富但結果往往偏離原始圖像的視覺細節)。

World Tracing方案試圖同時消解這兩種缺陷。



  • 論文標題:World Tracing: Generative Pixel-Aligned Geometry Beyond the Visible
  • 論文地址:https://arxiv.org/abs/2606.13652
  • 項目地址:https://haoz19.github.io/world-tracing-page/

論文由 Hao Zhang 主導,團隊成員包括 World Labs 聯合創始人 Ben Mildenhall、Christoph Lassner、Gengshan Yang 等人。



核心思路是:將每一個輸入像素視為一條射線,沿著這條射線預測一組有序的三維坐標點——第 0 層是可見表面,之后各層依次是沿該射線方向的被遮擋幾何體。論文將這種表示稱為「pixel-aligned multilayer geometry representation」(像素對齊的多層幾何表示),具體實現為一個多層 XYZ 坐標張量(multilayer XYZ stack)。



換句話說,World Tracing 給每個像素對應的不只是一個三維點,而是一疊有序的三維點,記錄了這條視線穿越場景所經過的所有幾何層:第 0 層是直接可見的表面,更深的層則逐步揭示被前景物體遮擋的隱藏幾何體。

這就像是把相機比作一支鉛筆:普通深度估計只能畫出物體的輪廓線,而 World Tracing 試圖畫出這支鉛筆穿透紙張時,另一面的樣子。

預測這種「深度堆疊」本身是極高難度的任務,因為遮擋面的幾何信息根本沒有出現在圖像中,模型必須依賴對現實世界空間結構的「常識」來進行推斷。

為此,研究團隊采用了擴散模型來對這組有序深度值建模。擴散模型天然適合處理帶有不確定性的分布式預測,而非給出單一確定答案。

更關鍵的是,整個預測過程始終對齊于原始輸入圖像的像素坐標??梢姳砻娴纳疃缺痪_地「錨定」在圖像信息中,而不可見部分的補全則在這個約束框架下進行生成。這使得最終的三維重建既忠實于輸入圖像,又具備完整的空間結構。

論文中展示的案例覆蓋了靜態物體、室內外場景,乃至動態世界建模。團隊還發布了論文代碼、項目主頁和 Hugging Face 在線演示,讓外界能夠直接測試這套方法對任意圖像的處理效果。



對于 World Labs 這樣以「空間智能」為核心產品方向的公司來說,World Tracing 的意義在于:它提供了一種從單張圖像出發、直接恢復豐富三維結構的技術路徑,而不需要多視角輸入或昂貴的三維數據標注。這與 Marble 產品「從圖像生成可探索三維世界」的核心承諾高度一致。

Modality Forcing

一個模型,同時理解顏色、文字和深度

深度估計和圖像生成,在傳統上是兩個完全獨立的任務,分別需要專門的數據集和獨立訓練的模型。前者需要精確的深度標注(LiDAR 掃描或雙目視覺),后者依賴海量圖文對。兩套任務的數據規模相差懸殊——圖像生成模型見過數十億張圖片,而深度模型的訓練數據量通常只是零頭。

這種不對稱,催生了一個自然的問題:能否讓已經在海量圖文數據上訓練成熟的文生圖模型,直接學會對深度的感知?

Modality Forcing給出了一個肯定的回答,并走得更遠。



  • 論文標題:Modality Forcing for Scalable Spatial Generation
  • 論文地址:https://arxiv.org/abs/2606.13676
  • 項目地址:https://modality-forcing.github.io/

這篇由 Bardienus Duisterhof 主導的 World Labs 實習研究,核心主張是:文生圖是一種可擴展的 3D 推理預訓練目標,只要用對訓練策略,同一個模型可以在 RGBD 生成、深度估計和深度條件圖像生成三項任務之間自由切換。



論文提出的方法名為「Modality Forcing」,其核心機制是:給 RGB 和深度兩種模態分別分配獨立的擴散噪聲時間步(per-modality noise levels)



訓練時,RGB 和深度各自被加入不同程度的噪聲,同時接受各自獨立的損失監督;推理時,只需固定某一模態的噪聲步為 0(即視為已知條件),對另一模態完整去噪,便可實現圖像→深度(I2D)或深度→圖像(D2I)的條件生成;兩者均加噪則為聯合生成。

由于深度在像素空間(而非 VAE 隱空間)中直接擴散,模型可以從僅含稀疏深度標注的真實世界數據中學習,不再局限于依賴密集標注的合成數據集。

這種思路的優勢在于:不需要額外引入獨立的深度網絡,也不需要為每個任務單獨設計架構分支。一個預訓練的文生圖模型,通過 Modality Forcing 微調之后,就具備了對場景幾何的直接感知能力。

從技術路徑來看,Modality Forcing 與近年來流行的多任務擴散模型研究(如 Marigold、Depth Pro、Lotus 等)方向一致,但其獨特之處在于對「生成」與「感知」兩類任務的統一處理。深度估計通常被視為一個判別任務(給定圖像,輸出深度值),而文生圖是一個生成任務。

Modality Forcing 的貢獻在于證明:這兩種任務之間的邊界比想象中模糊得多;生成能力的積累,可以直接轉化為感知能力的提升,反之亦然。

對 World Labs 來說,這項研究的意義延伸到產品層面:Marble 的 3D 世界生成需要對場景深度的精確理解。一個同時具備生成和感知能力的統一模型,將使 3D 世界的構建更加自洽,避免深度估計模塊和生成模塊之間的累積誤差。

Flex4DHuman

從一段手機視頻,「升維」出可合成的動態人體

如果說前兩篇論文處理的是靜態或通用場景,Flex4DHuman則將挑戰聚焦于一個更具體但同樣重要的子問題:如何從一段普通的單目視頻(比如手機拍攝的日常視頻),重建出動態人體的完整四維結構,即三維空間+時間維度。

這個問題的難點在于「單目」兩個字。多目攝像系統可以通過視差直接測量三維坐標,但單目視頻丟失了這種幾何約束。從單目視頻重建運動中的三維人體,本質上是一個欠約束問題:同一段視頻序列,理論上對應無數種可能的三維運動軌跡。此前的方法大多依賴優化過程,計算耗時,且難以泛化到訓練集以外的姿態和外觀。

Flex4DHuman 由 Yipeng Wang 擔任項目負責人,第一作者為 Jen-Hao Cheng,工作在 World Labs 實習期間完成。



  • 論文標題:Flex4DHuman: Flexible Multi-view Video Diffusion for 4D Human Reconstruction
  • 論文地址:https://arxiv.org/abs/2606.13655
  • 項目地址:https://andy-cheng.github.io/Flex4DHuman/



方法以阿里巴巴的 Wan 2.1(一個 1.3B 參數的文本生成視頻 DiT)為基礎進行微調,核心改動只有一處:將原有的時空位置編碼替換為一套五軸位置編碼(five-axis positional encoding),在原有的空間坐標和幀序索引之外,額外引入視角槽索引和連續 SE(3) 相對相機幾何,使模型在注意力機制內部直接感知相機之間的相對位姿關系。



這個設計帶來了一個關鍵優勢:不需要骨架估計(skeleton)、深度圖或法線圖等顯式幾何先驗,僅憑相對相機姿態就能驅動多視角視頻的同步生成。這與此前主流方法(如 Diffuman4D 依賴 SMPL 骨架、MV-Performer 依賴深度和法線渲染)形成鮮明對比。

給定一段單目參考視頻和目標相機姿態,模型直接輸出在時間上同步、視角上一致的多視角視頻序列;再將這些多視角視頻送入 FreeTimeGS 重建管線,即可得到動態 4D 高斯表示(4D Gaussian Splats)。

這套流程將視頻擴散模型的強大外觀先驗與 4D 高斯的高效渲染能力結合起來,使得從一段跳舞視頻或行走視頻出發,可以將其中的人物「升維」為完整的動態 4D 資產,再合成進任意 3D 場景。這對于數字內容創作、虛擬制片和 AR/VR 應用具有直接價值。



論文還驗證了方法超出人體的泛化性:同一個模型經過少量微調后,可以推廣到多物種動物的多視角生成,在跨物種零樣本測試中仍保持較強性能,表明方法的核心設計不依賴人體特有的幾何假設。

論文在 DNA-Rendering 和 ActorsHQ 兩個基準上進行了評測。與同樣基于單目參考視頻的 Diffuman4D-mono-skeleton 相比,Flex4DHuman 在 DNA-Rendering 上 PSNR 提升約 9.3 dB;在零樣本的 ActorsHQ 測試集上,PSNR 也高出對手約 3.4 dB。

從更宏觀的視角來看,Flex4DHuman 代表了「2D 視頻數據賦能 3D 世界建?!惯@一技術路線的一個典型樣本。手機視頻是人類日常生產最多的數據形式,如果能夠高效地從中提取四維信息,將極大擴展 3D 世界模型的訓練數據來源。

聯創 Christoph Lassner 宣布離職

就在三篇論文發布的同一天,World Labs 聯合創始人Christoph Lassner在 X 平臺發帖,宣布自己將離開公司,開啟下一段旅程。



Lassner 是 World Labs 四位聯合創始人之一,另外三位分別是李飛飛、Justin Johnson 和 Ben Mildenhall。他長期從事計算機視覺與計算機圖形學交叉領域的研究,專注于從 2D 圖像和視頻中恢復可用的三維內容。

在加入 World Labs 之前,Lassner 的職業軌跡覆蓋了多個行業前沿。他曾在初創公司 Bodylabs 工作,該公司后被亞馬遜收購,專注于基于圖像的三維人體建模;在亞馬遜期間,他主導開發了 Amazon Halo 智能手環的三維體型估算系統,用戶僅需手機自拍,即可獲得精確的三維身材模型。此后,他先后在 Meta Reality Labs Research 和 Epic Games 主持研究團隊,深耕神經渲染和 NeRF(神經輻射場)相關技術,2022 年 Meta Connect 大會上展示的實時輻射場渲染演示,正是他所在團隊的成果之一。他還開發了 Pulsar 渲染器,一種基于球體基元的可微分渲染器,后來成為 PyTorch3D 的后端組件之一,在學術界得到廣泛應用。



Lassner 于 2024 年初與李飛飛等人共同創立 World Labs。公司于同年 9 月從隱身狀態中走出,以約 10 億美元估值完成 2.3 億美元融資,投資方包括 NVIDIA、AMD、Adobe 和 Databricks 旗下風險投資機構。2026 年 2 月,World Labs 完成了由 Autodesk 領投的 10 億美元新一輪融資,估值躍升至約 50 億美元。

三篇論文的致謝列表中均出現了 Lassner 的名字,這意味著他在職期間積極參與了這些實習研究項目。

對于離職的原因,Lassner 在公開聲明中做了坦誠的說明:過去幾個月里,他經歷了數起個人事故,其中包括一次造成多處骨折和腦震蕩的意外,目前仍在恢復中。這段強制休息的時間讓他有機會重新審視自己的處境,并做出了退出日常運營職務的決定。他同時表示,將繼續以顧問身份支持公司,并對李飛飛、Justin Johnson 和 Ben Mildenhall 在這一決定過程中給予的理解和支持表達了感謝。

在向公司內部團隊發送的信件中,Lassner 寫道,他「深信 World Labs 以及我們正在構建的事業的重要性」,公司目前所處的強勁位置讓他確信此刻是交棒的合適時機。他表示,自己下一步的計劃尚不明確,但「對即將到來的事感到興奮」。

結語

三篇論文同日亮相,對 World Labs 而言是一個值得記錄的時間節點。這家公司自 2024 年創立以來,主要以技術博客和產品的形式與公眾見面:Marble 世界模型的內測與公測、World API 的開放、Spark 2.0……而這次是公司首次以 arXiv 預印本形式正式發表學術論文。

這次的集體亮相,聯合創始人 Justin Johnson 在 X 上的評論或許最能說明其背景意涵:「3D 是一個令人興奮的領域,我們仍在摸索正確的任務定義、問題形式、模型架構,以及最佳的擴展方式。我們在這里分享一些想法,由一批出色的實習生主導完成?!?/p>

語氣謙遜,但方向很清晰:World Labs 正在將「空間智能」的研究路線推向更深處,并愿意在這一過程中與學術社區分享自己的思考。

文中視頻鏈接:https://mp.weixin.qq.com/s/tSorVEK3cAszxBw_MKLzMQ

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
檢調羈押吳乃仁,裁定內容曝光!藍營兩要員列入名單,蕭旭岑出手

檢調羈押吳乃仁,裁定內容曝光!藍營兩要員列入名單,蕭旭岑出手

陳博世財經
2026-06-14 13:51:13
民調一邊倒力挺,97%比3%,黃智賢無地自容,侯友宜態度或成關鍵

民調一邊倒力挺,97%比3%,黃智賢無地自容,侯友宜態度或成關鍵

起喜電影
2026-06-14 16:01:06
年齡越大,越要控制體重?醫生:50歲后,體重最好保持在這個范圍

年齡越大,越要控制體重?醫生:50歲后,體重最好保持在這個范圍

岐黃傳人孫大夫
2026-06-12 23:50:03
梁興初晚年坦言:黑山阻擊戰雖然贏了,但是那天靠的不是我的指揮

梁興初晚年坦言:黑山阻擊戰雖然贏了,但是那天靠的不是我的指揮

飯小妹說歷史
2026-06-04 09:11:26
遍地開花的低價零食店!根本不靠賣零食賺錢,真相太殘酷

遍地開花的低價零食店!根本不靠賣零食賺錢,真相太殘酷

流蘇晚晴
2026-06-12 13:11:04
饒穎:趙忠祥曾和我發生關系7年,他有特殊癖好,讓我身心受傷害

饒穎:趙忠祥曾和我發生關系7年,他有特殊癖好,讓我身心受傷害

妙知
2026-05-26 04:45:18
男童失蹤96小時!救援隊曝致命疑點,家屬哭喊:最怕的事要來了

男童失蹤96小時!救援隊曝致命疑點,家屬哭喊:最怕的事要來了

小陸搞笑日常
2026-06-14 15:13:09
李子柒新身份,最新宣布

李子柒新身份,最新宣布

南方都市報
2026-06-14 13:28:02
18歲被王全安選中,20歲登戛納,后來為啥沒人敢用她?

18歲被王全安選中,20歲登戛納,后來為啥沒人敢用她?

不似少年游
2026-05-21 14:26:19
疑阿里員工爆料:所在部門50%已離職,N+1到手轉行跨境電商

疑阿里員工爆料:所在部門50%已離職,N+1到手轉行跨境電商

六子吃涼粉
2026-06-12 11:13:32
當都在說燃油車衰敗時,其實恰恰是電車慌了,電車在海外受困

當都在說燃油車衰敗時,其實恰恰是電車慌了,電車在海外受困

柏銘銳談
2026-06-13 17:47:48
世界杯太太團頂流是C羅女友,身材豐滿凹凸,做過柜姐是90后美女

世界杯太太團頂流是C羅女友,身材豐滿凹凸,做過柜姐是90后美女

往史過眼云煙
2026-06-13 21:58:53
深度解析!大唐EV和理想L8的路線之爭,花20多萬還是掏30多萬!

深度解析!大唐EV和理想L8的路線之爭,花20多萬還是掏30多萬!

凡兮說
2026-06-14 16:10:00
我黨歷任最高領導人名錄,陳獨秀是首任書記,毛主席是第六任

我黨歷任最高領導人名錄,陳獨秀是首任書記,毛主席是第六任

大運河時空
2026-06-14 13:45:03
南京路上百年老字號關門了?不少消費者聞訊趕來,結果……

南京路上百年老字號關門了?不少消費者聞訊趕來,結果……

上海黃浦
2026-06-14 10:04:22
小米2款新品上市:6月13日,全新上架

小米2款新品上市:6月13日,全新上架

科技堡壘
2026-06-13 09:51:08
徐帆回應離婚幾個月后,68歲馮小剛再惹爭議,養女徐朵成導火索!

徐帆回應離婚幾個月后,68歲馮小剛再惹爭議,養女徐朵成導火索!

鄉野小珥
2026-05-18 08:58:28
A股:大家做好心理準備了,明天周一,A股或將再次歷史重演!

A股:大家做好心理準備了,明天周一,A股或將再次歷史重演!

趨勢清風俠
2026-06-14 12:39:03
山西省委書記下礦井實地檢查

山西省委書記下礦井實地檢查

政知新媒體
2026-06-14 09:45:35
美國認為只要我不降息,中國就要爆雷了。

美國認為只要我不降息,中國就要爆雷了。

阿七說史
2026-06-14 05:00:08
2026-06-14 17:12:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13249文章數 142669關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

巴西女孩蹦極沒系繩被拋下40米高橋身亡 現場畫面披露

頭條要聞

巴西女孩蹦極沒系繩被拋下40米高橋身亡 現場畫面披露

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

家居
藝術
游戲
本地
公開課

家居要聞

空間微調 移形換境

藝術要聞

廣州再建一座“小蠻腰”?190米,頂著個球,2027年見!

明抄暗諷!電棍向炫神道歉 背后是藏不住的陰陽怪氣

本地新聞

AK劉彰邂逅河北南大港濕地

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版