網易首頁 > 網易號 > 正文 申請入駐

300萬對樣本、200萬對實拍:深度估計的數據荒,終于被打破

0
分享至



機器之心編輯部

做深度估計、深度補全的人,大概都有過這樣一個瞬間。

模型在 NYU Depth V2 這樣的經典 benchmark 上跑出了漂亮的分數,指標也足夠好看。可一旦把同一個模型部署到真實機器人上,問題立刻暴露出來:深度圖邊緣發糊、遠處漂移,遇到反光材質幾乎直接失效。

你第一反應往往是實現出了 bug,于是從代碼到訓練流程排查一遍。可最終你會發現,代碼沒問題。

問題出在數據。

其實,這不是個例,而是這個方向長期存在的困境之一。

深度估計和深度補全的學術進展,在某種程度上是被數據集的天花板壓著走的。過去十幾年,社區高度依賴幾個經典數據集:NYU Depth V2 以公寓和辦公室場景為主,室內覆蓋有限;KITTI 面向自動駕駛,室外道路場景扎實,但對具身智能幾乎沒有直接用處;ScanNet 在室內重建方向貢獻巨大,但它的幀序列格式并非為配對深度訓練設計;ETH3D、DIML 各有側重,規模都不足以支撐當下大模型時代的訓練需求。

雖然現在有合成數據集可以填補數據短缺問題,但合成數據在渲染材質和真實場景之間有一道肉眼可辨的鴻溝。模型在合成數據上學到的深度先驗,遇到真實世界的反光金屬、透明玻璃、復雜紋理,往往直接崩壞。

這道鴻溝,沒有大規模真實數據,系統性的解法很難實現。直到 3 月底,這個局面終于出現了松動。

螞蟻靈波完成了一件在這個領域久違的動作:一次性開源約 300 萬對高質量 RGB - 深度數據 ——LingBot-Depth-Dataset。每條樣本同時包含 RGB 圖像、傳感器原始深度以及對應的真值深度,為訓練提供了完整的對照信號。

整個數據集規模達到2.71TB,其中包括約200 萬對真實采集的 RGB-D 數據和 100 萬對高質量渲染數據;在真實數據部分,覆蓋了 Orbbec 335、335L,RealSense D405、D415、D435、D455 共6 款市場主流深度相機,以盡可能還原不同硬件條件下的真實感知分布。

該數據集以 CC BY-NC-SA 4.0 協議開源,允許學術與非商業場景下的自由使用與再創作。



  • 魔搭社區 ModelScope:https://modelscope.cn/datasets/Robbyant/LingBot-Depth-Dataset
  • HuggingFace:https://huggingface.co/datasets/robbyant/mdm_depth

事實上,該數據集的有效性早已在模型層面得到驗證。螞蟻靈波在今年 1 月開源的具身智能感知模型 LingBot-Depth,正是基于這套數據訓練而成的。

從實際效果來看,LingBot-Depth 可在不更換硬件的前提下顯著提升透明、反光等復雜材質場景的深度輸出質量,并且在深度精度和像素覆蓋率這兩項核心指標上,已經全面優于目前市面上頂尖的工業級 RGB-D 相機。

正是在這樣的前提下,螞蟻靈波選擇將這套數據完整開源,將內部驗證過的數據,向整個社區開放。



基于 LingBot-Depth-Dataset 數據集構建的 LingBot-Depth,在傳統深度傳感器易失效的復雜場景中,仍可輸出具備真實尺度的高精度深度結果

LingBot-Depth 相關鏈接:

  • Hugging Face:https://huggingface.co/robbyant/lingbot-depth
  • ModelScope:https://modelscope.cn/models/robbyant/lingbot-depth
  • Tech Report:https://arxiv.org/abs/2601.17895

為什么真實數據規模如此關鍵?

要理解 LingBot-Depth-Dataset 的價值,需要先理解真實采集的深度數據為什么難以獲得。

采集成本是第一道門檻。高質量的 RGB-D 數據采集需要將 RGB 相機與深度傳感器進行時間同步和空間標定,標定精度直接影響深度圖與彩色圖的像素對齊質量。大規模部署多臺設備、在多個場景下系統性采集,工程復雜度遠高于普通視頻采集。此外,不同場景(強光、弱光、反射表面、透明材質)對傳感器性能的影響差異顯著,需要針對性處理。

傳感器原始深度圖存在固有缺陷。結構光和 ToF 傳感器采集到的原始深度圖通常包含大量無效像素(空洞),邊緣處存在飛點(flying pixels),在反射或透明表面上深度值失效。這意味著原始傳感器深度圖不能直接作為訓練真值,需要額外的處理步驟來生成稠密、精確的真值深度圖,而這個處理本身就是一個有技術門檻的問題。

標注真值的獲取難度高。不同于圖像分類可以用人工標注、或者利用網絡弱監督,深度真值必須依賴物理測量或精密的多傳感器融合。激光雷達可以提供高精度稀疏點云,但需要與相機精確標定和時間同步;結構光系統精度有限且對光照敏感;立體匹配可以提供稠密深度但在紋理平坦區域容易失效。沒有哪種單一方案是完美的,大規模采集必須在精度、成本和覆蓋度之間做權衡。

版權與開放意愿是另一道隱性門檻。工業界在大規模數據采集上投入了大量資源,但數據往往被視為競爭護城河而非公共資源。許多團隊擁有規模可觀的內部數據集,卻從未考慮開放。這造成了一種奇特的局面:學術界對數據的渴望與工業界對數據的占有之間存在巨大落差,而學術研究所依賴的數據集,往往是多年前某個團隊順手做的副產品。

正因為以上這些原因,大規模真實場景 RGB-D 數據集在開源社區中至今仍屬稀缺資源。

300 萬對 RGB-D:一次量級躍遷

螞蟻靈波一口氣開源 300 萬對 RGB-D 樣本,在當前開源社區中,這已是規模最大的真實場景 RGB-D 數據集之一。

整個數據集并不是簡單的數據堆疊,而是圍繞真實世界深度感知任務,做了一次結構化設計,由四個子集構成:

RobbyReal:1,400,000 對多設備采集的真實室內場景數據,構成了數據集的核心主體。

這部分數據覆蓋了 Orbbec 335、335L,RealSense D405、D415、D435、D455 共 6 款市場主流深度相機。這些設備在測距范圍、噪聲模式、邊緣表現以及對不同材質的響應上存在顯著差異。這一設計的意義在于:將跨設備差異提前引入訓練分布。

傳統數據集往往綁定單一設備,模型在該設備上表現良好,但一旦遷移到其他硬件環境,性能會明顯下降。而 LingBot-Depth-Dataset 通過多設備數據,讓模型在訓練階段就接觸到不同傳感器特性,從而提升跨設備泛化能力。

對于需要實際部署在機器人、AR 設備或工業系統中的模型來說,這一點直接決定了其工程可用性。



RobbyReal數據集示例

RobbyVla:580,960 對數據,來自機器人在視覺 - 語言 - 動作(VLA)操作任務執行過程中的實際采集。

傳統深度數據集的采集邏輯是人拿著相機掃場景,視角自然、連續,物體在中遠距離。而機器人操作任務的視角截然不同:拍攝目標物體時距離往往只有 20-50cm,物體邊緣的深度精度決定抓取成敗;桌面操作場景的光照復雜,金屬、玻璃、透明塑料等材質的深度測量本身就是難點。

這些特性讓 RobbyVla 數據具備了現有數據集無法替代的價值:它是在真實具身任務約束下采集的深度數據,場景分布與機器人學習任務高度對齊。對于想要訓練空間感知能力服務于操作任務的研究者而言,這批數據可以直接減少分布外泛化的損耗。



RobbyVla數據集示例

RobbySim: 999,264 對仿真渲染數據,基于雙相機視角生成。

單相機渲染容易引入系統性的視角偏差,雙相機設置在生成過程中引入了視差約束,生成的深度圖在幾何一致性上更可靠。



RobbySim數據集示例

RobbySimVal驗證集(38,976 對)則提供了標準化的仿真場景評估基準,便于研究者在不消耗真實數據的前提下快速評估模型在仿真域的表現。



RobbySimVal 驗證集示例

除了數量龐大,螞蟻靈波在數據集質量上同樣設定了極高標準。從原始采集到真值構建,LingBot-Depth-Dataset 并未簡單依賴傳感器輸出,而是對深度數據進行了系統化處理與校正。

每條樣本包含一張 RGB 圖像、傳感器原始深度圖以及真值深度圖

通過提供原始觀測 + 真值的完整對照信號,模型不僅可以學習深度預測,還可以學習如何從噪聲數據中恢復真實結構。

同時,數據在標注過程中遵循統一規范,對精度和一致性進行了嚴格控制,避免了由于標簽噪聲帶來的訓練偏差。這一點在深度學習中尤為關鍵,錯誤的深度標簽,往往比沒有標簽更具破壞性。

也正是在這樣的數量和質量保障下,LingBot-Depth-Dataset 的價值不再只是可用的數據集,而開始具備更基礎性的意義。

過去幾年,行業的關注點更多集中在模型上,更大的參數規模、更復雜的架構、更強的推理能力。但一個越來越清晰的共識是,模型能力的上限,正在越來越多地由數據所決定。尤其是在 AI 從語言走向物理世界的過程中,數據的重要性被放大:世界模型需要可交互的環境數據,機器人依賴長尾且真實的場景分布,多模態系統則必須對齊來自不同感知通道的信號。在這樣的背景下,大規模、高質量、結構化的數據集,正在成為新的競爭核心。

而 LingBot-Depth-Dataset 的出現,本質上推動的是一件更底層的轉變,讓深度感知,從一個依賴理想條件的實驗室問題,逐步走向可落地、可復用的工程問題。

深度估計、補全這個方向,長期處于一種尷尬的狀態:下游需求(機器人、AR、自動駕駛)增長快,但基礎數據資源的開放程度遠不及視覺識別、NLP 等方向。NYUv2 在十多年后仍是標準評測集,某種程度上是因為沒有更好的替代品出現,而非它本身足夠好。

就像 ImageNet 重塑了視覺,模擬環境推動了自動駕駛。對于具身智能而言,高質量的空間感知數據,可能正是那個尚未被充分填補的缺口,而 LingBot-Depth-Dataset 很有可能成為深度估計 / 深度補全領域的新一代 benchmark 基礎。

開源或許不會立刻帶來性能爆炸。但它正在改變一件更底層的事情:我們終于開始擁有,足夠接近真實世界的深度數據。

螞蟻靈波在這層基礎設施上的開源投入,對整個領域而言,每一個不需要從頭采集數據的研究團隊,可以把精力放在更高層的問題上。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
死了這條心!人民日報表態:中國不會救菲律賓,馬科斯投機到頭了

死了這條心!人民日報表態:中國不會救菲律賓,馬科斯投機到頭了

風干迷茫人
2026-04-24 16:01:23
大齡剩女可以破防到什么程度?發朋友圈且通知媒人,還向家人告狀

大齡剩女可以破防到什么程度?發朋友圈且通知媒人,還向家人告狀

丫頭舫
2026-04-24 20:40:08
第一集就全裸出鏡,女神新劇太生猛了

第一集就全裸出鏡,女神新劇太生猛了

來看美劇
2026-04-24 22:03:11
男子網上訂酒店因“長時間瀏覽頁面不下單”,被列為異常后限制使用,客服稱解除限制需要一個月,無法人工解除,平臺回應:被“風控”

男子網上訂酒店因“長時間瀏覽頁面不下單”,被列為異常后限制使用,客服稱解除限制需要一個月,無法人工解除,平臺回應:被“風控”

北青網-北京青年報
2026-04-24 11:16:04
才播了三期,就說他倆一定會離?

才播了三期,就說他倆一定會離?

橘子娛樂
2026-04-24 21:14:22
中央紀委國家監委公開通報八起違反中央八項規定精神典型問題

中央紀委國家監委公開通報八起違反中央八項規定精神典型問題

新華社
2026-04-24 17:05:33
美官方確認:“一塊英偉達芯片也沒賣出去,中國想搞自己的”!網友:當初是你不愿賣,不賣就不賣

美官方確認:“一塊英偉達芯片也沒賣出去,中國想搞自己的”!網友:當初是你不愿賣,不賣就不賣

大白聊IT
2026-04-23 15:40:40
閉關2個月!39歲丁俊暉讓趙心童狂點贊:2人都428分 全場觀眾致敬

閉關2個月!39歲丁俊暉讓趙心童狂點贊:2人都428分 全場觀眾致敬

風過鄉
2026-04-25 06:25:15
觀察|團結還是分裂?新舊秩序交疊下的伊朗政權謎題

觀察|團結還是分裂?新舊秩序交疊下的伊朗政權謎題

澎湃新聞
2026-04-25 07:16:34
中國第四艘核動力航母官宣:舷號19,命名江蘇號

中國第四艘核動力航母官宣:舷號19,命名江蘇號

透視到底
2026-04-25 04:20:20
女司機與保安“和好”?畫面低俗,回應來了

女司機與保安“和好”?畫面低俗,回應來了

都市快報橙柿互動
2026-04-24 18:14:22
經濟觀察報:中國羽協主席、兩屆奧運冠軍張軍失聯十余日

經濟觀察報:中國羽協主席、兩屆奧運冠軍張軍失聯十余日

懂球帝
2026-04-25 00:06:57
特朗普用關稅搜刮的錢填補軍費!是對伊戰爭吃虧了還是唯恐落后中俄?

特朗普用關稅搜刮的錢填補軍費!是對伊戰爭吃虧了還是唯恐落后中俄?

網易新聞出品
2026-04-24 10:23:05
觸碰紅線,華晨宇撫仙湖演唱會被立刻叫停,原因被扒,令人唏噓

觸碰紅線,華晨宇撫仙湖演唱會被立刻叫停,原因被扒,令人唏噓

許三歲
2026-04-24 22:36:22
播放量破5億,孫楊和張豆豆這一吵,讓芒果這檔新綜藝徹底封神了

播放量破5億,孫楊和張豆豆這一吵,讓芒果這檔新綜藝徹底封神了

糊咖娛樂
2026-04-24 11:47:38
亞冠官宣擴軍至32隊!中超獲2席+國安海港出戰 沙特日本或5隊參賽

亞冠官宣擴軍至32隊!中超獲2席+國安海港出戰 沙特日本或5隊參賽

我愛英超
2026-04-24 22:28:23
提前起飛10分鐘,大學生把海航告了

提前起飛10分鐘,大學生把海航告了

中國新聞周刊
2026-04-24 18:21:10
布達諾夫撂出狠話:我們將很快讓俄國人大吃一驚!

布達諾夫撂出狠話:我們將很快讓俄國人大吃一驚!

史政先鋒
2026-04-24 11:28:28
美正考慮暫停西班牙北約成員國資格

美正考慮暫停西班牙北約成員國資格

財聯社
2026-04-24 22:52:23
“14歲少年手搓渦輪噴氣發動機”翻車  網友:哪家少爺?

“14歲少年手搓渦輪噴氣發動機”翻車 網友:哪家少爺?

可達鴨面面觀
2026-04-24 15:36:05
2026-04-25 07:52:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12852文章數 142635關注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

兩屆奧運冠軍、中國羽協主席張軍"失聯" 知情人士發聲

頭條要聞

兩屆奧運冠軍、中國羽協主席張軍"失聯" 知情人士發聲

體育要聞

上海男籃23連勝+主場全勝 姚明之后最強一季

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經要聞

LG財閥內斗:百億美元商業帝國爭奪戰

汽車要聞

零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

態度原創

游戲
教育
親子
數碼
公開課

Steam新一代手柄要來了!突發上架或暗示快要開賣

教育要聞

教室火鍋”被人民日報點贊,卻被家長瘋狂舉報

親子要聞

小獅子也只是個大寶寶呀,看到小朋友的車車滿眼羨慕

數碼要聞

宏碁掠奪者戰斧9 / 10 Neo游戲本上架:搭載滿功耗RTX 5060

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版