3 月 31 日,螞蟻靈波科技正式開源大規(guī)模 RGB-D 深度數(shù)據(jù)集 LingBot-Depth-Dataset。該數(shù)據(jù)集包含 300 萬對高質(zhì)量樣本,其中 200 萬對來自真實場景采集、100 萬對由渲染生成,總規(guī)模達 2.71TB,覆蓋 6 款主流深度相機,是目前開源社區(qū)中規(guī)模最大的真實場景 RGB-D 數(shù)據(jù)集。此次開源將為具身智能、空間感知和三維視覺等方向提供更豐富、更貼近真實應(yīng)用的數(shù)據(jù)支撐。
![]()
(圖說:LingBot-Depth-Dataset 數(shù)據(jù)樣例。從上到下依次為 RGB 圖像、傳感器原始深度圖和真值深度圖。該數(shù)據(jù)集同時提供原始深度與真值深度信息,為相關(guān)模型在真實場景中的訓(xùn)練和評估提供有力支撐。)
長期以來,公開深度數(shù)據(jù)集普遍存在規(guī)模有限、真實場景覆蓋不足、硬件設(shè)備單一等問題,不少數(shù)據(jù)以合成為主,與真實傳感器在噪聲、空洞和材質(zhì)表現(xiàn)上存在較大差異,在很大程度上制約了相關(guān)模型在真實環(huán)境中的應(yīng)用。
LingBot-Depth-Dataset 有效填補了空間感知領(lǐng)域的數(shù)據(jù)空白,特別是提供了大規(guī)模基于真實場景拍攝的數(shù)據(jù)。這套數(shù)據(jù)集每條樣本均包含 RGB 圖像、傳感器原始深度圖和真值深度圖,可直接用于深度估計與深度補全任務(wù)的訓(xùn)練和評估。數(shù)據(jù)集覆蓋 Orbbec 335、335L 以及 Intel RealSense D405、D415、D435、D455 共 6 款主流深度相機,有助于提升模型在不同設(shè)備和場景下的訓(xùn)練、適配與評估。
據(jù)介紹,螞蟻靈波此前開源的高精度空間感知模型 LingBot-Depth,正是以該數(shù)據(jù)集作為核心訓(xùn)練數(shù)據(jù)。相比業(yè)界主流方法 PromptDA 與 PriorDA,LingBot-Depth 在室內(nèi)場景中的深度預(yù)測誤差降低超過 70%,在稀疏深度補全等任務(wù)中的誤差降低約 47%。市售深度相機搭載該模型后,無需硬件升級,即可在透明玻璃、反光鏡面、逆光等復(fù)雜場景下輸出更完整、更平滑、邊緣更清晰的深度圖,且在部分場景中的表現(xiàn)超過業(yè)界頂級工業(yè)級深度相機。
對于高校、科研機構(gòu)而言,這次開源不僅有助于降低數(shù)據(jù)采集與標(biāo)注門檻,也有望加速相關(guān)技術(shù)從研究驗證走向真實應(yīng)用。隨著機器人和具身智能加快進入實際場景,大規(guī)模、高質(zhì)量、以真實采集為主體的空間感知數(shù)據(jù)集,無疑將成為行業(yè)持續(xù)進步的重要基礎(chǔ)設(shè)施。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.