![]()
真實(shí)世界需要 200 多個(gè)小時(shí)的模型評(píng)測(cè)任務(wù),可以在仿真中不到 0.5 小時(shí)內(nèi)完成。
作者|Li Yuan
編輯|鄭玄
上次端出了驚艷的西紅柿炒雞蛋 demo 后,Genesis AI 今天又發(fā)布了新東西。
在上次極客公園的報(bào)道中(,Genesis AI CEO 周銜曾提到,圍繞「仿真平臺(tái)自動(dòng)化、規(guī)模化生成任務(wù)」,公司已經(jīng)有了更進(jìn)一步的思考,后續(xù)可能會(huì)公布。現(xiàn)在,這個(gè)答案中重要的一部分來了。
5 月 28 日,Genesis AI 發(fā)布 Genesis World 1.0,并開源了三套核心項(xiàng)目:Genesis World 物理仿真平臺(tái)、Quadrants 跨平臺(tái) GPU 編譯器,以及 Nyx 寫實(shí)渲染器。按照 Genesis AI 的說法,這是一套為機(jī)器人和 Physical AI 準(zhǔn)備的全棧仿真基礎(chǔ)設(shè)施,底層編譯器、渲染器和物理引擎都由團(tuán)隊(duì)自研。
看視頻展示,Genesis World 1.0 下的仿真世界,非常像真實(shí)世界,尤其是那些過去很難模擬的柔性物體的形變、復(fù)雜碰撞和機(jī)器人的靈巧操作。
Genesis AI 還展示了和真實(shí)場(chǎng)景 1:1 速率并排對(duì)比的機(jī)器人操作,兩者十分接近。
Genesis World 1.0 首先要解決的,不是立刻生成更多訓(xùn)練數(shù)據(jù),而是讓機(jī)器人模型評(píng)測(cè)變得更快、更可重復(fù),而且仍然開源。
對(duì)機(jī)器人基礎(chǔ)模型來說,真實(shí)世界一直是最慢、最貴、也最難規(guī)模化的評(píng)測(cè)環(huán)境。一個(gè)模型 checkpoint、一套數(shù)據(jù)配方、一次控制策略改動(dòng),最終都要回到真實(shí)硬件上驗(yàn)證。但真實(shí)機(jī)器人只能以 1 倍速運(yùn)行,測(cè)試還會(huì)受到硬件數(shù)量、場(chǎng)地、人工、磨損、校準(zhǔn)誤差和安全風(fēng)險(xiǎn)限制。
Genesis AI 想解決的,正是這個(gè)瓶頸。
在官方博客里,Genesis AI 給了一個(gè)很直接的對(duì)比:一次覆蓋數(shù)百個(gè)任務(wù)、每個(gè)任務(wù)重復(fù)數(shù)百次的模型評(píng)測(cè),如果放在真實(shí)世界里,需要一臺(tái)機(jī)器人和一名操作員連續(xù)運(yùn)行 200 多個(gè)小時(shí);而在仿真中,數(shù)萬次 episode 可以在不到 0.5 小時(shí)內(nèi)完成。團(tuán)隊(duì)還稱,其仿真評(píng)測(cè)結(jié)果和真實(shí)硬件 rollout 的相關(guān)性達(dá)到 89%。
這些數(shù)字仍然來自 Genesis AI 官方披露,尚非獨(dú)立驗(yàn)證,但它們指向了一個(gè)清晰的方向:Genesis World 1.0 想證明,仿真能夠成為一個(gè)幫助機(jī)器人 scaling 的方式——靠先成為一個(gè)足夠接近真實(shí)世界、能夠反復(fù)測(cè)量機(jī)器人模型的試驗(yàn)場(chǎng)。
01
機(jī)器人的仿真試驗(yàn)場(chǎng)
Genesis World 1.0 最直觀的變化,是把很多機(jī)器人真正頭疼的物理細(xì)節(jié)放進(jìn)了同一個(gè)仿真世界里。
其中最容易被普通人感知的是視覺真實(shí)感。
這件事對(duì)機(jī)器人很重要。機(jī)器人模型最終看到的不是理想世界,而是攝像頭里的世界。光照、鏡頭畸變、模糊、反射、材質(zhì)差異,都會(huì)影響模型在真實(shí)環(huán)境里的判斷。
更難的是接觸和變形。
Genesis World 1.0 展示了一個(gè)完全由接觸物理驅(qū)動(dòng)的 yoyo 系統(tǒng)。yoyo 看起來像玩具,但對(duì)仿真來說并不簡單:它涉及繩子、旋轉(zhuǎn)、纏繞、張力變化和持續(xù)接觸。類似的還有垃圾袋、折紙和顛勺。
顛勺 demo 里,鍋里同時(shí)多種物體。它們的形態(tài)、接觸和運(yùn)動(dòng)方式都不一樣,也處理的很好。
除此之外,這次的 demo 中,一個(gè)比較大的進(jìn)步是對(duì)于靈巧操作的仿真。
Genesis World 1.0 展示的不是單一機(jī)械臂或單一夾爪任務(wù),而是把不同形態(tài)的末端執(zhí)行器放進(jìn)同一套仿真框架里:既有 Wuji/Sharpa 這樣的五指靈巧手,也有更傳統(tǒng)的夾爪。它們面對(duì)的也不是標(biāo)準(zhǔn)化的剛體抓取,而是垃圾袋、紙張、繩子、鍋里的食材這類接觸狀態(tài)不斷變化的對(duì)象。
比如垃圾袋 demo 里,機(jī)器人要用雙手把袋口撐開,再把它套進(jìn)垃圾桶。這個(gè)動(dòng)作對(duì)人來說很普通,但對(duì)機(jī)器人仿真來說很難:袋口會(huì)塌陷,薄膜會(huì)折疊,手指和袋子之間不斷發(fā)生滑動(dòng)、拉扯和重新接觸。
仔細(xì)看,它還不像真正的塑料袋,更接近布料的柔軟皺褶,但這本身已經(jīng)說明系統(tǒng)可以處理復(fù)雜薄殼、大變形接觸,以及多指手和軟物體之間的連續(xù)交互。
折紙 demo 則展示了 elastoplastic thin shell manipulation,機(jī)器人要讓紙張發(fā)生折疊、彎曲和保形,這比剛體抓取難得多。
Genesis 還不只是模擬畫面和物理運(yùn)動(dòng),也在模擬機(jī)器人本體和傳感器。
在 Unitree 機(jī)器人 demo 里,畫面右側(cè)甚至顯示了關(guān)節(jié)溫度。也就是說,仿真并不只關(guān)心機(jī)器人有沒有走起來,還試圖把 IMU、關(guān)節(jié)溫度這類更接近真實(shí)硬件狀態(tài)的信號(hào)放進(jìn)去。另一組 demo 展示了 lidar 和觸覺傳感器模擬:機(jī)器人抱起紙箱時(shí),畫面同時(shí)給出點(diǎn)云和手掌觸覺讀數(shù)。
這些細(xì)節(jié)讓 Genesis World 1.0 的目標(biāo)變得更清楚:它不是只想做一個(gè)能看視頻的虛擬世界,而是想模擬機(jī)器人真正會(huì)用到的世界,包括相機(jī)、觸覺、雷達(dá)、關(guān)節(jié)狀態(tài),以及不同任務(wù)里不斷變化的接觸關(guān)系。
Genesis 還放了一個(gè) domain randomization 的測(cè)試。同一個(gè)任務(wù)可以在不同物體、材質(zhì)、桌面、光照和場(chǎng)景布局中反復(fù)變化。對(duì)機(jī)器人模型來說,這才是仿真的意義:不是在一個(gè)完美場(chǎng)景里跑通一次,而是在大量相似但不相同的世界里反復(fù)失敗、測(cè)量和修正。
02
仿真不只是造數(shù)據(jù),先要能驗(yàn)?zāi)P?/strong>
Genesis AI 這條技術(shù)線索,最早并不是從機(jī)器人 demo 開始,而是從一個(gè)博士期間的開源仿真項(xiàng)目開始。
2024 年 12 月,在創(chuàng)立 Genesis AI 之前,周銜和合作者發(fā)布了開源仿真項(xiàng)目 Genesis。它采用 Apache-2.0 協(xié)議,被定義為面向通用機(jī)器人和具身 AI 學(xué)習(xí)的仿真平臺(tái),底層統(tǒng)一多種物理求解器,上層則試圖通過生成式框架自動(dòng)生成場(chǎng)景、任務(wù)和機(jī)器人數(shù)據(jù)。
它當(dāng)時(shí)最吸引人的想象,是「一句話生成物理世界」:用生成式框架調(diào)用物理引擎,自動(dòng)生成場(chǎng)景、任務(wù)、動(dòng)作、獎(jiǎng)勵(lì)函數(shù)和多模態(tài)數(shù)據(jù)。
這個(gè)想法很直接,也很誘人。
機(jī)器人缺數(shù)據(jù),尤其缺真實(shí)物理交互中的高質(zhì)量數(shù)據(jù)。一個(gè)人倒水、切菜、系線、撐開垃圾袋,里面包含大量隱含的接觸、摩擦、力反饋和材料變化。僅靠真實(shí)機(jī)器人一點(diǎn)點(diǎn)采集,不僅慢,也很難覆蓋足夠多的任務(wù)、物體和環(huán)境變化。如果仿真平臺(tái)足夠真實(shí),再讓上層生成式系統(tǒng)自動(dòng)提出任務(wù)、生成場(chǎng)景、設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)、訓(xùn)練策略,它就有可能變成一個(gè)機(jī)器人數(shù)據(jù)工廠。
這也是周銜曾經(jīng)的最初設(shè)想:用 LLM 驅(qū)動(dòng)物理引擎,為機(jī)器人創(chuàng)造數(shù)據(jù)。一個(gè)強(qiáng)物理引擎作為工具,上層生成式框架通過和物理引擎交互,自動(dòng)化生成各種模態(tài)的數(shù)據(jù)。這個(gè)想法后來驅(qū)動(dòng)了 Genesis 很長一段時(shí)間的開發(fā)。
但到了 Genesis World 1.0,Genesis AI 對(duì)仿真的表述變得更克制,也更工程化了。
在這次技術(shù)博客中,Genesis AI 明確寫道,他們現(xiàn)在把 simulation 看作機(jī)器人基礎(chǔ)模型的「evaluation and iteration engine」,而不只是 data generator。原因也很現(xiàn)實(shí):如果一個(gè)模型用仿真數(shù)據(jù)訓(xùn)練,又在同一個(gè)仿真分布里評(píng)測(cè),效果變好可能只是更適應(yīng) simulator,而不一定真的更適應(yīng)真實(shí)世界。
所以 Genesis AI 選擇先做一件更基礎(chǔ)的事:驗(yàn)證仿真評(píng)測(cè)和真實(shí)硬件 rollout 是否相關(guān)。
按照他們的說法,這一階段的目標(biāo),是在不依賴仿真數(shù)據(jù)做預(yù)訓(xùn)練的前提下,建立 simulation 和 real world 之間的強(qiáng)相關(guān)。也就是說,模型主要從真實(shí)世界數(shù)據(jù)中學(xué)習(xí),再被放進(jìn)仿真環(huán)境里做閉環(huán)評(píng)測(cè)。如果仿真里的表現(xiàn)排序和真實(shí)硬件上的表現(xiàn)排序一致,仿真才有資格成為模型迭代的工具。
Genesis AI 在博客里特別強(qiáng)調(diào)了 closed-loop evaluation,也就是閉環(huán)評(píng)測(cè)。
過去很多機(jī)器人模型會(huì)報(bào)告固定數(shù)據(jù)集上的動(dòng)作預(yù)測(cè)誤差,比如 R-squared 或 MAE。它們當(dāng)然有用,可以發(fā)現(xiàn)模型輸出是否異常,也可以作為訓(xùn)練過程中的 sanity check。但 Genesis AI 認(rèn)為,一旦幾個(gè)模型在這些開環(huán)指標(biāo)上進(jìn)入一個(gè)比較接近的區(qū)間,它們就很難再區(qū)分真實(shí)世界里的表現(xiàn)差異。
原因很簡單:機(jī)器人模型不是在答題卡上考動(dòng)作預(yù)測(cè),而是在物理世界里連續(xù)犯錯(cuò)。
一次輕微的視覺誤判、一次抓取偏移、一次接觸不穩(wěn),都可能在后續(xù)動(dòng)作里被放大。模型真正需要被測(cè)量的,不只是某一幀預(yù)測(cè)得對(duì)不對(duì),而是在環(huán)境持續(xù)變化時(shí),它能不能感知、行動(dòng)、糾錯(cuò),最后把任務(wù)完成。也因此,Genesis AI 才把仿真評(píng)測(cè)做成 closed-loop:讓模型在仿真環(huán)境里實(shí)際執(zhí)行任務(wù),而不是只在靜態(tài)數(shù)據(jù)集上預(yù)測(cè)動(dòng)作。
Genesis AI 在博客里披露,他們?cè)?14 個(gè)任務(wù)上評(píng)估了 Small、Medium、Large 三個(gè)不同規(guī)模和架構(gòu)的模型,每個(gè)任務(wù)在真實(shí)世界和仿真中各跑 200 個(gè) episode,再用 100 萬次 bootstrap 估計(jì)置信區(qū)間。最終,仿真評(píng)測(cè)和真實(shí)硬件 rollout 的 Pearson correlation 達(dá)到 0.8996,MMRV 為 0.0166。
這也是 Genesis 從 2024 年到 2026 年敘事上的變化:從「生成一個(gè)物理世界」,走向「先讓這個(gè)物理世界足夠可信」。
03
開源一套機(jī)器人世界的底層工具
Genesis World 1.0 是整個(gè)開源的,把三層工具一起放了出來:物理引擎、渲染器和編譯器。
第一層是 Genesis World 本身,負(fù)責(zé)模擬機(jī)器人真正會(huì)遇到的物理世界:剛體、可變形物體、布料、顆粒、流體、薄殼,以及不同機(jī)器人本體和末端執(zhí)行器之間的復(fù)雜接觸。對(duì)機(jī)器人來說,這一層決定了「世界會(huì)不會(huì)按真實(shí)方式回應(yīng)動(dòng)作」。
第二層是 Nyx。它負(fù)責(zé)讓機(jī)器人看到的世界更接近真實(shí)相機(jī)。Genesis AI 在技術(shù)博客里說,游戲引擎優(yōu)化的是視覺吸引力,離線渲染器追求物理準(zhǔn)確但太慢;機(jī)器人需要的是另一種渲染器:能大規(guī)模生成接近真實(shí)攝像頭的圖像,并且足夠快地支撐評(píng)測(cè)。換句話說,Nyx 的意義不是做出最討好人眼的畫面,而是盡量接近機(jī)器眼睛。
第三層是 Quadrants。它看起來最不性感,但很能說明 Genesis 為什么要做全棧。
機(jī)器人仿真不是只跑在一種機(jī)器上:工程師可能在 MacBook 上調(diào)試,大規(guī)模評(píng)測(cè)跑在 GPU 集群里,部分控制和驗(yàn)證未來還可能跑在機(jī)器人板端。Quadrants 支持 CUDA、ROCm、Apple Metal、Vulkan,以及 x86/ARM64 CPU,目標(biāo)是讓同一套 Python kernel 能在不同硬件后端運(yùn)行。它的意義不是「又一個(gè)編譯器」,而是讓仿真棧盡量不被單一硬件鎖死。
這三層合在一起,才構(gòu)成 Genesis World 1.0 想要做的東西:一個(gè)既能模擬物理、又能模擬視覺、還能大規(guī)模運(yùn)行的機(jī)器人世界。
也只有在這三層都成立之后,自動(dòng)生成任務(wù)才有意義。
在技術(shù)博客后半部分,團(tuán)隊(duì)提到了一條 programmatic pipeline:自動(dòng)生成 simulation environment,包括 scene layout、asset selection、environment code 和 success metrics。換句話說,未來的仿真系統(tǒng)不只是被動(dòng)接收人類寫好的任務(wù),而是可以自己擴(kuò)展任務(wù)空間、生成評(píng)測(cè)場(chǎng)景,并定義什么叫完成任務(wù)。
這也把 Genesis World 1.0 從一個(gè)開源工具,推向了一個(gè)更大的目標(biāo)。
他們?cè)诮Y(jié)尾提出的方向是 self-evolving physical AI:內(nèi)循環(huán)發(fā)生在仿真里,agent 生成環(huán)境,模型執(zhí)行任務(wù),仿真系統(tǒng)評(píng)分,策略繼續(xù)改進(jìn);外循環(huán)發(fā)生在真實(shí)世界里,真實(shí)部署暴露 edge cases,再反過來校準(zhǔn) simulator 和任務(wù)分布。
它解釋了為什么 Genesis AI 要把仿真、渲染和編譯器一起做出來,又一起開源。它想做的不是讓機(jī)器人少跑幾次真機(jī)測(cè)試,而是讓機(jī)器人研發(fā)從人手設(shè)計(jì)任務(wù)、人手調(diào)參、人手排隊(duì)上真機(jī),逐漸變成一個(gè)能自我產(chǎn)生問題、驗(yàn)證答案、再回到現(xiàn)實(shí)中修正自己的系統(tǒng)。
如果這條路走通,仿真就不再只是現(xiàn)實(shí)世界的替身。它會(huì)變成機(jī)器人學(xué)習(xí)現(xiàn)實(shí)世界的一種方式。
*頭圖來源:Genesis AI
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO
極客一問
你如何看待 Genesis AI ?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.