網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

讓機(jī)器人學(xué)會(huì)番茄炒蛋爆紅網(wǎng)絡(luò)的 Genesis AI，開源了自己的機(jī)器人「訓(xùn)練場(chǎng)」

2026-05-28 19:06:30　來源: 極客公園

北京舉報(bào)

分享至

真實(shí)世界需要 200 多個(gè)小時(shí)的模型評(píng)測(cè)任務(wù)，可以在仿真中不到 0.5 小時(shí)內(nèi)完成。

作者｜Li Yuan

編輯｜鄭玄

上次端出了驚艷的西紅柿炒雞蛋 demo 后，Genesis AI 今天又發(fā)布了新東西。

在上次極客公園的報(bào)道中（，Genesis AI CEO 周銜曾提到，圍繞「仿真平臺(tái)自動(dòng)化、規(guī)模化生成任務(wù)」，公司已經(jīng)有了更進(jìn)一步的思考，后續(xù)可能會(huì)公布。現(xiàn)在，這個(gè)答案中重要的一部分來了。

5 月 28 日，Genesis AI 發(fā)布 Genesis World 1.0，并開源了三套核心項(xiàng)目：Genesis World 物理仿真平臺(tái)、Quadrants 跨平臺(tái) GPU 編譯器，以及 Nyx 寫實(shí)渲染器。按照 Genesis AI 的說法，這是一套為機(jī)器人和 Physical AI 準(zhǔn)備的全棧仿真基礎(chǔ)設(shè)施，底層編譯器、渲染器和物理引擎都由團(tuán)隊(duì)自研。

看視頻展示，Genesis World 1.0 下的仿真世界，非常像真實(shí)世界，尤其是那些過去很難模擬的柔性物體的形變、復(fù)雜碰撞和機(jī)器人的靈巧操作。

Genesis AI 還展示了和真實(shí)場(chǎng)景 1:1 速率并排對(duì)比的機(jī)器人操作，兩者十分接近。

Genesis World 1.0 首先要解決的，不是立刻生成更多訓(xùn)練數(shù)據(jù)，而是讓機(jī)器人模型評(píng)測(cè)變得更快、更可重復(fù)，而且仍然開源。

對(duì)機(jī)器人基礎(chǔ)模型來說，真實(shí)世界一直是最慢、最貴、也最難規(guī)模化的評(píng)測(cè)環(huán)境。一個(gè)模型 checkpoint、一套數(shù)據(jù)配方、一次控制策略改動(dòng)，最終都要回到真實(shí)硬件上驗(yàn)證。但真實(shí)機(jī)器人只能以 1 倍速運(yùn)行，測(cè)試還會(huì)受到硬件數(shù)量、場(chǎng)地、人工、磨損、校準(zhǔn)誤差和安全風(fēng)險(xiǎn)限制。

Genesis AI 想解決的，正是這個(gè)瓶頸。

在官方博客里，Genesis AI 給了一個(gè)很直接的對(duì)比：一次覆蓋數(shù)百個(gè)任務(wù)、每個(gè)任務(wù)重復(fù)數(shù)百次的模型評(píng)測(cè)，如果放在真實(shí)世界里，需要一臺(tái)機(jī)器人和一名操作員連續(xù)運(yùn)行 200 多個(gè)小時(shí)；而在仿真中，數(shù)萬次 episode 可以在不到 0.5 小時(shí)內(nèi)完成。團(tuán)隊(duì)還稱，其仿真評(píng)測(cè)結(jié)果和真實(shí)硬件 rollout 的相關(guān)性達(dá)到 89%。

這些數(shù)字仍然來自 Genesis AI 官方披露，尚非獨(dú)立驗(yàn)證，但它們指向了一個(gè)清晰的方向：Genesis World 1.0 想證明，仿真能夠成為一個(gè)幫助機(jī)器人 scaling 的方式——靠先成為一個(gè)足夠接近真實(shí)世界、能夠反復(fù)測(cè)量機(jī)器人模型的試驗(yàn)場(chǎng)。

機(jī)器人的仿真試驗(yàn)場(chǎng)

Genesis World 1.0 最直觀的變化，是把很多機(jī)器人真正頭疼的物理細(xì)節(jié)放進(jìn)了同一個(gè)仿真世界里。

其中最容易被普通人感知的是視覺真實(shí)感。

這件事對(duì)機(jī)器人很重要。機(jī)器人模型最終看到的不是理想世界，而是攝像頭里的世界。光照、鏡頭畸變、模糊、反射、材質(zhì)差異，都會(huì)影響模型在真實(shí)環(huán)境里的判斷。

更難的是接觸和變形。

Genesis World 1.0 展示了一個(gè)完全由接觸物理驅(qū)動(dòng)的 yoyo 系統(tǒng)。yoyo 看起來像玩具，但對(duì)仿真來說并不簡單：它涉及繩子、旋轉(zhuǎn)、纏繞、張力變化和持續(xù)接觸。類似的還有垃圾袋、折紙和顛勺。

顛勺 demo 里，鍋里同時(shí)多種物體。它們的形態(tài)、接觸和運(yùn)動(dòng)方式都不一樣，也處理的很好。

除此之外，這次的 demo 中，一個(gè)比較大的進(jìn)步是對(duì)于靈巧操作的仿真。

Genesis World 1.0 展示的不是單一機(jī)械臂或單一夾爪任務(wù)，而是把不同形態(tài)的末端執(zhí)行器放進(jìn)同一套仿真框架里：既有 Wuji/Sharpa 這樣的五指靈巧手，也有更傳統(tǒng)的夾爪。它們面對(duì)的也不是標(biāo)準(zhǔn)化的剛體抓取，而是垃圾袋、紙張、繩子、鍋里的食材這類接觸狀態(tài)不斷變化的對(duì)象。

比如垃圾袋 demo 里，機(jī)器人要用雙手把袋口撐開，再把它套進(jìn)垃圾桶。這個(gè)動(dòng)作對(duì)人來說很普通，但對(duì)機(jī)器人仿真來說很難：袋口會(huì)塌陷，薄膜會(huì)折疊，手指和袋子之間不斷發(fā)生滑動(dòng)、拉扯和重新接觸。

仔細(xì)看，它還不像真正的塑料袋，更接近布料的柔軟皺褶，但這本身已經(jīng)說明系統(tǒng)可以處理復(fù)雜薄殼、大變形接觸，以及多指手和軟物體之間的連續(xù)交互。

折紙 demo 則展示了 elastoplastic thin shell manipulation，機(jī)器人要讓紙張發(fā)生折疊、彎曲和保形，這比剛體抓取難得多。

Genesis 還不只是模擬畫面和物理運(yùn)動(dòng)，也在模擬機(jī)器人本體和傳感器。

在 Unitree 機(jī)器人 demo 里，畫面右側(cè)甚至顯示了關(guān)節(jié)溫度。也就是說，仿真并不只關(guān)心機(jī)器人有沒有走起來，還試圖把 IMU、關(guān)節(jié)溫度這類更接近真實(shí)硬件狀態(tài)的信號(hào)放進(jìn)去。另一組 demo 展示了 lidar 和觸覺傳感器模擬：機(jī)器人抱起紙箱時(shí)，畫面同時(shí)給出點(diǎn)云和手掌觸覺讀數(shù)。

這些細(xì)節(jié)讓 Genesis World 1.0 的目標(biāo)變得更清楚：它不是只想做一個(gè)能看視頻的虛擬世界，而是想模擬機(jī)器人真正會(huì)用到的世界，包括相機(jī)、觸覺、雷達(dá)、關(guān)節(jié)狀態(tài)，以及不同任務(wù)里不斷變化的接觸關(guān)系。

Genesis 還放了一個(gè) domain randomization 的測(cè)試。同一個(gè)任務(wù)可以在不同物體、材質(zhì)、桌面、光照和場(chǎng)景布局中反復(fù)變化。對(duì)機(jī)器人模型來說，這才是仿真的意義：不是在一個(gè)完美場(chǎng)景里跑通一次，而是在大量相似但不相同的世界里反復(fù)失敗、測(cè)量和修正。

仿真不只是造數(shù)據(jù)，先要能驗(yàn)?zāi)Ｐ?/strong>

Genesis AI 這條技術(shù)線索，最早并不是從機(jī)器人 demo 開始，而是從一個(gè)博士期間的開源仿真項(xiàng)目開始。

2024 年 12 月，在創(chuàng)立 Genesis AI 之前，周銜和合作者發(fā)布了開源仿真項(xiàng)目 Genesis。它采用 Apache-2.0 協(xié)議，被定義為面向通用機(jī)器人和具身 AI 學(xué)習(xí)的仿真平臺(tái)，底層統(tǒng)一多種物理求解器，上層則試圖通過生成式框架自動(dòng)生成場(chǎng)景、任務(wù)和機(jī)器人數(shù)據(jù)。

它當(dāng)時(shí)最吸引人的想象，是「一句話生成物理世界」：用生成式框架調(diào)用物理引擎，自動(dòng)生成場(chǎng)景、任務(wù)、動(dòng)作、獎(jiǎng)勵(lì)函數(shù)和多模態(tài)數(shù)據(jù)。

這個(gè)想法很直接，也很誘人。

機(jī)器人缺數(shù)據(jù)，尤其缺真實(shí)物理交互中的高質(zhì)量數(shù)據(jù)。一個(gè)人倒水、切菜、系線、撐開垃圾袋，里面包含大量隱含的接觸、摩擦、力反饋和材料變化。僅靠真實(shí)機(jī)器人一點(diǎn)點(diǎn)采集，不僅慢，也很難覆蓋足夠多的任務(wù)、物體和環(huán)境變化。如果仿真平臺(tái)足夠真實(shí)，再讓上層生成式系統(tǒng)自動(dòng)提出任務(wù)、生成場(chǎng)景、設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)、訓(xùn)練策略，它就有可能變成一個(gè)機(jī)器人數(shù)據(jù)工廠。

這也是周銜曾經(jīng)的最初設(shè)想：用 LLM 驅(qū)動(dòng)物理引擎，為機(jī)器人創(chuàng)造數(shù)據(jù)。一個(gè)強(qiáng)物理引擎作為工具，上層生成式框架通過和物理引擎交互，自動(dòng)化生成各種模態(tài)的數(shù)據(jù)。這個(gè)想法后來驅(qū)動(dòng)了 Genesis 很長一段時(shí)間的開發(fā)。

但到了 Genesis World 1.0，Genesis AI 對(duì)仿真的表述變得更克制，也更工程化了。

在這次技術(shù)博客中，Genesis AI 明確寫道，他們現(xiàn)在把 simulation 看作機(jī)器人基礎(chǔ)模型的「evaluation and iteration engine」，而不只是 data generator。原因也很現(xiàn)實(shí)：如果一個(gè)模型用仿真數(shù)據(jù)訓(xùn)練，又在同一個(gè)仿真分布里評(píng)測(cè)，效果變好可能只是更適應(yīng) simulator，而不一定真的更適應(yīng)真實(shí)世界。

所以 Genesis AI 選擇先做一件更基礎(chǔ)的事：驗(yàn)證仿真評(píng)測(cè)和真實(shí)硬件 rollout 是否相關(guān)。

按照他們的說法，這一階段的目標(biāo)，是在不依賴仿真數(shù)據(jù)做預(yù)訓(xùn)練的前提下，建立 simulation 和 real world 之間的強(qiáng)相關(guān)。也就是說，模型主要從真實(shí)世界數(shù)據(jù)中學(xué)習(xí)，再被放進(jìn)仿真環(huán)境里做閉環(huán)評(píng)測(cè)。如果仿真里的表現(xiàn)排序和真實(shí)硬件上的表現(xiàn)排序一致，仿真才有資格成為模型迭代的工具。

Genesis AI 在博客里特別強(qiáng)調(diào)了 closed-loop evaluation，也就是閉環(huán)評(píng)測(cè)。

過去很多機(jī)器人模型會(huì)報(bào)告固定數(shù)據(jù)集上的動(dòng)作預(yù)測(cè)誤差，比如 R-squared 或 MAE。它們當(dāng)然有用，可以發(fā)現(xiàn)模型輸出是否異常，也可以作為訓(xùn)練過程中的 sanity check。但 Genesis AI 認(rèn)為，一旦幾個(gè)模型在這些開環(huán)指標(biāo)上進(jìn)入一個(gè)比較接近的區(qū)間，它們就很難再區(qū)分真實(shí)世界里的表現(xiàn)差異。

原因很簡單：機(jī)器人模型不是在答題卡上考動(dòng)作預(yù)測(cè)，而是在物理世界里連續(xù)犯錯(cuò)。

一次輕微的視覺誤判、一次抓取偏移、一次接觸不穩(wěn)，都可能在后續(xù)動(dòng)作里被放大。模型真正需要被測(cè)量的，不只是某一幀預(yù)測(cè)得對(duì)不對(duì)，而是在環(huán)境持續(xù)變化時(shí)，它能不能感知、行動(dòng)、糾錯(cuò)，最后把任務(wù)完成。也因此，Genesis AI 才把仿真評(píng)測(cè)做成 closed-loop：讓模型在仿真環(huán)境里實(shí)際執(zhí)行任務(wù)，而不是只在靜態(tài)數(shù)據(jù)集上預(yù)測(cè)動(dòng)作。

Genesis AI 在博客里披露，他們?cè)?14 個(gè)任務(wù)上評(píng)估了 Small、Medium、Large 三個(gè)不同規(guī)模和架構(gòu)的模型，每個(gè)任務(wù)在真實(shí)世界和仿真中各跑 200 個(gè) episode，再用 100 萬次 bootstrap 估計(jì)置信區(qū)間。最終，仿真評(píng)測(cè)和真實(shí)硬件 rollout 的 Pearson correlation 達(dá)到 0.8996，MMRV 為 0.0166。

這也是 Genesis 從 2024 年到 2026 年敘事上的變化：從「生成一個(gè)物理世界」，走向「先讓這個(gè)物理世界足夠可信」。

開源一套機(jī)器人世界的底層工具

Genesis World 1.0 是整個(gè)開源的，把三層工具一起放了出來：物理引擎、渲染器和編譯器。

第一層是 Genesis World 本身，負(fù)責(zé)模擬機(jī)器人真正會(huì)遇到的物理世界：剛體、可變形物體、布料、顆粒、流體、薄殼，以及不同機(jī)器人本體和末端執(zhí)行器之間的復(fù)雜接觸。對(duì)機(jī)器人來說，這一層決定了「世界會(huì)不會(huì)按真實(shí)方式回應(yīng)動(dòng)作」。

第二層是 Nyx。它負(fù)責(zé)讓機(jī)器人看到的世界更接近真實(shí)相機(jī)。Genesis AI 在技術(shù)博客里說，游戲引擎優(yōu)化的是視覺吸引力，離線渲染器追求物理準(zhǔn)確但太慢；機(jī)器人需要的是另一種渲染器：能大規(guī)模生成接近真實(shí)攝像頭的圖像，并且足夠快地支撐評(píng)測(cè)。換句話說，Nyx 的意義不是做出最討好人眼的畫面，而是盡量接近機(jī)器眼睛。

第三層是 Quadrants。它看起來最不性感，但很能說明 Genesis 為什么要做全棧。

機(jī)器人仿真不是只跑在一種機(jī)器上：工程師可能在 MacBook 上調(diào)試，大規(guī)模評(píng)測(cè)跑在 GPU 集群里，部分控制和驗(yàn)證未來還可能跑在機(jī)器人板端。Quadrants 支持 CUDA、ROCm、Apple Metal、Vulkan，以及 x86/ARM64 CPU，目標(biāo)是讓同一套 Python kernel 能在不同硬件后端運(yùn)行。它的意義不是「又一個(gè)編譯器」，而是讓仿真棧盡量不被單一硬件鎖死。

這三層合在一起，才構(gòu)成 Genesis World 1.0 想要做的東西：一個(gè)既能模擬物理、又能模擬視覺、還能大規(guī)模運(yùn)行的機(jī)器人世界。

也只有在這三層都成立之后，自動(dòng)生成任務(wù)才有意義。

在技術(shù)博客后半部分，團(tuán)隊(duì)提到了一條 programmatic pipeline：自動(dòng)生成 simulation environment，包括 scene layout、asset selection、environment code 和 success metrics。換句話說，未來的仿真系統(tǒng)不只是被動(dòng)接收人類寫好的任務(wù)，而是可以自己擴(kuò)展任務(wù)空間、生成評(píng)測(cè)場(chǎng)景，并定義什么叫完成任務(wù)。

這也把 Genesis World 1.0 從一個(gè)開源工具，推向了一個(gè)更大的目標(biāo)。

他們?cè)诮Y(jié)尾提出的方向是 self-evolving physical AI：內(nèi)循環(huán)發(fā)生在仿真里，agent 生成環(huán)境，模型執(zhí)行任務(wù)，仿真系統(tǒng)評(píng)分，策略繼續(xù)改進(jìn)；外循環(huán)發(fā)生在真實(shí)世界里，真實(shí)部署暴露 edge cases，再反過來校準(zhǔn) simulator 和任務(wù)分布。

它解釋了為什么 Genesis AI 要把仿真、渲染和編譯器一起做出來，又一起開源。它想做的不是讓機(jī)器人少跑幾次真機(jī)測(cè)試，而是讓機(jī)器人研發(fā)從人手設(shè)計(jì)任務(wù)、人手調(diào)參、人手排隊(duì)上真機(jī)，逐漸變成一個(gè)能自我產(chǎn)生問題、驗(yàn)證答案、再回到現(xiàn)實(shí)中修正自己的系統(tǒng)。

如果這條路走通，仿真就不再只是現(xiàn)實(shí)世界的替身。它會(huì)變成機(jī)器人學(xué)習(xí)現(xiàn)實(shí)世界的一種方式。

*頭圖來源：Genesis AI

本文為極客公園原創(chuàng)文章，轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO

極客一問

你如何看待 Genesis AI ？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.