網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

X-Era Lab王可澤：在500萬(wàn)次真實(shí)交互中，攀登物理AGI那座高峰

2026-06-23 10:38:24　來(lái)源: 36氪

江蘇舉報(bào)

分享至

解決非常底層、

非常硬核問(wèn)題的時(shí)代來(lái)了。

文｜張果

2022年的一個(gè)普通午后，在無(wú)數(shù)人尚未覺(jué)察的角落，世界動(dòng)作模型第一次悄然睜開(kāi)了它的眼睛。

它第一次“看到”的，不是實(shí)驗(yàn)室里擦拭干凈的理想場(chǎng)景，而是一個(gè)真實(shí)的、動(dòng)態(tài)的無(wú)人貨柜：玻璃門(mén)被推開(kāi)合上，手在貨架間進(jìn)進(jìn)出出，瓶罐被抓起、挪動(dòng)、放回，偶爾磕碰出一連串細(xì)微的形變和晃動(dòng)。

對(duì)它來(lái)說(shuō)，真正要學(xué)會(huì)的不是“認(rèn)出一瓶飲料叫雪碧”，而是從這些擁擠而嘈雜的細(xì)節(jié)里，理解這里面隱含的物理變化和規(guī)律——什么在動(dòng)、為什么動(dòng)、下一步可能會(huì)發(fā)生什么。

那一刻，對(duì)正盯著屏幕數(shù)據(jù)的X-Era Lab（拓元智慧）首席科學(xué)家王可澤來(lái)說(shuō)是一個(gè)很明確的轉(zhuǎn)折點(diǎn)。這不是靜態(tài)圖片，也不是擺拍的數(shù)字標(biāo)本，而是真實(shí)世界正在震顫的、帶著因果鏈條的物理演化。這一次，他們清晰地意識(shí)到，解決非常底層、非常硬核問(wèn)題的時(shí)代，已經(jīng)醒來(lái)了。

X-Era Lab從創(chuàng)業(yè)之初，就選擇了一條少有人走的路徑——做物理AGI的世界動(dòng)作模型。簡(jiǎn)單來(lái)說(shuō)，這是一個(gè)物理基座模型，在給定動(dòng)作前提和預(yù)測(cè)環(huán)境之后，能預(yù)測(cè)后面一系列的物理過(guò)程、動(dòng)作以及各種反饋的通用模型。在X-Era Lab發(fā)布世界動(dòng)作模型基模訓(xùn)練范式半年后，英偉達(dá)發(fā)布了思路高度同源的DreamZero。

做世界模型在當(dāng)下也已經(jīng)是共識(shí)，沒(méi)形成共識(shí)的是，到底要用怎樣的數(shù)據(jù)去訓(xùn)練模型？X-Era Lab的答案是：它們一定來(lái)自于真實(shí)世界，哪怕這些數(shù)據(jù)顯得不干凈、不標(biāo)準(zhǔn)、充滿噪音和長(zhǎng)尾事件。

這種堅(jiān)持，讓它的世界動(dòng)作模型成為當(dāng)下少有的、可在真實(shí)場(chǎng)景中落地，并且實(shí)現(xiàn)遷移和泛化的物理模型。據(jù)36氪了解，X-Era Lab的模型已落地零售、工業(yè)等各個(gè)場(chǎng)景，準(zhǔn)備賦能千行百業(yè)、不同形態(tài)的機(jī)器人。

當(dāng)下，具身智能行業(yè)已經(jīng)走入深水區(qū)，越來(lái)越多的人意識(shí)到，大腦成為制約具身智能實(shí)現(xiàn)通用的關(guān)鍵卡點(diǎn)。和語(yǔ)言大模型不同，具身數(shù)據(jù)必須靠主動(dòng)采集和設(shè)計(jì)場(chǎng)景獲得，每一家公司都要找到自己的數(shù)據(jù)訓(xùn)練范式。

在這之中，有公司偏好擬真、有公司選擇人力數(shù)采工廠，而X-Era Lab選擇到生活中去，做“實(shí)現(xiàn)物理AGI的世界動(dòng)作模型”。這條道路沒(méi)有捷徑，也更加漫長(zhǎng)，但只有從這一個(gè)個(gè)細(xì)碎而真實(shí)的場(chǎng)景中，才能長(zhǎng)出真正意義上的物理AGI。

當(dāng)下細(xì)分賽道的機(jī)器人正在放量，就算搭載大腦的機(jī)器人只有千臺(tái)，收入也能邁向數(shù)億規(guī)模。當(dāng)所有人在質(zhì)疑世界模型落地遙不可及時(shí)，已經(jīng)在海浪中搏擊的玩家正在給出答案。

正在接受訪談的王可澤博士

具身智能的喧囂里，X-Era Lab是少數(shù)把三個(gè)閉環(huán)都跑通的公司：模型閉環(huán)，讓世界動(dòng)作模型在感知—預(yù)測(cè)—控制上自成一體；數(shù)據(jù)閉環(huán)，讓真實(shí)業(yè)務(wù)每天把4D數(shù)據(jù)回流進(jìn)模型；商業(yè)閉環(huán)，讓算法直接變成收入，再反哺迭代。三環(huán)咬合成一只飛輪——而這只飛輪上，它同時(shí)坐著兩個(gè)“最”：世界模型算法收入最高，4D真實(shí)數(shù)據(jù)采集量最豐富。

以下是36氪和王可澤對(duì)談，對(duì)話經(jīng)過(guò)編輯：

通用物理基座模型，

到底是什么樣的？

36氪：世界模型現(xiàn)在路線比較混亂，X-Era Lab是怎么梳理這件事的？你們又是怎么定義的？

王可澤：我們一開(kāi)始是嘗試想清楚：在具身智能領(lǐng)域，最終的通用智能底座，它的終點(diǎn)是什么。發(fā)現(xiàn)現(xiàn)在底座的演進(jìn)，變成了在大模型上不停地加外掛去適配各種場(chǎng)景。到了具身智能也是加外掛，但我個(gè)人感覺(jué)這不是真正的終局，它是以傳統(tǒng)大模型為外衣套上一個(gè)殼子，很多時(shí)候停留在論文指標(biāo)和仿真環(huán)境里，離工業(yè)界很遠(yuǎn)。

所以我們當(dāng)時(shí)覺(jué)得，應(yīng)該專門(mén)打造一個(gè)真正以世界動(dòng)作模型為內(nèi)核的東西：從視覺(jué)、語(yǔ)言等多樣的模態(tài)，到后面動(dòng)作、物理的作用和狀態(tài)的演化——從預(yù)測(cè)下一個(gè)Token，變成真的去預(yù)測(cè)下一個(gè)狀態(tài)。

36氪：具體來(lái)說(shuō)，你們的模型是如何運(yùn)作的？

王可澤：我們把整個(gè)技術(shù)路線都轉(zhuǎn)向世界動(dòng)作模型，所有設(shè)計(jì)都從原生角度出發(fā)：在給定動(dòng)作前提和預(yù)測(cè)環(huán)境之后，去預(yù)測(cè)后面一系列的物理過(guò)程、動(dòng)作以及各種反饋。

這幾年，我們隨著應(yīng)用邊界讓技術(shù)不停往前走：從最開(kāi)始很單一的室內(nèi)零售和移動(dòng)抓取場(chǎng)景，到后面多形態(tài)的機(jī)器人、多種復(fù)雜環(huán)境，以及更強(qiáng)的泛化和可遷移性。

36氪：所以你們是怎么做這件事的？

王可澤：我們不是一個(gè)從開(kāi)始就在講世界模型故事的團(tuán)隊(duì)，而是在各種真實(shí)場(chǎng)景里反復(fù)打磨，構(gòu)建我們的世界動(dòng)作模型。隨著輿論風(fēng)口轉(zhuǎn)變，我們內(nèi)部也越來(lái)越確認(rèn)：經(jīng)過(guò)了壓力還能長(zhǎng)期堅(jiān)持做出來(lái)的東西，才是真正的具身智能底座模型。

36氪：那你們到底怎么看待VLA？

王可澤：我們發(fā)現(xiàn)VLA有明顯的局限性，VLA是一個(gè)重要的階段性路線，適合快速驗(yàn)證和任務(wù)適配，但我們認(rèn)為它不是物理AGI的終局。去年我印象很深，幾乎全行業(yè)都在講VLA，尤其是做機(jī)器人本體的、融資路演的。

對(duì)我們來(lái)說(shuō)，不是看不見(jiàn)這個(gè)趨勢(shì)，而是我們認(rèn)為VLA不是終局——你可以把它包裝成一個(gè)有“世界”味道的系統(tǒng)，但并沒(méi)有真正解決我們的問(wèn)題。我們可能有一點(diǎn)技術(shù)潔癖，別人順的是輿論的風(fēng)，我們順的是技術(shù)的風(fēng)——看著我們?cè)谀骘L(fēng)，其實(shí)風(fēng)一直在我們這邊。

36氪：你們?yōu)槭裁茨苋绱撕V定，自己走在正確的道路上？

王可澤：在這種噪音下，堅(jiān)定選擇一條難而正確的技術(shù)路線尤其難，因?yàn)楹芏鄨F(tuán)隊(duì)需要融資，估值到了一定階段，需要不斷給出新的亮點(diǎn)、新的成果、新的Milestone。在物理AGI這個(gè)賽道，模型的整體框架決定了上限，而數(shù)據(jù)和工程決定了你能走多快、多遠(yuǎn)。框架沒(méi)選對(duì)，再多demo和花活也很難持續(xù)堆上去。所以我們認(rèn)為我們的春天來(lái)了：解決非常底層、非常硬核問(wèn)題的時(shí)代來(lái)了。

Demo是蓋給別人看的外立面，而架構(gòu)是埋在地下的地基；沒(méi)人會(huì)為地基鼓掌，可一棟樓能立多高，全看它埋得有多深。

36氪：在做物理通用底座模型之中，最難的是哪一步？

王可澤：卡得最久的還是策略這部分，也就是在真實(shí)的三維空間里學(xué)習(xí)交互策略，把物理、幾何和動(dòng)作做聯(lián)合建模。讓模型腦子里一開(kāi)始就是真正物理幾何的思維去看、去操作、去規(guī)劃，這天然就難。所以我們卡點(diǎn)比較多，要不停試探，尤其要解決模型訓(xùn)練不收斂的問(wèn)題。這倒不是學(xué)術(shù)理論的問(wèn)題，而是真實(shí)訓(xùn)練過(guò)程中的問(wèn)題。

在千卡級(jí)GPU集群上，我們完成了世界動(dòng)作模型的通用預(yù)訓(xùn)練。以海量真實(shí)世界的4D時(shí)空點(diǎn)云為載體，3D點(diǎn)云、時(shí)間演化、交互軌跡三者合一，模型從幾何、語(yǔ)義、姿態(tài)、動(dòng)態(tài)四個(gè)維度，提取出通用的世界狀態(tài)表征，并由此習(xí)得物理世界的運(yùn)行規(guī)律。千卡集群帶來(lái)的，不只是更大的數(shù)據(jù)吞吐，更是讓模型在統(tǒng)一的4D+X表征中，把“看見(jiàn)世界”與“理解物理”真正合為一體——用最新的算力，去教機(jī)器一件最古老的事：世界是怎么運(yùn)轉(zhuǎn)的。

36氪：在你看來(lái)，目前你們團(tuán)隊(duì)做過(guò)的工作里，哪些算是比較有代表性、對(duì)行業(yè)認(rèn)知帶來(lái)一些改變的？

王可澤：我們最近做的，其實(shí)不是某一個(gè)孤立的工作，而是一條比較完整的技術(shù)線：圍繞原生世界動(dòng)作模型，去更好地預(yù)測(cè)“下一秒物理世界會(huì)怎樣”。

在這條線上，你會(huì)看到我們反復(fù)在做同一件事：用統(tǒng)一的物理幾何Backbone來(lái)同時(shí)承載“世界狀態(tài)”和“機(jī)器人動(dòng)作”，盡量避免預(yù)訓(xùn)練目標(biāo)和控制目標(biāo)之間的錯(cuò)位。為什么要這么做？可以類比語(yǔ)言模型：對(duì)語(yǔ)言模型來(lái)說(shuō)，預(yù)訓(xùn)練目標(biāo)和使用目標(biāo)高度一致——訓(xùn)練時(shí)預(yù)測(cè)下一個(gè)token，使用時(shí)也是生成token，所以只要持續(xù)把數(shù)據(jù)、模型、算力做大，語(yǔ)言能力就會(huì)比較穩(wěn)定地往上走。

而在具身智能里，如果預(yù)訓(xùn)練階段主要在做圖像到語(yǔ)言、視頻到視頻，而控制階段卻要輸出動(dòng)作軌跡，中間其實(shí)是斷了一層。我們的判斷是：這層斷檔必須在預(yù)訓(xùn)練這一級(jí)“重新對(duì)齊”，所以我們?cè)O(shè)計(jì)了一系列原生世界動(dòng)作模型的工作，讓模型從一開(kāi)始就學(xué)4D軌跡和物理后果，而不是事后再貼一個(gè)action頭。

這條線里有不少具體成果，其中有一項(xiàng)近期拿到了2026 CVPR的獎(jiǎng)項(xiàng)，評(píng)審的理由一方面是計(jì)算過(guò)程足夠透明、可復(fù)現(xiàn)性強(qiáng)，另一方面也從側(cè)面印證了我們這套“原生世界動(dòng)作模型”的思路在真實(shí)物理場(chǎng)景中是跑通了的。

找到那個(gè)數(shù)據(jù)飛輪

36氪：現(xiàn)在很明顯的趨勢(shì)是大廠都在下場(chǎng)做世界模型。你們?cè)趺锤髲S競(jìng)爭(zhēng)？

王可澤：我們不太靠“堆人、堆算力”跟大廠硬拼，我們的優(yōu)勢(shì)主要有兩塊。

第一，是持續(xù)的架構(gòu)創(chuàng)新能力。具身智能是一條非常全棧、鏈路很長(zhǎng)的賽道，從預(yù)訓(xùn)練、中訓(xùn)練到后訓(xùn)練，每一環(huán)都要有人真正從第一性原理去思考“這個(gè)模塊應(yīng)該怎么設(shè)計(jì)”。我們這支團(tuán)隊(duì)本身就是科研味很重的團(tuán)隊(duì)：有做世界模型和4D表征的，有做有理函數(shù)網(wǎng)絡(luò)和物理因果的，也有深度參與后訓(xùn)練和軟硬協(xié)同的。我們的共識(shí)是——不要把現(xiàn)成的大模型往機(jī)器人身上“硬焊”，而是堅(jiān)持在模型架構(gòu)上做前沿探索，讓這個(gè)世界動(dòng)作模型一開(kāi)始就在設(shè)計(jì)層面適配物理世界。

第二，是讓模型在真實(shí)業(yè)務(wù)場(chǎng)景里反復(fù)迭代。我們的數(shù)據(jù)跟大廠采買(mǎi)的數(shù)據(jù)完全不同，我們是業(yè)務(wù)里真實(shí)回流的自然數(shù)據(jù)，所以我們的模型在真實(shí)世界的交互中成長(zhǎng)，而不是在實(shí)驗(yàn)室里閉門(mén)造車。我們內(nèi)部把我們的數(shù)據(jù)稱作“4D+X”。

更關(guān)鍵的是，這些數(shù)據(jù)和我們自己設(shè)計(jì)的世界動(dòng)作模型架構(gòu)是匹配的——數(shù)據(jù)來(lái)自真實(shí)世界的物理交互，我們的模型結(jié)構(gòu)本身也是圍繞真實(shí)物理世界的4D軌跡去建模的，兩者是對(duì)得上的。這樣一來(lái)，模型能力每迭代一輪，馬上就能在商業(yè)場(chǎng)景里體現(xiàn)出來(lái)；商業(yè)場(chǎng)景又會(huì)反過(guò)來(lái)源源不斷地喂給模型更豐富的長(zhǎng)尾數(shù)據(jù)，逐步強(qiáng)化底座能力，最后形成一個(gè)別人很難復(fù)制的數(shù)據(jù)–模型–業(yè)務(wù)的正反饋閉環(huán)。

36氪：4D+X數(shù)據(jù)是什么意思？具體來(lái)說(shuō)和普通數(shù)據(jù)的區(qū)別是什么？

王可澤：拆解一下，4D+X數(shù)據(jù)由兩部分構(gòu)成：4D時(shí)空數(shù)據(jù)加一系列數(shù)據(jù)。4D數(shù)據(jù)從哪來(lái)？我們?cè)谔剿魑锢鞟GI的過(guò)程中，最早把世界模型用到了零售場(chǎng)景，去理解空間信息和空間里人機(jī)交互的狀態(tài)。這里面4D又拆成3D加1D：3D是靜態(tài)空間里的點(diǎn)，1D是時(shí)序的變化，加了一個(gè)時(shí)間維度。這是空間幾何里的4D數(shù)據(jù)。但只有這些還不夠——我們要去工廠里打螺絲、要在物理世界里干活，所以又加了多種數(shù)據(jù)：一部分是接觸傳感器數(shù)據(jù)，比如觸覺(jué)、摩擦力這些傳感器數(shù)據(jù)；另一部分是語(yǔ)言標(biāo)注的文本。

“演”出來(lái)的仿真軌跡，喂不飽真正的大腦。物理模型必須去嘈雜的產(chǎn)線、去充滿噪音的現(xiàn)實(shí)中長(zhǎng)出肉身。

4D時(shí)空數(shù)據(jù)的表征示意圖

36氪：你們的數(shù)據(jù)如何形成正反饋哺育模型？

王可澤：我們每天都有真實(shí)業(yè)務(wù)的數(shù)據(jù)回流到整體的數(shù)據(jù)飛輪里。給一個(gè)量級(jí)的概念：我們的智能貨柜，每天會(huì)有幾萬(wàn)個(gè)小時(shí)的數(shù)據(jù)回流到數(shù)據(jù)管線里來(lái)。我們現(xiàn)在訓(xùn)練的數(shù)據(jù)規(guī)模也在朝百萬(wàn)小時(shí)的量級(jí)走。很多人也在講百萬(wàn)小時(shí)，但我們的百萬(wàn)小時(shí)里，都是在真實(shí)場(chǎng)景里采集的4D+X數(shù)據(jù)，這個(gè)差異非常大。

別人還在采數(shù)據(jù)，我們已經(jīng)在生產(chǎn)數(shù)據(jù)了。我們收集回來(lái)的這些數(shù)據(jù)有個(gè)名字，叫“人類的富交互數(shù)據(jù)”。我們?cè)谡鎸?shí)業(yè)務(wù)場(chǎng)景業(yè)務(wù)中已經(jīng)積累了數(shù)千萬(wàn)小時(shí)富人類交互的數(shù)據(jù)資產(chǎn)，其中用以預(yù)訓(xùn)練的數(shù)據(jù)達(dá)數(shù)百萬(wàn)。這些能夠很好地支撐我們提取前期需要的4D數(shù)據(jù)。

當(dāng)然，要實(shí)現(xiàn)AGI還需要補(bǔ)充大量不同場(chǎng)景的數(shù)據(jù)，所以我們也會(huì)補(bǔ)充一些互聯(lián)網(wǎng)的Human-centric數(shù)據(jù)和Ego數(shù)據(jù)。

36氪：當(dāng)有了足夠多的真實(shí)數(shù)據(jù)后，你們對(duì)世界模型的認(rèn)知是否有變化？

王可澤：有了真實(shí)數(shù)據(jù)，我們才能質(zhì)疑現(xiàn)有架構(gòu)：人操控物體的數(shù)據(jù)，模型為什么學(xué)不會(huì)？那明顯是架構(gòu)問(wèn)題。

真實(shí)業(yè)務(wù)系統(tǒng)跑起來(lái)后我們發(fā)現(xiàn)，每一次任務(wù)成功、失敗、人工接管、客戶反饋，都不是孤立事件，而是模型進(jìn)化的燃料。那一刻我們意識(shí)到，創(chuàng)業(yè)公司最大的壁壘可能不只是算法，而是能不能構(gòu)建一個(gè)持續(xù)產(chǎn)生高質(zhì)量真實(shí)世界數(shù)據(jù)的業(yè)務(wù)閉環(huán)。這也是我們今天說(shuō)“從真實(shí)世界中長(zhǎng)出來(lái)的物理世界模型”的原因。它不是實(shí)驗(yàn)室里封閉訓(xùn)練出來(lái)的模型，而是在真實(shí)空間、真實(shí)任務(wù)、真實(shí)反饋和真實(shí)商業(yè)價(jià)值中不斷生長(zhǎng)出來(lái)的模型。

你喂它干凈的樣本，它學(xué)會(huì)的是表演；你喂它真實(shí)的混亂，它學(xué)會(huì)的才是生存。

GPT時(shí)刻前夜，

首先找到落地場(chǎng)景

36氪：大家都在提“ChatGPT時(shí)刻”，你覺(jué)得我們到底走到哪一步了？

王可澤：具身智能一定要有自己的底座模型，這樣才能真正迎來(lái)下一個(gè)GPT時(shí)刻。此外，我們對(duì)技術(shù)本身有近乎樸素的信任。不是先去想怎么講一個(gè)更大的故事，而是先想這個(gè)問(wèn)題到底有沒(méi)有被真正解決；不是先迎合市場(chǎng)上最熱的路線，而是反復(fù)問(wèn)自己，哪一條路更接近物理世界的本質(zhì)。很多時(shí)候，這條路不會(huì)最熱鬧，也不會(huì)最容易被理解，但如果真實(shí)場(chǎng)景持續(xù)給我們反饋，我們就愿意沿著它繼續(xù)走下去。

從團(tuán)隊(duì)的總體共識(shí)來(lái)看，物理AGI現(xiàn)在到了“GPT-2.0到3.0”的階段。一年前看這件事覺(jué)得很早，但數(shù)據(jù)的爆發(fā)和模型的提升不是線性的增長(zhǎng)，是指數(shù)級(jí)的增長(zhǎng)，所以時(shí)間可能還會(huì)不斷提速。

36氪：在這個(gè)階段，其實(shí)亂象也很多，你自己觀察到的泡沫是什么樣的？

王可澤：首先是數(shù)據(jù)的角度，大量的數(shù)采中心遍布全國(guó)各地，但刻意的操作是不豐富、不多樣、也不真實(shí)的。而我們的數(shù)據(jù)配方里，機(jī)器本體數(shù)據(jù)的比例非常低，只有5%需要后訓(xùn)練。只要Few Shots就可以閉環(huán)。

其次，數(shù)據(jù)上去之后，更大的問(wèn)題是架構(gòu)不行。目前普遍的VLA架構(gòu)，泛化性明顯太差，圍繞它打再多補(bǔ)丁也于事無(wú)補(bǔ)，必須圍繞物理基座模型去做架構(gòu)。而我們底座模型足夠好，后續(xù)部署和適配能以非常低的成本完成，顯著優(yōu)于友商。

最后，從產(chǎn)業(yè)角度看，現(xiàn)在的Demo過(guò)于營(yíng)銷化。物理AGI機(jī)器人在物理世界能干的事，還遠(yuǎn)沒(méi)達(dá)到宣傳的程度。

36氪：現(xiàn)在你們的世界模型，主要落地在哪些真實(shí)行業(yè)場(chǎng)景里？

王可澤：真正的智能系統(tǒng)，如果要在現(xiàn)實(shí)世界里工作，就必須從這些復(fù)雜數(shù)據(jù)中學(xué)習(xí)，而不是只在理想環(huán)境里學(xué)習(xí)。這也是我們?yōu)槭裁磸?qiáng)調(diào)“從真實(shí)業(yè)務(wù)數(shù)據(jù)中長(zhǎng)出來(lái)”。

我們的模型已經(jīng)長(zhǎng)期部署在無(wú)人零售場(chǎng)景，每天承載和優(yōu)化的真實(shí)服務(wù)次數(shù)接近500萬(wàn)次，在“世界模型賦能零售”這個(gè)方向上已經(jīng)走到行業(yè)的絕對(duì)頭部。

同時(shí)，我們正在把這套世界動(dòng)作模型應(yīng)用到更多半結(jié)構(gòu)化的真實(shí)場(chǎng)景中，一端連接線下零售，另一端逐步延伸到工業(yè)場(chǎng)景，比如各類上下料、分揀搬運(yùn)、線束插拔等，用同一套世界動(dòng)作模型去打通。能夠真正把傳統(tǒng)行業(yè)拉出一個(gè)數(shù)量級(jí)差距的，不是“干凈的數(shù)據(jù)集模型考試”，而是模型在真實(shí)業(yè)務(wù)里的長(zhǎng)期實(shí)戰(zhàn)和迭代。

36氪：落地工業(yè)已經(jīng)是行業(yè)共識(shí)，你們是怎樣的策略？

王可澤：我們的策略是做“N+1”與尋找Sweet Spot：不重新定義生產(chǎn)環(huán)境，只解決末端需要具身智能處理的一小部分任務(wù)（如SKU、材質(zhì)、光線千變?nèi)f化導(dǎo)致傳統(tǒng)協(xié)作機(jī)器人無(wú)法勝任的上下料環(huán)節(jié)），再規(guī)模化復(fù)制。

由于模型上限與泛化能力仍有差距，所以我們工業(yè)切入選擇制造行業(yè)的Sweet Spot，避免不切實(shí)際的過(guò)度承諾。

36氪：在工業(yè)上，你們落地了哪些場(chǎng)景？

王可澤：我們已落地了分揀搬運(yùn)、上下料、線束插拔裝配等場(chǎng)景，今年團(tuán)隊(duì)很興奮：不光在技術(shù)上有了Aha Moment，我們?cè)谏虡I(yè)階段也實(shí)現(xiàn)了階段性的泛化，以兩三倍的速度成長(zhǎng)。經(jīng)歷了前期的探索和寒窗苦讀之后，我確定我們迎來(lái)了一個(gè)階段性的爆發(fā)。

服務(wù)產(chǎn)業(yè)POC的渲染圖

做物理AGI時(shí)代的機(jī)器人大腦

36氪：你認(rèn)為X-Era Lab區(qū)別于國(guó)內(nèi)外頂級(jí)具身團(tuán)隊(duì)的基因是什么？

王可澤：我們的基因是一支科學(xué)家團(tuán)隊(duì)，但也是一群既懂技術(shù)又能搞落地的團(tuán)隊(duì)。我們?cè)诖鬄硡^(qū)，不僅和歐美名校的頂尖科學(xué)家們一起搞研發(fā)，核心成員還都是從華為、商湯出來(lái)的，會(huì)去無(wú)限追求模型智能的涌現(xiàn)，以及架構(gòu)上的創(chuàng)新。但物理AGI跟數(shù)字AGI不太一樣，它還比較早期，很多環(huán)節(jié)都沒(méi)有收斂，所以我們要自己去做應(yīng)用和閉環(huán)。我們?cè)诓粩嘧非竽Ｐ蜕舷蕖⒆非笾悄苡楷F(xiàn)的過(guò)程中，還是要進(jìn)入場(chǎng)景，自己做端到端的解決方案和閉環(huán)，來(lái)做模型的后訓(xùn)練。

所以，我們培養(yǎng)年輕人，最重要的是讓他們盡早進(jìn)入真實(shí)問(wèn)題。我們希望他們能看到真實(shí)產(chǎn)業(yè)是怎么運(yùn)轉(zhuǎn)的：客戶為什么付費(fèi)、系統(tǒng)為什么失敗、數(shù)據(jù)為什么有價(jià)值、模型最終如何被業(yè)務(wù)指標(biāo)驗(yàn)證。我們創(chuàng)始人從很開(kāi)始就特別強(qiáng)調(diào)“一日為師，終身為友”，希望我們站在真理這一邊，而不是站在等級(jí)那一邊，這也是我們能堅(jiān)持到現(xiàn)在的原因。

這也是我們團(tuán)隊(duì)最大的特色：背后有很強(qiáng)研發(fā)與創(chuàng)新源泉、有天花板，但也足夠扎實(shí)、能落地、能“扎到泥土里”，“仰望星空，腳踏實(shí)地”。

物理AGI的終局，是一場(chǎng)數(shù)字智能對(duì)物質(zhì)世界的全面重構(gòu)。X-Era Lab正在用最硬核的底層框架，為千行百業(yè)的機(jī)器人編織一顆能讀懂物理因果的大腦。真正讓X-Era Lab站得更遠(yuǎn)的，從來(lái)不是某一款模型，而是它身后那座源源不斷的研發(fā)儲(chǔ)備——既扎在最底層的原理，深入最嘈雜的現(xiàn)實(shí)，又始終頂在最前沿的無(wú)人區(qū)，才是這家公司穿越周期的護(hù)城河。從無(wú)人貨柜的微觀碰撞，到產(chǎn)線上千變?nèi)f化的復(fù)雜POC場(chǎng)景，那些曾讓傳統(tǒng)自動(dòng)化折戟的難題，正被逐一解構(gòu)。未來(lái)，當(dāng)千萬(wàn)臺(tái)搭載著通用物理基座模型的機(jī)器人走向工廠、走向千家萬(wàn)戶，它們睜開(kāi)眼看到的將是整片星辰大海。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.