![]()
解決非常底層、
非常硬核問(wèn)題的時(shí)代來(lái)了。
文|張果
2022年的一個(gè)普通午后,在無(wú)數(shù)人尚未覺(jué)察的角落,世界動(dòng)作模型第一次悄然睜開(kāi)了它的眼睛。
它第一次“看到”的,不是實(shí)驗(yàn)室里擦拭干凈的理想場(chǎng)景,而是一個(gè)真實(shí)的、動(dòng)態(tài)的無(wú)人貨柜:玻璃門(mén)被推開(kāi)合上,手在貨架間進(jìn)進(jìn)出出,瓶罐被抓起、挪動(dòng)、放回,偶爾磕碰出一連串細(xì)微的形變和晃動(dòng)。
對(duì)它來(lái)說(shuō),真正要學(xué)會(huì)的不是“認(rèn)出一瓶飲料叫雪碧”,而是從這些擁擠而嘈雜的細(xì)節(jié)里,理解這里面隱含的物理變化和規(guī)律——什么在動(dòng)、為什么動(dòng)、下一步可能會(huì)發(fā)生什么。
那一刻,對(duì)正盯著屏幕數(shù)據(jù)的X-Era Lab(拓元智慧)首席科學(xué)家王可澤來(lái)說(shuō)是一個(gè)很明確的轉(zhuǎn)折點(diǎn)。這不是靜態(tài)圖片,也不是擺拍的數(shù)字標(biāo)本,而是真實(shí)世界正在震顫的、帶著因果鏈條的物理演化。這一次,他們清晰地意識(shí)到,解決非常底層、非常硬核問(wèn)題的時(shí)代,已經(jīng)醒來(lái)了。
X-Era Lab從創(chuàng)業(yè)之初,就選擇了一條少有人走的路徑——做物理AGI的世界動(dòng)作模型。簡(jiǎn)單來(lái)說(shuō),這是一個(gè)物理基座模型,在給定動(dòng)作前提和預(yù)測(cè)環(huán)境之后,能預(yù)測(cè)后面一系列的物理過(guò)程、動(dòng)作以及各種反饋的通用模型。在X-Era Lab發(fā)布世界動(dòng)作模型基模訓(xùn)練范式半年后,英偉達(dá)發(fā)布了思路高度同源的DreamZero。
做世界模型在當(dāng)下也已經(jīng)是共識(shí),沒(méi)形成共識(shí)的是,到底要用怎樣的數(shù)據(jù)去訓(xùn)練模型?X-Era Lab的答案是:它們一定來(lái)自于真實(shí)世界,哪怕這些數(shù)據(jù)顯得不干凈、不標(biāo)準(zhǔn)、充滿噪音和長(zhǎng)尾事件。
這種堅(jiān)持,讓它的世界動(dòng)作模型成為當(dāng)下少有的、可在真實(shí)場(chǎng)景中落地,并且實(shí)現(xiàn)遷移和泛化的物理模型。據(jù)36氪了解,X-Era Lab的模型已落地零售、工業(yè)等各個(gè)場(chǎng)景,準(zhǔn)備賦能千行百業(yè)、不同形態(tài)的機(jī)器人。
當(dāng)下,具身智能行業(yè)已經(jīng)走入深水區(qū),越來(lái)越多的人意識(shí)到,大腦成為制約具身智能實(shí)現(xiàn)通用的關(guān)鍵卡點(diǎn)。和語(yǔ)言大模型不同,具身數(shù)據(jù)必須靠主動(dòng)采集和設(shè)計(jì)場(chǎng)景獲得,每一家公司都要找到自己的數(shù)據(jù)訓(xùn)練范式。
在這之中,有公司偏好擬真、有公司選擇人力數(shù)采工廠,而X-Era Lab選擇到生活中去,做“實(shí)現(xiàn)物理AGI的世界動(dòng)作模型”。這條道路沒(méi)有捷徑,也更加漫長(zhǎng),但只有從這一個(gè)個(gè)細(xì)碎而真實(shí)的場(chǎng)景中,才能長(zhǎng)出真正意義上的物理AGI。
當(dāng)下細(xì)分賽道的機(jī)器人正在放量,就算搭載大腦的機(jī)器人只有千臺(tái),收入也能邁向數(shù)億規(guī)模。當(dāng)所有人在質(zhì)疑世界模型落地遙不可及時(shí),已經(jīng)在海浪中搏擊的玩家正在給出答案。
![]()
正在接受訪談的王可澤博士
具身智能的喧囂里,X-Era Lab是少數(shù)把三個(gè)閉環(huán)都跑通的公司:模型閉環(huán),讓世界動(dòng)作模型在感知—預(yù)測(cè)—控制上自成一體;數(shù)據(jù)閉環(huán),讓真實(shí)業(yè)務(wù)每天把4D數(shù)據(jù)回流進(jìn)模型;商業(yè)閉環(huán),讓算法直接變成收入,再反哺迭代。三環(huán)咬合成一只飛輪——而這只飛輪上,它同時(shí)坐著兩個(gè)“最”:世界模型算法收入最高,4D真實(shí)數(shù)據(jù)采集量最豐富。
以下是36氪和王可澤對(duì)談,對(duì)話經(jīng)過(guò)編輯:
通用物理基座模型,
到底是什么樣的?
36氪:世界模型現(xiàn)在路線比較混亂,X-Era Lab是怎么梳理這件事的?你們又是怎么定義的?
王可澤:我們一開(kāi)始是嘗試想清楚:在具身智能領(lǐng)域,最終的通用智能底座,它的終點(diǎn)是什么。發(fā)現(xiàn)現(xiàn)在底座的演進(jìn),變成了在大模型上不停地加外掛去適配各種場(chǎng)景。到了具身智能也是加外掛,但我個(gè)人感覺(jué)這不是真正的終局,它是以傳統(tǒng)大模型為外衣套上一個(gè)殼子,很多時(shí)候停留在論文指標(biāo)和仿真環(huán)境里,離工業(yè)界很遠(yuǎn)。
所以我們當(dāng)時(shí)覺(jué)得,應(yīng)該專門(mén)打造一個(gè)真正以世界動(dòng)作模型為內(nèi)核的東西:從視覺(jué)、語(yǔ)言等多樣的模態(tài),到后面動(dòng)作、物理的作用和狀態(tài)的演化——從預(yù)測(cè)下一個(gè)Token,變成真的去預(yù)測(cè)下一個(gè)狀態(tài)。
36氪:具體來(lái)說(shuō),你們的模型是如何運(yùn)作的?
王可澤:我們把整個(gè)技術(shù)路線都轉(zhuǎn)向世界動(dòng)作模型,所有設(shè)計(jì)都從原生角度出發(fā):在給定動(dòng)作前提和預(yù)測(cè)環(huán)境之后,去預(yù)測(cè)后面一系列的物理過(guò)程、動(dòng)作以及各種反饋。
這幾年,我們隨著應(yīng)用邊界讓技術(shù)不停往前走:從最開(kāi)始很單一的室內(nèi)零售和移動(dòng)抓取場(chǎng)景,到后面多形態(tài)的機(jī)器人、多種復(fù)雜環(huán)境,以及更強(qiáng)的泛化和可遷移性。
36氪:所以你們是怎么做這件事的?
王可澤:我們不是一個(gè)從開(kāi)始就在講世界模型故事的團(tuán)隊(duì),而是在各種真實(shí)場(chǎng)景里反復(fù)打磨,構(gòu)建我們的世界動(dòng)作模型。隨著輿論風(fēng)口轉(zhuǎn)變,我們內(nèi)部也越來(lái)越確認(rèn):經(jīng)過(guò)了壓力還能長(zhǎng)期堅(jiān)持做出來(lái)的東西,才是真正的具身智能底座模型。
36氪:那你們到底怎么看待VLA?
王可澤:我們發(fā)現(xiàn)VLA有明顯的局限性,VLA是一個(gè)重要的階段性路線,適合快速驗(yàn)證和任務(wù)適配,但我們認(rèn)為它不是物理AGI的終局。去年我印象很深,幾乎全行業(yè)都在講VLA,尤其是做機(jī)器人本體的、融資路演的。
對(duì)我們來(lái)說(shuō),不是看不見(jiàn)這個(gè)趨勢(shì),而是我們認(rèn)為VLA不是終局——你可以把它包裝成一個(gè)有“世界”味道的系統(tǒng),但并沒(méi)有真正解決我們的問(wèn)題。我們可能有一點(diǎn)技術(shù)潔癖,別人順的是輿論的風(fēng),我們順的是技術(shù)的風(fēng)——看著我們?cè)谀骘L(fēng),其實(shí)風(fēng)一直在我們這邊。
36氪:你們?yōu)槭裁茨苋绱撕V定,自己走在正確的道路上?
王可澤:在這種噪音下,堅(jiān)定選擇一條難而正確的技術(shù)路線尤其難,因?yàn)楹芏鄨F(tuán)隊(duì)需要融資,估值到了一定階段,需要不斷給出新的亮點(diǎn)、新的成果、新的Milestone。在物理AGI這個(gè)賽道,模型的整體框架決定了上限,而數(shù)據(jù)和工程決定了你能走多快、多遠(yuǎn)。框架沒(méi)選對(duì),再多demo和花活也很難持續(xù)堆上去。所以我們認(rèn)為我們的春天來(lái)了:解決非常底層、非常硬核問(wèn)題的時(shí)代來(lái)了。
Demo是蓋給別人看的外立面,而架構(gòu)是埋在地下的地基;沒(méi)人會(huì)為地基鼓掌,可一棟樓能立多高,全看它埋得有多深。
36氪:在做物理通用底座模型之中,最難的是哪一步?
王可澤:卡得最久的還是策略這部分,也就是在真實(shí)的三維空間里學(xué)習(xí)交互策略,把物理、幾何和動(dòng)作做聯(lián)合建模。讓模型腦子里一開(kāi)始就是真正物理幾何的思維去看、去操作、去規(guī)劃,這天然就難。所以我們卡點(diǎn)比較多,要不停試探,尤其要解決模型訓(xùn)練不收斂的問(wèn)題。這倒不是學(xué)術(shù)理論的問(wèn)題,而是真實(shí)訓(xùn)練過(guò)程中的問(wèn)題。
在千卡級(jí)GPU集群上,我們完成了世界動(dòng)作模型的通用預(yù)訓(xùn)練。以海量真實(shí)世界的4D時(shí)空點(diǎn)云為載體,3D點(diǎn)云、時(shí)間演化、交互軌跡三者合一,模型從幾何、語(yǔ)義、姿態(tài)、動(dòng)態(tài)四個(gè)維度,提取出通用的世界狀態(tài)表征,并由此習(xí)得物理世界的運(yùn)行規(guī)律。千卡集群帶來(lái)的,不只是更大的數(shù)據(jù)吞吐,更是讓模型在統(tǒng)一的4D+X表征中,把“看見(jiàn)世界”與“理解物理”真正合為一體——用最新的算力,去教機(jī)器一件最古老的事:世界是怎么運(yùn)轉(zhuǎn)的。
36氪:在你看來(lái),目前你們團(tuán)隊(duì)做過(guò)的工作里,哪些算是比較有代表性、對(duì)行業(yè)認(rèn)知帶來(lái)一些改變的?
王可澤:我們最近做的,其實(shí)不是某一個(gè)孤立的工作,而是一條比較完整的技術(shù)線:圍繞原生世界動(dòng)作模型,去更好地預(yù)測(cè)“下一秒物理世界會(huì)怎樣”。
在這條線上,你會(huì)看到我們反復(fù)在做同一件事:用統(tǒng)一的物理幾何Backbone來(lái)同時(shí)承載“世界狀態(tài)”和“機(jī)器人動(dòng)作”,盡量避免預(yù)訓(xùn)練目標(biāo)和控制目標(biāo)之間的錯(cuò)位。為什么要這么做?可以類比語(yǔ)言模型:對(duì)語(yǔ)言模型來(lái)說(shuō),預(yù)訓(xùn)練目標(biāo)和使用目標(biāo)高度一致——訓(xùn)練時(shí)預(yù)測(cè)下一個(gè)token,使用時(shí)也是生成token,所以只要持續(xù)把數(shù)據(jù)、模型、算力做大,語(yǔ)言能力就會(huì)比較穩(wěn)定地往上走。
而在具身智能里,如果預(yù)訓(xùn)練階段主要在做圖像到語(yǔ)言、視頻到視頻,而控制階段卻要輸出動(dòng)作軌跡,中間其實(shí)是斷了一層。我們的判斷是:這層斷檔必須在預(yù)訓(xùn)練這一級(jí)“重新對(duì)齊”,所以我們?cè)O(shè)計(jì)了一系列原生世界動(dòng)作模型的工作,讓模型從一開(kāi)始就學(xué)4D軌跡和物理后果,而不是事后再貼一個(gè)action頭。
這條線里有不少具體成果,其中有一項(xiàng)近期拿到了2026 CVPR的獎(jiǎng)項(xiàng),評(píng)審的理由一方面是計(jì)算過(guò)程足夠透明、可復(fù)現(xiàn)性強(qiáng),另一方面也從側(cè)面印證了我們這套“原生世界動(dòng)作模型”的思路在真實(shí)物理場(chǎng)景中是跑通了的。
找到那個(gè)數(shù)據(jù)飛輪
36氪:現(xiàn)在很明顯的趨勢(shì)是大廠都在下場(chǎng)做世界模型。你們?cè)趺锤髲S競(jìng)爭(zhēng)?
王可澤:我們不太靠“堆人、堆算力”跟大廠硬拼,我們的優(yōu)勢(shì)主要有兩塊。
第一,是持續(xù)的架構(gòu)創(chuàng)新能力。具身智能是一條非常全棧、鏈路很長(zhǎng)的賽道,從預(yù)訓(xùn)練、中訓(xùn)練到后訓(xùn)練,每一環(huán)都要有人真正從第一性原理去思考“這個(gè)模塊應(yīng)該怎么設(shè)計(jì)”。我們這支團(tuán)隊(duì)本身就是科研味很重的團(tuán)隊(duì):有做世界模型和4D表征的,有做有理函數(shù)網(wǎng)絡(luò)和物理因果的,也有深度參與后訓(xùn)練和軟硬協(xié)同的。我們的共識(shí)是——不要把現(xiàn)成的大模型往機(jī)器人身上“硬焊”,而是堅(jiān)持在模型架構(gòu)上做前沿探索,讓這個(gè)世界動(dòng)作模型一開(kāi)始就在設(shè)計(jì)層面適配物理世界。
第二,是讓模型在真實(shí)業(yè)務(wù)場(chǎng)景里反復(fù)迭代。我們的數(shù)據(jù)跟大廠采買(mǎi)的數(shù)據(jù)完全不同,我們是業(yè)務(wù)里真實(shí)回流的自然數(shù)據(jù),所以我們的模型在真實(shí)世界的交互中成長(zhǎng),而不是在實(shí)驗(yàn)室里閉門(mén)造車。我們內(nèi)部把我們的數(shù)據(jù)稱作“4D+X”。
更關(guān)鍵的是,這些數(shù)據(jù)和我們自己設(shè)計(jì)的世界動(dòng)作模型架構(gòu)是匹配的——數(shù)據(jù)來(lái)自真實(shí)世界的物理交互,我們的模型結(jié)構(gòu)本身也是圍繞真實(shí)物理世界的4D軌跡去建模的,兩者是對(duì)得上的。這樣一來(lái),模型能力每迭代一輪,馬上就能在商業(yè)場(chǎng)景里體現(xiàn)出來(lái);商業(yè)場(chǎng)景又會(huì)反過(guò)來(lái)源源不斷地喂給模型更豐富的長(zhǎng)尾數(shù)據(jù),逐步強(qiáng)化底座能力,最后形成一個(gè)別人很難復(fù)制的數(shù)據(jù)–模型–業(yè)務(wù)的正反饋閉環(huán)。
36氪:4D+X數(shù)據(jù)是什么意思?具體來(lái)說(shuō)和普通數(shù)據(jù)的區(qū)別是什么?
王可澤:拆解一下,4D+X數(shù)據(jù)由兩部分構(gòu)成:4D時(shí)空數(shù)據(jù)加一系列數(shù)據(jù)。4D數(shù)據(jù)從哪來(lái)?我們?cè)谔剿魑锢鞟GI的過(guò)程中,最早把世界模型用到了零售場(chǎng)景,去理解空間信息和空間里人機(jī)交互的狀態(tài)。這里面4D又拆成3D加1D:3D是靜態(tài)空間里的點(diǎn),1D是時(shí)序的變化,加了一個(gè)時(shí)間維度。這是空間幾何里的4D數(shù)據(jù)。但只有這些還不夠——我們要去工廠里打螺絲、要在物理世界里干活,所以又加了多種數(shù)據(jù):一部分是接觸傳感器數(shù)據(jù),比如觸覺(jué)、摩擦力這些傳感器數(shù)據(jù);另一部分是語(yǔ)言標(biāo)注的文本。
“演”出來(lái)的仿真軌跡,喂不飽真正的大腦。物理模型必須去嘈雜的產(chǎn)線、去充滿噪音的現(xiàn)實(shí)中長(zhǎng)出肉身。
![]()
4D時(shí)空數(shù)據(jù)的表征示意圖
36氪:你們的數(shù)據(jù)如何形成正反饋哺育模型?
王可澤:我們每天都有真實(shí)業(yè)務(wù)的數(shù)據(jù)回流到整體的數(shù)據(jù)飛輪里。給一個(gè)量級(jí)的概念:我們的智能貨柜,每天會(huì)有幾萬(wàn)個(gè)小時(shí)的數(shù)據(jù)回流到數(shù)據(jù)管線里來(lái)。我們現(xiàn)在訓(xùn)練的數(shù)據(jù)規(guī)模也在朝百萬(wàn)小時(shí)的量級(jí)走。很多人也在講百萬(wàn)小時(shí),但我們的百萬(wàn)小時(shí)里,都是在真實(shí)場(chǎng)景里采集的4D+X數(shù)據(jù),這個(gè)差異非常大。
別人還在采數(shù)據(jù),我們已經(jīng)在生產(chǎn)數(shù)據(jù)了。我們收集回來(lái)的這些數(shù)據(jù)有個(gè)名字,叫“人類的富交互數(shù)據(jù)”。我們?cè)谡鎸?shí)業(yè)務(wù)場(chǎng)景業(yè)務(wù)中已經(jīng)積累了數(shù)千萬(wàn)小時(shí)富人類交互的數(shù)據(jù)資產(chǎn),其中用以預(yù)訓(xùn)練的數(shù)據(jù)達(dá)數(shù)百萬(wàn)。這些能夠很好地支撐我們提取前期需要的4D數(shù)據(jù)。
當(dāng)然,要實(shí)現(xiàn)AGI還需要補(bǔ)充大量不同場(chǎng)景的數(shù)據(jù),所以我們也會(huì)補(bǔ)充一些互聯(lián)網(wǎng)的Human-centric數(shù)據(jù)和Ego數(shù)據(jù)。
36氪:當(dāng)有了足夠多的真實(shí)數(shù)據(jù)后,你們對(duì)世界模型的認(rèn)知是否有變化?
王可澤:有了真實(shí)數(shù)據(jù),我們才能質(zhì)疑現(xiàn)有架構(gòu):人操控物體的數(shù)據(jù),模型為什么學(xué)不會(huì)?那明顯是架構(gòu)問(wèn)題。
真實(shí)業(yè)務(wù)系統(tǒng)跑起來(lái)后我們發(fā)現(xiàn),每一次任務(wù)成功、失敗、人工接管、客戶反饋,都不是孤立事件,而是模型進(jìn)化的燃料。那一刻我們意識(shí)到,創(chuàng)業(yè)公司最大的壁壘可能不只是算法,而是能不能構(gòu)建一個(gè)持續(xù)產(chǎn)生高質(zhì)量真實(shí)世界數(shù)據(jù)的業(yè)務(wù)閉環(huán)。這也是我們今天說(shuō)“從真實(shí)世界中長(zhǎng)出來(lái)的物理世界模型”的原因。它不是實(shí)驗(yàn)室里封閉訓(xùn)練出來(lái)的模型,而是在真實(shí)空間、真實(shí)任務(wù)、真實(shí)反饋和真實(shí)商業(yè)價(jià)值中不斷生長(zhǎng)出來(lái)的模型。
你喂它干凈的樣本,它學(xué)會(huì)的是表演;你喂它真實(shí)的混亂,它學(xué)會(huì)的才是生存。
GPT時(shí)刻前夜,
首先找到落地場(chǎng)景
36氪:大家都在提“ChatGPT時(shí)刻”,你覺(jué)得我們到底走到哪一步了?
王可澤:具身智能一定要有自己的底座模型,這樣才能真正迎來(lái)下一個(gè)GPT時(shí)刻。此外,我們對(duì)技術(shù)本身有近乎樸素的信任。不是先去想怎么講一個(gè)更大的故事,而是先想這個(gè)問(wèn)題到底有沒(méi)有被真正解決;不是先迎合市場(chǎng)上最熱的路線,而是反復(fù)問(wèn)自己,哪一條路更接近物理世界的本質(zhì)。很多時(shí)候,這條路不會(huì)最熱鬧,也不會(huì)最容易被理解,但如果真實(shí)場(chǎng)景持續(xù)給我們反饋,我們就愿意沿著它繼續(xù)走下去。
從團(tuán)隊(duì)的總體共識(shí)來(lái)看,物理AGI現(xiàn)在到了“GPT-2.0到3.0”的階段。一年前看這件事覺(jué)得很早,但數(shù)據(jù)的爆發(fā)和模型的提升不是線性的增長(zhǎng),是指數(shù)級(jí)的增長(zhǎng),所以時(shí)間可能還會(huì)不斷提速。
36氪:在這個(gè)階段,其實(shí)亂象也很多,你自己觀察到的泡沫是什么樣的?
王可澤:首先是數(shù)據(jù)的角度,大量的數(shù)采中心遍布全國(guó)各地,但刻意的操作是不豐富、不多樣、也不真實(shí)的。而我們的數(shù)據(jù)配方里,機(jī)器本體數(shù)據(jù)的比例非常低,只有5%需要后訓(xùn)練。只要Few Shots就可以閉環(huán)。
其次,數(shù)據(jù)上去之后,更大的問(wèn)題是架構(gòu)不行。目前普遍的VLA架構(gòu),泛化性明顯太差,圍繞它打再多補(bǔ)丁也于事無(wú)補(bǔ),必須圍繞物理基座模型去做架構(gòu)。而我們底座模型足夠好,后續(xù)部署和適配能以非常低的成本完成,顯著優(yōu)于友商。
最后,從產(chǎn)業(yè)角度看,現(xiàn)在的Demo過(guò)于營(yíng)銷化。物理AGI機(jī)器人在物理世界能干的事,還遠(yuǎn)沒(méi)達(dá)到宣傳的程度。
36氪:現(xiàn)在你們的世界模型,主要落地在哪些真實(shí)行業(yè)場(chǎng)景里?
王可澤:真正的智能系統(tǒng),如果要在現(xiàn)實(shí)世界里工作,就必須從這些復(fù)雜數(shù)據(jù)中學(xué)習(xí),而不是只在理想環(huán)境里學(xué)習(xí)。這也是我們?yōu)槭裁磸?qiáng)調(diào)“從真實(shí)業(yè)務(wù)數(shù)據(jù)中長(zhǎng)出來(lái)”。
我們的模型已經(jīng)長(zhǎng)期部署在無(wú)人零售場(chǎng)景,每天承載和優(yōu)化的真實(shí)服務(wù)次數(shù)接近500萬(wàn)次,在“世界模型賦能零售”這個(gè)方向上已經(jīng)走到行業(yè)的絕對(duì)頭部。
同時(shí),我們正在把這套世界動(dòng)作模型應(yīng)用到更多半結(jié)構(gòu)化的真實(shí)場(chǎng)景中,一端連接線下零售,另一端逐步延伸到工業(yè)場(chǎng)景,比如各類上下料、分揀搬運(yùn)、線束插拔等,用同一套世界動(dòng)作模型去打通。能夠真正把傳統(tǒng)行業(yè)拉出一個(gè)數(shù)量級(jí)差距的,不是“干凈的數(shù)據(jù)集模型考試”,而是模型在真實(shí)業(yè)務(wù)里的長(zhǎng)期實(shí)戰(zhàn)和迭代。
36氪:落地工業(yè)已經(jīng)是行業(yè)共識(shí),你們是怎樣的策略?
王可澤:我們的策略是做“N+1”與尋找Sweet Spot:不重新定義生產(chǎn)環(huán)境,只解決末端需要具身智能處理的一小部分任務(wù)(如SKU、材質(zhì)、光線千變?nèi)f化導(dǎo)致傳統(tǒng)協(xié)作機(jī)器人無(wú)法勝任的上下料環(huán)節(jié)),再規(guī)模化復(fù)制。
由于模型上限與泛化能力仍有差距,所以我們工業(yè)切入選擇制造行業(yè)的Sweet Spot,避免不切實(shí)際的過(guò)度承諾。
36氪:在工業(yè)上,你們落地了哪些場(chǎng)景?
王可澤:我們已落地了分揀搬運(yùn)、上下料、線束插拔裝配等場(chǎng)景,今年團(tuán)隊(duì)很興奮:不光在技術(shù)上有了Aha Moment,我們?cè)谏虡I(yè)階段也實(shí)現(xiàn)了階段性的泛化,以兩三倍的速度成長(zhǎng)。經(jīng)歷了前期的探索和寒窗苦讀之后,我確定我們迎來(lái)了一個(gè)階段性的爆發(fā)。
![]()
服務(wù)產(chǎn)業(yè)POC的渲染圖
做物理AGI時(shí)代的機(jī)器人大腦
36氪:你認(rèn)為X-Era Lab區(qū)別于國(guó)內(nèi)外頂級(jí)具身團(tuán)隊(duì)的基因是什么?
王可澤:我們的基因是一支科學(xué)家團(tuán)隊(duì),但也是一群既懂技術(shù)又能搞落地的團(tuán)隊(duì)。我們?cè)诖鬄硡^(qū),不僅和歐美名校的頂尖科學(xué)家們一起搞研發(fā),核心成員還都是從華為、商湯出來(lái)的,會(huì)去無(wú)限追求模型智能的涌現(xiàn),以及架構(gòu)上的創(chuàng)新。但物理AGI跟數(shù)字AGI不太一樣,它還比較早期,很多環(huán)節(jié)都沒(méi)有收斂,所以我們要自己去做應(yīng)用和閉環(huán)。我們?cè)诓粩嘧非竽P蜕舷蕖⒆非笾悄苡楷F(xiàn)的過(guò)程中,還是要進(jìn)入場(chǎng)景,自己做端到端的解決方案和閉環(huán),來(lái)做模型的后訓(xùn)練。
所以,我們培養(yǎng)年輕人,最重要的是讓他們盡早進(jìn)入真實(shí)問(wèn)題。我們希望他們能看到真實(shí)產(chǎn)業(yè)是怎么運(yùn)轉(zhuǎn)的:客戶為什么付費(fèi)、系統(tǒng)為什么失敗、數(shù)據(jù)為什么有價(jià)值、模型最終如何被業(yè)務(wù)指標(biāo)驗(yàn)證。我們創(chuàng)始人從很開(kāi)始就特別強(qiáng)調(diào)“一日為師,終身為友”,希望我們站在真理這一邊,而不是站在等級(jí)那一邊,這也是我們能堅(jiān)持到現(xiàn)在的原因。
這也是我們團(tuán)隊(duì)最大的特色:背后有很強(qiáng)研發(fā)與創(chuàng)新源泉、有天花板,但也足夠扎實(shí)、能落地、能“扎到泥土里”,“仰望星空,腳踏實(shí)地”。
物理AGI的終局,是一場(chǎng)數(shù)字智能對(duì)物質(zhì)世界的全面重構(gòu)。X-Era Lab正在用最硬核的底層框架,為千行百業(yè)的機(jī)器人編織一顆能讀懂物理因果的大腦。真正讓X-Era Lab站得更遠(yuǎn)的,從來(lái)不是某一款模型,而是它身后那座源源不斷的研發(fā)儲(chǔ)備——既扎在最底層的原理,深入最嘈雜的現(xiàn)實(shí),又始終頂在最前沿的無(wú)人區(qū),才是這家公司穿越周期的護(hù)城河。從無(wú)人貨柜的微觀碰撞,到產(chǎn)線上千變?nèi)f化的復(fù)雜POC場(chǎng)景,那些曾讓傳統(tǒng)自動(dòng)化折戟的難題,正被逐一解構(gòu)。未來(lái),當(dāng)千萬(wàn)臺(tái)搭載著通用物理基座模型的機(jī)器人走向工廠、走向千家萬(wàn)戶,它們睜開(kāi)眼看到的將是整片星辰大海。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.