无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

300美元跑通世界模型!比老黃便宜10倍

0
分享至


新智元報道


【新智元導讀】世界模型第一次塞進指甲蓋芯片!X-Era Lab與星宸科技聯手,成本砍掉90%,具身智能終于不靠云端活了。

風箏和鳥,都能飛翔。

但風箏長不出方向,是遠處的手借風借線,決定它自由或回落;而鳥卻長在自己的翅膀上,俯沖與停棲都來自大腦意志,無需指令。

過去的具身智能像風箏:越飛越高,卻被「延遲」系在云端,現實里一只傾倒的杯子、一場驟雨就讓它崩亂,風會亂,線會斷,真實世界等不起信號往返云端。

X-Era Lab(拓元智慧)和星宸科技最近做成的一件事,正是把風箏變成鳥——

他們把自研的世界動作模型 VWA,跑進了一顆指甲蓋大小的端側芯片,完成了「感知—預測—控制」的全鏈路閉環。

這次,他們剪斷了那根線,讓具身智能第一次,飛在自己的翅膀上。


X-Era Lab 與星宸科技聯合推出的首款端側世界模型解決方案

把「大腦」真正裝回身體

一個產品最原始的出發點,決定了它后來所有的形狀,也決定了它日后會在哪里走形。

一件事如果同時背著「炫技」「拿融資」「趕風口」太多目的,就會從「為用戶解決真問題」,悄悄變成「替團隊完成一場表演」。

動作開始替老板做、替發布會做,而不再替那只要去抓住正在傾倒的杯子的手做。

而 X-Era Lab 把發心收斂到了一件事上:做全球第一個原生的世界動作模型。

說穿了很樸素,如果不能穩穩托住現實生活里的一只杯子,再酷炫的 PPT 又有什么用。

所以它從第一天就認定,推理這件事,必須發生在機器人本體上。

具身智能的上半場,比的是誰的模型更大。

下半場要回答的,是另一個更樸素的問題:誰能把「大腦」真正裝回身體,讓它在真實世界里跑起來,并且足夠便宜地跑起來。

世界模型必須走到端側

把模型放云端、機器人傳畫面回來等指令,這套鏈路在大模型時代很順手,可一進物理世界就處處碰壁。

說到底,那根「線」還在。

這個道理幾乎人人都懂。自動駕駛不能只靠云端決策,肉眼看見的綠燈,等畫面傳上云、決策再傳回來,可能已經變成了紅燈。

云端能告訴你「世界長什么樣」,卻趕不上回答「此刻該怎么辦」。

工業場景里,亞毫米級的精密放置,機械臂的容錯只有零點幾毫米,決策一滯后,物體就被推過了頭。

家庭場景同樣如此,一個幾十公斤的機器人,若對人的狀態判斷慢了半拍,一個抬手就可能傷到人。

在物理世界里,遲到的正確,約等于錯誤。

而在帶寬上,世界模型同樣需要本地處理。

大語言模型往云端傳的是文本,帶寬要求很低;可世界模型要「理解世界」,一旦是多傳感器、多模態融合輸入,上行帶寬會急劇膨脹。

在 X-Era Lab 研發總監蒲韜看來,這正決定了兩類模型的命運:大語言模型可以留在云端,世界模型必然走向端側。文字可以打包托運,而世界,太重了,傳不動。


依托端側芯片把世界模型從云端搬到智能體上

現階段云端方案大多以 Token 使用量作為收費標準。

然而理解物理空間所需要的 Token 用量遠超現在的大語言模型所需,這使得具身智能商業化遲遲無法落地。

一臺機器人賣二十萬,不便宜,但一算賬才發現,反而是其整個生命周期中需要消耗的 Token 更有可能是個天文數字,誰都不敢保證上限在哪。

這導致廠商看不到利潤空間,客戶估不準落地成本。而一個算不清賬的商業模型,沒有人敢真的下場。

X-Era Lab 的 CTO 陳添水覺得,國內硬件幾乎都是一次性買斷,極少訂閱制能成立,原因正在于此。把模型放到端側,這筆賬才變成確定的:芯片裝上去,怎么用都是那個成本。

隱私問題也在把世界模型推向端側。Token 承載的隱私信息相對有限,但「理解世界」要持續處理大量視覺與空間信息,家里長什么樣、生產線在做什么,這些遠比一段文本敏感。

一旦這些數據必須上傳云端才能用,許多場景從一開始就不會向你敞開。把世界搬到云上的那一刻,很多扇門就已經關上了。

延遲和帶寬,逼著世界模型往端側走;成本和隱私,決定它走到端側之后生意能不能做。前者是物理約束,后者是商業約束,兩股力氣,把答案推向同一個方向。

對世界模型來說,走向端側不是一道選擇題,而是一道必答題;而它們共同指向的那個詞,是確定性。這正是 X-Era Lab 從第一天就選端側的理由。

能塞進端側的

是為端側而生的模型

在市場上,相比友商 Thor-U 芯片動輒 3000 多美元的方案,他們想讓世界模型跑在兩三百美元的芯片上,但靠事后裁剪是塞不進去的,這個模型從娘胎里就為端側而生。

要看清 VWA 的不同,得先看看別人怎么走。當下的「世界模型」,大多走兩條路線。

一條是 VLA,建立在多模態大模型之上,加一個「動作專家」做改造;一條是以視頻生成模型做內核,用 2D 表征渲染出 3D 世界。

VLA 的表征停留在語言模態——你問它面前的水瓶離自己多遠,它能答「大概三十厘米」,但實際可能是十厘米,這是無法容忍的誤差。

視頻生成模型停在 2D 像素空間,對真實 3D 刻畫不足,做動作前還要先生成視頻,成本高,2D 到 3D 的誤差層層累積。

一個把世界「說」出來,一個把世界「畫」出來——可機器人要的,是把世界「算」出來。

X-Era Lab 的世界動作模型(VWA),繞開了兩條路線面臨的障礙。

據陳添水介紹,VWA 在底層架構上做了三件事:

1. 把物理與動作向量放進同一個 Token 內聯合建模,再加上時序維度,共同構成 4D 數據;

2. 沒有沿用現成的多模態大模型骨干,而是專門為幾何與動作設計了預訓練網絡;

3. 讓預訓練和后訓練的目標保持統一。別人是在后訓練階段、針對特定場景「打補丁」,而 VWA 在預訓練階段就把對物理世界的理解灌進了模型。

把三條路線擺在一起,差異其實落在同一個問題上:模型對「世界」的理解,到底停在哪一層?

VLA 停在語言層,所以它只能把物體的位置估個大概;視頻生成式停在 2D 像素層,做動作前先得生成畫面,3D 信息在這一步就漏掉了精度。


原生世界動作模型的 4D 表征

VWA 通過預測未來的 4D 世界來建模真實物理世界,也就是刻畫 3D 空間隨時間如何變化。

在這樣統一的時空表征中,場景的深度結構、機器人的動作軌跡,以及交互過程中蘊含的接觸、碰撞、形變等物理規律,都可以被放在同一套模型里聯合學習。

不同于許多基于視頻生成的世界模型,VWA 不把主要算力消耗在紋理、光影、背景等與動作決策弱相關的視覺細節上,而是繞過這些表象,直接建模三維幾何和時序運動。

當模型學習點云如何位移、物體如何碰撞、形變如何發生時,它學到的不是「世界長什么樣」,而是「世界會怎樣變化」。

更關鍵的是,X-Era Lab 并不是把 4D 表征只當作后訓練階段的輔助工具,用來重建空間或合成數據;而是從預訓練階段就把 4D 作為統一底座,讓物理理解、空間預測和動作生成落在同一套表征里聯合學習。

換句話說,別人是在用 4D 補數據,VWA 是從一開始就長在 4D 上。

因此,VWA 能以更小模型完成更復雜任務,并不是靠后期裁剪或蒸餾硬擠出來的,而是因為它從源頭減少了無效負擔。

不需要背一個龐大的多模態大模型骨干,也不需要反復生成冗余視頻畫面。

它把參數和算力集中用在與機器人行動最相關的空間、時間和物理規律上。

這也是 VWA 同時具備端側部署可行性和 Scaling Law 潛力的根本原因。


VWA 的每個物理 token 的預測都基于過往 N 個時刻所構成的 4D 表征

模型怎么「住」進芯片

模型再好,最終都要落到一顆具體的芯片上——能不能「住」得進去,才見真章。

這次的合作方是星宸科技,一家以圖像信號處理、AI 處理器、音視頻編解碼為核心 IP 的上市公司,2025 年上半年機器人視覺 AI SoC 出貨量已居全球第二。

視覺與 ISP 本就是它的老本行,而這恰恰是「理解世界」最需要的那只眼睛。

X-Era Lab 與星宸的合作一拍即合。它認為,在具身領域,軟硬協同不是加分項,而是必選項。

而星宸恰好是那個愿意「協同」的芯片方。雙方對「機器人的腦子要長在機器人身上」判斷一致,星宸也在資本和內部資源上給予了支持。

更關鍵的是,這不是「模型做完了再找芯片」的接力,而是從模型訓練的第一天,兩邊就坐在了一張桌子上。

世界模型表達的是連續的世界空間,與常見的離散壓縮不同,普通離散量化會帶來較大精度損失。

世界模型需要刻畫連續變化的物理規律,而將模型壓縮至 4 位極端精度,意味著用最離散的表示去逼近最連續的世界,本身就是一項極具挑戰的課題。

為此團隊與星宸科技展開深度合作,從底層工具鏈、算子實現到內存調度策略進行全棧聯合優化,專門為 VWA 架構量身定制,讓模型在端側芯片上既能高效運行,又能精準還原物理世界的連續性與細節。

芯片側也做了全面配合。

星宸 IPU 算力覆蓋 0.1 Tops 到上千 Tops 全檔位,按算力區間布局而非「一顆萬能芯片打天下」;自研 StarShuttle 推理框架已迭代四次,支持多模態算法與 AWQ/GPTQ 量化;面向具身智能提供的是分布式計算架構。

它還針對 VWA 的獨特算子做了芯片級優化,相比軟件級,效率可提升上百乃至上千倍。

正是這種咬合,才讓一顆成本可控的芯片,跑得起一個完整版的世界模型。

而且,星宸正在布局雙目 3D 成像與 Lidar SoC(SS901XX 系列,探測 0.5 至 500 米及以上、精度 ±0.03 米),做的正是 3D 感知。

X-Era Lab 反復強調「理解 3D 物理世界」,芯片伙伴恰好在硬件層做 3D 感知。這場合作便不只是「芯片能跑模型」,而是感知與世界理解在物理層的咬合。

一個把世界看清,一個把世界想透,遠比單純的算力適配走得更深。

X-Era Lab 表示,星宸是目前性能與成本的最優選。

它還提供跨場景、跨芯片、可量產的統一軟件底座,并以開放方式向行業釋放能力,從 Comake 開發者社區、Comake Pi 開發板,到全棧 AI 工具鏈和開源模型庫,構成「開發者賦能→產品化落地→生態規模放大」的正向飛輪。

換句話說,端側從來不是一次性的單點合作,而是一個能不斷接入新伙伴的底座。

星宸描繪過一個「多形態共存的機器人世界」:掃地的、陪伴的、清理泳池的、修剪草坪的、端茶的……不管四足的、還是兩腳的。它們形態各異,卻被同一句話框定,場景驅動,任務清晰。


原生世界動作模型部署在端側 AI 芯片的豐富應用場景

回歸

偉大的遠征,最終都不是為了離開,而是為了有能力,回到最初要去的地方。

機器人最初被改造,是為了變得更聰明,大模型的浪潮將它的「腦」托舉上云。

世界為它的聰明驚嘆,幾乎要忘了它原本是為了「做事」而生的。

一個只會思考、不能伸手的智能,想得再遠,夠不到那只正在傾倒的玻璃杯,便什么也改變不了。

X-Era Lab 與星宸今天合力做的,正是這樁關于「回歸」的事。他們要把那個一度被放逐到云端的智能,重新喚回到指甲蓋大小的身體里,讓它的眼、它的算、它的決斷,重新長在一處。

人類無數次暢想未來驚天動地的樣子。但技術真正成熟的標志,往往是相反的——是它不再被談論。

掃地機器人不再沿記憶里的路線死轉,看見地上一攤水會先繞開,而不是扎進去推得滿屋狼藉。

割草機器人開過被夜雨泡軟的草地,知道這里會陷,便放慢繞行。

服務機器人端著熱水穿過大堂,預判到那個正低頭看手機、即將拐進它路線的人,提前停下。它算的不再是「前方半米有障礙」,而是「那個人下一步會走到哪」。

此刻,在廚房流理臺邊,一只機械臂去夠那只半透明的玻璃杯。而杯子已經在往下滑。它收力、調角、托住。沒有驚險的特寫,沒有該響起的配樂,事情只是平平淡淡地過去了。

今天沒有人會贊嘆電燈會亮、風扇會轉;有朝一日,也不會有人再贊嘆一臺機器人「居然能自己想」。它只是安靜地待在客廳的某個角落,把一件件小事做完,像它本就該在那里。

這是 X-Era Lab 和星宸想做的,一切的不可想象,終將化為尋常。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
羅伊-基恩:如果英格蘭世界杯奪冠,我就直接移民澳大利亞

羅伊-基恩:如果英格蘭世界杯奪冠,我就直接移民澳大利亞

懂球帝
2026-06-09 16:30:09
43歲傅明成世界杯史上第一位中國籍VAR裁判

43歲傅明成世界杯史上第一位中國籍VAR裁判

極目新聞
2026-06-09 16:10:26
英格蘭隊內訌!阿森納王牌質疑隊友能力,歐洲杯黃金搭檔徹底鬧掰

英格蘭隊內訌!阿森納王牌質疑隊友能力,歐洲杯黃金搭檔徹底鬧掰

瀾歸序
2026-06-10 06:17:04
劉大錘再曝頂流開車玩手機,觸碰紅線恐遭嚴懲

劉大錘再曝頂流開車玩手機,觸碰紅線恐遭嚴懲

科學發掘
2026-06-09 14:41:48
被傳與印度塔塔牽手,奇瑞不得不發聲明,塔塔是個什么物種?

被傳與印度塔塔牽手,奇瑞不得不發聲明,塔塔是個什么物種?

反做空一線
2026-06-10 00:09:09
大學3年啃饅頭咸菜,爸爸來電:每月2萬不夠花?我看著榨菜愣住了

大學3年啃饅頭咸菜,爸爸來電:每月2萬不夠花?我看著榨菜愣住了

曉艾故事匯
2026-06-09 09:26:17
有性生活和沒性生活,身體會出賣你!第三個區別,很多人沒想到

有性生活和沒性生活,身體會出賣你!第三個區別,很多人沒想到

健康科普365
2026-05-30 16:30:29
太諷刺了!“我有點慢熱”,男生相親邀約到拉黑對方,僅用幾分鐘

太諷刺了!“我有點慢熱”,男生相親邀約到拉黑對方,僅用幾分鐘

火山詩話
2026-06-09 08:04:45
總決賽分水嶺?裁判漏判,聯盟調查!若追加二級惡犯,馬刺就完了

總決賽分水嶺?裁判漏判,聯盟調查!若追加二級惡犯,馬刺就完了

你的籃球頻道
2026-06-10 07:12:44
女性偷腥后當晚與丈夫同房是什么感覺?一位39歲的女人說出實情

女性偷腥后當晚與丈夫同房是什么感覺?一位39歲的女人說出實情

混音情感
2026-06-09 09:13:58
成本14億,三天票房只有3.66億,好萊塢年度最慘電影誕生了

成本14億,三天票房只有3.66億,好萊塢年度最慘電影誕生了

影視高原說
2026-06-09 15:32:38
“摸奶子”再惹爭議,OPPO的流量反噬開始了

“摸奶子”再惹爭議,OPPO的流量反噬開始了

品牌頭版
2026-05-13 10:18:15
“家長都是白發蒼蒼!”人大附中出考場視頻,有錢晚婚晚育具象化

“家長都是白發蒼蒼!”人大附中出考場視頻,有錢晚婚晚育具象化

熙熙說教
2026-06-08 19:01:11
小米正式回應SU7 Ultra起火事故!

小米正式回應SU7 Ultra起火事故!

新浪財經
2026-06-09 13:42:50
廣東女子每周啃一個豬蹄,連續吃了半年,去醫院檢查,結果如何

廣東女子每周啃一個豬蹄,連續吃了半年,去醫院檢查,結果如何

芹姐說生活
2026-06-09 19:08:06
吳千語施伯雄在上海新家拍大片,4層別墅公開,老錢風裝修真高級

吳千語施伯雄在上海新家拍大片,4層別墅公開,老錢風裝修真高級

八怪娛
2026-06-09 11:03:36
62歲布拉德·皮特與33歲女友觀看法網,網友:看不出近30歲年齡差

62歲布拉德·皮特與33歲女友觀看法網,網友:看不出近30歲年齡差

韓小娛
2026-06-08 18:01:55
亞美尼亞親俄派敗選,更多“小弟”不看俄臉色

亞美尼亞親俄派敗選,更多“小弟”不看俄臉色

名人茍或
2026-06-09 07:03:45
演都不演!鄭欽文再次一輪游,炸出一群牛鬼蛇神,李娜早把話說透

演都不演!鄭欽文再次一輪游,炸出一群牛鬼蛇神,李娜早把話說透

圓夢的小老頭
2026-06-09 19:54:22
鬧大了!鄰居充電線橫跨他人車位,車主倒車入庫壓斷被索賠500元

鬧大了!鄰居充電線橫跨他人車位,車主倒車入庫壓斷被索賠500元

火山詩話
2026-06-09 08:23:04
2026-06-10 07:51:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15428文章數 66920關注度
往期回顧 全部

科技要聞

一文看懂蘋果WWDC26:庫克告別,Siri重生

頭條要聞

德國迷奸案主犯因名字公開請求輕判:以后在國內不好混

頭條要聞

德國迷奸案主犯因名字公開請求輕判:以后在國內不好混

體育要聞

誰會花400萬,去看一場尼克斯的比賽?

娛樂要聞

吳文忻因癌癥惡化離世,女兒哭泣不舍

財經要聞

從日韓分銷商到英國教育圈 誰在買宇樹?

汽車要聞

賽豆科技AIVA品牌發布 全系產品覆蓋20萬級市場/量產車年內亮相

態度原創

游戲
教育
本地
時尚
健康

光榮《信長之野望》新作官宣!2026年冬發售

教育要聞

校長是個什么角色

本地新聞

用楊柳青年畫的方式,打開天津

高考前一天,偷偷吃避孕藥的女孩們

粽子、湯圓……常見粘食大盤點!

無障礙瀏覽 進入關懷版