網易首頁 > 網易號 > 正文申請入駐

對話CEO星海圖高繼揚：具身智能的終局，不是賣機器人

2026-06-17 15:05:08　來源: 鈦媒體APP

北京舉報

分享至

高繼揚有一個判斷：具身智能不存在所謂的"GPT 時刻"。

這話聽起來有點反共識。過去兩年，這個行業習慣了用"時刻"來標記進展。比如某家公司機器人完成了后空翻，某款模型在某個榜單上刷了新紀錄，大家就會問，這是不是具身智能的 ChatGPT 時刻？

高繼揚的回答是，不會。

具身智能的進展不會集中爆發，也很難由一次產品發布來定義。它更可能從 B 端開始，在倉儲、零售、工業、服務、科研這些場景里一點點滲透進去。某個場景先跑通，某類任務先穩定，然后再慢慢擴展到更多任務。等幾年后回頭看，才發現機器人已經進了大量生產環節。

這個判斷決定了星海圖在做什么、不做什么。

6 月 16 日，星海圖在亦莊辦了一場全球開發者大會。會上公布了三件事：新一代 VLA 基礎模型 G0.5，自研雙足人形機器人 Kengo（行客）亮相，以及聯合北京亦莊共建的數據公司"亦數智能"正式揭牌，啟動"100 萬小時超高質量真實數據計劃"。

但這些數字和發布不是這篇文章的重點。

重點是，我們與高繼揚會后的對話。他從"為什么現階段不追第一"聊到"一塊錢數據至少十塊錢訓練"，再到"整機和供應鏈是有限游戲，智能和應用才是無限游戲"。

以下為對話內容，略有刪減。

智客ZhiKer：VLA 模型與世界模型（WAM）的數據能否通用？

高繼揚：這兩個路線不是對立的，它們的底層其實是一樣的，都是把多模態數據變成 Token，通過多層 Transformer 做編碼和輸出，只是監督方式和訓練方式有所不同。從這個角度來說，所有的數據都可以互用混用。

我們采集數據本質上是為了鋪滿四個維度：動作維、對象維、場景維、本體維。不同的采集方式（Human Centric 和 Robot Centric）各有各的優勢，最終都是為了讓這四個維度的數據盡量鋪滿。Human Centric 數據跨本體能力強、采集效率高、成本低；Robot Centric數據則是模型最終部署到機器人本體上所需要的。

智客ZhiKer：怎么看待"用具身大腦終結行業有軀無智"這一說法？具身智能競爭的關鍵是什么？

高繼揚：我們剛創業的時候提過兩個詞，一個是“一腦多形”，一個是“在腦不在形”。這話可能說得比較直，沒有大腦驅動，形體就是破銅爛鐵。

這個行業要往前走，一定得先把具身大腦，也就是具身基礎模型做出來，然后才能帶動上下游。往上推整機和零部件，往下推應用和分銷。

智客ZhiKer：現階段為什么不追求絕對第一？什么時候會開始大規模擴張？

高繼揚：這個行業的核心是 AI 驅動的，在整機銷售這個階段去爭第一第二，沒太大意思。說實話，在這個階段猛沖量，更像是往資產負債表上堆負債，而不是堆資產。

我們會按自己的節奏走。去年比前年有 10 倍的增長，今年也是數倍的增長。等智能真正開始驅動第二階段的商業模式了，那時候才是拼第一的時候。

智客ZhiKer：你說的第二階段商業模式是什么？

高繼揚：我們把具身智能發展分為三個躍遷階段，本能智能、作業智能和進化智能。本能智能直接作用于本體，讓機器人像人一樣天然學會駕馭身體，保持平衡、行走、奔跑；作業智能建立在本能智能之上，解決像人一樣有序作業和操作的問題，語言是它的重要接口，星海圖的G系列模型正是作業智能模型；進化智能則指向更深的問題，AI能不能定義最優生產力形態。

第二階段是作業智能，指的是面向生產力場景的方案訂閱，這個市場規模比前兩個階段大出好幾個數量級，基本等于在重寫 GDP。

現在整個行業還在以整機銷售為中心，沒有任何一家企業能在生產力場景里真正干活。所以，真正的仗還沒開始打。

智客ZhiKer：預訓練階段是否使用仿真數據？數據成本方面的壓力怎么樣？

高繼揚：我們目前訓練全部使用真實數據，基本沒用仿真數據。至少在達到 100 萬小時數據之前，我看不到使用仿真數據的必要性，真實數據鋪滿那四個維度的速度更快、效果也更好。

說到成本，我覺得不能光盯著數據的單向成本，得看智能總成本。它包括三塊：數據成本、算力成本、研發成本。我們在實踐里，數據跟算力的比例差不多是 1:10，花一塊錢采數據，至少得花十塊錢做訓練。數據質量是根本，最高質量的數據就是真實數據。

具體數字的話，Human Centric 大概 50 到 100 塊錢一小時，Robot Centric大概 250 塊一小時。綜合算下來，100 萬小時的數據成本大概在 1 到 2 億人民幣。跟大語言模型每年幾億美金的算力投入比，這筆錢必須花，而且非常劃算。

智客ZhiKer：怎么從百萬小時沖到千萬小時？數據量上去之后，模型能力會有什么變化？

高繼揚：我們依托亦莊智能平臺，走外包采集加眾包采集兩條路。眾包是生產伴隨式的，工人日常干活的時候帶上設備，自然就采了；外包是針對特定任務，專門雇人來采。

數據量上去，主要解決的是泛化問題，到新場景、接新任務，能不能不加數據就搞定。執行速度的提升，靠的是后訓練，跟工人上崗前需要再培訓一個道理。

拿疊衣服舉例，三個月前速度還特別慢，迭代到現在已經快了很多。這個成長速度，甚至比嬰幼兒學技能還要快。

智客ZhiKer：如果大家都在沖擊百萬小時數據量，數據的壁壘是什么？

高繼揚：99% 的具身智能數據是私有數據。未來具身智能模型能做成什么樣，很大程度上就看數據好不好、對數據的理解深不深。

數據理解的認知差異會傳導到模型能力的差異，再傳導到應用效果和商業價值的差異，這是一個完整的鏈路。

智客ZhiKer：數據能否做成標品，由第三方公司提供給各家應用企業？

高繼揚：從理論業務模式上說，是可以的。

比如說海天瑞聲，本身就是做數據標品和服務的上市公司。但具身智能有個麻煩：整機、數據、模型訓練這三件事耦合太緊了。數據采回來之后，算法的人必須跟數采和運營的人緊密迭代，才能把數據質量提上來。

所以我們做了兩件事：一是投了數采設備企業，二是跟亦莊控股等聯合發起公司，把場景、設備、數據管線、模型需求這些東西捏到一塊，這樣才有可能做出高質量的標品數據集。

智客ZhiKer：數據、模型、整機，哪一塊最重要？資源怎么分配？

高繼揚：戰略上就是整機加智能，兩者缺一不可。釋放物理世界的生產力，只有模型不夠，整機也需要足夠好的可靠性、一致性和負載能力。但從研發投入來看，智能的研發投入比整機高出一個數量級。

智客ZhiKer：G0.5 模型什么時候用在 Kingo 雙足機器人上？

高繼揚：G0.5 的模型架構是為雙臂智能/輪式雙臂品類準備的，會先應用在 R1Light、R1Pro 等產品上。Kingo 主力發展的是本能智能模型。

作業模型（VLA/世界模型）以模仿學習為主、強化學習為輔；本能智能反過來，以強化學習為主、模仿學習為輔。最終這兩樣會融合在一起，可能是某種組合比例。等到本能和作業智能真融在一起了，G0.5 的能力才會帶到 Kingo 上。

智客ZhiKer：Kingo 的關節模組有什么特點？定價和商業化計劃呢？

高繼揚：關節模組的話，我們整機全部用 EC 通信，同步性是行業里最好的，但研發難度也最大。為此我們在流控和中空設計上下了不少功夫，電機的電磁仿真、減速器設計上也做了很多優化。性能在第一梯隊。

成本的話，這類產品的 BOM 最終會穩定在 1 萬美金左右，大概兩年內能做到。但成本本身不決定能不能商業化，關鍵在于大腦能干什么活。發達國家勞動力一年大概 4 到 5 萬美金，如果硬件一萬美金、一年回本，剩下三四萬美金就是智能的空間。

整機和供應鏈是有限游戲，智能和應用才是無限游戲。做整機是為了拿到后面無限游戲的入場券。

智客ZhiKer：Kingo 搭載本能智能模型后，未來的落地場景有哪些？

高繼揚：本能模型最初級階段就是做強化學習能做的事，跳舞、跑跳、行走，對應的是展演展示的商業化。能力再往上走，下一步是全身遙操作，等于有了一個遠程化身，可以做電站巡檢之類的輕作業。再往后，本能智能跟作業智能融合起來，就能進制造業、建筑業這些非結構化場景做重活了。

不過有一點要說清楚，在平地這種結構化場景里，輪式雙臂其實更有優勢，雙足反而噪音大、效率低。（本文首發鈦媒體APP，文 | 智客Zhiker，作者｜郭虹妘）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.