![]()
高繼揚有一個判斷:具身智能不存在所謂的"GPT 時刻"。
這話聽起來有點反共識。過去兩年,這個行業習慣了用"時刻"來標記進展。比如某家公司機器人完成了后空翻,某款模型在某個榜單上刷了新紀錄,大家就會問,這是不是具身智能的 ChatGPT 時刻?
高繼揚的回答是,不會。
具身智能的進展不會集中爆發,也很難由一次產品發布來定義。它更可能從 B 端開始,在倉儲、零售、工業、服務、科研這些場景里一點點滲透進去。某個場景先跑通,某類任務先穩定,然后再慢慢擴展到更多任務。等幾年后回頭看,才發現機器人已經進了大量生產環節。
這個判斷決定了星海圖在做什么、不做什么。
6 月 16 日,星海圖在亦莊辦了一場全球開發者大會。會上公布了三件事:新一代 VLA 基礎模型 G0.5,自研雙足人形機器人 Kengo(行客)亮相,以及聯合北京亦莊共建的數據公司"亦數智能"正式揭牌,啟動"100 萬小時超高質量真實數據計劃"。
但這些數字和發布不是這篇文章的重點。
重點是,我們與高繼揚會后的對話。他從"為什么現階段不追第一"聊到"一塊錢數據至少十塊錢訓練",再到"整機和供應鏈是有限游戲,智能和應用才是無限游戲"。
以下為對話內容,略有刪減。
智客ZhiKer:VLA 模型與世界模型(WAM)的數據能否通用?
高繼揚:這兩個路線不是對立的,它們的底層其實是一樣的,都是把多模態數據變成 Token,通過多層 Transformer 做編碼和輸出,只是監督方式和訓練方式有所不同。從這個角度來說,所有的數據都可以互用混用。
我們采集數據本質上是為了鋪滿四個維度:動作維、對象維、場景維、本體維。不同的采集方式(Human Centric 和 Robot Centric)各有各的優勢,最終都是為了讓這四個維度的數據盡量鋪滿。Human Centric 數據跨本體能力強、采集效率高、成本低;Robot Centric數據則是模型最終部署到機器人本體上所需要的。
智客ZhiKer:怎么看待"用具身大腦終結行業有軀無智"這一說法?具身智能競爭的關鍵是什么?
高繼揚:我們剛創業的時候提過兩個詞,一個是“一腦多形”,一個是“在腦不在形”。這話可能說得比較直,沒有大腦驅動,形體就是破銅爛鐵。
這個行業要往前走,一定得先把具身大腦,也就是具身基礎模型做出來,然后才能帶動上下游。往上推整機和零部件,往下推應用和分銷。
智客ZhiKer:現階段為什么不追求絕對第一?什么時候會開始大規模擴張?
高繼揚:這個行業的核心是 AI 驅動的,在整機銷售這個階段去爭第一第二,沒太大意思。說實話,在這個階段猛沖量,更像是往資產負債表上堆負債,而不是堆資產。
我們會按自己的節奏走。去年比前年有 10 倍的增長,今年也是數倍的增長。等智能真正開始驅動第二階段的商業模式了,那時候才是拼第一的時候。
智客ZhiKer:你說的第二階段商業模式是什么?
高繼揚:我們把具身智能發展分為三個躍遷階段,本能智能、作業智能和進化智能。本能智能直接作用于本體,讓機器人像人一樣天然學會駕馭身體,保持平衡、行走、奔跑;作業智能建立在本能智能之上,解決像人一樣有序作業和操作的問題,語言是它的重要接口,星海圖的G系列模型正是作業智能模型;進化智能則指向更深的問題,AI能不能定義最優生產力形態。
第二階段是作業智能,指的是面向生產力場景的方案訂閱,這個市場規模比前兩個階段大出好幾個數量級,基本等于在重寫 GDP。
現在整個行業還在以整機銷售為中心,沒有任何一家企業能在生產力場景里真正干活。所以,真正的仗還沒開始打。
智客ZhiKer:預訓練階段是否使用仿真數據?數據成本方面的壓力怎么樣?
高繼揚:我們目前訓練全部使用真實數據,基本沒用仿真數據。至少在達到 100 萬小時數據之前,我看不到使用仿真數據的必要性,真實數據鋪滿那四個維度的速度更快、效果也更好。
說到成本,我覺得不能光盯著數據的單向成本,得看智能總成本。它包括三塊:數據成本、算力成本、研發成本。我們在實踐里,數據跟算力的比例差不多是 1:10,花一塊錢采數據,至少得花十塊錢做訓練。數據質量是根本,最高質量的數據就是真實數據。
具體數字的話,Human Centric 大概 50 到 100 塊錢一小時,Robot Centric大概 250 塊一小時。綜合算下來,100 萬小時的數據成本大概在 1 到 2 億人民幣。跟大語言模型每年幾億美金的算力投入比,這筆錢必須花,而且非常劃算。
智客ZhiKer:怎么從百萬小時沖到千萬小時?數據量上去之后,模型能力會有什么變化?
高繼揚:我們依托亦莊智能平臺,走外包采集加眾包采集兩條路。眾包是生產伴隨式的,工人日常干活的時候帶上設備,自然就采了;外包是針對特定任務,專門雇人來采。
數據量上去,主要解決的是泛化問題,到新場景、接新任務,能不能不加數據就搞定。執行速度的提升,靠的是后訓練,跟工人上崗前需要再培訓一個道理。
拿疊衣服舉例,三個月前速度還特別慢,迭代到現在已經快了很多。這個成長速度,甚至比嬰幼兒學技能還要快。
智客ZhiKer:如果大家都在沖擊百萬小時數據量,數據的壁壘是什么?
高繼揚:99% 的具身智能數據是私有數據。未來具身智能模型能做成什么樣,很大程度上就看數據好不好、對數據的理解深不深。
數據理解的認知差異會傳導到模型能力的差異,再傳導到應用效果和商業價值的差異,這是一個完整的鏈路。
智客ZhiKer:數據能否做成標品,由第三方公司提供給各家應用企業?
高繼揚:從理論業務模式上說,是可以的。
比如說海天瑞聲,本身就是做數據標品和服務的上市公司。但具身智能有個麻煩:整機、數據、模型訓練這三件事耦合太緊了。數據采回來之后,算法的人必須跟數采和運營的人緊密迭代,才能把數據質量提上來。
所以我們做了兩件事:一是投了數采設備企業,二是跟亦莊控股等聯合發起公司,把場景、設備、數據管線、模型需求這些東西捏到一塊,這樣才有可能做出高質量的標品數據集。
智客ZhiKer:數據、模型、整機,哪一塊最重要?資源怎么分配?
高繼揚:戰略上就是整機加智能,兩者缺一不可。釋放物理世界的生產力,只有模型不夠,整機也需要足夠好的可靠性、一致性和負載能力。但從研發投入來看,智能的研發投入比整機高出一個數量級。
智客ZhiKer:G0.5 模型什么時候用在 Kingo 雙足機器人上?
高繼揚:G0.5 的模型架構是為雙臂智能/輪式雙臂品類準備的,會先應用在 R1Light、R1Pro 等產品上。Kingo 主力發展的是本能智能模型。
作業模型(VLA/世界模型)以模仿學習為主、強化學習為輔;本能智能反過來,以強化學習為主、模仿學習為輔。最終這兩樣會融合在一起,可能是某種組合比例。等到本能和作業智能真融在一起了,G0.5 的能力才會帶到 Kingo 上。
智客ZhiKer:Kingo 的關節模組有什么特點?定價和商業化計劃呢?
高繼揚:關節模組的話,我們整機全部用 EC 通信,同步性是行業里最好的,但研發難度也最大。為此我們在流控和中空設計上下了不少功夫,電機的電磁仿真、減速器設計上也做了很多優化。性能在第一梯隊。
成本的話,這類產品的 BOM 最終會穩定在 1 萬美金左右,大概兩年內能做到。但成本本身不決定能不能商業化,關鍵在于大腦能干什么活。發達國家勞動力一年大概 4 到 5 萬美金,如果硬件一萬美金、一年回本,剩下三四萬美金就是智能的空間。
整機和供應鏈是有限游戲,智能和應用才是無限游戲。做整機是為了拿到后面無限游戲的入場券。
智客ZhiKer:Kingo 搭載本能智能模型后,未來的落地場景有哪些?
高繼揚: 本能模型最初級階段就是做強化學習能做的事,跳舞、跑跳、行走,對應的是展演展示的商業化。能力再往上走,下一步是全身遙操作,等于有了一個遠程化身,可以做電站巡檢之類的輕作業。再往后,本能智能跟作業智能融合起來,就能進制造業、建筑業這些非結構化場景做重活了。
不過有一點要說清楚,在平地這種結構化場景里,輪式雙臂其實更有優勢,雙足反而噪音大、效率低。(本文首發鈦媒體APP,文 | 智客Zhiker,作者|郭虹妘 )
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.