![]()
不僅是比特,不僅是語言。
文丨實(shí)習(xí)生裴雨桐
訪談丨程曼祺
2026 年一季度,全球具身智能領(lǐng)域新變化頻出:英偉達(dá)連續(xù)發(fā)布世界動(dòng)作模型多個(gè)成果,Sharpa 展示高自由度靈巧手的長程任務(wù),宇樹、銀河等中國人形機(jī)器人公司拿出了更高水平的實(shí)機(jī)演示。而宇樹發(fā)布的招股書,也讓市場得以窺見人形機(jī)器人公司的具體財(cái)務(wù)情況。
《晚點(diǎn) LatePost》出品的商業(yè)科技播客《晚點(diǎn)聊》推出第一期具身智能季報(bào),邀請 Alphaist Partners 創(chuàng)始合伙人陳哲 Peter 作為分享嘉賓。
過去七年,陳哲在五源專注投資機(jī)器人和硬件科技,投資過海柔、松靈、本末、地瓜等公司。
這期季度總結(jié),陳哲 分享了三月中旬去 GTC 與全球從業(yè)者的交流,同時(shí)也帶到了過去兩年具身智能的發(fā)展。
在討論人形機(jī)器人的部分,我們盤點(diǎn)了中美幾家頭部公司,如宇樹、銀河、特斯拉 Optimus、Figure 的近期進(jìn)展,以及那些在智能能力或數(shù)據(jù)上給行業(yè)帶來啟發(fā)的公司,如 Pi、Sunday 和 Generalist。
接著重點(diǎn)討論了當(dāng)前具身智能的兩個(gè)前沿研究方向:靈巧手和世界模型。分別以 Sharpa 和英偉達(dá)的近期進(jìn)展作為討論重點(diǎn)。
以下是播客的文字整理,有部分精簡。
Q1 核心進(jìn)展與中國玩家:專注成就宇樹 G1 的成功
晚點(diǎn):如果要評選 2026 年 Q1 具身智能領(lǐng)域的 top 5 進(jìn)展或事件,你會選擇哪幾個(gè)?
陳哲:一是宇樹科技在春晚的表演。 20 多臺宇樹機(jī)器人帶來現(xiàn)場功夫表演,代表了目前中國在本體與運(yùn)動(dòng)控制方面的最高水平。
二是 Sharpa 在 CES 上展示的靈巧手 demo。他們演示了自主組裝風(fēng)車的長程任務(wù),展現(xiàn)了目前全球靈巧手領(lǐng)域的 SOTA(State Of The Art,最先進(jìn)水平)。這家具身智能公司的創(chuàng)始人正是禾賽科技的三位創(chuàng)始人。
三是世界模型的突破。代表是英偉達(dá)發(fā)布的 DreamZero 和 DreamDojo 兩個(gè)應(yīng)用于機(jī)器人的世界模型。這項(xiàng)嘗試最早源于字節(jié)跳動(dòng)在 2024 年底發(fā)布的 GR-2,那是首次將互聯(lián)網(wǎng)級別的視頻內(nèi)容應(yīng)用于具身模型的預(yù)訓(xùn)練過程,并直接生成動(dòng)作與操作。在當(dāng)時(shí),這是 VLA 之外的一條創(chuàng)新路徑。今年,包括英偉達(dá)在內(nèi)的更多公司都在這條路徑上做了大量優(yōu)化,取得了更好的效果。
四是銀河通用在春節(jié)后發(fā)的機(jī)器人打網(wǎng)球 demo,展示了人形機(jī)器人能在需要高速和即時(shí)反饋的系統(tǒng)中表現(xiàn)優(yōu)異。雖距離商業(yè)化還比較遠(yuǎn),但它讓大家看到了在現(xiàn)有硬件和算力基礎(chǔ)上實(shí)現(xiàn)實(shí)時(shí)任務(wù)的可能性。
![]()
銀河通用展示人形機(jī)器人打網(wǎng)球 demo。
五是波士頓動(dòng)力 在今年 CES 上宣布量產(chǎn)全新電動(dòng)版 Atlas。作為人形機(jī)器人研究的鼻祖,他們對困難場景和落地價(jià)值有長期的深入研究。電動(dòng)版 Atlas 反映了他們對人形機(jī)器人進(jìn)入工業(yè)場景及實(shí)際落地的新思考。作為歐美在人形機(jī)器人領(lǐng)域最快實(shí)現(xiàn)量產(chǎn)的代表,其技術(shù)思路對全行業(yè)都有重要參考價(jià)值。
這些進(jìn)展是我基于長期關(guān)注該領(lǐng)域的投資人視角,從技術(shù)、市場、商業(yè)維度的綜合觀察,不完全代表純學(xué)術(shù)突破。
晚點(diǎn):去年宇樹上春晚時(shí),很多業(yè)內(nèi)人士還不以為然,覺得動(dòng)作是靠機(jī)械裝置取巧;但今年春晚表演后,業(yè)內(nèi)認(rèn)可度很高。這背后的變化是什么?
陳哲:2025 年機(jī)器人的運(yùn)動(dòng)控制技術(shù)發(fā)展極其迅速。宇樹這次春晚表演所用到的技術(shù)與控制技巧,背后的學(xué)術(shù)成果大多是 2025 年中旬甚至下半年才發(fā)布的。宇樹將這些前沿工作在春晚舞臺上集中展現(xiàn),效果非常驚艷。
核心變化是動(dòng)捕和模仿學(xué)習(xí)能力的提升:能更快速地將真人的動(dòng)作遷移到人形機(jī)器人上。同時(shí),更先進(jìn)的強(qiáng)化學(xué)習(xí)訓(xùn)練工具,讓具身系統(tǒng)能在虛擬環(huán)境中將粗糙的動(dòng)捕數(shù)據(jù)轉(zhuǎn)化為更穩(wěn)定的策略,并執(zhí)行在實(shí)體機(jī)器人上。簡而言之,就是先通過動(dòng)捕或遙操作錄制人的動(dòng)作,再在仿真器中不斷進(jìn)行強(qiáng)化學(xué)習(xí)迭代,使其變得更穩(wěn)定、更魯棒,最終完美遷移到宇樹的機(jī)器人本體上。
同時(shí),20 臺機(jī)器人同臺表演,有整齊劃一的部分,也有多臺機(jī)器人配合的部分,這反映了宇樹 G1 機(jī)器人在機(jī)電能力絕對性能和一致性上的巨大優(yōu)勢。
“一致性” 是最大的亮點(diǎn),20 多臺量產(chǎn)機(jī)器人同時(shí)完成彈射、大回環(huán)、連續(xù)翻滾等復(fù)雜動(dòng)作,且在不同環(huán)境干擾下保持高度一致。這不僅需要精心調(diào)參,更對硬件質(zhì)量控制和運(yùn)控算法穩(wěn)定性提出了極高要求。這是宇樹目前相較其他公司最大的優(yōu)勢。
晚點(diǎn):多年前波士頓動(dòng)力的視頻中,機(jī)器人也能做跑酷、空翻等類似真人的動(dòng)作。宇樹現(xiàn)在的成果和波士頓動(dòng)力當(dāng)年的表現(xiàn)有什么區(qū)別?
陳哲:那個(gè)年代波士頓動(dòng)力的跑酷動(dòng)作,基本是靠老專家使用傳統(tǒng)控制算法(如 MPC,model-predictive control,模型預(yù)測控制器)精心調(diào)出來的。而現(xiàn)在的底層控制策略,是通過強(qiáng)化學(xué)習(xí)、仿真和端到端方法訓(xùn)練的,原理截然不同,對環(huán)境擾動(dòng)的適應(yīng)能力遠(yuǎn)超當(dāng)年的波士頓動(dòng)力。
此外,波士頓動(dòng)力的視頻是經(jīng)過精心剪輯的,背后有大量失敗的嘗試。即使是單臺機(jī)器完成長序列跑酷,成功率也不高。而宇樹這次是 20 多臺機(jī)器人在臺上實(shí)時(shí)保持高度一致,對可靠性的要求高了幾個(gè)量級。
另一點(diǎn)不同是,近一年,大量的跑酷和舞蹈動(dòng)作開始加入視覺反饋和定位能力。這次上臺的 G1 機(jī)器人,每臺頭頂都配備了激光雷達(dá),具備了初步的建圖和定位能力。
晚點(diǎn):這是取得進(jìn)展的部分。另一方面,目前大眾對人形機(jī)器人有哪些夸大的想象?
陳哲:很明顯,目前的舞蹈或表演動(dòng)作,本質(zhì)上還是事先編排好的固定程序。如果機(jī)器人受到強(qiáng)干擾,很難自主決策。而且這些表演主要集中在全身或下肢運(yùn)動(dòng),基本沒有涉及上肢操作能力。而當(dāng)前具身智能的大量研究,核心恰恰在于操作以及對復(fù)雜任務(wù)的理解。
晚點(diǎn):從宇樹招股書披露的財(cái)務(wù)信息和產(chǎn)品收入構(gòu)成看,你認(rèn)為有哪些值得注意的點(diǎn)?
陳哲:宇樹的人形機(jī)器人業(yè)務(wù)增長非常快。2023 年發(fā)布第一款人形機(jī)器人 H1,2024 年發(fā)布 G1。隨著 G1 熱銷,人形機(jī)器人收入占比迅速攀升,23 年還不到 2%,25 年前三季度已超過 50%。這表明宇樹未來將以人形機(jī)器人為核心。四足機(jī)器人長期來看可能會在特定場景中保持穩(wěn)定的市場。
機(jī)器人行業(yè)現(xiàn)在是典型的供給驅(qū)動(dòng),而沒到需求驅(qū)動(dòng),因?yàn)檫€在行業(yè)早期。就是一旦有了穩(wěn)定、可量產(chǎn)的好產(chǎn)品的供給,銷量自然會來。好的供給,本身可以打開一些之前想不到的市場需求。
晚點(diǎn):我看招股書印象最深的是,宇樹人形機(jī)器人的高毛利率。2025 年前三季度毛利率達(dá)到 63%。在軟硬一體的智能硬件產(chǎn)品中,這算非常高了吧?
陳哲:這主要是因?yàn)槟壳叭诵螜C(jī)器人還未進(jìn)入真正的商業(yè)化落地場景,絕大部分是賣給科研市場。科研市場規(guī)模小、訂單分散,傳統(tǒng)科研教具有 70%-80% 的毛利率很正常。宇樹目前的定價(jià),一方面是因?yàn)槭袌鋈狈Ω偁帲硪环矫嬉彩且驗(yàn)榭蒲惺袌鰧r(jià)格敏感度不高。
其實(shí)更有意思的問題是:宇樹 G1 發(fā)布了 20 個(gè)月,為什么至今沒有第二家公司真正挑戰(zhàn)它的地位?
晚點(diǎn):所以為什么呢?
陳哲:G1 的產(chǎn)品定義極其成功,它完全是為科教市場量身定制的。宇樹的第一款人形機(jī)器人 H1,你可以理解為是讓一只大型四足機(jī)器狗站起來。但 G1 是宇樹第一臺正向設(shè)計(jì)的人形機(jī)器人。身高從 1.8 米降到了 1.3 米左右。隨之而來的是重量大幅下降,這對電機(jī)功率密度、運(yùn)動(dòng)性能以及電池續(xù)航都有巨大幫助。
之所以能縮小尺寸,也是因?yàn)樵诳蒲袌鼍埃慌_ 1.3 米的機(jī)器人能做的研究與 1.8 米全尺寸機(jī)器人基本沒區(qū)別。因?yàn)楫a(chǎn)品定義精準(zhǔn)契合了場景需求,其他公司很難在這個(gè)細(xì)分領(lǐng)域去跟隨或競爭。
晚點(diǎn):科研是一個(gè)好市場嗎?朱嘯虎曾公開表達(dá),科研和表演都不是持續(xù)性的市場。
陳哲:所以很長一段時(shí)間里,投資人并不看好它做科教市場。如果你回到 2020 年或 2021 年,全球科研市場規(guī)模也就 10 億人民幣左右。
其實(shí)早幾年的宇樹,從來就不是一個(gè)被投資人喜歡的公司,最初融資很難。在人形機(jī)器人大規(guī)模商業(yè)化遙遙無期的情況下,很難投一個(gè)天花板如此低的市場。
除了產(chǎn)品定義,硬件的壁壘在于長期的驗(yàn)證與測試。做出一兩臺樣機(jī)容易,但要實(shí)現(xiàn)成千上萬臺的可靠量產(chǎn),需要極高的供應(yīng)鏈打磨和質(zhì)量控制能力。在做 G1 之前,宇樹已經(jīng)銷售了幾萬臺四足機(jī)器人,真正走過了百萬臺電機(jī)的設(shè)計(jì)、生產(chǎn)和量產(chǎn)流程。這種時(shí)間成本和硬件門檻,是所有新入局者必須跨越的。大模型公司的領(lǐng)先優(yōu)勢可能只有 3 到 6 個(gè)月,但硬件公司的優(yōu)勢可能會維持 12 到 24 個(gè)月。
晚點(diǎn):宇樹下一階段靠什么發(fā)展?現(xiàn)在大家明顯看到更大的機(jī)會在于機(jī)器人的智能,即大腦和小腦結(jié)合的部分。這也被視為宇樹的相對短板。根據(jù)招股書,25 年前 3 季度,宇樹的研發(fā)費(fèi)用只有 9000 萬。
陳哲:他這種在經(jīng)營上的謹(jǐn)慎是刻在基因里的,如果王興興不是這樣一個(gè)人,不是這樣一個(gè)創(chuàng)始人,宇樹活不到具身智能熱潮到來的這一天。
王興興和汪滔很像,他們都是為了熱愛而創(chuàng)業(yè),而不是因?yàn)榭吹揭粋€(gè)巨大的商業(yè)機(jī)會才創(chuàng)業(yè)。前幾天我見一個(gè)投資前輩,2017 年王興興就去找他融資,他問王興興你這個(gè)可以做什么?王興興答不上來,他也應(yīng)該答不上來。
宇樹之前一直專注做好機(jī)器人本體,在 AI 或模型相關(guān)的研發(fā)投入上相對較少。所以宇樹是個(gè)盈利的公司,否則也很難生存。就是前面說的,它很長時(shí)間不被投資市場看好。
但這次招股書顯示,他們計(jì)劃用募資的 42 億元里的一半投入大腦研究,并且在積極推進(jìn)開源工作。我對他們的長期突破有期待。
晚點(diǎn):很多新的具身智能公司中,會有 AI 背景創(chuàng)始人、聯(lián)創(chuàng)或高管。但宇樹的核心管理層里沒有深度學(xué)習(xí)背景的領(lǐng)軍人物,這會是一個(gè)問題嗎?以及,是否一定要有這樣的人才能做好具身大腦?
陳哲:宇樹是以王興興為絕對核心的公司。我的判斷是,宇樹在大腦或智能層面,長期會采取跟隨策略。
晚點(diǎn):這種策略足以維持宇樹的整體競爭力嗎?
陳哲:我認(rèn)為足夠了。具身智能模型的價(jià)值體現(xiàn)離不開硬件本體。對宇樹而言,最關(guān)鍵的是占據(jù)全球科研人形機(jī)器人市場 “事實(shí)標(biāo)準(zhǔn)” 的生態(tài)位。只要保持這個(gè)生態(tài)位,哪怕其他公司推出了極優(yōu)秀的閉源具身模型,宇樹也能連帶受益。同時(shí),行業(yè)玩家也會持續(xù)在宇樹的硬件上開發(fā)高性能開源模型。
晚點(diǎn):宇樹預(yù)計(jì) 2026 年人形機(jī)器人出貨量能達(dá)到 1 到 2 萬臺,是 2025 年的兩到三倍。你覺得能實(shí)現(xiàn)嗎?
陳哲:我覺得沒問題。隨著春晚的爆火和 G1 表現(xiàn)力的成熟,未來一兩年會有廣泛且持續(xù)的表演和租賃需求。最近一家專注于人形機(jī)器人租賃的公司 “擎天租” 的估值都已達(dá)到 30 億人民幣。從需求看,一年一兩萬臺的銷量都是線性的預(yù)測,甚至可能更多,主要取決于宇樹愿意投入多少產(chǎn)能。
晚點(diǎn):接下來我們聊聊銀河通用的網(wǎng)球機(jī)器人,印象中機(jī)器人打乒乓球、打網(wǎng)球早就有相關(guān)的創(chuàng)業(yè)項(xiàng)目和產(chǎn)品了,比如專門陪練的網(wǎng)球發(fā)球機(jī)或輪式機(jī)器人。從銀河通用用人形機(jī)器人打網(wǎng)球這件事上,你看到了怎樣的技術(shù)進(jìn)展?
陳哲:正因?yàn)槲铱催^很多打網(wǎng)球的機(jī)器人創(chuàng)業(yè)項(xiàng)目,才深知一個(gè)實(shí)時(shí)網(wǎng)球機(jī)器人的技術(shù)復(fù)雜度。網(wǎng)球球速極快,可達(dá) 100 公里 / 小時(shí)。在有限的球場空間內(nèi),留給機(jī)器人進(jìn)行軌跡預(yù)判和實(shí)時(shí)響應(yīng)的時(shí)間非常短。
所以對于自由度更高、更復(fù)雜的人形機(jī)器人而言,要在極短時(shí)間內(nèi)完成球路識別、判斷,并控制全身完成揮拍擊球動(dòng)作,以 2026 年初的技術(shù)棧來看,是一項(xiàng)極其復(fù)雜的系統(tǒng)工程。銀河的這個(gè) demo 真正實(shí)現(xiàn)了實(shí)時(shí)感知決策與全身控制的閉環(huán),這與預(yù)先編排好的跳舞或武術(shù)表演完全不同。
從技術(shù)角度看,這個(gè) demo 沒有顛覆性的學(xué)術(shù)創(chuàng)新。據(jù)我所知,他們是在春節(jié)期間租了網(wǎng)球場,利用大量動(dòng)捕設(shè)備采集數(shù)據(jù),并對模型進(jìn)行了反復(fù)的強(qiáng)化學(xué)習(xí)訓(xùn)練。這更多體現(xiàn)了公司在復(fù)雜系統(tǒng)工程上的強(qiáng)大執(zhí)行力。
但對我而言,它最大的啟發(fā)在于拓寬了我們對人形機(jī)器人能力的想象邊界。在它出現(xiàn)前,很難想象人形機(jī)器人已經(jīng)能完成這類任務(wù)。當(dāng)時(shí) Andrej Karpathy 在 X 上看到銀河的這個(gè)視頻時(shí),第一反應(yīng)也是 “這不可能是真機(jī)做出來的,肯定是 AI 生成的”。
像近期 Figure 發(fā)布的全身運(yùn)控 demo 也是類似的情況,動(dòng)作非常絲滑自然,雖然經(jīng)過了精心的編排和剪輯,但確實(shí)是真機(jī)自主執(zhí)行的,展示了人形機(jī)器人的潛力。
晚點(diǎn):這些具體的展示場景,未來能遷移到其他應(yīng)用上嗎?
陳哲:網(wǎng)球這個(gè)具體場景確實(shí)很具體,而且它大概率不是依靠機(jī)器人本體(onboard)的算力和視覺來處理球路的,而是借助了球場外部的高幀率攝像頭,且運(yùn)算可能也不在端側(cè)(on device)。
但計(jì)算機(jī)科學(xué)的發(fā)展經(jīng)驗(yàn)告訴我們:只要這件事情被證明 “能做”,人類就一定能找到優(yōu)化的方法,讓它在更小算力、更少資源下實(shí)現(xiàn)。所以,“能不能做” 是第一步且最關(guān)鍵的,“怎么優(yōu)化” 是第二步。
這個(gè) demo 的意義是既有下肢的高復(fù)雜度、快速移動(dòng),又有上肢復(fù)雜操作,展現(xiàn)了全身運(yùn)控優(yōu)化的能力。
晚點(diǎn):總結(jié)一下,像宇樹、銀河通用、智元、魔法原子等中國全人形機(jī)器人公司,在 Q1 的整體表現(xiàn)和進(jìn)展如何?
陳哲:整體表現(xiàn)超預(yù)期,一個(gè)趨勢就是全身運(yùn)控能力。
在 2024 年和 2025 年,機(jī)器人的上肢操作(manipulation)和下肢運(yùn)動(dòng)(locomotion)還是兩個(gè)獨(dú)立的控制體系。但從今年開始,隨著硬件成熟、算法演進(jìn)和數(shù)據(jù)積累,我們越來越多地看到使用單一統(tǒng)一模型進(jìn)行全身運(yùn)控和操作的趨勢。
例如,智元近期發(fā)布了新的全身運(yùn)控工作, 英偉達(dá)也發(fā)布了 Sonic 全身運(yùn)控框架。
這標(biāo)志著一個(gè)新范式的端倪。未來 12 個(gè)月,這種發(fā)展的復(fù)利和加速度將非常驚人。只要這個(gè)統(tǒng)一控制的范式被確立,就會有更多人去迭代和改進(jìn)。我現(xiàn)在很難想象,到 2027 年春晚時(shí),人形機(jī)器人會展現(xiàn)出怎樣驚艷的表現(xiàn)。
晚點(diǎn):這里有個(gè)老生常談的問題。很多人認(rèn)為雙足形態(tài)的價(jià)值并不大,不是讓機(jī)器人快速落地的最高優(yōu)先級。
陳哲:我以前也是這么認(rèn)為的。
晚點(diǎn):那你是什么時(shí)候,因?yàn)槭裁锤淖兞讼敕ǎ?/strong>
陳哲:就在最近這個(gè)季度,我受到的沖擊很大。
我認(rèn)為機(jī)器人行業(yè)的制約是供給受限,當(dāng)機(jī)器人能穩(wěn)定交付某種能力時(shí),就會快速釋放大量價(jià)值。
但我之前覺得,人形結(jié)構(gòu)的實(shí)現(xiàn)難度太大了,相當(dāng)于形成穩(wěn)定供給的困難遠(yuǎn)大于它的好處和價(jià)值。但我最近看了波士頓動(dòng)力的幾段訪談,深受啟發(fā)。過去我們說人形的價(jià)值,老生常談的理由就是,世界是為人類設(shè)計(jì)的,所以人形最通用形態(tài)。但在平整、結(jié)構(gòu)化的工廠環(huán)境里,輪式機(jī)器人已經(jīng)完全能滿足移動(dòng)需求。
然而,事實(shí)并非如此簡單。一個(gè)人形機(jī)器人在結(jié)構(gòu)化環(huán)境中穩(wěn)定移動(dòng),大約只需要 40×60 厘米的空間,就是人站立所需要的位置。而且由于腿部和身體擁有極高的自由度,它可以下探到地面,也可以向上觸達(dá) 2.3 米的高度,并能輕松搬運(yùn) 10 到 20 公斤的箱子。
相比之下,如果用輪式機(jī)器人實(shí)現(xiàn)同樣的功能,例如搬運(yùn)重物并覆蓋較大的高度范圍,其復(fù)雜度甚至遠(yuǎn)超人形。
晚點(diǎn):輪式底盤一般需要占多大面積?
陳哲:肯定遠(yuǎn)大于 40×60 厘米。輪式機(jī)器人最大的挑戰(zhàn)是重心問題。以波士頓動(dòng)力的復(fù)合機(jī)器人 Stretch 為例。它是在一個(gè)巨大的 AGV 底盤上加裝了單臂機(jī)械臂,為了能從高處取下約 20 公斤的箱子而不發(fā)生傾覆,整個(gè) Stretch 的重量達(dá)到了一噸左右。
而人體結(jié)構(gòu)非常神奇,我們可以通過動(dòng)態(tài)調(diào)節(jié)重心和姿態(tài)來輕松完成同樣的取放動(dòng)作。一個(gè)全尺寸人形機(jī)器人可能只有 60 到 80 公斤重,與近一噸的 Stretch 相比,總重量差了十幾倍。而越大的重量就意味著越多成本和能耗。
再分享一個(gè)我最新的認(rèn)知:如果想做一個(gè)在空間內(nèi)移動(dòng)性極佳的輪式機(jī)器人,最理想的方案是 “四輪四轉(zhuǎn)”,這至少需要 8 個(gè)主動(dòng)電機(jī)。如果還要像人形機(jī)器人一樣適配不同高度,還需要增加復(fù)雜的升降結(jié)構(gòu)和更多電機(jī)。從電機(jī)數(shù)量和結(jié)構(gòu)復(fù)雜度來看,這也不必然比雙足容易。
晚點(diǎn):所以,在實(shí)現(xiàn)同等性能時(shí),輪式機(jī)器人的復(fù)雜度、成本并不一定比人形低。而一旦人形機(jī)器人的技術(shù)成熟,它能解鎖許多輪式形態(tài)無法觸達(dá)的場景。
陳哲:是的。而且波士頓動(dòng)力的新版電動(dòng) Atlas 給了我們一個(gè)重要信號:人形機(jī)器人不一定非要完全模仿人類的物理限制,它可以成為 “超人”。人體的現(xiàn)有結(jié)構(gòu)是大自然進(jìn)化的偶然結(jié)果,機(jī)器人完全可以超越它。
晚點(diǎn):波士頓動(dòng)力新版電動(dòng) Atlas 在哪些方面超越了人類結(jié)構(gòu)?
陳哲:首先是高度模塊化的設(shè)計(jì)。過去的工業(yè)機(jī)械臂,每個(gè)關(guān)節(jié)的電機(jī)和減速器都是專門定制的復(fù)雜串聯(lián)結(jié)構(gòu);后來的協(xié)作臂將電機(jī)簡化為少數(shù)幾種標(biāo)準(zhǔn)件。Atlas 采用了類似邏輯,放棄了復(fù)雜的電機(jī)結(jié)構(gòu),全身使用簡單的旋轉(zhuǎn)電機(jī),通過性能冗余實(shí)現(xiàn)多功能化。這大大降低了生產(chǎn)、組裝和維修的難度。
其次,它打破了人體的物理限制。它的頭部、軀干以及各個(gè)關(guān)節(jié)都可以進(jìn)行 360 度完整旋轉(zhuǎn)。例如,如果人類需要從面朝北轉(zhuǎn)身到面朝南,需要腿和身體配合走好幾步;而 Atlas 只需要腰部電機(jī) 360 度旋轉(zhuǎn)即可。它甚至不分左右腿、左右手,結(jié)構(gòu)可以互換。
這種高度模塊化、打破生理限制的設(shè)計(jì),不僅提高了場景適應(yīng)度,更極大地降低了制造和維護(hù)成本。我之所以特別提到波士頓動(dòng)力這一轉(zhuǎn)變,是因?yàn)樗羁唐鹾狭嗣绹?dāng)前制造業(yè)缺乏熟練技術(shù)工人的現(xiàn)狀——通過結(jié)構(gòu)的簡化和性能的冗余,來解決復(fù)雜的安裝和維修難題。
美國重點(diǎn)公司盤點(diǎn):波士頓動(dòng)力 Atlas 走向 “超人”,Optimus 的繩驅(qū)之困與 Figure 的順勢而為
晚點(diǎn):前面我們聊的都是中國公司以及你對人形機(jī)器人形態(tài)必要性的新認(rèn)知,接下來我們聊聊美國具身智能領(lǐng)域的進(jìn)展。首先,目前業(yè)界最關(guān)注的美國人形機(jī)器人公司有哪些?
陳哲:最受關(guān)注、聲量最大的無疑是特斯拉的 Optimus,其次是目前融資最多、估值最高的 Figure AI。老牌一些的包括波士頓動(dòng)力,還有一些創(chuàng)業(yè)公司,比如挪威的 1X 和德州的 Apptronik(Apollo 機(jī)器人)。但市場的核心焦點(diǎn)依然是 Optimus 和 Figure。
晚點(diǎn):像大家經(jīng)常提到的 Pi、Sunday、Generalist 等,他們不算做全人形硬件的公司,而是以模型和智能為核心的公司,是嗎?
陳哲:是的,其中 Sunday 也做硬件,可以算模型+輕硬件的公司。
晚點(diǎn):先從 Optimus 聊起。它是掀起這輪人形機(jī)器人風(fēng)潮的引領(lǐng)者,也激發(fā)了中國一批公司創(chuàng)業(yè)。馬斯克前陣子在采訪中表示,Optimus 的第三代(Gen 3)已經(jīng)設(shè)計(jì)定型。但我們從中國供應(yīng)鏈了解的情況是,它原計(jì)劃在 4 月發(fā)布,現(xiàn)在可能要延期到 6 月下旬;原定今年 10 月的量產(chǎn)計(jì)劃也可能延期到明年。
陳哲:這符合預(yù)期。我之前聽說的最早計(jì)劃是今年 3 月或 Q1 發(fā)布,進(jìn)度一直在 delay。行業(yè)里有句玩笑:“Elon is always right, but his timing is always wrong.”(伊隆·馬斯克總是對的,但他的時(shí)間表總是錯(cuò)的。)。
據(jù)我了解,Gen 3 無論在硬件還是軟件上都面臨巨大挑戰(zhàn)。硬件方面,最大的挑戰(zhàn)是 “手”。他們正在研發(fā)一種非常有野心的高自由度 “腱繩驅(qū)動(dòng)” 方案,這在量產(chǎn)和可靠性上遇到了極大阻力。
不過另一方面,Optimus 今年的量產(chǎn)目標(biāo)還是挺激進(jìn)的,馬斯克的預(yù)期是至少是 1 萬臺左右。
晚點(diǎn):1 萬臺?比他之前說的目標(biāo)又縮水了。
陳哲:確實(shí)在縮水。之前可能說過 2025 年要實(shí)現(xiàn)萬臺甚至 2026 年十萬、百萬臺。但考慮到現(xiàn)在已經(jīng) 4 月了,即使是 1 萬臺的產(chǎn)量,挑戰(zhàn)也極大。
晚點(diǎn):你剛才提到 Optimus 的手采用了繩驅(qū)方案。之前我們和供應(yīng)鏈交流時(shí),了解到特斯拉其實(shí)也在考慮電機(jī)直驅(qū)方案,或者說至少給部分供應(yīng)商提了一些預(yù)研需求。
陳哲:其實(shí)繩驅(qū)里也有電機(jī),只是位置不同。目前的繩驅(qū)方案是將大量電機(jī)放置在前臂,而不是手掌內(nèi)。而像 Sharpa 這樣的直驅(qū)方案,是把電機(jī)直接放在每個(gè)指節(jié)的關(guān)節(jié)處。這是兩種完全不同的設(shè)計(jì)理念。
馬斯克選擇繩驅(qū)方案,是因?yàn)樗J(rèn)為這是一種更符合 “第一性原理” 的仿生方案。
晚點(diǎn):是因?yàn)槿耸志褪强考∪夂图‰靵眚?qū)動(dòng)的嗎?
陳哲:對,為了實(shí)現(xiàn)高度仿人的靈巧性,馬斯克認(rèn)為繩驅(qū)是必由之路。但這帶來的工程問題非常多,這也是過去一年里我聽到他們在靈巧手上遇到巨大挑戰(zhàn)的原因。
組裝一只高自由度的繩驅(qū)靈巧手,意味著要在手腕和手掌狹小的空間內(nèi)穿入 40 多根不同的腱繩,必須解決它們在一致性、蠕變和可靠性等種種問題。一旦某根腱繩松動(dòng)或損壞需要替換,重新組裝和維修的難度極大。
晚點(diǎn):聽起來像是在做手部外科手術(shù)。
陳哲:是的。有一個(gè)很有意思的問題,我們都說馬斯克選擇繩驅(qū)是因?yàn)檫@更符合 “第一性原理”。但也有 Tesla 工程師提出疑問:既然已經(jīng)使用了電機(jī)和腱繩,它本身就不是肌肉,又何談第一性類比?
人的肌肉和組織是可以再生的,拉傷后可以通過休息和訓(xùn)練康復(fù)。但對于腱繩、電機(jī)或齒輪來說,磨損是不可逆的。而且,人體肌肉擁有極高的能量密度和力矩密度,這是現(xiàn)有的電機(jī)遠(yuǎn)無法比擬的。用一個(gè)完全不是肌肉的東西去強(qiáng)行模仿肌肉的結(jié)構(gòu),并期望達(dá)到同樣的性能,這本身可能并不符合第一性原理。
晚點(diǎn):如果工程師有這種疑慮,他們能在 Optimus 內(nèi)部向馬斯克反饋嗎?
陳哲:在技術(shù)路線的選擇上,馬斯克非常強(qiáng)勢。就像當(dāng)年他堅(jiān)持做自動(dòng)駕駛的純視覺方案和端到端路徑一樣。
作為一個(gè)行業(yè)觀察者,我也很糾結(jié)。從歷史上看,馬斯克在很多長期技術(shù)路線的判斷上,最終都被證明是對的,哪怕當(dāng)時(shí)他對抗了市場上所有的聲音。在 AutoPilot 早期,大約 16、17 年,很多人也不相信純視覺和端到端的前瞻愿景,但過去幾年通過工程和技術(shù)的不斷努力,這個(gè)愿景正在實(shí)現(xiàn)。
所以,繩驅(qū)靈巧手是否會經(jīng)歷同樣的逆襲,我目前說不準(zhǔn)。但至少 Optimus 在 2026 年要量產(chǎn) 1 萬臺,它必然會面臨巨大的工程挑戰(zhàn)。
晚點(diǎn):接下來我們聊聊目前融資最多、估值最高的人形機(jī)器人創(chuàng)業(yè)公司 Figure,從業(yè)者者對它的評價(jià)是:一方面覺得它總能發(fā)布驚艷成果,另一方面又覺得這家公司風(fēng)格浮夸。
陳哲:確實(shí)浮夸,我覺得他們值得拿一個(gè) “奧斯卡最佳影視特效獎(jiǎng)”。這可能與創(chuàng)始人 Brett Adcock 的經(jīng)歷有關(guān)。他非常善于向投資人傳達(dá)愿景和故事。
晚點(diǎn):他創(chuàng)辦 Figure 之前在做什么?
陳哲:他之前創(chuàng)辦了一家名為 Archer 的飛行汽車(eVTOL,垂直起降飛行器)公司。大概在 2021 年公司上市后不久,他就離開了并創(chuàng)辦了 Figure。再之前,他也成功賣掉過自己的第一家創(chuàng)業(yè)公司。
Brett 的特點(diǎn)是:總能精準(zhǔn)踩中下一個(gè)創(chuàng)業(yè)熱點(diǎn),吸引一群認(rèn)可他愿景的投資人。而且從歷史記錄看,他的核心訴求似乎是快速把公司賣掉或推向上市。事實(shí)上,他確實(shí)從 Archer 套現(xiàn)退出了,而 eVTOL 行業(yè)至今仍處于非常早期的階段。我還聽說他最近又成立了一家智能硬件新公司,并投入了大量資金。
這種連續(xù)快速退出的背景,讓市場懷疑 Brett 是否具備足夠的專注度和韌性去死磕人形機(jī)器人。
晚點(diǎn):為什么以前大家對馬斯克沒有這種質(zhì)疑?
陳哲:因?yàn)轳R斯克把事情做成了。在特斯拉或 SpaceX 真正成功之前,大眾可能也分不清他到底是個(gè) visioner(有愿景的人)還是騙子。
所以 Brett 到底是不是一個(gè)長期主義的創(chuàng)始人,目前存在爭議。但不可否認(rèn),2023 年 Figure 成立時(shí)雖飽受質(zhì)疑,甚至 Brett 自己也不太懂機(jī)器人,早期吸引的很多頂尖技術(shù)人才也陸續(xù)離職了;但隨著行業(yè)快速爆發(fā)和資源集中,過去一兩年 Figure 確實(shí)交出了非常扎實(shí)的成果。他們發(fā)布的幾款人形機(jī)器人以及全身運(yùn)控的 demo,證明了他們在該領(lǐng)域是有干貨的。
晚點(diǎn):Figure 是一家軟硬件都在做的公司。他們在模型這塊的業(yè)界評價(jià)如何?
陳哲:他們比較早地公布了 Helix AI 的三層架構(gòu)邏輯,實(shí)現(xiàn)了一套從低頻、中頻到高頻的全身統(tǒng)一運(yùn)控算法框架。從 demo 效果和內(nèi)部了解到的信息來看,他們的能力在市場上非常領(lǐng)先。當(dāng)然,除了 Optimus,美國目前也沒有太多真正在做全尺寸人形硬件和模型的公司。在這一點(diǎn)上,F(xiàn)igure 代表了目前美國市場的最高水平。
晚點(diǎn):Figure 融了很多錢,說明美國也有資金愿意支持這個(gè)方向。但為什么美國這類公司很少?而國內(nèi)在 2025 年下半年還不斷涌現(xiàn)新的具身智能創(chuàng)業(yè)公司。
陳哲:這與美國制造業(yè)、機(jī)器人硬件供應(yīng)鏈的整體衰退密切相關(guān)。在中國,大家開玩笑說花幾百萬就能攢出一臺人形機(jī)器人樣機(jī),但在美國,很難想象。
Figure 之所以需要融這么多錢,某種程度上也體現(xiàn)了美國國家戰(zhàn)略意志。美國希望通過重點(diǎn)扶持頭部企業(yè),帶動(dòng)制造業(yè)回流和復(fù)興。但大量的基礎(chǔ)零部件供應(yīng)商在美國已經(jīng)不復(fù)存在了。如果 Figure 想完全在美國本土生產(chǎn)人形機(jī)器人,前期的供應(yīng)鏈建設(shè)投入將是極其巨大的。
晚點(diǎn):另一家美國可能會扶持的公司是波士頓動(dòng)力。它 1992 年就成立了,有 30 多年歷史,雖然一直沒有大規(guī)模商業(yè)化,甚至被多次收購轉(zhuǎn)手,但一直活到了現(xiàn)在。前面提到了他們電動(dòng)版 Atlas 硬件的進(jìn)展,其實(shí)他們在 Q1 還有一項(xiàng)進(jìn)展:在模型和智能領(lǐng)域?qū)ふ伊撕献骰锇?Google DeepMind。
陳哲:這其實(shí)并不意外。一兩年前,Google DeepMind 曾與德州的 Apptronik(Apollo 機(jī)器人)合作。但據(jù)我了解,那次合作非常失敗。核心原因是 Apollo 硬件在可靠性、精度和一致性上都有問題,導(dǎo)致 Google 的研究員把大量時(shí)間耗費(fèi)在 “讓機(jī)器人能用” 上,而不是做真正有效的 AI 研究。所以,Google 轉(zhuǎn)向選擇硬件極其成熟的波士頓動(dòng)力合作,是非常明智且合理的選擇。
晚點(diǎn):Google 為什么不自己做全人形機(jī)器人的硬件呢?你之前在 Google 也做過 Google Glass 等硬件項(xiàng)目。
陳哲:像 Google、Meta 這樣的互聯(lián)網(wǎng)公司做不了硬件,骨子里缺乏這個(gè)基因。做硬件是一個(gè)極其復(fù)雜的系統(tǒng)工程,需要整個(gè)產(chǎn)業(yè)鏈和供應(yīng)鏈的深度配合。
晚點(diǎn):這是否也跟硬件的復(fù)雜度有關(guān)?比如 Meta 的 Meta Ray-Ban 智能眼鏡似乎賣得還不錯(cuò)?
陳哲:我不覺得 Meta Ray-Ban 做得有多成功。它的銷量是巨大的虧損和補(bǔ)貼支撐起來的。從收購 Oculus 到 Reality Labs 部門被降級,這十年間 Meta 在硬件上累計(jì)虧損了數(shù)百億美元。
Meta Ray-Ban 確實(shí)賣得很好,定價(jià) 299 或 399 美元,但一副普通的 Ray-Ban 墨鏡就應(yīng)該賣這個(gè)價(jià)格,而且有 90% 以上的毛利。你可以想象每賣出一副智能眼鏡,Meta 要給 Ray-Ban 補(bǔ)貼多少錢。所以我覺得眼鏡業(yè)務(wù)對 Meta 來說是一門相當(dāng)失敗的生意。
晚點(diǎn):說回 Google 和波士頓動(dòng)力的合作。他們打算如何解決生產(chǎn)制造的問題,如果不依靠中國供應(yīng)鏈的話?
陳哲:波士頓動(dòng)力目前的主要股東是現(xiàn)代汽車。作為一家汽車巨頭,現(xiàn)代在生產(chǎn)制造和供應(yīng)鏈上能提供巨大幫助。波士頓動(dòng)力的很多生產(chǎn)組裝和前期測試,都是在現(xiàn)代的工廠里完成的。這也是所謂的依靠美國盟友的力量。
晚點(diǎn):美國確實(shí)在要求日韓等具備制造能力的盟友去美國本土投資,通過這種方式來補(bǔ)足在復(fù)雜機(jī)器人本體上的制造短板,你覺得這條路走得通嗎?
陳哲:這是一條路。但就像對電動(dòng)汽車的封鎖一樣,這意味著同樣的產(chǎn)品在美國制造,需要付出兩到三倍的成本。這個(gè)高昂的成本長期來看必須由美國社會、客戶或消費(fèi)者來承擔(dān),問題是他們是否愿意買單。
靈巧手可能是一個(gè)被低估的創(chuàng)業(yè)機(jī)會
晚點(diǎn):美國還有一類專注具身模型的公司,比如被很多中國從業(yè)者視為標(biāo)桿的 Pi 等。他們在 Q1 有什么新進(jìn)展?
陳哲:Pi 除了去年發(fā)布極具影響力的 π0.6 模型外,今年 Q1 還提出了一種解決 “長期記憶” 問題的新思路,類似于 Openclaw 的做法:通過外掛上下文方式長期記錄機(jī)器人當(dāng)前狀態(tài),并對這些狀態(tài)不斷反思,以此增強(qiáng)長時(shí)間操作的一致性和穩(wěn)定性。
此外,他們還在真機(jī)強(qiáng)化學(xué)習(xí)和復(fù)雜場景執(zhí)行端的在線學(xué)習(xí)方面,提出了一些新思路和框架。整體看,Pi 在跨具身形態(tài)(Cross-Embodiment)和動(dòng)態(tài)環(huán)境適應(yīng)性方面的研究處于全球最領(lǐng)先的水平。
晚點(diǎn):剛剛提到的給模型增加長期記憶的等系統(tǒng)層的優(yōu)化,中國很多從業(yè)者也注意到了,會把它表達(dá)為:具身智能系統(tǒng)就是一個(gè)物理世界 Agent,它不僅包含基礎(chǔ)模型,還有編排層、skills、工具和記憶等,它們共同組成一個(gè)能在復(fù)雜環(huán)境中完成任務(wù)的系統(tǒng)。
陳哲:是的。關(guān)于系統(tǒng)架構(gòu),Sharpa 在今年 CES 上提了一個(gè)很有啟發(fā)的新架構(gòu),分為 3 層:System 2、System 1 和 System 0。
最上層的 System 2 是一個(gè)低頻、高維的語言規(guī)劃層。它主要接收文本輸入,負(fù)責(zé)宏觀的任務(wù)規(guī)劃。
往下的 System 1 是一個(gè)較高頻的控制層。它接收視覺、圖像信息、機(jī)器人當(dāng)前狀態(tài)以及 System 2 傳來的文本任務(wù)。它的輸出是粗略的運(yùn)動(dòng)軌跡,比如手臂關(guān)節(jié)的粗糙動(dòng)作、力矩信息、夾爪開合等。這類似目前大多數(shù) VLA 模型在做的事。
System 0 是最高頻、底層的控制模塊。它的輸入是觸覺信息以及 System 1 傳下來的粗略運(yùn)動(dòng)軌跡。當(dāng)機(jī)器人擁有粗略軌跡和實(shí)時(shí)觸覺反饋時(shí),就能實(shí)現(xiàn)具體精細(xì)動(dòng)作的閉環(huán)控制。
晚點(diǎn):在它摸到東西之前,觸覺信息從何而來?
陳哲:摸到之前是沒觸覺的。當(dāng) System 1 控制夾爪碰觸到物體時(shí),往往位置是不準(zhǔn)的,或者這種接觸狀態(tài)不足以穩(wěn)定地抓起物體。這時(shí)候 System 0 就介入了。它根據(jù)實(shí)時(shí)傳回的觸覺信息和原始的任務(wù)意圖,計(jì)算出每個(gè)手指、每個(gè)關(guān)節(jié)具體該如何微調(diào)。
晚點(diǎn):有實(shí)驗(yàn)證明,如果屏蔽人手指的神經(jīng)末梢感覺,即使看著物體,很多看似簡單的精細(xì)操作也無法完成。
陳哲:是的,甚至如果蒙上眼睛,僅靠觸覺也能完成很多任務(wù),可見觸覺信號對于最終任務(wù)的執(zhí)行至關(guān)重要。但目前主流的 VLA 模型或世界模型,訓(xùn)練數(shù)據(jù)幾乎完全沒有引入觸覺信號。所以 Sharpa 的進(jìn)展證明,當(dāng)把觸覺引入靈巧手時(shí),機(jī)器人能夠完成很多以前難以想象的復(fù)雜任務(wù)。
在一兩年前,具身智能或機(jī)器人領(lǐng)域世界前沿的研究人員可能在研究四足機(jī)器人的運(yùn)控、VLA 模型,或者兩指夾爪及 UMI(Universal Manipulation Interface,用于機(jī)器人操作的通用數(shù)據(jù)采集接口)這種結(jié)構(gòu)的靈巧操作。
而從去年開始,我接觸到的幾乎所有研究人員,都將靈巧手作為下一個(gè)方向。
晚點(diǎn):“世界模型” 不是下一個(gè)方向嗎?
陳哲:也是。但世界模型很可能是一個(gè)由大廠主導(dǎo)的研究方向。世界模型的 backbone 是視頻生成模型,對算力和資源的消耗呈指數(shù)級增長,計(jì)算量遠(yuǎn)大于文本模型。這也是為什么幾天前 OpenAI 宣布停止 Sora 產(chǎn)品。像 Google 每天在視頻生成模型上的研發(fā)和算力投入量級極其巨大,對于任何創(chuàng)業(yè)公司來說都難以想象。
晚點(diǎn):連資金雄厚的 OpenAI 也是如此嗎?還是因?yàn)樗麄兿刖劢官Y源去和 Anthropic 競爭?
陳哲:沒錯(cuò)。目前市場對 Agent 和 Coding 的需求非常明確,而 OpenAI 在這方面有些落后,需要集中精力去應(yīng)對。
但更深層的問題是,視頻生成極其消耗資源,如果沒有明確的下游消費(fèi)和變現(xiàn)場景,對公司來說就是一個(gè)巨大的、持續(xù)的資金無底洞。這也是為什么放眼全球,目前真正把視頻生成模型做到頂級的,是字節(jié)跳動(dòng)、Google、快手這樣擁有龐大 C 端應(yīng)用場景的頂級互聯(lián)網(wǎng)公司。
晚點(diǎn):現(xiàn)在研究員們做靈巧手研究時(shí),主要使用哪些公司的產(chǎn)品?這聽起來是個(gè)不錯(cuò)的創(chuàng)業(yè)機(jī)會。
陳哲:過去一年,海外研究人員使用最多的是星動(dòng)紀(jì)元的一款 12 自由度的靈巧手。但在過去三四個(gè)月,隨著 Sharpa 的靈巧手開始向海外研究機(jī)構(gòu)供貨,大家逐漸開始使用 Sharpa 的產(chǎn)品。
Sharpa 的靈巧手是在 2025 年 5 月亞特蘭大的 ICRA 會議上正式發(fā)布的。我當(dāng)時(shí)在現(xiàn)場第一次體驗(yàn),效果確實(shí)非常驚艷。
晚點(diǎn):22 個(gè)自由度,那就是和人手一樣,人手不含手腕也是 22 個(gè)自由度。
陳哲:對,要做復(fù)雜精細(xì)的操作,自由度不夠是無法完成的。今年初英偉達(dá)發(fā)布的 EgoScale 的數(shù)據(jù)框架就能很好地映射到 Sharpa 這種高自由度的靈巧手上。
晚點(diǎn):你覺得靈巧手接下來會怎么發(fā)展?
陳哲:我認(rèn)為在未來 12 到 18 個(gè)月內(nèi),市場上各家公司會展開激烈的競爭,爭奪靈巧操作和靈巧手研究的行業(yè)標(biāo)準(zhǔn),也就是 “默認(rèn)選擇” 這一生態(tài)位,類似于宇樹 G1 在人形機(jī)器人科研里的位置。這款手必須具備極高的可靠性、足夠的自由度以完成復(fù)雜操作、較低的成本,以及完善的傳感器和開發(fā)環(huán)境。
晚點(diǎn):不過 Sharpa 的目標(biāo)不止于此,Sharpa 創(chuàng)始人提到,AI 能力才是最重要的。
陳哲:他們的終極目標(biāo)是做一家通用機(jī)器人公司,而不是靈巧手供應(yīng)商。但這里面可能存在一個(gè)巨大的被低估的機(jī)會,就是成為靈巧手和精細(xì)操作研發(fā)的基礎(chǔ)設(shè)施。
我們可以從宇樹的成功路徑中吸取經(jīng)驗(yàn)。2019 年 MIT 開源了 Mini Cheetah。在此之前,市場上的四足機(jī)器人大多采用液壓或昂貴復(fù)雜的電機(jī)方案;而 Mini Cheetah 引入了準(zhǔn)直驅(qū) QDD 電機(jī)、精簡結(jié)構(gòu)和開源控制算法,讓國內(nèi)很多業(yè)余團(tuán)隊(duì)和愛好者也能快速搭建四足機(jī)器人,催生了整個(gè)生態(tài)的繁榮。
當(dāng)時(shí)涌現(xiàn)出大量創(chuàng)業(yè)公司。小米做了鐵蛋,小鵬收購了一家公司成立了鵬行智能,第一筆融資時(shí)的估值就達(dá) 5 億美金。而同期的宇樹還默默無聞。
但為什么是宇樹走到了今天?因?yàn)橥跖d興非常本分和專注。2021 到 2024 ,他就是專注服務(wù)科教市場的研究者,他們需要便宜、好用的硬件。他沒有把錢砸向虛無縹緲的 AI 研發(fā)或 C 端量產(chǎn)。正是在四足領(lǐng)域的深厚積累,讓他們順理成章地推出了人形機(jī)器人 G1。
我認(rèn)為在靈巧手市場,同樣存在一個(gè) “G1 的生態(tài)位”。但這需要極大的克制和專注去打磨產(chǎn)品,才能成為中美所有靈巧手研究者的首選方案。
晚點(diǎn):過完了中美重點(diǎn)公司的進(jìn)展,你對目前中美在具身智能領(lǐng)域的發(fā)展情況有何整體感受?行業(yè)的普遍觀點(diǎn)是:與大模型初期中國明顯落后美國半代到一代不同,在具身智能領(lǐng)域,中美處于同一起跑線。另外,通用機(jī)器人是一個(gè)軟硬件、系統(tǒng)、工程、供應(yīng)鏈高度結(jié)合的產(chǎn)物,美國在硬件供應(yīng)鏈上的先天短板是個(gè)巨大的挑戰(zhàn)。
陳哲:我個(gè)人的感受是,在具身智能領(lǐng)域,我們不僅僅是沒有落后,甚至有可能處于領(lǐng)先狀態(tài)。
首先,在復(fù)雜的機(jī)器人硬件,無論是本體還是靈巧手上,中國公司是領(lǐng)先世界的。其次,在大腦層面,美國以 Pi 為代表的公司在頂尖人才、算力和數(shù)據(jù)上確實(shí)有明顯優(yōu)勢。但隨著具身大腦與硬件的進(jìn)一步深度耦合,無論是手部精細(xì)操作還是本體全身運(yùn)控,如果未來的 AI 研究需要大量依賴復(fù)雜的人形硬件載體,那么中國在軟硬結(jié)合上的優(yōu)勢只會放大,不會縮小。
英偉達(dá)帶來 WAM 世界動(dòng)作模型,這是理論上比 VLA 天花板更高的路
晚點(diǎn):前面討論的中美行業(yè)對比其實(shí)有個(gè)變量,就是世界模型。我們在上面也聊到了,世界模型的 backbone 是視頻生成模型,而做視頻生成又要消耗大量算力資源,這會是中國具身產(chǎn)業(yè)鏈的相對弱勢嗎?正好,英偉達(dá)從去年底到 3 月的 GTC 上發(fā)表了一系列和世界模型相關(guān)的成果,它們稱為 WAM 世界動(dòng)作模型。可以先講一講,如何理解世界模型?
陳哲:世界模型和 VLA 模型代表了具身大腦研究的兩個(gè)主要路徑。VLA 以文本為 backbone,代表了人類通過語言進(jìn)行溝通、描述和推理的能力;而世界模型以視頻為 backbone,代表了人類的視覺智能。
這兩者并不是互斥的,而是互補(bǔ)的。人類的智能既離不開語言,也離不開視覺。如果一個(gè)人先天失明或失聰,他依然能發(fā)展出相當(dāng)程度的智能,但其智能上限會受到很大局限。對于機(jī)器人來說也是如此,世界模型將人類智能中極重要的視覺理解與泛化能力,用一種巧妙的方式賦予了機(jī)器人的大腦。
世界模型并非新概念。如果要下個(gè)定義,它就是一個(gè)基于當(dāng)前觀測、能夠預(yù)測未來會發(fā)生什么的物理模型。這個(gè)概念已應(yīng)用于許多不同場景。例如在自動(dòng)駕駛領(lǐng)域,特斯拉曾提到他們有一套用于自動(dòng)駕駛仿真和模擬的世界模型。
再比如 OpenAI 推出 Sora 時(shí),從未將其定義為視頻生成模型, Sora 的定位始終是世界模型。大家對 Sora 的討論,也是因?yàn)樗屓烁杏X模型似乎具備了理解物理規(guī)律的能力。
像 LeCun 提出的體系也是一套世界模型,但他認(rèn)為物理世界有更多可以顯性表達(dá)的規(guī)則和內(nèi)在(intrinsic)信息來描述。
在機(jī)器人場景中,最直接的理解就是通過視頻生成或腦補(bǔ)的方式,預(yù)測物理環(huán)境會因我們的動(dòng)作發(fā)生怎樣的變化。它可以用于動(dòng)作仿真和策略生成。這也是為什么我們認(rèn)為相比 VLA,世界模型是一種新的技術(shù)范式或模態(tài)補(bǔ)充。
晚點(diǎn):具體到英偉達(dá)發(fā)布的世界模型相關(guān)成果, DreamZero 和 DreamDojo, 它們是什么?在世界模型路線上做了哪些具體貢獻(xiàn)?
陳哲:DreamDojo 可以被視作一個(gè)基于視頻的世界模型仿真器,它能基于當(dāng)前圖像預(yù)測并渲染世界未來的樣子。而 DreamZero 則是通過視頻生成的方式,將當(dāng)前任務(wù)與環(huán)境轉(zhuǎn)化為機(jī)器人需要執(zhí)行的策略和動(dòng)作。
英偉達(dá)定義的 WAM 底層打破了 VLA 模型那種 “基于圖片或視頻觀測直接輸出動(dòng)作序列” 的映射關(guān)系。它根據(jù)當(dāng)前的視頻信息,對未來世界進(jìn)行預(yù)測和建模,并通過 “腦補(bǔ)” 建立因果推理。在這個(gè)預(yù)測過程中,自然而然地生成符合物理規(guī)律的動(dòng)作序列。
這兩項(xiàng)工作實(shí)質(zhì)上都脫離了 VLA 以文本和動(dòng)作克隆為核心的控制范式。如果類比人類智能,文字代表的是一種低頻、復(fù)雜的推理思考過程;而視頻代表的視覺智能,則是更加應(yīng)激、實(shí)時(shí)且與環(huán)境高頻互動(dòng)的能力。在未來的通用機(jī)器人中,這兩種能力缺一不可。
晚點(diǎn):這是否意味著世界模型相比 VLA 具備了時(shí)間感?因?yàn)?VLA 只是從單幀圖像直接映射到一個(gè)動(dòng)作,它無法理解前因后果。
陳哲:這個(gè)描述很準(zhǔn)確。 VLA 作為運(yùn)動(dòng)生成模型之所以非常受限,是因?yàn)樗讓幼鳛?token 的輸入描述是靜態(tài)的圖片和語義文字。它之所以能生成動(dòng)作序列,是因?yàn)樵谟?xùn)練 VLA 時(shí),我們通常在一個(gè)已具備圖文理解能力的 VLM 基座上,強(qiáng)行粘貼并映射一段關(guān)節(jié)動(dòng)作信息。簡而言之,它是一種帶有描述的行為克隆。因此,在遙操作場景下反復(fù)疊衣服,模型是通過記錄衣服不同折痕的圖片,建立起它與關(guān)節(jié)動(dòng)作之間的固定映射。
晚點(diǎn):在我們之前的具身智能測評節(jié)目中,嘉賓提到 RoboChallenge 測評里 able 30 有一個(gè)刁鉆的任務(wù):掃二維碼。由于掃碼需要根據(jù)畫面變化來判斷掃完了沒,如果單純依賴 VLA 模型而不加外掛,當(dāng)時(shí)的模型都做不了。
陳哲:首先,VLA 確實(shí)也可以像 agent 一樣加外掛。但關(guān)鍵在于, VLA 本身并不預(yù)測未來,它只是在建立特定條件下的映射關(guān)系,因此泛化能力差。比如在抓取任務(wù)中,當(dāng)杯子顏色從藍(lán)色換成紅色,或位置從左邊移到右邊,它就可能失敗,因?yàn)檫@些樣本分布在它克隆的行為數(shù)據(jù)中可能并不存在。
而世界模型是基于海量、廣泛的視頻數(shù)據(jù)進(jìn)行訓(xùn)練。視頻數(shù)據(jù)涵蓋的分布要廣闊得多,也極具多樣性。如果能從廣泛的數(shù)據(jù)中學(xué)到動(dòng)作規(guī)律,用來進(jìn)行運(yùn)動(dòng)仿真驗(yàn)證或策略生成,理論上能力上限會高得多。
晚點(diǎn):Google 當(dāng)年在 RT-2 中提出了 VLA。在用于具身智能的世界模型上,Google 這一季度有什么進(jìn)展嗎?
陳哲:目前沒看到公開相關(guān)的工作,但 Google 正全力推進(jìn)視頻生成模型,此外,據(jù)我所知, Google DeepMind Robotics 的研究方向與 Pi 的重合度非常高。去年 Google 推出的基于 Gemini Robotics 1.5 的成果非常出色,比同期的 Pi 更好。
這種優(yōu)勢很大程度上歸功于強(qiáng)大的基模。Google 使用了 Gemini 做具身模型的基模,而 Pi 用的是相對小和弱的開源模型 PaliGemma(Google 開源的一個(gè) 3B 參數(shù)的 VLM 模型)。
在國內(nèi)眾多具身智能公司中同樣可以觀察到:只要換一個(gè)更強(qiáng)的預(yù)訓(xùn)練基模,即使不做其他改動(dòng),最終的具身模型效果也會顯著提升。
因此 Google 具備極強(qiáng)的后發(fā)優(yōu)勢。如果它能訓(xùn)練出更好的視頻基座模型,自然能極大賦能世界動(dòng)作模型。只要 Google 認(rèn)定這是一個(gè)值得投入的方向,他們到時(shí)很可能會后來居上。
晚點(diǎn):英偉達(dá)這種世界模型的新方法目前有哪些不成熟的地方?比如 DreamZero 的運(yùn)行速度非常慢,跑在機(jī)器人上只有 7 赫茲。
陳哲:速度問題都可以解決。計(jì)算機(jī)科學(xué)的核心邏輯是:只要找到正確的路,優(yōu)化只是時(shí)間問題。優(yōu)化相對容易,難的是路徑探索。GPT-3.5 剛發(fā)布時(shí),token 生成速度也很慢,但今天已經(jīng)提升了百倍甚至千倍。
其實(shí)我從 WAM 上看到的一個(gè)更關(guān)鍵的行業(yè)問題是,過去幾年,具身智能的發(fā)展都高度受惠于外部力量,先是大語言模型(LLM)和視覺語言模型(VLM),有更好的 VLM,才能訓(xùn)出更好的 VLA;而世界模型則需要更好的視頻生成模型。
這意味著,具身智能這一新興領(lǐng)域的基礎(chǔ)性能提升,很大程度上是由外部力量,也就是基座模型的能力決定的。
所以世界模型在基模上的挑戰(zhàn),也不能單靠具身智能公司自己解決,它有賴于能做大規(guī)模基礎(chǔ)模型預(yù)訓(xùn)練的公司。
晚點(diǎn):那相當(dāng)于,具身智能公司自己并不掌握自己的命運(yùn)。這又呼應(yīng)了你前面講的靈巧手的機(jī)會,在與之相關(guān)的觸覺和精細(xì)操作研發(fā)上,看起來大廠和創(chuàng)業(yè)公司是同一個(gè)起跑線,大型科技公司也沒有歷史積累。
陳哲:是的。視頻這一模態(tài)天然不包含觸覺信號,即使視頻生成模型未來能完全遵守物理定律保持空間一致性和長時(shí)序穩(wěn)定性,世界模型能閉眼 “腦補(bǔ)” 未來 30 秒,它依然缺失觸覺信息。
因此,未來在世界模型更成熟后,如何融合或增強(qiáng)觸覺信號,將是研究的重中之重。
這也恰恰是我看到很多具身創(chuàng)業(yè)公司正在做的事。他們深知自己很難去預(yù)訓(xùn)練一個(gè)超大規(guī)模的 VLA 或世界模型,但他們可以解決靈巧手操作問題,或是觸覺與末端執(zhí)行器(如夾爪、Sunday 的 Gripper)的結(jié)合問題,這些都是基模廠商無法提供的價(jià)值。
晚點(diǎn):英偉達(dá)在提出 DreamDojo 和 DreamZero 的同時(shí),還發(fā)布了 EgoScale 新數(shù)據(jù)框架,使用了超過兩萬小時(shí)的自我中心的人類數(shù)據(jù),打破了靈巧操作遷移的規(guī)模瓶頸。這是一個(gè)怎樣的進(jìn)展?
陳哲:EgoScale 采集到的數(shù)據(jù),既可以應(yīng)用于 VLA 模型,也可以應(yīng)用于世界模型,并不受限于具體的預(yù)訓(xùn)練方法。它先采集海量真實(shí)場景中的第一視角視頻,然后使用 Manus(一家荷蘭的動(dòng)捕手套公司)的數(shù)據(jù)手套和攝像頭跟人類數(shù)據(jù)做對齊。
它屬于整個(gè)數(shù)據(jù)金字塔中的一個(gè)環(huán)節(jié)。如果我們構(gòu)建一個(gè)具身智能的數(shù)據(jù)金字塔:最頂層、最高效、最精準(zhǔn)的是機(jī)器人遙操作數(shù)據(jù),它直接反映了任務(wù)中機(jī)器人各個(gè)關(guān)節(jié)和電機(jī)的狀態(tài);往下是類機(jī)器人架構(gòu)數(shù)據(jù),比如 UMI 或 DexUMI 這種使用類似夾爪或靈巧手結(jié)構(gòu)的末端執(zhí)行器采集的數(shù)據(jù),但其手臂和視角等自由度不受機(jī)器人本體硬件約束;再往下是 EgoScale 這種 ego-centric 的操縱數(shù)據(jù);最底層則是海量的互聯(lián)網(wǎng)、YouTube 視頻數(shù)據(jù),包含大量非人類操作的物理現(xiàn)象。
過去半年,業(yè)界對 ego-centric 數(shù)據(jù)的重視度急劇升溫。因?yàn)榇蠹野l(fā)現(xiàn),為了實(shí)現(xiàn)運(yùn)動(dòng)的泛化性,必須引入更多樣化的數(shù)據(jù)。僅僅依靠遙操作或 UMI 方法,數(shù)據(jù)的多樣性是遠(yuǎn)遠(yuǎn)不夠的。
晚點(diǎn):直接使用互聯(lián)網(wǎng)視頻數(shù)據(jù)不是最有多樣性嗎?
陳哲:這就涉及到數(shù)據(jù)質(zhì)量和遷移 gap 的問題。即使是第一視角視頻,人類關(guān)節(jié)、手掌乃至上半身的自由度,遠(yuǎn)超目前的機(jī)器人硬件。機(jī)器人無法完全復(fù)刻視頻中人類精細(xì)的手腕或手指動(dòng)作,這就產(chǎn)生了巨大的遷移 gap,導(dǎo)致動(dòng)作學(xué)不過去。
當(dāng)然,隨著硬件越來越靈活強(qiáng)大,比如開發(fā)高自由度的靈巧手,這種 gap 會縮小。但無論硬件多好,機(jī)器人上肢與人類的自由度仍有差距。因此,ego-centric 視頻雖然比第三視角的 YouTube 視頻質(zhì)量更好、數(shù)量龐大,但其精度和直接可用性,依然與 UMI 數(shù)據(jù)或遙操作真實(shí)數(shù)據(jù)有很大差距。
晚點(diǎn):也就是說,金字塔越往上數(shù)據(jù)越貴、越少、但質(zhì)量越高;越往下則反之。這個(gè)金字塔里全部都是真實(shí)數(shù)據(jù)嗎?
陳哲:仿真數(shù)據(jù)也包含在內(nèi),主要有兩種形式。一種是在完全虛擬的環(huán)境中建模生成的數(shù)據(jù);另一種是對真實(shí)數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)后得到的數(shù)據(jù)。仿真數(shù)據(jù)的質(zhì)量通常介于 ego-centric 數(shù)據(jù)和 UMI 數(shù)據(jù)之間,它是一種重要的擴(kuò)充手段。
晚點(diǎn):英偉達(dá)和 Generalist 去年 10 月也發(fā)布了數(shù)據(jù)解決方案,是否意味著具身智能在數(shù)據(jù)這一瓶頸上已經(jīng)基本得到解決?
陳哲:目前不是問題已經(jīng)解決,而是大家看到了可能解決問題的方法與路徑。
提到 Generalist,它和另一家初創(chuàng)公司 Sunday 對行業(yè)的促進(jìn)作用巨大,他們總能推出一些前所未有、極其巧妙,事后看來又極其合理的創(chuàng)新設(shè)計(jì)。
遲宬(Sunday Robotics 的聯(lián)創(chuàng)之一)在斯坦福時(shí)就參與了 UMI 方案的工作。它本質(zhì)上是人手持一個(gè)與機(jī)器人末端 “同構(gòu)” 的夾具進(jìn)行動(dòng)作采集,從而避免了異構(gòu)帶來的 domain transfer 損失。后來,Generalist 對斯坦福的 UMI 方法進(jìn)行了改良并大規(guī)模采集數(shù)據(jù)。而 Sunday 則在此基礎(chǔ)上,將兩指的 UMI 擴(kuò)到了三指,并加入了觸覺反饋。僅僅增加這一個(gè)自由度,就能完成大量兩指夾爪無法完成的動(dòng)作。
晚點(diǎn):類似的用可穿戴設(shè)備采集數(shù)據(jù)的方案也是目前很多中國公司正在做的方向,比如它石、千尋等等
陳哲:是的,中國公司的優(yōu)勢在于,只要有了技術(shù)路線,跟進(jìn)速度極快。過去半年,類似 UMI 或 Sunday 的數(shù)據(jù)采集方案在國內(nèi)快速涌現(xiàn)。
許多國內(nèi)具身智能公司今年的目標(biāo)是實(shí)現(xiàn)百萬小時(shí)級別的真實(shí)數(shù)據(jù)采集。但即使采集到了,數(shù)據(jù)的清洗、準(zhǔn)確標(biāo)注以及規(guī)模化還需要很長時(shí)間,我認(rèn)為數(shù)據(jù)瓶頸并不會很快被解決。即使真的獲得了百萬小時(shí)的真實(shí)數(shù)據(jù),這些數(shù)據(jù)量是否足夠支撐通用具身智能,目前還沒有定論。
晚點(diǎn):除了英偉達(dá)近期的成果,世界模型在整個(gè)業(yè)界還有哪些新進(jìn)展?比如 Google 的 Genie 3、SIMA 2,這些對具身領(lǐng)域有幫助嗎?
陳哲:這些與機(jī)器人的直接關(guān)聯(lián)不大。
具體來說,Genie 3 是一個(gè)高度基于 diffusion 的生成網(wǎng)絡(luò),追求的是視覺上的高保真和美觀,對物理環(huán)境和物理規(guī)則的遵從度較弱,這對于需要訓(xùn)練物理交互的機(jī)器人模型是不友好的。字節(jié)的 Seedance 著重優(yōu)化了視覺表現(xiàn)力和藝術(shù)風(fēng)格,這對具身沒什么用。
目前,世界上絕大部分機(jī)器人視覺模型的基座,使用的都是阿里開源的 Wan2.1 或 2.2(阿里通義萬相的開源視頻生成模型系列)。因?yàn)檫@是市面上最后一個(gè)開源版的視覺生成模型。視頻生成模型的算力消耗實(shí)在太龐大了,以至于頭部公司都不愿意繼續(xù)開源了。
晚點(diǎn):連英偉達(dá)也沒有自己從頭訓(xùn)練一個(gè)模型嗎?
陳哲:英偉達(dá)用的也是開源模型。現(xiàn)階段還在研究探索期,沒有必要從頭開始訓(xùn)。不過,這也帶來了很多問題。許多研究員反饋,世界模型目前面臨的最大挑戰(zhàn)之一,就是現(xiàn)有的開源模型根本不適合具身智能。
晚點(diǎn):回到之前的問題,如果隨著世界模型競爭加劇,中國公司由于算力相對較少,會不會處于劣勢?
陳哲:有可能。但如果世界模型高度依賴 SOTA 的視頻生成模型,至少字節(jié)跳動(dòng)等中國頂尖大廠在資源上,并不會比 Google 少太多。
晚點(diǎn):那字節(jié)也可以自己把具身模型和智能機(jī)器人做了,實(shí)際上字節(jié)也在做。
陳哲:這是所有模型創(chuàng)業(yè)公司,無論文本、視頻還是語音面臨的共同風(fēng)險(xiǎn)。比如 Google 的研究員就深信,終局就是大廠贏家通吃。
但即使如此,對于真正想要商業(yè)化落地的具身智能和通用機(jī)器人公司來說,依然有足夠多的事情可以做。雖然軟硬件的邊界可能會比 iOS 和 Android 時(shí)代更加模糊,但邊界依然存在。長期看,在具體垂直場景中的 Know-how 和專有數(shù)據(jù),才是最有價(jià)值的資產(chǎn)。而這些長尾數(shù)據(jù)和場景經(jīng)驗(yàn),大廠不一定具備。
晚點(diǎn):沿著英偉達(dá)提出的世界模型新方向,有什么新的創(chuàng)業(yè)機(jī)會嗎?美國最近就出現(xiàn)了一些融資金額很高的新公司。
陳哲:確實(shí)有。比如在 GTC 大會上宣布獲得 4.5 億美元融資的 Rhoda AI 團(tuán)隊(duì),就是一家明確以世界模型為核心技術(shù)路徑的創(chuàng)業(yè)公司。
晚點(diǎn):Rhoda 是自己從頭做視頻生成大模型,還是基于開源模型做研發(fā)?
陳哲:具體的細(xì)節(jié)他們沒透露。比較確定的是,即使他們使用了開源基座模型,也采集了大量的 ego-centric 數(shù)據(jù)做 continue train。就像 VLA 一樣,對于已經(jīng)預(yù)訓(xùn)練好的底層模型,沒必要重新訓(xùn),而是用自己的專有數(shù)據(jù)做微調(diào)和再訓(xùn)練。
晚點(diǎn):中國目前有以世界模型為主攻方向的新創(chuàng)業(yè)公司嗎?
陳哲:有一些。比如黃冠創(chuàng)立的極佳世界等。總體而言,作為創(chuàng)業(yè)方向,世界模型非常新,但也極其困難,這條路線的陡峭度遠(yuǎn)超 VLA,理論上限更高,但也更難。
晚點(diǎn):除了極其耗算力,還有哪些難點(diǎn)?
陳哲:對數(shù)據(jù)和算力的要求都很高。目前全球最好的三個(gè)視頻生成模型,恰恰出自擁有 YouTube 的 Google、擁有快手的可靈和擁有 TikTok 的字節(jié)跳動(dòng)。更關(guān)鍵的是,所有優(yōu)秀的算法架構(gòu)和訓(xùn)練配方,都是靠海量的實(shí)驗(yàn)和算力堆出來的。
這正是今天所有具身智能創(chuàng)業(yè)公司面臨的最大挑戰(zhàn):沒有足夠的算力試錯(cuò)。哪怕你擁有幾十萬小時(shí)清洗標(biāo)注好的優(yōu)質(zhì)數(shù)據(jù),為了跑通模型、找到最優(yōu)配方,也需要進(jìn)行無數(shù)次的實(shí)驗(yàn)和測試,而絕大多數(shù)創(chuàng)業(yè)公司缺乏支持這種實(shí)驗(yàn)規(guī)模的算力資源。
具身算力:從數(shù)據(jù)中心到汽車,再到機(jī)器人,英偉達(dá)的統(tǒng)治力越來越弱
晚點(diǎn):接下來聊具身智能領(lǐng)域中重要基礎(chǔ)設(shè)施話題:算力。相比大模型領(lǐng)域?qū)λ懔Φ臒崃矣懻摚瑯I(yè)界對具身智能的算力,特別是端側(cè)算力的討論相對少。目前機(jī)器人上的主芯片是怎樣的市場格局?通常會選哪家公司的產(chǎn)品?
陳哲:默認(rèn)的首選英偉達(dá)的車載芯片。
晚點(diǎn):車載芯片?不是英偉達(dá)專門為機(jī)器人推出的 Jetson 系列嗎?
陳哲:不是。因?yàn)樗懔Σ粔颍琂etson 的定位比較尷尬。
現(xiàn)在做端到端自動(dòng)駕駛的公司,把一個(gè)模型實(shí)時(shí)壓縮到一顆 Orin 芯片上運(yùn)行已經(jīng)十分費(fèi)力。而無論是 VLA 還是世界模型,復(fù)雜度都不比自動(dòng)駕駛模型低。目前能在一兩百瓦的功耗限制下提供最大算力的解決方案,就是自動(dòng)駕駛芯片。現(xiàn)在還沒有到要在端側(cè)節(jié)省算力的階段。
晚點(diǎn):除了英偉達(dá),還有其他公司嗎?比如高通有涉足嗎?
陳哲:國內(nèi)很多具身智能公司也在和地平線合作。在量產(chǎn)的自動(dòng)駕駛市場,英偉達(dá)和地平線各占約 40% 的份額,其他廠商占據(jù)剩下的 20%。由于技術(shù)棧的相通性,很多人自然而然地將這些成熟的車載芯片應(yīng)用到了人形機(jī)器人上。
晚點(diǎn):那么這個(gè)機(jī)會是不是也屬于華為?他們在高階自動(dòng)駕駛領(lǐng)域也有相當(dāng)?shù)氖袌龇蓊~。
陳哲:華為確實(shí)有機(jī)會,但大廠內(nèi)部有優(yōu)先級問題。受限于制裁和產(chǎn)能,華為芯片產(chǎn)能要優(yōu)先保供云端芯片和手機(jī)端芯片,車載芯片的優(yōu)先級相對不夠,機(jī)器人的優(yōu)先級就更低了。
英偉達(dá)也面臨類似的問題,他們在云端 GPU 市場擁有壓倒性的統(tǒng)治地位,但在車載市場就沒那么強(qiáng)。
再延伸到機(jī)器人領(lǐng)域,英偉達(dá)的優(yōu)勢會被進(jìn)一步削弱。因?yàn)檎嬲拇笠?guī)模量產(chǎn)機(jī)器人,極其考驗(yàn)成本、功耗等一系列綜合指標(biāo)。雖然目前具身機(jī)器人還沒到規(guī)模化量產(chǎn)階段,但參考其他已經(jīng)商用量產(chǎn)的機(jī)器人,如家政機(jī)器人、掃地機(jī)器人、無人機(jī),幾乎沒有使用英偉達(dá)的 Jetson 方案。這意味著,量產(chǎn)機(jī)器人芯片市場對中國及其他國家的公司是完全開放的。
晚點(diǎn):已大規(guī)模量產(chǎn)的家用機(jī)器人市場中,主要的芯片玩家有哪些?
陳哲:最大的玩家是地瓜機(jī)器人,它是地平線分拆孵化出來的公司,專門為可量產(chǎn)的商用和消費(fèi)級機(jī)器人提供算力解決方案。此外,還有一些主打中低端的傳統(tǒng) ARM 芯片或 MCU 芯片廠商,比如全志、瑞芯微。在家用機(jī)器人市場,英偉達(dá)幾乎沒有市場份額。
晚點(diǎn):所以從云端到車載,再到端側(cè)機(jī)器人,英偉達(dá)的統(tǒng)治力呈遞減趨勢。
陳哲:這就是一個(gè)典型的創(chuàng)新者的窘境,和當(dāng)年的 Intel 如出一轍:Intel 在 PC 和服務(wù)器端賺得盆滿缽滿,因此不愿意去做利潤微薄的手機(jī)芯片。2005 年喬布斯找 Intel 合作開發(fā)初代 iPhone 芯片被拒,這才成就了后來的 ARM 等公司。
我認(rèn)為今天地平線或地瓜機(jī)器人面臨的是同樣的歷史機(jī)遇。由于英偉達(dá)在云端業(yè)務(wù)的利潤極其豐厚,車載或機(jī)器人芯片在內(nèi)部根本算不上戰(zhàn)略重點(diǎn)。
晚點(diǎn):還有一個(gè)玩家是特斯拉。
陳哲:對。馬斯克非常明確地表示,未來量產(chǎn)的特斯拉自動(dòng)駕駛汽車和 Optimus 人形機(jī)器人,將使用同一款自研芯片。他們會基于統(tǒng)一的架構(gòu)、算力和能耗標(biāo)準(zhǔn),為這兩個(gè)終端進(jìn)行同步優(yōu)化。
晚點(diǎn):這也印證了,從車載到機(jī)器人,在技術(shù)棧和應(yīng)用場景上具有極強(qiáng)的延續(xù)性。
陳哲:這意味著目前在國產(chǎn)自動(dòng)駕駛芯片領(lǐng)域領(lǐng)先的公司,在未來的具身智能時(shí)代也將是強(qiáng)有力的競爭者。那些能夠在智能汽車時(shí)代實(shí)現(xiàn)芯片自研量產(chǎn)的車企,如小鵬、華為、理想、蔚來等,未來也能為具身智能提供極具競爭力的算力解決方案。
晚點(diǎn):聽起來這將會是一個(gè)競爭極其激烈的市場。但通常來說,一個(gè)成熟的芯片市場最終應(yīng)該不會容納這么多供應(yīng)商。
陳哲:從歷史規(guī)律來看,任何一種復(fù)雜的芯片,最終市場上往往只能存活兩家主力供應(yīng)商。而且市場份額通常是 “二八定律”,第一名吃掉 80%,第二名占據(jù) 20%。
因此,無論是具身機(jī)器人的整機(jī)廠商還是底層的芯片供應(yīng)商,大概率都會經(jīng)歷一場極其慘烈的淘汰賽,最終可能會高度集中。
晚點(diǎn):你認(rèn)為人形機(jī)器人的終局會是怎樣的?
陳哲:對于創(chuàng)業(yè)者和投資人來說,這既是巨大機(jī)會,也是巨大挑戰(zhàn)。人形機(jī)器人很有可能是一個(gè)高度收斂的賽道。它是一個(gè)通用、單一架構(gòu)的機(jī)器人。如果產(chǎn)品足夠好,產(chǎn)量和規(guī)模將是巨大的,贏家會高度收斂。智能手機(jī)之所以高度收斂,是因?yàn)槿说氖志烷L那個(gè)樣子。在 iPhone 發(fā)明前,為了滿足不同需求,功能機(jī)形態(tài)各異,就像現(xiàn)在的 feature robot,有掃地的、搬運(yùn)的、工業(yè)的。但一旦通用機(jī)器人形成,大概率會是一個(gè)高度集中的市場。
晚點(diǎn):但汽車市場沒有手機(jī)集中?
陳哲:其實(shí)已經(jīng)高度集中了。放眼全球,美國只有三大汽車公司,日本也是 3 家,韓國只有一兩家,歐洲也主要集中在 3 家。從商業(yè)視角看,集中度已經(jīng)很高,而且未來還會更加集中。
隨著 AI 和自動(dòng)駕駛的普及,作為軟硬一體的載體,其門檻和優(yōu)勢會進(jìn)一步放大。一個(gè)產(chǎn)品的復(fù)雜度越高、門檻越高、軟硬件復(fù)利越高,其市場集中度就必然越高;只有高度同質(zhì)化的產(chǎn)品,集中度才會低。因此智能汽車或自動(dòng)駕駛汽車未來一定會高度集中。
同理,人形機(jī)器人作為未來人類技術(shù)的集大成者,市場集中度也一定會非常高。雖然可能會有適用不同場景的型號,比如 1.8 米或 1.2 米的差異,但整體格局不會出現(xiàn)太多玩家。所以對創(chuàng)業(yè)公司而言,這既是機(jī)會也是挑戰(zhàn)。
晚點(diǎn):對于創(chuàng)業(yè)公司來說,更穩(wěn)健的路徑是不是去做 feature robot?在一些特定場景下的機(jī)器人,或許也不會被通用機(jī)器人取代。
陳哲:很有意思的是,今天許多成功的年輕創(chuàng)業(yè)者做的正是 feature robot。比如大疆的汪滔做了無人機(jī),石頭科技做了掃地機(jī),還有些公司在做割草機(jī)、倉儲機(jī)器人或泳池機(jī)器人。
晚點(diǎn):這些做 feature robot 的公司,有可能進(jìn)化成通用機(jī)器人公司嗎?
陳哲:有可能,但這對人、對組織都是巨大的挑戰(zhàn)。就像我們很難相信一家傳統(tǒng)家電或制造業(yè)公司能輕易做好復(fù)雜的機(jī)器人產(chǎn)品一樣,這種轉(zhuǎn)型對整個(gè)公司的組織文化和基因都會產(chǎn)生強(qiáng)烈沖擊。
晚點(diǎn):蘋果最初是電腦公司,但后來又做出了智能手機(jī)。未來摘得通用機(jī)器人桂冠的公司,是一開始就做通用機(jī)器人,還是有可能從大疆、石頭科技這種單點(diǎn)起步?就像 “Zima Blue” 里的那個(gè)機(jī)器人,最初是個(gè)泳池機(jī)器人,最后進(jìn)化成了人。
陳哲:這不太一樣,電腦本身就是一個(gè)多任務(wù)產(chǎn)品,具備極重的軟件和算法成分。相比之下,無人機(jī)或割草機(jī)本質(zhì)上仍是單任務(wù)產(chǎn)品。
最終能摘得通用機(jī)器人桂冠的,一定是積累并建設(shè)了相關(guān)核心能力的公司。比如,如果 sharpa 有一天做成了通用機(jī)器人公司,我不會感到意外。因?yàn)橥ㄓ脵C(jī)器人的核心包括光機(jī)電結(jié)構(gòu)、精密工程和量產(chǎn)能力,而這些正是 sharpa 團(tuán)隊(duì)過去 10 年驗(yàn)證和打磨出來的。他們在通用機(jī)器人的成功路徑上可能已經(jīng)掌握了 50% 的 recipe,只需補(bǔ)齊剩下的 50%。大疆也是同理,擁有強(qiáng)大的生產(chǎn)設(shè)計(jì)和開發(fā)能力,但能否補(bǔ)齊缺失的另一半,極度考驗(yàn)團(tuán)隊(duì)的學(xué)習(xí)與迭代能力。
晚點(diǎn):反過來看,那些強(qiáng)于智能算法的公司,也有可能去補(bǔ)齊硬件和工程制造的短板吧?
陳哲:我覺得那是條更難的路。
宇樹上市,是一家扎實(shí)的好公司上市,不是泡沫
晚點(diǎn):最后,關(guān)于資本市場的變化。今年有一個(gè)明確會貫穿全年的現(xiàn)象:中國具身智能公司迎來上市潮,宇樹等公司已經(jīng)提交了招股書。這波上市潮整體會帶來什么影響?
陳哲:機(jī)器人將是未來 10 年中國國家級、戰(zhàn)略級的發(fā)展主線。無論是機(jī)器人的硬件技術(shù),還是軟件或算法大腦,宇樹的上市都將開啟一批具備全球競爭力的中國公司發(fā)展的新階段。從市場角度看,這對創(chuàng)業(yè)公司和投資人都是極大的利好。
晚點(diǎn):二級市場行情好確實(shí)是利好,但另一方面,資源可能會進(jìn)一步向頭部集中,這對其他創(chuàng)業(yè)公司或許是個(gè)挑戰(zhàn)。
陳哲:頭部集中并不是壞事,就像電動(dòng)車行業(yè)的發(fā)展一樣。對于創(chuàng)業(yè)公司而言,創(chuàng)業(yè)成功的財(cái)富效應(yīng)本就是驅(qū)動(dòng)大家進(jìn)入這個(gè)市場投資和創(chuàng)業(yè)的原生動(dòng)力。有了成功的標(biāo)桿企業(yè),會吸引更多人才與資本涌入。
最近我與清華、北大、交大、復(fù)旦等高校最聰明的年輕人交流,感覺可能有一大半的人都在研究具身智能。這與過去兩三年一半的聰明大腦都在做 AI 非常相似。至少,這比 2012 年時(shí)中國最頂尖的大腦都在研究如何提高廣告轉(zhuǎn)化率要好得多。
從國家科技發(fā)展的節(jié)奏來看,現(xiàn)在正是中國企業(yè)和學(xué)者可以引領(lǐng)世界前沿的時(shí)刻,我們正從追趕者轉(zhuǎn)向原創(chuàng)創(chuàng)新者。同時(shí),具身智能發(fā)展所需的諸多要素也已成熟:大模型技術(shù)、生成技術(shù)、AI 算力以及數(shù)據(jù)中心等基礎(chǔ)設(shè)施的完善,共同將具身技術(shù)推向了爆發(fā)的臨界點(diǎn)。資源和腦力向這些有望突破的方向聚集,絕對是好事。
作為一名深信 Alpha 投資理論的風(fēng)險(xiǎn)投資人,我本能地警惕泡沫與市場 hype。但如果站在國家宏觀發(fā)展與戰(zhàn)略角度,這是中國引領(lǐng)世界的絕佳機(jī)遇。我們已具備電動(dòng)車、AI 的基礎(chǔ),并在半導(dǎo)體和算力上取得突破,完全有能力在具身智能或通用機(jī)器人領(lǐng)域真正領(lǐng)先全球。這背后的獎(jiǎng)勵(lì)如此誘人,所以在資本市場或頂尖高校中,都能看到一股巨大的能量正在積聚。
晚點(diǎn):目前很多公司都在啟動(dòng)上市流程,監(jiān)管層面可能不會允許這么多同質(zhì)化的具身智能或機(jī)器人公司集中上市。如果出現(xiàn) “有的成功上市,有的沒上成” 的情況,對接下來一級市場的投資和創(chuàng)業(yè)熱情會產(chǎn)生影響嗎?
陳哲:我認(rèn)為,宇樹是一家商業(yè)質(zhì)量極高的公司。它不是泡沫或概念,而是創(chuàng)造了真實(shí)的用戶價(jià)值和收入,且經(jīng)營高效。
至于其他公司,能不能上、上了之后表現(xiàn)如何,都是后話。但如果上市預(yù)期破滅,肯定會打擊投資熱情,因?yàn)楹芏嗤顿Y人的最終目的就是順利退出,沒有上市預(yù)期,大家自然就不會投了。
晚點(diǎn):面對今年資本市場的不確定性,大量資金涌向一級市場具身智能創(chuàng)業(yè)公司的狂熱現(xiàn)象何時(shí)會相對平息?目前的火熱程度超出你的預(yù)期了嗎?
陳哲:很難準(zhǔn)確判斷市場和同行的情緒,但目前的狂熱程度絕對超出了我的預(yù)期。
更關(guān)鍵的是技術(shù)發(fā)展的速度。回顧 AI 經(jīng)歷的多個(gè)寒冬與周期,市場往往容易對技術(shù)的短期變化抱有過高預(yù)期。盡管我們見過科技周期的冷熱交替,但當(dāng)下具身智能的浪潮確實(shí)過于狂熱。未來一段時(shí)間,市場預(yù)期必然會面臨調(diào)整,這種調(diào)整對行業(yè)的沖擊,可能比 “短期內(nèi)能否上市” 要大得多。
我做過一個(gè)統(tǒng)計(jì),目前中國估值超過 100 億人民幣或 15 億美元的人形或具身智能公司已超過 20 家。而在 2023 年、2024 年大模型最狂熱時(shí),估值破百億的大模型公司也不過四五家。更何況,大模型今天已經(jīng)展現(xiàn)出極其明確的商業(yè)化和行業(yè)應(yīng)用機(jī)會,從 OpenAI 和 Anthropic 的收入就能看出,市場正在快速擁抱這項(xiàng)新技術(shù)。
相比之下,具身智能真正落地還需要很長時(shí)間。即使是最頭部的宇樹,目前的收入僅 2 億美元左右,但市場上卻充斥著 20 家估值超百億的公司。這需要一定的時(shí)間去吸收泡沫并完成淘汰。
晚點(diǎn):接下來 1 個(gè)季度到半年,比較確定會發(fā)生的事情有哪些?
陳哲:首先,世界模型正快速成為行業(yè)研究熱點(diǎn)。無論是中美哪家公司,誰能在世界模型技術(shù)上拿出顯著超越 Pi 現(xiàn)有 VLA 技術(shù)路線的 demo 或成果,非常值得關(guān)注。
其次,隨著更多研究人員用上帶有觸覺信號、高自由度的靈巧手,未來一兩個(gè)季度極有可能會涌現(xiàn)出更多關(guān)于靈巧操作的研究成果。
最后是一件很有意思的事,未來 1 個(gè)月內(nèi)將舉辦北京亦莊人形機(jī)器人比賽。去年舉辦時(shí),很多人還覺得這只是個(gè)噱頭,參賽公司寥寥;但目前,全中國幾乎所有頭部人形機(jī)器人公司都在不遺余力地備戰(zhàn)。這種高密度、高競爭性的活動(dòng),會極大催生前沿技術(shù)與方案的迸發(fā)和突破。
晚點(diǎn):早期大家可能更多是把這類比賽當(dāng)笑話看。
陳哲:以前大家可能會覺得這是個(gè)政績工程,但在今年春晚過后,很多人形機(jī)器人公司都憋著一股勁,想證明自己不輸給宇樹,甚至在某些領(lǐng)域具備超越宇樹的能力。這種開放、公平的比賽,不僅是展現(xiàn)極致技術(shù)追求與競爭的絕佳土壤,也是一項(xiàng)民眾能理解和欣賞的活動(dòng),其表演與宣傳意義同等重要。未來,人形機(jī)器人的運(yùn)動(dòng)會很有可能成為機(jī)器人領(lǐng)域的 F1 。
晚點(diǎn):最后一個(gè)問題,請分享一個(gè)此時(shí)此刻你覺得很重要、但還不知道答案的問題。
陳哲:這個(gè)問題是:人形到底是不是未來通用機(jī)器人的最優(yōu)解,還是未來會演化出各種不同的形態(tài)和工作方式?
以前我對此有很多質(zhì)疑,傾向于后者,就像交通工具分為汽車、飛機(jī)、輪船一樣。但現(xiàn)在,這個(gè)答案對我來說反而更模糊了。見證了機(jī)器人幾十年的發(fā)展史,我并不是一個(gè)盲目的技術(shù)樂觀主義者。我們深知這極難實(shí)現(xiàn),但技術(shù)突破往往是非線性的。一旦跨過某個(gè)臨界點(diǎn),就會進(jìn)入正向加速的環(huán)境。
然而,由于機(jī)械結(jié)構(gòu)、電機(jī)、能量密度等一系列物理限制,我們究竟能不能突破那個(gè)臨界點(diǎn)?甚至這個(gè)臨界點(diǎn)是否永遠(yuǎn)無法企及?今天我依然沒有清晰的答案。但確切的是,全世界的資源、頂尖大腦和龐大算力都在涌向這個(gè)領(lǐng)域,試圖攻克最難的問題。因此,我無法斷言這個(gè)問題在 5 到 10 年后一定得不到解決,這也正是答案變得更加模糊的原因。
晚點(diǎn):我們可以把這個(gè)問題記錄下來。未來的季度訪談中,我們可以一邊探討新問題,一邊回顧之前想法的變化。
陳哲:這其實(shí)和大模型的發(fā)展軌跡很像。從 ChatGPT 誕生至今,大模型發(fā)展了三四年。大家對 “AGI 什么時(shí)候到來”、“距離 AGI 還有多遠(yuǎn)” 的認(rèn)知,也是一個(gè)起伏震蕩的過程,但最終可能會變得越來越理性或越來越樂觀。我相信通用機(jī)器人和人形機(jī)器人的發(fā)展,也會經(jīng)歷同樣的心理認(rèn)知過程。
題圖來源:Sharpa
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.