![]()
作為具身智能賽道最快成為獨角獸的公司之一,臨界點怎么看靈巧手行業(yè)的下一階段。
作者|Li Yuan
編輯|靖宇
具身智能賽道的融資紀(jì)錄又刷新了。
6 月 24 日,靈巧手公司臨界點 AGILINK 宣布完成新一輪融資,投后估值超 10 億美元。從公司成立到躋身獨角獸,這一過程用了 5 個月,4 輪融資——是靈巧手賽道至今最快的速度。
本輪投資方陣容包括未來資產(chǎn)、某互聯(lián)網(wǎng)大廠、京銘資本等戰(zhàn)略與產(chǎn)業(yè)資本,東風(fēng)資產(chǎn)、國信中數(shù)、上海電科基金等產(chǎn)業(yè)資源方,清新資本、凱聯(lián)資本、普華資本、天季資本、We Venture、箴言投資、明嘉資本等財務(wù)投資機(jī)構(gòu),以及高瓴創(chuàng)投、藍(lán)馳創(chuàng)投、C 資本等老股東的持續(xù)加注。
臨界點是一家專注于靈巧手硬件與算法的公司,年初從智元機(jī)器人拆分出來。
過去幾個月臨界點的進(jìn)展很快,已經(jīng)有了多款產(chǎn)品:有尺寸接近鼠標(biāo)的輕量化靈巧手 OmniHand 3 Lite,也有面向具身場景的夾爪 OmniPicker 3;在高自由度靈巧手上,臨界點也同時推進(jìn)繩驅(qū)和直驅(qū)兩條路線。
之前發(fā)布的 Ultra-T 采用繩驅(qū)方案;6 月 2 日,在維也納 ICRA 現(xiàn)場,臨界點又首次發(fā)布了全直驅(qū)旗艦靈巧手 OmniHand 3 Ultra-M。
在軟硬件協(xié)同層面,臨界點還在 ICRA 現(xiàn)場展示了可以把長條氣球折成小狗形狀。氣球柔軟、易變形,也很容易被捏爆,從個人經(jīng)驗出發(fā),確實人類都不一定每次都完成好這個任務(wù)。靈巧手能夠做到這個 demo,不僅展現(xiàn)了手指運(yùn)動能力,也展現(xiàn)了很好的觸覺感知、力控和接觸建模能力。
在此次融資之際,極客公園和臨界點熊坤進(jìn)行了一次對談。
我們聊到:臨界點為什么能在短時間內(nèi)融到這么多錢;ICRA 現(xiàn)場的氣球 demo 背后,究竟對應(yīng)怎樣的技術(shù)敘事;為什么臨界點要同時布局多種技術(shù)路線和不同自由度產(chǎn)品;它如何判斷當(dāng)前的觸覺路線;以及作為具身智能賽道最快成為獨角獸的公司之一,臨界點怎么看靈巧手行業(yè)的下一階段。
01
靈巧手不是一門純硬件生意
極客公園:這次我們想聊「為什么臨界點能融到這么多錢」。你會有一個很直接的答案嗎?
熊坤:如果有一個唯一答案,就是臨界點可以更好地跑通靈巧手,解決機(jī)器人最后 10 厘米的問題。
硬件上,我們不是只做一款產(chǎn)品,而是有低、中、高全矩陣投入。靈巧手基模研發(fā)也會加大投入,下半年應(yīng)該會有一定成果。整個軟硬件壁壘會越來越深,助力靈巧操作爆發(fā)式增長。
除了旗艦產(chǎn)品以外,我們還有量產(chǎn)能力。我們在不同場景下有不同硬件布局,算法也會針對不同場景做定制化開發(fā)。更重要的是量產(chǎn)和供應(yīng)鏈整合能力,這是我們的不同優(yōu)勢。
極客公園: 靈巧手公司的估值應(yīng)該怎么衡量?
熊坤:關(guān)鍵在于你把它當(dāng)成純硬件公司,還是既做硬件又有模型的公司。
一些傳統(tǒng)靈巧手公司可能還是純做硬件,只能按硬件方式估值。但很多新的公司,如果具備很好的靈巧操作模型能力,我覺得硬件加軟件模型的估值體系,才符合對靈巧手公司的評判。未來想活下去,應(yīng)該都要軟硬件都有。到那個時候,估值方式里軟件比重會越來越多。
極客公園:融資后你們想做基模,這次的擰氣球就是一個模型能力展示。擰氣球展示了哪些模型特點?
熊坤:我們認(rèn)為,下一階段機(jī)器人競爭的核心,不只是讓機(jī)器人「看懂世界」,而是讓機(jī)器人能夠通過觸覺和力反饋理解物理世界。臨界點把這一能力定義為「接觸智能」(Contact Intelligence),對應(yīng)的,我們有一套具體的技術(shù)架構(gòu) DUET(Dual-layer Unified Embodied Tactile Intelligence, 雙層具身觸覺智能)。擰氣球 demo 是我們對 DUET 架構(gòu)的一次公開完整驗證。
第一層是操作層,會采集人類完成長序列擰氣球的視頻和數(shù)據(jù),包括手的數(shù)據(jù)、雙臂的數(shù)據(jù)。通過這些數(shù)據(jù),我們會獲取運(yùn)動空間、手和氣球之間的碰撞區(qū)域等信息。基于這些數(shù)據(jù)做訓(xùn)練,在真實環(huán)境中用強(qiáng)化學(xué)習(xí)不斷調(diào)整整個任務(wù)規(guī)劃和靈巧手軌跡。
第二層是接觸層。手上的觸覺會實時采集擰氣球過程中的數(shù)據(jù)信息。基于這些信息,我們會在仿真環(huán)境里搭建氣球物理模型和靈巧手模型,做接觸和摩擦建模。靈巧手和被操作物體之間的接觸建模,對靈巧操作模型訓(xùn)練非常關(guān)鍵。
![]()
擰氣球不同于其他任務(wù),它操作的是軟體物品。捏上氣球的時候,氣球會產(chǎn)生形變,所以接觸建模、力的感知,對手、傳感器和模型建立的要求都非常高。
總的來說,操作層負(fù)責(zé)手和臂的任務(wù)規(guī)劃、軌跡計算和運(yùn)動策略;接觸層實時給運(yùn)動層提供精細(xì)的手類觸覺信息、力的信息,并對抓力做調(diào)整,起反饋作用。通過這兩層,可以讓靈巧手穩(wěn)定完成擰氣球動作,防止脫滑和把氣球捏爆。
據(jù)我們了解,很多友商也嘗試過捏氣球任務(wù)。有些可能是在力控制、手和接觸模型搭建上有問題,就沒辦法完成這個。
氣球是人打的,很難保證每次打出來的軟硬、長度一致。所以每次捏的氣球,包括形狀,都不是 100% 一致。有些是完整直條,有些有一點彎曲,會有差異。
實際上我們也不是 100% 成功,但成功率已經(jīng)足夠拿出來展示。我們的展示每隔半小時會有一次,一天大概十幾次,連續(xù)展示了四天。
![]()
此外,我們的模型泛化能力會做得比較好。對于不同場景需求有不同的原子技能,搭配不同自由度靈巧手執(zhí)行,技能底層通用。比如我們這次 ICRA 是用了十個主動自由度的 OmniHand 做了擰氣球的展示,而旗艦款的 Ultra M 也能做。
極客公園: 剛才說到運(yùn)動智能和接觸智能,接觸智能在仿真環(huán)境中做。我理解現(xiàn)在觸覺信息在仿真環(huán)境里有時沒辦法模擬得很好,是這樣嗎?
熊坤:對,尤其是要搭建非常準(zhǔn)確的接觸模型。只有仿真環(huán)境里搭了很好的接觸模型,仿真里跑的算法做 sim-to-real 遷移時 gap 才會小。這是行業(yè)通病。
基于這個問題,我們也在嘗試搭建自己的仿真平臺,包含觸覺仿真、力和接觸模型仿真等。盡量保證接觸不同物品,不管是硬質(zhì)材料還是柔性物品時,接觸模型和力仿真都最準(zhǔn)確,這樣才能保證訓(xùn)練出來的模型做真機(jī)遷移時質(zhì)量最好。
這是整個行業(yè)的共識,難度非常大。只不過目前解決了運(yùn)動智能問題之后,遷移到作業(yè)智能,大家才把精力花在操作仿真上。
極客公園:這次同期我們還發(fā)布了一個 Ultra M 的靈巧手,它的特點之一也是觸覺能力很強(qiáng),整手超過 300 個三維觸覺感知點?
熊坤:是的,每個指尖是視觸覺,手掌是三維觸覺。視觸覺和三維觸覺還有點不同,視觸覺合下來可以有六維信息。它里面有一個小攝像頭,可以拍到形變、顏色等變化,再通過計算得出更豐富的信息,比三維觸覺還要豐富。
搭載的單個傳感器的精度,也是行業(yè)里比較高的。我們用的是三色光觸覺傳感器,不同于行業(yè)里很多單色光視觸覺傳感器。它的精度可以達(dá)到 5 mN 的要求,指尖至少有 125 個點位,整體來說應(yīng)該是目前視觸覺傳感器里做得比較好的。
從行業(yè)情況看,視觸覺以前更多用在夾爪上,因為要把它做小、做到指尖里很難。目前能做到指尖這么小的公司不多。我們應(yīng)該是行業(yè)里較早用三色光原理做指尖力計算的公司之一。其他家也有標(biāo)注數(shù)據(jù),我沒法直接評估,但我們的數(shù)據(jù)是基于實測效果標(biāo)注的,可信度比較高。最主要的是,我們提供了動態(tài)三維分布力。
我們的一個特點是,在更小的尺寸里整合了更多傳感器。我們始終堅持產(chǎn)品要和人手一致,因為越小越輕,對客戶來說應(yīng)用性更強(qiáng),成本也更低。它只有 630 克,是最接近人手尺寸的 20 個主動自由度直驅(qū)靈巧手。目前應(yīng)該是整個行業(yè)做得最小、最接近人手的。這對后面的強(qiáng)化學(xué)習(xí)和真機(jī)強(qiáng)化學(xué)習(xí)也有幫助,因為目前大家驗證下來,靈巧手越接近人手,后面的數(shù)據(jù)采集、模型訓(xùn)練和 replay 效果會最好。
運(yùn)動速度也很快,可以達(dá)到最快 3 赫茲的開合要求。在保證結(jié)構(gòu)強(qiáng)度的同時,用鈦合金、鎂合金減重,也對構(gòu)型和運(yùn)動構(gòu)型做了調(diào)整,保證符合運(yùn)動空間需求。它是一款性能和仿生融合得比較好的產(chǎn)品。
極客公園: 為什么手掌需要傳感器?
熊坤:不同場景需要不同定位的靈巧手。不同靈巧手匹配場景需求時,對觸覺傳感器的要求也不一樣。
所以我們的低、中、高不同手,傳感器使用也不一樣。低端用一維壓阻傳感器,這類沒有太高技術(shù)門檻,我們會和友商合作。高端的視觸覺傳感器,核心技術(shù)更多掌握在自己手里,同時也會和友商配合。
高端手要完成對標(biāo)人手的高復(fù)雜任務(wù),比如掌內(nèi)轉(zhuǎn)魔方,除了指尖最頻繁接觸以外,手掌和指腹也會不停和被操作物體接觸。
比如拿筷子,或者用圓珠筆寫字。大部分人在拿筷子、寫字時,食指指腹,不只是正面,還有側(cè)面,會頻繁和筆、筷子接觸。如果這個區(qū)域有分布比較好的觸覺傳感器,能感知三維力變化,對圓珠筆和筷子的機(jī)械化操作會有很大幫助。它可以幫助做動作微調(diào),讓整體質(zhì)量上去,提升寫字和操作筷子的精確度。
我們實際測試發(fā)現(xiàn),如果這部分觸覺傳感器的信息也能輸入,模型訓(xùn)練可以得到更好的結(jié)果。
02
用不同的自由度、不同的路線通向未來
極客公園:Ultra T 應(yīng)該是繩驅(qū),這次新發(fā)布的 Ultra M 是直驅(qū)。為什么有兩個技術(shù)方案?
熊坤:這兩種方案來看,它們上限都非常高,都是最接近人手功能的實現(xiàn)方式。相比連桿、蝸輪蝸桿等方案,它們更接近人手。所以只要做技術(shù)突破,很明顯會成為未來高端靈巧手的兩種主流方案。我認(rèn)為未來兩種方案都會存在,只是時間問題。
直驅(qū)手的工藝路線更明確,對做學(xué)習(xí)的同學(xué)非常友好,因為控制非常直接、簡單。對于做真機(jī)強(qiáng)化學(xué)習(xí)、強(qiáng)化學(xué)習(xí)的同學(xué),它也非常合適。我們驗證下來,從工藝、方案、量產(chǎn),到硬件做好之后的數(shù)據(jù)、模型和部署打通,直驅(qū)都比較合適,也符合高復(fù)雜、高難度、高自由度任務(wù)的要求。
![]()
繩驅(qū)手的優(yōu)點是抗沖擊、負(fù)載自重比非常好;缺點是蠕變問題比較嚴(yán)重。繩驅(qū)如果把自由度做高,也是很好的一種方案,適合在人居環(huán)境里做類似人的操作,和人打交道,或者使用人類工具。
我們同時布局繩驅(qū)和直驅(qū),希望在兩種技術(shù)上都有積累。當(dāng)相應(yīng)核心技術(shù)點,比如腱繩問題、基本材料問題解決之后,可以很快把兩款手推到大規(guī)模使用和量產(chǎn)。
極客公園:「只是時間問題」怎么理解?
熊坤:我們可以把直驅(qū)和繩驅(qū)的問題點羅列清楚,分析解決這些問題大概需要多少時間,就能看出兩條技術(shù)路線最后實現(xiàn)和爆發(fā)的時間點。目前看,直驅(qū)可能 3 年左右會解決得好一點;繩驅(qū)可能要更長,可能拉到 5 年,甚至更久。
極客公園:在這兩條技術(shù)路線之外,臨界點多種自由度都做。行業(yè)里也一直爭論,靈巧手到底需要多高的自由度?
熊坤:臨界點的觀點是,一只靈巧手的價值不是取決于有多少自由度,而是取決于它能否真正讓人形機(jī)器人進(jìn)入各類場景。
所以在內(nèi)部,我們在科學(xué)地分析一只靈巧手或夾爪能完成多少任務(wù)、一個場景需要多少自由度。我們采集了大量工業(yè)端、商業(yè)端、C 端消費端的操作場景任務(wù),并把任務(wù)劃分成 A、B、C 三類。
C 類任務(wù),夾爪可以完成,靈巧手也可以完成,兩者差別不大。B 類任務(wù),夾爪可以勉強(qiáng)完成,但成功率或完成質(zhì)量沒有靈巧手高。
A 類任務(wù),只有靈巧手才能完成。比如擰瓶蓋,如果是需要三個手指去做旋擰任務(wù),夾爪比較難滿足。你可能會說兩個夾爪配合腕部也能完成,但我們對任務(wù)會有一些限制,因為最后要適配人形機(jī)器人,不能用非常規(guī)動作完成操作。
剝橘子也是 A 類。它會涉及擰、扣、掰等動作。如果夾爪再配合特定工具,也許可以,但如果以人為第一性角度考慮,按照人怎么操作來要求,夾爪沒法完成。
做完這樣的劃分,就可以清晰知道不同場景更適合夾爪,還是需要多少自由度的靈巧手。為什么要用兩款不同自由度的手完成同一個氣球任務(wù),就是要去分析不同任務(wù)對自由度的需求。
基于 A、B、C 類任務(wù)分析,我們對場景和不同靈巧手的匹配度理解,應(yīng)該是行業(yè)當(dāng)中最準(zhǔn)確的。
比例還是要和場景掛鉤。比如工業(yè)類固定場景,統(tǒng)計下來 C 類可能占 50% 到 60%,也就是說面對工業(yè)場景,可能有 50% 到 60% 的場景用夾爪就可以滿足。另有 40% 到 50% 需要不同自由度的靈巧手,其中這 40% 到 50% 里大概一半左右,中等自由度手就可以滿足,也就是 10 到 17 個主動自由度。
我們做這么多款手,本質(zhì)上是因為我們對場景的理解比較透徹。不同場景需要不同手。
除了旗艦款,Lite 應(yīng)該是目前行業(yè)當(dāng)中最小、最便宜,而且最抗沖擊的一款手。Lite 的需求來自我們對人形機(jī)器人輕作業(yè)和交互場景的理解:它需要抗摔,需要適配更小尺寸的人形機(jī)器人和更輕量的機(jī)械臂。
我們做的 OmniPicker 3 夾爪,也是我們把對具身場景的理解解析出來,發(fā)現(xiàn)它需要指尖能夠精確感知力的變化。所以我們做了模塊化觸覺指尖,可以快速更換,也可以精細(xì)采集觸覺信息。OmniPicker 3 目前還沒有開始賣,但已經(jīng)拿到批量訂單。
03
靈巧手明年收斂到人形整機(jī)格局,
正在攻克量產(chǎn)和數(shù)據(jù)的問題
極客公園: 從去年到今年,靈巧手行業(yè)一直很熱,你覺得現(xiàn)在競爭格局是什么?
熊坤:靈巧手目前收斂程度在加快,但還沒有到人形整機(jī)那樣。人形整機(jī)的基本格局,我覺得已經(jīng)算形成了。
靈巧手的話,我覺得今年、明年也會逐步收斂到類似人形整機(jī)的格局,可能前面有 3 到 5 家頭部,其他很多會慢慢被淘汰。靈巧手整體發(fā)展速度也非常快。
極客公園: 我們現(xiàn)在累計交付靈巧手 8000 臺,是嗎?主要是哪一款,交付給誰?
熊坤:是。交付的 8000 臺當(dāng)中,差不多六七千臺是 OmniHand 靈動款。主要客戶包括智元,還有一些具身客戶。也有科研機(jī)構(gòu)、方案解決商等。
極客公園:Ultra-M 預(yù)計什么時候量產(chǎn)?
熊坤:直驅(qū)預(yù)計今年 Q4 會達(dá)到量產(chǎn)。繩驅(qū)手可能也差不多,或者稍微晚一點。
目前高自由度靈巧手,主流還是出給高校科研機(jī)構(gòu),以及一些需要做模型訓(xùn)練、專門做軟件算法的具身公司,用來做數(shù)據(jù)采集和模型訓(xùn)練。
未來出貨給做模型訓(xùn)練的公司可能占 60%,另外 40% 出給高校。量級要等量產(chǎn)后看市場,現(xiàn)在說都是想象。我們在所有高自由度手里應(yīng)該有相對優(yōu)勢。量級至少是千臺往上,數(shù)千臺。
極客公園: 我看到 GGII 的數(shù)據(jù):2025 年中國靈巧手市場銷量約 2 萬只,2026 年可能達(dá)到 7 萬只,2030 年可能突破 43 萬只。你認(rèn)同這個增長節(jié)奏嗎?
熊坤:大差不差,基本類似。但我可能會更激進(jìn)一些。我覺得今年可能會突破 10 萬只,到 2030 年,50 萬甚至 100 萬只都有可能。
這主要來自人形機(jī)器人銷量本來就很快,第二是靈巧手自身技術(shù)成熟度也在加快。所以會加快人形機(jī)器人搭配靈巧手在各類場景中做部署態(tài)落地。
極客公園: 從去年到今年,整個靈巧手行業(yè)你覺得是什么狀況?
熊坤:很多公司,包括我們,都在攻克量產(chǎn)問題。
大家一直說,2024 年是研發(fā)元年,2025 年是量產(chǎn)元年,2026 年是商業(yè)化部署元年。我覺得這是對人形整機(jī)的評判。靈巧手會比人形整機(jī)稍微晚一點。今年對靈巧手來說,應(yīng)該是量產(chǎn)和初步部署化的年份,更主要還是量產(chǎn)。
Demo 是一塊,但不能只從 demo 角度評估靈巧手行業(yè)的發(fā)展。很多公司還沒有達(dá)到像臨界點這樣比較大規(guī)模的靈巧手量產(chǎn)能力。與其純粹做驚艷 demo,不如在底層量產(chǎn)工藝上下功夫。
從核心零部件,比如電機(jī)、觸覺傳感器安裝,到基礎(chǔ)的螺釘、膠水使用、裝配工藝、裝配方法、材料應(yīng)用、涂料和涂層應(yīng)用等,都要建立一套非常規(guī)范的要求。這也是臨界點相比其他友商非常有競爭力的一個點。
極客公園: 這些問題解決之后,成本下降空間還很大嗎?
熊坤:成本下降空間應(yīng)該很大。它的價格要符合人形機(jī)器人 20% 的要求,才能被人形機(jī)器人大規(guī)模應(yīng)。
極客公園: 如果按 100 分算,今天靈巧手做到多少分?
熊坤:還是及格分左右,可能 60 分。
極客公園: 再往上突破,哪一塊拖后腿?
熊坤:軟件硬件都需要進(jìn)步。如果想讓分?jǐn)?shù)快速提上去,我覺得硬件比重會多一些。
極客公園:人形機(jī)器人或通用機(jī)器人都說缺數(shù)據(jù),靈巧手自己有數(shù)據(jù)問題嗎?操作數(shù)據(jù)怎么收集?
熊坤:目前行業(yè)對數(shù)據(jù),包括靈巧手?jǐn)?shù)據(jù),有一個數(shù)據(jù)金字塔劃分。
最底層是仿真數(shù)據(jù)。再往上是人手?jǐn)?shù)據(jù),比如通過視覺、視頻采集人手?jǐn)?shù)據(jù)。第二層是通過手套形式,或者五指外骨骼采集到的操作數(shù)據(jù)。最高層是真機(jī)遙操數(shù)據(jù)。
我們目前的數(shù)據(jù)采集基本也是基于這樣的數(shù)據(jù)工廠完成。我們在籌備自己的數(shù)采廠,也和一些公司合作做數(shù)據(jù)采集。我們已經(jīng)有 8000 多只手銷售出去,目前日常有 1000 多只手在做常規(guī)數(shù)據(jù)采集,已經(jīng)累計了數(shù)萬個小時數(shù)據(jù)。
臨界點的數(shù)據(jù)類型構(gòu)型上和其他家類似,但我想強(qiáng)調(diào)幾個點。
第一,我們的產(chǎn)品矩陣最全,所以不是用單一一款手做數(shù)據(jù)采集。這保證了即便是真機(jī)遙操的靈巧手采集數(shù)據(jù),種類也是最多的。后面做模型訓(xùn)練時,泛化能力會更好。當(dāng)用我們的模型訓(xùn)練人形機(jī)器人做任務(wù)時,可以很好完成不同靈巧手本體的遷移。
第二,我們在數(shù)據(jù)采集設(shè)備上有一些調(diào)整和優(yōu)化。比如我們有自研數(shù)據(jù)手套,可以解決觸覺手套常見的應(yīng)力殘留等問題,保證采集到的觸覺信息準(zhǔn)確度更好。
*頭圖來源:臨界點
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO
極客一問
你覺得靈巧手行業(yè)亟待解決的問題是什么?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.