2018 年,從美國 UIUC 畢業的潘韞哲回國創業,選了一個成熟得不能再成熟的行業。
他沒有選擇互聯網,因為不想像馬斯克在自傳里說的那樣:「看這一代最聰明的人,都在絞盡腦汁想著怎么讓人點廣告。」他想做點有趣的事。打開 YouTube,映入眼簾的第一屏全是機器人視頻。
看 EVA、高達、《攻殼機動隊》長大,機器人早已在他的人生里留下痕跡。越看,他越想親手嘗試,做出一個讓所有人都驚嘆的產品。給這家要重新定義靈巧手的公司起名時,他想起了《傀儡謠》里的一句歌詞:「吾起舞兮,麗人醉心。」
2023 年,真格第一次去上海見潘韞哲。廠區很空曠,四周都是汽車配件維修設施。在廠房的大桌子上,他聊起自己想做的事和對未來的設想。說著,他把袋子往桌上一扣,咣地倒出各種電機,然后一一介紹每個電機是什么、性能如何、繞線結構有何不同。
做任何事,潘韞哲總是圍繞一個想要解決的問題。當寫下「解」的那一刻起,其余一切都不再重要,眼前仿佛只有這一張桌子。從創業那天起,他的問題就只剩下:靈巧手到底能不能做到和人一樣的能力?
觸覺是一個被低估的問題,也是具身智能的「最后一公里」。有了觸覺,你可以解決 100% 的問題;沒有觸覺,你只能解決 30%,而且完成的速度只有 30-50%。
靈巧手離人的能力差多少?做一個要花多少錢?發貨慢了嗎?在具身智能這個充滿浪潮和泡沫的賽道里,潘韞哲很冷靜。他清楚自己有一支高效團隊,在正確的方向上深耕,用別人十分之一的資源做出了更好的產品。他也理解硬件的時間周期,硬件產品必須一輪輪試產,把問題一個個暴露出來。
舞肌的團隊就是這樣一群刨根問底、激極盡志、追求真知灼見的人。這也是潘韞哲從畢業創業以來的態度:不等成熟的時間,也不等完善的交付,而是活在每一個當下,在不斷測試、進步、成熟的過程中,交出超出用戶預期的答卷。
9 月 17 日,Wuji Hand 1.0 正式發布。其單手重量僅 550g,以 1:1 仿真人手形態與 20DoF(主動自由度)的靈巧手設計,重新定義了機器人精細化操作邊界。
正如《攻殼》里素子說的,「人由各種部分組成,每一部分又千差萬別,異于他人的面容、下意識的聲調、夢醒時的手掌。」兒時的記憶、未來的命運,以及腦海中涌現的信息,所有這些孕育了潘韞哲,也誕生了舞肌。
以下文章是潘韞哲的自述。
機器人像一種黑魔法
2018 年,我從美國伊利諾伊大學(UIUC)本科畢業,專業是計算機和化學雙學位。2017 年,互聯網機會非常多,我最初也想過進入互聯網創業,在國內外大廠實習過。但后來發現,這個行業做的事情并沒有讓我覺得有意思。
讓我印象很深的是,當時在馬斯克傳記《硅谷鋼鐵俠》里看到一句話,「世界上最聰明的頭腦們都在研究怎么讓人點更多的廣告」。那一刻我就覺得,互聯網行業挺無聊的。
于是我開始轉向硬件。但我對硬件也不了解,不知道該從哪里入手,就靠看很多 YouTube 視頻自學。我從小就喜歡看和機器有關的動畫,只要機器人相關的視頻推到我的首頁推薦,我就會忍不住點開,越看越覺得想親手試試。于是一畢業,我就決定去做機器人。
我印象最深的一個視頻是有人用舵機搭建出一個小型人形機器人騎自行車,另一個是 MIT 的 Mini Cheetah 機器狗做后空翻。當時這些視頻對我來說簡直就是黑魔法,特別是機器狗能后空翻這一幕立刻把我吸引住了,讓我迫不及待想弄明白它究竟是怎么做到的。
MIT 的 Mini Cheetah 做后空翻(圖源:The Verge)
再小一點,在 2003 年,我上小學一年級的時候,看一部動畫叫《天鷹戰士》,實際上就是《新世紀福音戰士》第一次引進國內的譯名。它尺度很大,還夾雜著不少暴力和血腥的元素,看得我常常做噩夢,但同時也徹底顛覆了我的世界觀。之后到了初中,我又開始看高達和更多機甲類的動畫。可以說,對機器人這個東西,我從小就充滿興趣。
后來我創立了舞肌科技。這個名字來自《攻殼機動隊》,其中川井憲次創作了一首配樂《傀儡謠》(Utai),歌詞里有一句「吾起舞兮,麗人醉心」(吾が舞えば、麗し女、酔ひにけり),意思是說舞動會讓人沉醉。這個氛圍深深打動了我。因為我們最初的目標是做高動態性能的腿足式機器人,從電機研究起步,我希望未來別人看到我們的機器人時,能產生好奇、被吸引,甚至被迷住的感覺,所以就取了這個名字。
學習的第一性原理
我覺得學習最核心的是你必須先有一個問題,一個你真的想要去解決的問題。
我在學校里上課時效率不高,因為課堂會直接把現成的解法告訴你,而不會先告訴你問題是什么。在學偏微分方程時,老師一上來就講特征值、各種證明,但唯獨不說我們到底要解決什么問題,也不解釋這些東西真正的價值在哪里。
我的學習方式就是從問題出發:我得有一個明確的問題,然后去拆解它需要哪些模塊、底層邏輯是什么。
如果我在某個方面欠缺,就會去找對應的教材深入學習。當我有了可行的想法,我會去看論文或者找行業里的專家交流。隨著學習越來越深,我逐漸建立了一層底層理解。到了一定階段,我甚至不用再依賴論文或專家,也能判斷一個思路是否可行,它的難點和需要驗證的地方在哪里。這種能力對我來說非常重要,它能讓我在做產品時快速識別風險點和挑戰點。
我很早在朋友圈發過一句話:如果有一臺電腦和一根網線,就能學到全世界所有的知識。我一直覺得互聯網最大的意義在于讓信息流通,幾乎所有知識都能在網上找到,這也是為什么 GPT 能夠這么聰明。
學習本身并不會讓我感到刺激,有時找不到答案還挺痛苦的。但學習最讓人興奮的地方,是當你從問題出發,通過學習發現這個問題到底有沒有解,或者在一個從未被解決過的問題上看到了可行的路徑。這一刻才讓我感到滿足。
疫情時,我在家待了兩個月。我們這些做硬件的,如果離開了生產資料就什么都做不出來。正好那時我在反復學習一本機器人學教材。前兩遍其實沒太看懂,到第三、第四遍時才逐漸明白它在講什么。它的問題在于和我剛剛說的一樣:它會告訴你有一個公式、可以這么用,卻不會解釋我們為什么需要這個公式,它從哪來,又解決什么問題。很多推理過程像是憑空變出一個公式,再把它帶進去完成證明,這讓我覺得很不合理。
機器人學明明是一個看得見、摸得著的學科,所有的物理量、推理、推論本應有很強的邏輯聯系。每個公式的意義、價值,它究竟從何而來、能解決什么問題,這些理應能用一條邏輯線串起來。
但在我讀過的教材里,從來沒有把這些講清楚,那些物理量的直觀含義也沒和我們真實的物理直覺聯系起來。可這些東西對做機器人控制和理解不同機器人類型非常重要。
于是我想,干脆自己把這套東西理清楚。畢竟這是一個復雜的系統和理論框架,我只有把它系統地記錄下來才能捋順,就寫下了自己的教材。
潘韞哲所著教材《機器人剛體力學》講義概述
這種思考方式也影響了我定義產品的方式。就像喬布斯說的,把點連起來。定義一個產品時,你需要把所有的點串成一條完整的邏輯線:技術的邊界在哪里?硬件的瓶頸和潛力在哪里?軟件能做到的極限在哪里?客戶真正的需求是什么?哪些問題還沒有被解決?
當所有這些點被有邏輯地串聯起來,你才可能做好一個產品。學習機器人理論的過程,本質上就是把各種公式、物理量、現象串成一條完整的脈絡。
創業帶來的滿足感也一樣。第一是當你發現一個未被解決的問題,找到了一個全新的解決思路;第二是當你做出的產品符合預期、被點亮并且測試完全通過。比如我們在調試靈巧手時,它能完成一些之前所有靈巧手都做不到的動作,那種感覺真令人難忘。
具身智能最后一厘米
如果靈巧手沒做好,整個具身智能的操作問題就很難說被解決。而靈巧手就是這個鏈條里最難、最關鍵的一環。
從第一性原理來看,整個行業里沒有人能拍著胸脯說「靈巧手已經能達到人手的能力」。大家對這件事或多或少都有疑問。我們自己在做之前也沒辦法完全確定答案。但很多問題就是這樣,你不去做,永遠不會知道能不能解決。而靈巧手的問題足夠有價值,所以我們必須去做,必須回答這個問題:靈巧手到底能不能做到和人一樣的能力?
舞肌科技團隊工作照
現在你看到很多具身智能公司用二指夾爪去做各種事情,一個原因是因為大家手上只有二指夾爪,另一個原因是大家只會用二指夾爪,所以在做 demo 時自然挑二指夾爪能完成的動作來展示。
但我覺得二指夾爪的能力本質上只是靈巧手功能的一個極小子集。你可以這樣想:二指夾爪就像一個沒有大拇指的手。當你還剩四根手指,但沒有拇指,你的抓握能力就損失了大半。醫學上也有一個傷殘等級的劃分,小指斷了只算輕傷,但拇指斷了就是重傷,這恰好說明拇指的重要性。
人類世界里大量的物體是棒狀或帶有握把的工具。對二指夾爪來說,抓握這些東西的穩定性始終存在問題,它天然存在大量物理上的限制。
第二個角度是數據。靈巧操作的核心是基于人的大量數據,而二指夾爪這種數據模態我認為是不可擴展的。它可能在一些簡單場景里能快速落地,但當你要處理更復雜的場景,或者上升到更高層次的世界模型時,它就顯得捉襟見肘了。
第三個角度是交互方式。比如你讓二指夾爪去操作一個遙控器,這幾乎不可能。有人可能會說機器人可以直接通過 API 控制遙控器,那其實又回到了傳統 PLC 的思路:你用代碼打通系統,這當然能行,但那和操作這個問題本身是兩碼事。
二指夾爪的數據采集無非三種:
1. 遙操作
2. 真人帶著二指夾爪去采數據
3. 仿真(sim-to-real)
前兩種方式很難大規模擴展,第三種方式的爭議又很大,它到底能不能產生通用智能、能不能真正幫助機器人理解世界都還是未知的。相比之下,基于人的數據才是最靠譜的,而要遷移人的數據,就必須有一個接近人手形態的執行機構。
靈巧手正好滿足這一點,同時它的迭代速度也能非常快。所以我覺得靈巧手是整個具身智能操作里最值得攻克的核心問題。
觸覺是一個被低估的問題
現在市面上已經有不少公司在做靈巧手,也有的開始出貨了,但操作本身沒有被真正解決。只要這個問題沒解決,就還有大量的機會和增長空間。
具身智能顯然是當下非常火熱的賽道,有泡沫,也有很優秀的同行在實踐自己的產品思路。但無論行業處在什么階段、有沒有泡沫,認真想把產品做好、把核心問題解決的公司一直都非常少。
從人的功能定義出發,我覺得靈巧手有五個最重要的維度:
1. 自由度要足夠接近人;
2. 尺寸和重量必須和人接近;
3. 可靠性要足夠高,壽命至少一千萬次,保證兩三年內穩定使用;
4. 具備全掌的數據;
5. 像人一樣有柔軟的皮膚。
目前市面上還沒有一款產品能同時滿足這五點。
這也說明了觸覺是一個被嚴重低估的問題。類比計算機視覺,之所以它能蓬勃發展,是因為有成熟的傳感器,比如基于 CMOS 的 RGB 攝像頭,背后有上百億、甚至千億美元的市場推動,傳感器的性能才被打磨得非常成熟。觸覺目前在這方面的投入比視覺少了 3-4 個量級不止。
但我認為觸覺傳感器同等重要。視覺對應人的視覺中樞,觸覺對應人的觸覺中樞,觸覺決定了機器人和物理世界的交互。如果有一個真正優秀的觸覺傳感器,它的潛在市場價值應該和 CMOS 傳感器在同一個量級。觸覺的意義主要有幾點:
第一,它能極大提升操作效率。完全依賴視覺去閉環,速度會非常慢,就好像讓你用腳去做精細任務,操作效率會低很多。
第二,觸覺能提升操作的安全性。沒有觸覺閉環時,機器人根本不知道要用多少力,結果很容易用力過猛,把物體損壞。但有了觸覺閉環,基本不會出現這種情況。
第三,觸覺傳感器能讓你大量采集多樣化的數據。沒有足夠的數據閉環,就沒辦法真正用好觸覺。
舞肌科技靈巧手渲染圖
人的觸覺模態非常復雜,不只是壓力,還包括形變、溫度、濕度等多種信號。到現在為止,還沒有一個系統能完整采集這些模態。我們認為觸覺傳感器最終一定得以手套的形式存在,因為你必須從人身上去采數據。
但從第一性原理看,人類觸覺是在一個立體空間內完成的,而做成手套就意味著要在一個二維的面上完成這些事,這本身難度非常大。這也是為什么觸覺問題一直沒有被很好地解決,同時也意味著這里存在巨大的機會。
我相信十年之后,大部分體力勞動都會被機器人取代。對物理世界的操作,大部分都會由機器人完成,而不是人去做。人類更多還是處理信息、做決策的角色。
做硬件就是在不斷調試中暴露問題
我們的資金使用效率很高。在非常有限的資金下,我們自研了各種電機、減速器和控制器,深入到最底層,從工藝到制造設備都親手搭建。我們不僅把可量產的產線建了起來,還完成了多輪試產,用別人十分之一的資源就能做出比別人更好的產品。
剛剛說的五個產品標準的靈巧手目前市面上還不存在。而我們認為舞肌是第一家能夠滿足這些點、并且實現量產發貨的公司。
我認為硬件研發必須尊重基本的時間規律。我們非常敬佩大疆,這是我所知的公司里組織能力最強的。但即便是大疆,做同樣的事情至少也要 12-18 個月。因為硬件產品就是需要一輪又一輪試產,不斷暴露問題、不斷收斂,才能真正成熟。
硬件問題一定存在,要么你自己測,要么交給用戶去測。每一輪測試都要針對問題去迭代調整,這是硬件最基本的時間線。
正常來說,一個能量產的硬件產品,至少要經歷 3–4 輪試產,多的話可能要 5–6 輪。這個周期不可能從 12 個月壓縮到 6 個月。如果有人 6 個月就推出產品,那一定意味著測試輪次不足,交到用戶手里的時候,它就是一個沒有被充分驗證的產品。而我們不希望這樣。
我們希望交付給用戶的東西,至少能達到他們的預期,甚至能超出他們的預期。這就是我們做產品的基本哲學。
今年我們團隊擴張也很快。2024 年 10 月,我們當時一行 13 個人搬到深圳。等到第二年 3 月,人數就一路蹭蹭往上漲,現在我們有超過 100 個人在做靈巧手。
招人過程中,我也慢慢總結下來了三個最欣賞的特質:
第一是真知灼見。就是能用非常出色的邏輯思維,在復雜環境和大量變量中找到最核心、最直擊要害的點,并且能真正落實。
第二是刨根問底。遇到問題時不是簡單去抄已有經驗,而是從底層邏輯搞清楚,盡可能收集信息,找到最本質的根因,然后再去解決。
第三是激極盡志。這個詞來自大疆,我很喜歡,因為它代表一種態度:我一定要把事情做好,而且有意愿、有能力在有限資源下做到最好,甚至比別人更好。這種原動力讓我很欣賞。
舞肌科技團隊合影
我們公司正好聚集了一群這樣的人。這樣的人來到舞肌就會如魚得水。大家有共同的使命和精神,彼此共事是一件非常享受的事情。
最后,我想對準備創業的人說:創業最好的時機就是當下。不要猶豫,也不要等什么成熟時機,直接去做。因為你永遠只能在不斷進步的過程中,才能遇到真正的機會。
本期音頻內容同步上線真格基金播客「此話當真」,歡迎收聽~
文|Cindy
視頻|Dylan & Xin
播客|Neya & Ruitong
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.