![]()
*圖片來自他山科技官網
“ 摸得到的智能時代 ”
作者 | 東宇
編輯|云舒
出品|RoboVenture
5月29日下午,首鋼冬奧辦公區機器人大本營產業大會在首鋼冬奧廣場舉行。作為大會三大重點啟動項目之一,他山科技與圖靈獎得主理查德·薩頓(Richard Sutton)共建的“機器人幼兒園”項目正式啟動。
![]()
機器人翻跟頭、跑馬拉松已不再是新聞,但當它需要穩穩拿起一杯水而不灑、剝開一只小龍蝦而不碎殼時,具身智能才真正觸碰到產業落地的門檻。視覺讓機器人“看懂了世界”,但觸覺才是它“改變世界”的唯一通路。
大會期間,他山科技CEO馬揚接受極新采訪。作為全球少數掌握從芯片、傳感器到算法及模型全棧式解決方案的企業,他山科技占據了全球觸覺傳感器市場80%以上的份額。馬揚直言,具身智能的競爭焦點已從“大腦”轉向“神經末梢”,而數據閉環的缺失是當前最大的卡點。
#01
從“大腦”到“神經末梢”
Q:他山科技為何選擇落地首鋼園?這里的生態對硬科技公司意味著什么?
馬揚:最打動我們的是產業鏈的完整度,在首鋼園里,上游芯片、下游整機、側邊應用場景,密度極高。我們做了三件具體的事:
第一,建數據訓練工廠。以前是“先有雞還是先有蛋”的問題,現在是“先有機器人還是先能在機器人上做數據”的問題,沒機器人就沒數據,沒數據就無法訓練出能夠精準執行指令的機器人。首鋼園給了我們真實的工業場景,我們在這里建立了具身數據訓練基地。
第二,運營總部落地。招人效率高,和合作伙伴溝通成本低。在這個圈子里,基本就是半杯咖啡、500米的距離,大家談事非常直接。
第三,聯合前沿研究。我們與圖靈獎得主薩頓教授合作“機器人幼兒園”,研究機器如何像孩子一樣學習,這比單純堆算力更有長遠價值。
Q:行業過去幾年卷視覺、卷大模型,為什么觸覺突然成了關鍵?
馬揚:視覺和聽覺只能“感知”,不能“改變”。你看一眼杯子,杯子的位置不會變;但你要拿起杯子,靠的是手上的觸覺反饋。具身智能是一個感知—計算—控制的閉環,而觸覺是這個閉環的物理接口。
舉個直觀的例子:拿水杯。眼睛負責定位,但當手指觸碰到瓶身那一刻,視覺就退居次席,觸覺接管全過程——感知穩不穩、哪里滑、哪邊偏就往哪邊加力。這套微調在指尖局部完成,不需要每次都回傳大腦。缺了觸覺,機器人就像戴著厚手套干活,準度、速度和穩定性全都會打折。
Q: 他山強調自研AI觸覺感知技術及應用解決方案,技術壁壘到底在哪?
馬揚:壁壘在于芯片與模型的結合。行業早期把觸覺傳感器當成單純的“模數轉換器”,而我們把它定義為前端智能模塊。
很多人誤以為靈敏度越高越好,其實在工業場景,優先級是耐用性 > 成本 > 靈敏度。工業現場高溫、高濕、高酸,傳感器用10次和用50萬次,性能必須一致。就像人的手指長繭是為了干活,不是為了摸絲綢,觸覺模組也必須為魯棒性犧牲過剩的靈敏度。
![]()
2025年WAIC展會他山科技展臺
#02
在真實的觸摸中啟蒙
Q:5月13日,他山科技與圖靈獎得主理查德·薩頓教授于加拿大完成簽約,宣布合作建設“機器人幼兒園”,計劃落地首鋼園。對于機器人幼兒園來說,量化的顆粒度(分辨率)目前是多少?在機器人幼兒園這樣的場景中,如何量化,標準是什么?預計何時能達到可商用量化水平?
馬揚:目前觸覺傳感器力分辨率已達到 0.01N,這個精度被形象地描述為“類似一根頭發絲掉到手指上的力”。面對機器人幼兒園這樣的真實場景,力分辨率是最直觀的量化指標之一,但完整的量化體系需建立在時間密度、穩定性和多模態感知三個維度上:
時間密度:強調感知決策的實時性與循環效率,使觸覺模型能在端側快速形成閉環反饋,正如人類通過小腦和脊髓完成快速的本體感知與調節,而不過度依賴大腦進行邏輯計算;
重復性與穩定性:確保觸覺信號在不同環境下不會漂移,模擬人類皮膚在經歷摩擦與磨損后依然保持穩定的感知能力;
三維力、材質與接近覺:提供法向力、摩擦力、材質形變及紋理識別等多維信息,讓機器人建立全面的物理理解。
Q:在首鋼園,他山科技計劃如何設計這個物理“課堂”?是和首鋼的真實工業場景打通(如讓機器人在停用的煉鋼產線中自主探索),還是另外搭建模擬空間?如何跨過Sim2Real的鴻溝?
馬揚:在首鋼園,他山科技計劃搭建一個真實的物理環境模擬空間。在這個空間中,將部署工具、果蔬、生活用品等各類真實物品,形成一個動態的“物理課堂”。
我們的愿景是分階段推進:初期在受控環境中完成實體任務訓練,未來逐步擴張至讓機器人自主進出商鋪、完成幫人取物等與真實世界直接交互的任務。
Sim2Real鴻溝也正是他山科技和薩頓教授重點考慮的瓶頸問題。我們的破局思路是“元方法”。
關于“元方法”可以這樣理解。如果具身能夠自己生成底層的交互邏輯,本體異構就不再是數據遷移的障礙,此時的模型是一個元方法(Meta method),不同本體基于這個元方法去拓展就可以了。
比如人在拿水瓶時,有幾根手指、手有多少自由度,不是核心變量。核心是底層的交互邏輯,如何從接觸出發,通過持續反饋完成任務。正是因為這套底層邏輯的存在,人換了手套、少了一只手,試錯成本依然很低,因為大腦能自己解構任務,再用當前的本體去驗證。
這套邏輯的遷移能力甚至跨越了物種邊界,狗或貓看到人拿起一個東西,能很快理解這個動作的意思,并嘗試用自己完全不同的本體去完成類似的事。這個現象指向一個原理:當底層交互邏輯足夠穩定,遷移能力就不再被本體形態所限定。
前者(人換手套仍能完成任務)說明執行層面的底層邏輯與本體無關;后者(跨物種理解與模仿)說明學習層面的遷移能力同樣與本體結構關系不大。
這兩個例子從不同角度指向同一個結論:智能體的能力邊界,并不由本體形態來劃定,前提是,這套底層邏輯已經形成。
在這個邏輯尚未形成之前,本體的簡單性仍然重要,變量越少,早期的經驗積累越清晰。因此幼兒園初期計劃中,大部分本體會采用統一規格,目的是控制變量。初步計劃在訓練環境中放置約數十臺具身本體,其中較大部分為統一規格,同時歡迎上下游合作方的異構本體接入,在同一環境內共同參與訓練。
#03
數據,缺了它不行
Q:今年是數采大年,行業為何突然熱捧EGO+UMI(第一人稱+第三人稱)路線?
馬揚:純仿真離真實太遠;純本體數據又太少——去年全球約2萬臺人形機器人,60%到70%是演示用的,沒法采數據。EGO+UMI找到了中間態,既能以較低成本獲取近似真實的數據,又能夠和本體之間產生遷移的可能,同時獲取的速度快。
我們看到,用純ego或ego加文本的形態,在小樣本下已經取得不錯結果。他山科技很快會發布第一個工業形態的產品和訓練方案。因為多數機器人公司用的是我們的手指,他們需要首端獲取同源觸覺信息。我們一方面與相關廠商合作,另一方面會在WSC和WRC上展示新方案,與上下游探討。
另外,這只是一個中間形態,往后需要更多真機數據。就像換擋加速,具身數據迭代也要一步步提升。我們正在做的“機器人幼兒園”,偏實驗室、更前沿,希望實現平滑過渡,讓具身智能持續高速迭代。
Q:數采的卡點有哪些?
馬揚:現在的卡點有兩個:一是時間滯后性,行業剛從看Demo轉向關心“能不能干活”;二是數據質量,行業還在摸索什么是“好數據”。他山科技目前人形機器人觸覺傳感器賽道出貨量的市占率超過80%。
Q:工業機器人和家用機器人,對數據的要求有何不同?
馬揚:差別巨大。工業機器人任務明確、場景封閉,數據需求清晰,原來人怎么做,機器人就學怎么做;消費/家庭機器人則需要極強的泛化能力,任務開放且多變,行業還在摸索階段。目前最務實的路徑是,先幫工業客戶解決明確的單點任務,再逐步疊加泛化能力。
更多干貨分享敬請關注我們的公眾號與視頻號~超多精彩對話內容等待您的解鎖!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.