2026年5月11日,加拿大埃德蒙頓,他山科技CEO馬揚與圖靈獎得主、強化學習奠基人理查德·薩頓(Richard Sutton)正式簽署戰略合作協議,共同啟動“機器人幼兒園”項目。
![]()
這是薩頓2023年創辦非營利研究機構Openmind Global Research后,在具身智能領域落地的首個系統性合作計劃。雙方初步規劃該項目定性為研發平臺,合作周期為五年,研究成果將逐步向行業開放。
“機器人幼兒園”這一名稱不是比喻,而是對功能的直接描述:在一個物理空間內,部署多臺具身本體,在真實環境與仿真環境的混合條件下,持續產生可記錄、可分析的交互經驗。其目標,是為具身智能提供從被動模仿向主動生成學習方法過渡的訓練條件。
01.
具身機器人的天花板:它只會模仿,不會思考
要理解這次合作試圖解決的問題,需要先理解當前具身智能訓練的根本困境。
當前具身智能的主流訓練方式,更像是一種人類模仿教育:工程師預先設定任務路徑,系統照著執行,遇到路徑外的情況就失效。
更深層的問題在于:具身機器人并不知道自己做的事情是成功的還是失敗的。馬揚用了一個類比:就像家里0到2歲的嬰兒,模仿大人做了一個動作,大家鼓掌,他也很開心,但他并不知道這個動作意味著什么。當前絕大多數訓練方式,都在以人的思維方式、人設定好的對錯標準去驅動系統,系統學到的是“成功路徑”,而不是“為什么這樣做會有效”。這條路的天花板,就是人本身。
![]()
他山科技TS-V視觸融合訓練平臺
他山科技目前使用的訓練路徑,馬揚稱之為“冷啟動”(Cold Start):先用模仿學習加仿真訓練,給系統提供大量數據,建立初步的任務執行能力。這套方法有價值,也可以滿足部分商業項目需求。但馬揚把這個階段的成果比作“60分”——不是滿分,但具備基本能力。但冷啟動的邊界是清晰的:如果具身一直在做對人的簡單模仿,它的天花板就是人;如果用人的想象力限制它,它就會被鎖死在那里。
問題因此轉向:怎么換擋?怎么從被動教育,過渡到讓具身能夠自己啟蒙、自己生成學習方法的模式?換擋的目標是具體的,讓具身在執行任務之前能夠自己想象完成過程,在執行中試錯,在不斷自我驗證的循環中形成屬于自身的方法論,而不是由人預先設定好所有路徑再讓系統照著執行。
02.
觸覺能否改寫機器人的未來?
這個換擋,需要一個底層基礎:觸覺。觸覺之所以是換擋的關鍵,在于具身要自己生成方法論,前提是必須與物理世界發生真實交互。而觸覺,正是這種真實交互得以發生的唯一通路。
馬揚在訪談中被問到一個問題:如果人只能選一種感知,會選什么?他的回答是,在幼年啟蒙階段,會選觸覺。原因在于,人的經驗產生,并不是靠坐在那里看或想象,而是通過與客觀世界的交互實踐來產生的。而與物理世界交互,改變物體在物理空間中的位置,核心依賴的就是觸覺。看一個東西、聽一個東西,不會改變它在物理世界里的位置;但凡要改變,就要通過觸覺來完成。
他山對觸覺的定位,從一開始就不是把它當作獨立的感知單元,而是理解為整個決策鏈路的一部分。馬揚用“拿水瓶”來解釋:人在拿水瓶時,眼睛先確定位置,但手一旦接觸到瓶身,人就不再盯著看了。從接觸那一刻開始,觸覺接管了整個執行過程,手指逐個碰到瓶身,感知是否穩,哪邊不穩就在哪邊加力,整個過程不需要回到大腦重新計算。大腦負責整體規劃,手端一旦建立接觸,觸覺就在局部完成感知—決策—調整的閉環。
他山科技TS-V視觸融合訓練平臺
這個理解直接決定了硬件設計取向。馬揚的判斷是:人的手指并不精確感知自己施了多少牛的力,但人能解決問題。觸覺模組需要復現的,是這種特性,而不是單純追求精度的極限。因此他山將重點轉向測量的重復性和穩定性,以及時間密度,即單位時間內能完成多少次有效的感知與決策循環。同時,魯棒性是另一個核心工程挑戰:人手指長繭,本質上是為了應對耐久性問題,在任何環境下持續工作不產生損壞。觸覺模組面臨同樣的挑戰,換了環境、產生磨損之后,信號不能出現漂移。解決這個方向上的問題,是他山在產品設計上重點投入的工作,也是他山認為真正下場之后最重要的工程問題。
薩頓在參觀搭載他山觸覺解決方案的靈巧手演示后說:“我原以為,這么高精度的觸覺感知技術至少還要5年才能落地。“他的判斷是,觸覺感知是機器人持續學習的基礎,基于觸覺的持續學習會徹底改寫機器人的未來。這個評價指向的不只是硬件本身,而是他山試圖解決的那個更大的問題:讓具身在執行過程中,真正形成自己的感知—決策閉環,而不是依賴人預先設定好的每一步。
03.
強化學習的經驗時代--用真實交互超越人類知識邊界
薩頓的核心貢獻,不只是一套數學框架,而是一種關于智能本質的判斷:真正的智能,不是對已有知識的復現,而是通過與環境的持續交互,在獎勵與懲罰的驅動下,主動生成對世界的理解。
![]()
圖靈獎得主理查德·薩頓
他明確指出,以RLHF為代表的“人類數據驅動”范式雖然實現了行為廣度的飛躍,但同時給智能體設定了一個隱性上限:它無法超越人類已有的知識邊界。未來AI真正的轉折點,在于從“人類數據時代”跨入“經驗時代”,讓智能體通過與環境的持續交互自主產生數據,在獎勵機制驅動下,生成超越人類預設的行為與認知能力。
在簽約儀式上,薩頓進一步闡述了這一理念背后的現實意義:
“我們正在探索一個非常引人注目的假設,即與世界的互動、從經驗中學習,尤其是通過機器人與物理世界的互動,獲得豐富的反饋和細致的交流,是實現人工智能的關鍵。我認為,我們有很大的機會真正理解人類的思維,并通過技術重新創造它。這就是人工智能的夢想。"
“早在我們讀研究生的時候,有些教授就提出:我們應該制造一個像嬰兒一樣的機器人,讓它能與世界互動并通過經驗成長。這個想法當時常被討論,但幾乎不可能實現。而到了現代,我們有了足夠的計算能力,也有了足夠多與機器人和硬件打交道的經驗。”
觸覺正是這個閉環中的核心。它既是機器人改變物理世界的唯一通道,也是強化學習得以真正運轉的獎勵來源。而這條路徑的工程化落地,指向一個具體問題:機器人需要一個真實的場所,持續執行交互、積累經驗。理論和硬件都已就位,缺少的是讓它們協同運轉的訓練環境。
這個地方,就是“機器人幼兒園”。
04.
他山和薩頓要共建一所“機器人幼兒園”,讓具身自想自學
有了觸覺作為交互閉環的底層基礎,“機器人幼兒園"的訓練路徑才得以成立。這個訓練場所的核心設計是:在高度擬真的園區內布置工具、食物、植物等真實物品,讓多臺具身本體自由穿梭、主動探索,通過真實與仿真環境的結合,持續積累可記錄、可分析的交互數據。未來甚至計劃讓其進入園區商店買東西、幫人拿東西,與真實世界產生直接交互。碰撞與失敗在所難免,而這個過程,正是經驗積累的核心來源。
![]()
簽約儀式現場
多臺具身共同訓練的設計,有一個來自實際觀察的直接依據。馬揚在訪談中提到,他山在訓練過程中,曾出現一臺具身在關一扇較重的門時關不上,自發“叫來”另一臺具身幫忙按住門,自己再去扣上門扣的情況。這件事讓馬揚感到興奮,具身在沒有人為設定的情況下,自主產生了協作行為。薩頓聽到這個案例后,聯想到AlphaGo自我對弈的邏輯:兩個智能體之間相互博弈、相互促進,正是因為每個本體都存在“不想輸”的內在驅動力。多臺具身共同訓練,本質上是在復現這種機制,用本體之間的交互,替代人為設定的獎勵信號。
在與薩頓的討論中,馬揚反復強調的核心觀點是:要讓機器人能夠去做自主的學習。
“模仿學習也好,包括人去遙操的一些數據也是非常重要的一部分,但是最終能夠推動機器去真正實現能夠去干活、能夠去有效地走到產業化,一定是他通過自主學習來完成。”馬揚說,“這一點對薩頓是非常有吸引力的。”
薩頓在近期的研究中也在強調,要讓機器人實現這種自主經驗的學習。雙方在這個觀點上不謀而合。
馬揚進一步解釋了這種自主學習的本質:“對于具身來講,最重要最核心的,就是能想象到一個我要去做這件事情的一個過程,然后我去測試、去實習、去做,然后在這個過程中推導出一個結論,在不斷的自己的想象來去驗證的這個過程中,形成對于自身的方法論。”
他用了一個類比來說明這個過程:“像幼兒園到小學階段,老師會介入給你一些指導,但你自己真正能學習這個東西的過程,其實是出于你自己自發的一個驅動力來完成的——自己能制定目標,預演過程,預判結果,這就是我們說人有想象力。”
對于具身來說,這意味著它要具備一定的想象能力,要自己去想“我的這個任務的完成的過程是怎么樣的”,然后在完成的過程中去試錯,而不是由人給它設定好所有的操作模式及路徑軌跡。
薩頓認為,現在更多的是給機器人創造一個環境,讓它能夠去完成“正確的事情”。但真正能夠給機器人帶來訓練的,反而是它自己在探索過程中更多的錯誤的事情。
馬揚對此深表認同:“最終機器人要能夠真實地干活,一定是他通過不斷的試錯來去劃定自己的邊界。”
在這件事情上,雙方的看法非常一致:讓機器人在真實環境中積極交互,在人機交互的過程中,能夠從自身的經驗中學習。
05.
數十臺機器人、異構本體、跨物種遷移:當底層邏輯跨越本體形態
讓機器人自主學習解決的是單一本體內的能力生成問題。但行業還面臨另一個結構性障礙,即不同本體之間,訓練邏輯如何遷移?
當前行業里普遍存在硬件孤島問題:不同廠商的本體結構不同,訓練方法不同,同一套訓練邏輯遷移到不同本體上,成本很高。在與薩頓討論之前,他山今年的工作重心,是嘗試在數據到本體的遷移上同時解決泛化性與數據質量兩個問題。
![]()
他山科技觸覺感知方案自適應抓取精準完成抓取-移送-遞交
具體思路是:兩指夾爪的訓練用兩指夾爪的數據,五指手的訓練用五指手的數據,不同本體需要對應形態的經驗積累。馬揚判斷,這個思路在未來一到兩年內依然是行業主流。但這條路有一個內在的限制:它預設了本體形態決定訓練數據的邊界,不同形態之間的遷移成本始終存在。
與薩頓溝通之后,馬揚對這個問題有了新的思考角度。如果具身能夠自己生成底層的交互邏輯,本體異構就不再是數據遷移的障礙,此時的模型是一個元方法(Meta method),不同本體基于這個元方法去拓展就可以了。
馬揚再次用“拿水瓶”來解釋這個邏輯:人在拿水瓶時,有幾根手指、手有多少自由度,不是核心變量。核心是底層的交互邏輯,如何從接觸出發,通過持續反饋完成任務。正是因為這套底層邏輯的存在,人換了手套、少了一只手,試錯成本依然很低,因為大腦能自己解構任務,再用當前的本體去驗證。
這套邏輯的遷移能力甚至跨越了物種邊界,狗或貓看到人拿起一個東西,能很快理解這個動作的意思,并嘗試用自己完全不同的本體去完成類似的事。這個現象指向一個原理:當底層交互邏輯足夠穩定,遷移能力就不再被本體形態所限定。
前者(人換手套仍能完成任務)說明執行層面的底層邏輯與本體無關;后者(跨物種理解與模仿)說明學習層面的遷移能力同樣與本體結構關系不大。兩個例子從不同角度指向同一個結論:智能體的能力邊界,并不由本體形態來劃定,前提是,這套底層邏輯已經形成。
在這個邏輯尚未形成之前,本體的簡單性仍然重要,變量越少,早期的經驗積累越清晰。因此幼兒園初期計劃中,大部分本體會采用統一規格,目的是控制變量。初步計劃在訓練環境中放置約數十臺具身本體,其中較大部分為統一規格,同時歡迎上下游合作方的異構本體接入,在同一環境內共同參與訓練。
06.
結語與未來:
馬揚在訪談中也進一步明確了這件事的邊界:“我們不是要在這里建一個封閉的研究院,我們現在做的是對于具身的一種啟蒙,而在這個過程中,誰掌握了一個更好的教育方法,誰就能比別人走得更快一些。但方法論本身,不可能構成什么特別明確的壁壘。"
![]()
他山科技CEO馬揚
在他看來,這件事的價值不在于獨占,而在于能否被放大:“如果做出來的東西真正有效,推開來形成行業標準,比鎖起來的意義要大得多。這是他山將研究成果盡可能開放的根本原因。”
基于這一理念,他山科技正式面向全行業發起“機器人幼兒園”生態共建計劃,廣泛招募合作伙伴,無論是機器人整機企業、具身智能研發團隊、高校科研院所,還是核心零部件廠商、算法與數據服務商、行業應用方,都是這個平臺希望接入的力量。他山的判斷是:這件事靠一家公司做不完,也不應該由一家公司獨占,打通技術、數據、場景與人才的協同鏈路,才能讓“機器人幼兒園”真正成為行業級的基礎設施。
如果“機器人幼兒園”最終能沉淀出一套通用訓練范式,受益的就不只是他山一家。觸覺數據的采集標準、多階段學習的課程設計、跨場景遷移的評估方法,這些一旦開放,就能讓后來者在物理世界訓練具身智能的門檻系統性降低。這才是他山所說“行業級基礎設施”的真實含義。
馬揚最后說:“這件事還沒有做完,很多問題我現在也沒有完全想清楚。但我們在做,在試,在開放地討論,這件事本來就沒有標準答案,邊做邊想,反而是最誠實的方式。”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.