網易首頁 > 網易號 > 正文申請入駐

機器人幼兒園五年計劃啟動！他山科技與強化學習之父要驗證什么？

2026-05-28 20:04:19　來源: 機器人大講堂

安徽舉報

分享至

2026年5月11日，加拿大埃德蒙頓，他山科技CEO馬揚與圖靈獎得主、強化學習奠基人理查德·薩頓（Richard Sutton）正式簽署戰略合作協議，共同啟動“機器人幼兒園”項目。

這是薩頓2023年創辦非營利研究機構Openmind Global Research后，在具身智能領域落地的首個系統性合作計劃。雙方初步規劃該項目定性為研發平臺，合作周期為五年，研究成果將逐步向行業開放。

“機器人幼兒園”這一名稱不是比喻，而是對功能的直接描述：在一個物理空間內，部署多臺具身本體，在真實環境與仿真環境的混合條件下，持續產生可記錄、可分析的交互經驗。其目標，是為具身智能提供從被動模仿向主動生成學習方法過渡的訓練條件。

01.

具身機器人的天花板：它只會模仿，不會思考

要理解這次合作試圖解決的問題，需要先理解當前具身智能訓練的根本困境。

當前具身智能的主流訓練方式，更像是一種人類模仿教育：工程師預先設定任務路徑，系統照著執行，遇到路徑外的情況就失效。

更深層的問題在于：具身機器人并不知道自己做的事情是成功的還是失敗的。馬揚用了一個類比：就像家里0到2歲的嬰兒，模仿大人做了一個動作，大家鼓掌，他也很開心，但他并不知道這個動作意味著什么。當前絕大多數訓練方式，都在以人的思維方式、人設定好的對錯標準去驅動系統，系統學到的是“成功路徑”，而不是“為什么這樣做會有效”。這條路的天花板，就是人本身。

他山科技TS-V視觸融合訓練平臺

他山科技目前使用的訓練路徑，馬揚稱之為“冷啟動”（Cold Start）：先用模仿學習加仿真訓練，給系統提供大量數據，建立初步的任務執行能力。這套方法有價值，也可以滿足部分商業項目需求。但馬揚把這個階段的成果比作“60分”——不是滿分，但具備基本能力。但冷啟動的邊界是清晰的：如果具身一直在做對人的簡單模仿，它的天花板就是人；如果用人的想象力限制它，它就會被鎖死在那里。

問題因此轉向：怎么換擋？怎么從被動教育，過渡到讓具身能夠自己啟蒙、自己生成學習方法的模式？換擋的目標是具體的，讓具身在執行任務之前能夠自己想象完成過程，在執行中試錯，在不斷自我驗證的循環中形成屬于自身的方法論，而不是由人預先設定好所有路徑再讓系統照著執行。

02.

觸覺能否改寫機器人的未來？

這個換擋，需要一個底層基礎：觸覺。觸覺之所以是換擋的關鍵，在于具身要自己生成方法論，前提是必須與物理世界發生真實交互。而觸覺，正是這種真實交互得以發生的唯一通路。

馬揚在訪談中被問到一個問題：如果人只能選一種感知，會選什么？他的回答是，在幼年啟蒙階段，會選觸覺。原因在于，人的經驗產生，并不是靠坐在那里看或想象，而是通過與客觀世界的交互實踐來產生的。而與物理世界交互，改變物體在物理空間中的位置，核心依賴的就是觸覺。看一個東西、聽一個東西，不會改變它在物理世界里的位置；但凡要改變，就要通過觸覺來完成。

他山對觸覺的定位，從一開始就不是把它當作獨立的感知單元，而是理解為整個決策鏈路的一部分。馬揚用“拿水瓶”來解釋：人在拿水瓶時，眼睛先確定位置，但手一旦接觸到瓶身，人就不再盯著看了。從接觸那一刻開始，觸覺接管了整個執行過程，手指逐個碰到瓶身，感知是否穩，哪邊不穩就在哪邊加力，整個過程不需要回到大腦重新計算。大腦負責整體規劃，手端一旦建立接觸，觸覺就在局部完成感知—決策—調整的閉環。

他山科技TS-V視觸融合訓練平臺

這個理解直接決定了硬件設計取向。馬揚的判斷是：人的手指并不精確感知自己施了多少牛的力，但人能解決問題。觸覺模組需要復現的，是這種特性，而不是單純追求精度的極限。因此他山將重點轉向測量的重復性和穩定性，以及時間密度，即單位時間內能完成多少次有效的感知與決策循環。同時，魯棒性是另一個核心工程挑戰：人手指長繭，本質上是為了應對耐久性問題，在任何環境下持續工作不產生損壞。觸覺模組面臨同樣的挑戰，換了環境、產生磨損之后，信號不能出現漂移。解決這個方向上的問題，是他山在產品設計上重點投入的工作，也是他山認為真正下場之后最重要的工程問題。

薩頓在參觀搭載他山觸覺解決方案的靈巧手演示后說：“我原以為，這么高精度的觸覺感知技術至少還要5年才能落地。“他的判斷是，觸覺感知是機器人持續學習的基礎，基于觸覺的持續學習會徹底改寫機器人的未來。這個評價指向的不只是硬件本身，而是他山試圖解決的那個更大的問題：讓具身在執行過程中，真正形成自己的感知—決策閉環，而不是依賴人預先設定好的每一步。

03.

強化學習的經驗時代--用真實交互超越人類知識邊界

薩頓的核心貢獻,不只是一套數學框架,而是一種關于智能本質的判斷:真正的智能,不是對已有知識的復現,而是通過與環境的持續交互,在獎勵與懲罰的驅動下，主動生成對世界的理解。

圖靈獎得主理查德·薩頓

他明確指出，以RLHF為代表的“人類數據驅動”范式雖然實現了行為廣度的飛躍，但同時給智能體設定了一個隱性上限：它無法超越人類已有的知識邊界。未來AI真正的轉折點，在于從“人類數據時代”跨入“經驗時代”，讓智能體通過與環境的持續交互自主產生數據，在獎勵機制驅動下，生成超越人類預設的行為與認知能力。

在簽約儀式上，薩頓進一步闡述了這一理念背后的現實意義：

“我們正在探索一個非常引人注目的假設，即與世界的互動、從經驗中學習，尤其是通過機器人與物理世界的互動，獲得豐富的反饋和細致的交流，是實現人工智能的關鍵。我認為，我們有很大的機會真正理解人類的思維，并通過技術重新創造它。這就是人工智能的夢想。"

“早在我們讀研究生的時候，有些教授就提出：我們應該制造一個像嬰兒一樣的機器人，讓它能與世界互動并通過經驗成長。這個想法當時常被討論，但幾乎不可能實現。而到了現代,我們有了足夠的計算能力，也有了足夠多與機器人和硬件打交道的經驗。”

觸覺正是這個閉環中的核心。它既是機器人改變物理世界的唯一通道，也是強化學習得以真正運轉的獎勵來源。而這條路徑的工程化落地，指向一個具體問題：機器人需要一個真實的場所，持續執行交互、積累經驗。理論和硬件都已就位，缺少的是讓它們協同運轉的訓練環境。

這個地方，就是“機器人幼兒園”。

04.

他山和薩頓要共建一所“機器人幼兒園”，讓具身自想自學

有了觸覺作為交互閉環的底層基礎，“機器人幼兒園"的訓練路徑才得以成立。這個訓練場所的核心設計是：在高度擬真的園區內布置工具、食物、植物等真實物品，讓多臺具身本體自由穿梭、主動探索，通過真實與仿真環境的結合，持續積累可記錄、可分析的交互數據。未來甚至計劃讓其進入園區商店買東西、幫人拿東西，與真實世界產生直接交互。碰撞與失敗在所難免，而這個過程，正是經驗積累的核心來源。

簽約儀式現場

多臺具身共同訓練的設計，有一個來自實際觀察的直接依據。馬揚在訪談中提到，他山在訓練過程中，曾出現一臺具身在關一扇較重的門時關不上，自發“叫來”另一臺具身幫忙按住門，自己再去扣上門扣的情況。這件事讓馬揚感到興奮，具身在沒有人為設定的情況下，自主產生了協作行為。薩頓聽到這個案例后，聯想到AlphaGo自我對弈的邏輯：兩個智能體之間相互博弈、相互促進，正是因為每個本體都存在“不想輸”的內在驅動力。多臺具身共同訓練，本質上是在復現這種機制，用本體之間的交互，替代人為設定的獎勵信號。

在與薩頓的討論中，馬揚反復強調的核心觀點是：要讓機器人能夠去做自主的學習。

“模仿學習也好，包括人去遙操的一些數據也是非常重要的一部分，但是最終能夠推動機器去真正實現能夠去干活、能夠去有效地走到產業化，一定是他通過自主學習來完成。”馬揚說，“這一點對薩頓是非常有吸引力的。”

薩頓在近期的研究中也在強調，要讓機器人實現這種自主經驗的學習。雙方在這個觀點上不謀而合。

馬揚進一步解釋了這種自主學習的本質：“對于具身來講，最重要最核心的，就是能想象到一個我要去做這件事情的一個過程，然后我去測試、去實習、去做，然后在這個過程中推導出一個結論，在不斷的自己的想象來去驗證的這個過程中，形成對于自身的方法論。”

他用了一個類比來說明這個過程：“像幼兒園到小學階段，老師會介入給你一些指導，但你自己真正能學習這個東西的過程，其實是出于你自己自發的一個驅動力來完成的——自己能制定目標，預演過程，預判結果，這就是我們說人有想象力。”

對于具身來說，這意味著它要具備一定的想象能力，要自己去想“我的這個任務的完成的過程是怎么樣的”，然后在完成的過程中去試錯，而不是由人給它設定好所有的操作模式及路徑軌跡。

薩頓認為，現在更多的是給機器人創造一個環境，讓它能夠去完成“正確的事情”。但真正能夠給機器人帶來訓練的，反而是它自己在探索過程中更多的錯誤的事情。

馬揚對此深表認同：“最終機器人要能夠真實地干活，一定是他通過不斷的試錯來去劃定自己的邊界。”

在這件事情上，雙方的看法非常一致：讓機器人在真實環境中積極交互，在人機交互的過程中，能夠從自身的經驗中學習。

05.

數十臺機器人、異構本體、跨物種遷移：當底層邏輯跨越本體形態

讓機器人自主學習解決的是單一本體內的能力生成問題。但行業還面臨另一個結構性障礙，即不同本體之間，訓練邏輯如何遷移？

當前行業里普遍存在硬件孤島問題：不同廠商的本體結構不同，訓練方法不同，同一套訓練邏輯遷移到不同本體上，成本很高。在與薩頓討論之前，他山今年的工作重心，是嘗試在數據到本體的遷移上同時解決泛化性與數據質量兩個問題。

他山科技觸覺感知方案自適應抓取精準完成抓取-移送-遞交

具體思路是：兩指夾爪的訓練用兩指夾爪的數據，五指手的訓練用五指手的數據，不同本體需要對應形態的經驗積累。馬揚判斷，這個思路在未來一到兩年內依然是行業主流。但這條路有一個內在的限制：它預設了本體形態決定訓練數據的邊界，不同形態之間的遷移成本始終存在。

與薩頓溝通之后，馬揚對這個問題有了新的思考角度。如果具身能夠自己生成底層的交互邏輯，本體異構就不再是數據遷移的障礙，此時的模型是一個元方法（Meta method），不同本體基于這個元方法去拓展就可以了。

馬揚再次用“拿水瓶”來解釋這個邏輯：人在拿水瓶時，有幾根手指、手有多少自由度，不是核心變量。核心是底層的交互邏輯，如何從接觸出發，通過持續反饋完成任務。正是因為這套底層邏輯的存在，人換了手套、少了一只手，試錯成本依然很低，因為大腦能自己解構任務，再用當前的本體去驗證。

這套邏輯的遷移能力甚至跨越了物種邊界，狗或貓看到人拿起一個東西，能很快理解這個動作的意思，并嘗試用自己完全不同的本體去完成類似的事。這個現象指向一個原理：當底層交互邏輯足夠穩定，遷移能力就不再被本體形態所限定。

前者（人換手套仍能完成任務）說明執行層面的底層邏輯與本體無關；后者（跨物種理解與模仿）說明學習層面的遷移能力同樣與本體結構關系不大。兩個例子從不同角度指向同一個結論：智能體的能力邊界，并不由本體形態來劃定，前提是，這套底層邏輯已經形成。

在這個邏輯尚未形成之前，本體的簡單性仍然重要，變量越少，早期的經驗積累越清晰。因此幼兒園初期計劃中，大部分本體會采用統一規格，目的是控制變量。初步計劃在訓練環境中放置約數十臺具身本體，其中較大部分為統一規格，同時歡迎上下游合作方的異構本體接入，在同一環境內共同參與訓練。

06.

結語與未來：

馬揚在訪談中也進一步明確了這件事的邊界：“我們不是要在這里建一個封閉的研究院，我們現在做的是對于具身的一種啟蒙，而在這個過程中，誰掌握了一個更好的教育方法，誰就能比別人走得更快一些。但方法論本身，不可能構成什么特別明確的壁壘。"

他山科技CEO馬揚

在他看來，這件事的價值不在于獨占，而在于能否被放大：“如果做出來的東西真正有效，推開來形成行業標準，比鎖起來的意義要大得多。這是他山將研究成果盡可能開放的根本原因。”

基于這一理念，他山科技正式面向全行業發起“機器人幼兒園”生態共建計劃，廣泛招募合作伙伴，無論是機器人整機企業、具身智能研發團隊、高校科研院所，還是核心零部件廠商、算法與數據服務商、行業應用方，都是這個平臺希望接入的力量。他山的判斷是：這件事靠一家公司做不完，也不應該由一家公司獨占，打通技術、數據、場景與人才的協同鏈路，才能讓“機器人幼兒園”真正成為行業級的基礎設施。

如果“機器人幼兒園”最終能沉淀出一套通用訓練范式，受益的就不只是他山一家。觸覺數據的采集標準、多階段學習的課程設計、跨場景遷移的評估方法，這些一旦開放，就能讓后來者在物理世界訓練具身智能的門檻系統性降低。這才是他山所說“行業級基礎設施”的真實含義。

馬揚最后說：“這件事還沒有做完，很多問題我現在也沒有完全想清楚。但我們在做，在試，在開放地討論，這件事本來就沒有標準答案，邊做邊想，反而是最誠實的方式。”

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.