无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

機器人幼兒園五年計劃啟動!他山科技與強化學習之父要驗證什么?

0
分享至

2026年5月11日,加拿大埃德蒙頓,他山科技CEO馬揚與圖靈獎得主、強化學習奠基人理查德·薩頓(Richard Sutton)正式簽署戰略合作協議,共同啟動“機器人幼兒園”項目。



這是薩頓2023年創辦非營利研究機構Openmind Global Research后,在具身智能領域落地的首個系統性合作計劃。雙方初步規劃該項目定性為研發平臺,合作周期為五年,研究成果將逐步向行業開放。

“機器人幼兒園”這一名稱不是比喻,而是對功能的直接描述:在一個物理空間內,部署多臺具身本體,在真實環境與仿真環境的混合條件下,持續產生可記錄、可分析的交互經驗。其目標,是為具身智能提供從被動模仿向主動生成學習方法過渡的訓練條件。

01.

具身機器人的天花板:它只會模仿,不會思考

要理解這次合作試圖解決的問題,需要先理解當前具身智能訓練的根本困境。

當前具身智能的主流訓練方式,更像是一種人類模仿教育:工程師預先設定任務路徑,系統照著執行,遇到路徑外的情況就失效。

更深層的問題在于:具身機器人并不知道自己做的事情是成功的還是失敗的。馬揚用了一個類比:就像家里0到2歲的嬰兒,模仿大人做了一個動作,大家鼓掌,他也很開心,但他并不知道這個動作意味著什么。當前絕大多數訓練方式,都在以人的思維方式、人設定好的對錯標準去驅動系統,系統學到的是“成功路徑”,而不是“為什么這樣做會有效”。這條路的天花板,就是人本身。



他山科技TS-V視觸融合訓練平臺

他山科技目前使用的訓練路徑,馬揚稱之為“冷啟動”(Cold Start):先用模仿學習加仿真訓練,給系統提供大量數據,建立初步的任務執行能力。這套方法有價值,也可以滿足部分商業項目需求。但馬揚把這個階段的成果比作“60分”——不是滿分,但具備基本能力。但冷啟動的邊界是清晰的:如果具身一直在做對人的簡單模仿,它的天花板就是人;如果用人的想象力限制它,它就會被鎖死在那里。

問題因此轉向:怎么換擋?怎么從被動教育,過渡到讓具身能夠自己啟蒙、自己生成學習方法的模式?換擋的目標是具體的,讓具身在執行任務之前能夠自己想象完成過程,在執行中試錯,在不斷自我驗證的循環中形成屬于自身的方法論,而不是由人預先設定好所有路徑再讓系統照著執行。

02.

觸覺能否改寫機器人的未來?

這個換擋,需要一個底層基礎:觸覺。觸覺之所以是換擋的關鍵,在于具身要自己生成方法論,前提是必須與物理世界發生真實交互。而觸覺,正是這種真實交互得以發生的唯一通路。

馬揚在訪談中被問到一個問題:如果人只能選一種感知,會選什么?他的回答是,在幼年啟蒙階段,會選觸覺。原因在于,人的經驗產生,并不是靠坐在那里看或想象,而是通過與客觀世界的交互實踐來產生的。而與物理世界交互,改變物體在物理空間中的位置,核心依賴的就是觸覺。看一個東西、聽一個東西,不會改變它在物理世界里的位置;但凡要改變,就要通過觸覺來完成。

他山對觸覺的定位,從一開始就不是把它當作獨立的感知單元,而是理解為整個決策鏈路的一部分。馬揚用“拿水瓶”來解釋:人在拿水瓶時,眼睛先確定位置,但手一旦接觸到瓶身,人就不再盯著看了。從接觸那一刻開始,觸覺接管了整個執行過程,手指逐個碰到瓶身,感知是否穩,哪邊不穩就在哪邊加力,整個過程不需要回到大腦重新計算。大腦負責整體規劃,手端一旦建立接觸,觸覺就在局部完成感知—決策—調整的閉環。

他山科技TS-V視觸融合訓練平臺

這個理解直接決定了硬件設計取向。馬揚的判斷是:人的手指并不精確感知自己施了多少牛的力,但人能解決問題。觸覺模組需要復現的,是這種特性,而不是單純追求精度的極限。因此他山將重點轉向測量的重復性和穩定性,以及時間密度,即單位時間內能完成多少次有效的感知與決策循環。同時,魯棒性是另一個核心工程挑戰:人手指長繭,本質上是為了應對耐久性問題,在任何環境下持續工作不產生損壞。觸覺模組面臨同樣的挑戰,換了環境、產生磨損之后,信號不能出現漂移。解決這個方向上的問題,是他山在產品設計上重點投入的工作,也是他山認為真正下場之后最重要的工程問題。

薩頓在參觀搭載他山觸覺解決方案的靈巧手演示后說:“我原以為,這么高精度的觸覺感知技術至少還要5年才能落地。“他的判斷是,觸覺感知是機器人持續學習的基礎,基于觸覺的持續學習會徹底改寫機器人的未來。這個評價指向的不只是硬件本身,而是他山試圖解決的那個更大的問題:讓具身在執行過程中,真正形成自己的感知—決策閉環,而不是依賴人預先設定好的每一步。

03.

強化學習的經驗時代--用真實交互超越人類知識邊界

薩頓的核心貢獻,不只是一套數學框架,而是一種關于智能本質的判斷:真正的智能,不是對已有知識的復現,而是通過與環境的持續交互,在獎勵與懲罰的驅動下,主動生成對世界的理解。



圖靈獎得主理查德·薩頓

他明確指出,以RLHF為代表的“人類數據驅動”范式雖然實現了行為廣度的飛躍,但同時給智能體設定了一個隱性上限:它無法超越人類已有的知識邊界。未來AI真正的轉折點,在于從“人類數據時代”跨入“經驗時代”,讓智能體通過與環境的持續交互自主產生數據,在獎勵機制驅動下,生成超越人類預設的行為與認知能力。

在簽約儀式上,薩頓進一步闡述了這一理念背后的現實意義:

“我們正在探索一個非常引人注目的假設,即與世界的互動、從經驗中學習,尤其是通過機器人與物理世界的互動,獲得豐富的反饋和細致的交流,是實現人工智能的關鍵。我認為,我們有很大的機會真正理解人類的思維,并通過技術重新創造它。這就是人工智能的夢想。"

“早在我們讀研究生的時候,有些教授就提出:我們應該制造一個像嬰兒一樣的機器人,讓它能與世界互動并通過經驗成長。這個想法當時常被討論,但幾乎不可能實現。而到了現代,我們有了足夠的計算能力,也有了足夠多與機器人和硬件打交道的經驗。”

觸覺正是這個閉環中的核心。它既是機器人改變物理世界的唯一通道,也是強化學習得以真正運轉的獎勵來源。而這條路徑的工程化落地,指向一個具體問題:機器人需要一個真實的場所,持續執行交互、積累經驗。理論和硬件都已就位,缺少的是讓它們協同運轉的訓練環境。

這個地方,就是“機器人幼兒園”。

04.

他山和薩頓要共建一所“機器人幼兒園”,讓具身自想自學

有了觸覺作為交互閉環的底層基礎,“機器人幼兒園"的訓練路徑才得以成立。這個訓練場所的核心設計是:在高度擬真的園區內布置工具、食物、植物等真實物品,讓多臺具身本體自由穿梭、主動探索,通過真實與仿真環境的結合,持續積累可記錄、可分析的交互數據。未來甚至計劃讓其進入園區商店買東西、幫人拿東西,與真實世界產生直接交互。碰撞與失敗在所難免,而這個過程,正是經驗積累的核心來源。



簽約儀式現場

多臺具身共同訓練的設計,有一個來自實際觀察的直接依據。馬揚在訪談中提到,他山在訓練過程中,曾出現一臺具身在關一扇較重的門時關不上,自發“叫來”另一臺具身幫忙按住門,自己再去扣上門扣的情況。這件事讓馬揚感到興奮,具身在沒有人為設定的情況下,自主產生了協作行為。薩頓聽到這個案例后,聯想到AlphaGo自我對弈的邏輯:兩個智能體之間相互博弈、相互促進,正是因為每個本體都存在“不想輸”的內在驅動力。多臺具身共同訓練,本質上是在復現這種機制,用本體之間的交互,替代人為設定的獎勵信號。

在與薩頓的討論中,馬揚反復強調的核心觀點是:要讓機器人能夠去做自主的學習。

“模仿學習也好,包括人去遙操的一些數據也是非常重要的一部分,但是最終能夠推動機器去真正實現能夠去干活、能夠去有效地走到產業化,一定是他通過自主學習來完成。”馬揚說,“這一點對薩頓是非常有吸引力的。”

薩頓在近期的研究中也在強調,要讓機器人實現這種自主經驗的學習。雙方在這個觀點上不謀而合。

馬揚進一步解釋了這種自主學習的本質:“對于具身來講,最重要最核心的,就是能想象到一個我要去做這件事情的一個過程,然后我去測試、去實習、去做,然后在這個過程中推導出一個結論,在不斷的自己的想象來去驗證的這個過程中,形成對于自身的方法論。”

他用了一個類比來說明這個過程:“像幼兒園到小學階段,老師會介入給你一些指導,但你自己真正能學習這個東西的過程,其實是出于你自己自發的一個驅動力來完成的——自己能制定目標,預演過程,預判結果,這就是我們說人有想象力。”

對于具身來說,這意味著它要具備一定的想象能力,要自己去想“我的這個任務的完成的過程是怎么樣的”,然后在完成的過程中去試錯,而不是由人給它設定好所有的操作模式及路徑軌跡。

薩頓認為,現在更多的是給機器人創造一個環境,讓它能夠去完成“正確的事情”。但真正能夠給機器人帶來訓練的,反而是它自己在探索過程中更多的錯誤的事情。

馬揚對此深表認同:“最終機器人要能夠真實地干活,一定是他通過不斷的試錯來去劃定自己的邊界。”

在這件事情上,雙方的看法非常一致:讓機器人在真實環境中積極交互,在人機交互的過程中,能夠從自身的經驗中學習。

05.

數十臺機器人、異構本體、跨物種遷移:當底層邏輯跨越本體形態

讓機器人自主學習解決的是單一本體內的能力生成問題。但行業還面臨另一個結構性障礙,即不同本體之間,訓練邏輯如何遷移?

當前行業里普遍存在硬件孤島問題:不同廠商的本體結構不同,訓練方法不同,同一套訓練邏輯遷移到不同本體上,成本很高。在與薩頓討論之前,他山今年的工作重心,是嘗試在數據到本體的遷移上同時解決泛化性與數據質量兩個問題。



他山科技觸覺感知方案自適應抓取精準完成抓取-移送-遞交

具體思路是:兩指夾爪的訓練用兩指夾爪的數據,五指手的訓練用五指手的數據,不同本體需要對應形態的經驗積累。馬揚判斷,這個思路在未來一到兩年內依然是行業主流。但這條路有一個內在的限制:它預設了本體形態決定訓練數據的邊界,不同形態之間的遷移成本始終存在。

與薩頓溝通之后,馬揚對這個問題有了新的思考角度。如果具身能夠自己生成底層的交互邏輯,本體異構就不再是數據遷移的障礙,此時的模型是一個元方法(Meta method),不同本體基于這個元方法去拓展就可以了。

馬揚再次用“拿水瓶”來解釋這個邏輯:人在拿水瓶時,有幾根手指、手有多少自由度,不是核心變量。核心是底層的交互邏輯,如何從接觸出發,通過持續反饋完成任務。正是因為這套底層邏輯的存在,人換了手套、少了一只手,試錯成本依然很低,因為大腦能自己解構任務,再用當前的本體去驗證。

這套邏輯的遷移能力甚至跨越了物種邊界,狗或貓看到人拿起一個東西,能很快理解這個動作的意思,并嘗試用自己完全不同的本體去完成類似的事。這個現象指向一個原理:當底層交互邏輯足夠穩定,遷移能力就不再被本體形態所限定。

前者(人換手套仍能完成任務)說明執行層面的底層邏輯與本體無關;后者(跨物種理解與模仿)說明學習層面的遷移能力同樣與本體結構關系不大。兩個例子從不同角度指向同一個結論:智能體的能力邊界,并不由本體形態來劃定,前提是,這套底層邏輯已經形成。

在這個邏輯尚未形成之前,本體的簡單性仍然重要,變量越少,早期的經驗積累越清晰。因此幼兒園初期計劃中,大部分本體會采用統一規格,目的是控制變量。初步計劃在訓練環境中放置約數十臺具身本體,其中較大部分為統一規格,同時歡迎上下游合作方的異構本體接入,在同一環境內共同參與訓練。

06.

結語與未來:

馬揚在訪談中也進一步明確了這件事的邊界:“我們不是要在這里建一個封閉的研究院,我們現在做的是對于具身的一種啟蒙,而在這個過程中,誰掌握了一個更好的教育方法,誰就能比別人走得更快一些。但方法論本身,不可能構成什么特別明確的壁壘。"



他山科技CEO馬揚

在他看來,這件事的價值不在于獨占,而在于能否被放大:“如果做出來的東西真正有效,推開來形成行業標準,比鎖起來的意義要大得多。這是他山將研究成果盡可能開放的根本原因。”

基于這一理念,他山科技正式面向全行業發起“機器人幼兒園”生態共建計劃,廣泛招募合作伙伴,無論是機器人整機企業、具身智能研發團隊、高校科研院所,還是核心零部件廠商、算法與數據服務商、行業應用方,都是這個平臺希望接入的力量。他山的判斷是:這件事靠一家公司做不完,也不應該由一家公司獨占,打通技術、數據、場景與人才的協同鏈路,才能讓“機器人幼兒園”真正成為行業級的基礎設施。

如果“機器人幼兒園”最終能沉淀出一套通用訓練范式,受益的就不只是他山一家。觸覺數據的采集標準、多階段學習的課程設計、跨場景遷移的評估方法,這些一旦開放,就能讓后來者在物理世界訓練具身智能的門檻系統性降低。這才是他山所說“行業級基礎設施”的真實含義。

馬揚最后說:“這件事還沒有做完,很多問題我現在也沒有完全想清楚。但我們在做,在試,在開放地討論,這件事本來就沒有標準答案,邊做邊想,反而是最誠實的方式。”

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
上海樓市爆了!

上海樓市爆了!

地產觀點
2026-06-11 11:38:44
這兩位中國女排有望成為世界球星,但一個集萬千寵愛,一個被質疑

這兩位中國女排有望成為世界球星,但一個集萬千寵愛,一個被質疑

夢史
2026-06-12 02:14:31
走投無路?哈里欲帶全家逃離美國定居澳洲,查爾斯的態度成關鍵

走投無路?哈里欲帶全家逃離美國定居澳洲,查爾斯的態度成關鍵

白露文娛志
2026-06-11 16:38:09
廣西河池市金城江區正處級干部韋琪被查

廣西河池市金城江區正處級干部韋琪被查

環球網資訊
2026-06-11 17:48:07
上陣親兄弟 2026世界杯共7對兄弟 其中4對效力不同國家 1對不同姓

上陣親兄弟 2026世界杯共7對兄弟 其中4對效力不同國家 1對不同姓

智道足球
2026-06-11 11:36:34
越打越好!究竟是誰教會了伊朗打仗?有三種可能

越打越好!究竟是誰教會了伊朗打仗?有三種可能

清歡百味
2026-06-11 03:52:38
五臺山“尼姑”人數激增,個個貌美如花,她們選擇出家到底圖個啥

五臺山“尼姑”人數激增,個個貌美如花,她們選擇出家到底圖個啥

今朝牛馬
2026-06-10 22:55:48
程序員最擔心的事發生了!騰訊高管爆料:今年騰訊大部分代碼已由AI生成!

程序員最擔心的事發生了!騰訊高管爆料:今年騰訊大部分代碼已由AI生成!

新浪財經
2026-06-10 18:05:25
【微特稿】墨西哥5名警察世界杯前夕遭槍殺

【微特稿】墨西哥5名警察世界杯前夕遭槍殺

新華社
2026-06-11 11:23:12
少林寺新方丈釋印樂,上任才10個月,寺院賬面少了800多萬

少林寺新方丈釋印樂,上任才10個月,寺院賬面少了800多萬

做一個合格的吃瓜群眾
2026-06-08 18:54:58
中國女排兩人有望成為世界球星! 一個被所有人寵愛,一人卻被質疑

中國女排兩人有望成為世界球星! 一個被所有人寵愛,一人卻被質疑

冷紫葉
2026-06-11 20:23:15
霍爾木茲大消息,伊朗向試圖通過的船只開火!特朗普:秘密幫200多艘商船、1億桶石油通過!美軍向油輪開火致多人失蹤,國際海事組織譴責

霍爾木茲大消息,伊朗向試圖通過的船只開火!特朗普:秘密幫200多艘商船、1億桶石油通過!美軍向油輪開火致多人失蹤,國際海事組織譴責

每日經濟新聞
2026-06-11 07:58:08
馬刺球迷意難平!不止因為106-107尼克斯,更多在于以下這五點!

馬刺球迷意難平!不止因為106-107尼克斯,更多在于以下這五點!

田先生籃球
2026-06-11 12:56:56
杭州男子失戀游湖南,遇苗族婚宴隨禮1000入席,離場卻被伴娘攔下

杭州男子失戀游湖南,遇苗族婚宴隨禮1000入席,離場卻被伴娘攔下

蘭姐說故事
2025-06-09 10:00:07
WTT薩格勒布賽:國乒女隊連輸日本3場!張本美和/大藤沙月狂轟3-0

WTT薩格勒布賽:國乒女隊連輸日本3場!張本美和/大藤沙月狂轟3-0

全言作品
2026-06-11 23:30:09
風俗業立國,韓國比日本走得更遠,連漢江水都滿含“西地那非”

風俗業立國,韓國比日本走得更遠,連漢江水都滿含“西地那非”

阿胡
2025-05-27 11:49:20
世界杯首日預告,CCTV連播兩場,東道主破魔咒,韓國硬憾捷克

世界杯首日預告,CCTV連播兩場,東道主破魔咒,韓國硬憾捷克

呀古銅
2026-06-11 09:07:41
外媒曾言:各國都應該效仿中國,禁止使用“隱藏式”車門把手

外媒曾言:各國都應該效仿中國,禁止使用“隱藏式”車門把手

觀史搜尋著
2026-06-08 06:10:43
6.11凌晨最新戰報:國乒男隊全軍覆沒,王楚欽兩大接班人慘遭失利

6.11凌晨最新戰報:國乒男隊全軍覆沒,王楚欽兩大接班人慘遭失利

史行途
2026-06-12 02:07:45
2-5慘敗!董路暴怒:接二連三愚蠢丟球 證明中國人踢不了復雜足球

2-5慘敗!董路暴怒:接二連三愚蠢丟球 證明中國人踢不了復雜足球

風過鄉
2026-06-11 07:29:35
2026-06-12 05:04:49
機器人大講堂 incentive-icons
機器人大講堂
立德機器人平臺,是一個集媒體品牌、智庫咨詢、投資孵化、引智招商為一體的機器人垂直領域服務平臺
6689文章數 4590關注度
往期回顧 全部

科技要聞

淘寶、京東、拼多多、抖音、小紅書被約談

頭條要聞

中方對菲國防部長特奧多羅及其親屬實施制裁

頭條要聞

中方對菲國防部長特奧多羅及其親屬實施制裁

體育要聞

比起總冠軍,更大的懸念成了FMVP?

娛樂要聞

《花少8》陣容大揭秘!秒殺前一季

財經要聞

干細胞生意:17萬一針的希望

汽車要聞

傳祺向往M8 PHEV L/E8 PHEV上市 限時落地價16.84萬起

態度原創

健康
時尚
親子
游戲
本地

為什么不建議晚上吃粽子?

薄荷綠色的單品打造夏日清透感,視覺上清爽又治愈,溫柔減齡

親子要聞

歷經兩年治療,無精子癥患者家庭在滬迎健康寶寶

R星最新動態震撼來襲!玩家氣笑了:不如取消《GTA6》

本地新聞

世界杯還沒開始,蘇超已經火到爆梗

無障礙瀏覽 進入關懷版