![]()
不知不覺,2026年已經(jīng)過去了四分之一了。。。
不知道大伙兒是啥感覺,反正自從開年以來,世超總能刷到各種機(jī)器人。今天開幕式上露個臉,明天路演現(xiàn)場走兩步,到處刷存在感。
尤其是從春晚那波機(jī)器人武術(shù)出圈之后,很多人都覺得,這玩意兒的發(fā)展速度是不是有點太快了,去年還在轉(zhuǎn)手絹,今年已經(jīng)能給人類上強(qiáng)度了。。。
![]()
不過,我也看到有人說,這些走兩步路、跳個舞的機(jī)器人其實沒啥技術(shù)含量,說白了就是個大型遙控玩具。
誒,原來讓機(jī)器人動起來很容易嗎,那豈不是我上我也行?
為了搞清楚這事兒,這回世超干脆借來了一臺雙足機(jī)器人,準(zhǔn)備親自訓(xùn)練點新動作,看看這個類人形機(jī)器人,能玩出多少花活兒。
剛一搬進(jìn)屋,新同事就被好奇的老登們圍了個水泄不通。
大伙兒四足的、人形的在辦公室里見怪不怪,全身只有兩條腿的還是第一次見,紛紛主動列隊歡迎。
![]()
世超 py 來的這個機(jī)器人叫 TRON 1,是目前構(gòu)型最精簡的雙足機(jī)器人。翻了翻說明書,這家伙每條腿上各有三個關(guān)節(jié),對應(yīng)三個電機(jī)。
相比那些動輒幾十個關(guān)節(jié)的人形機(jī)器人,這種雙足機(jī)器人,更適合拿來研究一個最底層的問題:
兩條腿,怎么在真實世界里穩(wěn)定地走。
按理說,我只要把這兩條腿上,6 個電機(jī)安排明白,就能控制它做出想要的動作。比如電機(jī)轉(zhuǎn)得快一點,腿就抬得快一點;角度大一點,腿就抬高一點。
![]()
看起來沒啥難度對吧,搞清楚基本工作原理,咱先從最基本的走路學(xué)起,練個手。
想訓(xùn)練一個機(jī)器人在現(xiàn)實里做動作,第一步,得先讓它在虛擬環(huán)境里動起來。
創(chuàng)建一個 Isaac Gym 仿真環(huán)境,在這里,你可以一次性拉出成千上萬個一模一樣的機(jī)器人,讓它們同時摔、同時犯錯,快速成長,訓(xùn)練效率直線提升。
![]()
而有了訓(xùn)練的環(huán)境,咱又來到了第二關(guān)。讓機(jī)器人成功走起來的核心,其實是一套合理的獎懲機(jī)制。
在這里,世超采用了比較基礎(chǔ)的強(qiáng)化學(xué)習(xí) PPO 算法。大伙兒可以把這個過程理解成蘿卜紙巾真蚌,做好了,及時給獎勵,做錯了,就得懲罰。
而機(jī)器人和人一樣,學(xué)習(xí),是一個循序漸進(jìn)的過程。要想學(xué)花活兒,得先把走路學(xué)明白,穩(wěn)定不摔倒。未經(jīng)訓(xùn)練的機(jī)器人非常怠惰,只會迅速陷入嬰兒般的睡眠。
所以,一套訓(xùn)練程序里,十八個獎勵函數(shù),只有三個是給糖吃的:站穩(wěn)、按給定方向移動、按固定方向移動,其它十五個全負(fù)責(zé)抽皮鞭。
![]()
雙腿并攏,罰。腳沒著地,罰。頭著地了,罰。
![]()
訓(xùn)練了一會兒,不走直線,罰。走得太慢,罰。方向錯了,罰。
![]()
什么,你問獎勵給這么少是不是虐待機(jī)器人?真不是我們不想給,這么做也是為它好。
獎勵給得太多,很容易讓機(jī)器人鉆空子,學(xué)不到有用的本事。比如,要是不摔就給獎勵,那機(jī)器人大概率會避開走路摔倒的風(fēng)險,原地罰站。
很快,只要兩三個小時的訓(xùn)練,機(jī)器人順利地走起來了。
![]()
其實直到這里,世超已經(jīng)通過 TRON 1,完整地體驗了一遍機(jī)器人走路的強(qiáng)化學(xué)習(xí)入門級流程。
有一說一,確實不算難。只要大伙兒有點編程基礎(chǔ),摸索摸索,做出點好看的成果還是很快的,還相當(dāng)有成就感。
如果事情只停在這里,那機(jī)器人可能確實是個大玩具。
然而,當(dāng)世超想開始第二階段的拷打,搞點新東西的時候,事情就沒那么簡單了。。。
這一次,我們設(shè)計了 3 個新的獎勵函數(shù)來讓它走得更有難度:機(jī)器人的腿離地面過近、膝蓋彎曲的角度不對、每步走得太短都不行。
![]()
有了這些函數(shù),機(jī)器人走路的時候腿會抬得更高,走路的姿勢會變得完全不一樣。
大概四五個小時后,世超給機(jī)器人準(zhǔn)備的新動作也誕生了。以后它走路得邊跳邊走,年輕人,有活力一點。
![]()
模型準(zhǔn)備就緒,模擬世界里一切正常,機(jī)器人學(xué)得很好。
接下來,只要把這個訓(xùn)練好的模型,通過一根網(wǎng)線,傳遞到機(jī)器人的身上。。。
等等,事情開始不對勁了。
把虛擬環(huán)境里的算法移植給現(xiàn)實里的真機(jī)器人,才是地獄的開端。
![]()
當(dāng)那套在模擬器里跑得一點沒毛病的模型注入真機(jī),你會發(fā)現(xiàn)電腦里絲滑的步態(tài),到現(xiàn)實里全變成了水土不服。
真實物理世界里,地面變化的摩擦力、機(jī)器人重心變化、傳感器的延遲。。。這些微小的變量在幾十斤重的鐵疙瘩身上會無限放大。
世超試了五六次,它依然腳抬不起來,腿邁不開,時不時原地抽搐。
![]()
巨大的聲響,甚至還把金毛火鍋嚇哭了。。。
![]()
沒招了,咱只好向場外求救。聽完逐際動力工程師 Brandon 的解釋,我才意識到,這就是具身智能最難的地方 —— 把看似完美的虛擬模型,搬到殘酷復(fù)雜的現(xiàn)實世界。
往好里說,現(xiàn)在這套模型也許不是完全沒戲。
它就像買彩票,你反復(fù)跑上成百上千次實驗,只要有一次,環(huán)境、參數(shù)、運(yùn)氣全對上了,機(jī)器人也能站起來、踉踉蹌蹌走兩步。
但更常見的情況,是模型本身有問題。這時候,我們得把模型回爐重造,修改獎懲機(jī)制繼續(xù)練習(xí)。
甚至存在很大可能,我們再花幾十小時搞出來的新東西,還不如老模型效果好。例如你可能設(shè)置了抬高腿的新獎勵,結(jié)果直接導(dǎo)致機(jī)器人重心不穩(wěn)。一個 bug 的修復(fù),往往會引入更多的 bug。
另外,很反直覺的是,即使在模擬環(huán)境里做到 100% 好,對真機(jī)也不一定是好事。
因為它可能早早地過擬合,只在嚴(yán)格的特定環(huán)境下才好用。
![]()
跑完整個機(jī)器人培訓(xùn)流程,世超才發(fā)現(xiàn)我們對它有很多誤解。即使是一個簡單重復(fù)的走路動作,一旦要讓它在真的機(jī)器人上絲滑運(yùn)行,也絕對不是一朝一夕的事。
而大伙兒平常快看膩了的各種跳舞、導(dǎo)覽、巡邏功能,往往需要更多的數(shù)據(jù)、更復(fù)雜的訓(xùn)練手法、面對更變幻莫測的真機(jī)反應(yīng)。
機(jī)器人看起來像個大遙控玩具,并不是因為它技術(shù)含量低,而是因為真正難的那部分很少被拍出來。
不管是昂貴的數(shù)據(jù)采集,還是模型一遍又一遍以小時為計的訓(xùn)練調(diào)整,亦或是彌合虛擬世界到真實機(jī)器人的巨大鴻溝,都需要有經(jīng)驗的工程師來反復(fù)實驗,反復(fù)調(diào)試,花費大量金錢和時間,才能保證次次成功,穩(wěn)定運(yùn)行。
當(dāng)然,肯定有差友忍不住問一句:這機(jī)器人就兩條腿,能干的事這么少,就算真把它做成了,又有什么用?
逐際動力團(tuán)隊是這樣向我們解釋的,像 TRON 1 這類機(jī)器人,一方面能在游樂園里讓已經(jīng)滅絕的恐龍“動起來”,在火車站、機(jī)場這種人多的環(huán)境去巡邏,在大型設(shè)備進(jìn)不去的危險環(huán)境作業(yè),用小小很可愛的優(yōu)勢補(bǔ)位;
![]()
但更重要的價值,并不在立刻能干多少活,而是在科研本身。
同樣是研究兩條腿怎么走,在 TRON 1 這種只有兩條腿的機(jī)器人上實驗,成本更低、迭代更快。一旦這些底層規(guī)律被跑通,就能類比遷移到更復(fù)雜的人形機(jī)器人上,相當(dāng)于先用小號模型把坑都踩完。
科研離生活很遠(yuǎn),但沒有科研機(jī)器人,它們永遠(yuǎn)不可能走進(jìn)生活。
![]()
如果把時間拉長一點看,這些機(jī)器人的確談不上有用,但研究過程中留下來的方法、經(jīng)驗、模型和理論依據(jù)不會消失,它們會一層層墊在所有后來機(jī)器人腳下。
![]()
機(jī)器人能走到今天,本身就是一條漫長又不容易的技術(shù)積累之路。
我們不如換個角度想,人類進(jìn)化到可以直立行走,至少經(jīng)過了幾百萬年。早期想造出一個會走路的機(jī)器人,以早稻田大學(xué) WABOT 為例,也是數(shù)以年計。而現(xiàn)在,就像世超這樣的非專業(yè)工程師,只需要不到一天,就能教會一個鐵疙瘩穩(wěn)穩(wěn)走起來。
![]()
從這個意義上說,看似干啥啥不行的機(jī)器人,已經(jīng)超過人了。
所以,趁著這幫鐵疙瘩現(xiàn)在還只會點地板 breaking,世超建議大伙兒還是對它們客氣點。
畢竟當(dāng)機(jī)器人學(xué)啥都只要一天不到的時候,被嚇哭的可能就不止是火鍋了。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.